pandaer

Hvordan bruke Boxplot i Python

Hvordan bruke Boxplot i Python
En boksplott brukes til å oppsummere datasett ved hjelp av boksen og kinneplottmetoden. Denne funksjonen hjelper brukerne til å forstå datasammendraget riktig. Boksetomter kan være veldig nyttige når vi vil vite hvordan dataene distribueres og spres. Tre typer kvartiler brukes i boksplottet for å plotte dataene. Disse verdiene inkluderer statistiske verdier for median, maksimum, minimum, øvre kvartil og nedre kvartil. Et kartplott oppsummerer disse dataene i 25th, 50th, og 75th persentiler. Denne opplæringen vil vise deg hvordan du lager ruter basert på et gitt datasett ved hjelp av pandaer og sjøfødt biblioteker av Python.

Forutsetning

Hvis du er en ny Python-bruker, må du først sette opp miljøet for å vise utdataene fra boksplottet. Du kan bruke hvilken som helst Python-tolk for å utføre koden. I denne opplæringen vil jeg bruke spyder3 for å utføre koden. Hvis du ikke har installert pandaer og sjøfødt biblioteker før, så bør du kjøre følgende kommando fra terminalen for å installere disse bibliotekene:

$ pip3 installere pandaer havfødte

Boksetomter med pandaer

De boxplot () Metode av pandaer brukes til å generere boksplottfigurer basert på datarammen. Denne metoden inneholder mange argumenter; noen av disse argumentene brukes i eksemplene nedenfor. Denne delen av opplæringen vil inneholde to eksempler som viser deg hvordan du lager ruter i pandaer. Du kan bruke tilfeldig genererte data i NumPy-biblioteket, eller dataene fra en CSV-fil, for å generere en boksplott i pandaer.

Eksempel 1: Boksplott basert på tilfeldige verdier

Ruteplottene i følgende eksempel ble generert ved hjelp av NumPy og pandaer. NumPy-biblioteket brukes i skriptet til å opprette et datarammeobjekt ved å generere et todimensjonalt utvalg av tilfeldige verdier som inneholder 5 rader og 5 kolonner. Innholdet i datarammen skrives ut ved hjelp av hodet() metode. Neste, den boxplot () metoden brukes til å generere boksplott med blå farge, skriftstørrelse 10 og en 30 graders rotasjonsvinkel for visning av kolonneverdiene.

#!/ usr / bin / env python3
# Importer pandabiblioteket
importer pandaer som pd
# Importer NumPy-biblioteket for å lage tilfeldige tall for matrisen
importer nummen som np
"
Generer datasett basert på tilfeldig opprettet NumPy-matrise
og fem kolonneverdier
"
dataframe = pd.DataFrame (np.tilfeldig.randn (5,5), kolonner = ['2016', '2017', '2018',
'2019', '2020'])
 
# Skriv ut verdiene til datarammen
skriv ut (dataramme.hode())
# Vis boksdiagrammet basert på datarammeverdiene
Dataramme.boxplot (grid = 'false', color = 'blue', fontsize = 10, rot = 30)

Produksjon

Følgende utdata vises etter at koden er utført.

Eksempel 2: Kartplott basert på CSV-data

Ruteplottene i følgende eksempel ble generert fra CSV-data. Opprett en CSV-fil med navnet bank.csv ved hjelp av følgende data.

bank.csv

SL, Client_Name, Account_Type, Gender, Balance
1, Maria Hernandez, Saving, Kvinne, 120000
2, Mary Smith, Nåværende, Kvinne, 40000
3, David Smith, Nåværende, Mann, 379000
4, Maria Rodriguez, Saving, Kvinne, 56000
5, Mark Lee, Saving, Male, 93500
6, Jonathan Bing, nåværende, mann, 5900
7, Daniel Williams, Saving, Mann, 2300
8, Mike Brown, Nåværende, Mann, 124888
9, Paul Smith, Nåværende, Mann, 59450
10, Maria Lopez, Saving, Kvinne, 487600

I det følgende skriptet, matplotlib biblioteket ble brukt til å sette opp figurstørrelsen på boksplottet og til å vise utdataene. Alle poster av banken.csv filen ble lastet inn med read_csv () Metode av pandaer. De første 8 postene av datarammen ble deretter skrevet ut med hode() metode. De boxplot () metoden ble brukt i følgende uttalelse for å tegne figuren i ruten, med rød farge basert på 'Kontotype' med kolonnen kalt 'Balansere.'

#!/ usr / bin / env python3
# Importer pandaer for å generere kartplott
importer pandaer som pd
# Importer matplotlib for å sette opp figurstørrelsen på boksplottet
importer matplotlib.pyplot som plt
# Importer get_ipython for å formatere output inline
fra IPython importerer get_ipython
get_ipython ().run_line_magic ('matplotlib', 'inline')
# Sett opp figurstørrelsen
plt.rcParams ['figur.figsize '] = (8,4)
# Last inn datasettet fra en CSV-fil
df = pd.read_csv ("bank.csv ")
# Skriv ut de første 8 radene med innlastede data
skriv ut (df.hode (8)
# Vis rutetabellene basert på parameteren som brukes
df.boxplot (av = 'Account_Type', grid = 'True', column = ['Balance'], color = 'red')

Produksjon

Følgende utdata vises etter at koden er utført.

Boksetomter med sjøfødt

Et annet bibliotek av Python som ofte brukes til å tegne ruter, er biblioteket sjøfødt.  En av de viktigste funksjonene i dette biblioteket er at det har mange innebygde eksempeldatasett for å teste forskjellige oppgaver. De neste to eksemplene vil dekke bruken av to forskjellige eksempeldatasett for å tegne boksplott ved hjelp av sjøfødt bibliotek.

Eksempel 3: Boksplott basert på x-parameter

Følgende eksempel bruker et eksempeldatasett, kalt 'diamanter, ' fra sjøfødte bibliotek for å generere boksplottet. Her defineres rutenettstilen ved hjelp av set_style () metode. De load_dataset () metoden brukes til å laste inn dataene til 'diamanter datasett. De fem første postene skrives ut fra datasettet og boxplot () metoden blir deretter brukt til å tegne boksplottet basert på kolonnen, navngitt 'dybde,'med blå farge.

# Importer sjøfødt bibliotek for å generere boksplott
importere seaborn som sns
# Importer matplotlib for å sette opp figurstørrelsen på boksplottet
importer matplotlib.pyplot som plt
# Importer get_ipython for å formatere output inline
fra IPython importerer get_ipython
get_ipython ().run_line_magic ('matplotlib', 'inline')
# Sett opp rutenettstilen
sns.set_style ("hvitrid")
# Sett opp figurstørrelsen
plt.rcParams ['figur.figsize '] = (8,4)
# Last inn prøvedatasettet
diamond_dataset = sns.load_dataset ('diamanter')
# Vis de fem første postene i datasettet
utskrift (diamant_datasett.hode())
# Tegn figuren for boksplottene
sns.boxplot (x = diamond_dataset ['depth'], color = 'blue')

Produksjon

Følgende utdata vises etter at koden er utført.

Eksempel 4: Kartplott basert på x- og y-parametere

Følgende eksempel bruker eksempeldatasettet med navnet 'flyreiser'å tegne boksplottet. Her er både x- og y-parameterne til boxplot () metode brukes til å tegne figuren. De andre utsagnene ligner på forrige eksempel.

# Importer sjøfødt bibliotek for å generere boksplott
importere seaborn som sns
# Importer matplotlib for å sette opp figurstørrelsen på boksplottet
importer matplotlib.pyplot som plt
# Importer get_ipython for å formatere output inline
fra IPython importerer get_ipython
get_ipython ().run_line_magic ('matplotlib', 'inline')
 
# Sett opp rutenettstilen
sns.set_style ("darkgrid")
# Sett opp figurstørrelsen
plt.rcParams ['figur.figsize '] = (12,4)
 
# Last inn prøvedatasettet
flight_dataset = sns.load_dataset ('flyreiser')
# Vis de fem første postene i datasettet
skriv ut (flight_dataset.hode())
 
# Tegn figuren for boksplottene
sns.boxplot (x = 'måned', y = 'passasjerer', data = flight_dataset, farge = 'blå')

Produksjon

Følgende utdata vises etter at koden er utført.

Konklusjon

Når du arbeider med en stor mengde data, vil du kanskje oppsummere dataene ved hjelp av et diagram, for eksempel en rute. Denne opplæringen brukte flere eksempler for å vise deg hvordan du genererer bokseplott med to Python-biblioteker.

Hvordan utvikle et spill på Linux
For et tiår siden ville ikke mange Linux-brukere forutsi at deres favorittoperativsystem en dag ville være en populær spillplattform for kommersielle ...
Åpne kildeporter for kommersielle spillmotorer
Gratis, åpen kildekode og plattformspillmotorrekreasjoner kan brukes til å spille gamle så vel som noen av de ganske nylige spilletitlene. Denne artik...
Beste kommandolinjespill for Linux
Kommandolinjen er ikke bare din største allierte når du bruker Linux, den kan også være kilden til underholdning fordi du kan bruke den til å spille m...