Hvordan plotte data i Pandas Python

Datavisualisering spiller en viktig rolle i dataanalysen. Pandas er et sterkt dataanalysebibliotek i python for datavitenskap. Det gir ulike alternativer for datavisualisering med .plot () metode. Selv om du er nybegynner, kan du enkelt plotte dataene dine ved hjelp av Pandas-biblioteket. Du må importere pandas og matplotlib.pyplot-pakke for datavisualisering.

I denne artikkelen vil vi utforske ulike data plotting metoder ved hjelp av Pandas python. Vi har utført alle eksemplene på pycharm-kildekodeditoren ved hjelp av matplotlib.pyplot-pakke.

Plotting i Pandas Python

I Pandaer, .plot () har flere parametere som du kan bruke basert på dine behov. For det meste kan du definere hvilken type tomt du vil lage ved hjelp av 'kind' -parameteren.

Syntaksen for å plotte data ved hjelp av Pandas Python

Følgende syntaks brukes til å plotte en DataFrame i Pandas Python:

# importer pandaer og matplotlib.pyplot-pakker
importer pandaer som pd
importer matplotlib.pyplot som plt
# Forbered data for å opprette DataFrame
data_frame =
'Kolonne1': ['felt1', 'felt2', 'felt3', 'felt4', ...],
'Kolonne2': ['felt1', 'felt2', 'felt3', 'felt4', ...]

var_df = pd.DataFrame (data_frame, columns = ['Column1', 'Column2])
trykk (variabel)
# plotte stolpediagram
var_df.plott.bar (x = 'Kolonne1', y = 'Kolonne2')
plt.vise fram()

Du kan også definere plot-typen ved å bruke type-parameteren som følger:

var_df.plot (x = 'Kolonne1', y = 'Kolonne2', type = 'bar')

Pandas DataFrames-objekter har følgende plottmetoder for å plotte:

Scatter Plotting: plott.spre()
Bar Plotting: plott.bar (), tomt.barh () der h representerer horisontale søyler.
Linjeplotting: plott.linje()
Pai Plotting: plott.pai()

Hvis en bruker bare bruker plot () -metoden uten å bruke noen parameter, oppretter den standard linjediagram.

Vi vil nå utdype noen hovedtyper av tegning i detalj ved hjelp av noen eksempler.

Scatter Plotting i Pandaer

I denne typen plotting har vi representert forholdet mellom to variabler. La oss ta et eksempel.

Eksempel

For eksempel har vi data om korrelasjon mellom to variabler GDP_vekst og oljepris. For å plotte forholdet mellom to variabler, har vi utført følgende stykke kode på kildekoden:

importer matplotlib.pyplot som plt
importer pandaer som pd
gdp_cal = pd.Dataramme(
'GDP_vekst': [6.1, 5.8, 5.7, 5.7, 5.8, 5.6, 5.5, 5.3, 5.2, 5.2],
'Oljepris': [1500, 1520, 1525, 1523, 1515, 1540, 1545, 1560, 1555, 1565]
)
df = pd.DataFrame (gdp_cal, columns = ['Oil_Price', 'GDP_growth'])
skrive ut (df)
df.plot (x = 'Oil_Price', y = 'GDP_growth', kind = 'scatter', color = 'red')
plt.vise fram()

Linjediagrammer planlegger i Pandas

Linjediagrammet er en grunnleggende type tegning der gitt informasjon vises i en datapunktserie som videre er forbundet med segmenter av rette linjer. Ved hjelp av linjediagrammene kan du også vise trendene med informasjon på overtid.

Eksempel

I det nevnte eksemplet har vi tatt data om det siste års inflasjon. Først må du klargjøre dataene og deretter opprette DataFrame. Følgende kildekode plotter linjediagrammet over tilgjengelige data:

importer pandaer som pd
importer matplotlib.pyplot som plt
infl_cal = 'År': [2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011],
'Infl_Rate': [5.8, 10, 7, 6.7, 6.8, 6, 5.5, 8.2, 8.5, 9, 10]

data_frame = pd.DataFrame (infl_cal, columns = ['Year', 'Infl_Rate'])
Dataramme.plot (x = 'Year', y = 'Infl_Rate', kind = 'line')
plt.vise fram()

I eksemplet ovenfor må du sette kind = 'line' for linjediagramplanlegging.

Metode 2 # Bruke tomt.line () metode

Ovenstående eksempel kan du også implementere ved hjelp av følgende metode:

importer pandaer som pd
importer matplotlib.pyplot som plt
inf_cal = 'År': [2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011],
'Inflation_Rate': [5.8, 10, 7, 6.7, 6.8, 6, 5.5, 8.2, 8.5, 9, 10]

data_frame = pd.DataFrame (inf_cal, columns = ['Inflation_Rate'], index = [2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011])
Dataramme.plott.linje()
plt.tittel ('Sammendrag av inflasjonen over siste 11 år')
plt.ylabel ('Inflation_Rate')
plt.xlabel ('Year')
plt.vise fram()

Følgende linjediagram vises når du har kjørt ovennevnte kode:

Søylediagramplanlegging i Pandas

Søylediagramplottingen brukes til å representere de kategoriske dataene. I denne typen tomt er de rektangulære stolpene med forskjellige høyder tegnet ut basert på gitt informasjon. Søylediagrammet kan tegnes i to forskjellige horisontale eller vertikale retninger.

Eksempel

Vi har tatt leseferdigheten i flere land i eksemplet nedenfor. DataFrames opprettes der 'Country_Names' og 'literacy_Rate' er de to kolonnene i en DataFrame. Ved hjelp av Pandas kan du plotte informasjonen i stolpediagrammet slik:

importer pandaer som pd
importer matplotlib.pyplot som plt
lit_cal =
'Country_Names': ['Pakistan', 'USA', 'China', 'India', 'UK', 'Austria', 'Egypt', 'Ukraine', 'Saudia', 'Australia',
'Malaysia'],
'litr_Rate': [5.8, 10, 7, 6.7, 6.8, 6, 5.5, 8.2, 8.5, 9, 10]

data_frame = pd.DataFrame (lit_cal, columns = ['Country_Names', 'litr_Rate'])
skriv ut (data_frame)
Dataramme.plott.bar (x = 'Country_Names', y = 'litr_Rate')
plt.vise fram()

Du kan også implementere eksemplet ovenfor ved hjelp av følgende metode. Sett kind = "bar" for søylediagramplanlegging i denne linjen:

Dataramme.plot (x = 'Country_Names', y = 'litr_Rate', kind = 'bar')
plt.vise fram()

Horisontal søylediagramplanlegging

Du kan også plotte dataene på horisontale søyler ved å utføre følgende kode:

importer matplotlib.pyplot som plt
importer pandaer som pd
data_chart = 'litr_Rate': [5.8, 10, 7, 6.7, 6.8, 6, 5.5, 8.2, 8.5, 9, 10]
df = pd.DataFrame (data_chart, columns = ['litr_Rate'], index = ['Pakistan', 'USA', 'China', 'India', 'UK', 'Austria', 'Egypt', 'Ukraine', 'Saudia' , 'Australia',
'Malaysia'])
df.plott.barh ()
plt.tittel ('Literacy Rate in Various Countries')
plt.ylabel ('Country_Names')
plt.xlabel ('litr_Rate')
plt.vise fram()

I df.plott.barh (), brukes barh for horisontal plotting. Etter å ha kjørt koden ovenfor, vises følgende stolpediagram i vinduet:

Pie Chart Plotting i Pandas

Et sektordiagram representerer dataene i en sirkulær grafisk form der dataene vises i skiver basert på den gitte mengden.

Eksempel

I det følgende eksemplet har vi vist informasjonen om 'Earth_material' i forskjellige skiver på Sirkeldiagrammet. Først oppretter du DataFrame, og deretter viser du alle detaljene i grafen ved hjelp av pandaene.

importer pandaer som pd
importer matplotlib.pyplot som plt
material_per = 'Earth_Part': [71,18,7,4]
dataframe = pd.DataFrame (material_per, columns = ['Earth_Part'], index = ['Water', 'Mineral', 'Sand', 'Metals'])
Dataramme.plott.kake (y = 'Earth_Part', figsize = (7, 7), autopct = '% 1.1f %% ', startangle = 90)
plt.vise fram()

Ovennevnte kildekode plotter kakediagrammet over tilgjengelige data:

Konklusjon

I denne artikkelen har du sett hvordan du skal plotte DataFrames i Pandas python. Ulike typer plotting utføres i artikkelen ovenfor. Å plotte flere typer som boks, sekskant, hist, kde, tetthet, areal, etc., Du kan bruke den samme kildekoden bare ved å endre plottypen.