pandad

Pandad loe_csv õpetus

Pandad loe_csv õpetus

Pandad .loe_csv

Olen juba arutanud Pythoni raamatukogu pandade osa ajaloost ja kasutusaladest.  pandad töötati välja vajaduse järele Pythoni tõhusa finantsandmete analüüsi ja manipuleerimise teegi järele.  Andmete laadimiseks analüüsi ja manipuleerimise jaoks pakuvad pandad kahte meetodit, DataReader ja loe_csv.  Esimese kajastasin siin.  Viimane on selle õpetuse teema.

.loe_csv

Veebis on palju tasuta andmekogusid, mis sisaldavad teavet mitmesuguste väljade kohta.  Mõned neist ressurssidest olen lisanud allpool olevasse viidete jaotisse.  Kuna ma olen demonstreerinud sisseehitatud API-sid siin finantsandmete tõhusaks hankimiseks, kasutan selles õpetuses teist andmeallikat.

Andmed.gov pakub tohutut valikut tasuta andmeid kõige kohta, alates kliimamuutustest kuni U-ni.S. tootmise statistika.  Olen selles õpetuses kasutamiseks alla laadinud kaks andmekogumit.  Esimene on Florida keskmise Bay maakonna ööpäevane maksimaalne temperatuur. Need andmed laaditi alla U-st.S. Kliimakindluse tööriistakomplekt ajavahemikuks 1950 kuni praeguseni.

Teine on kaubavoogude uuring, mis mõõdab riiki impordi viisi ja mahtu viie aasta jooksul.

Mõlemad nende andmekogumite lingid on toodud allpool viidete jaotises.  The .loe_csv meetod, nagu nimest selgub, laadib selle teabe CSV-failist sisse ja kiirendab a DataFrame sellest andmekogumist välja.

Kasutamine

Iga kord, kui kasutate välist teeki, peate Pythonile ütlema, et see tuleb importida.  Allpool on koodirida, mis impordib pandade raamatukogu.

impordi pandad kui pd

Põhikasutus .loe_csv meetod on allpool.  See kiirendab ja asustab a DataFrame df koos CSV-faili teabega.

df = pd.read_csv ('12005-aastane-hist-obs-tasmax.csv ')

Paari rea lisamisega saame kontrollida vastloodud DataFrame'i esimest ja viimast 5 rida.

df = pd.read_csv ('12005-aastane-hist-obs-tasmax.csv ')
print (df.pea (5))
print (df.saba (5))

Kood on laadinud veeru aastaks, keskmise päevase temperatuuri Celsiuse järgi (tasmax) ja koostanud 1-põhise indekseerimisskeemi, mis kasvab iga andmerea jaoks.    Samuti on oluline märkida, et päised täidetakse failist.  Eespool toodud meetodi põhikasutusega järeldatakse, et päised on CSV-faili esimesel real.  Seda saab muuta, edastades meetodile erineva parameetrite komplekti.

Parameetrid 

Olen andnud lingi pandadele .loe_csv dokumentatsioon allpool viidetes.  Andmete lugemise ja vormindamise viisi muutmiseks saab kasutada mitmeid parameetreid DataFrame.

Selle parameetri jaoks on üsna palju parameetreid .loe_csv meetod.  Enamik pole vajalikud, kuna enamikul allalaaditavatest andmekogumitest on standardvorming.  See on veerud esimesel real ja komaeraldaja.

Seal on paar parameetrit, mida ma õpetuses esile tõstan, sest need võivad olla kasulikud.  Põhjalikuma uuringu saab dokumentatsiooni lehelt.

indeks_kol

indeks_kol on parameeter, mida saab kasutada indeksi hoidva veeru tähistamiseks.  Mõni fail võib sisaldada indeksit ja mõni mitte.  Meie esimeses andmekogumis lasin pythonil luua registri.  See on standard .loe_csv käitumine.

Meie teises andmekogumis on lisatud indeks. Allolev kood laadib DataFrame koos CSV-faili andmetega, kuid inkrementaalse täisarvupõhise indeksi loomise asemel kasutab see andmekomplekti kuuluvat veergu SHPMT_ID.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ')
print (df.pea (5))
print (df.saba (5))

Kuigi see andmekogum kasutab indeksi jaoks sama skeemi, võib teistel andmekogumitel olla kasulikum register.

nrows, skiprows, usecols

Suurte andmekogumite puhul võite soovida laadida ainult andmete jaotisi.  The nrows, skiprows, ja usecols parameetrid võimaldavad teil failis sisalduvaid andmeid tükeldada.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ', nr = 50)
print (df.pea (5))
print (df.saba (5))

Lisades nrows parameeter täisarvuga 50, on .sabakõne tagastab nüüd read kuni 50-ni.  Ülejäänud failis olevaid andmeid ei impordita.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', skiprows = 1000)
print (df.pea (5))
print (df.saba (5))

Lisades skiprows parameeter, meie .pea col ei näita algusindeksit 1001 andmetes.  Kuna me jätsime päise rea vahele, on uued andmed kaotanud oma päise ja faili andmete põhjal indeksi.  Mõnel juhul võib olla parem oma andmed viilutada a DataFrame mitte enne andmete laadimist.

The usecols on kasulik parameeter, mis võimaldab teil veergude kaupa importida ainult andmete alamhulka.  Sellest saab edastada nullindeksi või veergude nimedega stringide loendi.  Kasutasin allolevat koodi nelja esimese veeru importimiseks meie uude DataFrame.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ',
index_col = 'SHIPMT_ID',
nrows = 50, usecols = [0,1,2,3])
print (df.pea (5))
print (df.saba (5))

Meie uuest .pea helista, meie DataFrame sisaldab nüüd ainult andmekogumi nelja esimest veergu.

mootor

Viimane parameeter, mis minu arvates oleks mõnes andmekogumis kasulik, on mootor parameeter.  Võite kasutada kas C-põhist mootorit või Pythoni-põhist koodi.  C-mootor on loomulikult kiirem.  See on oluline, kui impordite suuri andmekogumeid.  Pythoni sõelumise eelised on funktsioonirikkam komplekt.  See eelis võib tähendada vähem, kui laadite mällu suurandmeid.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ',
index_col = 'SHIPMT_ID', mootor = 'c')
print (df.pea (5))
print (df.saba (5))

Järelmeetmed

Rakenduse vaikekäitumist võib laiendada veel mitme parameetriga .loe_csv meetod.  Need leiate dokumentide lehelt, millele allpool viitasin.  .loe_csv on kasulik meetod andmekogumite pandadesse laadimiseks andmete analüüsimiseks.  Kuna paljudel Interneti tasuta andmestikel pole API-sid, osutub see kõige kasulikumaks finantsandmetest väljaspool olevate rakenduste jaoks, kus on olemas tugevad API-d andmete pandadesse importimiseks.

Viited

https: // pandad.pydata.org / pandas-docs / stabiilne / genereeritud / pandas.loe_csv.HTML
https: // www.andmed.valitsus /
https: // tööriistakomplekt.kliima.gov / # kliimauurija
https: // www.loendus.gov / econ / cfs / pums.HTML

Parimad Linuxi käsurea mängud
Käsurida pole Linuxi kasutamisel lihtsalt teie suurim liitlane - see võib olla ka meelelahutusallikas, sest saate seda kasutada paljude lõbusate mängu...
Parimad Linuxi mängupuldi kaardistamise rakendused
Kui teile meeldib mängida Linuxis mänge tavalise klaviatuuri ja hiire sisestussüsteemi asemel mängupuldiga, on teie jaoks mõned kasulikud rakendused. ...
Kasulikud tööriistad Linuxi mängijatele
Kui teile meeldib Linuxis mänge mängida, on tõenäoline, et olete mängukogemuse parandamiseks kasutanud selliseid rakendusi ja utiliite nagu Wine, Lutr...