ML ja tehisintellekt

20 parimat R-masinõppe paketti, mida kohe kontrollida

20 parimat R-masinõppe paketti, mida kohe kontrollida

Peaaegu kõik algajad andmeteadlased ja masinõppe arendajad on programmeerimiskeele valimises segaduses. Nad küsivad alati, milline programmeerimiskeel sobib nende masinõppe ja andmeteaduse projekti jaoks kõige paremini. Kas me läheme pythoni, R-i või MatLabi kasuks. Noh, programmeerimiskeele valik sõltub arendajate eelistustest ja süsteeminõuetest. Muude programmeerimiskeelte seas on R üks potentsiaalsemaid ja suurepärasemaid programmeerimiskeeli, millel on mitu R-masinõppepaketti nii ML-, AI- kui ka andmeteaduslike projektide jaoks.

Selle tulemusel saab oma R-masinõppepakette kasutades oma projekti vaevata ja tõhusalt arendada. Kaggle uuringu kohaselt on R üks populaarsemaid avatud lähtekoodiga masinõppe keeli.

Parimad R masinõppe paketid


R on avatud lähtekoodiga keel, et inimesed saaksid oma panuse anda kõikjalt maailmast. Võite oma koodis kasutada musta kasti, mille on kirjutanud keegi teine. R-s nimetatakse seda musta kasti pakendiks. Pakett pole midagi muud kui eelnevalt kirjutatud kood, mida kõik saavad korduvalt kasutada. Allpool tutvustame 20 parimat R-masinõppepaketti.

1. CARET


Pakett CARET viitab klassifitseerimisele ja regressioonitreeningule. Selle CARET-paketi ülesanne on integreerida mudeli koolitus ja ennustamine. See on üks parimaid R pakette nii masinõppeks kui ka andmeteaduseks.

Parameetreid saab otsida, integreerides mitu funktsiooni, et arvutada antud mudeli üldine jõudlus, kasutades selle paketi ruudustiku meetodit. Pärast kõigi katsete edukat läbimist leiab võrguotsing lõpuks parimad kombinatsioonid.

Pärast selle paketi installimist saab arendaja käivitada nimed (getModelInfo ()), et näha 217 võimalikku funktsiooni, mida saab käivitada ainult ühe funktsiooni kaudu. Sõnastikupõhise mudeli koostamiseks kasutab CARET pakett rongi () funktsiooni. Selle funktsiooni süntaks:

rong (valem, andmed, meetod)

Dokumentatsioon

2. randomForest


RandomForest on üks populaarsemaid masinõppe R-pakette. Seda R-masinõppe paketti saab kasutada regressiooni- ja klassifitseerimisülesannete lahendamiseks. Lisaks saab seda kasutada puuduvate väärtuste ja kõrvalekallete treenimiseks.

Seda R-ga masinõppe paketti kasutatakse tavaliselt mitme otsustuspuu genereerimiseks. Põhimõtteliselt võtab see juhuslikke proove. Ja siis antakse tähelepanekud otsustuspuule. Lõpuks on otsustuspuust saadav ühine väljund ülim väljund. Selle funktsiooni süntaks:

randomForest (valem =, andmed =)

Dokumentatsioon

3. e1071


See e1071 on üks masinõppe jaoks kõige sagedamini kasutatavaid R-pakette. Selle paketi abil saab arendaja rakendada tugivektorimasinaid (SVM), lühima rajaarvutusi, kottidega klastreid, Naive Bayes'i klassifikaatorit, lühiajalist Fourieri teisendust, hägusat klastrit jne.

IRIS-i andmete puhul on SVM-i süntaks näiteks:

svm (Liik ~ Sepal.Pikkus + Sepal.Laius, andmed = iiris)

Dokumentatsioon

4. Rpart


Rpart tähistab rekursiivset partitsiooni ja regressioonitreeningut. Selle masinõppe R-paketiga saab täita mõlemat ülesannet: klassifikatsiooni ja regressiooni. See toimib kaheastmelise sammuna. Väljund modelleerib binaarse puu. Funktsiooni plot () kasutatakse väljundi tulemuse joonistamiseks. Samuti on olemas alternatiivfunktsioon prp (), mis on paindlikum ja võimsam kui põhifunktsioon ().

Funktsiooni rpart () kasutatakse sõltumatute ja sõltuvate muutujate vahelise seose loomiseks. Süntaks on:

rpart (valem, andmed =, meetod =, kontroll =)

kus valem on sõltumatute ja sõltuvate muutujate kombinatsioon, on andmed andmekogumi nimi, meetod on eesmärk ja kontroll on teie süsteemi nõue.

Dokumentatsioon

5. KernLab


Kui soovite oma projekti arendada tuumapõhistel masinõppe algoritmidel, saate seda R-paketti masinõppeks kasutada. Seda paketti kasutatakse SVM-i, kerneli funktsioonide analüüsi, järjestusalgoritmi, punkttoote primitiivide, Gaussi protsessi ja paljude teiste jaoks. KernLabi kasutatakse laialdaselt SVM-i juurutamiseks.

Saadaval on erinevaid kerneli funktsioone. Siinkohal mainitakse mõningaid kerneli funktsioone: polüdoot (polünoomi kerneli funktsioon), tanhdot (hüperboolse puutuja tuuma funktsioon), laplacedot (laplaasia kerneli funktsioon) jne. Neid funktsioone kasutatakse mustrituvastuse probleemide täitmiseks. Kuid kasutajad saavad eelnevalt määratletud tuumafunktsioonide asemel kasutada oma kerneli funktsioone.

Dokumentatsioon

6. nnet


Kui soovite oma masinõpperakendust arendada kunstliku närvivõrgu (ANN) abil, võib see nnet-pakett teid aidata. See on üks kõige populaarsemaid ja hõlpsamini rakendatavaid närvivõrkude pakette. Kuid see on piirang, see tähendab, et see on üks kiht sõlme.

Selle paketi süntaks on:

nnet (valem, andmed, suurus)

Dokumentatsioon

7. dplyr


Üks andmeteaduse jaoks enimkasutatavaid R-pakette. Samuti pakub see andmetega manipuleerimiseks mõningaid hõlpsasti kasutatavaid, kiireid ja järjepidevaid funktsioone. Hadley Wickham kirjutab selle andmetöötluspaketi r. See pakett koosneb verbide komplektist i.e., muteerige (), valige (), filtreerige (), tehke kokkuvõte () ja korraldage ().

Selle paketi installimiseks peate kirjutama selle koodi:

installima.paketid (“dplyr”)

Selle paketi laadimiseks peate kirjutama selle süntaks:

raamatukogu (dplyr)

Dokumentatsioon

8. ggplot2


Veel üks elegantsemaid ja esteetilisemaid andmeteaduse graafikaraamistiku R pakette on ggplot2. See on graafika loomise süsteem, mis põhineb graafika grammatikal. Selle andmeteaduse paketi installisüntaks on:

installima.paketid („ggplot2”)

Dokumentatsioon

9. Sõnapilv


Kui üks pilt koosneb tuhandetest sõnadest, nimetatakse seda Wordcloudiks. Põhimõtteliselt on see tekstiandmete visualiseerimine. Seda masinõppepaketti, mis kasutab R-d, kasutatakse sõnade esituse loomiseks ja arendaja saab Wordcloudi vastavalt oma eelistustele kohandada, näiteks korraldada sõnu juhuslikult või sama sagedusega sõnu koos või kõrgsageduslikke sõnu keskel jne.

R-masinõppekeeles on WordCloudi loomiseks saadaval kaks teeki: Wordcloud ja Worldcloud2. Siin näitame WordCloud2 süntaksit. WordCloud2 installimiseks peate kirjutama:

1. nõuda (devtools)
2. install_github ("lchiffon / wordcloud2")

Või saate seda otse kasutada:

teek (wordcloud2)

Dokumentatsioon

10. tidyr


Teine laialdaselt kasutatav andmeteaduse pakett on tidyr. Selle andmeteaduse r-programmeerimise eesmärk on andmete korrastamine. Korralikult paigutatakse muutuja veergu, vaatlus reale ja väärtus on lahtris. See pakett kirjeldab standardset viisi andmete sortimiseks.

Installimiseks võite kasutada seda koodifragmenti:

installima.pakid („tidyr“)

Laadimiseks on kood:

raamatukogu (tidyr)

Dokumentatsioon

11. läikiv


R-pakett Shiny on üks andmeteaduse veebirakenduste raamistikke. See aitab R-ist veebirakendusi vaevata üles ehitada. Kas arendaja saab tarkvara installida igasse kliendisüsteemi või majutada veebisaiti kabiinis. Samuti saab arendaja koostada armatuurlaudu või kinnistada need R Markdowni dokumentidesse.

Lisaks saab läikivaid rakendusi laiendada erinevate skriptikeeltega, näiteks HTML-vidinate, CSS-i teemade ja JavaScripti toimingutega. Ühesõnaga võime öelda, et see pakett on kombinatsioon R-i arvutusvõimest kaasaegse veebi interaktiivsusega.

Dokumentatsioon

12. tm


Ütlematagi selge, et tänapäeval on tekstikaevandamine masinõppe esilekerkiv rakendus. See R-masina õppepakett pakub raamistiku tekstikaevandamise ülesannete lahendamiseks. Teksti kaevandamise rakenduses, s.t.e., meeleolude analüüs või uudiste klassifikatsioon, on arendajal mitmesuguseid tüütuid töid, nagu soovimatute ja ebaoluliste sõnade eemaldamine, kirjavahemärkide eemaldamine, peatussõnade eemaldamine ja palju muud.

Tm-pakett sisaldab mitut paindlikku funktsiooni, mis muudavad teie töö vaevata, näiteks removeNumbers (): Numbrite eemaldamine antud tekstidokumendist, weightTfIdf (): termini Sagedus ja pöörddokumendi sagedus, tm_reduce (): teisenduste ühendamiseks eemaldagePunktsioon () kuni eemaldage antud tekstidokumendist kirjavahemärgid ja palju muud.

Dokumentatsioon

13. MICE pakett


Masinõppepakett koos R, MICE viitab mitmemõõtmelisele sisestamisele aheldatud järjestuste kaudu. Peaaegu kogu aeg seisab projekti arendaja masinõppe andmekogumis levinud probleemi ees, mis on puuduv väärtus. Seda paketti saab kasutada puuduvate väärtuste arvestamiseks mitme tehnika abil.

See pakett sisaldab mitmeid funktsioone, nagu puuduvate andmemustrite kontrollimine, arvestatud väärtuste kvaliteedi diagnoosimine, täidetud andmekogumite analüüs, arvestatud andmete salvestamine ja eksportimine erinevates vormingutes ning palju muud.

Dokumentatsioon

14. igraf


Võrguanalüüsi pakett igraph on üks võimsamaid andmeteaduse R-pakette. See on võimas, tõhus, hõlpsasti kasutatav ja kaasaskantavate võrguanalüüsi tööriistade kogu. Samuti on see pakett avatud lähtekoodiga ja tasuta. Lisaks saab igraphni programmeerida Pythonis, C / C ++ ja Mathematica.

Sellel paketil on mitu funktsiooni juhuslike ja korrapäraste graafikute genereerimiseks, graafiku visualiseerimiseks jne. Selle R-paketi abil saate töötada ka oma suure graafikuga. Selle paketi kasutamiseks on mõned nõuded: Linuxi jaoks on vaja C ja C ++ kompilaatorit.

Selle andmeteaduse R-paketi installimine on järgmine:

installima.pakid (igraph)

Selle paketi laadimiseks peate kirjutama:

raamatukogu (igraf)

Dokumentatsioon

15. ROCR


Hindamisklassifikaatorite toimivuse visualiseerimiseks kasutatakse andmeteaduse paketti ROCR. See pakett on paindlik ja seda on lihtne kasutada. Vaja on ainult kolme käsku ja valikuliste parameetrite vaikeväärtusi. Seda paketti kasutatakse piiriparameetritega 2D jõudluskõverate väljatöötamiseks. Selles paketis on mitmeid funktsioone, nagu ennustus (), mida kasutatakse ennustusobjektide loomiseks, performance (), mida kasutatakse jõudlusobjektide loomiseks jne.

Dokumentatsioon

16. DataExplorer


Pakett DataExplorer on üks laialdaselt hõlpsasti kasutatavaid andmeteaduse R-pakette. Arvukate andmeteaduslike ülesannete hulgas on uurimuslik andmete analüüs (EDA) üks neist. Uurimuslike andmete analüüsimisel peab andmeanalüütik pöörama andmetes suuremat tähelepanu. Andmete käsitsi kontrollimine või käsitsemine või kehva kodeerimise kasutamine pole lihtne töö. Vaja on andmete analüüsi automatiseerimist.

See andmeteaduse pakett R pakub andmete uurimise automatiseerimist. Seda paketti kasutatakse iga muutuja skannimiseks ja analüüsimiseks ning nende visualiseerimiseks. See on kasulik, kui andmekogum on massiline. Seega saab andmete analüüsiga varjatud teadmised andmetest tõhusalt ja vaevata välja tuua.

Paketi saab otse CRAN-ist installida, kasutades järgmist koodi:

installima.paketid („DataExplorer”)

Selle R-paketi laadimiseks peate kirjutama:

teek (DataExplorer)

Dokumentatsioon

17. mlr


R-masinõppe üks uskumatumaid pakette on mlr-pakett. See pakett on mitme masinõppe ülesande krüptimine. See tähendab, et saate teha mitu ülesannet, kasutades ainult ühte paketti, ja te ei pea kolme erineva ülesande jaoks kasutama kolme paketti.

Pakett mlr on liides paljude klassifitseerimise ja regressiooni tehnikate jaoks. Meetodid hõlmavad masinloetavaid parameetrite kirjeldusi, klastreid, üldist uuesti proovide võtmist, filtreerimist, funktsioonide eraldamist ja palju muud. Samuti saab teha paralleelseid toiminguid.

Installimiseks peate kasutama järgmist koodi:

installima.pakendid (“mlr”)

Selle paketi laadimiseks toimige järgmiselt

raamatukogu (mlr)

Dokumentatsioon

18. arules


Pakett arules (kaevandamise assotsiatsiooni reeglid ja sagedased üksused) on laialdaselt kasutatav R-masinõppe pakett. Selle paketi abil saab teha mitu toimingut. Toimingud on andmete ja mustrite esitamine ja tehingute analüüs ning andmetega manipuleerimine. Saadaval on ka Apriori ja Eclati assotsiatsiooni kaevandamise algoritmide C-rakendused.

Dokumentatsioon

19. mboost


Teine R-masina õppepakett andmeteaduse jaoks on mboost. Sellel mudelipõhisel võimenduspaketil on funktsionaalne gradientse laskumise algoritm üldiste riskifunktsioonide optimeerimiseks regressioonipuude või komponentide kaupa väikseimate ruutude hinnangute abil. Samuti pakub see potentsiaalselt kõrgemõõtmeliste andmete koostoime mudelit.

Dokumentatsioon

20. pidu


Teine pakett masinõppes R-iga on pidu. Seda arvutuslikku tööriistakasti kasutatakse rekursiivseks jaotamiseks. Selle masinõppe paketi põhifunktsioon või tuum on ctree (). See on laialdaselt kasutatav funktsioon, mis vähendab treeningu aega ja kallutatust.

Ctree () süntaks on:

 ctree (valem, andmed)

Dokumentatsioon

Lõpumõtted


R on nii silmapaistev programmeerimiskeel, mis kasutab andmete uurimiseks statistilisi meetodeid ja graafikuid. Ütlematagi selge, et selles keeles on mitu masinaõppepaketti R, uskumatu RStudio tööriist ja hõlpsasti mõistetav süntaks arenenud masinõppeprojektide väljatöötamiseks. R ml pakendis on mõned vaikeväärtused. Enne selle rakendamist oma programmis peate teadma üksikasjalikult erinevate võimaluste kohta. Neid masinõppepakette kasutades saab igaüks ehitada tõhusa masinõppe või andmeteaduse mudeli. Lõpuks on R avatud lähtekoodiga keel ja selle paketid kasvavad pidevalt.

Kui teil on ettepanekuid või küsimusi, jätke kommentaar meie kommentaaride jaotisesse. Seda artiklit saate sotsiaalmeedia kaudu jagada ka oma sõprade ja perega.

Kuidas muuta hiirekursori ja kursori suurust, värvi ja skeemi Windows 10-s
Windows 10 hiirekursor ja kursor on operatsioonisüsteemi väga olulised aspektid. Seda võib öelda ka teiste opsüsteemide kohta, nii et tegelikult pole ...
Tasuta ja avatud lähtekoodiga mängumootorid Linuxi mängude arendamiseks
See artikkel hõlmab loetelu tasuta ja avatud lähtekoodiga mängumootoritest, mida saab kasutada 2D- ja 3D-mängude arendamiseks Linuxis. Selliseid mängu...
Tomb Raider for Linuxi õpetus
Shadow of the Tomb Raider on kaheteistkümnes täiendus seeria Tomb Raider - tegevus- ja seiklusmängude frantsiisile, mille on loonud Eidos Montreal. Ni...