Apache Hadoop on suur andmelahendus suurte andmemahtude salvestamiseks ja analüüsimiseks. Selles artiklis kirjeldame üksikasjalikult Apache Hadoopi keerukaid seadistamisetappe, et saaksite sellega võimalikult kiiresti Ubuntus alustada. Selles postituses installime Apache Hadoopi Ubuntu 17-le.10 masin.
Ubuntu versioon
Selle juhendi jaoks kasutame Ubuntu versiooni 17.10 (GNU / Linux 4.13.0-38-üldine x86_64).
Olemasolevate pakettide värskendamine
Hadoopi installimise alustamiseks on vaja värskendada oma masinat uusimate saadaolevate tarkvarapakettidega. Saame seda teha:
sudo apt-get update && sudo apt-get -y dist-upgradeKuna Hadoop põhineb Java-l, peame selle oma arvutisse installima. Saame kasutada mis tahes Java versiooni Java 6 kohal. Siin kasutame Java 8:
sudo apt-get -y installib openjdk-8-jdk-peataHadoopi failide allalaadimine
Kõik vajalikud paketid on nüüd meie masinas olemas. Oleme valmis alla laadima vajalikud Hadoop TAR-failid, et saaksime neid seadistama asuda ja ka Hadoopiga näidisprogrammi käivitada.
Selles juhendis installime Hadoop v3.0.1. Selle käsuga laadige alla vastavad failid:
wget http: // peegel.cc.kolumbia.edu / pub / tarkvara / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.tõrv.gzSõltuvalt võrgu kiirusest võib see võtta kuni paar minutit, kuna fail on suur:
Hadoopi allalaadimine
Uusimad Hadoopi kahendfailid leiate siit. Nüüd, kui meil on TAR-fail alla laaditud, saame praegusest kataloogist välja tõmmata:
tõrva xvzf hadoop-3.0.1.tõrv.gzArhiivi suure failisuuruse tõttu võtab see mõne sekundi täitmiseks:
Hadoop arhiiviti
Lisati uus Hadoopi kasutajagrupp
Kuna Hadoop töötab HDFS-i kaudu, võib uus failisüsteem häirida ka meie enda failisüsteemi ka Ubuntu masinas. Selle kokkupõrke vältimiseks loome täiesti eraldi kasutajagrupi ja määrame selle Hadoopile, nii et see sisaldaks oma õigusi. Selle käsuga saame lisada uue kasutajagrupi:
lisarühma hadoopNäeme midagi sellist:
Hadoopi kasutajagrupi lisamine
Oleme valmis sellesse gruppi uue kasutaja lisama:
useradd -G hadoop hadoopuserPange tähele, et kõik käsklused, mida me käivitame, on ise juurkasutaja. Käsuga aove suutsime enda loodud rühma lisada uue kasutaja.
Selleks, et Hadoopi kasutaja saaks toiminguid teha, peame pakkuma ka juurjuurdepääsu. Ava / etc / sudoers fail selle käsuga:
sudo visudoEnne kui midagi lisame, näeb fail välja selline:
Sudoers faili enne midagi lisamist
Lisage faili lõppu järgmine rida:
hadoopuser KÕIK = (KÕIK) KÕIKNüüd näeb fail välja selline:
Sudoerite fail pärast Hadoopi kasutaja lisamist
See oli peamine seadistus Hadoopi platvormi pakkumiseks toimingute tegemiseks. Oleme nüüd valmis seadma ühe sõlme Hadoopi klastri.
Hadoopi ühe sõlme seadistamine: eraldiseisev režiim
Mis puutub Hadoopi tegelikku jõusse, siis see on tavaliselt seadistatud mitme serveri vahel, et see saaks skaalata suure hulga andmekogumi kohal Hadoopi hajutatud failisüsteem (HDFS). Silumiskeskkondadega on see tavaliselt korras ja seda ei kasutata tootmise jaoks. Protsessi lihtsuse huvides selgitame, kuidas saame siin Hadoopi jaoks ühe sõlme seadistada.
Kui oleme Hadoopi installimise lõpetanud, käivitame Hadoopis ka näidisrakenduse. Praeguse seisuga nimetatakse Hadoop-faili nimeks hadoop-3.0.1. nimetame selle lihtsamaks kasutamiseks ümber hadoopiks:
mv hadoop-3.0.1 hadoopFail näeb nüüd välja selline:
Hadoopi liigutamine
Aeg kasutada varem loodud hasoop-kasutajat ja määrata sellele kasutajale selle faili omandiõigus:
chown -R hadoopuser: hadoop / juur / hadoopHadoopi jaoks on parem asukoht kataloog / usr / local /, nii et liigutame selle sinna:
mv hadoop / usr / local /cd / usr / local /
Hadoopi lisamine teele
Hadoopi skriptide käivitamiseks lisame selle nüüd teele. Selleks avage bashrc-fail:
vi ~ /.bashrcLisage need read rea lõppu .bashrc-fail, et tee saaks sisaldada käivitatava Hadoop-faili teed:
# Hadoopi ja Java Home'i seadistamineeksport HADOOP_HOME = / usr / local / hadoop
eksport JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
eksport PATH = $ PATH: $ HADOOP_HOME / bin
Fail näeb välja:
Hadoopi lisamine teele
Kuna Hadoop kasutab Java-d, peame sellest rääkima Hadoopi keskkonnafailile hadoop-env.sh kus see asub. Selle faili asukoht võib Hadoopi versioonidest sõltuvalt erineda. Selle faili asukoha hõlpsaks leidmiseks käivitage järgmine käsk otse Hadoopi kataloogist:
leidke hadoop / -nimi hadoop-env.shSaame faili asukoha väljundi:
Keskkonnafaili asukoht
Redigeerime seda faili, et teavitada Hadoopi Java JDK asukohast, sisestage see faili viimasele reale ja salvestage see:
eksport JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64Hadoopi installimine ja seadistamine on nüüd lõpule viidud. Oleme nüüd valmis oma näidisrakendust käitama. Aga oota, me ei teinud kunagi näidisrakendust!
Proovirakenduse käitamine Hadoopiga
Tegelikult on Hadoopi installimisel kaasas sisseehitatud näidisrakendus, mis on käivitamiseks valmis, kui oleme Hadoopi installimise lõpetanud. Kõlab hästi, eks?
JAR-i näite käivitamiseks käivitage järgmine käsk:
hadoop purk / juur / hadoop / jaga / hadoop / mapreduce / hadoop-mapreduce-näited-3.0.1.jar sõnaarv / juur / hadoop / LUGEGE.txt / root / väljundHadoop näitab, kui palju seda sõlmes töödeldi:
Hadoop töötleb statistikat
Kui olete järgmise käsu käivitanud, näeme väljundina faili part-r-00000. Vaadake väljundi sisu:
kassiosa-r-00000Saad midagi sellist:
Hadoopi väljastatud sõnade arv
Järeldus
Selles tunnis vaatasime, kuidas saaksime Apache Hadoopi installida ja Ubuntu 17-s kasutama hakata.10 masin. Hadoop sobib suurepäraselt suure hulga andmete salvestamiseks ja analüüsimiseks ning loodan, et see artikkel aitab teil kiiresti Ubuntu kasutama asuda.