Installige Apache Hadoop Ubuntu 17-sse.10!

Apache Hadoop on suur andmelahendus suurte andmemahtude salvestamiseks ja analüüsimiseks. Selles artiklis kirjeldame üksikasjalikult Apache Hadoopi keerukaid seadistamisetappe, et saaksite sellega võimalikult kiiresti Ubuntus alustada. Selles postituses installime Apache Hadoopi Ubuntu 17-le.10 masin.

Ubuntu versioon

Selle juhendi jaoks kasutame Ubuntu versiooni 17.10 (GNU / Linux 4.13.0-38-üldine x86_64).

Olemasolevate pakettide värskendamine

Hadoopi installimise alustamiseks on vaja värskendada oma masinat uusimate saadaolevate tarkvarapakettidega. Saame seda teha:

sudo apt-get update && sudo apt-get -y dist-upgrade

Kuna Hadoop põhineb Java-l, peame selle oma arvutisse installima. Saame kasutada mis tahes Java versiooni Java 6 kohal. Siin kasutame Java 8:

sudo apt-get -y installib openjdk-8-jdk-peata

Hadoopi failide allalaadimine

Kõik vajalikud paketid on nüüd meie masinas olemas. Oleme valmis alla laadima vajalikud Hadoop TAR-failid, et saaksime neid seadistama asuda ja ka Hadoopiga näidisprogrammi käivitada.

Selles juhendis installime Hadoop v3.0.1. Selle käsuga laadige alla vastavad failid:

wget http: // peegel.cc.kolumbia.edu / pub / tarkvara / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.tõrv.gz

Sõltuvalt võrgu kiirusest võib see võtta kuni paar minutit, kuna fail on suur:

Hadoopi allalaadimine

Uusimad Hadoopi kahendfailid leiate siit. Nüüd, kui meil on TAR-fail alla laaditud, saame praegusest kataloogist välja tõmmata:

tõrva xvzf hadoop-3.0.1.tõrv.gz

Arhiivi suure failisuuruse tõttu võtab see mõne sekundi täitmiseks:

Hadoop arhiiviti

Lisati uus Hadoopi kasutajagrupp

Kuna Hadoop töötab HDFS-i kaudu, võib uus failisüsteem häirida ka meie enda failisüsteemi ka Ubuntu masinas. Selle kokkupõrke vältimiseks loome täiesti eraldi kasutajagrupi ja määrame selle Hadoopile, nii et see sisaldaks oma õigusi. Selle käsuga saame lisada uue kasutajagrupi:

lisarühma hadoop

Näeme midagi sellist:

Hadoopi kasutajagrupi lisamine

Oleme valmis sellesse gruppi uue kasutaja lisama:

useradd -G hadoop hadoopuser

Pange tähele, et kõik käsklused, mida me käivitame, on ise juurkasutaja. Käsuga aove suutsime enda loodud rühma lisada uue kasutaja.

Selleks, et Hadoopi kasutaja saaks toiminguid teha, peame pakkuma ka juurjuurdepääsu. Ava / etc / sudoers fail selle käsuga:

sudo visudo

Enne kui midagi lisame, näeb fail välja selline:

Sudoers faili enne midagi lisamist

Lisage faili lõppu järgmine rida:

hadoopuser KÕIK = (KÕIK) KÕIK

Nüüd näeb fail välja selline:

Sudoerite fail pärast Hadoopi kasutaja lisamist

See oli peamine seadistus Hadoopi platvormi pakkumiseks toimingute tegemiseks. Oleme nüüd valmis seadma ühe sõlme Hadoopi klastri.

Hadoopi ühe sõlme seadistamine: eraldiseisev režiim

Mis puutub Hadoopi tegelikku jõusse, siis see on tavaliselt seadistatud mitme serveri vahel, et see saaks skaalata suure hulga andmekogumi kohal Hadoopi hajutatud failisüsteem (HDFS). Silumiskeskkondadega on see tavaliselt korras ja seda ei kasutata tootmise jaoks. Protsessi lihtsuse huvides selgitame, kuidas saame siin Hadoopi jaoks ühe sõlme seadistada.

Kui oleme Hadoopi installimise lõpetanud, käivitame Hadoopis ka näidisrakenduse. Praeguse seisuga nimetatakse Hadoop-faili nimeks hadoop-3.0.1. nimetame selle lihtsamaks kasutamiseks ümber hadoopiks:

mv hadoop-3.0.1 hadoop

Fail näeb nüüd välja selline:

Hadoopi liigutamine

Aeg kasutada varem loodud hasoop-kasutajat ja määrata sellele kasutajale selle faili omandiõigus:

chown -R hadoopuser: hadoop / juur / hadoop

Hadoopi jaoks on parem asukoht kataloog / usr / local /, nii et liigutame selle sinna:

mv hadoop / usr / local /
cd / usr / local /

Hadoopi lisamine teele

Hadoopi skriptide käivitamiseks lisame selle nüüd teele. Selleks avage bashrc-fail:

vi ~ /.bashrc

Lisage need read rea lõppu .bashrc-fail, et tee saaks sisaldada käivitatava Hadoop-faili teed:

# Hadoopi ja Java Home'i seadistamine
eksport HADOOP_HOME = / usr / local / hadoop
eksport JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
eksport PATH = $ PATH: $ HADOOP_HOME / bin

Fail näeb välja:

Hadoopi lisamine teele

Kuna Hadoop kasutab Java-d, peame sellest rääkima Hadoopi keskkonnafailile hadoop-env.sh kus see asub. Selle faili asukoht võib Hadoopi versioonidest sõltuvalt erineda. Selle faili asukoha hõlpsaks leidmiseks käivitage järgmine käsk otse Hadoopi kataloogist:

leidke hadoop / -nimi hadoop-env.sh

Saame faili asukoha väljundi:

Keskkonnafaili asukoht

Redigeerime seda faili, et teavitada Hadoopi Java JDK asukohast, sisestage see faili viimasele reale ja salvestage see:

eksport JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64

Hadoopi installimine ja seadistamine on nüüd lõpule viidud. Oleme nüüd valmis oma näidisrakendust käitama. Aga oota, me ei teinud kunagi näidisrakendust!

Proovirakenduse käitamine Hadoopiga

Tegelikult on Hadoopi installimisel kaasas sisseehitatud näidisrakendus, mis on käivitamiseks valmis, kui oleme Hadoopi installimise lõpetanud. Kõlab hästi, eks?

JAR-i näite käivitamiseks käivitage järgmine käsk:

hadoop purk / juur / hadoop / jaga / hadoop / mapreduce / hadoop-mapreduce-näited-3.0.1.jar sõnaarv / juur / hadoop / LUGEGE.txt / root / väljund

Hadoop näitab, kui palju seda sõlmes töödeldi:

Hadoop töötleb statistikat

Kui olete järgmise käsu käivitanud, näeme väljundina faili part-r-00000. Vaadake väljundi sisu:

kassiosa-r-00000

Saad midagi sellist:

Hadoopi väljastatud sõnade arv

Järeldus

Selles tunnis vaatasime, kuidas saaksime Apache Hadoopi installida ja Ubuntu 17-s kasutama hakata.10 masin. Hadoop sobib suurepäraselt suure hulga andmete salvestamiseks ja analüüsimiseks ning loodan, et see artikkel aitab teil kiiresti Ubuntu kasutama asuda.