Kuidas installida HADOOP ühekordse sõlme klaster (pseudonood) CentOS 7-le


Hadoop on avatud lähtekoodiga raamistik, mida kasutatakse laialdaselt Bigdata'ga tegelemiseks. Enamik Bigdata/Data Analyticsi projekte on üles ehitatud Hadoopi ökosüsteemi peale. See koosneb kahest kihist, millest üks on andmete salvestamiseks ja teine andmete töötlemiseks.

Salvestamise eest hoolitseb tema enda failisüsteem nimega HDFS (Hadoop Distributed Filesystem) ja töötlemise eest hoolitseb YARN (veel üks ressursside läbirääkija). Mapreduce on Hadoopi ökosüsteemi vaiketöötlusmootor.

Selles artiklis kirjeldatakse Hadoopi Pseudonode'i installimise protsessi, kus kõik deemonid (JVM-id) töötavad CentOS 7-s ühe sõlme klastrit.

See on mõeldud peamiselt algajatele Hadoopi õppimiseks. Reaalajas installitakse Hadoop mitmemoodilise klastrina, kus andmed jaotatakse serverite vahel plokkidena ja töö täidetakse paralleelselt.

  • CentOS 7 serveri minimaalne installimine.
  • Java v1.8 versioon.
  • Hadoop 2.x stabiilne vabastamine.

Sellel lehel

  • Kuidas Java installida CentOS 7-le
  • Seadistage paroolita sisselogimine CentOS 7-sse
  • Kuidas installida Hadoopi üks sõlm CentOS 7-sse
  • Hadoopi konfigureerimine CentOS 7-s
  • HDFS-failisüsteemi vormindamine NameNode'i kaudu

1. Hadoop on ökosüsteem, mis koosneb Java-st. Hadoopi installimiseks vajame oma süsteemi kohustuslikult installitud Java.

# yum install java-1.8.0-openjdk

2. Seejärel kontrollige süsteemis Java installitud versiooni.

# java -version

Meil peab olema masinas ssh konfigureeritud, Hadoop haldab sõlme SSH abil. Põhisõlm kasutab SSH-ühendust oma alluvate sõlmede ühendamiseks ning selliste toimingute tegemiseks nagu käivitamine ja peatamine.

Peame seadistama paroolideta ssh, et kapten saaks ssh-ga paroolita orjadega suhelda. Vastasel juhul peate iga ühenduse loomiseks sisestama parooli.

Selles ühes sõlmes töötavad põhiteenused (Namenode, Secondary Namenode & Resource Manager) ja Slave-teenused (Datanode & Nodemanager) eraldi JVM-idena. Isegi kui see on üks sõlm, peab meil olema paroolideta ssh, et muuta Master suhtlemaks orjaga ilma autentimiseta.

3. Seadistage paroolivaba SSH sisselogimine, kasutades järgmisi serveris olevaid käske.

# ssh-keygen
# ssh-copy-id -i localhost

4. Kui olete konfigureerinud paroolita SSH-i sisselogimise, proovige uuesti sisse logida, olete ühenduses paroolita.

# ssh localhost

5. Minge Apache Hadoopi veebisaidile ja laadige Hadoopi stabiilne versioon alla järgmise käsuga wget.

# wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
# tar xvpzf hadoop-2.10.1.tar.gz

6. Seejärel lisage Hadoopi keskkonnamuutujad faili ~/.bashrc , nagu näidatud.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. Pärast keskkonnamuutujate lisamist faili ~/.bashrc hankige fail allikast ja kontrollige Hadoopi, käivitades järgmised käsud.

# source ~/.bashrc
# cd $HADOOP_PREFIX
# bin/hadoop version

Teie arvutisse sobitamiseks peame Hadoopi konfiguratsioonifailid allpool konfigureerima. Hadoopis on igal teenusel oma pordi number ja oma kataloog andmete salvestamiseks.

  • Hadoopi konfiguratsioonifailid - core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml

8. Kõigepealt peame failis hadoop-env.sh värskendama JAVA_HOME ja Hadoopi teed, nagu näidatud.

# cd $HADOOP_PREFIX/etc/hadoop
# vi hadoop-env.sh

Sisestage faili alguses järgmine rida.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. Järgmisena muutke faili core-site.xml .

# cd $HADOOP_PREFIX/etc/hadoop
# vi core-site.xml

Kleepige järgmine silt <konfiguratsioon>, nagu näidatud.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. Looge kasutaja kodukataloogi tecmint alla järgmised kataloogid, mida kasutatakse NN- ja DN-mälus.

# mkdir -p /home/tecmint/hdata/
# mkdir -p /home/tecmint/hdata/data
# mkdir -p /home/tecmint/hdata/name

10. Järgmisena muutke faili hdfs-site.xml .

# cd $HADOOP_PREFIX/etc/hadoop
# vi hdfs-site.xml

Kleepige järgmine silt <konfiguratsioon>, nagu näidatud.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. Jällegi muutke faili mapred-site.xml .

# cd $HADOOP_PREFIX/etc/hadoop
# cp mapred-site.xml.template mapred-site.xml
# vi mapred-site.xml

Kleepige järgmine silt <konfiguratsioon>, nagu näidatud.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. Lõpuks muutke faili yarn-site.xml .

# cd $HADOOP_PREFIX/etc/hadoop
# vi yarn-site.xml

Kleepige järgmine silt <konfiguratsioon>, nagu näidatud.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

13. Enne klastri käivitamist peame Hadoop NN-i vormindama oma kohalikus süsteemis, kuhu see on installitud. Tavaliselt tehakse seda algstaadiumis enne klastri esimest käivitamist.

NN-i vormindamine põhjustab andmete kadumise NN-i metapoes, seega peame olema ettevaatlikumad, me ei tohiks NN-i klastri töötamise ajal vormindada, kui seda pole tahtlikult vaja.

# cd $HADOOP_PREFIX
# bin/hadoop namenode -format

14. Start NameNode deemon ja DataNode deemon: (port 50070).

# cd $HADOOP_PREFIX
# sbin/start-dfs.sh

15. Käivitage deemon ja ResourceManageri deemon: (port 8088).

# sbin/start-yarn.sh

16. Kõigi teenuste peatamine.

# sbin/stop-dfs.sh
# sbin/stop-dfs.sh

Kokkuvõte
Selles artiklis oleme samm-sammult läbinud Hadoopi pseudonoodiklastri (ühe sõlme) klastri seadistamise. Kui teil on algteadmised Linuxist ja järgite neid samme, on klaster 40 minuti pärast üleval.

See võib algajale olla Hadoopi õppimise ja harjutamise jaoks väga kasulik või seda Hadoopi vanilliversiooni saab kasutada arenduseesmärkidel. Kui tahame saada reaalajas klastrit, vajame kas vähemalt kolme füüsilist serverit või peame pilve pakkuma mitme serveri jaoks.