Apache Sparki installimine ja seadistamine Ubuntu/Debiani


Apache Spark on avatud lähtekoodiga hajutatud arvutusraamistik, mis on loodud kiiremate arvutustulemuste pakkumiseks. See on mälusisene arvutusmootor, mis tähendab, et andmeid töödeldakse mälus.

Spark toetab voogesituse, graafide töötlemise, SQL-i, MLLib-i erinevaid API-sid. Samuti toetab see eelistatud keeltena Java, Python, Scala ja R. Spark on enamasti installitud Hadoopi klastritesse, kuid saate säde installida ja konfigureerida ka iseseisvas režiimis.

Selles artiklis näeme, kuidas installida Apache Spark Debianis ja Ubuntu-põhistes jaotustes.

Installige Java ja Scala Ubuntu

Apache Sparki installimiseks Ubuntu peab teie arvutisse olema installitud Java ja Scala. Enamik kaasaegseid jaotusi on vaikimisi installitud Java ja saate seda kontrollida järgmise käsu abil.

$ java -version

Kui väljundit pole, saate Java installida, kasutades meie artiklit selle kohta, kuidas Java Ubuntu installida, või lihtsalt käivitage järgmised käsud Java installimiseks Ubuntu ja Debiani-põhistele jaotustele.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Järgmisena saate Scala installida apt-hoidlast, käivitades järgmised käsud scala otsimiseks ja selle installimiseks.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Scala installi kontrollimiseks käivitage järgmine käsk.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Installige Apache Spark Ubuntu

Nüüd minge ametliku käsu wget alla, et fail otse terminali alla laadida.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Nüüd avage oma terminal ja lülitage alla allalaaditud faili koht ning käivitage järgmine käsk Apache Sparki tõrvafaili ekstraktimiseks.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Lõpuks teisaldage eraldatud Spark kataloog kataloogi/opt.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Konfigureerige Sparki keskkonnamuutujaid

Nüüd peate enne säde käivitamist oma .profile-faili määrama mõned keskkonnamuutujad.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Veendumaks, et need uued keskkonnamuutujad on kestas kättesaadavad ja Apache Sparkile kättesaadavad, on hiljutiste muudatuste jõustamiseks kohustuslik käivitada ka järgmine käsk.

$ source ~/.profile

Kõik sädemetega seotud kahendfailid teenuste käivitamiseks ja peatamiseks asuvad kaustas sbin.

$ ls -l /opt/spark

Käivitage Apache Spark Ubuntu

Sparki põhiteenuse ja alamteenuse käivitamiseks käivitage järgmine käsk.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Kui teenus on käivitatud, minge brauserisse ja tippige järgmine URL-i juurdepääsu säde. Lehelt näete, kuidas minu isand ja alamteenus on alustatud.

http://localhost:8080/
OR
http://127.0.0.1:8080

Samuti saate käsku säde-kest kontrollida, kas sädemekoor töötab hästi.

$ spark-shell

See on selle artikli jaoks. Püüame teid varsti veel ühe huvitava artikliga.