Apache Sparki installimine ja seadistamine Ubuntu/Debiani
Apache Spark on avatud lähtekoodiga hajutatud arvutusraamistik, mis on loodud kiiremate arvutustulemuste pakkumiseks. See on mälusisene arvutusmootor, mis tähendab, et andmeid töödeldakse mälus.
Spark toetab voogesituse, graafide töötlemise, SQL-i, MLLib-i erinevaid API-sid. Samuti toetab see eelistatud keeltena Java, Python, Scala ja R. Spark on enamasti installitud Hadoopi klastritesse, kuid saate säde installida ja konfigureerida ka iseseisvas režiimis.
Selles artiklis näeme, kuidas installida Apache Spark Debianis ja Ubuntu-põhistes jaotustes.
Installige Java ja Scala Ubuntu
Apache Sparki installimiseks Ubuntu peab teie arvutisse olema installitud Java ja Scala. Enamik kaasaegseid jaotusi on vaikimisi installitud Java ja saate seda kontrollida järgmise käsu abil.
$ java -version
Kui väljundit pole, saate Java installida, kasutades meie artiklit selle kohta, kuidas Java Ubuntu installida, või lihtsalt käivitage järgmised käsud Java installimiseks Ubuntu ja Debiani-põhistele jaotustele.
$ sudo apt update $ sudo apt install default-jre $ java -version
Järgmisena saate Scala installida apt-hoidlast, käivitades järgmised käsud scala otsimiseks ja selle installimiseks.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package
Scala installi kontrollimiseks käivitage järgmine käsk.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Installige Apache Spark Ubuntu
Nüüd minge ametliku käsu wget alla, et fail otse terminali alla laadida.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Nüüd avage oma terminal ja lülitage alla allalaaditud faili koht ning käivitage järgmine käsk Apache Sparki tõrvafaili ekstraktimiseks.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Lõpuks teisaldage eraldatud Spark kataloog kataloogi/opt.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Konfigureerige Sparki keskkonnamuutujaid
Nüüd peate enne säde käivitamist oma .profile-faili määrama mõned keskkonnamuutujad.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Veendumaks, et need uued keskkonnamuutujad on kestas kättesaadavad ja Apache Sparkile kättesaadavad, on hiljutiste muudatuste jõustamiseks kohustuslik käivitada ka järgmine käsk.
$ source ~/.profile
Kõik sädemetega seotud kahendfailid teenuste käivitamiseks ja peatamiseks asuvad kaustas sbin.
$ ls -l /opt/spark
Käivitage Apache Spark Ubuntu
Sparki põhiteenuse ja alamteenuse käivitamiseks käivitage järgmine käsk.
$ start-master.sh $ start-workers.sh spark://localhost:7077
Kui teenus on käivitatud, minge brauserisse ja tippige järgmine URL-i juurdepääsu säde. Lehelt näete, kuidas minu isand ja alamteenus on alustatud.
http://localhost:8080/ OR http://127.0.0.1:8080
Samuti saate käsku säde-kest kontrollida, kas sädemekoor töötab hästi.
$ spark-shell
See on selle artikli jaoks. Püüame teid varsti veel ühe huvitava artikliga.