Apache Spark klaszter RStudio stack-el

Az Apache Spark egy gyors és általános célú klaszter keretrendszer. Magas szintű API-kat biztosít Java, Scala, Python és R programnyelvekhez. Továbbá számos magas szintű eszközt támogat, többet között a Spark SQL-t a strukturált adatfeldolgozáshoz, MLlib-et a gépi tanuláshoz, GraphX-et a gráf feldolgozáshoz, és Spark Streaming-et a nagy mennyiségű adatok valós idejű feldolgozásához. További információkért látogasson el az Apache Spark hivatalos weboldalára.

Az Apache Spark klaszter a HDFS-el (Hadoop Distributed File System) együtt a Big Data és a a gépi tanulási alkalmazások egyik legfontosabb eszköze, amely lehetővé teszi a nagy adatállományok párhuzamos feldolgozását több virtuális gépen, amelyek a Spark Workerek. Azonban, egy Spark klaszter létrehozása a HDFS-el a felhőben nem egyszerű, a felhő rendszerek és az Apache Spark architektúrájának mély ismeretét igényli. Azért, hogy a kutatókat megóvjuk ettől a munkától, létrehoztuk és közzétettük azokat a szükséges infrastruktúra leírókat, amelyek segítségével az Occopus automatikusan építi a Spark klasztert, a felhasználó által megadott Workerek számával. A Big Data technológiák egyik legjellemzőbb alkalmazási területe a statisztikai adatfeldolgozás, amelyet általában az R programozási nyelv végez. A Sparkot felhőn használó statisztikusok munkájának megkönnyítése érdekében létrehoztunk egy kiterjesztett változatot a Spark infrastruktúra leírókról, amely esetében a Spark Workereken a sparklyr könyvtár is elérhető. Végül integráltuk a felhasználóbarát RStudio felületet. Ennek eredményeként a statisztikai R csomagot használó kutatók könnyen és gyorsan telepíthetnek egy teljes R-orientált Spark fürtöt a felhőkre amelyek a következő összetevőket tartalmazzák: RStudio, R, sparklyr, Spark és HDFS.

Ez a bemutató egy teljes Apache Spark infrastruktúrának a kiépítését mutatja be az Occopus orkesztrációs eszköz használatával, amely integrálva van a HDFS, R, RStudio és sparklyr rendszerekkel. Tartalmaz egy Spark Master csomópontot és Spark Worker csomópontokat, amelyek számát felfelé vagy lefelé lehet skálázni.

 

Használati és telepítési útmutató: