Skip to main content

Hive on Spark mit Jedox nutzen

Apache Spark ist ein Open Source-Projekt zur Verarbeitung von großen Datenmengen. Im Gegensatz zu Map-Reduce über Hadoop versucht Spark, viele Operationen bei der Datenverarbeitung im Arbeitsspeicher durchzuführen (In-Memory) und Zugriffe auf das HDFS gering zu halten.

Für einige Anwendungsfälle ist es daher bis zu 100-mal schneller als Map-Reduce. Das betrifft insbesondere Anwendungen mit vielen Reduce-Schritten wie sie z.B. bei der Übersetzung von komplexen Queries oder im Business Intelligence-Umfeld an der Tagesordnung sind.

Bislang war es nicht möglich, Spark in der Business Intelligence-Plattform von Jedox zu nutzen und so bei Auswertungen von den Performancegewinnen zu profitieren. Im Rahmen dieses Research Papers haben wir erstmals den Einsatz von Hive on Spark zusammen mit Jedox getestet, ohne dass Anpassungen an den Queries oder in Jedox vorgenommen werden mussten. Die Anleitung dazu sowie die Messergebnisse finden sich in dem Paper.

Inhalt

1    Big Data-Datenbestände mit Jedox und Hive on Spark auswerten

2    Konfiguration von Hive on Spark mit Hilfe des Cloudera Cluster Manager

3    Testen von Hive on Spark

4    Einrichten von Hive on Spark in Jedox

5    Hive on Spark mit Jedox

6    Messungen

7    Fazit

Whitepaper anfordern

it-novum GmbH Deutschland

Hauptsitz: Edelzeller Straße 44, 36043 Fulda

Niederlassung: Siemensdamm 50, 13629 Berlin

Niederlassung: Ruhrallee 9, 44139 Dortmund

 

info@it-novum.com

+49 661 103 - 322

+49 661 103 - 597

it-novum Niederlassung Österreich

Office Park 7 / Top B02

1300 Wien-Flughafen

 

 

info@it-novum.at

+43 1 227 87 - 139

+43 1 227 87 - 200