“Big Data”-Weihnachtsrätsel 1. Rätsel 2. Rätsel 3. Rätsel 4. Rätsel
1.) Was ändert sich beim Schritt von Giga auf Tera? Was ist mit Peta zu erwarten? Wir hatten ursprünglich kein Gefühl – und das ist gefährlich.
Wie lange dauert es, 4 Terabyte von einer schnellen Server-Festplatte zu lesen?
a) 30 Minuten
b) 2,5 Stunden
c) 20 Stunden
Erdbeobachtungssatelliten (wie die Sentinel-Satelliten der European Space Agency, siehe auch http://de.wikipedia.org/wiki/Sentinel_%28Satelliten%29) umkreisen die Erde ca. alle 100 Minuten. Sie haben einige Messinstrumente an Bord, die jeweils einige Hunderttausend Roh-Bilder pro Erdumlauf liefern. Ein Satellit liefert im Laufe der Jahre somit Petabytes an Daten.
Die Berechnung der Aerosol-Daten (Was sind Aerosole? – siehe unser Video) mit dem weltweit genauesten Aerosol-Algorithmus (von Oleg Dubovik, einem der führenden Atmospherical Scientists) aus einem Roh-Bild dauerte auf einem Rechenkern einer CPU mehrere Minuten. Ein normaler PC wäre somit etliche Jahre beschäftigt, auch wenn er nur die Daten von einem einzigen 100-minütigen Erdumlauf verarbeiten müsste.
Die Roh-Daten müssen aber “in Echtzeit” verarbeitet werden (d.h. so schnell, wie sie vom Satelliten geliefert werden). Um das zu ermöglichen, haben wir den Aerosol-Algorithmus parallelisiert und führen ihn auf einem GP-GPU-Cluster (siehe auch http://en.wikipedia.org/wiki/GPU_cluster) aus – das reicht für “Echtzeit” aus.
Die Auflösung der Sensoren steigt alle paar Jahre. Man möchte immer noch mehr Details sehen und immer noch mehr Zusammenhänge verstehen. Auch die Auswerte-Algorithmen und deren Tuning-Parameter werden alle paar Jahre verbessert. Das führt dazu, dass etwa alle 2 Jahre alle bisher gesammelten Roh-Daten neu verarbeitet werden müssen. Diesen Vorgang nennt man “Bulk Processing“.
Beim Bulk-Processing muss man somit alle bisher gesammelten Roh-Daten erneut einlesen. Bei einer handelsüblichen Server-Festplatte dauert das Lesen von 4 Terabyte ca. 2,5 Stunden. Auf diese Art bräuchte man für 1 Petabyte etwa ein Monat. Daher werden die Daten möglichst geschickt in einem Festplatten-Array abgelegt. Die Auswertungs-Algorithmen greifen dann parallel auf alle Platten des Arrays gleichzeitig zu. Die Festplatte ist nicht mehr unbedingt der Flaschenhals.
Mit Big Data gehen einige Paradigmen-Wechsel einher, von denen wir für Sie zwei prominente herausgepickt haben. Je mehr Daten,
- desto wichtiger wird die Skalierbarkeit auf viele Rechner und desto unwichtiger werden einzelne zentrale Datenbanken, die sonst sofort einen Flaschenhals bilden würden==> das bringt zum Glück auch nachhaltige Skalierbarkeit
- desto wichtiger wird Commodity Hardware mit Open Source Software sowohl für das Betriebssystem (Linux, siehe Operating systems used on top 500 supercomputers), wie für Basis-Software (Apache) und Frameworks und Technologien (Hadoop)==> das bringt zum Glück auch eine wesentliche Kostenreduktion