Catalysts beschleunigt mittels GP-GPU Cluster den Aerosol-Erkennungs-Algorithmus für die ESA

“Big Data”-Quiz

1.) Was ändert sich beim Schritt von Giga auf Tera? Was ist mit Peta zu erwarten? Wir hatten ursprünglich kein Gefühl – und das ist gefährlich.
Wie lange dauert es, 4 Terabyte von einer schnellen Server-Festplatte zu lesen?
     a) 30 Minuten
     b) 2,5 Stunden
     c) 20 Stunden

Erdbeobachtungssatelliten (wie die Sentinel-Satelliten der European Space Agency, siehe auch http://de.wikipedia.org/wiki/Sentinel_%28Satelliten%29) umkreisen die Erde ca. alle 100 Minuten. Sie haben einige Messinstrumente an Bord, die jeweils einige Hunderttausend Roh-Bilder pro Erdumlauf liefern. Ein Satellit liefert im Laufe der Jahre somit Petabytes an Daten.

Die Berechnung der Aerosol-Daten (Was sind Aerosole? – siehe unser Video) mit dem weltweit genauesten Aerosol-Algorithmus (von Oleg Dubovik, einem der führenden Atmospherical Scientists) aus einem Roh-Bild dauerte auf einem Rechenkern einer CPU mehrere Minuten. Ein normaler PC wäre somit etliche Jahre beschäftigt, auch wenn er nur die Daten von einem einzigen 100-minütigen Erdumlauf verarbeiten müsste.

Die Roh-Daten müssen aber “in Echtzeit” verarbeitet werden (d.h. so schnell, wie sie vom Satelliten geliefert werden). Um das zu ermöglichen, haben wir den Aerosol-Algorithmus parallelisiert und führen ihn auf einem GP-GPU-Cluster (siehe auch http://en.wikipedia.org/wiki/GPU_cluster) aus – das reicht für “Echtzeit” aus.

Die Auflösung der Sensoren steigt alle paar Jahre. Man möchte immer noch mehr Details sehen und immer noch mehr Zusammenhänge verstehen. Auch die Auswerte-Algorithmen und deren Tuning-Parameter werden alle paar Jahre verbessert. Das führt dazu, dass etwa alle 2 Jahre alle bisher gesammelten Roh-Daten neu verarbeitet werden müssen. Diesen Vorgang nennt man “Bulk Processing“.

Beim Bulk-Processing muss man somit alle bisher gesammelten Roh-Daten erneut einlesen. Bei einer handelsüblichen Server-Festplatte dauert das Lesen von 4 Terabyte ca. 2,5 Stunden. Auf diese Art bräuchte man für 1 Petabyte etwa ein Monat. Daher werden die Daten möglichst geschickt in einem Festplatten-Array abgelegt. Die Auswertungs-Algorithmen greifen dann parallel auf alle Platten des Arrays gleichzeitig zu. Die Festplatte ist nicht mehr unbedingt der Flaschenhals.

Mit Big Data gehen einige Paradigmen-Wechsel einher, von denen wir für Sie zwei prominente herausgepickt haben. Je mehr Daten,

  1. desto wichtiger wird die Skalierbarkeit auf viele Rechner und desto unwichtiger werden einzelne zentrale Datenbanken, die sonst sofort einen Flaschenhals bilden würden
    ==> das bringt zum Glück auch nachhaltige Skalierbarkeit
  2. desto wichtiger wird Commodity Hardware mit Open Source Software sowohl für das Betriebssystem (Linux, siehe Operating systems used on top 500 supercomputers), wie für Basis-Software (Apache) und Frameworks und Technologien (Hadoop)
    ==> das bringt zum Glück auch eine wesentliche Kostenreduktion

Interessiert? Vereinbaren Sie mit uns

Anfrage für Web-Konferenz bzw. Anfrage für persönliches Treffen

Zurück zum Quiz
Vorheriger Beitrag
“Big Data”-Weihnachtsrätsel
Nächster Beitrag
Catalysts beschleunigt die Suche in Unternehmensdaten mit Apache Solr

Related Posts

No results found

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Bitte füllen Sie dieses Feld aus
Bitte füllen Sie dieses Feld aus
Bitte gib eine gültige E-Mail-Adresse ein.
Sie müssen den Bedingungen zustimmen, um fortzufahren

Menü