Dataanalyse versucht Muster, Anomalien und Korrelationen in Data verschiedenster Form zu finden: strukturierte oder unstrukturierte, statische oder strömende Daten. Aus Sicht der Informatik benötigt Datenanalyse verteilte Plattformen, die für das Speichern, Abrufen und Prozessieren großer Datenvolumina (größer als ein einzelner Computer sie handhaben kann) optimiert sind. Die Prozessierung basiert auf Techniken, die aus dem Data Mining, maschinellem Lernen, Statistik und von Vorhersagemethoden bekannt sind. Um sie effizient im großen Maßstab einzusetzen, benötigen wir häufig komplett neue Lösungsansätze und Algorithmen.

Mit unserer Erfahrung mit massiv parallelem Rechnen, moderner Rechnerarchitektur, Hochleistungs-Netzwerken und aufkommenden Hardware-Trends fokussieren wir uns auf die Entwicklung und Optimierung hochparalleler, skalierbarer Algorithmen und verteilte Plattformen zur Datenanalyse.

Wir evaluiren unsere Algorithmen und Prototypen in zahlreichen wissenschaftlichen Anwendungsdomänen wie den Erdsystemwissenschaften, Hochenergiephysik, Medizin, Materialwissenscghaften und entwickeln domänenspezifische Methoden zur Analyse und Handhabung sehr großer Datensätze und Datenströme.