Master- und Bacherlorarbeiten

sprungmarken_marker_14322

Masterarbeit: Kompression von Simulationsdaten mit Deep Learning

Das Steinbuch Centre for Computing (SCC) sucht ab sofort ein/e Kandidat/in (m/w/d) zur Bearbeitung des unten stehenden Masterarbeitsthemas.

Themenbeschreibung

Neue Technologien wie GPU-Booster, haben zu einem dramatischen Anstieg der Rechenleistung von HPC-Zentren geführt. Gekoppelt mit Simulationsmodellen, welche die Rechenleistung dank verbessertem internem Aufbau besser ausnutzen, führte diese Entwicklung dazu, dass sich der Engpass weg von der Lösung der Differentialgleichungen der Modelle hin zur Speicherung der Ergebnisse verschoben hat.

Im Rahmen dieser Arbeit soll der Einsatz von Maschine Learning (ML) Algorithmen für die Entwicklung neuartiger Kompressionsalgorithmen für strukturierte Gleitkommazahlen wie z.B. Klimadaten untersucht und prototypisch implementiert werden. Die Klimawissenschaften bieten aufgrund der hohen Datenmenge (aktuell ca. 800 TiB Speicherverbrauch beim SCC) die ideale Grundlage für die Erprobung von verschiedenen maschinellen Lernverfahren.

Ein erster Prototyp basierend auf einem Convolutional Autoencoder wurde bereits entwickelt und getestet. Bei einer relativ großen Fehlertoleranz erreicht der Algorithmus einen bis zu viermal größeren Kompressionsfaktor als der aktuelle Stand der Technik. Bei kleineren Fehlertoleranzen arbeitet der Algorithmus nicht mehr so effizient und der Abstand zur Stand der Technik wird kleiner. Mögliche Verbesserungen, welche im Rahmen dieser Arbeit untersucht werden könnten:

  • Verbesserte Integration von Zusatzwissen (z.B. Oberflächenbeschaffenheit) in den Autoencoder
  • Die Einbindung von verwandten Variablen als Channels in die Convolutional Layern
  • Der Einsatz von 4D Convolutional Networks
  • Der Einsatz von Entropie-basierten Zielfunktionen

Der Beginn der Arbeit ist ab sofort möglich.

Forschungsfragen

  • Wie müssen Geodaten strukturiert werden, um einen möglichst performanten Zugriff unter verschiedenen Nutzungsszenarien sicherzustellen?
  • Wie müssen umfangreiche Modell- oder Fernerkundungsdaten aggregiert werden, um reibungslos in wissenschaftliche Workflows integriert zu werden?
  • Wie unterscheidet sich die Zugriffsperformanz von verschiedenen Schnittstellen, die über den THREDDS-Data-Server bereitgestellt werden?

Aufgaben

  • Einarbeitung in die Datenformate netCDF und HDF5.
  • Evaluation von ML-Verfahren für die Vorhersage von Datenpunkten (mit Methoden aus unsupervised und representation learning).
  • Engineering der Kodierungspipeline bzgl. Performance und Kompressionsfaktor.

Voraussetzungen

  • Masterstudent/-in der Informatik, Informationswirtschaft oder Wirtschaftinformatik
  • Programmiererfahrung in Python

Wünschenswerte Fähigkeiten

  • Idealerweise erste Erfahrungen beim Einsatz von ML-Verfahren (idealerweise mit Tensorflow)
  • Erfahrungen in weiteren Programmiersprachen wie C++ oder Rust

Ansprechpartner

Dr. Uğur Çayoğlu

Betreuer

Masterarbeit: AI/ML-basierte Unterstützung der Satellitenerkundung

Es existieren unterschiedliche Methoden zur Erfassung von aktuellen Wetterdaten. Durch die Zusammenführung von punktuellen und flächendeckenden Messungen kann eine genaueres Bild der aktuellen Atmosphäre gemacht werden. Im Rahmen dieser Arbeit sollen Satellitenmessungen und lokale Beobachtungen zusammengeführt werden, um die lokale Wolkenbedeckung und -art besser zu erfassen.

Themenbeschreibung

Das Klima der Erde korrekt zu simulieren ist ein sehr schwieriges Unterfangen. Klimamodelle gehören zu der Kategorie der chaotischen Systeme [0] d.h. sie reagieren sensitiv auf Unsicherheiten in der Initialkonfiguration [1]. Es existieren sehr viele Einflussgrößen, welche die korrekte Vorhersage des Klimas erschweren können. Eines dieser Einflussgrößen ist die korrekte Erfassung der Anfangsbedingungen zu Simulationsbeginn (auch Initialkonfiguration genannt). Es existieren verschiedene Arten von Messungen zur Erfassung des aktuellen Klimas: Es existieren u.a. punktuelle Messungen wie lokale Bodenmessungen und flächendeckende Fernerkundungsmessungen wie Satellitenmeßungen.

Im Rahmen dieser Arbeit soll untersucht werden, wie vereinzelte lokale Bodenmessungen durch flächendeckende  Satellitenmessungen ergänzt werden können um ein genaueres Bild der aktuellen Bedingungen an Standorten ohne lokaler Bodenbeobachtungen zu bekommen. Hierbei sollen Maschinelle Lernverfahren eingesetzt werden, um die lokale Wolkenbedeckung und -art zu erlernen.

Daten und Prozessierung

  • Es sollen Daten vom Sentinel 2 Satelliten [2] verwendet werden.
  • Lokale Messungen über aktuelle Wolkenbedeckung werden vom IMK-ASF bereitgestellt.
  • Prozessierung wir dauf den aktuellen Hochleistungsrechern des KIT stattfinden.

Aufgaben

  • Erstellung eines Datensatzes (basierend auf Sentinel 2 Daten) zum trainieren und validieren
  • Progressive Klassifikation der Wolkenbedeckung von binärer zur mehrstufiger Klassifikation der Wolkenbedeckung und -art.

Betreuer

Kontakt

Cayoglu∂kit.edu

Referenzen

[0] de.wikipedia.org/wiki/Chaosforschung
[1] de.wikipedia.org/wiki/Lorenz-Attraktor
[2] sentinel.esa.int/web/sentinel/missions/sentinel-2
 

Masterarbeit: AI/ML-basierte Unterstützung von Klimasimulationen

Klimamodelle sind chaotische Systeme und die Bestimmung der Initialkonfiguration ist wichtig für die erfolgreiche Vorhersage von Klimaentwicklungen. Einige dieser Variablen sind leichter zu erfassen (z.B. die Temperatur) und andere wiederum etwas schwieriger (z.B. Ozon). Im Rahmen dieser Arbeit soll untersucht werden, ob maschinelle Lernverfahren eingesetzt werden können um vom Ersteren zum Letzteren zu schließen.

Themenbeschreibung

Das Klima der Erde korrekt zu simulieren ist ein sehr schwieriges Unterfangen. Klimamodelle gehören zu der Kategorie der chaotischen Systeme [0] d.h. sie reagieren sensitiv auf Unsicherheiten in der Initialkonfiguration [1]. Es existieren sehr viele Einflussgrößen, welche die korrekte Vorhersage des Klimas erschweren können. Eines dieser Einflussgrößen ist die korrekte Erfassung der Anfangsbedingungen zu Simulationsbeginn (auch Initialkonfiguration genannt). Manche Variablen sind sehr einfach und genau zu erfassen (z.B. Temperatur). Andere Variablen, wie z.B. Konzentrationsmengen von Ozon in der Atmosphäre,  sind schwieriger und aufwendiger in der Erfassung.

Im Rahmen dieser Arbeit soll untersucht werden, ob eine gute Initialkonfiguration für Ozon anhand anderer Variablen wie z.B. der Temperatur oder potentiellen Vortizität berechnet werden kann. Zur Identifikation dieser Zusammenhänge sollen verschiedene supervised- und unsupervised Lernverfahren aus dem Bereich Machine Learning bzw. Artifical Intelligence verwendet werden. 

Daten & Prozessierung

  • Die Initialisierungsdaten sollen aus den ERA5 Daten [2] gewonnen werden.
  • Als Klimamodell wird ICON verwendet [3].
  • Zunächst soll die Stratosphäre betrachtet werden, weil hier weniger Turbulenzen in der Atmosphäre existieren und somit die Prozesse einfacher sind.
  • Prozessierung wir dauf den aktuellen Hochleistungsrechern des KIT stattfinden.

Aufgaben

  • Erstellung eines Datensatzes (basierend auf ERA5 Daten) zum trainieren und validieren
  • Erstellung eines ML-Verfahrens zur Berechnung der Initialkonfiguration von Ozon
  • Definition von Gütekriterien für die Initialkonfiguration

Betreuer

Informatik: Prof. Dr. Achim Streit
Klimawissenschaften: Prof. Dr. Peter Braesicke
Informatik und Klimawissenschaften: Dr. Ugur Cayoglu

Kontakt

Cayoglu∂kit.edu

Referenzen

[0] de.wikipedia.org/wiki/Chaosforschung
[1] de.wikipedia.org/wiki/Lorenz-Attraktor
[2] cds.climate.copernicus.eu/cdsapp#!/dataset/reanalysis-era5-pressure-levels
[3] code.mpimet.mpg.de/projects/iconpublic