16.10.2023

Dateneffizientes Maschinelles Lernen von Biomolekülen

SCC und Helmholtz-AI veröffentlichen in Kooperation mit FZJ und DLR eine Studie in Communications Biology, die vorschlägt, wie moderne und klassische Methoden des tiefen maschinellen Lernens dateneffizient kombiniert werden können.

Beispielsystem mit korrekten Vorhersagen in grün und falschen Vorhersagen in gelb, Hauptstrang in türkis und Basen in violett

Leben wird auf der zellulären Ebene von verschiedenen Biomolekülen bestimmt. Sie stellen die Maschinerie von lebenden Organismen dar und spielen eine entscheidende Rolle für das Funktionieren jeder Zelle. Um ihre Funktion und die damit zusammenhängende Struktur zu studieren wird zunehmend auch maschinelles Lernen verwendet. Mitarbeiter der Forschungsgruppe Multiscale Biomolecular Simulation und des Helmholtz-AI-Teams haben in Kooperation mit dem Forschungszentrum Jülich und dem Deutschen Zentrum für Luft- und Raumfahrt (DLR) nun eine Methode vorgeschlagen, wie moderne und klassische Methoden des tiefen maschinellen Lernens kombiniert werden können um auch in datenarmen Szenarien Modelle bauen zu können.

Die Forschenden verwenden einen Deep-Learning-Ansatz, um räumliche Nachbarschaften zwischen RNA-Bausteinen (sog. Nukleotide) vorherzusagen. Ähnlich, wie in einem LEGO-Modell, müssen sich auch hier die Bausteine in der Umgebung anpassen, wenn an einer Stelle einzelne Legosteine ausgetauscht werden, damit das gesamte Bauwerk noch zusammenpasst. Das in der Studie vorgeschlagene BARNACLE-Modell nutzt diese Idee für RNA: Nukleotide, die in RNA räumlich nahe beieinander liegen, mutieren während der Evolution auch mit größerer Wahrscheinlichkeit gemeinsam. Und genau nach diesen entstehenden Mutationsmustern sucht das Modell. Um das Modell trainieren zu können, wird auf eine Kombination aus selbstüberwachtem Vortraining auf vielen Sequenzdaten und einer effizienten Nutzung der wenigen Strukturdaten zurückgegriffen. BARNACLE zeigte mit diesem Ansatz eine signifikante Verbesserung gegenüber etablierten klassischen statistischen Ansätzen aber auch anderen neuronalen Netzen. Es zeigt sich auch, dass die Methode auf verwandte Aufgaben mit ähnlichen Datenbeschränkungen übertragbar ist.

Die Ergebnisse dieser Studie wurden im Paper „RNA Contact Prediction by Data Efficient Deep Learning“ in der Zeitschrift Communications Biology veröffentlicht.

 


Achim Grindler