Machine Learning & Fehlersuche. Ein „molekularer“ Kompass weist den Weg zur Reduzierung von Tierversuchen: Forscher der Uni Wien haben ein neues Software-Tool entwickelt, das blinde Flecken bei den neuen AI-Lösungen aufspüren soll.
Im vergangenen Jahren sind Machine Learning Methoden zur Risikobewertung chemischer Verbindungen immer wichtiger geworden, so eine Aussendung der Uni Wien. Sie seien aber auch eine „Black Box“ aufgrund fehlender Nachvollziehbarkeit und Transparenz, was zu Skepsis unter Fachleuten und Zulassungsbehörden führe.
Um das Vertrauen in diese Modelle zu erhöhen, haben Forscher:innen der Universität Wien jene Bereiche identifiziert, in denen diese Modelle Schwächen aufweisen, heißt es weiter. Zu diesem Zweck entwickelten sie das Software-Tool „MolCompass“. Die Ergebnisse dieses Forschungsansatzes wurden nun im Journal of Cheminformatics veröffentlicht (S. Sosnin: MolCompass: multi-tool for the navigation in chemical space and visual validation of QSAR/ QSPR models. Journal of Cheminformatics. DOI: 10.1186/s13321-024-00888-z).
Weniger Tierversuche sind das Ziel
Über viele Jahrzehnte wurden neue Arzneimittel und Agrarchemikalien hauptsächlich an Tieren getestet. Diese Tests sind teuer, werfen ethische Bedenken auf und versagen oft bei der genauen Vorhersage von Nebenwirkungen am Menschen. Im Rahmen des von der Europäischen Union unterstützten Projektes RISK-HUNT3R wird – unter Mitarbeit von Wissenschafter:innen der Universität Wien – an der Entwicklung der nächsten Generation von Methoden zur tierversuchsfreien Risikobewertung neuer Substanzen geforscht.
Rechnergestützte Methoden ermöglichen es demnach mittlerweile, die toxikologischen und ökologischen Risiken neuer Chemikalien vollständig per Computer zu bewerten, ohne dass die chemischen Verbindungen synthetisiert und getestet werden müssen. Aber eine Frage bleibt: Wie vertrauenswürdig sind diese Computermodelle?
Es geht um zuverlässige Vorhersagen
Um dieses Problem näher zu untersuchen konzentrierte sich Sergey Sosnin, Senior Scientist in der Forschungsgruppe für Pharmakoinformatik an der Universität Wien, auf die binäre Klassifikation.
- Hierbei liefert ein maschinelles Lernmodell eine Wahrscheinlichkeit von 0% bis 100%, die angibt, ob eine chemische Verbindung aktiv ist oder nicht (z. B. toxisch oder nicht toxisch, bioakkumulierbar oder nicht bioakkumulierbar, ein Binder oder Nicht-Binder an ein spezifisches menschliches Protein). Diese Wahrscheinlichkeit spiegelt das Vertrauen des Modells in seine Vorhersage wider.
- Idealerweise sollte das Modell nur bei korrekten Vorhersagen Werte nahe 0% (sicher inaktiv) oder 100% (Sicher aktiv) geben. Wenn das Modell unsicher ist und eine Vertrauensbewertung von z.B. 51% abgibt, sollten diese Vorhersagen verworfen und alternative Methoden zur Risikobewertung herangezogen werden.
- Ein Problem entsteht jedoch dann, wenn das Modell falsche Vorhersagen mit hohen Wahrscheinlichkeiten liefert. Vergleichbar ist das mit den „Halluzinationen“ der LLM-Sprachmodelle: Falsche Ausagen werden voll Selbstvertrauen präsentiert, der User droht also in die Irre geleitet zu werden.
„Dies ist das wahre Albtraumszenario für Toxikolog:innen“, sagt Sergey Sosnin: „Wenn ein Modell vorhersagt, dass eine Verbindung mit 99% Sicherheit nicht toxisch ist, die Verbindung aber tatsächlich toxisch ist, gibt es keine Möglichkeit zu wissen, dass etwas falsch gelaufen ist.“
Die einzige Lösung bestehe darin, jene Bereiche des chemischen Raums – also mögliche Klassen organischer Verbindungen – im Voraus zu identifizieren, in denen das Modell „blinde Flecken“ hat, und diese zu vermeiden. Dazu müssen Forscher:innen, die das Modell bewerten, die vorhergesagten Ergebnisse für Tausende von chemischen Verbindungen einzeln überprüfen – eine mühsame und fehleranfällige Aufgabe.
Rot zeigt falsch vorhergesagte Verbindungen an
„Um diese Forschenden zu unterstützen“, fährt Sosnin fort, „entwickelten wir interaktive grafische Werkzeuge, die chemische Verbindungen auf eine 2D-Ebene projizieren, ähnlich wie geografische Karten. Mit Farben heben wir die Verbindungen hervor, die mit hoher Sicherheit falsch vorhergesagt wurden, sodass Benutzer:innen sie als Cluster roter Punkte identifizieren können. Die Karte ist interaktiv und ermöglicht es den Benutzer:innen, den chemischen Raum zu untersuchen und besorgniserregende Bereiche zu erkunden.“
Die Methodik wurde anhand eines Modells zur Bindung an den Östrogenrezeptor getestet. Nach der visuellen Analyse des chemischen Raums wurde klar, dass das Modell gut für z. B. Steroide und polychlorierte Biphenyle funktioniert, aber bei kleinen, nicht zyklischen Verbindungen völlig versagt und daher nicht für diese verwendet werden sollte, so die Aussendung der Uni Wien weiter.
Die in diesem Projekt entwickelte Software ist der wissenschaftlichen Community frei zugänglich auf GitHub verfügbar. Sergey Sosnin hofft, dass MolCompass Chemiker:innen und Toxikolog:innen zu einem besseren Verständnis der Einschränkungen von Computermodellen verhelfen wird. Diese Studie ist ein Schritt in Richtung einer Zukunft, in der Tierversuche nicht mehr notwendig sein werden und der einzige Arbeitsplatz für Toxikolog:innen ein Schreibtisch mit einem Rechner ist, so die Hoffnung.