In der Massachusetts Institute of Technology[1]-Meldung vom 12. Februar
2026 wird Rafael Gómez-Bombarelli[2] als Beispiel einer Forschungsrichtung porträtiert, die physikbasierte
Simulation und künstliche Intelligenz gezielt verschränkt, um
Material- und Moleküldesign schneller, systematischer und (im Idealfall)
zuverlässiger zu machen. [3] Ich lese den Text als
Diagnose eines „zweiten Wendepunkts“: Nach einer ersten Welle (um 2015) mit Representation
Learning, Generativen Modellen und zunehmender Verfügbarkeit von
Hochdurchsatzdaten sieht Gómez-Bombarelli nun eine Phase, in der Sprache
(LLMs), multimodale Modelle und Skalierung zu einer Art
universellerer „scientific intelligence“ zusammenwachsen könnten — wobei
Details zu konkreten Modellklassen und Benchmarks in der Meldung unspezifiziert
bleiben. [4]
Wissenschaftlich lässt sich diese Vision in bekannte (und teils bereits
gut etablierte) Bausteine zerlegen: (i) Simulationen wie DFT und Molekulardynamik
liefern physikalisch motivierte Labels bzw. Trainingsdaten; (ii) ML-Modelle
dienen als Surrogate (z. B. interatomare Potentiale) oder als Inverse-Design-Maschinen
(z. B. generative Modelle), die Kandidaten vorschlagen; (iii) aktive
Lernschleifen und Unsicherheitsquantifizierung helfen, Daten
zielgerichtet nachzuerheben und Extrapolationsrisiken zu erkennen. [5]
Anhand von Originalarbeiten aus dem Umfeld (u. a. zeolithische
Materialien, aktive Lernpipelines, differentiable simulations und
ML-beschleunigte Photodynamik) lässt sich zeigen, wo diese Kopplung bereits
messbare Effekte hat: etwa durch Hochdurchsatz-Simulationen, die Suchräume
drastisch vergrößern, oder durch ML-Potentiale, die Simulationen um
Größenordnungen beschleunigen — gleichzeitig aber neue Fehlerpfade (Datenbias,
Domain Shift, UQ-Fehler, fehlende Synthesizability) einführen. [6]
Der gesellschaftliche Kontext ist 2025/2026 zudem politisch und
infrastrukturell aufgeladen: Die US-Regierung bzw. das U.S. Department of
Energy[7] hat mit der „Genesis
Mission“ eine Initiative angekündigt, die AI + Supercomputing +
Forschungsinfrastruktur enger koppeln soll. [8] Parallel entstehen
Firmen, die „scientific superintelligence“ und (teil-)autonome Labors
versprechen; Gómez-Bombarelli wird in der MIT-Meldung als Mitgründer von Lila
Sciences[9] genannt. [10]
Was die
MIT-Meldung konkret erzählt
Die MIT-News-Meldung ist weniger ein technischer Preprint als ein Profil
mit programmatischer These. Zentral sind drei Erzählstränge:
Erstens beschreibt sie Gómez-Bombarelli als „newly tenured“ Associate
Professor, der seit über einem Jahrzehnt KI einsetzt, um neue Materialien zu
finden, und der einen Umbruch erwartet: Nach einer ersten Phase der
„Representation Learning + Generative AI + High-Throughput“-Methoden um 2015
sieht er nun eine zweite Phase, in der Sprache und multimodale Modelle
zu allgemeinerer wissenschaftlicher Problemlösefähigkeit führen könnten. Welche
konkreten Modellfamilien (z. B. Diffusionsmodelle vs. VAEs, bestimmte
GNN-Architekturen, konkrete Multimodal-Stacks) er dabei meint, bleibt unspezifiziert.
[4]
Zweitens betont der Text den „Kreislauf“ zwischen Simulation und KI:
Physikbasierte Simulationen erzeugen Daten; mehr Daten verbessern Modelle;
bessere Modelle erlauben mehr Simulationen/Hochdurchsatz — eine positive
Rückkopplung. Die Meldung zitiert sinngemäß, dass Simulationen und KI in
„virtuous cycles“ zusammenspielen. [11]
Drittens ordnet die Meldung diese Forschung in Karriere-, Industrie-
und Systemkontexte ein: Ausbildung in Spanien (Universidad de Salamanca), der
Wechsel von Laborchemie zu Simulation, Postdoc-Stationen (u. a. bei Aspuru-Guzik),
ein Industrieabschnitt und dann der Aufbau einer rein rechnergestützten
Arbeitsgruppe, die eng mit Experimentalteams kooperiert, aber selbst keine
Nasslabore betreibt. [3]
Als zeitdiagnostisches Detail wird zudem erwähnt, dass große
Tech-Unternehmen wie Meta[12],
Microsoft[13] und
Google DeepMind[14]
inzwischen regelmäßig physikbasierte Simulationen mit KI-Methoden kombinieren,
was Gómez-Bombarelli als Indikator für Feldreife interpretiert. (Die Meldung
nennt hier keine konkreten Projekte oder Zahlen; das bleibt unspezifiziert.)
[4]
Wissenschaftlicher
Kontext zu Gómez-Bombarelli und seinem Forschungsprogramm
Wenn ich die MIT-Meldung mit offiziellen Profilseiten und Publikationsspuren
trianguliere, ergibt sich ein recht konsistentes Bild: Schwerpunkt ist die Schnittstelle
aus (i) atomistischer Simulation (DFT/MD) und (ii) datengetriebener
Modellierung — mit dem Ziel, Material- und Molekülsuche vom „Trial-and-Error“
zu systematischen Such- und Optimierungsprozessen zu verschieben. [15]
Die Laborwebsite „Learning Matter“ formuliert das explizit als
Kombination aus Forward Models (Eigenschaften aus Struktur vorhersagen)
und Inverse Design (aus Zielkriterien Kandidaten generieren). [16] Genau diese Dualität ist auch in einer der bekanntesten frühen
Arbeiten von Gómez-Bombarelli sichtbar: In „Automatic chemical design using a
data-driven continuous representation of molecules“ wird ein Ansatz
beschrieben, der diskrete Molekülrepräsentationen in einen kontinuierlichen
latenten Raum abbildet, um darin Eigenschaften zu optimieren und Moleküle zu
generieren. [17]
Hinzu kommt eine zweite Achse, die in späteren Arbeiten stark wird:
nicht nur Modelle auf Simulationsdaten trainieren, sondern Simulationen
selbst differenzierbar machen bzw. über automatische Differentiation zu
„steuerbaren“ Optimierungsobjekten. Das ist programmatisch in „Differentiable
Molecular Simulations for Control and Learning“ angelegt (Gradienten durch
Simulationstrajektorien, um z. B. Hamiltonians/Interaktionsmodelle an
Zielobservablen anzupassen). [18]
Wichtig ist mir dabei eine nüchterne Einordnung: Die MIT-Meldung ist in
Teilen eine Visionserzählung. Der wissenschaftlich belastbare Kern ergibt sich
aus dem, was in peer-reviewten Arbeiten bereits operationalisiert ist: aktive
Lernschleifen, UQ-Strategien, ML-Potentiale, generative Modelle für
Vorschlagsräume und automatisierte Pipelines. [19]
Technischer
Kern: KI-gestützte Simulationen systematisch erklärt
Von physikbasierter
Simulation zu datengetriebenen Surrogaten
Atomistische
Simulationen wie DFT (elektronische Struktur) und MD (Teilchendynamik)
sind seit Jahrzehnten Grundpfeiler, weil sie — zumindest in ihrer Modellwelt —
Kausalmechanismen mit physikalischer Struktur liefern. DFT ruht auf den
Hohenberg–Kohn-Theoremen und der Kohn–Sham-Formulierung; MD nutzt u. a.
Integrationsschemata wie den Verlet-Algorithmus. [20]
Das
Problem ist der Rechenaufwand: Genau hier setzen Surrogate Models an.
Gerade für Moleküle/Materialien sind graph- und geometriebasierte Netze
(Message Passing, E(3)-Equivariance) stark, weil sie Symmetrien
(Translation/Rotation/Permutation) respektieren. Historisch ist die
Message-Passing-Perspektive (MPNNs) ein wichtiger Bezugspunkt; spätere Familien
wie SchNet oder NequIP zeigen, dass architekturinduzierte physikalische
Invarianzen/Eqivarianzen Genauigkeit und Daten-Effizienz verbessern können. [21]
Generative Modelle,
Inverse Design und „Suchmaschinen“ für Wissenschaft
Der
Schritt von „Vorhersage“ zu „Vorschlag“ ist der Kern vieler
Inverse-Design-Programme: Statt nur Eigenschaften für gegebene Struktur zu
prognostizieren, sollen Modelle neue Kandidaten generieren, die
Zielkriterien erfüllen. Gómez-Bombarellis VAE-Ansatz für Moleküle ist ein
klassisches Beispiel: ein kontinuierlicher latenter Raum ermöglicht Sampling,
Interpolation und Optimierung. [17]
Inzwischen
sind Diffusionsmodelle eine dominierende Klasse für generatives Design (z. B.
E(3)-äquivariante Diffusion in 3D für Moleküle). Für Kristalle gibt es eigene
Taxonomien und Reviews; ob und wie genau diese Klassen in Gómez-Bombarellis
„zweitem Wendepunkt“ gemeint sind, bleibt in der MIT-Meldung jedoch unspezifiziert
— ich kann hier nur typische Literaturpfade nennen. [22]
Differentiable
Simulations: Wenn die Simulation selbst „im Gradientenfluss“ steht
„Differentiable
Simulations“ meinen grob: Ich kann aus einer Simulation nicht nur Outputs
(z. B. Dichteprofile, Strukturfaktoren, Reaktionsausbeuten) berechnen, sondern
auch Ableitungen dieser Outputs nach Parametern (z. B.
Potentialparametern, Steuerfeldern). Das erlaubt Optimierung „durch die
Simulation hindurch“ (Backpropagation/AD). Genau dieses Prinzip adressiert
„Differentiable Molecular Simulations for Control and Learning“ in einem
MD-Kontext, indem Observablen analytisch bzw. per AD nach dem Hamiltonian
differenziert werden. [18]
Datenanforderungen
und Unsicherheitsquantifizierung
Ein
wiederkehrendes Muster ist: Die Grenze liegt selten nur im Modell, sondern in
der Datenstrategie. Für ML-Potentiale braucht man typischerweise
Energien und Kräfte aus einem „Truth Model“ (häufig DFT oder höherwertige QC),
und man muss die relevanten Konfigurationsräume ausleuchten (Temperaturen,
Übergangszustände, Defekte, Lösungsmittel etc.). Reviews zu Neural Network
Potentials betonen deshalb Datenabdeckung, aktive Lernloops und Validierung als
zentrale Hebel. [23]
Unsicherheitsquantifizierung
(UQ) ist dabei nicht optional: Sie ist das Warnsystem gegen Extrapolation. In
der Gómez-Bombarelli-Welt wird UQ nicht nur „passiv“ (Fehlerbalken), sondern
teils „aktiv“ genutzt: Die Arbeit zu uncertainty-based adversarial attacks
nutzt Differentiation, um gezielt Regionen hoher Unsicherheit zu finden und
damit Trainingsdaten effizient zu erweitern. [24]
Workflow als Flussdiagramm
Das folgende
Schema ist eine abstrahierte, literaturtypische Pipeline. Wichtig: Die
MIT-Meldung liefert kein konkretes technisches Pipeline-Diagramm; Details wie
konkrete Modelle, Datensätze und Benchmarks sind dort unspezifiziert.
Ich bilde hier deshalb einen typischen AI-for-Science-Workflow ab, der
mit der Laborbeschreibung und den publizierten Beispielen kompatibel ist. [25]
flowchart LR
A[Datenquellen\n- Simulation (DFT/MD)\n- Experimente (Literatur/Lab)\n-
Domänenwissen] --> B[Repräsentation\n- Molekülgraph + 3D-Geometrie\n-
Kristallstruktur/Topologie\n- Text (Syntheserezept, Paper)]
B -->
C[Modelle\n- GNN/äquivariante Netze (Property/Forces)\n- Generative Modelle
(VAE/Diffusion)\n- LLMs für Text/Protokolle]
C -->
D[Unsicherheit & Validierung\n- Ensembles/Committee\n- OOD-Detektion\n-
Physik-/Chemie-Checks]
D -->
E[Simulation/Kopplung\n- Surrogat-Simulation (ML-Potential)\n- Differentiable
Simulation\n- Hochdurchsatz-Screening]
E -->
F[Anwendung\n- Kandidatenranking\n- Syntheseplanung (optional)\n-
Experimentelle Tests]
F -->
A[Feedback\n- neue Daten\n- Modell-Update\n- Active Learning]
Vergleichstabelle
relevanter Modell- und Methodenkategorien
Die
Tabelle dient als Orientierung für Fachinteressierte: Sie fasst typische
Modellklassen zusammen, die in Gómez-Bombarellis Forschungsökosystem
(Simulation ↔ ML ↔ Inverse Design ↔ Active Learning) vorkommen. Einige
Zuordnungen sind generisch, weil die MIT-Meldung Modell- und
Daten-Details unspezifiziert lässt. [26]
|
Methode/Modellklasse |
Typische
Eingaben |
Typischer
Datenbedarf |
Vorteile |
Grenzen
/ Risiken |
|
Physikbasierte
Simulation (DFT/MD) |
Atomtypen,
Geometrien, Randbedingungen |
keine
Trainingsdaten, aber hohe Rechenkosten |
Physikalische
Struktur, interpretierbar(er), gute Referenzdaten |
Approximationsfehler
(Funktionale/FF), teuer, Skalierungsgrenzen [27] |
|
Graph-/geometriebasierte
Property-Modelle (MPNN/GNN, equivariant) |
Molekülgraph,
3D-Koordinaten |
mittel
bis hoch, je nach Zielgröße; oft QC/DFT-Labels |
Gute
Strukturinduktion, Symmetrien, oft starke Genauigkeit |
Domain
Shift, Datenbias, OOD-Risiko [28] |
|
ML-Interatomare
Potentiale (NNPs) als Simulations-Surrogat |
3D-Strukturen;
Training: Energies/Forces |
hoch,
aber mit Active Learning reduzierbar |
Größenordnungen
schneller als QC; ermöglicht lange/ große MD |
UQ
nötig; Fehler können dynamisch eskalieren [29] |
|
Generative
Modelle für Inverse Design (VAE/Diffusion) |
Moleküle/Kristalle
(Graph/3D); optionale Konditionierung |
sehr
hoch (Breite), plus Ziellabels/Constraints |
Exploriert
„Designräume“, Vorschlagsmaschine |
Synthesizability/Validität,
Mode collapse/Artefakte; Bewertung teuer [30] |
|
Differentiable
Simulations / Differentiable Programming |
Simulation
+ AD-fähige Komponenten |
variiert;
braucht differentiable Solver/Approximations |
Gradientengestützte
Optimierung „durch“ Simulation; effizientere Parameterinferenz |
Numerische
Stabilität/Gradientenrauschen; Modell-Fidelity bleibt limitierend [18] |
|
Active
Learning + UQ (Committee, Adversarial Sampling) |
Modell
+ Unsicherheitsmaß + Query-Strategie |
gezielt,
iterativ („Data on demand“) |
Effiziente
Datenerhebung, weniger Blindflug |
UQ
kann fehlkalibriert sein; Query-Bias möglich [31] |
Konkrete
Anwendungen in Materialdesign, Chemie und Physik
Die MIT-Meldung nennt als Ergebnisraum Materialien für Batterien,
Katalysatoren, Polymere und OLEDs, bleibt aber bezüglich einzelner Fallstudien unspezifiziert.
[3]
Deshalb stütze ich mich hier auf exemplarische, veröffentlichte Arbeiten aus dem
direkten Umfeld.
Ein sehr greifbares Beispiel ist die zeolithische Materialsynthese. In
der Science-Arbeit „A priori control of zeolite phase competition and
intergrowth with high-throughput simulations“ wird das Problem beschrieben,
dass Zeolithsynthese oft von starker Phasenkonkurrenz geprägt ist; die Studie
kombiniert Hochdurchsatz-Simulationen und Designmetriken für organische
Struktur-Dirigenten (OSDAs), um Selektivität gezielter zu steuern. [32]
Komplementär dazu steht eine ACS-Central-Science-Arbeit, die
Literatur-/Datenmining und generative Netze nutzt, um Beziehungen zwischen
OSDAs und Zeolithen zu lernen; dazu existiert sogar ein öffentliches Code-/Datensatz-Repository,
was für Reproduzierbarkeit und Anschlussfähigkeit relevant ist. [33]
Ein zweites Beispiel zeigt, wie ML-Potentiale Simulationen für schwer
zugängliche Regime öffnen: In der Nature-Communications-Arbeit zu
photoschaltbaren Azobenzolderivaten wird ein neuronales Modell („DANN“)
vorgestellt, das nicht-adiabatische Dynamik für virtuelle Screens beschleunigen
soll; im Abstract wird eine Beschleunigung um sechs Größenordnungen
gegenüber der verwendeten Quantenchemie-Referenz genannt, und es wird
berichtet, dass Vorhersagen für zuvor ungesehene Spezies mit Experimenten
korrelieren. [34]
Für mich ist das ein prototypischer „AI + Simulation“-Case: teure QC →
ML-Surrogat → sehr viele Simulationen → Kandidatenranking → (optionale) erneute
Hochfidelitätsprüfung. [34]
Ein drittes Beispiel adressiert die Frage, wie man
Trainingsdaten für solche Potentiale effizient findet. „Differentiable sampling
of molecular geometries with uncertainty-based adversarial attacks“ nutzt
automatische Differentiation, um gezielt hochunsichere (aber plausibel
relevante) Konfigurationen zu erzeugen, die dann die Trainingsdomäne erweitern
können — ein aktiver, nicht nur passiver UQ-Ansatz. [24]
Schließlich steht ein Teil des Programms für methodische Infrastruktur:
„Differentiable Molecular Simulations for Control and Learning“ formuliert, wie
man Simulationen so gestaltet, dass man Zielobservablen nach
Hamiltonian-/Potentialparametern differenzieren und direkt optimieren kann. Das
ist methodisch anschlussfähig an breitere Trends in differentiable programming,
bleibt aber in Details (welche Solver, welche Stabilisierungsstrategien, welche
Benchmarks) im MIT-News-Text unspezifiziert und muss aus den
Originalarbeiten erschlossen werden. [35]
Grenzen,
Risiken und gesellschaftliche Implikationen
So überzeugend „AI for science“ als positives Narrativ ist, so klar
sind die technischen und epistemischen Grenzen. Erstens ist die physikalische
Referenz selbst nicht „wahr“, sondern ein Modell: DFT hängt an Funktionalwahl
und Approximationssystematik; MD hängt an Potentialen und Sampling. Wenn ML
diese Referenz nachahmt, erbt es systematische Verzerrungen. [36]
Zweitens sind Out-of-Distribution-Risiken in atomistischer
Modellierung besonders gefährlich, weil kleine Energie-/Kraftfehler dynamisch
zu falschen Trajektorien führen können. Deshalb betonen UQ-Arbeiten (auch aus
dem Umfeld) aktive Lernstrategien, Kalibrierung und robuste Unsicherheitsmaße. [37]
Drittens gibt es ein Übersetzungsproblem von „virtuell optimal“
zu „synthetisierbar, stabil, skalierbar“. Generative Modelle können Kandidaten
vorschlagen, die zwar nach einem Surrogat gut aussehen, aber synthetisch
unzugänglich oder in realen Umgebungen instabil sind. Genau deshalb ist die
Kopplung an experimentelle Partner und an industriegetriebene Anforderungen in
der MIT-Meldung ein wichtiger Punkt — die Gruppe ist rechnerisch, aber arbeitet
laut Meldung als „Triage“-Partner für Experimentalisten. [38]
Viertens treten gesellschaftliche Fragen stärker in den Vordergrund,
sobald „scientific superintelligence“ und autonome (oder semi-autonome) Labore
versprochen werden. [39] Das
berührt Governance-Themen wie Verantwortlichkeit, Dokumentation,
IP/Dateneigentum und den Umgang mit generativer KI in wissenschaftlichen
Kontexten. In Deutschland betont die Deutsche Forschungsgemeinschaft[40] in
Stellungnahmen und Leitlinien v. a. Transparenz- und Rahmenbedingungen beim
Einsatz generativer Modelle in der Wissenschaftspraxis. [41]
Aus einer materialwissenschaftlichen Anwendungsperspektive weisen deutsche
Institute (z. B. Fraunhofer/Hereon) zudem darauf hin, dass datengetriebene
Verfahren zwar Innovationszyklen beschleunigen können, aber verlässliche
Prozessketten von Datenerhebung über Modellierung bis Deployment brauchen. [42]
Und fünftens ist der geopolitisch-institutionelle Kontext nicht
neutral: Die „Genesis Mission“ des U.S. Department of Energy[7]
zielt explizit auf Produktivitätssteigerung, nationale Sicherheit und
Energie-/Technologiedominanz ab; damit wächst die Wahrscheinlichkeit, dass
Dual-Use-Fragen (z. B. Materialdesign für sicherheitsrelevante Anwendungen)
häufiger werden, auch wenn die MIT-Meldung selbst das nicht ausführt (unspezifiziert).
[43]
Ausblick und
offene Forschungsfragen
Die MIT-Meldung setzt einen starken Akzent auf einen kommenden „zweiten
Wendepunkt“ durch Sprache + Multimodalität + Skalierung — eine These,
die ich als forschungsleitend, aber empirisch noch nicht abschließend belegt
lese (insbesondere, weil die Meldung keine Benchmarks und keine Metriken nennt:
unspezifiziert). [4]
Gleichzeitig zeigt das Publikationsumfeld, dass viele Teilprobleme bereits
konkret adressiert werden: bessere Repräsentationen, active learning, UQ,
schnellere Potentiale, generative Entwürfe für Moleküle und Kristalle, und
zunehmend auch „self-driving“ bzw. automatisierte Zyklen. [44]
Vor diesem Hintergrund halte ich folgende offene Fragen/Empfehlungen
für besonders zentral:
·
Messbare
„Science-Scaling-Laws“: Welche Metriken (z. B.
Datenmenge vs. Fehler vs. Generalisierung) eignen sich wirklich, um
„Skalierung“ in wissenschaftlichen Aufgaben zu quantifizieren, jenseits von
Sprachbenchmarks? [45]
·
UQ, die
Entscheidungen trägt: Wie kalibriert man
Unsicherheiten so, dass sie experimentelle Entscheidungen robust steuern
(nicht nur Post-hoc-Fehlerbalken)? [46]
·
Synthesizability
als first-class constraint: Wie integriert man
synthetische Machbarkeit/Prozessfenster in generative Modelle, sodass „gute“
Vorschläge nicht nur virtuell, sondern realistisch sind? [47]
·
Multimodale
Modelle für Struktur + Text + Prozess: Welche
Architekturen koppeln Strukturinformationen (Graph/3D/Kristall) zuverlässig mit
Text (Rezept, Paper, Protokoll), ohne Halluzinationen in sicherheits- oder
laborrelevanten Kontexten zu riskieren? (In der MIT-Meldung unspezifiziert.)
[48]
·
Differentiable
Simulation bei hoher Fidelity: Wo liegen die
Stabilitäts- und Genauigkeitsgrenzen, wenn man AD durch komplexe
Simulationspipelines propagiert (lange Zeithorizonte, stochastische
Thermostate, seltene Ereignisse)? [49]
·
Reproduzierbarkeit
und offene Infrastruktur: Welche Minimalstandards
(Daten, Code, Logging, Versionskontrolle) brauchen AI+Simulation-Workflows,
damit Ergebnisse zwischen Gruppen robust vergleichbar sind? [50]
·
Energie-
und Ressourcenbudgetierung: Wie gelingt „AI for
science“ nachhaltig, wenn Modelle und HPC-Infrastruktur skaliert werden
(Effizienz, Priorisierung, Governance)? [51]
Vorschläge für begleitende Abbildungen (mit Quellenhinweis): Für einen Blog-Post würde ich (a) das MIT-News-Porträtbild
(Lizenzhinweise beachten) als kontextuelles Visual nutzen, [4] (b)
ein Workflow-Schaubild wie oben (eigene Grafik), (c) exemplarische
Ergebnisplots/Architekturdiagramme aus Primärpapers, z. B. aus der
Nature-Communications-Arbeit zu DANN (Figuren zu Architektur/Active Learning
Loop) oder aus der Zeolith-Science-Arbeit (Konzeptgrafiken zur
OSDA-Selektivität) — jeweils direkt aus den Originalquellen. [52]
(Wortzahl: ca. 1 700 Wörter, inkl. Überschriften, exkl.
Mermaid-Codeblock-Zeilen zählen je nach Zählweise variabel.)
[1] [8] [43] Launching the Genesis Mission
[2] [5] [16] [25] LEARNING MATTER
https://gomezbombarelli.mit.edu/
[3] [4] [10] [11] [26] [38] [45] [48] Accelerating science with AI and
simulations | MIT News | Massachusetts Institute of Technology
https://news.mit.edu/2026/accelerating-science-ai-and-simulations-rafael-gomez-bombarelli-0212
[6] [32] A priori control of zeolite phase
competition and ...
https://www.science.org/doi/10.1126/science.abh3350?utm_source=chatgpt.com
[7] [47] Generative AI for crystal
structures: a review
https://www.nature.com/articles/s41524-025-01881-2?utm_source=chatgpt.com
[9] [19] [24] [31] Differentiable sampling of
molecular geometries with ...
https://www.nature.com/articles/s41467-021-25342-8?utm_source=chatgpt.com
[12] [33] Discovering Relationships between
OSDAs and Zeolites ...
https://pmc.ncbi.nlm.nih.gov/articles/PMC8161479/?utm_source=chatgpt.com
[13] [41] KI, ChatGPT und die
Wissenschaften ...
[14] [44] Representations of Materials for
Machine Learning
[15] Rafael Gómez-Bombarelli - MIT
Department of Materials Science and Engineering
https://dmse.mit.edu/people/faculty/rafael-gomez-bombarelli/
[17] [30] Automatic chemical design using a
data-driven continuous representation of molecules
https://arxiv.org/abs/1610.02415?utm_source=chatgpt.com
[18] [35] [49] Differentiable Molecular
Simulations for Control and Learning
https://arxiv.org/abs/2003.00868?utm_source=chatgpt.com
[20] Inhomogeneous Electron Gas
https://link.aps.org/pdf/10.1103/PhysRev.136.B864?utm_source=chatgpt.com
[21] [28] Neural Message Passing for
Quantum Chemistry
https://proceedings.mlr.press/v70/gilmer17a.html?utm_source=chatgpt.com
[22] Equivariant Diffusion for
Molecule Generation in 3D
https://proceedings.mlr.press/v162/hoogeboom22a.html?utm_source=chatgpt.com
[23] [29] Neural Network Potentials: A
Concise Overview of Methods
https://www.annualreviews.org/doi/10.1146/annurev-physchem-082720-034254?utm_source=chatgpt.com
[27] [36] Self-Consistent Equations
Including Exchange and ...
https://link.aps.org/doi/10.1103/PhysRev.140.A1133?utm_source=chatgpt.com
[34] [52] Excited state non-adiabatic
dynamics of large photoswitchable molecules using a chemically transferable
machine learning potential | Nature Communications
[37] [46] Single-model uncertainty
quantification in neural network ...
https://www.nature.com/articles/s41524-023-01180-8?utm_source=chatgpt.com
[39] Flagship Pioneering Unveils Lila
Sciences to…
[40] [42] Materialinformatik - Fraunhofer
IWM
[50] olivettigroup/OSDA_Generator
https://github.com/olivettigroup/OSDA_Generator?utm_source=chatgpt.com
[51] Genesis Mission
https://www.energy.gov/genesis-mission?utm_source=chatgpt.com

