Protein-Ligand-Scoring ist ein zentrales Element im strukturbasierten Wirkstoffdesign: Es bewerten das Bindungspotential kleiner Moleküle an Proteinziele (z.B. in Docking oder virtuellen Screenings). Traditionelle Methoden fallen meist in zwei Kategorien: physikalisch basierte (kraftfeldgestützte) Funktionen und empirische Funktionen[1]. Erstere berechnen freie Bindungsenergie mit aufwändigen Kraftfeldern (sehr genau, aber rechenintensiv[2]), letztere nutzen lineare Regression einfacher Terme (schnell, aber durch starre Formeln begrenzt[3]). In den letzten Jahren kamen tief lernende Ansätze hinzu – sie nutzen große Strukturdatensätze und nichtlineare Modelle[4]. Innerhalb ihres Trainingsbereichs erzielen diese Modelle oft bessere Genauigkeit als klassische Funktionen[5], leiden aber an schlechter Übertragbarkeit auf neue Proteine und meist geringer Interpretierbarkeit[4]. Insgesamt bleibt es eine große Herausforderung, eine Scoring-Funktion zu entwickeln, die Effizienz, Generalität und Interpretierbarkeit gleichzeitig vereint[6].
·
Physikbasierte
Funktionen: Exakte Modelle (z.B. AutoDock, Vina) mit
detaillierten Energie-Terms; Vorteil: hohe Genauigkeit bei Docking, Nachteil:
sehr rechenaufwändig[2][7].
·
Empirische
Funktionen: Simpler, linearer Aufbau (z.B. X-Score,
ChemScore); Vorteil: schnell, Nachteil: kann komplexe
Wechselwirkungen oft nicht erfassen[1].
·
Datengetriebene
DL-Modelle: Nutzen neuronale Netze (z.B. Graph-NN) für
end-to-end Vorhersagen von Bindungsaffinitäten[4]. Vorteil:
erlernen nichtlineare Effekte und profitieren von großen Datenmengen. Nachteil:
oft wenig robust gegenüber unbekannten Proteinen und nur schwer interpretierbar[4].
Neuere
Ansätze zielen darauf ab, geometrische Wahrscheinlichkeitspotenziale (z. B.
mittels Mixture-Density-Netzwerken, MDNs) direkt aus nativen
Protein-Ligand-Komplexen zu lernen[8].
Diese Methoden prognostizieren Verteilungen von Atom-Abständen und bewahren
damit starke geometrische Konsistenz. Allerdings sind diese Scores geometrisch
plausibel, aber nicht notwendigerweise gleichbedeutend mit tatsächlicher
Bindungsaffinität[8].
Zudem konzentrieren sich solche Methoden meist nur auf lokale 3D-Umgebungen und
vernachlässigen globale biologische Informationen (z.B. Evolution aus
Proteinsequenzen oder chemische Semantik aus Ligand-SMILES)[8].
BioLM-Score: Konzept und
Architektur
BioLM-Score geht diese Probleme an, indem es geometrische Graphmodelle
mit biochemischen Sprachmodellen verknüpft. Wie bei vielen
graphbasierten Ansätzen werden Proteine und Liganden als Graphen
repräsentiert: Atome bilden die Knoten und Bindungen bzw. Wechselwirkungen die
Kanten[9]. In
einer zweigeteilten Architektur („dual-branch“) verarbeitet BioLM-Score diese
Graphen zunächst getrennt durch strukturelle Encoder (Graph Neural Networks wie
GatedGCN oder Graph-Transformer)[10].
Parallel dazu werden vortrainierte Sprachmodelle (BioLMs) eingesetzt –
etwa ESM für Proteine und Chemformer für Ligand-SMILES – die zusätzliche
Sequenz- und Strukturinformationen liefern[10][11].
Nach der Extraktion dieser Merkmale werden protein- und ligandenbezogene
Embeddings fusioniert und in ein Mixture-Density-Netzwerk
eingespeist. Dieses MDN modelliert multimodale Wahrscheinlichkeitsverteilungen
für alle paarweisen Atoms-Abstände zwischen Protein und Ligand[12]. Der
finale Score ergibt sich dabei als aggregierte logarithmische
Wahrscheinlichkeit („log-likelihood“), dass die beobachteten Abstände einen
realistischen (engl. native-like) Komplex repräsentieren[13][12]. Auf
diese Weise verbindet BioLM-Score lokales, geometrisches Wissen mit globalem,
semantischem Kontext: Die Vorhersagen sind sowohl geometrisch plausibel als
auch durch die eingebetteten Sprachinformationen biologisch sinnvoll[14][13].
Die Autoren fassen die Innovation von BioLM-Score so zusammen: Es ist
ein prinzipiengeleitetes und zugleich praktisches Scoring-Modell,
das mit vereinfachter Architektur erhebliche Leistungsgewinne ermöglicht[15].
Abbildung 1 (siehe oben) illustriert schematisch die Architektur:
Struktur-Encoder (GatedGCN/Transformer) plus Sprach-Encoder (ESM, Chemformer)
führen zu fusionierten Knotendarstellungen, auf denen das MDN die
Distanzverteilungen vorhersagt[16].
Evaluierung und Vergleich
Das
BioLM-Score-Modell wurde auf etablierten Benchmarks geprüft. Als Referenz dient
der CASF-2016 Datensatz (285 hochauflösende Protein-Ligand-Komplexe in
57 Zielgruppen)[17]. CASF-2016
bewertet Scoring-Funktionen anhand von vier Kennzahlen („Metriken“): Scoring-Power
(genaue Affinitätsvorhersage), Ranking-Power (richtige Reihenfolge der
Bindungsstärken), Docking-Power (Pose-Identifikation) und Screening-Power
(Unterscheidung von Bindern/Nicht-Bindern)[18][19]. BioLM-Score
erreicht in dieser Benchmark state-of-the-art Ergebnisse für alle vier
Aufgaben[19]. Im Vergleich zu
klassischen Methoden kann es somit die sonst üblichen Leistungstauschungen
überwinden: So zeigen z.B. klassische Kraftfeld-Methoden (AutoDock Vina) zwar
sehr gute Docking-Ergebnisse, versagen aber oft bei Scoring und Screening[7]. Generative
MDN-Modelle (z.B. RTMScore) garantieren meist korrekte Posen, liefern aber nur
wenig über den tatsächlichen Affinitätswert[20]. Selbst neuere
Modelle wie GenScore, die Affinitätsdaten hinzuziehen, verwenden
ausschließlich lokale Graph-Topologie und ignorieren globale biologische
Kontexte[21]. Im Gegensatz
dazu nutzt BioLM-Score die Sprachmodell-Einbettungen, um evolutive
Protein-Signale und chemische Merkmale des Liganden in das geometrische Modell
einzubringen[14][11]. Dadurch gelingt
es, echte Ligandenpaare zuverlässiger zu identifizieren („geometry-affinity gap
bridged“[14]), und es wird
eine bessere Korrelation zur experimentellen Bindungsaffinität erzielt.
Zusätzlich wurde BioLM-Score auf DEKOIS 2.0 getestet – einem
Benchmark für virtuelles Screening mit 81 verschiedenen Zielproteinen (je 30
bekannte Wirkstoffe, 1200 Dekoy-Moleküle pro Ziel)[22][23]. Auch hier zeigte
sich, dass BioLM-Score als Scoring-Funktion eine effektive Trennschärfe
zwischen Wirksubstanzen und Inaktiven liefert und dabei anderen modernen
Ansätzen häufig überlegen ist.
Fazit
BioLM-Score bietet einen eleganten
Kompromiss zwischen bisherigen Ansätzen: Es nutzt die Effizienz der
Deep-Learning-Modelle und überwindet gleichzeitig deren
Generalisierungsprobleme durch die Integration biologischer
Sprachinformationen. Laut den Autoren stellt es „eine prinzipiengeleitete und
praktische Alternative zu bestehenden Scoring-Funktionen“ dar, da es Effizienz,
Generalisierbarkeit und Interpretierbarkeit vereine[15]. In der Praxis könnte BioLM-Score
dazu beitragen, teure physik-basierte Simulationen in frühen Screening-Phasen
zu ersetzen. Seine als Differenzialfunktion nutzbare Struktur (z.B. in einem
angepassten Docking-Protokoll „BSDock“) gestattet es zudem, Posen und
Konformationen gezielt zu optimieren[14][13]. Insgesamt ist BioLM-Score ein
vielversprechender neuer Ansatz, der Deep Learning und Domänenwissen
wirkungsvoll kombiniert und so das Rüstzeug für effizientere, zuverlässigere
Wirkstoffentdeckung liefern kann.
Quellen: Original-Abstract und -Paper von Yang
et al. (2026)[24][11]; CASF-2016-Benchmark[18][17]; DEKOIS 2.0-Benchmark[23][22]; Review zu Deep-Learning-Scoring[5]; SS-GNN (GNN für Protein-Liganden)[9].
[1] [2] [3] [4] [6] [7] [8] [10] [11] [12] [13] [14] [15] [16] [17] [19] [20] [21] [22] [24] BioLM-Score: Language-Prior
Conditioned Probabilistic Geometric Potentials for Protein-Ligand Scoring
https://arxiv.org/html/2602.18476v1
[5]
Scoring Functions for Protein-Ligand Binding Affinity Prediction Using
Structure-based Deep Learning: A Review - PMC
https://pmc.ncbi.nlm.nih.gov/articles/PMC7613667/
[9] Graph representation of the
protein−ligand complex. (a) 3D structure of... | Download Scientific Diagram
[18] Comparative Assessment of Scoring
Functions: The CASF-2016 Update - PubMed
https://pubmed.ncbi.nlm.nih.gov/30481020/
[23]
Use of DEKOIS 2.0 to gain insights for virtual screening - PMC







