Schmidt, Michael (2022)
Statistische Modelle und Inferenz der strukturellen Biophysik.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00021148
Dissertation, Erstveröffentlichung, Verlagsversion
Kurzbeschreibung (Abstract)
Mathematische Modelle sind essentielle Werkzeuge für die Strukturanalyse von Biomolekülen und ergänzen Experimente. Dank enorm steigender Datenmengen sind probabilistische Ansätze aus den Bereichen der statistischen Inferenz und des maschinellen Lernens prominenter denn je. In dieser Arbeit betrachten wir drei verwandte biophysikalische Fragestellungen und bearbeiten diese mit der Entwicklung von effizienten Modellen auf Basis der statistischen Mechanik.
Der erste Teil betrachtet die sequenzbasierte Vorhersage von Proteinstrukturen. Schnell wachsende Sequenzdatenbanken machten dies seit dem letzten Jahrzehnt zu einer vielversprechenden Alternative im Vergleich zu teuren und oft limitierten experimentellen Methoden. Wir untersuchen die sogenannte Direct-Coupling-Analysis (DCA), welche Kontaktinformationen aus einem multiplen Sequenzalignment (MSA) extrahiert. Dies entspricht einem inversen Potts-Modell aus der statistischen Physik, bei dem Korrelationen in Form von empirischen relativen Häufigkeiten gegeben sind und Parameter des Hamiltonians bestimmt werden müssen. Hierbei werden die Spin-Zustände durch die q verschiedenen Aminosäuretypen repräsentiert. Die exponentielle Zunahme der Terme in der Zustandssumme erfordert geeignete Approximationsmethoden wie beispielsweise die Mean-Field-Inversion. Wir fügen die folgenden Erweiterungen ein, um eine erhöhte Vorhersagegenauigkeit zu erhalten.
1. Die Vorhersagekraft der DCA ist durch die ausschließliche Berücksichtigung von lokalen Feldern und Zweierkopplungen begrenzt, während Wechselwirkungen höherer Ordnung in Proteinen bekanntlich auftreten. Wir erweitern den Hamiltonian um einen Dreierkopplungsterm und leiten analytische Gleichungen innerhalb der Mean-Field-Approximation her. Eine anschließende Auswertung mit einem Benchmark-Datensatz übertrifft ein reines Zweikörper-DCA-Modell. Unsere Implementierung ist hochgradig parallel, was zu schnellen Laufzeiten auf modernen Computern führt.
2. Die DCA-Scores für die Kontaktvorhersage ergeben sich aus den erhaltenen Zweierkopplungen. Dies wird durch eine Transformation einer q × q-Matrix auf einen skalaren Wert erreicht, wobei jedoch potenziell wichtige Informationen verloren gehen. Wir entwickeln ein Schema zur Nutzung aller verfügbaren Kopplungsinformationen. Es beruht auf der Inferenz eines sekundären Potts-Modells mithilfe eines MSAs, das aus den Feldern und Kopplungen der ersten DCA besteht. Ein Benchmark zeigt erneut eine verbesserte Genauigkeit.
Der zweite Teil befasst sich mit dem Vergleich von biomolekularen Strukturen. Wir entwickeln den probabilistischen Subgraphisomorphismus SICOR und wenden ihn auf RNA-Sekundärstrukturgraphen an. Die Graphen stammen aus einem sogenannten Systematic-Evolution-of-Ligands-by-Exponential-Enrichment (SELEX)-Experiment, bei dem die Auswahl von RNA-Aptameren auf struktureller Diversität beruht. Wir sind in der Lage, angereicherte SELEX-Iterationen zu identifizieren und übertreffen bestehende State-of-the-Art-Methoden. Darüber hinaus erlaubt SICORs allgemeines Design den Vergleich beliebiger Graphen und garantiert somit eine breite Anwendbarkeit sowohl in verwandten Bereichen wie der Chemoinformatik als auch in angrenzenden Gebieten wie der Analyse von sozialen Netzwerken.
Das Verständnis der funktionellen Eigenschaften einer Proteinstruktur ist von fundamentaler Bedeutung für medizinische Bereiche wie die Medikamentenentwicklung. Im dritten Teil analysieren wir die Proteindynamik in einem informationstheoretischen Kontext und stellen eine Methode zur Identifikation von funktionalen Einheiten vor. Sie beruht auf der Kullback-Leibler-Divergenz DKL zwischen den Boltzmann-Verteilungen von zwei anisotropen Netzwerkmodellen (ANM). Hierbei definieren wir zunächst ein Mapping zwischen einem Ziel-ANM und einem dimensionsreduzierten Modell-ANM und minimieren die DKL in den Modellparametern. Durch Hinzufügen einer zweiten Optimierungsebene sind wir in der Lage, das optimale Mapping und die entsprechenden funktionellen Residuen zu identifizieren. Wir evaluieren die Aussagekraft unserer Methode durch einen Benchmark an einem Satz gut untersuchter Ionenkanalporen.
Typ des Eintrags: | Dissertation | ||||
---|---|---|---|---|---|
Erschienen: | 2022 | ||||
Autor(en): | Schmidt, Michael | ||||
Art des Eintrags: | Erstveröffentlichung | ||||
Titel: | Statistische Modelle und Inferenz der strukturellen Biophysik | ||||
Sprache: | Deutsch | ||||
Referenten: | Hamacher, Prof. Dr. Kay ; Drossel, Prof. Dr. Barbara | ||||
Publikationsjahr: | 2022 | ||||
Ort: | Darmstadt | ||||
Kollation: | xiii, 121 Seiten | ||||
Datum der mündlichen Prüfung: | 3 November 2021 | ||||
DOI: | 10.26083/tuprints-00021148 | ||||
URL / URN: | https://tuprints.ulb.tu-darmstadt.de/21148 | ||||
Kurzbeschreibung (Abstract): | Mathematische Modelle sind essentielle Werkzeuge für die Strukturanalyse von Biomolekülen und ergänzen Experimente. Dank enorm steigender Datenmengen sind probabilistische Ansätze aus den Bereichen der statistischen Inferenz und des maschinellen Lernens prominenter denn je. In dieser Arbeit betrachten wir drei verwandte biophysikalische Fragestellungen und bearbeiten diese mit der Entwicklung von effizienten Modellen auf Basis der statistischen Mechanik. Der erste Teil betrachtet die sequenzbasierte Vorhersage von Proteinstrukturen. Schnell wachsende Sequenzdatenbanken machten dies seit dem letzten Jahrzehnt zu einer vielversprechenden Alternative im Vergleich zu teuren und oft limitierten experimentellen Methoden. Wir untersuchen die sogenannte Direct-Coupling-Analysis (DCA), welche Kontaktinformationen aus einem multiplen Sequenzalignment (MSA) extrahiert. Dies entspricht einem inversen Potts-Modell aus der statistischen Physik, bei dem Korrelationen in Form von empirischen relativen Häufigkeiten gegeben sind und Parameter des Hamiltonians bestimmt werden müssen. Hierbei werden die Spin-Zustände durch die q verschiedenen Aminosäuretypen repräsentiert. Die exponentielle Zunahme der Terme in der Zustandssumme erfordert geeignete Approximationsmethoden wie beispielsweise die Mean-Field-Inversion. Wir fügen die folgenden Erweiterungen ein, um eine erhöhte Vorhersagegenauigkeit zu erhalten. 1. Die Vorhersagekraft der DCA ist durch die ausschließliche Berücksichtigung von lokalen Feldern und Zweierkopplungen begrenzt, während Wechselwirkungen höherer Ordnung in Proteinen bekanntlich auftreten. Wir erweitern den Hamiltonian um einen Dreierkopplungsterm und leiten analytische Gleichungen innerhalb der Mean-Field-Approximation her. Eine anschließende Auswertung mit einem Benchmark-Datensatz übertrifft ein reines Zweikörper-DCA-Modell. Unsere Implementierung ist hochgradig parallel, was zu schnellen Laufzeiten auf modernen Computern führt. 2. Die DCA-Scores für die Kontaktvorhersage ergeben sich aus den erhaltenen Zweierkopplungen. Dies wird durch eine Transformation einer q × q-Matrix auf einen skalaren Wert erreicht, wobei jedoch potenziell wichtige Informationen verloren gehen. Wir entwickeln ein Schema zur Nutzung aller verfügbaren Kopplungsinformationen. Es beruht auf der Inferenz eines sekundären Potts-Modells mithilfe eines MSAs, das aus den Feldern und Kopplungen der ersten DCA besteht. Ein Benchmark zeigt erneut eine verbesserte Genauigkeit. Der zweite Teil befasst sich mit dem Vergleich von biomolekularen Strukturen. Wir entwickeln den probabilistischen Subgraphisomorphismus SICOR und wenden ihn auf RNA-Sekundärstrukturgraphen an. Die Graphen stammen aus einem sogenannten Systematic-Evolution-of-Ligands-by-Exponential-Enrichment (SELEX)-Experiment, bei dem die Auswahl von RNA-Aptameren auf struktureller Diversität beruht. Wir sind in der Lage, angereicherte SELEX-Iterationen zu identifizieren und übertreffen bestehende State-of-the-Art-Methoden. Darüber hinaus erlaubt SICORs allgemeines Design den Vergleich beliebiger Graphen und garantiert somit eine breite Anwendbarkeit sowohl in verwandten Bereichen wie der Chemoinformatik als auch in angrenzenden Gebieten wie der Analyse von sozialen Netzwerken. Das Verständnis der funktionellen Eigenschaften einer Proteinstruktur ist von fundamentaler Bedeutung für medizinische Bereiche wie die Medikamentenentwicklung. Im dritten Teil analysieren wir die Proteindynamik in einem informationstheoretischen Kontext und stellen eine Methode zur Identifikation von funktionalen Einheiten vor. Sie beruht auf der Kullback-Leibler-Divergenz DKL zwischen den Boltzmann-Verteilungen von zwei anisotropen Netzwerkmodellen (ANM). Hierbei definieren wir zunächst ein Mapping zwischen einem Ziel-ANM und einem dimensionsreduzierten Modell-ANM und minimieren die DKL in den Modellparametern. Durch Hinzufügen einer zweiten Optimierungsebene sind wir in der Lage, das optimale Mapping und die entsprechenden funktionellen Residuen zu identifizieren. Wir evaluieren die Aussagekraft unserer Methode durch einen Benchmark an einem Satz gut untersuchter Ionenkanalporen. |
||||
Alternatives oder übersetztes Abstract: |
|
||||
Status: | Verlagsversion | ||||
URN: | urn:nbn:de:tuda-tuprints-211486 | ||||
Sachgruppe der Dewey Dezimalklassifikatin (DDC): | 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik 500 Naturwissenschaften und Mathematik > 510 Mathematik 500 Naturwissenschaften und Mathematik > 530 Physik 500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie |
||||
Fachbereich(e)/-gebiet(e): | 05 Fachbereich Physik 05 Fachbereich Physik > Institut für Physik Kondensierter Materie (IPKM) |
||||
TU-Projekte: | DFG|GRK1657|GRK 1657 | ||||
Hinterlegungsdatum: | 04 Mai 2022 05:33 | ||||
Letzte Änderung: | 05 Mai 2022 07:20 | ||||
PPN: | |||||
Referenten: | Hamacher, Prof. Dr. Kay ; Drossel, Prof. Dr. Barbara | ||||
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: | 3 November 2021 | ||||
Export: | |||||
Suche nach Titel in: | TUfind oder in Google |
Frage zum Eintrag |
Optionen (nur für Redakteure)
Redaktionelle Details anzeigen |