TU Darmstadt / ULB / TUbiblio

Bayesian inference and learning in switching biological systems

Köhs, Lukas (2023)
Bayesian inference and learning in switching biological systems.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00023022
Dissertation, Erstveröffentlichung, Verlagsversion

Kurzbeschreibung (Abstract)

This thesis is concerned with the stochastic modeling of and inference for switching biological systems. Motivated by the great variety of data obtainable from such systems by wet-lab experiments or computer simulations, continuous-time as well as discrete-time frameworks are devised. Similarly, different latent state-space configurations - both hybrid continuous-discrete and purely discrete state spaces - are considered. These models enable Bayesian inferences about the temporal system dynamics as well as the respective parameters. Starting with the exact model formulations, principled approximations are derived using sampling and variational techniques, enabling computationally tractable algorithms. The resulting frameworks are evaluated under the modeling assumption and subsequently applied to common benchmark problems and real-world biological data. These developments are divided into three scientific contributions:

First, a Markov chain Monte Carlo method for continuous-time and continuous-discrete state-space hybrid processes is derived. These hybrid processes are formulated as Markov-switching stochastic differential equations, for which the exact evolution equation is also presented. A Gibbs sampling scheme is then derived which enables tractable inference both for the system dynamics and the system parameters. This approach is validated under the modeling assumption as well as applied to data from a wet-lab gene-switching experiment.

Second, a variational approach to the same problem is taken to speed up the inference procedure. To this end, a mixture of Gaussian processes serves as the variational measure. The method is derived starting from the Kullback-Leibler divergence between two true switching stochastic differential equations, and it is shown in which regime the Gaussian mixture approximation is valid. It is then benchmarked on the same ground-truth data as the Gibbs sampler and applied to model systems from computational structural biology.

Third, a nonparametric inference framework is laid out for conformational molecule switching. Here, a purely discrete latent state space is assumed, where each latent state corresponds to one molecular structure. Utilizing variational techniques again, a method is presented to identify the number of conformations present in the data. This method generalizes the framework of Markov state models, which is well-established in the field of computational structural biology. An observation likelihood model tailored to structural molecule data is introduced, along with a suitable approximation enabling tractable inference. This framework, too, is first evaluated on data generated under the model assumption and then applied to common problems in the field.

Typ des Eintrags: Dissertation
Erschienen: 2023
Autor(en): Köhs, Lukas
Art des Eintrags: Erstveröffentlichung
Titel: Bayesian inference and learning in switching biological systems
Sprache: Englisch
Referenten: Koeppl, Prof. Dr. Heinz ; Opper, Prof. Dr. Manfred
Publikationsjahr: 2023
Ort: Darmstadt
Kollation: xvi, 163 Seiten
Datum der mündlichen Prüfung: 15 Dezember 2022
DOI: 10.26083/tuprints-00023022
URL / URN: https://tuprints.ulb.tu-darmstadt.de/23022
Kurzbeschreibung (Abstract):

This thesis is concerned with the stochastic modeling of and inference for switching biological systems. Motivated by the great variety of data obtainable from such systems by wet-lab experiments or computer simulations, continuous-time as well as discrete-time frameworks are devised. Similarly, different latent state-space configurations - both hybrid continuous-discrete and purely discrete state spaces - are considered. These models enable Bayesian inferences about the temporal system dynamics as well as the respective parameters. Starting with the exact model formulations, principled approximations are derived using sampling and variational techniques, enabling computationally tractable algorithms. The resulting frameworks are evaluated under the modeling assumption and subsequently applied to common benchmark problems and real-world biological data. These developments are divided into three scientific contributions:

First, a Markov chain Monte Carlo method for continuous-time and continuous-discrete state-space hybrid processes is derived. These hybrid processes are formulated as Markov-switching stochastic differential equations, for which the exact evolution equation is also presented. A Gibbs sampling scheme is then derived which enables tractable inference both for the system dynamics and the system parameters. This approach is validated under the modeling assumption as well as applied to data from a wet-lab gene-switching experiment.

Second, a variational approach to the same problem is taken to speed up the inference procedure. To this end, a mixture of Gaussian processes serves as the variational measure. The method is derived starting from the Kullback-Leibler divergence between two true switching stochastic differential equations, and it is shown in which regime the Gaussian mixture approximation is valid. It is then benchmarked on the same ground-truth data as the Gibbs sampler and applied to model systems from computational structural biology.

Third, a nonparametric inference framework is laid out for conformational molecule switching. Here, a purely discrete latent state space is assumed, where each latent state corresponds to one molecular structure. Utilizing variational techniques again, a method is presented to identify the number of conformations present in the data. This method generalizes the framework of Markov state models, which is well-established in the field of computational structural biology. An observation likelihood model tailored to structural molecule data is introduced, along with a suitable approximation enabling tractable inference. This framework, too, is first evaluated on data generated under the model assumption and then applied to common problems in the field.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Diese Dissertation befasst sich mit der stochastischen Modellierung schaltender biologischer Systeme und der Entwicklung entsprechender Inferenzalgorithmen. Ausgehend von der großen Vielfalt der Mess- und Simulationsmethoden, die zur Analyse solcher Systeme zur Anwendung kommen, werden sowohl zeitkontinuierliche als auch zeitdiskrete Modellierungsansätze verfolgt. Weiterhin werden einerseits hybride, kontinuierlich-diskrete, andererseits rein diskrete latente Zustandsräume betrachtet. Für die Zeitdynamik der betrachteten Systeme sowie für ihre Parameter werden Bayes'sche Inferenzmethoden entwickelt: Ausgehend von der exakten Modellformulierung werden jeweils Approximationen abgeleitet, die zu rechnerisch handhabbaren Algorithmen führen. Diese Approximationen basieren entweder auf Sampling- oder auf Variationsprinzipien. Die so formulierten Algorithmen werden dann sowohl unter der jeweiligen Modellannahme getestet wie auch nachfolgend auf bekannte Benchmarkprobleme und experimentalbiologische Daten angewandt. Die Arbeit gliedert sich dabei in drei wissenschaftliche Beiträge:

Erstens wird eine Markov chain Monte Carlo-Methode für zeitkontinuierliche Prozesse mit hybridem Zustandsraum vorstellt. Diese Hybridprozesse werden als Markov-schaltende stochastische Differentialgleichungen formuliert, für die eine exakte Evolutionsgleichung hergeleitet werden kann. Um daraus eine rechnerisch handhabbare Inferenzmethode zu entwickeln, wird ein Gibbs sampling-Ansatz verwendet, der es erlaubt, sowohl die Zustandsdynamik wie auch die Systemparameter abzuschätzen. Dieser Ansatz wird dann unter der Modellannahme validiert und auf biologische Echtdaten eines genetischen Schaltexperimentes angewendet.

Zweitens wird ein Variationsansatz für das gleiche Problem hergeleitet, um die für die Inferenz nötigen Rechenlaufzeiten zu verkürzen. Dazu wird zunächst die Kullback-Leibler-Divergenz zwischen zwei echten schaltenden stochastischen Differentialgleichungen hergeleitet. Das Variationsmaß wird dann als Mischverteilung von Gaußprozessen formuliert, die eine schaltende stochastische Differentialgleichung approximiert, und es wird gezeigt, in welchem Regime diese Näherung Gültigkeit hat. Schließlich wird der Variationsansatz auf den gleichen synthetischen Daten wie die Samplingmethode getestet und auf Modellsysteme aus der rechnergestützten Strukturbiologie angewandt.

Drittens wird ein nichtparametrischer Inferenzalgorithmus für den Konformationswechsel von Molekülen vorgestellt. Hier wird ein rein diskretwertiger latenter Zustandsraum zugrunde gelegt, wobei jeder latente Zustand einer Molekülstruktur entspricht. Unter der erneuten Verwendung von Variationsprinzipien wird eine Approximation vorgestellt, um die Anzahl latenter Konformationen aus Daten zu schätzen. Diese Methode verallgemeinert den Ansatz des Markov state modeling, der seit geraumer Zeit in der rechnergestützten Strukturbiologie etabliert ist. Dazu wird ein Observationsmodell eingeführt, das für strukturelle Moleküldaten besonders gut geeignet ist. Um den Inferenzalgorithmus praktisch berechenbar zu machen, wird an dieser Stelle eine zweite Approximation vorgenommen. Schließlich wird auch dieser Ansatz sowohl unter der Modellannahme validiert als auch für bekannte Probleme aus der Strukturbiologie verwendet.

Deutsch
Status: Verlagsversion
URN: urn:nbn:de:tuda-tuprints-230220
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 500 Naturwissenschaften und Mathematik > 510 Mathematik
500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie
600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften und Maschinenbau
Fachbereich(e)/-gebiet(e): 18 Fachbereich Elektrotechnik und Informationstechnik
18 Fachbereich Elektrotechnik und Informationstechnik > Self-Organizing Systems Lab
TU-Projekte: EC/H2020|773196|CONSYN
Hinterlegungsdatum: 17 Jan 2023 13:33
Letzte Änderung: 18 Jan 2023 10:21
PPN:
Referenten: Koeppl, Prof. Dr. Heinz ; Opper, Prof. Dr. Manfred
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 15 Dezember 2022
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen