Non-parametric Bayesian Latent Factor Models for Network Reconstruction

Yang, Sikun (2020)
Non-parametric Bayesian Latent Factor Models for Network Reconstruction.
Technische Universität Darmstadt
doi: 10.25534/tuprints-00009695
Dissertation, Erstveröffentlichung

URL / URN: https://tuprints.ulb.tu-darmstadt.de/9695

Kurzbeschreibung (Abstract)

This thesis is concerned with the statistical learning of probabilistic models for graph-structured data. It addresses both the theoretical aspects of network modelling--like the learning of appropriate representations for networks--and the practical difficulties in developing the algorithms to perform inference for the proposed models.

The first part of the thesis addresses the problem of discrete-time dynamic network modeling. The objective is to learn the common structure and the underlying interaction dynamics among the entities involved in the observed temporal network. Two probabilistic modeling frameworks are developed. First, a Bayesian nonparametric framework is proposed to capture the static latent community structure and the evolving node-community memberships over time. More specifically, the hierarchical gamma process is utilized to capture the underlying intra-community and inter-community interactions. The appropriate number of latent communities can be automatically estimated via the inherent shrinkage mechanism of the hierarchical gamma process prior. The gamma Markov process are constructed to capture the evolving node-community relations. As the Bernoulli-Poisson link function is used to map the binary edges to the latent parameter space, the proposed method scales with the number of non-zero edges. Hence, the proposed method is particularly well-fitted to model large sparse networks. Moreover, a time-dependent hierarchical gamma process dynamic network model is proposed to capture the birth and death dynamics of the underlying communities. For performance evaluation, the proposed methods are compared with state-of-the-art statistical network models on both synthetic and real-world data.

In the second part of the thesis, the main objective is to analyze continuous-time event-based dynamic networks. A fundamental problem in modeling such continuously-generated temporal interaction events data is to capture the reciprocal nature of the interactions among entities--the actions performed by one individual toward another increase the probability that an action of the same type to be returned. Hence, the mutually-exciting Hawkes process is utilized to capture the reciprocity between each pair of individuals involved in the observed dynamic network. In particular, the base rate of the Hawkes process is built upon the latent parameters inferred using the hierarchical gamma process edge partition model, to capture the underlying community structure. Moreover, each interaction event between two individuals is augmented with a pair of latent variables, which will be referred to as latent patterns, to indicate which of their involved communities lead to the occurring of that interaction. Accordingly, the proposed model allows the excitatory effects of each interaction on its opposite direction are determined by its latent patterns. Efficient Gibbs sampling and Expectation Maximization algorithms are developed to perform inference. Finally, the evaluations performed on the real-world data demonstrate the interpretability and competitive performance of the model compared with state-of-the-art methods.

In the third part of this thesis, the objective is to analyze the common structure of multiple related data sources under the generative framework. First, a Bayesian nonparametric group factor analysis method is developed to factorize multiple related groups of data into the common latent factor space. The hierarchical beta Bernoulli process is exploited to induce sparsity over the group-specific factor loadings to strengthen the model interpretability. A collapsed variational inference scheme is proposed to perform efficient inference for large-scale data analysis in real-world applications. Moreover, a Poisson gamma memberships framework is investigated for joint modelling of network and related node features.

Typ des Eintrags:

Dissertation

Erschienen:

2020

Autor(en):

Yang, Sikun

Art des Eintrags:

Erstveröffentlichung

Titel:

Non-parametric Bayesian Latent Factor Models for Network Reconstruction

Sprache:

Englisch

Referenten:

Köppl, Prof. Dr. Heinz ; Kersting, Prof. Dr. Kristian

Publikationsjahr:

Januar 2020

Ort:

Darmstadt

Datum der mündlichen Prüfung:

11 Dezember 2019

DOI:

10.25534/tuprints-00009695

URL / URN:

https://tuprints.ulb.tu-darmstadt.de/9695

Kurzbeschreibung (Abstract):

Alternatives oder übersetztes Abstract:

Alternatives Abstract

Sprache

Die Dissertation beschäftigt sich mit dem statistischen Lernen von Wahrscheinlichkeitsmodellen für graphisch strukturierte Daten. Es befasst sich sowohl mit den theoretischen Aspekten der Netzwerkmodellierung - wie dem Erlernen geeigneter Darstellungen für Netzwerke - als auch mit den praktischen Schwierigkeiten bei der Entwicklung der Algorithmen zur Durchführung von Inferenzen für die vorgeschlagenen Modelle.

Der erste Teil die Dissertation befasst sich mit dem Problem der zeitdiskreten dynamischen Netzwerkmodellierung. Ziel ist es, die gemeinsame Struktur und die zugrunde liegende Dynamik der am beobachteten zeitlichen Netzwerk beteiligten Entitäten zu lernen. Es werden zwei probabilistische Modellierungsrahmen entwickelt. Zunächst wird ein Bayes’sches nichtparametrisches Framework vorgeschlagen, um die statische latente Community-Struktur und die sich im Laufe der Zeit entwickelnden Node-Community-Mitgliedschaften zu erfassen. Insbesondere wird der hierarchische Gamma-Prozess verwendet, um die zugrunde liegenden innergemeinschaftlichen und zwischengemeinschaftlichen Interaktionen zu erfassen. Die geeignete Anzahl latenter Gemeinschaften kann über den inhärenten Schrumpfungsmechanismus des hierarchischen Gamma-Prozesses vor geschätzt werden. Der Gamma-Markov-Prozess ist so aufgebaut, dass er die sich entwickelnden Knoten-Community-Beziehungen erfasst. Da die Bernoulli-Poisson-Beziehung verwendet wird, um die binären Kanten in den latenten Parameterraum abzubilden, skaliert die vorgeschlagene Methodik mit der Anzahl der Kanten. Daher ist die vorgeschlagene Methodik gut geeignet, um große dünnbesetz Netzwerke zu modellieren. Darüber hinaus wird ein zeitabhängiges dynamisches Netzwerkmodell für hierarchische Gamma-Prozesse vorgeschlagen, um die Geburts- und Todesdynamik der zugrunde liegenden Gemeinschaften zu erfassen. Zur Leistungsbewertung werden die vorgeschlagenen Methoden mit den neuesten statistischen Netzwerkmodellen für synthetische und reale Daten verglichen.

Im zweiten Teil die Dissertation geht es vor allem darum, zeitkontinuierliche ereignisbasierte dynamische Netzwerke zu analysieren. Ein grundlegendes Problem bei der Modellierung solcher kontinuierlich erzeugten zeitlichen Interaktionsereignisse besteht darin, die reziproke Art der Wechselwirkung Interaktionen zwischen Entitäten zu erfassen. Der sich gegenseitig erregende Hawkes- Prozess wird verwendet, um die Reziprozität zwischen jedem Paar von Personen in dem beobachteten dynamischen Netzwerk zu erfassen. Insbesondere basiert der Hawkes-Prozess auf den latenten Parametern, die unter Verwendung des hierarchischen Gamma-Prozess-Kantenpartitionsmodells abgeleitet wurden, um die zugrunde liegende Community-Struktur zu erfassen. Darüber hinaus wird jedes Ereignis zwischen zwei Individuen mit einem Paar aus latenten Variablen versehen, welche als latente Muster zu verstehen sind. Das vorgeschlagene Modell ermöglicht, dass die anregenden Effekte jedes Ereignisses durch seine latenten Muster bestimmt werden. Effiziente Gibbs-Abtast- und Erwartungswert-Maximierungs-Algorithmen werden entwickelt, um Inferenzen durchzuführen. Schließlich belegen die Auswertungen der realen Daten die hohe Wettbewerbsfähigkeit und eine Leistung auf dem neuesten Stand der Technik.

Der dritte Teil die Dissertation stellt sich das Ziel, die gemeinsame Struktur von multiplen verwandtden Datenquellen unter einem generativen Rahmen zu analysieren. Zunächst wird ein Bayes’sches Verfahren zur Analyse nichtparametrischer Gruppenfaktoren entwickelt, um mehrere verwandte Datengruppen in den gemeinsamen Latenzfaktorraum zu zerlegen. Der hierarchische Beta-Bernoulli-Prozess wird ausgenutzt, um die Dünnbesetztheit gegenüber dem gruppenspezifischen Faktor zu induzieren. Es wird ein reduziertes Variations Inferenz-Schema vorgeschlagen, um eine effiziente Inferenz für eine Datenanalyse in großem Maßstab in realen Anwendungen durchzuführen. Darüber hinaus untersuchen wir ein Poisson-Gamma-Mitgliedschafts-Framework für die gemeinsame Modellierung von Netzwerk und verwandten Knotenmerkmalen.

Deutsch

URN:

urn:nbn:de:tuda-tuprints-96957

Sachgruppe der Dewey Dezimalklassifikatin (DDC):

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
500 Naturwissenschaften und Mathematik > 510 Mathematik
600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften und Maschinenbau

Fachbereich(e)/-gebiet(e):

18 Fachbereich Elektrotechnik und Informationstechnik
18 Fachbereich Elektrotechnik und Informationstechnik > Institut für Nachrichtentechnik > Bioinspirierte Kommunikationssysteme
18 Fachbereich Elektrotechnik und Informationstechnik > Institut für Nachrichtentechnik

Hinterlegungsdatum:

02 Feb 2020 20:56

Letzte Änderung:

02 Feb 2020 20:56

PPN:

Referenten:

Köppl, Prof. Dr. Heinz ; Kersting, Prof. Dr. Kristian

Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung:

11 Dezember 2019

Export: