Please use this identifier to cite or link to this item:
http://doi.org/10.25358/openscience-7783
Authors: | Bob, Konstantin |
Advisor: | Hildebrandt, Andreas |
Title: | Modern methods in bayesian probabilistic modeling and their applications |
Online publication date: | 17-Oct-2022 |
Year of first publication: | 2022 |
Language: | english |
Abstract: | A fundamental task in all fields of science is to learn from observations. However,
undertaking this is usually hindered in two ways: first, the direct observation of the
phenomenon may be challenging or impossible, requiring a model of the phenomenon
and a statistical approach to separate desired from undesired information. Second,
the number of observations may be small, so the resulting uncertainty must be taken
into account.
As a resort, the field of Bayesian modeling provides a canonical framework to
perform statistical inference from data and prior knowledge in a way that allows to
quantify the uncertainty of the results as well. In this approach, probability distributions are used as carriers of information and transformed accordingly. However, in
most cases the required computations can only be performed numerically.
In this work we contribute to Bayesian modeling in several ways: first, we present
the paraNUTS algorithm for parallelized inference that is formulated in the map-
reduce paradigm and achieves considerable speed-ups without significant loss of
inference quality. Next, we present TuringOnline.jl, a software package for inference
in online settings, that also achieves speed-ups while retaining inference quality
to a high degree. Moreover, we present an application of Bayesian modeling to
surface topography analysis that yielded action-guiding findings for the field to
ensure reproducible results from future studies. Finally, we contribute to nowcasting
of infection numbers with our CorCast system that provides the necessary unified
treatment of data and models that is extremely important for practical application.
Although targeted at the Sars-CoV-2 pandemic, the system is designed to be adopted
to other epidemiological modeling easily.
Additionally, the appendices cover research that was not related to Bayesian
modeling: first, a scalable and flexible approach to signal classification in mass
spectrometry raw data using locality-sensitive hashing and second, a machine learning
approach to a classification task in the field of surface topography analysis. Eine grundlegende Aufgabe in allen Bereichen der Wissenschaft ist es, aus Beobachtungen zu lernen. Diese Aufgabe wird jedoch in der Regel auf zweierlei Weise erschwert: Erstens kann die direkte Beobachtung des Phänomens schwierig oder unmöglich sein, so dass ein Modell des Phänomens und ein statistischer Ansatz erforderlich sind, um erwünschte von unerwünschten Informationen zu trennen. Zweitens kann die Anzahl der Beobachtungen gering sein, sodass die daraus entstehende Unsicherheit berücksichtigt werden muss. Als Ausweg bietet die Bayes'sche Modellierung eine kanonische Rahmenordnung, um statistische Schlussfolgerungen aus Daten und Vorwissen auf eine Weise zu ziehen, die es erlaubt, auch die Unsicherheit der Ergebnisse zu quantifizieren. Bei diesem Ansatz werden Wahrscheinlichkeitsverteilungen als Träger von Informationen verwendet und entsprechend transformiert. In den meisten Fällen können die erforderlichen Berechnungen jedoch nur numerisch durchgeführt werden. In dieser Arbeit leisten wir auf verschiedene Weise einen Beitrag zur Bayes'schen Modellierung: Zunächst stellen wir den paraNUTS-Algorithmus für parallelisierte Inferenz vor, der im Map-Reduce-Paradigma formuliert ist und erhebliche Geschwindigkeitssteigerungen ohne signifikanten Verlust an Inferenzqualität erzielt. Als Nächstes stellen wir TuringOnline.jl vor, ein Programmpaket für die Inferenz in Fällen, in denen die Eingabedaten erst im Laufe der Zeit bekannt werden. Hiermit werden ebenfalls Geschwindigkeitssteigerungen erzielt und gleichzeitig die Inferenzqualität in hohem Maße beibehalten. Darüber hinaus stellen wir eine Anwendung der Bayes'schen Modellierung auf die Analyse der Oberflächentopografie vor, die zu handlungsleitenden Erkenntnissen für das Feld geführt hat, um reproduzierbare Ergebnisse zukünftiger Studien zu gewährleisten. Schließlich leisten wir einen Beitrag zur Vorhersage von Infektionszahlen mit unserem CorCast-System, das die notwendige einheitliche Behandlung von Daten und Modellen bietet, die für die praktische Anwendung äußerst wichtig ist. Obwohl das System auf die Sars-CoV-2-Pandemie ausgerichtet ist, lässt es sich problemlos auf andere epidemiologische Modellierungen übertragen. Darüber hinaus decken die Anhänge Forschungsarbeiten ab, die nicht mit der Bayes'schen Modellierung in Zusammenhang stehen: Erstens ein skalierbarer und flexibler Ansatz zur Signalklassifizierung von Massenspektrometrie-Rohdaten unter Verwendung von ähnlichkeitserhaltenden Streuwertfunktionen und zweitens ein maschineller Lernansatz für eine Klassifizierungsaufgabe im Bereich der Oberflächentopographieanalyse. |
DDC: | 004 Informatik 004 Data processing 310 Allgemeine Statistiken 310 General statistics |
Institution: | Johannes Gutenberg-Universität Mainz |
Department: | FB 08 Physik, Mathematik u. Informatik |
Place: | Mainz |
ROR: | https://ror.org/023b0x485 |
DOI: | http://doi.org/10.25358/openscience-7783 |
URN: | urn:nbn:de:hebis:77-openscience-fb3fce5f-ce3d-4b19-b3e1-320f3a2b61047 |
Version: | Original work |
Publication type: | Dissertation |
License: | In Copyright |
Information on rights of use: | http://rightsstatements.org/vocab/InC/1.0/ |
Extent: | xxiii, 141Seiten, Illustrationen, Diagramme |
Appears in collections: | JGU-Publikationen |
Files in This Item:
File | Description | Size | Format | ||
---|---|---|---|---|---|
![]() | modern_methods_in_bayesian_pr-20220930100143978.pdf | 11.22 MB | Adobe PDF | View/Open |