Please use this identifier to cite or link to this item: http://doi.org/10.25358/openscience-7783
Authors: Bob, Konstantin
Advisor: Hildebrandt, Andreas
Title: Modern methods in bayesian probabilistic modeling and their applications
Online publication date: 17-Oct-2022
Year of first publication: 2022
Language: english
Abstract: A fundamental task in all fields of science is to learn from observations. However, undertaking this is usually hindered in two ways: first, the direct observation of the phenomenon may be challenging or impossible, requiring a model of the phenomenon and a statistical approach to separate desired from undesired information. Second, the number of observations may be small, so the resulting uncertainty must be taken into account. As a resort, the field of Bayesian modeling provides a canonical framework to perform statistical inference from data and prior knowledge in a way that allows to quantify the uncertainty of the results as well. In this approach, probability distributions are used as carriers of information and transformed accordingly. However, in most cases the required computations can only be performed numerically. In this work we contribute to Bayesian modeling in several ways: first, we present the paraNUTS algorithm for parallelized inference that is formulated in the map- reduce paradigm and achieves considerable speed-ups without significant loss of inference quality. Next, we present TuringOnline.jl, a software package for inference in online settings, that also achieves speed-ups while retaining inference quality to a high degree. Moreover, we present an application of Bayesian modeling to surface topography analysis that yielded action-guiding findings for the field to ensure reproducible results from future studies. Finally, we contribute to nowcasting of infection numbers with our CorCast system that provides the necessary unified treatment of data and models that is extremely important for practical application. Although targeted at the Sars-CoV-2 pandemic, the system is designed to be adopted to other epidemiological modeling easily. Additionally, the appendices cover research that was not related to Bayesian modeling: first, a scalable and flexible approach to signal classification in mass spectrometry raw data using locality-sensitive hashing and second, a machine learning approach to a classification task in the field of surface topography analysis.
Eine grundlegende Aufgabe in allen Bereichen der Wissenschaft ist es, aus Beobachtungen zu lernen. Diese Aufgabe wird jedoch in der Regel auf zweierlei Weise erschwert: Erstens kann die direkte Beobachtung des Phänomens schwierig oder unmöglich sein, so dass ein Modell des Phänomens und ein statistischer Ansatz erforderlich sind, um erwünschte von unerwünschten Informationen zu trennen. Zweitens kann die Anzahl der Beobachtungen gering sein, sodass die daraus entstehende Unsicherheit berücksichtigt werden muss. Als Ausweg bietet die Bayes'sche Modellierung eine kanonische Rahmenordnung, um statistische Schlussfolgerungen aus Daten und Vorwissen auf eine Weise zu ziehen, die es erlaubt, auch die Unsicherheit der Ergebnisse zu quantifizieren. Bei diesem Ansatz werden Wahrscheinlichkeitsverteilungen als Träger von Informationen verwendet und entsprechend transformiert. In den meisten Fällen können die erforderlichen Berechnungen jedoch nur numerisch durchgeführt werden. In dieser Arbeit leisten wir auf verschiedene Weise einen Beitrag zur Bayes'schen Modellierung: Zunächst stellen wir den paraNUTS-Algorithmus für parallelisierte Inferenz vor, der im Map-Reduce-Paradigma formuliert ist und erhebliche Geschwindigkeitssteigerungen ohne signifikanten Verlust an Inferenzqualität erzielt. Als Nächstes stellen wir TuringOnline.jl vor, ein Programmpaket für die Inferenz in Fällen, in denen die Eingabedaten erst im Laufe der Zeit bekannt werden. Hiermit werden ebenfalls Geschwindigkeitssteigerungen erzielt und gleichzeitig die Inferenzqualität in hohem Maße beibehalten. Darüber hinaus stellen wir eine Anwendung der Bayes'schen Modellierung auf die Analyse der Oberflächentopografie vor, die zu handlungsleitenden Erkenntnissen für das Feld geführt hat, um reproduzierbare Ergebnisse zukünftiger Studien zu gewährleisten. Schließlich leisten wir einen Beitrag zur Vorhersage von Infektionszahlen mit unserem CorCast-System, das die notwendige einheitliche Behandlung von Daten und Modellen bietet, die für die praktische Anwendung äußerst wichtig ist. Obwohl das System auf die Sars-CoV-2-Pandemie ausgerichtet ist, lässt es sich problemlos auf andere epidemiologische Modellierungen übertragen. Darüber hinaus decken die Anhänge Forschungsarbeiten ab, die nicht mit der Bayes'schen Modellierung in Zusammenhang stehen: Erstens ein skalierbarer und flexibler Ansatz zur Signalklassifizierung von Massenspektrometrie-Rohdaten unter Verwendung von ähnlichkeitserhaltenden Streuwertfunktionen und zweitens ein maschineller Lernansatz für eine Klassifizierungsaufgabe im Bereich der Oberflächentopographieanalyse.
DDC: 004 Informatik
004 Data processing
310 Allgemeine Statistiken
310 General statistics
Institution: Johannes Gutenberg-Universität Mainz
Department: FB 08 Physik, Mathematik u. Informatik
Place: Mainz
ROR: https://ror.org/023b0x485
DOI: http://doi.org/10.25358/openscience-7783
URN: urn:nbn:de:hebis:77-openscience-fb3fce5f-ce3d-4b19-b3e1-320f3a2b61047
Version: Original work
Publication type: Dissertation
License: In Copyright
Information on rights of use: http://rightsstatements.org/vocab/InC/1.0/
Extent: xxiii, 141Seiten, Illustrationen, Diagramme
Appears in collections:JGU-Publikationen

Files in This Item:
  File Description SizeFormat
Thumbnail
modern_methods_in_bayesian_pr-20220930100143978.pdf11.22 MBAdobe PDFView/Open