Please use this identifier to cite or link to this item: http://doi.org/10.25358/openscience-3862
Authors: Burkhardt, Sophie
Title: Online Multi-label Text Classification using Topic Models
Online publication date: 19-Dec-2018
Language: english
Abstract: Every day, an enormous amount of text data is produced. Sources of text data include news, social media, emails, text messages, medical reports, scientific publications and fiction. Due to these increasing amounts of data, the need for scalable and interpretable models, that help analyze this data, is growing. Such models may generally be divided into supervised and unsupervised models. In the case of supervised methods, the problem is to classify the data given an existing set of labels. In the case of unlabeled data, unsupervised models may be learned, that cluster the data to reveal hidden similarities and regularities. For both of these tasks, existing methods often lack either scalability or interpretability. Scalability is especially important as dataset sizes grow and it is often necessary to be able to process streaming data online without being able to store it. Interpretability helps to understand a given result and is of increasing importance if actions have to be taken based on the modeling result. Such actions often need to be justified to customers or other stake-holders based on information extracted from the model. In this thesis, both scalability and interpretability are achieved by focusing on generative Bayesian topic models for text data. These models are applicable in the supervised as well as the unsupervised setting while maintaining interpretability in both cases. Overall, four novel topic models are proposed in this thesis. These models allow to not only cluster and classify the data but also to assign a semantic interpretation to each cluster that helps to understand its content. This way, it is possible to understand why a text document was assigned a certain topic. At the same time, the proposed models are scalable to large datasets and able to handle streams of data. The first model is trained online and used for multi-label classification of text, meaning that each document may be assigned several labels that possibly exhibit dependencies. The second model is a nonparametric multi-label topic model that utilizes a novel sampling method to make it more efficient. Its nonparametric nature allows it to model different label frequencies. The third model is also nonparametric and trained with a hybrid Variational-Gibbs sampling training algorithm that takes advantage of sparsity. The last model is trained online and tracks changes of topics over time to analyze the German media with respect to the refugee crisis. In conclusion, this thesis demonstrates the manifold possibilities and flexibility of the topic model framework for complex settings such as multi-label classification by exploring different learning and sampling strategies.
Tagtäglich werden ernorme Mengen an Textdaten produziert. Mögliche Quellen von Textdaten sind z.B. Nachrichten, soziale Medien, Emails, Textnachrichten, medizinische Gutachten und Belletristik. Aufgrund der wachsenden Datenmengen, wächst auch der Bedarf an skalierbaren und interpretierbaren Modellen, mit denen diese Daten analysiert werden können. Solche Modelle können generell in überwachte und unüberwachte Verfahren eingeteilt werden. Im Fall von überwachten Verfahren ist das Problem, die Daten anhand einer existierenden Labelmenge zu klassifizieren. Im Fall von nicht klassifizierten Daten können unüberwachte Modelle gelernt werden, die die Daten gruppieren und dadurch versteckte Gemeinsamkeiten und Regularitäten aufdecken. Methoden für beide Anwendungsfälle zeichnen sich oftmals durch fehlende Skalierbarkeit und Interpretierbarkeit aus. Skalierbarkeit is besonders wichtig aufgrund der wachsenden Datenmengen, die die Notwendigkeit implizieren, den Datenstrom online zu verarbeiten, wobei die Daten nicht gespeichert werden müssen. Interpretierbarkeit hilft dabei, das erzielte Resultat zu verstehen und ist von wachsender Bedeutung, wenn Handlungsentscheidungen aufgrund der erzielten Resultate getroffen werden sollen. Solche Handlungen müssen oft gegenüber Kunden oder anderen Beteiligten gerechtfertigt werden. Dies geschieht aufgrund von Informationen, die aus dem gelernten Modell extrahiert werden. In dieser Arbeit werden sowohl Skalierbarkeit als auch Interpretierbarkeit erreicht, indem generative Bayes'sche Modelle für Textdaten angewandt werden. Diese Modelle sind im überwachten und im unüberwachten Fall anwendbar, wobei in beiden Fällen die Interpretierbarkeit gewährleistet bleibt. Insgesamt werden in dieser Arbeit vier neuartige Topic Models vorgeschlagen. Diese Modelle ermöglichen nicht nur die Daten zu gruppieren, sondern auch, den Gruppen eine Semantik zu verleihen, die dabei hilft, ihren Inhalt zu verstehen. Dadurch ist es möglich zu verstehen, warum ein Textdokument einer bestimmten Gruppe zugewiesen wurde. Gleichzeitig sind die vorgeschlagenen Modelle auf große Datensätze skalierbar und können mit Datenströmen umgehen. Das erste Modell wird online trainiert und zur Multi-Label-Klassifikation verwendet, was bedeutet, dass jedes Dokument mehreren Klassen zugeordnet werden kann, die möglicherweise voneinander abhängig sind. Das zweite Modell ist ein nichtparametrisches Multi-Label-Topic-Model, das sich eine neuartige Sampling-Methode zunutze macht, um effizienter zu sein. Die Eigenschaft, nichtparametrisch zu sein, erlaubt das Modellieren verschiedener Labelfrequenzen. Das dritte Modell ist ebenfalls nichtparametrisch und wird mit einem hybriden Variational-Gibbs Trainingalgorithmus trainiert, der sich die Dünnbesetztheit von Matrizen zunutze macht. Das letzte Modell wird online trainiert und verfolgt Änderungen über die Zeit hinweg, um deutsche Medien zum Thema Flüchtlingskrise zu analysieren. Insgesamt zeigt diese Arbeit die vielfältigen Möglichkeiten und die Flexibilität des Topic Model Frameworks für komplexe Anwendungsfälle wie Multi-Label-Klassifikation, indem verschiedene Lern- und Samplingverfahren erforscht werden.
DDC: 004 Informatik
004 Data processing
Institution: Johannes Gutenberg-Universität Mainz
Department: FB 08 Physik, Mathematik u. Informatik
Place: Mainz
DOI: http://doi.org/10.25358/openscience-3862
Version: Original work
Publication type: Dissertation
License: in Copyright
Information on rights of use: https://rightsstatements.org/vocab/InC/1.0/
Extent: xiv, 146 Seiten
Appears in collections:JGU-Publikationen

Files in This Item:
File SizeFormat 
100002486.pdf1.36 MBAdobe PDFView/Open