Informationflow in Deep ReLU Networks

Hartmann, David

doi:https://doi.org/10.25358/openscience-13481

Informationflow in Deep ReLU Networks

dc.contributor.advisor	Wand, Michael
dc.contributor.author	Hartmann, David
dc.date.accessioned	2025-10-24T08:16:47Z
dc.date.issued	2025
dc.description.abstract	Deep learning has proven its effectiveness in large parts of the scientific world. Even large-scale applications, especially text-to-image or text-to-text processors with billions of parameters, consist at their core of simple linear algebra, stacked and separated by non-linear functions. One such so-called activation function, Rectified Linear Unit (ReLU), is defined as the maximum of its argument with zero, effectively discretizing space into one of two cases: greater or smaller than zero. These mechanisms; a continuous basis (using linear algebra) and a discrete choice (using ReLU) seem sufficient to induce representations capable of tackling tasks such as Autonomous Driving or passing the Turing Test. This thesis aims to explore the propagation of information in training deep ReLU networks, moving beyond the perspective of a solely continuous optimization process. By switching back and forth between these two ideas, continuous and discrete interpretation of the very same process, this work aims to explore different instances of the same underlying question: How does information flow from the dataset using the learning scheme through a deep network? One way to answer this question is to observe what discrete decisions a deep network implicitly makes during training and inference, leading to one of the key contributions of this work, which is to examine the activation patterns and their changes during training, enabling the analysis of architectural and optimization choices in a unified model of the training process. Using these insights, the thesis introduces ActCooLR, a proof-of-concept learning rate scheduler based on the introduced transition model of activation pattern changes. A second way to approach the question is to adaptively enhance the optimization process by incorporating additional discrete decisions using a stochastic number system during training, and monitoring optimization for this increasing difficulty.	en
dc.description.abstract	Deep Learning hat sich in vielen Bereichen der Wissenschaft als effektive Methode bewährt. Selbst groß angelegte Anwendungen, insbesondere Text-zu-Bild- oder Text-zu-Text-Modelle mit Milliarden von Parametern, bestehen im Kern aus einfachen linearen Abbildungen, gestapelt und getrennt durch nicht-lineare Funktionen. Eine solche nicht-lineare Funktion, die sogenannte Rectified Linear Unit (ReLU), ist definiert als das Maximum ihres Arguments mit Null, was effektiv den Raum in einen von zwei Fällen diskretisiert: größer oder kleiner als Null. Für Aufgaben wie autonomes Fahren oder das Bestehen des Turing-Tests scheinen diese beiden Mechanismen auszureichen: eine kontinuierliche Basis (unter Verwendung Linearer Algebra) und eine Diskretisierung des Raumes (unter Verwendung von ReLU). Diese Arbeit beschäftigt sich mit der Propagation von Information beim Training von tiefen ReLU-Netzwerken und betrachtet diese Propagation auch jenseits des Blickwinkels eines rein kontinuierlichen Optimierungsprozesses. Durch Hin- und Herwechseln zwischen diesen beiden Ideen – kontinuierlicher und diskreter Interpretation desselben Prozesses – exploriert diese Arbeit an verschiedenen Mechanismen dieselbe zugrunde liegende Frage: Wie fließt Information vom Datensatz mithilfe der Optimierung in ein tiefes Netzwerk? Eine Möglichkeit, diese Frage zu beantworten, besteht darin zu beobachten, welche diskreten Entscheidungen ein tiefes Netzwerk implizit während des Trainings und der Inferenz trifft. Dies führt zu einem der Hauptbeiträge dieser Arbeit: der Untersuchung der Aktivierungsmuster und ihrer Veränderungen während des Trainings, was die Analyse von Architektur- und Optimierungsalgorithmen in einem vereinheitlichten Modell des Trainingsprozesses ermöglicht. Mithilfe der dadurch gewonnenen Einsichten, stellt die Arbeit “ActCooLR” vor, einen Proof-of-Concept Learning Rate Scheduler, der das vorgestellte theoretische Modell der Aktivierungsmusteränderungen nutzt. Als weitere Möglichkeit, die Frage der Informationspropagation zu beantworten, werden zusätzliche diskrete Entscheidungen mithilfe eines adaptiven stochastischen Zahlensystems in das Netzwerk eingebaut, um den Optimierungsprozess unter der resultierenden erhöhten Schwierigkeit zu überwachen.	de
dc.identifier.doi	https://doi.org/10.25358/openscience-13481
dc.identifier.uri	https://openscience.ub.uni-mainz.de/handle/20.500.12030/13502
dc.identifier.urn	urn:nbn:de:hebis:77-997141e3-7749-46f1-a80f-972addff35e03
dc.language.iso	eng
dc.rights	CC-BY-SA-4.0
dc.rights.uri	https://creativecommons.org/licenses/by-sa/4.0/
dc.subject.ddc	004 Informatik	de
dc.subject.ddc	004 Data processing	en
dc.title	Informationflow in Deep ReLU Networks	en
dc.type	Dissertation
jgu.date.accepted	2025-09-19
jgu.description.extent	xix, 209 Seiten ; Illustrationen, Diagramme
jgu.identifier.uuid	997141e3-7749-46f1-a80f-972addff35e0
jgu.organisation.department	FB 08 Physik, Mathematik u. Informatik
jgu.organisation.name	Johannes Gutenberg-Universität Mainz
jgu.organisation.number	7940
jgu.organisation.place	Mainz
jgu.organisation.ror	https://ror.org/023b0x485
jgu.rights.accessrights	openAccess
jgu.subject.ddccode	004
jgu.type.dinitype	PhDThesis	en_GB
jgu.type.resource	Text
jgu.type.version	Original work

Files

Original bundle

Now showing 1 - 1 of 1

Name:: informationflow_in_deep_relu_-20251024101647156382.pdf
Size:: 17.55 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 5.14 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

JGU-Hochschulschriften