Informationflow in Deep ReLU Networks
| dc.contributor.advisor | Wand, Michael | |
| dc.contributor.author | Hartmann, David | |
| dc.date.accessioned | 2025-10-24T08:16:47Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Deep learning has proven its effectiveness in large parts of the scientific world. Even large-scale applications, especially text-to-image or text-to-text processors with billions of parameters, consist at their core of simple linear algebra, stacked and separated by non-linear functions. One such so-called activation function, Rectified Linear Unit (ReLU), is defined as the maximum of its argument with zero, effectively discretizing space into one of two cases: greater or smaller than zero. These mechanisms; a continuous basis (using linear algebra) and a discrete choice (using ReLU) seem sufficient to induce representations capable of tackling tasks such as Autonomous Driving or passing the Turing Test. This thesis aims to explore the propagation of information in training deep ReLU networks, moving beyond the perspective of a solely continuous optimization process. By switching back and forth between these two ideas, continuous and discrete interpretation of the very same process, this work aims to explore different instances of the same underlying question: How does information flow from the dataset using the learning scheme through a deep network? One way to answer this question is to observe what discrete decisions a deep network implicitly makes during training and inference, leading to one of the key contributions of this work, which is to examine the activation patterns and their changes during training, enabling the analysis of architectural and optimization choices in a unified model of the training process. Using these insights, the thesis introduces ActCooLR, a proof-of-concept learning rate scheduler based on the introduced transition model of activation pattern changes. A second way to approach the question is to adaptively enhance the optimization process by incorporating additional discrete decisions using a stochastic number system during training, and monitoring optimization for this increasing difficulty. | en |
| dc.description.abstract | Deep Learning hat sich in vielen Bereichen der Wissenschaft als effektive Methode bewährt. Selbst groß angelegte Anwendungen, insbesondere Text-zu-Bild- oder Text-zu-Text-Modelle mit Milliarden von Parametern, bestehen im Kern aus einfachen linearen Abbildungen, gestapelt und getrennt durch nicht-lineare Funktionen. Eine solche nicht-lineare Funktion, die sogenannte Rectified Linear Unit (ReLU), ist definiert als das Maximum ihres Arguments mit Null, was effektiv den Raum in einen von zwei Fällen diskretisiert: größer oder kleiner als Null. Für Aufgaben wie autonomes Fahren oder das Bestehen des Turing-Tests scheinen diese beiden Mechanismen auszureichen: eine kontinuierliche Basis (unter Verwendung Linearer Algebra) und eine Diskretisierung des Raumes (unter Verwendung von ReLU). Diese Arbeit beschäftigt sich mit der Propagation von Information beim Training von tiefen ReLU-Netzwerken und betrachtet diese Propagation auch jenseits des Blickwinkels eines rein kontinuierlichen Optimierungsprozesses. Durch Hin- und Herwechseln zwischen diesen beiden Ideen – kontinuierlicher und diskreter Interpretation desselben Prozesses – exploriert diese Arbeit an verschiedenen Mechanismen dieselbe zugrunde liegende Frage: Wie fließt Information vom Datensatz mithilfe der Optimierung in ein tiefes Netzwerk? Eine Möglichkeit, diese Frage zu beantworten, besteht darin zu beobachten, welche diskreten Entscheidungen ein tiefes Netzwerk implizit während des Trainings und der Inferenz trifft. Dies führt zu einem der Hauptbeiträge dieser Arbeit: der Untersuchung der Aktivierungsmuster und ihrer Veränderungen während des Trainings, was die Analyse von Architektur- und Optimierungsalgorithmen in einem vereinheitlichten Modell des Trainingsprozesses ermöglicht. Mithilfe der dadurch gewonnenen Einsichten, stellt die Arbeit “ActCooLR” vor, einen Proof-of-Concept Learning Rate Scheduler, der das vorgestellte theoretische Modell der Aktivierungsmusteränderungen nutzt. Als weitere Möglichkeit, die Frage der Informationspropagation zu beantworten, werden zusätzliche diskrete Entscheidungen mithilfe eines adaptiven stochastischen Zahlensystems in das Netzwerk eingebaut, um den Optimierungsprozess unter der resultierenden erhöhten Schwierigkeit zu überwachen. | de |
| dc.identifier.doi | https://doi.org/10.25358/openscience-13481 | |
| dc.identifier.uri | https://openscience.ub.uni-mainz.de/handle/20.500.12030/13502 | |
| dc.identifier.urn | urn:nbn:de:hebis:77-997141e3-7749-46f1-a80f-972addff35e03 | |
| dc.language.iso | eng | |
| dc.rights | CC-BY-SA-4.0 | |
| dc.rights.uri | https://creativecommons.org/licenses/by-sa/4.0/ | |
| dc.subject.ddc | 004 Informatik | de |
| dc.subject.ddc | 004 Data processing | en |
| dc.title | Informationflow in Deep ReLU Networks | en |
| dc.type | Dissertation | |
| jgu.date.accepted | 2025-09-19 | |
| jgu.description.extent | xix, 209 Seiten ; Illustrationen, Diagramme | |
| jgu.identifier.uuid | 997141e3-7749-46f1-a80f-972addff35e0 | |
| jgu.organisation.department | FB 08 Physik, Mathematik u. Informatik | |
| jgu.organisation.name | Johannes Gutenberg-Universität Mainz | |
| jgu.organisation.number | 7940 | |
| jgu.organisation.place | Mainz | |
| jgu.organisation.ror | https://ror.org/023b0x485 | |
| jgu.rights.accessrights | openAccess | |
| jgu.subject.ddccode | 004 | |
| jgu.type.dinitype | PhDThesis | en_GB |
| jgu.type.resource | Text | |
| jgu.type.version | Original work |