Please use this identifier to cite or link to this item: http://doi.org/10.25358/openscience-1182
Authors: Becker, Kolja
Title: Systems biology analysis of large-scale gene expression data
Online publication date: 31-Oct-2018
Language: english
Abstract: Dynamics of gene expression in the context of gene regulatory networks are key to our understanding of cellular function. Particular with the advent of genome wide measurement of mRNA and protein abundances, large-scale gene expression data to investigate gene expression and gene expression networks are made available. Systems biology analysis provides means of extracting relevant information from this data and to further improve our quantitative understanding of mRNA transcription and consecutive translation into protein. In this thesis a variety of biological topics related to transcriptional and translational gene regulation are addressed. Topics range from the identification of circadian expressed genes in the context of circadian rhythm, prediction of transcriptional regulator-target interactions from time-course gene expression data, dynamic modelling of the gene regulatory network coordinating the epithelial-to-mesenchymal transition, and the identification of post-transcriptionally regulated genes during textit{Drosophila} embryogenesis. In each case study, collected large-scale gene expression data serves as the basis for computational analysis using a combination of different pre-existing as well as newly formulated methods. Whenever feasible, the performance of computational methods is evaluated and an experimental validation of predictions is pursued. As a result, the detailed computational analysis of large-scale gene expression data performed in this study not only provides valuable insight into the biological problem at hand, but further offers the opportunity for the development of systems biology tools and their evaluation under realistic experimental conditions.
Das Verhalten lebender Zellen wird maßgeblich über ihre nukleare Genaktivität gesteuert. Aktive Gene werden im Rahmen der sogenannten Genexpression in RNA und Protein abgelesen, die dann wiederum die Bausteine der Zelle bilden. Selbst komplexe zelluläre Prozesse können über koordiniertes An- bzw. Abschalten mehrer Gene in genregulatorischen Netzwerken kontrolliert werden. In vielen Fällen ist das komplexe Wechselspiel der Gene intuitiv schwer nachvollziehbar und nur ansatzweise verstanden, so dass zunehmend großskalige und computergestützte Analysemethoden zur Charakterisierung solcher Netzwerke angewandt werden. So erlauben zum Beispiel moderne experimentelle Methoden, wie RNA-Sequenzierung oder Massenspektrometrie, die Expression von Tausenden von Genen auf Ebene von RNA und Protein zu erfassen. In systembiologischen Ansätzen können solche Datensätze anhand von mathematischen Modellen ausgewertet werden, um quantitative Einblicke in die Dynamik und Mechanismen der Genexpression zu erhalten. In dieser Doktorarbeit werden unterschiedliche computergestützte Methoden auf eine Reihe biologischer Fragestellungen im Kontext der Genexpression angewandt. Die periodische (zirkadiane) Expression von Genen im Verlauf eines Tages ist essentiell für die Fähigkeit von Organismen ihre Physiologie auf den fortwährenden Wechsel von Licht und Dunkelheit einzustellen. Um zirkadiane Genexpressionsnetzwerke besser zu charakterisieren, haben wir durch einen modellbasierten Ansatz periodisch exprimierte Gene in einem zeitaufgelösten Transkriptomdatensatz identifiziert (Kapitel 2). Kausale Zusammenhänge zwischen diesen oszillierenden Genen (Regulator-Effektor-Interaktionen) wurden durch nicht-lineare mathematische Modelle beschrieben. Diese Modelle setzen die zeitaufgelösten Dynamiken von Transkriptionsfaktoren (Regulatoren) mit denen von möglichen Zielgenen (Effektoren) paarweise in Beziehung und berücksichtigen dabei beeinflussende Faktoren, wie mRNA-Halbwertszeiten. Durch diesen Ansatz konnten Regulator-Effektor-Module definiert und experimentell überprüft werden (Kapitel 3). Zelluläre Entscheidungsprozesse werden in vielen Fällen durch komplexere genregulatorische Netzwerke höherer Ordnung gesteuert, in denen mehrere Gene nacheinander geschaltet in Signalkaskaden und/oder reziprok in Rückkopplungsschleifen miteinander interagieren. Wichtig ist demnach die strukturelle sowie dynamische Abbildung eines solchen komplexen Netzwerks in Form eines quantitativen Modells. Als biologisches System wird die sogenannte Epithel-zu-Mesenchym Transition (EMT) betrachtet, bei der sich einzelne Zellen aus einem Zellverbund lösen und die Zellmigration initiieren, zum Beispiel während der Embryonalentwicklung, Wundheilung oder Tumormetastasierung. Hierzu wurde die Expression der beteiligten Gene zeitaufgelöst und unter verschiedenen Störungsbedingungen gemessen. Basierend auf diesen Messungen wurde die Topologie des genregulatorischen Netzwerkes durch verschiedene computergestützte Methoden abgeleitet, und somit ein Satz von direkten Regulator-Effektor-Interaktion aus dem vielschichtigen Datensatz extrahiert (Kapitel 4). In Kapitel 5 wird dieses statische in silico Netzwerk in ein kinetisches Netzwerkmodell überführt, das nicht nur die Netzwerktopologie, sondern auch die zeitaufgelöste Dynamik der EMT-Gene beschreibt, und so die Vorhersage neuer Störungsexperimente erlaubt. Ein wichtiger Aspekt der Genexpression, welcher oft von Modellen genregulatorischer Netzwerke unberücksichtigt bleibt, ist die geringe Korrelation zwischen mRNA- und Proteinkonzentrationen. Um die zugrundeliegenden Mechanismen besser zu verstehen, verwenden wir in Kapitel 6 zeitaufgelöste Transkriptom/Proteom-Daten, welche simultan während der Embryonalentwicklung von Drosophila melanogaster gemessen wurden. Durch einfache mathematische Modelle der mRNA-basierten Protein-Translation konnten wir zeigen, dass die scheinbar widersprüchliche Dynamik vieler mRNA-Protein-Paare während der Embryonalentwicklung auch ohne die Annahme posttranskriptioneller Genregulationsmechanismen beschrieben werden kann. Anhand von bioinformatischen Methoden schlagen wir posttranskriptionelle Regulationsmechanismen für die verbliebenen Proteine vor und konnten diese in einem Fall erfolgreich experimentell validieren. Insgesamt demonstrieren wir anhand der genannten Fallbeispiele die Nützlichkeit systembiologischer Ansätze in Bezug auf großskalige Datensätze der Genexpression, unter anderem auch mit dem Ziel solche vielschichtigen Datensätze zu integrieren, deren Informationsgehalt optimal auszunutzen, und unser quantitatives Verständnis der Dynamik von Genexpression zu erweitern.
DDC: 570 Biowissenschaften
570 Life sciences
Institution: Johannes Gutenberg-Universität Mainz
Department: Externe Einrichtungen
Place: Mainz
DOI: http://doi.org/10.25358/openscience-1182
Version: Original work
Publication type: Dissertation
License: in Copyright
Information on rights of use: https://rightsstatements.org/vocab/InC/1.0/
Extent: 222 Seiten
Appears in collections:JGU-Publikationen

Files in This Item:
File SizeFormat 
100002362.pdf28.46 MBAdobe PDFView/Open