Machine learning-assisted identification of factors affecting variability in multi-omics data
dc.contributor.advisor | Andrade-Navarro, Miguel | |
dc.contributor.author | Lipnitskaya, Sofya | |
dc.date.accessioned | 2025-03-10T12:49:12Z | |
dc.date.available | 2025-03-10T12:49:12Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Recent advances in high-throughput technologies together with computational innovations have enabled the studying of biological systems at multiple levels, giving rise to integrative omics approaches. Multi-omics research refers to efforts that combine multiple omics datasets—including genes, transcripts, and proteins—obtained from the same samples to improve our understanding of biological processes. Over the past decades, omics technologies have led to new insights on complex molecular mechanisms underlying abnormal phenotypes and diseases, thus revolutionizing biomedical and biological research. This has resulted in the generation of a large volume of biological data, including that available in open-access sources. Nonetheless, comprehensive analysis of such data is not trivial and is particularly hampered by high dimensionality, noisy nature of the data, as well as the lack of standardized data analysis methods and pipelines. Therefore, it is necessary to focus on the integration of the omics data in the context of phenotypes and conditions of interest, which motivated the current research. This thesis investigates factors affecting biological and technical variability in the context of transcriptomics studies by applying Machine Learning (ML) and Integrative Data Analysis (IDA). In particular, the thesis proposes design and implementation of: (I) a bioinformatics pipeline (FAVSeq) for identification of key effectors for variation in multimodal RNA Sequencing (RNA-Seq) profiles from matched bulk and single-cell experiments and (II) an analysis tool for ML- and IDA-based studying of alternative splicing regulome (regulAS) comprising large-scale RNA-Seq from cancer and healthy patients from public omics data sources. Findings and tools presented in this thesis provide a basis for further experimental investigations of identified factors, as well as subsequent improvements at the level of RNA-Seq data preparation along with downstream analysis that allow to facilitate the fundamental research and biomedical applications based on RNA sequencing technologies. | en |
dc.description.abstract | Neueste Fortschritte im Bereich der Hochdurchsatztechnologien in Verbindung mit Innovationen im Bereich der Datenverarbeitung haben die Untersuchung biologischer Systeme auf mehreren Ebenen ermöglicht, was zu integrativen Omics-Ansätzen geführt hat. Multi-Omics-Forschung bezieht sich auf Bemühungen, die mehrere omics-Datensätze—einschließlich Genen, Transkripten und Proteinen—aus denselben Proben kombinieren, um unser Verständnis biologischer Prozesse zu verbessern. In den letzten Jahrzehnten haben omics-Technologien zu neuen Erkenntnissen über komplexe molekulare Mechanismen geführt, die anormalen Phänotypen und Krankheiten zugrunde liegen, und damit die biomedizinische und biologische Forschung revolutioniert. Dies hat zur Erzeugung einer großen Menge biologischer Daten geführt, die auch in frei zugänglichen Quellen verfügbar sind. Die umfassende Analyse solcher Daten ist jedoch nicht trivial und wird insbesondere durch die hohe Dimensionalität und die Verrauschung der Daten sowie durch das Fehlen standardisierter Datenanalysemethoden und Pipelines erschwert. Daher ist es notwendig, sich auf die Integration von Omics-Daten im Kontext von Phänotypen und Bedingungen von Interesse zu konzentrieren, was die aktuelle Forschung motiviert. In dieser Dissertation werden die Faktoren untersucht, die die biologische und technische Variabilität im Rahmen von Transkriptomikstudien beeinflussen, indem maschinelles Lernen (ML) und integrative Datenanalyse (IDA) angewandt werden. Insbesondere schlägt die Dissertation das Design und die Implementierung vor: (I) einer Bioinformatik-Pipeline (FAVSeq) zur Identifizierung von Schlüsselfaktoren für die Variation in multimodalen RNASequenzierungsprofilen (RNA-Seq) aus aufeinander abgestimmten Bulk- und Einzelzellexperimenten und (II) eines Analysetools zur ML- und IDA-basierten Untersuchung des alternativen Spleißreguloms (regulAS), das groß angelegte RNA-Seq-Daten von Krebs- und gesunden Patienten aus öffentlichen Omics- Datenquellen umfasst. Die in dieser Dissertation vorgestellten Ergebnisse und Werkzeuge bilden die Grundlage für weitere experimentelle Untersuchungen der ermittelten Faktoren sowie für nachfolgende Verbesserungen auf der Ebene der RNA-Seq- Datenvorbereitung und der nachgelagerten Analyse, die es ermöglichen, die Grundlagenforschung und biomedizinische Anwendungen auf der Grundlage von RNA-Sequenzierungstechnologien zu erleichtern. | de |
dc.identifier.doi | https://doi.org/10.25358/openscience-11585 | |
dc.identifier.uri | https://openscience.ub.uni-mainz.de/handle/20.500.12030/11606 | |
dc.identifier.urn | urn:nbn:de:hebis:77-46261e96-740d-4dc9-8f73-56bbd26e30bd4 | |
dc.language.iso | eng | |
dc.rights | CC-BY-4.0 | |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject.ddc | 004 Informatik | de |
dc.subject.ddc | 004 Data processing | en |
dc.subject.ddc | 570 Biowissenschaften | de |
dc.subject.ddc | 570 Life sciences | en |
dc.subject.ddc | 500 Naturwissenschaften | de |
dc.subject.ddc | 500 Natural sciences and mathematics | en |
dc.title | Machine learning-assisted identification of factors affecting variability in multi-omics data | en |
dc.type | Dissertation | |
jgu.date.accepted | 2025-01-30 | |
jgu.description.extent | 133 Seiten ; Illustrationen, Diagramme | |
jgu.organisation.department | FB 10 Biologie | |
jgu.organisation.name | Johannes Gutenberg-Universität Mainz | |
jgu.organisation.number | 7970 | |
jgu.organisation.place | Mainz | |
jgu.organisation.ror | https://ror.org/023b0x485 | |
jgu.organisation.year | 2024 | |
jgu.rights.accessrights | openAccess | |
jgu.subject.ddccode | 004 | |
jgu.subject.ddccode | 570 | |
jgu.subject.ddccode | 500 | |
jgu.type.dinitype | PhDThesis | en_GB |
jgu.type.resource | Text | |
jgu.type.version | Original work |