Novel bioinformatic tools and methods to study Next Generation Sequencing data with a focus on DNA repair and genome stability
dc.contributor.advisor | Andrade-Navarro, Miguel | |
dc.contributor.advisor | Beli, Petra | |
dc.contributor.author | Sayols Puig, Sergi | |
dc.date.accessioned | 2025-07-31T07:50:56Z | |
dc.date.available | 2025-07-31T07:50:56Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Next Generation Sequencing is a widely used technology that enables precise identification and quantification of nucleic acids. Advanced sequencing-based experimental protocols have enabled the investigation of their modifications, organization, interaction, and regulation, among others. This thesis introduces three novel methodologies implemented as software packages for facilitating the comprehensive analysis, visualization and interpretation of *omics* sequencing data. In *Chapter 1* we describe the problem of PCR clonal artefacts in RNA-seq and enrichment-based assays, such as ChIP-seq. We present the tool *dupRadar*, a novel method to tell apart those PCR artifacts from normal read duplication due to natural over-sequencing of highly expressed genes or enriched loci. We apply our method to detect over-sequenced libraries of limited complexity in cases of little input material in a synthetic dataset and also in public datasets of bulk RNA-seq and single-cell RNA-seq. We found that datasets generated from lower input material exhibit limited library complexity, leading to increased duplication rates even among lowly expressed genes. Finally, we run differential expression analysis to demonstrate that even low levels of PCR artifacts can have an influence on downstream analysis and data interpretation. *Chapter 2* introduces *rrvgo*, a novel tool for interpreting large lists of Gene Ontology terms. The package gives access to several semantic similarity methods; here, I apply the *Relevance* method to GO terms significantly enriched in the publicly available gene expression data from the breast cancer study published by Schmidt et al. in 2008, comparing grade III to grade I breast cancer patients. This approach identifies clusters of potentially redundant terms with high correlation of information content within the set of GO terms. We further demonstrate the utility of rrvgo's visualizations, which facilitate the detection and refinement of a non-redundant set of GO terms for more focused biological interpretation. *Chapter 3* introduces *BreakTag*, an innovative approach for genome-wide identification and quantification of DNA double-strand breaks and their structural characteristics at single nucleotide resolution using high-throughput sequencing. Additionally, we developed *breakinspectoR*, a bioinformatics pipeline designed to detect, quantify and study the end structure of Cas9-induced DSBs in BreakTag data. Using BreakTag, we analyzed cleavage patterns by SpCas9 across three genome-wide CRISPR libraries, comprising 3,500 distinct single-guide RNAs, and identified over 150,000 on- and off-target cleavage sites. Analysis of DSB break ends revealed that approximately 35% of the identified breaks exhibit staggered ends. A machine learning model trained using target site sequence composition and DSB end structure data revealed that protospacer sequence significantly influences Cas9 incision patterns. Furthermore, by examining matched datasets of Cas9 cleavage sites and subsequent repair outcomes, we found a link between staggered breaks and single-nucleotide insertions. In conclusion, these findings demonstrate that the structure of Cas9 DSB ends is sequence-dependent, suggesting that guide RNAs can be strategically designed to produce precise, predictable repair outcomes. This approach may provide new opportunities for correcting diseases caused by single-nucleotide deletions. Overall during my PhD, in collaboration with wet-lab researchers, I have developed novel tools and methods to a broad range of applications of *omics* sequencing data, with special focus on the study of DNA repair and genome stability. | en |
dc.description.abstract | Next-Generation Sequencing ist eine weit verbreitete Technologie zur präzisen Identifizierung und Quantifizierung von Nukleinsäuren. Komplexe sequenzbasierte experimentelle Protokolle ermöglichen unter anderem die Untersuchung der Modifikation, Organisation, Interaktion und Regulation von Nukleinsäuren. Diese Dissertation stellt drei neuartige Methoden vor, die als Softwarepakete implementiert wurden, um die umfassende Analyse, Visualisierung und Interpretation von Omics-Sequenzierungsdaten zu erleichtern. Kapitel 1 beschreibt das Problem von PCR-klonalen Artefakten in RNA-Seq und anreicherungsbasierten Assays wie ChIP-Seq. Wir präsentieren das Tool dupRadar, welches eine neuartige Methode implementiert, um diese PCR-Artefakte von normalen Leseduplikationen zu unterscheiden. Letztere können aufgrund natürlicher Übersequenzierung hoch exprimierter Gene oder angereicherter Loci entstehen. Wir haben unsere Methode auf einem synthetischen Datensatz sowie auf öffentliche Datensätzen von Bulk-RNA-Seq und Single-Cell-RNA-Seq angewendet und fanden heraus, dass Datensätze, die aus geringerem Ausgangsmaterial generiert wurden, eine begrenzte Bibliothekskomplexität aufweisen, was zu erhöhten Duplikationsraten führt, selbst bei schwach exprimierten Genen. Schließlich führen wir eine differentielle Expressionsanalyse durch, um zu zeigen, dass selbst geringe Mengen an PCR-Artefakten einen Einfluss auf die nachgelagerte Analyse und Dateninterpretation haben können. Kapitel 2 stellt rrvgo vor, ein neuartiges Tool zur Interpretation großer Listen von Gene Ontology-Begriffen. Das Paket ermöglicht die Verwendung mehrerer semantischer Ähnlichkeitsmethoden. Hier wende ich die Relevance-Methode auf GO-Begriffe an, die signifikant in den öffentlich verfügbaren Genexpressionsdaten aus der von Schmidt et al. 2008 veröffentlichten Brustkrebsstudie angereichert sind, bei der Brustkrebspatienten des Grades III mit denen des Grades I verglichen wurden. Dieser Ansatz identifiziert Cluster potenziell redundanter Terme mit hoher Korrelation des Informationsgehalts innerhalb des Satzes von GO-Termen. Außerdem zeigen wir den Nutzen der Visualisierungen von rrvgo, die die Erkennung und Verfeinerung eines nicht-redundanten Satzes von GO-Termen für eine fokussiertere biologische Interpretation erleichtern. Kapitel 3 stellt BreakTag vor, einen innovativen Ansatz zur genomweiten Identifizierung und Quantifizierung von DNA-Doppelstrangbrüchen und ihrer strukturellen Eigenschaften mit Einzelnukleotidauflösung mittels Hochdurchsatzsequenzierung. Zusätzlich haben wir breakinspectoR entwickelt, eine Bioinformatik-Pipeline zur Detektion, Quantifizierung und Untersuchung der Struktur der Enden von Cas9-induzierten DSBs in BreakTag-Daten. Mit BreakTag haben wir Spaltungsmuster von SpCas9 in drei genomweiten CRISPR-Bibliotheken mit 3.500 verschiedenen Einzel-Guide-RNAs analysiert und über 150.000 On- und Off-Target-Schnittstellen identifiziert. Die Analyse der DSB-Enden zeigte, dass etwa 35 % der identifizierten Brüche gestaffelte Enden aufweisen. Ein maschinelles Lernmodell, das mit den Sequenzen der Bindestellen und Strukturdaten der DSB-Enden trainiert wurde, zeigte, dass die Protospacer-Sequenz die Cas9-Schnittmuster signifikant beeinflusst. Darüber hinaus fanden wir durch die Untersuchung gepaarter Datensätze von Cas9-Schnittstellen und nachfolgenden Reparaturergebnissen einen Zusammenhang zwischen gestaffelten Brüchen und Einzelnukleotidinsertionen. Zusammenfassend zeigen diese Ergebnisse, dass die Struktur der Cas9-DSB-Enden sequenzabhängig ist, was darauf hindeutet, dass Guide-RNAs strategisch so gestaltet werden können, dass sie präzise und vorhersehbare Reparaturergebnisse liefern. Dieser Ansatz könnte neue Möglichkeiten zur Heilung von Krankheiten eröffnen, die durch Einzelnukleotiddeletionen verursacht werden. Insgesamt habe ich während meiner Promotion in Zusammenarbeit mit Laborforschern neuartige Werkzeuge und Methoden für ein breites Spektrum von Anwendungen von Omics-Sequenzierungsdaten entwickelt. Hierbei lag ein besonderer Fokus auf der Untersuchung von DNA-Reparatur und Genomstabilität. | de |
dc.identifier.doi | https://doi.org/10.25358/openscience-12706 | |
dc.identifier.uri | https://openscience.ub.uni-mainz.de/handle/20.500.12030/12727 | |
dc.identifier.urn | urn:nbn:de:hebis:77-911aef9b-7b51-4478-88e1-ff13625ba74e5 | |
dc.language.iso | eng | |
dc.rights | CC-BY-4.0 | |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject.ddc | 500 Naturwissenschaften | de |
dc.subject.ddc | 500 Natural sciences and mathematics | en |
dc.title | Novel bioinformatic tools and methods to study Next Generation Sequencing data with a focus on DNA repair and genome stability | en |
dc.type | Dissertation | |
jgu.date.accepted | 2025-07-15 | |
jgu.description.extent | 170 Seiten ; Illustrationen, Diagramme | |
jgu.organisation.department | FB 10 Biologie | |
jgu.organisation.name | Johannes Gutenberg-Universität Mainz | |
jgu.organisation.number | 7970 | |
jgu.organisation.place | Mainz | |
jgu.organisation.ror | https://ror.org/023b0x485 | |
jgu.organisation.year | 2024 | |
jgu.rights.accessrights | openAccess | |
jgu.subject.ddccode | 500 | |
jgu.type.dinitype | PhDThesis | en_GB |
jgu.type.resource | Text | |
jgu.type.version | Original work |