Please use this identifier to cite or link to this item: http://doi.org/10.25358/openscience-3864
Authors: Hauenschild, Ralf
Title: RNA-Seq and CoverageAnalyzer reveal sequence dependent reverse transcription signature of N-1-methyladenosine
Online publication date: 6-Apr-2017
Year of first publication: 2017
Language: english
Abstract: The discovery of pseudouridine (Psi) as the fifth sequence residue of RNA 60 years ago marked the beginning of a successive extension of the known alphabet of ribonucleic acids up to currently around 150 different nucleotide derivatives. Mapping and functional association of these modifications are the essential emphases of one of the most topical and dynamic areas of modern life sciences, the exploration of the epitranscriptome. Beyond the advanced state of knowledge concerning the densely and systematically modified tRNAs and rRNAs, major breakthroughs were achieved in the class of coding transcripts during the last years. Basis for detection is a modification-specific behavior of Reverse Transcriptase (RT) in the transcription of RNA to cDNA, an RT signature. The combination of Next Generation Sequencing (NGS) with specific labeling or immunoprecipitation revealed individual modification landscapes in mRNA for e.g. Psi, m5C and m6A, partially with evidence for regulatory relevance. This PhD thesis addressed the development of bioinformatic methods for description and identification of nucleotide modifications based on Deep Sequencing data. The concept was demonstrated by the characterization of the RT signature of N-1-methyladenosine (m1A). This adenosine residue, methylated at the Watson-Crick edge, occurs in tRNAs of bacteria, archea and eukarya, and called attention by its recent discovery in numerous mammalian mRNAs. Whereas the software developed in this project also allows comparison of RT effects after differential chemical treatment, analysis of m1A relied on native signatures only, i.e. without specific labeling or antibody-mediated enrichment. Artificially induced m1A instances are of interest in structural probing of RNA, wherein the local methylation efficiency is interpreted as the accessibility of nucleotides to the solvent, i.e. as the degree of structuring of RNA strands. The detection is based on the tendency of the modification to block RT, which is reflected by accumulation of abortive products at the respective position in gel electrophoresis or in sequencing profiles of primer extension assays. In turn, according to previous studies, read-through products exhibit a preferred composition of misincorporated cDNA residues at m1A sites. The hence dual RT signature of m1A, consisting of arrest and misincorporation rates, was characterized and differentiated by the present work based on natural instances in tRNA and rRNA, for the purpose of improved resolution and enhanced recognition potential. Arrest and read-through products were captured by a specialized protocol for preparation of cDNA libraries ready for sequencing. The digital analysis was carried out by comparison of sequencing data to reference sequences. Core of the workflow is the standalone software CoverageAnalyzer, which was engineered in the scope of this work as a universal platform for processing, visualization and screening of sequencing profiles for signature features. In this way, m1A signatures were extracted and then analyzed by descriptive and inferential statistics, also in terms of their capability of discrimination from non- or otherwise modified adenosines with noticeable RT features. Supervised machine learning with Random Forest models for recognition of m1A in adenosine pools staggered by distinction difficulty shed light on usage potential of eight formulated features, including a context-sensitive descriptor of RT stops. Furthermore, it showed the benefit of simultaneous utilization of mismatch- and arrest related information and highlighted the special nature of m1A among native RT signatures of adenosine derivatives, which allows the sensitive and specific detection of m1A. Achievements in discovery of unreported m1A sites in human, mouse and T. brucei were made by signature comparison and sequence homology. With the help of synthetic oligoribonucleotides, the picture was refined by effects of incomplete levels of modification. Artificial instances moreover confirmed a central result of this study: the composition of mismatches in m1A's RT signature depends on the sequence context, namely the identity of the 3'-adjacent nucleotide. The developed analytical methodology, the specialized software as well as findings regarding m1A's RT signature with implications for other modifications prepare the ground for revisal of existing predictions and for advancement of mapping strategies for the epitranscriptome.
Die Entdeckung von Pseudouridin Psi als fünftem Sequenzbaustein der RNA vor 60 Jahren gab den Auftakt zu einer fortlaufenden Erweiterung des bekannten Alphabets von Ribonukleinsäuren auf derzeit rund 150 verschiedene Nukleotid-Derivate. Kartierung und funktionelle Assoziation dieser Modifikationen sind die wesentlichen Schwerpunkte eines der aktuellsten und dynamischsten Gebiete der modernen Lebenswissenschaften, der Erforschung des Epitranskriptoms. Über den fortgeschrittenen Kenntnisstand im Bereich der dicht und systematisch modifizierten tRNAs und rRNAs hinaus gelangen während der letzten Jahre entscheidende Durchbrüche in der Kategorie kodierender Transkripte. Detektionsgrundlage ist ein modifikationsspezifisches Übersetzungsverhalten der Reversen Transkriptase (RT) bei der Abschrift von RNA zu cDNA, eine RT Signatur. Die Kombination von Next Generation Sequencing (NGS) mit spezifischem Labeling oder auch Immunopräzipitation offenbarte individuelle Modifikationslandschaften in mRNAs für z.B. Psi, m5C und m6A, zum Teil mit Anhaltspunkten für regulatorische Bedeutung. Diese Doktorarbeit befasste sich mit der Entwicklung bioinformatischer Methoden zur Beschreibung und Identifikation von Nukleotidmodifikationen anhand von Deep Sequencing-Daten. Das Konzept wurde durch die Charakterisierung der RT-Signatur von N-1-Methyladenosin (m1A) demonstriert. Dieses an der Watson-Crick-Edge methylierte Adenosin kommt in tRNAs von Bakterien, Archaen und Eukaryoten vor und erregte mit seiner kürzlichen Entdeckung in zahlreichen Säuger-mRNAs Aufsehen. Während die in der Arbeit entwickelte Software auch den Vergleich von RT-Effekten nach differenzieller chemischer Behandlung erlaubt, erfolgte die Analyse von m1A ausschließlich anhand nativer Signaturen, d.h. ohne spezifisches Labeling oder antikörperbasierte Anreicherung. Künstlich erzeugte m1A-Instanzen sind in der Strukturaufklärung von RNAs von Interesse, bei der man den lokalen Methylierungserfolg als Lösemittelzugänglichkeit von Nukleotiden, d.h. als Strukturierungsgrad von RNA-Strängen interpretiert. Die Detektion basiert auf der Tendenz der Modifikation zur RT-Blockade, welche sich in der Gelelektrophorese oder in Sequenzierprofilen von Primer Extension-Assays als Häufung von Abbruchprodukten an der betreffenden Position äußert. Read-Through-Produkte wiederum weisen laut Studien ein bevorzugtes Verhältnis an missinkorporierten cDNA-Bausteinen an m1A-Stellen auf. Die somit duale RT-Signatur von m1A, bestehend aus Abbruch- und Missinkorporationsraten, wurde durch die vorliegende Arbeit anhand natürlicher Instanzen in tRNA und rRNA charakterisiert und differenziert, zwecks verbesserter Auflösung und erweiterten Erkennungspotentials. Abbruch- und Read-Through-Produkte wurden durch ein spezialisiertes Protokoll zur Präparation sequenzierbereiter cDNA-Bibliotheken erfasst. Die digitale Analyse erfolgte durch Abgleich der Sequenzierdaten mit Referenzsequenzen. Kern des Workflows ist die eigenständige Software CoverageAnalyzer, entwickelt im Rahmen dieser Arbeit als universelle Plattform zur Prozessierung, Visualisierung und Filterung von Sequenzierprofilen nach Signaturmerkmalen. Damit wurden m1A-Signaturen extrahiert und sodann durch deskriptive und inferentielle Statistik analysiert, auch auf Unterscheidbarkeit von un- oder anderweitig modifizierten Adenosinen auffälliger RT-Merkmale. Überwachtes Machine Learning mit Random Forest-Modellen zur Erkennung von m1A in Adenosin-Pools, abgestuft nach Unterscheidungsschwierigkeit, gab Aufschluss über das Nutzungspotential acht formulierter Features, darunter ein kontext-sensitiver Deskriptor für RT-Stops. Es zeigte weiterhin den Vorteil simultaner Verwendung mismatch- und arrestbezogener Information und hob die Sonderstellung von m1A unter nativen RT-Signaturen von Adenosinderivaten hervor, welche die sensitive und spezifische Detektion von m1A erlaubt. Erfolge in der Entdeckung unbekannter m1A-Stellen in Mensch, Maus und T. brucei gelangen per Signaturabgleich und Sequenzhomologie. Mithilfe synthetischer Oligoribonukleotide wurde das Bild um Effekte unvollständiger Modifikationslevels verfeinert. Künstliche Instanzen bestätigten zudem ein Hauptergebnis der Studie: Die Mismatch-Zusammensetzung in m1A's RT-Signatur ist abhängig vom Sequenzkontext, nämlich der Identität des 3'-gelegenen Nachbarnukleotids. Die entwickelte Analysemethodik, spezialisierte Software sowie Erkenntnisse zur RT-Signatur von m1A mit Implikationen für andere Modifikationen sind wegbereitend für Prüfungen bestehender Vorhersagen und den Ausbau der Kartierungsstrategie für das Epitranskriptom.
DDC: 500 Naturwissenschaften
500 Natural sciences and mathematics
Institution: Johannes Gutenberg-Universität Mainz
Department: FB 09 Chemie, Pharmazie u. Geowissensch.
Place: Mainz
ROR: https://ror.org/023b0x485
DOI: http://doi.org/10.25358/openscience-3864
URN: urn:nbn:de:hebis:77-diss-1000012002
Version: Original work
Publication type: Dissertation
License: In Copyright
Information on rights of use: https://rightsstatements.org/vocab/InC/1.0/
Extent: xi, 93 Seiten
Appears in collections:JGU-Publikationen

Files in This Item:
  File Description SizeFormat
Thumbnail
100001200.pdf50.06 MBAdobe PDFView/Open