Please use this identifier to cite or link to this item: http://doi.org/10.25358/openscience-8983
Authors: Ceron Noriega, Camilo Alejandro
Advisor: Butter, Falk
Title: Proteome-wide positive selection analysis on improved nematode gene annotation by machine learning assisted proteotranscriptomics
Online publication date: 27-Apr-2023
Year of first publication: 2023
Language: english
Abstract: Zahlreiche Studien an der Nematode und Modellspezies Caenorhabditis elegans haben zu bedeutenden Entdeckungen in den Bereichen Biologie und Biomedizin geführt. Diese sind im Kontext der Evolution schwer zu extrapolieren, da das Nematoden-Phylum eine beträchtlich große phylogenetische Vielfalt aufweist. Als Beispiel für dieses Problem haben wir versucht, die Evolutionsgeschichte der tebp-1- und tebp-2 Gene zu rekapitulieren, von denen wir gezeigt haben, dass sie eine bedeutende Rolle in der Telomerbiologie in C. elegans spielen (Artikel I). Wir konnten zeigen, dass Caenorhabditis briggsae Homologe dieser Proteine ebenfalls Telomere binden. Indem wir die evolutionäre Analyse durch Untersuchung der Phylogenie und Syntenie auf acht weitere Caenorhabditis-Nematoden ausweiteten, zeigten wir, dass diese Proteine möglicherweise eine konservierte Rolle in der gesamten Caenorhabditis-Gattung spielen. Mit dem Ziel, Anzeichen einer positiven Selektion zu erkennen, stellten wir bei vielen der Zielnematoden fehlende oder unzureichende Genannotationen fest. Die Genauigkeit der positiven Selektionsanalyse wird durch die Qualität der in der WormBase Nematoden-Informationsressource verfügbaren Genannotation beeinträchtigt, die in hohem Maße von automatisierten Annotationsworkflows unter Verwendung verfügbarer sequenzierter Genome abhängt. Zur Schließung dieser Lücke setzten wir eine Proteotranskriptomik-Technik zusammen mit einer durch maschinelles Lernen unterstützten Qualitätskontrolle ein, um die Genannotationen für 12 Nematodenarten zu verbessern, was eine Systemanalyse und neue Einblicke in evolutionäre Prozesse ermöglicht (Artikel II). Durch den Vergleich unserer Annotation mit der sehr guten Annotation von C. elegans demonstrierten wir die Leistungsfähigkeit unserer Methode und identifizierten 2 zuvor nicht identifizierte Gene in dieser Spezies (autorisiert von WormBase Kuratoren), was nach mehr als 20 Jahren sorgfältiger manueller Annotation bemerkenswert ist . Mit unserer Technik konnten wir qualitativ hochwertige Annotationen für 9 genomsequenzierte Arten erstellen und neue proteinkodierende Genannotationen für 3 weitere Arten ohne sequenzierte Genome (C. droshophilae, R. regina und R. axei) in der gleichen Qualität wie die von C. elegans bereitstellen. Um die Annotationen zu benchmarken und die evolutionäre Analyse zu erleichtern, haben wir eine Pipeline erstellt, die Orthologievorhersagen und positive Selektionsanalysen ermöglicht. Die Implementierung der Pipeline ermöglichte die Bestimmung von 23.090 orthologen Gruppen, die die proteotranskriptomische Annotation der protein-kodierenden Gene der 12 Nematodenarten umfassen. Unter Verwendung der Pipeline für umfassende positive Selektionsanalysen haben wir Orthologiegruppen unter positiver Selektion entdeckt. Ermutigt durch diese Ergebnisse haben wir den Nutzen der Pipeline für die wissenschaftliche Gemeinschaft erkannt und werden sie der Allgemeinheit unter dem Namen AlexandrusPS als Docker-Image zur Verfügung stellen. AlexandrusPS ermöglicht es Benutzern, CodeML-Protokolle automatisiert parallel auf einem Desktop-Computer auszuführen, was Analysen mit hohem Durchsatz ermöglicht, ohne dass Hochleistungs-Computersysteme erforderlich sind. Die Pipeline wird der Community über einen Application Note-Artikel in einer der größeren Bioinformatik-Fachzeitschriften vorgestellt werden (Artikel III).
DDC: 590 Tiere (Zoologie)
590 Zoological sciences
Institution: Johannes Gutenberg-Universität Mainz
Department: FB 10 Biologie
Place: Mainz
ROR: https://ror.org/023b0x485
DOI: http://doi.org/10.25358/openscience-8983
URN: urn:nbn:de:hebis:77-openscience-8aef899d-0b80-4771-bc72-dabb848356258
Version: Original work
Publication type: Dissertation
License: CC BY-ND
Information on rights of use: https://creativecommons.org/licenses/by-nd/4.0/
Extent: Getrennte Zählung ; Illustrationen, Diagramme
Appears in collections:JGU-Publikationen

Files in This Item:
  File Description SizeFormat
Thumbnail
proteomewide_positive_selecti-20230412162309032.pdf80.95 MBAdobe PDFView/Open