Please use this identifier to cite or link to this item: http://doi.org/10.25358/openscience-1223
Authors: Gütlein, Martin
Title: Visualization and validation of (Q)SAR models
Online publication date: 28-Jul-2015
Language: english
Abstract: Analyzing and modeling relationships between the structure of chemical compounds, their physico-chemical properties, and biological or toxic effects in chemical datasets is a challenging task for scientific researchers in the field of cheminformatics. Therefore, (Q)SAR model validation is essential to ensure future model predictivity on unseen compounds. Proper validation is also one of the requirements of regulatory authorities in order to approve its use in real-world scenarios as an alternative testing method. However, at the same time, the question of how to validate a (Q)SAR model is still under discussion. In this work, we empirically compare a k-fold cross-validation with external test set validation. The introduced workflow allows to apply the built and validated models to large amounts of unseen data, and to compare the performance of the different validation approaches. Our experimental results indicate that cross-validation produces (Q)SAR models with higher predictivity than external test set validation and reduces the variance of the results. Statistical validation is important to evaluate the performance of (Q)SAR models, but does not support the user in better understanding the properties of the model or the underlying correlations. We present the 3D molecular viewer CheS-Mapper (Chemical Space Mapper) that arranges compounds in 3D space, such that their spatial proximity reflects their similarity. The user can indirectly determine similarity, by selecting which features to employ in the process. The tool can use and calculate different kinds of features, like structural fragments as well as quantitative chemical descriptors. Comprehensive functionalities including clustering, alignment of compounds according to their 3D structure, and feature highlighting aid the chemist to better understand patterns and regularities and relate the observations to established scientific knowledge. Even though visualization tools for analyzing (Q)SAR information in small molecule datasets exist, integrated visualization methods that allows for the investigation of model validation results are still lacking. We propose visual validation, as an approach for the graphical inspection of (Q)SAR model validation results. New functionalities in CheS-Mapper 2.0 facilitate the analysis of (Q)SAR information and allow the visual validation of (Q)SAR models. The tool enables the comparison of model predictions to the actual activity in feature space. Our approach reveals if the endpoint is modeled too specific or too generic and highlights common properties of misclassified compounds. Moreover, the researcher can use CheS-Mapper to inspect how the (Q)SAR model predicts activity cliffs. The CheS-Mapper software is freely available at http://ches-mapper.org.
Zusammenhänge zwischen der Struktur von chemischen Verbindungen und biologischen oder toxischen Effekten zu analysieren und zu modellieren ist eine wissenschaftliche Herausforderung im Bereich der Chemieinformatik. Deshalb ist die sorgfältige Validierung von (Q)SAR Modellen entscheidend um die Vorhersage-Genauigkeit eines Modells bei ungesehenen Verbindungen zu gewährleisten. Ordnungsgemäße Validierung ist auch eine der Voraussetzungen der Regulierungsbehörden, um den Einsatz von (Q)SAR Modellen als alternative Test-Methode von Chemikalien zu genehmigen. Allerdings wird immer noch aktiv diskutiert, welches die korrekte Validierungsmethode von (Q)SAR Modellen ist. Diese Arbeit vergleicht empirisch k-fache Kreuzvalidierung mit einer externen Validierung anhand eines Test-Datensatzes. Mit der vorgestellten Methodik werden die validierten Modelle auf große Mengen ungesehener Verbindungen angewendet, und die Genauigkeit der verschiedenen Validierungsmethoden verglichen. Unsere experimentellen Ergebnisse legen nahe, dass kreuzvalidierte (Q)SAR Modelle eine höhere Vorhersage-Genauigkeit aufweisen, als solche, die mit einem externen Testdatensatz validiert worden sind. Des weiteren ist die Varianz der Kreuzvalidierung geringer. Statistische Validierung ist zwingend notwendig, um die Vorhersage-Genauigkeit von (Q)SAR Modellen zu ermitteln. Diese Validierung ist aber nur eingeschränkt hilfreich um die Eigenschaften des Modells oder der zugrunde liegenden Beziehungen zu verstehen. In diesem Zusammenhang stellen wir den molekularen 3D-Viewer CheS-Mapper (Chemical Space Mapper) vor. Diese Computer-Anwendung ordnet chemische Verbindungen im 3D-Raum an, so dass die räumliche Distanz die Ähnlichkeit der Verbindungen widerspiegelt. Durch die Wahl der chemischen Deskriptoren kann der Benutzer die Ähnlichkeit festlegen. CheS-Mapper kann diverse Deskriptoren-Typen, zum Beispiel strukturelle Fragmente oder numerische Kennzahlen, berechnen. Des weiteren erlaubt CheS-Mapper das Clustern von Verbindungen, das Ausrichten und Übereinanderlegen der Strukturen im 3D-Raum, wie auch die farbliche Hervorhebung von Verbindungen anhand ihrer Deskriptor-Werte. Das Programm erleichtert es daher, Chemikern Muster und Zusammenhänge in den Daten zu erkennen und bekanntes wissenschaftliches Wissen zu veranschaulichen. Zwar existieren bereits einige Visualisierungs-Werkzeuge für (Q)SAR Informationen in chemischen Datensätzen, allerdings fehlt eine ganzheitliche Visualisierungs-Methode für Validierungs-Ergebnisse. Wir präsentieren visuelle Validierung, eine graphische Analyse-Methode für die Validierung eines (Q)SAR Modells mit Hilfe neuer Funktionen in CheS-Mapper 2.0. Vorhergesagte Werte für die Aktivität chemischer Verbindungen können mit tatsächlichen Aktivitäten durch die Visualisierung im 3D-Raum verglichen werden. Unser Ansatz zeigt, ob der Endpunkt zu generisch oder zu spezifisch modelliert wurde, und hebt gemeinsame Eigenschaften von falsch vorhergesagten Verbindungen hervor. Darüber hinaus können Forscher untersuchen, wie Activity Cliffs von einem Modell vorhergesagt werden. Die CheS-Mapper Software ist frei verfügbar unter http://ches-mapper.org.
DDC: 004 Informatik
004 Data processing
Institution: Johannes Gutenberg-Universität Mainz
Department: FB 08 Physik, Mathematik u. Informatik
Place: Mainz
DOI: http://doi.org/10.25358/openscience-1223
Version: Original work
Publication type: Dissertation
License: in Copyright
Information on rights of use: https://rightsstatements.org/vocab/InC/1.0/
Appears in collections:JGU-Publikationen

Files in This Item:
File SizeFormat 
4120.pdf11.19 MBAdobe PDFView/Open