Please use this identifier to cite or link to this item: http://doi.org/10.25358/openscience-3244
Full metadata record
DC FieldValueLanguage
dc.contributor.authorGottron, Thomas
dc.date.accessioned2009-01-14T13:42:13Z
dc.date.available2009-01-14T14:42:13Z
dc.date.issued2009
dc.identifier.urihttps://openscience.ub.uni-mainz.de/handle/20.500.12030/3246-
dc.description.abstractExcept the article forming the main content most HTML documents on the WWW contain additional contents such as navigation menus, design elements or commercial banners. In the context of several applications it is necessary to draw the distinction between main and additional content automatically. Content extraction and template detection are the two approaches to solve this task. This thesis gives an extensive overview of existing algorithms from both areas. It contributes an objective way to measure and evaluate the performance of content extraction algorithms under different aspects. These evaluation measures allow to draw the first objective comparison of existing extraction solutions. The newly introduced content code blurring algorithm overcomes several drawbacks of previous approaches and proves to be the best content extraction algorithm at the moment. An analysis of methods to cluster web documents according to their underlying templates is the third major contribution of this thesis. In combination with a localised crawling process this clustering analysis can be used to automatically create sets of training documents for template detection algorithms. As the whole process can be automated it allows to perform template detection on a single document, thereby combining the advantages of single and multi document algorithms.en_GB
dc.description.abstractAußer dem Artikel der den eigentlichen Hauptinhalt darstellt enthalten die meisten HTML Dokumente im WWW zusätzliche Inhalte, wie beispielsweise Navigationsmenüs, gestalterische Elemente oder Werbung. Für verschiedene Anwendungen ist es nötig die Unterscheidung zwischen Haupt- und zusätzlichen Inhalten automatisch vorzunehmen. Content Extraction und Template Detection sind Verfahren, die diese Aufgabe lösen. Diese Arbeit gibt einen sehr umfassenden Überblick über die bestehenden Verfahren und Algorithmen für beide Herangehensweisen. Sie liefert objektive Maße zur Bewertung der Leistung von Algorithmen zur Inhaltsextraktion. Diese Bewertungsmaße erlauben einen ersten objektiven Vergleich bestehender Verfahren. Der neu eingeführte Content Code Blurring Algorithmus löst einige Probleme existierender Ansätze und ist derzeit der leistungsfähigste Algorithmus zur Inhaltsextraktion. Eine Analyse verschiedener Methoden zur Gruppierung von Webdokumenten bezüglich der ihnen unterliegenden Templates stellt den dritten größeren Beitrag dieser Arbeit dar. In Kombination mit einer lokalen Websuche kann dieses Templateclustering für die automatische Erstellung von Trainingsdatensätzen zur Templateerkennung eingesetzt werden. Da das Verfahren vollautomatisch ablaufen kann, ermöglicht es im Prinzip Template Detection auf einzelne Dokumente anzuwenden. Dadurch lassen sich die Vorteile aus Content Extraction und Template Detection verknüpfen.de_DE
dc.language.isoeng
dc.rightsInCopyrightde_DE
dc.rights.urihttps://rightsstatements.org/vocab/InC/1.0/
dc.subject.ddc004 Informatikde_DE
dc.subject.ddc004 Data processingen_GB
dc.titleContent extraction: Identifying the main content in HTML documentsen_GB
dc.typeDissertationde_DE
dc.identifier.urnurn:nbn:de:hebis:77-18591
dc.identifier.doihttp://doi.org/10.25358/openscience-3244-
jgu.type.dinitypedoctoralThesis
jgu.type.versionOriginal worken_GB
jgu.type.resourceText
jgu.organisation.departmentFB 08 Physik, Mathematik u. Informatik-
jgu.organisation.year2008
jgu.organisation.number7940-
jgu.organisation.nameJohannes Gutenberg-Universität Mainz-
jgu.rights.accessrightsopenAccess-
jgu.organisation.placeMainz-
jgu.subject.ddccode004
opus.date.accessioned2009-01-14T13:42:13Z
opus.date.modified2009-01-14T13:42:13Z
opus.date.available2009-01-14T14:42:13
opus.subject.otherInformation Retrieval, Web-Mining, Template Clusterung, Template Abstandsmaße, Information Extraction, Zugänglichkeit, Dokumentähnlichkeitde_DE
opus.subject.otherInformation Retrieval, Web Mining, template clustering, template distance measures, Information Extraction, accessibility, document similarityen_GB
opus.organisation.stringFB 08: Physik, Mathematik und Informatik: FB 08: Physik, Mathematik und Informatikde_DE
opus.identifier.opusid1859
opus.institute.number0800
opus.metadataonlyfalse
opus.type.contenttypeDissertationde_DE
opus.type.contenttypeDissertationen_GB
jgu.organisation.rorhttps://ror.org/023b0x485
Appears in collections:JGU-Publikationen

Files in This Item:
  File Description SizeFormat
Thumbnail
1859.pdf12.46 MBAdobe PDFView/Open