AbstractsComputer Science

Semantic Processing of Digital Documents

by Christian Schönberg




Institution: Universität Passau
Department: Informatik und Mathematik
Degree: PhD
Year: 2014
Record ID: 1106806
Full text PDF: https://opus4.kobv.de/opus4-uni-passau/frontdoor/index/index/docId/243


Abstract

Precise, content-rich and well-structured document models are required for applications like verifying the consistency of documents. Creating such models for common documents is currently an expensive and error-prone process. In this thesis we present a novel approach to modelling and processing digital documents that uses semantic technologies. In contrast to other modelling approaches, we model the structure of documents as indicated by the content, not as defined by technical attributes like the file format. Additionally, our meta-model can be applied to a wide range of different documents, not just to a small set of documents with a predefined set of features. The models include semantic data and content relationships, which can be further extended with domain knowledge. Our new separation of technical and semantic document models fuels a standardised method for obtaining semantic models. This method is effective, suitable for live processing, and easily transferable to other document types and other domains. As it is makes extensive use of background knowledge, we also present techniques for obtaining such knowledge, and for representing complex forms of knowledge with multiple meta-layers. A flexible technique for obtaining relevant data from our document models completes the approach. This includes the ability to obtain various verification models, suitable for different types of consistency criteria and for different validation formalisms. We conclude this thesis with an evaluation that shows the viability and effectiveness of the proposed approach. We present runtime results for an implementation based on RDF/OWL and the rule language JBoss Drools that are adequate for live processing. We also provide and successfully apply techniques for measuring the quality of both document models and background knowledge. Für Anwendungen wie die Verifikation von Konsistenzkriterien für Dokumente werden präzise, inhaltlich reichhaltige, und wohlstrukturierte Dokumentmodelle benötigt. Solche formalen Modelle aus gewöhnlichen Dokumenten zu gewinnen ist bislang mit großem Aufwand verbunden und anfällig für Fehler. In dieser Dissertation wird ein neuer Ansatz zur Modellierung und zur weiteren Verarbeitung von digitalen Dokumenten beschrieben, der dieses Problem unter Verwendung von semantischen Technologien löst. Das entwickelte Meta-Modell ist unabhängig von der technischen Dokumentstruktur (dem Dokumentformat) und kann daher für eine Vielzahl unterschiedlicher Dokumente und Dokumentformate verwendet werden. Die Modelle enthalten semantische Daten und inhaltliche Zusammenhänge, die mithilfe von Domänenwissen noch erweitert werden können. Aus der strikt umgesetzten Trennung von technischen und semantischen Dokumentmodellen wird eine standardisierte Methode zur Gewinnung von semantischen Modellen hergeleitet. Diese Methode ist effektiv und kann leicht auf andere Dokumenttypen und andere Domänen übertragen werden. Da sie Hintergrundwissen verwendet, werden in der Arbeit außerdem Verfahren zur Gewinnung solchen Wissens…