AbstractsBiology & Animal Science

Focused structural document image retrieval in digital mailroom applications

by Hongxing Gao
Institution: Universitat Autònoma de Barcelona
Department:
Year: 2015
Keywords: Etracció de l'estructura de documents; Etracción de la estructura de documentos; Documents structure extraction; Indexació espacial; Indexación espacial; Spatial indexing; Cerca focalitzant; Búsqueda focalizada; Focusel retrieval; Tecnologies
Record ID: 1128959
Full text PDF: http://hdl.handle.net/10803/288294


Abstract

Aquesta tesi doctoral presenta un marc de treball genèric per a la cerca de documents digitals partint d'un document de mostra de referencia, on el criteri de similitud pot ser tant a nivell de pàgina com a nivell de subparts d'interès. Combinem la tècnica d'indexació estructural amb correspondències entre parells de regions locals d'interès, on aquestes contenen informació tant estructural com visual, i detallem la combinació adient usada d'aquests dos tipus d'informació per ser usada com a únic criteri de similitud a l'hora de fer la cerca. Donat que l'estructura d'un document està lligada a les distàncies entre els seus continguts, d'entrada presentem un detector eficient que anomenem Distance Transform based Maximally Stable Extremal Regions (DTMSER). El detector proposat és capàs d'extreure eficientment l'estructura del document en forma de dendrograma (arbre jeràrquic) de regions d'interès a diferents escales, les quals guarden una gran similitud amb els caracters, paraules i paràgrafs. Els experiments realitzats proven que l'algorisme DTMSER supera els mètodes de referència, amb l'avantatge de requerir menys regions d'interès. A continuació proposem un mètode basat en parells de descriptors Bag‐of‐Words (BoW) que permet representar el dendrograma descrit anteriorment i resultat de l'algorisme DTMSER. El nostre mètode consisteix en representar cada document en forma de llista de parelles de regions d'interès, on cada parella representa una aresta del dendograma i defineix una relació d'inclusió entre ambdues regions. L'histograma de característiques és generat a partir de les parelles de regions d'interès, de manera que el mètode proposat reflecteix la inclusió de regions. Els experiments realitzats demostren que el nostre mètode supera àmpliament altres variants exteses de BoW com poden ver les convencionals o les espacio‐piramidals. Per tal d'englobar diferents situacions on es pot requerir una la cerca de documents digitals, proposem usar directament parelles de regions d'interès, les quals inclouen informació tant estructural com visual. Amb aquest objectiu introduim en aquest camp tècniques d'indexació estructural per millorar el temps de càlcul de les similituds de parelles de regions. Apliquem la nostra proposta al cas de cerques de pàgines senceres, on té més pes la similitud estructural. Els experiments corresponents mostren que la nostra proposta supera la majoria de mètodes BoW de referència. La nostra proposta presenta un clar avantantge: podem fer cerques de subparts de documents. Apliquem el nostre mètode en la cerca de subparts en dos casos: prioritzant la similitud estructural i mantenint estructura y aparença similars . Els resultats obtinguts en els experiments són excel∙lents en tots dos casos. Donat que el nostre mètode té el valor afegit de ser el primer marc de treball capàs de realizar cerques de subparts, podem afirmar que és mereixedor de formar part de l’estat de l’art en el camp de cerques. També proposem un mètode de verificació de línies per comprovar la consistència espacial dels…