AbstractsBiology & Animal Science

Privacy protection methods for documents and risk evaluation for microdata

by Daniel Abril Castellano




Institution: Universitat Autònoma de Barcelona
Department:
Year: 2015
Keywords: Data privacy; Privacitat de les dades; Privacidad de los datos; Document sanitzation; Sanització de documents; Sanitización de documentos; Record linkage; enllaç de registres; enlace de registros; Tecnologies
Record ID: 1127000
Full text PDF: http://hdl.handle.net/10803/285353


Abstract

La capacitat de recollir i emmagatzemar informació per agencies d'estadística, governs o individus ha creat grans oportunitats d'anàlisi de les dades i la creació de models basats en el coneixent. A més, amb el creixement d'Internet moltes companyies han decidit canviar els seus antics models de negoci per uns basats en la venta i l'explotació de les dades personals, les qual en molts dels casos contenen informació confidencial. Aquest fet ha creat la necessitat de desenvolupar mètodes per a la difusió de dades amb contingut confidencial amb fins de mineria de dades, assegurant que la informació confidencial no pugui ser vinculada als individus als qual pertanyen. D'aquesta manera, les dades prèviament protegides poden ser transferides, publicades o venudes a terceres parts assegurant la confidencialitat dels individus que hi apareixen i a la vegada sent útils per aquells que les vulguin analitzar. Una àrea d'aplicació molt clara són els documents de text els quals avui dia omplen la major part de la xarxa. Els documents de text són especialment difícils de protegir. A causa de la seva complicada estructura és difícil detectar les parts que poden contenir informació sensible. En aquesta tesi s'ha distingit dos models diferents de protecció de documents. Per una banda, s'ha considerat la protecció de col·leccions de documents, de manera que aquests conjunts de textos puguin ser analitzats utilitzant tècniques clàssiques de mineria de textos i d'aprenentatge automàtic. Per l'altra banda, s'ha considerat la protecció individualitzada de cada document. La sanitització de documents és el procés habitual mitjançant el qual les parts sensibles o confidencials d'un text són detectades i eliminades. L'aplicació manual d'aquesta tècnica és molt habitual per a la declassificació i possible difusió de documents governamentals confidencials. D'aquesta manera, els governs demostren que estan a favor del dret a la llibertat d'informació, mentre que la seguretat nacional no es veu compromesa. Aquesta tesi presenta un conjunt de proteccions i avaluacions per a la protecció de textos. A més, introdueix un mètode d'aprenentatge supervisat per l'avaluació del risc de revelació per mètodes de protecció de microdades. Les principals contribucions d'aquesta tesi són les següents: * El desenvolupament d'un mètode semiautomàtic per ajudar a la declassificació de documents confidencials. * La formalització de mesures específiques per a l'avaluació del risc de revelació i la informació perduda en aplicar mètodes de protecció per sanitització. * El desenvolupament de dos mètodes basats en el principi de k-anonimitat per la protecció de col·leccions de documents representades com un model d'espai vectorials. El primer mètode explota la distribució dels vectors mentre que el segon es basa en les possibles relacions semàntiques dels vectors de paraules. * L'estudi de mètodes avançats per avaluar el risc de revelació d'informació sensible sobre microdades després de ser protegides. En particular, es proposa un mètode d'aprenentatge supervisat…