Abstracts

Extrao de informaes de conferncias em pginas web

by Cssio Alan Garcia




Institution: Universidade do Rio Grande do Sul
Department:
Year: 2017
Keywords: Information Extraction; Banco de dados; Recuperacao : Informacao; Conditional Random Fields; Servios Web
Posted: 02/01/2018
Record ID: 2152060
Full text PDF: http://hdl.handle.net/10183/170942


Abstract

A escolha da conferncia adequada para o envio de um artigo uma tarefa que depende de diversos fatores: (i) o tema do trabalho deve estar entre os temas de interesse do evento; (ii) o prazo de submisso do evento deve ser compatvel com tempo necessrio para a escrita do artigo; (iii) localizao da conferncia e valores de inscrio so levados em considerao; e (iv) a qualidade da conferncia (Qualis) avaliada pela CAPES. Esses fatores aliados existncia de milhares de conferncias tornam a busca pelo evento adequado bastante demorada, em especial quando se est pesquisando em uma rea nova. A fim de auxiliar os pesquisadores na busca de conferncias, o trabalho aqui desenvolvido apresenta um mtodo para a coleta e extrao de dados de sites de conferncias. Essa uma tarefa desafiadora, principalmente porque cada conferncia possui seu prprio site, com diferentes layouts. O presente trabalho apresenta um mtodo chamado CONFTRACKER que combina a identificao de URLs de conferncias da Tabela Qualis identificao de deadlines a partir de seus sites. A extrao das informaes realizada independente da conferncia, do layout do site e da forma como so apresentadas as datas (formatao e rtulos). Para avaliar o mtodo proposto, foram realizados experimentos com dados reais de conferncias da Cincia da Computao. Os resultados mostraram que CONFTRACKER obteve resultados significativamente melhores em relao a um baseline baseado na posio entre rtulos e datas. Por fim, o processo de extrao executado para todas as conferncias da Tabela Qualis e os dados coletados populam uma base de dados que pode ser consultada atravs de uma interface online. Choosing the most suitable conference to submit a paper is a task that depends on various factors: (i) the topic of the paper needs to be among the topics of interest of the conference; (ii) submission deadlines need to be compatible with the necessary time for paper writing; (iii) conference location and registration costs; and (iv) the quality or impact of the conference. These factors allied to the existence of thousands of conferences, make the search of the right event very time consuming, especially when researching in a new area. Intending to help researchers finding conferences, this work presents a method developed to retrieve and extract data from conference web sites. Our method combines the identification of conference URL and deadline extraction. This is a challenging task as each web site has its own layout. Here, we propose CONFTRACKER, which combines the identification of the URLs of conferences listed in the Qualis Table and the extraction of their deadlines. Information extraction is carried out independent from the pages layout and how the dates are presented. To evaluate our proposed method, we carried out experiments with real web data from Computer Science conferences. The results show that CONFTRACKER outperformed a baseline method based on the position of labels and dates. Finaly, the extracted data is stored in a database to beAdvisors/Committee Members: Moreira, Viviane Pereira.