AbstractsComputer Science

Analýza sociálních sítí využitím metod rozpoznání vzoru

by Viliam Križan




Institution: Brno University of Technology
Department:
Year: 0
Keywords: emoce; rozpoznávaní textu; analýza emócii; data mining; twitter; tweety; sociální sítě; Python; SVM; Scikit; emotions; text recognition; emotional analysis; data mining; twitter; tweets; social media; Python; SVM; Scikit
Record ID: 1097338
Full text PDF: http://hdl.handle.net/11012/39966


Abstract

Diplomová práca sa zaoberá rozpoznávaním emócií z textu v sociálnych sieťach. Práca popisuje súčasné metódy extrakcie príznakov, používané lexikóny, korpusy a klasifikátory. Emócie boli rozpoznávané na základe klasifikátoru, netrénovaného na anotovaných dátach z mikroblogovacej siete Twitter. Výhodou použitia služby Twitter, bolo geografické vymedzenie dát, ktoré umožňuje sledovanie zmien emócií populácie v rôznych mestách. Prvým prístupom klasifikácie bolo vytvorenie Baseline algoritmu, ktorý používal jednoduchý lexikón. Pre zlepšenie klasifikácie sme v druhom bode použili komplexnejší SVM klasifikátor. SVM klasifikátory, extrakcie a selekcie príznakov boli použité z dostupnej Python knižnice Scikit. Dáta pre natrénovanie klasifikátoru boli zhromažďované z oblasti USA, a to s pomocou vytvorenej aplikácie. Klasifikátor bol natrénovaný na dátach, označených pri ich zhromažďovaní - bez manuálnej anotácie. Boli použité dve rôzne implantácie SVM klasifikátorov. Výsledné klasifikované emócie, v rôznych mestách a dňoch, boli zobrazené v podobe farebných značiek na mape.; The diploma thesis deals with emotion recognition from texts on social media. The state-of-the-art methods of feature extraction, corpora and classifiers are described in the first section. Emotions are recognized by a classifier trained on annotated data from the microblog network Twitter. The advantage of using Twitter was the possibility to specify data collection to a certain geographical location. Geographical data allows to monitor emotional variations of population, for e.g. in different cities. The first task was to propose and develop a Baseline algorithm which classifies data to emotional classes. The classification accuracy is improved by employing a more complex SVM classifier. SVM classifiers, feature vectorizers and feature selectors are used from the Scikit library, which is written in Python. The data for classifier training were collected from the USA by the own developed mining application. The classifier are trained on data automatically annotated in the collection process. Two implementations of SVM classifiers are used. Final classified emotions that appear in different cities and in different time intervals are displayed as color markers on a map.