AbstractsComputer Science

Smirking or Smiling Smileys?

by Elias Lousseief




Institution: KTH Royal Institute of Technology
Department:
Year: 2015
Keywords: Natural Sciences; Computer and Information Science; Computer Science; Naturvetenskap; Data- och informationsvetenskap; Datavetenskap (datalogi)
Record ID: 1328544
Full text PDF: http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-166432


Abstract

Machine Learning classifiers are commonly used for the purpose of Sentiment Analysis. These classifiers use annotated training data from which they learn to predict the sentiment of texts, for example whether a text conveys a positive or a negative sentiment. In this thesis we compare the performance of two sources of training data for the purposes of sentiment classification on Twitter: (i) tweets annotated by hand of a fixed quantity (about 2000 tweets) and (ii) tweets annotated automatically by an emoticon heuristic of increasing quantity (from 2000 tweets to 1.6 million tweets). The performance of these training sets are evaluated by training commonly used classifiers (Naive Bayes, Support Vector Machines and Maximum Entropy) and comparing the classification accuracy of the different data sets on a test set annotated by hand. These tests are made with varying use of n-gram models (unigrams, bigrams, and a combination of both) and the varying use of a stop word filter. We show that while the hand-annotated training set performs well in equally sized training sets, the automatically annotated training set exceeds the accuracy of the hand-annotated training set in all test setups but one when 1.6 million automatically annotated tweets are used for training. ; Maskininlärningsalgoritmer används ofta för att utföra analys av känslomassig inställning; sentimentsanalys. Dessa algoritmer använder annoterad träningsdata för att lära sig att klassificera texter efter exempelvis huruvida de speglar ett positivt eller negativt sentiment. I den här uppsatsen företas sentimentsanalys av data från Twitter varvid effektiviteten utvärderas med avseende på två typer av träningsdata: (i) en fix mängd tweets som annoterats för hand (cirka 2000 tweets) och (ii) olika mängder tweets som genomgått automatisk annotering av en heuristik baserad på emoticons (från 2000 till 1.6 miljoner tweets). Effektiviteten som träningsdata hos dessa dataset har utvärderats genom att träna vanliga maskininlärningsalgoritmer (Naive Bayes, Support Vector Machines och Maximum Entropy) vartefter jämförelser gjorts av hur väl de lyckats klassificera ett set med testdata som annoterats för hand. Testerna har gjorts med olika typer av n-gram (unigram, bigram samt kombinationen av dessa) samt valbar inkludering av ett filter med stoppord. I studien framkommer att träningsdata annoterad för hand presterar bra i jämförelse med annoteringar som gjorts heuristiskt förutsatt att dataseten är av samma storlek. Då omfattningen av den heuristiskt annoterade träningsdatan växer förbättras dock förmågan till korrekta klassificeringar, och när storleken uppgår till 1.6 miljoner tweets ger användning av handannoterad träningsdata bättre resultat i endast ett fall av de testupptällningar som använts.