AbstractsComputer Science

Useright: a framework for data quality management in crowdsourcing systems

by Mohitkumar Shah




Institution: McGill University
Department: School of Computer Science
Degree: MS
Year: 2014
Keywords: Applied Sciences - Computer Science
Record ID: 2042983
Full text PDF: http://digitool.library.mcgill.ca/thesisfile127253.pdf


Abstract

There are many problems which cannot be solved by machines, we still need help from people who are intelligent and have skills to solve those problems. Crowdsourcing is the field which uses the skills of people to work on complex problems. In the past decade, many crowdsourcing systems were developed and it is still a growing field among companies and researchers. Though there are many advantages to crowdsourcing, they still lack proper data quality measures. We enumerate the factors that can lead to different data quality problems in crowdsourcing systems. We present a general model for crowdsourcing and talk about different crowdsourcing systems using that general model. This thesis also discusses the classification of crowdsourcing systems using different data quality perspectives.To tackle the data quality problems, we describe the Useright Framework that provides a certification scheme for words and phrases in the document. In this framework, an author publishes documents using credentials obtained from one or more Useright granting institutes. An author asks an institute to provide Useright permissions for a collection of words and phrases that author has chosen. To keep the author's identity private and to check anonymity of author while reading, we introduce the cheap verification scheme. The Useright score for institute is used to increase the believability of document. We provide a design for an extended Useright Framework where an author can edit another author's document using his/her own Useright words and phrases. To evaluate the Useright Framework, we carried out a survey study on Amazon Mechanical Turk, where users were asked to estimate the data quality factors for different documents that were presented in different ways. Il y a beaucoup de problèmes qui ne peuvent être résolus par des machines; nous aurons besoin de l'intelligence humaine pour les résoudre. Crowdsourcing est un domaine, qui utilise les compétences des personnes pour travailler sur des problèmes complexes. Dans la dernière décennie, de nombreux systèmes de crowdsourcing ont été développés et il est encore un domaine de recherche par les entreprises et les chercheurs. Malgré les nombreux avantages de crowdsourcing qui existent, ils n'ont toujours pas les mesures appropriées de la qualité des données. Nous énumérons les facteurs qui peuvent diriger vers différents problèmes de qualité des données dans les systèmes de crowdsourcing. Nous présentons un modèle général pour le crowdsourcing et parlons de différents systèmes de crowdsourcing qui utilisent ce modèle général. Cette thèse aborde également la classification des systèmes de crowdsourcing en assimilant différents points de vue de la qualité des données.Pour traiter les problèmes de qualité de données, nous décrivons la structure Useright qui fournit un programme de certification pour des mots et des phrases dans le document. Dans cette structure, un auteur publie des documents en utilisant les informations d'identification obtenues à partir d'un ou plusieurs instituts qui…