AbstractsBusiness Management & Administration

Abstract

Plusieurs grandes entreprises stockent des volumes importants de données d’affaires dans des entrepôts de données. Ces entrepôts de données contiennent des tables de faits, qui elles mêmes contiennent des rangées représentant des évènements d’affaires, comme une vente ou une livraison. Ces données comprennent plusieurs dimensions (variables indépendantes et catégoriques) et fréquemment plusieurs mesures (variables dépendantes et habituellement continues), ce qui rend ardue la tâche d’analyser et de visualiser ces types de données par des utilisateurs non-experts. Nous proposons deux techniques, GPLOM et VisReduce, qui gèrent respectivement la visualisation de jeux de données complexes et le traitement nécessaire à la visualisation de jeux de données volumineux. Les matrices de nuages de points (Scatter PLOt Matrices, ou SPLOMs), les coordonnées parallèles et les glyphes peuvent être utilisés pour visualiser plusieurs mesures dans les jeux de données multidimensionnels multivariés. Cependant, ces techniques ne sont pas efficaces pour la visualisation de plusieurs dimensions. Pour visualiser plusieurs dimensions, des axes hiérarchiques qui imbriquent les dimensions ont été utilisés dans des systèmes comme Polaris et Tableau. Cependant, cette approche fonctionne mal lorsqu’appliquée à plus que quelques dimensions. Emerson et al. (2013) étend le paradigme de la SPLOM pour visualiser simultanément plusieurs variables catégoriques et continues, affichant plusieurs types de graphiques dans la matrice selon la combinaison de variables impliquées. Nous proposons une variante de leur technique, appelée la matrice de graphiques généralisée (Generalized PLOt Matrix, ou GPLOM). La GPLOM restreint la technique d’Emerson et al. (2013) pour n’utiliser que trois types de graphiques (des nuages de points pour les paires de variables continues, des thermogrammes pour les paires de variables catégoriques et des graphiques à bâtons pour les paires de variables continues et catégoriques) afin de la rendre plus accessible à des utilisateurs non-experts. En même temps, la GPLOM augmente le travail d’Emerson et al. (2013) en démontrant des techniques d’interaction appropriées à la matrice de graphiques. Nous discutons du design visuel et des fonctionnalités interactives de notre prototype de la GPLOM, entre autres une fonctionnalité de recherche textuelle qui permet aux utilisateurs de chercher des valeurs et des variables par nom. Nous présentons aussi une expérience contrôlée avec des utilisateurs qui compare la performance de Tableau et de notre prototype de la GPLOM qui démontre que la GPLOM est significativement plus rapide dans certains cas et non significativement plus lente dans d’autres cas. Aussi, la performance et la rapidité de réponse des systèmes d’analyse visuels pour l’exploration de jeux de données volumineux est un problème connu et identifié comme un problème imporX tant pour la communauté de visualisation, problème auquel la GPLOM n’échappe pas. Nous proposons alors une technique appelée VisReduce qui calcule…