Objectifs


Le programme de QDC 2008 est disponible (10/01/2008).

Après le succès des trois premières éditions de l’atelier Qualité des Données et des Connaissances - QDC 2005 à Paris, QDC 2006 à Lille et QDC 2007 à Namur, en conjonction avec les conférences EGC 2005, 2006 et 2007– nous proposons d’organiser la quatrième édition de l’atelier QDC à Nice en conjonction avec la 8e Conférence Extraction et Gestion des Connaissances (29 janvier au 1er février 2008, Nice, France).

L’atelier QDC 2008 se déroulera la journée du 29 janvier.

Cet atelier se concentre sur les méthodes, et les techniques d’analyse et d’évaluation de qualité au sens large, en fouille de données et en gestion des connaissances. On s’intéressera ainsi à la qualité des données (nettoyage des données, méthodologies de prétraitement, métriques d’évaluation et approches algorithmiques), à l’évaluation de la qualité des modèles en fouille de données (méthodes, algorithmes, et études sur les mesures d’intérêt, agrégation de préférences, classification des connaissances, post-traitement des résultats) et gestion des connaissances (qualité des ontologies, qualité des alignements, analyse des usages).

Les problèmes de qualité des données stockées dans les bases, les entrepôts ou puits de données s’étendent à tous les domaines d’application qu’elles soient gouvernementales, commerciales, industrielles ou scientifiques. La découverte de connaissances et la prise de décision à partir de données de qualité médiocre (c’est-à-dire contenant des erreurs, des doublons, des incohérences, des valeurs manquantes, etc.) ont des conséquences directes et significatives pour les entreprises et pour tous leurs utilisateurs. Pour cela, le thème de la qualité des données et des connaissances est devenu depuis ces dernières années, à la fois un des sujets d’intérêt émergent dans le domaine de la recherche et critique dans les entreprises.

Toutes les applications dédiées à l’analyse des données (telles que la fouille de données textuelles par exemple) requièrent différentes formes de préparation des données avec de nombreuses techniques de traitement, afin que les données passées en entrée aux algorithmes de fouille se conforment à des distributions relativement « sympathiques », ne contenant pas d’incohérences, de doublons, de valeurs manquantes ou incorrectes. Seulement, entre la réalité des données disponibles et toute la machinerie permettant leur analyse, un assez vaste fossé demeure.

In fine, l’évaluation des résultats issus du processus de traitement des données, est généralement effectuée par un spécialiste (expert, analyste,...). Cette tâche de post-traitement est souvent très lourde et un moyen de la faciliter consiste à aider le spécialiste en lui fournissant des critères de décision sous la forme de mesures de qualité ou d’intérêt des résultats. Ces mesures de qualité des connaissances doivent être conçues afin de combiner deux dimensions : une dimension objective liées à la qualité des données et une dimension subjective liées aux intérêts du spécialiste.

Enfin, les techniques de fouilles de données étant destinées à produire des modèles de connaissances pertinents pour les décideurs, elles rejoignent les problématiques de gestion de connaissances dont l’objectif est de produire des modèles de connaissances. Bien que les techniques utilisées dans ces deux domaines soient très différentes, elles partagent une préoccupation commune d’évaluation de la qualité des modèles produits. Nous proposons donc d’ouvrir ce thème de la qualité au domaine de la gestion et de l’ingénierie des connaissances.

Nous encourageons la soumission d’articles de recherche et d’études de cas industriels liés à tous les aspects de la qualité des données et des connaissances au sens large, de la préparation des données, de leur nettoyage à leur analyse et à l’évaluation des résultats et des modèles.