Revue de l'Information Scientifique et Technique
Volume 14, Numéro 2, Pages 114-130
2004-11-04

Data Mining Spatial Un Problème De Data Mining Multi-tables

Auteurs : Chelghoum Nadjim . Zeitouni Karine .

Résumé

La principale caractéristique du data mining spatial est qu’il considère les relations spatiales. Ces relations sont à l’origine implicites et nécessitent des jointures spatiales complexes et coûteuses sur des critères spatiaux pour être exhibées. Nous avons proposé dans nos travaux antérieurs de les rendre explicites en utilisant une structure secondaire dite ²index de jointure spatiale² Erreur ! Source du renvoi introuvable.. L’idée est de pré-calculer les relations spatiales exactes entre les localisations de deux collections d’objets spatiaux et de les stocker dans une table secondaire de type (objet1, objet2, relation spatiale). Dès lors, les relations spatiales sont traduites dans un schéma relationnel classique et les jointures spatiales s’expriment par des jointures relationnelles via l’index de jointure spatiale. Outre le fait que cette jointure via l’index est bien plus performante qu’une jointure spatiale, cette organisation relationnelle ramène la data mining spatial à un cadre plus général, dit data mining multi-tables. Contrairement au data mining classique où les données en entrée sont représentées dans une table unique où chaque tuple constitue une observation à analyser, la data mining multi-tables traite des données organisées dans plusieurs tables et exploite les liens logiques entre ces tables. Pour résoudre ce problème multi-tables et pour faire du data mining spatial, nous proposons, dans cet article, une approche en deux étapes. La première étape transforme, grâce à un opérateur CROISEMENT que nous proposons, la structure multi-tables des données en une table unique tout en gardant des informations sur le voisinage et les relation spatiales. L’idée de cet opérateur est de compléter, et non de joindre, la table à analyser par les données présentes dans les autres tables. La seconde étape applique une méthode traditionnelle de data mining. Cet article présentera cette approche et cet opérateur. Il décrira leur application à la classification supervisée par arbre de décision spatial et il présentera les expérimentations réalisées et les résultats obtenus sur l’analyse du risque d’accident routiers.

Mots clés

Arbre de décision spatial, Bases de données spatiales, Data mining multi-tables, Data mining spatial, Relation spatiale