Revue de l'Information Scientifique et Technique
Volume 17, Numéro 2, Pages 73-80
2007-06-19

Etude De Cas En Web Usage Mining : Catégorisation Des Utilisateurs De La Connexilon Internet De L’uatl

Auteurs : Ziani B.* . Ouinten Y.* .

Résumé

Dans ce travail nous nous intéressons à l’analyse du comportement des utilisateurs de la connexion Internet de l’UATL via un clustering. Par cette expérimentation, nous voulons confirmer (ou infirmer) l’hypothèse que le comportement d’un utilisateur est lié à son profil à savoir enseignant, étudiant, ou personnel administratif. L’exploration des fichiers log des différents serveurs proxy de l’UATL nous a permis dans un premier temps de décrire les utilisateurs par différents attributs liés à leur activité tels que le temps de navigation, le temps de téléchargement, le volume des données échangées, ...etc. Un premier clustering a été réalisé à l’aide de l’algorithme K-means implémenté dans la plate forme WEKA[9]. Les résultats obtenus ne montrent aucune différence significative dans le comportement chez l’ensemble des utilisateurs. Ayant remarqué un taux d’erreurs (instances mal classées) élevé (environ 56.98%), nous voulions confirmer ce résultat en utilisant l’algorithme EM. Les études consultées montrent que souvent EM arrive à des résultats meilleurs que K-means. Le taux d’erreurs obtenu avec EM est légèrement inférieur, mais reste significatif (environ 52.62%). La composition des clusters trouvés ainsi que le taux d’erreurs obtenus dans les deux expérimentations confirment que le comportement des utilisateurs est indépendent de leurs profils. notre a des aspects positifs et négatifs, nous essayerons de maximiser les premiers et de minimiser les seconds. Les performances de l’approche sont évaluées par la classification des images, issues du satellite Landsat 5 TM, de la région Ouest d’Oran en Algérie.

Mots clés

Fouille de données (Data mining), Fouille de Web (Web mining), Clustering, K-means, EM, Weka