Les cahiers du CREAD
Volume 36, Numéro 4, Pages 141-169
2020-11-25

Des Facteurs De Risque à La Prediction Du Diabète Non Insulino-dependant En Algérie : Une Nouvelle Approche Utilisant Le Data Mining

Auteurs : Lounici Mosbah Nora .

Résumé

Objectif : l’objectif de ce travail est d’utiliser le data mining pour extraire, d’une part les principaux facteurs de risque du diabète Type 2 et d’autre part apporter une aide à la décision au praticien pour la prédiction de la survenue de la maladie par l’élaboration d’équations et de règles prédictives. Méthodes : Nous avons mené une étude prospective recensant 134 patients sur une période de trois mois. Un questionnaire a été utilisé pour collecter des informations. Les patients que nous avons retenus pour l’étude sont de nouveaux cas qui viennent se faire dépister. Il s’agit de personnes âgées de 33 à 79 ans. Des données sociodémographiques, cliniques, et les facteurs de risque associés ont été recueillis. Deux modèles d’apprentissage supervisés : les arbres de décision et le bayésien Naif ont été appliqués. L'étude compare l'efficacité des deux modèles pour prédire d’une part les facteurs de risque potentiels et d’autre part contribuer à l’élaboration de modèles prédictifs et de courbes ROC. Le traitement des données et l’analyse statistique ont été réalisés avec des logiciels de data mining et XLSTAT. Résultats : 134 malades ont été inclus dans cette étude dont 87 femmes et 47 hommes soit un ratio de 0,54. L'âge médian était de 55 ans et le poids médian de 84kg. L’IMC moyen est de 32,21 avec un écart-type de 3,96. Nos résultats concordent avec ceux de la littérature : l’indice de masse corporelle (IMC) correspond au facteur de risque dominant favorisant le diabète type 2, les personnes ayant un taux de cholestérol supérieur à la médiane sont plus susceptibles de contracter la maladie, l’âge (la tranche d'âge la plus touchée est celle des 50-70 ans), la sédentarité, due essentiellement aux mau-vaises habitudes alimentaires et à l’insuffisance d’activité physique. L’étude de classification par les deux modèles a donné une précision de classification de 94. 5% pour les arbres de décision et de 96,47% pour la classification bayésienne. Les différentes évaluations des modèles ont montré que la démarche proposée est très efficace et augmente la performance en classification. Conclusion : En analyse univariée, sept variables étaient pertinentes (Sexe, l’âge, l’IMC, le taux de cholesterol, l’HTA, l’activité physique et les antécédents familiaux). L’analyse multivariée a montré que la masse corporelle et l’activité physique représentent les principaux facteurs de risque du diabète non insulino-dépendant dans notre jeu de données et à un degré moindre l’âge et le taux de cholestérol. Les deux modèles présentent pratiquement les mêmes performances. Le plus prédictif des deux modèles étant les arbre de décision, avec une aire sous la courbe ROC de 0,964, un taux d’erreur estimé à 10 ,44% et une capacité à détecter les vrais diabétiques de 90,5%.

Mots clés

MOTS CLES: Diabète, facteurs de risque, prédiction, Data Mining, classification, arbres de décision, Classifieur Bayésien naïf.