Вы находитесь на странице: 1из 4

Fouille de données

Master 2 Informatique Décisionnelle


Examen
19 décembre 2017
Durée : 2 h 00

Indications générales
Lire le sujet en entier avant de commencer
Les documents sont autorisés
Les téléphones portables et autres moyens de communication sont strictement interdits
Toutes les réponses doivent être justifiées

1 Graines (5 points)
Analyses
On considère un ensemble de données portant sur trois variétés de graines de blé : Kama, Rosa et Canadien.
Pour chaque classe 70 observations ont été étudiées à l’aide de rayons X. Sept descripteurs géométriques ont
été extraits : aire, périmètre, compacité, longueur, largeur, coefficient d’asymétrie et longueur du sillon.
Sur ces données ont été appliquées diverses méthodes de classification supervisée : k-NN, NB, ADL, AFD,
RL, CART, MLP. L’évaluation de l’efficacité des méthodes s’est faite selon le protocole suivant : un sous-
ensemble de 150 observations a été choisi aléatoirement et a servi à la création des modèles de classification,
puis les modèles ont été appliqués aux 60 observations restantes et les prédictions obtenues ont été comparées
aux classes réelles selon le taux de succès ; l’opération a été répétée 100 fois et on a conservé la moyenne des
taux de succès.
Algorithme Taux de succès moyen
k-NN 0, 81
NB 0, 82
ADL 0, 93
AFD 0, 93
RL 0, 89
CART 0, 83
MLP 0, 89

Questions
1. Le protocole d’évaluation employé est-il pertinent ?
2. Quelles sont les méthodes les plus efficaces ?
3. L’Analyse Discriminante Linéaire et l’Analyse Factorielle Discriminante ont-elles obtenus des résultats
proches ou différents ? Expliquer ce résultat.
4. Expliquer les résultats obtenus par RL et MLP par rapport à ceux obtenus par ADL et AFD. Faire
de même pour NB et CART par rapport à l’ADL et l’AFD.
2 Données artificielles (5 points)
Analyses
On considère un ensemble de données synthétiques. Cet ensemble comporte trois variables explicatives
(a, b et c) et une variable expliquée (y), toutes numériques. On a réalisé une régression linéaire et appliqué la
méthode SVR avec un noyau linéaire et radial. Les méthodes ont été évaluées par bootstrap (100 fois) selon
le coefficient de détermination R2 . Les résultats ont été : 0, 016 pour la régression linéaire, 0, 015 pour SVR
(linéaire) et 0, 994 pour SVR (radial).
On a ensuite fait une sélection de variables de façon exhaustive, en utilisant l’indice BIC. On a également
réalisé une régression linéaire avec une seule variable à la fois. Le même protocole d’évaluation a donné :
−0, 012 pour la variable a, 0, 030 pour la variable b et −0, 018 pour la variable c.

−8.1
bic

−2.5

3.7
(Intercept)

Enfin, nous avons comparé les résidus normalisés avec les quatre variables (a, b, c et y).
2

2
1

1
Résidus

Résidus
0

0
−1

−1
−2

−2

−10 −5 0 5 10 −10 −5 0 5 10

a b
2

2
1

1
Résidus

Résidus
0

0
−1

−1
−2

−2

−10 −5 0 5 10 0 20 40 60 80 100

c y

Questions
1. Parmi les méthodes évaluées, quelle est la plus efficace ? Que peut-on en déduire ?
2. Le résultat de la sélection de variable est-il conforme avec les modèles obtenus avec une seule variable ?
3. Que peut-on dire des résidus ?
4. Quelle autre méthode serait-il intéressant d’employer ?
3 Ronflement (5 points)
Analyses
On considère un ensemble de données qui est issu d’une étude du CHU d’Anger sur le ronflement. Les
attributs sont décrits sept variables : l’âge (trois catégories d’âge), le poids (trois catégories), la taille (quatre
catégories), la consommation d’alcool (quatre catégories), le sexe, la consommation de tabac (deux catégories)
et la propension à ronfler (variable cible, deux modalités).
On souhaite étudier ces données avec la méthode Apriori. On a fixé le support à 0, 1 et la confiance à 0, 6,
ce qui permet d’extraire 491 règles. L’étude concernant le ronflement, on se limite aux règles permettant de
prédire la propension d’une personne à ronfler, il reste alors 83 règles. On choisit d’afficher les dix règles qui
sont le mieux évaluées selon le lift.

Règle Support Confiance


Âge=51+ ans, Taille=186-200 cm, Sexe=Homme ⇒ Ronfle=Oui 0, 11 0, 69
Âge=51+ ans, Poids=91+ kg, Taille=186-200 cm, Sexe=Homme ⇒ Ronfle=Oui 0, 11 0, 69
Âge=51+ ans, Alcool=3-6 verres, Sexe=Homme ⇒ Ronfle=Oui 0, 10 0, 62
Âge=51+ ans, Taille=186-200 cm ⇒ Ronfle=Oui 0, 14 0, 61
Âge=51+ ans, Poids=91+ kg, Taille=186-200 cm ⇒ Ronfle=Oui 0, 14 0, 61
Poids=66-90 kg, Alcool=0-2 verres, Sexe=Homme ⇒ Ronfle=Non 0, 10 1, 0
Taille=150-170 cm, Alcool=0-2 verres ⇒ Ronfle=Non 0, 14 0, 94
Poids=66-90 kg, Alcool=0-2 verres ⇒ Ronfle=Non 0, 14 0, 93
Âge=51+ ans, Alcool=0-2 verres, Tabac=Oui ⇒ Ronfle=Non 0, 12 0, 92
Poids=66-90 kg, Taille=150-170 cm, Alcool=0-2 verres ⇒ Ronfle=Non 0, 11 0, 92

On a évalué par bootstrap (avec 200 échantillonnages) le taux de succès de la méthode Apriori (0, 64) ainsi
que des méthodes de classification CART (0, 61) et NB (0, 58). La méthode CART ne produit qu’une règle :
toujours prédire Non.

Questions
1. Quels semblent être les facteurs provoquant le ronflement ?
2. Que peut-on dire des règles qui prédisent le ronflement d’un individu ? Et de celles qui prédisent le
non ronflement ?
3. Quelle méthode permet de réaliser les meilleurs prédictions ?
4. Quelle méthode produit le modèle le plus intelligible ?

4 Colonne vertébrale (5 points)


Analyses
On considère un ensemble de données constitué par Henrique da Mota à Lyon. Les données portent sur
des problèmes concernant la colonne vertébrale : il y a 100 patients sains, 60 atteints d’une hernie discale
et 150 patients atteints d’une spondylolisthésis. Les deux derniers groupes peuvent être réunis en un groupe
« anomalie ». Les observations sont caractérisés par six attributs bioméchaniques concernant la forme et
l’orientation des vertèbres.
On affiche les données projetées sur le deux premiers axes factoriels.
N

6
HD
SL

4
2
ACP 2

0
−2
−4
−4 −2 0 2 4 6 8

ACP 1

Des méthodes de classification non supervisée (K-means, méthode de Ward et EM) ont été appliquées
pour découper l’ensemble de donnes en deux ou trois classes. Les groupes obtenus ont été comparés aux
classes réelles en deux classes (« sain » et « anomalie ») ou en trois classes (en séparant les deux types
d’anomalies). L’évaluation a été réalisée selon le taux de succès (une évaluation paire à paire). On observe
également les matrices de confusions entre les classes extraites et les classes réelles.

Algorithme Deux classes Trois classes


K-means 0, 56 0, 65
CAH 0, 5 0, 44
EM 0, 5 0, 79

K-means
K-means
N HD SL
N A
Cluster 1 98 60 38
Cluster 1 99 101
Cluster 2 1 0 111
Cluster 2 1 109
Cluster 3 0 0 1
Ward
Ward
N HD SL
N A
Cluster 1 100 60 96
Cluster 1 100 156
Cluster 2 0 0 53
Cluster 2 0 54
Cluster 3 0 0 1
EM
EM
N HD SL
N A
Cluster 1 91 58 2
Cluster 1 97 139
Cluster 2 9 2 137
Cluster 2 3 71
Cluster 3 0 0 11

Questions
1. Quelle méthode est la plus efficace ?
2. Est-il plus facile de classifier les données en deux classes ou en trois ?
3. Quelles classes semblent les plus difficiles à discriminer ?
4. Décrire les classes extraites par chacune des méthodes et commenter par rapport au taux de succès.

Bonus (1 point)
Quelles méthodes de classification supervisée seraient-il préférable d’utiliser pour analyser les données sur
la colonne vertébrale ?