Вы находитесь на странице: 1из 2

Fouille de données

Master 2 Informatique Décisionnelle


Examen (corrigé)
19 décembre 2017

1 Graines (5 points)
1. Le protocole d’évaluation employé est-il pertinent ?
L’évaluation est répétée un grand nombre de fois, ce qui permet d’avoir confiance dans les valeurs retournées. Néanmoins,
il peut y avoir un biais dû à la faible taille de l’ensemble d’apprentissage par rapport à l’ensemble de données complet (un
peu plus d’un tiers). On ne connais donc pas l’efficacité des méthodes avec un ensemble d’apprentissage de plus grande
taille.
2. Quelles sont les méthodes les plus efficaces ?
Le taux de succès le plus élevé est obtenu avec les méthodes ADL et AFD. Ce sont donc les méthodes les plus efficaces.
La régression logistique et le perceptron multi-couches sont un peu inférieurs.
3. L’Analyse Discriminante Linéaire et l’Analyse Factorielle Discriminante ont-elles obtenus des résultats proches ou diffé-
rents ? Expliquer ce résultat.
Ces deux méthodes ont obtenu le même résultat. Ceci était prévisible, car la proportion des trois classes est identique dans
l’ensemble de données.
4. Expliquer les résultats obtenus par RL et MLP par rapport à ceux obtenus par ADL et AFD. Faire de même pour NB et
CART par rapport à l’ADL et l’AFD.
Les résultats plus faibles de RL et MLP peuvent s’expliquer par la faible taille de l’ensemble de données. Pour vérifier cette
hypothèse, il faudrait tester les méthodes avec un ensemble de données plus grand. Pour NB, le résultat peut s’expliquer
par des corrélations entre les variables. Un calcul statistique est nécessaire pour vérifier cette hypothèse. Pour CART, le
résultat peut s’expliquer par la séparation entre les classes qui est à peu près linéaire, mais pas orthogonale aux axes. Un
affichage des données sur graphique permettrait de vérifier cela.

2 Données artificielles (5 points)


1. Parmi les méthodes évaluées, quelle est la plus efficace ? Que peut-on en déduire ?
La méthode SVR avec un noyau radial donne une prédiction très efficace. Les deux autres méthodes ont des performances
très faibles.
2. Le résultat de la sélection de variable est-il conforme avec les modèles obtenus avec une seule variable ?
La sélection de variable indique que la variable b est la plus importante pour la régression linéaire. Un modèle linéaire
simple avec la variable b surpasse bien les autres modèles linéaires, mais avec un résultat toujours très faible.
3. Que peut-on dire des résidus ?
On remarque qu’avec un y petit, les résidus dont plutôt négatifs alors qu’avec un y élevé, les résidus dont plutôt positifs. On
remarque également que les résidus ne sont pas corrélés avec les variables a et b. En revanche, les résidus sont visiblement
corrélés avec la variable c (forme de parabole).
4. Quelle autre méthode serait-il intéressant d’employer ?
Une régression polynomiale de degré 2 devrait permettre d’obtenir une prédiction très efficace, avec un modèle plus intel-
ligible que celui de SVR avec un noyau radial.

3 Ronflement (5 points)
1. Quels semblent être les facteurs provoquant le ronflement ?
Les facteurs qui apparaissent le plus dans les règles qui prédisent le ronflement sont : un âge supérieur à 50 ans, une taille
supérieur à 185 cm et le sexe masculin de l’individu (on peut éventuellement rajouter un poids supérieur à 90 kg).
2. Que peut-on dire des règles qui prédisent le ronflement d’un individu ? Et de celles qui prédisent le non ronflement ?
Les règles qui prédisent le ronflement ont une confiance faible (entre 0, 6 et 0, 7). Au contraire, les règles qui prédisent une
absence de ronflement ont une confiance très forte (plus de 0, 9). Les règles indique donc une augmentation du risque de
ronflement, mais ne sont pas assez précise pour prédire efficacement quels individus ronflent.
3. Quelle méthode permet de réaliser les meilleurs prédictions ?
La méthode Apriori a le meilleur taux de succès (et donc les meilleurs prédictions).
4. Quelle méthode produit le modèle le plus intelligible ?
La méthode CART produit un modèle très simple avec une seule règles qui s’applique à tous les cas. Mais celle-ci n’apporte
qu’une seule information : la majorité des individus ne ronflent pas. On peut alors considérer Apriori comme un modèle
plus intelligible car il distingue les cas de ronflement et de non ronflement.

4 Colonne vertébrale (5 points)


1. Quelle méthode est la plus efficace ?
La méthode k-means est très légèrement plus efficace sur le problème à deux classes (taux de succès légèrement plus élevé).
La méthode EM est nettement plus efficace sur le problème à trois classes.
2. Est-il plus facile de classifier les données en deux classes ou en trois ?
Le taux de succès est plus élevé pour le problème en trois classes. Les classes obtenues sont plus proche de la réalité.
3. Quelles classes semblent les plus difficiles à discriminer ?
En observant la matrice de confusion de EM sur le problème à trois classes (meilleur résultat d’après le taux de succès),
on voit que les classes N et HD sont placées dans le même emphcluster, alors que la classe SL est dans un cluster séparé.
Les classes N et HD sont donc plus difficile à distinguer.
4. Décrire les classes extraites par chacune des méthodes et commenter par rapport au taux de succès.
Dans le problème à deux classes, les trois méthodes produisent à peu près le même résultat : le cluster 2 contient principa-
lement la classe A alors que le cluster 1 contient un mélange des deux classes. Dans le problème à trois classes, pour les
trois méthodes, le cluster 3 est très petit et ne contient que des objets de la classe SL. Le cluster 2 contient principalement
des objets de la classe SL (presque tous pour la méthode EM, d’où le meilleur taux de succès, seulement un tiers pour la
méthode CAH, d’où son faible taux de succès). Le cluster 1 contient un mélange des trois classes (sauf EM, où il y a très
peu d’objets de la classe SL).

Bonus (1 point)
Quelles méthodes de classification supervisée seraient-il préférable d’utiliser pour analyser les données sur la colonne verté-
brale ?
La classe SL semble être linéairement séparable des deux autres classes. Il conviendrait donc de tester en premier lieu des
méthodes linéaires, en particulier l’AFD afin d’observer les données selon un autre angle que celui de l’ACP. Si les méthodes
linéaires ne sont pas suffisamment efficaces, des méthodes non linéaires comme SVM ou MLP devront être testées.

Оценить