1 Graines (5 points)
1. Le protocole d’évaluation employé est-il pertinent ?
L’évaluation est répétée un grand nombre de fois, ce qui permet d’avoir confiance dans les valeurs retournées. Néanmoins,
il peut y avoir un biais dû à la faible taille de l’ensemble d’apprentissage par rapport à l’ensemble de données complet (un
peu plus d’un tiers). On ne connais donc pas l’efficacité des méthodes avec un ensemble d’apprentissage de plus grande
taille.
2. Quelles sont les méthodes les plus efficaces ?
Le taux de succès le plus élevé est obtenu avec les méthodes ADL et AFD. Ce sont donc les méthodes les plus efficaces.
La régression logistique et le perceptron multi-couches sont un peu inférieurs.
3. L’Analyse Discriminante Linéaire et l’Analyse Factorielle Discriminante ont-elles obtenus des résultats proches ou diffé-
rents ? Expliquer ce résultat.
Ces deux méthodes ont obtenu le même résultat. Ceci était prévisible, car la proportion des trois classes est identique dans
l’ensemble de données.
4. Expliquer les résultats obtenus par RL et MLP par rapport à ceux obtenus par ADL et AFD. Faire de même pour NB et
CART par rapport à l’ADL et l’AFD.
Les résultats plus faibles de RL et MLP peuvent s’expliquer par la faible taille de l’ensemble de données. Pour vérifier cette
hypothèse, il faudrait tester les méthodes avec un ensemble de données plus grand. Pour NB, le résultat peut s’expliquer
par des corrélations entre les variables. Un calcul statistique est nécessaire pour vérifier cette hypothèse. Pour CART, le
résultat peut s’expliquer par la séparation entre les classes qui est à peu près linéaire, mais pas orthogonale aux axes. Un
affichage des données sur graphique permettrait de vérifier cela.
3 Ronflement (5 points)
1. Quels semblent être les facteurs provoquant le ronflement ?
Les facteurs qui apparaissent le plus dans les règles qui prédisent le ronflement sont : un âge supérieur à 50 ans, une taille
supérieur à 185 cm et le sexe masculin de l’individu (on peut éventuellement rajouter un poids supérieur à 90 kg).
2. Que peut-on dire des règles qui prédisent le ronflement d’un individu ? Et de celles qui prédisent le non ronflement ?
Les règles qui prédisent le ronflement ont une confiance faible (entre 0, 6 et 0, 7). Au contraire, les règles qui prédisent une
absence de ronflement ont une confiance très forte (plus de 0, 9). Les règles indique donc une augmentation du risque de
ronflement, mais ne sont pas assez précise pour prédire efficacement quels individus ronflent.
3. Quelle méthode permet de réaliser les meilleurs prédictions ?
La méthode Apriori a le meilleur taux de succès (et donc les meilleurs prédictions).
4. Quelle méthode produit le modèle le plus intelligible ?
La méthode CART produit un modèle très simple avec une seule règles qui s’applique à tous les cas. Mais celle-ci n’apporte
qu’une seule information : la majorité des individus ne ronflent pas. On peut alors considérer Apriori comme un modèle
plus intelligible car il distingue les cas de ronflement et de non ronflement.
Bonus (1 point)
Quelles méthodes de classification supervisée seraient-il préférable d’utiliser pour analyser les données sur la colonne verté-
brale ?
La classe SL semble être linéairement séparable des deux autres classes. Il conviendrait donc de tester en premier lieu des
méthodes linéaires, en particulier l’AFD afin d’observer les données selon un autre angle que celui de l’ACP. Si les méthodes
linéaires ne sont pas suffisamment efficaces, des méthodes non linéaires comme SVM ou MLP devront être testées.