Академический Документы
Профессиональный Документы
Культура Документы
Gnralits
Classifier ou estimer Dis moi qui sont tes amis, et je te dirais qui tu es Pas de construction de modle
C'est l'chantillon d'apprentissage, associ une fonction de distance et d'une fonction de choix de la classe en fonction des classes des voisins les plus proches, qui constitue le modle
2
Algorithme
Entre : un enregistrement Y 1. Dterminer les k plus proches exemples de Y en calculant les distances 2. Combiner les classes de ces k exemples en une classe c Sortie : la classe de Y est c(Y)=c
Distance
Le choix de la distance est primordial au bon fonctionnement de la mthode Les distances les plus simples permettent d'obtenir des rsultats satisfaisants (lorsque c'est possible) Proprits de la distance:
d(x,y) = |x-y| ou
d(x,y) = |x-y|/dmax, o dmax est la distance maximale entre deux numriques du domaine considr
7
Donnes binaires : 0 ou 1. On choisit d(0,0)=d(1,1)=0 et d(0,1)=d(1,0)=1. Donnes numratives : la distance vaut 0 si les valeurs sont gales et 1 sinon. Donnes numratives ordonnes : elles peuvent tre considres comme des valeurs numratives mais on peut galement dfinir une distance utilisant la relation d'ordre. Exemple: Si un champ prend les valeurs A, B, C, D et E, on peut dfinir la distance en considrant 5 points de l'intervalle [0,1] avec une distance de 0,2 entre deux points successifs, on a alors d(A,B)=0,2 ; d(A,C)=0,4 ; ... ; d(E,E)=0,2. 8
Soit X = (x1,..., xn) et Y = (y1,..., yn) deux exemples, la distance euclidienne entre X et Y est:
Autres distances
Sommation:
11
Choix de la classe
12
Choix de la classe
Chaque classe d'un des k voisins slectionns est pondr Soit V le voisin considr. Le poids de c(V) est inversement proportionnel la distance entre l'enregistrement Y classer et V
Calculs derreur
13
Exemple (1)
14
Exemple (2)
K=3
15
Choisir les attributs pertinents pour la tche de classification considre et les donnes Choix de la distance par champ et du mode de combinaison des distances en fonction du type des champs et des connaissances pralables du problme Choix du nombre k de voisins dtermin par utilisation d'un ensemble test ou par validation croise
Une heuristique frquemment utilise est de prendre k gal au nombre d'attributs plus 1
16
Discussion
Interprtations: La classe attribue un exemple peut tre explique en exhibant les plus proches voisins qui ont amen ce choix La mthode peut s'appliquer ds qu'il est possible de dfinir une distance sur les champs
La mthode permet de traiter des problmes avec un grand nombre d'attributs.
Mais, plus le nombre d'attributs est important, plus le nombre d'exemples doit tre grand.
17
Discussion
Tous les calculs doivent tre effectus lors de la classification (pas de construction de modle)
Le modle est l'chantillon
Espace mmoire important ncessaire pour stocker les donnes, et mthodes d'accs rapides ncessaires pour acclrer les calculs
Les performances de la mthode dpendent du choix de la distance, du nombre de voisins et du mode de combinaison des rponses des voisins.
Rfrences
Cours de modlisation et de fouilles de donnes de Prof. Ravi Mantena, New York University.
19