Вы находитесь на странице: 1из 19

Mthode des k plus proches voisins

Christelle Scharff IFI 2004


1

Gnralits

Apprendre par analogie

Recherchant dun ou des cas similaires dj rsolus

Classifier ou estimer Dis moi qui sont tes amis, et je te dirais qui tu es Pas de construction de modle

C'est l'chantillon d'apprentissage, associ une fonction de distance et d'une fonction de choix de la classe en fonction des classes des voisins les plus proches, qui constitue le modle
2

Algorithme

Paramtre : le nombre k de voisins Donne : un chantillon de m exemples et leurs classes

La classe dun exemple X est c(X)

Entre : un enregistrement Y 1. Dterminer les k plus proches exemples de Y en calculant les distances 2. Combiner les classes de ces k exemples en une classe c Sortie : la classe de Y est c(Y)=c

Exemple: Client loyal ou non


K=3

Distance entre 2 exemples

Distance

Le choix de la distance est primordial au bon fonctionnement de la mthode Les distances les plus simples permettent d'obtenir des rsultats satisfaisants (lorsque c'est possible) Proprits de la distance:

d(A,A)=0 d(A,B)= d(B,A) d(A,B) d(A,C) + d(B,C)


6

Distance entre numriques

d(x,y) = |x-y| ou

d(x,y) = |x-y|/dmax, o dmax est la distance maximale entre deux numriques du domaine considr
7

Distance entre nominaux


Donnes binaires : 0 ou 1. On choisit d(0,0)=d(1,1)=0 et d(0,1)=d(1,0)=1. Donnes numratives : la distance vaut 0 si les valeurs sont gales et 1 sinon. Donnes numratives ordonnes : elles peuvent tre considres comme des valeurs numratives mais on peut galement dfinir une distance utilisant la relation d'ordre. Exemple: Si un champ prend les valeurs A, B, C, D et E, on peut dfinir la distance en considrant 5 points de l'intervalle [0,1] avec une distance de 0,2 entre deux points successifs, on a alors d(A,B)=0,2 ; d(A,C)=0,4 ; ... ; d(E,E)=0,2. 8

Distance Euclidienne entre 2 exemples

Soit X = (x1,..., xn) et Y = (y1,..., yn) deux exemples, la distance euclidienne entre X et Y est:

Autres distances
Sommation:

Distance euclidienne pondere:


10

Pourquoi pondrer les attributs?

Certains attributs peuvent dominer le calcul de la distance Exemple:

11

Choix de la classe

12

Choix de la classe

Choix de la classe majoritaire Choix de la classe majoritaire pondre

Chaque classe d'un des k voisins slectionns est pondr Soit V le voisin considr. Le poids de c(V) est inversement proportionnel la distance entre l'enregistrement Y classer et V

Calculs derreur
13

Exemple (1)

14

Exemple (2)
K=3

15

Mise en oeuvre de la mthode


Choisir les attributs pertinents pour la tche de classification considre et les donnes Choix de la distance par champ et du mode de combinaison des distances en fonction du type des champs et des connaissances pralables du problme Choix du nombre k de voisins dtermin par utilisation d'un ensemble test ou par validation croise

Une heuristique frquemment utilise est de prendre k gal au nombre d'attributs plus 1
16

Discussion

Interprtations: La classe attribue un exemple peut tre explique en exhibant les plus proches voisins qui ont amen ce choix La mthode peut s'appliquer ds qu'il est possible de dfinir une distance sur les champs
La mthode permet de traiter des problmes avec un grand nombre d'attributs.

Mais, plus le nombre d'attributs est important, plus le nombre d'exemples doit tre grand.

17

Discussion

Tous les calculs doivent tre effectus lors de la classification (pas de construction de modle)
Le modle est l'chantillon

Espace mmoire important ncessaire pour stocker les donnes, et mthodes d'accs rapides ncessaires pour acclrer les calculs

Les performances de la mthode dpendent du choix de la distance, du nombre de voisins et du mode de combinaison des rponses des voisins.

En rgle gnrale, les distances simples fonctionnent bien.


18

Rfrences

Cours de modlisation et de fouilles de donnes de Prof. Ravi Mantena, New York University.

19

Вам также может понравиться