Survey SVM

SVM : Machines Vecteurs de Support
ou Sparateurs Vastes Marges

Mohamadally Hasan
Fomani Boris
BD Web, ISTY3
Versailles St Quentin, France
hmohamad@isty-info.uvsq.fr
bfomanik@isty-info.uvsq.fr
16 janvier 2006
Rsum : Nous prsentons une description dune mthode de classification par apprentissage
particulire, les SVM. Etant donn que les algorithmes lis aux SVM sont composs de
calculs et de fonctions mathmatiques complexes, nous avons dcid de diviser la
prsentation en diffrentes parties, une destine un large public o nous dcrivons de faon
simple et assez complte les principes de fonctionnement et une destine un public plus
cibl o nous dcrivons en dtails laspect mathmatiques des SVM. Nous intressons aussi
aux diffrents domaines dapplication et nous insistons sur lutilisation des machines
supports de vecteurs dans Oracle.
Mots-cls : Apprentissage supervis, Induction, Classification, Sparateur Vaste Marge,
Support Vector Machine, Machine Support de Vecteurs, Oracle Data Mining
Structure : Dans la section 1, nous prsentons les SVM et nous effectuons un rappel sur la
notion dapprentissage. Ensuite dans la section 2, nous dcrivons de manire gnrale le
principe de fonctionnement des SVM. Les fondements mathmatiques sont dtaills dans la
section 3. Dans la section 4, nous nous intressons aux diffrents domaines dapplications des
SVM. Nous finissons par une prsentation de limplmentation de SVM dans Oracle dans la
section 5
Introduction
Parmi les mthodes noyaux, inspires de la thorie statistique de lapprentissage de

Vladimir Vapnik, les SVM constituent la forme la plus connue. SVM est une mthode de
classification binaire par apprentissage supervis, elle fut introduite par Vapnik en 1995. Cette
mthode est donc une alternative rcente pour la classification. Cette mthode repose sur
lexistence dun classificateur linaire dans un espace appropri. Puisque cest un problme de
classification deux classes, cette mthode fait appel un jeu de donnes d'apprentissage
pour apprendre les paramtres du modle. Elle est base sur l'utilisation de fonction dites
noyau (kernel) qui permettent une sparation optimale des donnes.
Dans la prsentation des principes de fonctionnements, nous schmatiserons les
donnes par des points dans un plan.
La notion dapprentissage tant importante, nous allons commencer par effectuer un

rappel. Lapprentissage par induction permet d'arriver des conclusions par l'examen
d'exemples particuliers. Il se divise en apprentissage supervis et non supervis. Le cas qui
concerne les SVM est lapprentissage supervis. Les exemples particuliers sont reprsents
par un ensemble de couples d'entre/sortie. Le but est dapprendre une fonction qui
correspond aux exemples vus et qui prdit les sorties pour les entres qui n'ont pas encore t
vues. Les entres peuvent tre des descriptions d'objets et les sorties la classe des objets
donns en entre.
2
2.1
SVM principe de fonctionnement gnral

Notions de base : Hyperplan, marge et support vecteur
Pour deux classes dexemples donns, le but de SVM est de trouver un classificateur
qui va sparer les donnes et maximiser la distance entre ces deux classes. Avec SVM, ce
classificateur est un classificateur linaire appel hyperplan.
Dans le schma qui suit, on dtermine un hyperplan qui spare les deux ensembles de points.
Les points les plus proches, qui seuls sont utiliss pour la dtermination de lhyperplan, sont
appels vecteurs de support.
Il est vident quil existe une multitude dhyperplan valide mais la proprit
remarquable des SVM est que cet hyperplan doit tre optimal. Nous allons donc en plus
chercher parmi les hyperplans valides, celui qui passe au milieu des points des deux
classes dexemples. Intuitivement, cela revient chercher lhyperplan le plus sr . En effet,
supposons quun exemple nait pas t dcrit parfaitement, une petite variation ne modifiera
pas sa classification si sa distance lhyperplan est grande. Formellement, cela revient
chercher un hyperplan dont la distance minimale aux exemples dapprentissage est maximale.
On appelle cette distance marge entre lhyperplan et les exemples. Lhyperplan sparateur
optimal est celui qui maximise la marge. Comme on cherche maximiser cette marge, on
parlera de sparateurs vaste marge.
2.2
Pourquoi maximiser la marge ?
Intuitivement, le fait d'avoir une marge plus large procure plus de scurit lorsque l'on
classe un nouvel exemple. De plus, si lon trouve le classificateur qui se comporte le mieux
vis--vis des donnes d'apprentissage, il est clair quil sera aussi celui qui permettra au mieux
de classer les nouveaux exemples. Dans le schma qui suit, la partie droite nous montre
qu'avec un hyperplan optimal, un nouvel exemple reste bien class alors qu'il tombe dans la
marge. On constate sur la partie gauche qu'avec une plus petite marge, l'exemple se voit mal
class.
En gnral, la classification dun nouvel exemple inconnu est donne par sa position
par rapport l'hyperplan optimal. Dans le schma suivant, le nouvel lment sera class dans
la catgorie des + .
2.3
Linarit et non-linarit
Parmi les modles des SVM, on constate les cas linairement sparable et les cas non
linairement sparable. Les premiers sont les plus simple de SVM car ils permettent de
trouver facilement le classificateur linaire. Dans la plupart des problmes rels il ny a pas de
sparation linaire possible entre les donnes, le classificateur de marge maximale ne peut pas
tre utilis car il fonctionne seulement si les classes de donnes dapprentissage sont
linairement sparables.
2.4
Cas non linaire
Pour surmonter les inconvnients des cas non linairement sparable, lide des SVM
est de changer lespace des donnes. La transformation non linaire des donnes peut
permettre une sparation linaire des exemples dans un nouvel espace. On va donc avoir un
changement de dimension. Cette nouvelle dimension est appel espace de re-description .
En effet, intuitivement, plus la dimension de lespace de re-description est grande, plus la
probabilit de pouvoir trouver un hyperplan sparateur entre les exemples est leve. Ceci est
illustr par le schma suivant :
On a donc une transformation dun problme de sparation non linaire dans lespace de
reprsentation en un problme de sparation linaire dans un espace de re-description de plus
grande dimension. Cette transformation non linaire est ralise via une fonction noyau. En
pratique, quelques familles de fonctions noyau paramtrables sont connues et il revient
lutilisateur de SVM deffectuer des test pour dterminer celle qui convient le mieux pour son
application. On peut citer les exemples de noyaux suivants : polynomiale, gaussien, sigmode
et laplacien.
2.5
Illustration de transformation de cas non linaire : le cas XOR
Le cas de XOR nest pas linairement sparable, si on place les points dans un plan
deux dimension, on obtient la figure suivante
Coordonnes des points : (0,0) ; (0,1) ; (1,0) ; (1,1)
Si on prend une fonction polynomiale (x , y) -> (x , y , x.y) qui fait passer d'un espace
de dimension 2 un espace de dimension 3, on obtient un problme en trois dimensions
linairement sparable :
(0,0) -> (0,0,0)
(0,1) -> (0,1,0)
(1,0) -> (1,0,0)
(1,1) -> (1,1,1)
Fondements mathmatiques
Nous allons dtailler dans les paragraphes ci-dessous les principas mathmatiques sur lesquels
repose SVM.
3.1
Problme d'apprentissage
On s'intresse un phnomne f (ventuellement non dterministe) qui, partir d'un certain

jeu d'entres x, produit une sortie y = f(x).
Le but est de retrouver cette fonction f partir de la seule observation d'un certain nombre de
couples entre-sortie {(xi; yi) : i = 1, .. , n} afin de prdire dautres vnements.
On considre un couple (X, Y ) de variables alatoires valeurs dans X x Y.
Seul le cas Y = {-1, 1} (classification) nous intresse ici (on peut facilement tendre au cas
card(Y) = m > 2 et au cas Y = ). La distribution jointe de (X, Y ) est inconnue.
Sachant quon observe un chantillon S = {(X1, Y1),... ,(Xn, Yn)} de n copies indpendantes
de (X, Y ), on veut: construire une fonction h : X Y telle que P(h(X) != Y ) soit minimale.
Illustration :
Trouver une frontire de dcision qui spare l'espace en deux rgions (pas forcment
connexes).
Connaissant h, on peut en dduire la classification
des nouveaux points cest dire trouver une frontire
de dcision.
Le problme est de trouver une frontire assez
loigne des points de diffrentes classes. Cest ce qui
constituera lun des problmes majeurs de
classification grce aux SVMs.
Sur et sous-apprentissage :
Si les donnes sont gnres par un modle
quadratique :
Le modle linaire est en situation de sousapprentissage
Le modle de haut degr est en situation de surapprentissage (apprentissage
par coeur)
Il faut donc trouver un compromis entre adquation
aux donnes et complexit
pour pouvoir gnraliser.
3.2
Classification valeurs relles
Plutt que de construire directement h : X {-1, 1}, on construit :

f : XR (ensemble des rels).
La classe est donne par le signe de f ;
h = signe(f) .
L'erreur se calcule avec P(h(X) != Y ) = P(Yf(X) 0). Ceci donne une certaine ide de la
confiance dans la classification. Idalement, |Yf(X)| est proportionnel P(Y|X).
Yf(X) reprsente la marge de f en (X,Y).
Le but atteindre est la construction de f et donc h. Nous allons voir comment y parvenir.
3.2.1
Transformation des entres
Il est peut tre ncssaire de transformer les entres dans le but de les traiter plus facilement.
X est un espace quelconque d'objets.
On transforme les entres en vecteurs dans un espace F (feature space) par une fonction :
:XF
F n'est pas ncessairement de dimension finie mais dispose d'un produit scalaire (espace de
Hilbert). Lespace de Hilbert est une gnralisation de lespace euclidien qui peut avoir un
nombre infini de dimensions.
La non-linarit est traite dans cette transformation, on peut donc choisir une sparation
linaire (on verra plus loin comment on arrive ramener un problme non linaire en un
problme linaire classique).
Ds lors, il sagit de choisir lhyperplan optimal qui classifie correctement les donnes
(lorsque c'est possible) et qui se trouve le plus loin possible de tous les points classer.
Mais lhyperplan sparateur choisi devra avoir une marge maximale.

3.2.2
Maximisation de la marge
La marge est la distance du point le plus proche l'hyperplan.
Dans un modle linaire (cf. figure ci-dessus), on a f(x) = w.x + b. L'hyperplan

sparateur(frontire de dcision) a donc pour quation w.x + b = 0.
La distance d'un point au plan est donne par d(x) = |w.x + b|/||w||
Lhyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est
maximale. Soient x1 et x2 eux points de classes diffrentes (f(x1) = +1 et f(x2) = -1)
(w.x1) + b = +1 et (w.x2) + b = -1 donc (w.(x1 - x2)) = 2
Do : (w/||w|| . (x1 - x2)) = 2/||w||.
On peut donc en dduire que maximiser la marge revient minimiser ||w|| sous certaines
contraintes que nous verrons dans les paragraphes suivants.
3.2.3
Problme primal
Un point (x; y) est bien class si et seulement si yf(x) > 0

Comme le couple (w, b) est dfini un coefficient multiplicatif prs, on s'impose yf(x) 1
On en dduit (en sappuyant galement sur le paragraphe prcdent), le problme de
minimisation sous contraintes suivantes :
Il peut etre en effet plus ais de minimiser ||w|| plutot que directement ||w||.
3.2.4
Problme dual
On passe du problme primal au problme dual en introduisant des multiplicateurs de

Lagrange pour chaque contrainte.
Ici on a une contrainte par exemple d'apprentissage
Cest un problme de programmation quadratique de dimension n (nombre d'exemples).

On dfini ainsi la matrice suivante appele matrice hessienne : (xi.xj)i,j qui reprsente
la matrice des produits des entres X (La notation matricielle permettant de rsoudre plus
facilement le problme en informatique).
On montre que si les
sont solutions de ce problme alors on a :
Seuls les
correspondant aux points les plus proches sont non-nuls. On parle de vecteurs de
support.
La fonction de dcision associe est donc :
Il existe nanmoins des cas o on ne peut pas classer les entres de faon linaire.
3.3
La non linarit (cas non sparable/ marge molle)
On part du problme primal linaire et on introduit des variables ressort pour assouplir les
contraintes.
On pnalise par le dpassement de la contrainte.

On en dduit le problme dual qui a la mme forme que dans le cas sparable:
La seule diffrence est la borne suprieure C sur les .

3.3.1
Fonction noyau (kern)
Dans le cas linaire, on pouvait transformer les donnes dans un espace o la classification
serait plus aise. Dans ce cas, lespace de redescription utilis le plus souvent est R (ensemble
des nombres rels). Il se trouve que pour des cas non linaires, cet espace ne suffit pas pour
classer les entres. On passe donc dans un espace de grande dimension.
Avec card(F) > d.

Exemple :
Le passage dans
rend possible la sparation linaire des donnes.
On doit donc rsoudre
et la solution a la forme
Le problme et sa solution ne dpendent que du produit scalaire (x).(x).

Plutt que de choisir la transformation non-linaire : XF, on choisit une fonction
k :XxX R (nombres rels) appele fonction noyau.
Elle reprsente un produit scalaire dans l'espace de reprsentation intermdiaire. Du coup k

est linaire (ce qui nous permet de faire le rapprochement avec le cas linaire des paragraphes
prcdents).
Cette fonction traduit donc la rpartition des exemples dans cet espace k(x,x) = (x).(x).
Lorsque k est bien choisie, on n'a pas besoin de calculer la reprsentation des exemples dans
cet espace pour calculer .
Exemple :
Soit
Dans l'espace intermdiaire, le produit scalaire donne
On peut donc calculer (x).(x) sans calculer : k(x,x)=(x.x).

k reprsentera donc le noyau pour les entres correspondantes mais devra nanmoins remplir
certaines conditions.
3.3.2
Condition de Mercer
Une fonction k symtrique est un noyau si (k(xi,xj))i,j est une matrice dfinie positive.
(cf: http://www.techno-science.net/?onglet=glossaire&definition=5188).
Dans ce cas, il existe un espace F et une fonction tels que k(x,x) = (x).(x).
Problmes :
Cette condition est trs difficile vrifier

Elle donne pas d'indication pour la construction de noyaux
Elle ne permet pas de savoir comment est
En pratique, on combine des noyaux simples pour en obtenir de plus complexes.

Exemples de noyaux :
Linaire
Polynomial
Gaussien
Laplacien
Petite tude comparative des noyaux polynomial et gaussien

Soient les donnes dapprentissage suivantes :
On ralise la simulation suivante en ajoutant des donnes classer et en utilisant un noyau

polynomial et un noyau gaussien. On fixe dans les deux cas la constante C 10000
La distribution initiale est la suivante : 47 donnes dapprentissage (22+ et 25 -). En bleu les
donnes de classe + et en jaune celles de classe -.
(5-, 4+)
(3-, 4+)
(5-, 4+)
Noyau polynomial de degr: 2, 5 et 8
(8-, 6+)
(10-, 11+)
(4-, 5+)
Noyau gaussien = 2, 5, 10
On remarque en gnral le noyau gaussien donne de meilleurs rsultats et groupe les donnes
dans des paquets nets.
3.4
Temps de calcul et convergence

Complexit
Nous allons valuer la complexit(temps de calcul) de lalgorithme SVM.

Elle ne dpend que du nombre des entres classer (d) et du nombre de donnes
dapprentissage (n).
On montre que cette complexit est polynomiale en n.
Taille de la matrice hessienne = n

En effet, on doit au moins parcourir tous les lments de la matrice ainsi que toutes les
entres..
Pour un trs grand nombre de donnes dapprentissage, le temps de calcul explose. Cest
pourquoi les SVMs sont pratiques pour des petits problmes de classification.
Pourquoi SVM marche ?

Les noyaux prcdents qui sont les plus utiliss, remplissent les conditions de mercer (facile
vrifier une fois quon a le noyau).
d
Normalement, la classe (le nombre) des hyperplans de
est de dH = d + 1.
Mais la classe des hyperplans de marge 1/||w|| tels que ||w|| c
est borne par : dH Min (R c, d) + 1
O R est le rayon de la plus petite sphre englobant l'chantillon d'apprentissage S
Donc dH peut tre beaucoup plus petit que la dimension d de l'espace d'entre X ; il est donc
toujours possible den trouver un cest la raison poue laquelle.
Les domaines dapplications
SVM est une mthode de classification qui montre de bonnes performances dans la
rsolution de problmes varis. Cette mthode a montr son efficacit dans de nombreux
domaines dapplications tels que le traitement dimage, la catgorisation de textes ou le
diagnostiques mdicales et ce mme sur des ensembles de donnes de trs grandes dimensions
La ralisation dun programme dapprentissage par SVM se ramne rsoudre un
problme doptimisation impliquant un systme de rsolution dans un espace de dimension
consquente. Lutilisation de ces programmes revient surtout slectionner une bonne famille
de fonctions noyau et rgler les paramtres de ces fonctions . Ces choix sont le plus souvent
faits par une technique de validation croise, dans laquelle on estime la performance du
systme en la mesurant sur des exemples nayant pas t utiliss en cours dapprentissage.
Lide est de chercher les paramtres permettant dobtenir la performance maximale. Si la
mise en oeuvre dun algorithme de SVM est en gnral peu coteuse en temps, il faut
cependant compter que la recherche des meilleurs paramtres peut requrir des phases de test
assez longues.
SVM dans Oracle (ODM : Oracle Data Mining)
Comme on la vu prcdemment, SVM est une technologie assez performante pour

classifier un ensemble de points et donc pour faire du datamining. De plus SVM peut tre
appliqu plusieurs domaines (bioinformatique pour la reconnaissance de gnes, etc..).
Lintroduction des SVM dans les annes 1990 dans certaines applications a rig cette
technique de classification au rang doutil standard pour lapprentissage et le datamining.
Ce sont les raisons pour lesquelles Oracle la intgr dans sa version 10g.
5.1
Spcificits de SVM dans oracle 10g
Les fonctionnalits suivantes ont t ajoutes SVM dans oracle 10g :

5.1.1
Dtection danomalies (Anomaly detection)
Elle consiste en lidentification dchantillons anormaux. Un modle de dtection

danomalies prdit si un point convient la distribution ou non. Si ce nest pas le cas, ce point
peut tre dfini comme un outlier ou juste comme le point dune classe qui na pas encore t
dtermine.
La dtection danomalie est une fonction de mining dans l oracle data miner interface et
un modle de classification dans les interfaces ODM java et PL/SQL.
5.1.2
Lapprentissage actif (Active learning)
Les modles dapprentissage actif augmentent en mme temps que la taille des
donnes . Cette proprit fait quon va se limiter relativement peu de donnes
dentranements (100.000 au maximum).
Le critre ici est la limite du nombre des vecteurs de support. Une fois cette limite atteinte, la
construction sarrte. En fait ceci est pertinent dans la mesure o au del de cette limite, les
performances sont quasi inchanges.
Lapprentissage actif force lalgorithme SVM se restreindre aux donnes qui apportent plus
dinformation (les plus intressantes).
Cette option peut tre applique tous les modle SVM (classification, rgression et oneclass ) et peut tre dsactive.
5.1.3
Echantillonage et choix du noyau
Pour la classification, SVM fait des couches dchantillons durant la construction du

modle. Lalgorithme parcourt lensemble des donnes construites et slectionne un
chantillon qui est rgl par rapport aux donnes cibles.
Oracle 10g implmente deux type de noyaux : linaire et gaussien. Le choix du noyau est faite
de faon automatique ou manuelle.
5.2
Le package DBMS_DATA_MINING et SVM
DBMS_DATA_MINING est le package ddi au datamining pour des applications Pl/sql.

Le tableau ci-dessous dcrits les variables ncessaires lexcution de lalgorithme SVM.
Nom
svms_kernel_function
Description
Type de noyau :
svms_linear (pour noyau linaire)

svms_gaussian (pour noyau gaussien)
La valeur par dfaut est : svms_linear

svms_kernel_cache_size TO_CHAR(numeric_expr > 0)
Valeur de la taille du cache pour lexcution de lalgorithme. Elle
concerne uniquement les noyaux gaussiens.
La valeur par dfaut est : 50000000 bytes
svms_conv_tolerance
TO_CHAR(numeric_expr > 0)
Tolrance de convergence pour lalgorithme
La valeur par dfaut est : 0.001.
svms_std_dev
Valeur de la deviation standard.
Conerne uniquement les noyaux gaussiens.
La valeur par dfaut est estime par lalgo en fonction des donnes.
svms_complexity_factor TO_CHAR(numeric_expr > 0)

Valeur du facteur de complexit .
svms_epsilon
Valeur du facteur epsilon pour lalgorithme de rgression par SVM.
5.3
Arbres de dcision vs SVM
Nous allons ici prsenter une tude comparative entre lalgorithme de

classification SVM (avec un noyau gaussien) et celui des arbres de dcision (A.D) tous deux
implments par oracle sur deux cas pratiques.
Cette tude a t ralise par le dpartement informatique des sciences et statistiques de
luniversit de Rhode Island.
5.3.1
Cancer du poumon dans le Wisconsin
Ce test a t ralis sur 645 enregistrements de patients dont 512 ont t utilises comme
donnes dentranement et les 133 autres comme donnes test (donnes prdire).
Les attributs sont dfinis de la manire suivante :
Sample code number: id number
Clump Thickness: 1, 2,3,4,5,6,7,8,9,10.
Uniformity of Cell Size: 1, 2,3,4,5,6,7,8,9,10.
Uniformity of Cell Shape: 1, 2,3,4,5,6,7,8,9,10.
Marginal Adhesion: 1, 2,3,4,5,6,7,8,9,10.
Single Epithelial Cell Size: 1, 2,3,4,5,6,7,8,9,10.
Bare Nuclei: 1, 2,3,4,5,6,7,8,9,10.
Bland Chromatin: 1, 2,3,4,5,6,7,8,9,10.
Normal Nucleoli: 1, 2,3,4,5,6,7,8,9,10.
Mitose: 1,2,3,4,5,6,7,8,9,10.
On cherche donc savoir ici si en fonction de ces paramtres (attributs) une tumeur est
bnigne ou maligne. Lattribut de prdiction est le suivant :
Class: 2-benign, 4-malignant
Les donnes sont rparties de la facon suivante : 65% benign et 35 % malignant
Ils obtiennent les matrices de confusion suivantes :
Algorithme de SVM utilisant
un noyau gaussien
Prcision de 99,3%
Algorithme de A.D
Prcision de 92,5%
Remarque :
Voici la configuration initiale des paramtres ncessaires lexcution de lalgorithme SVM
SVMS_CONV_TOLERANCE = .001
SVMS_KERNEL_CACHE_SIZE = 50000000
SVMS_STD_DEV = 3.7416573867739413
SVMS_COMPLEXITY_FACTOR = 1.1959376673823801
5.3.2
Base de donnes pour les spams
Chaque tuple reprsente un email qui peut tre considr comme un Spam ou pas. Les 57
attributs continus de ces tuples dcrivent des frquences des mot et des caractres dans les
messages. Ils ont enregistr 4601 tuples dont 39% sont des spams et 61% des e-mails
normaux.
C'est un problme binaire de classification o tous les attributs indpendants sont continus.
Ils ont pris 3520 tuples pour lapprentissage et 811 pour les tests.
Ils obtiennent les matrices de confusion suivantes :
Algorithme de SVM utilisant

un noyau gaussien
Prcision de 95,3%
Algorithme de A.D
Prcision de 92,5%
Remarque :
Voici la configuration initiale des paramtres ncessaires lexcution de lalgorithme SVM :
SVMS_CONV_TOLERANCE = .001
SVMS_KERNEL_CACHE_SIZE = 50000000
SVMS_STD_DEV = 4.812661641473027
SVMS_COMPLEXITY_FACTOR = .75904342468903196
A lissue de ces deux exemples, on peut en dduire que le modle de SVM donne de meilleurs
rsultats que celui des arbres de dcision. Ce qui sexplique en grande partie par la puissance
du modle mathmatique utilis par SVM
Conclusion
Dans cet article, nous avons tent de prsenter de manire simple et complte le
concept de systme dapprentissage introduit par Vladimir Vapnik, les Support Vector
Machine Nous avons donn une vision gnrale et une vision purement mathmatiques des
SVM. Cette mthode de classification est bas sur la recherche dun hyperplan qui permet de
sparer au mieux des ensembles de donnes. Nous avons expos les cas linairement
sparable et les cas non linairement sparables qui ncessitent lutilisation de fonction noyau
(kernel) pour changer despace. Cette mthode est applicable pour des tches de classification
deux classes, mais il existe des extensions pour la classification multi classe.
Nous nous somme ensuite intress aux diffrents domaines dapplication et nous
avons insist sur lutilisation des SVM dans Oracle (ODM). Les logiciels de SVM sont
disponibles sur Internet et les expriences sont faciles raliser. On obtient souvent en les
utilisant des rsultats comparables ceux obtenus avec dautres techniques et les paramtres
rgler sont moins nombreux.
Il existe des extensions que nous navons pas prsent, parmi lesquelles lutilisation
des SVM pour des tches de rgression, cest--dire de prdiction dune variable continue en
fonction dautres variables, comme cest le cas par exemple dans de la prdiction de
consommation lectrique en fonction de la priode de lanne, de la temprature, etc. Le
champ dapplication des SVM est donc large et reprsente une mthode de classification
intressante.
Rfrences
www.kernel-machines.org
www.kernel-methods.net
www.support-vector.net
- Introduction aux Supports Vector Machines (SVM),Olivier Bousquet, Ecole
Polytechnique, Palaiseau
- SVM, un mthode de classification binaire par apprentissage, Millet Christophe
- Support Vector Machines and other kernel-based learning methods, Cristianini & ShaweTaylor, Universit de Cambridge
-The nature of statistical learning, Vapnik
- SVM in Oracle Database 10g: Removing the Barriers toWidespread Adoption of Support
Vector Machines, Boriana L. Milenova

Survey SVM

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Survey SVM

Загружено:

Авторское право:

Доступные форматы

SVM : Machines Vecteurs de Support

ou Sparateurs Vastes Marges

Parmi les mthodes noyaux, inspires de la thorie statistique de lapprentissage de

La notion dapprentissage tant importante, nous allons commencer par effectuer un

SVM principe de fonctionnement gnral

Pourquoi maximiser la marge ?

Cas non linaire

Illustration de transformation de cas non linaire : le cas XOR

On s'intresse un phnomne f (ventuellement non dterministe) qui, partir d'un certain

Classification valeurs relles

Plutt que de construire directement h : X {-1, 1}, on construit :

Transformation des entres

Mais lhyperplan sparateur choisi devra avoir une marge maximale.

La marge est la distance du point le plus proche l'hyperplan.

Dans un modle linaire (cf. figure ci-dessus), on a f(x) = w.x + b. L'hyperplan

Un point (x; y) est bien class si et seulement si yf(x) > 0

On passe du problme primal au problme dual en introduisant des multiplicateurs de

Cest un problme de programmation quadratique de dimension n (nombre d'exemples).

On montre que si les

sont solutions de ce problme alors on a :

La non linarit (cas non sparable/ marge molle)

On pnalise par le dpassement de la contrainte.

La seule diffrence est la borne suprieure C sur les .

Fonction noyau (kern)

Avec card(F) > d.

rend possible la sparation linaire des donnes.

On doit donc rsoudre

Le problme et sa solution ne dpendent que du produit scalaire (x).(x).

Elle reprsente un produit scalaire dans l'espace de reprsentation intermdiaire. Du coup k

On peut donc calculer (x).(x) sans calculer : k(x,x)=(x.x).

Cette condition est trs difficile vrifier

En pratique, on combine des noyaux simples pour en obtenir de plus complexes.

Petite tude comparative des noyaux polynomial et gaussien

On ralise la simulation suivante en ajoutant des donnes classer et en utilisant un noyau

Noyau polynomial de degr: 2, 5 et 8

Temps de calcul et convergence

Nous allons valuer la complexit(temps de calcul) de lalgorithme SVM.

Taille de la matrice hessienne = n

Pourquoi SVM marche ?

Les domaines dapplications

SVM dans Oracle (ODM : Oracle Data Mining)

Comme on la vu prcdemment, SVM est une technologie assez performante pour

Spcificits de SVM dans oracle 10g

Les fonctionnalits suivantes ont t ajoutes SVM dans oracle 10g :

Dtection danomalies (Anomaly detection)

Elle consiste en lidentification dchantillons anormaux. Un modle de dtection

Lapprentissage actif (Active learning)

Echantillonage et choix du noyau

Pour la classification, SVM fait des couches dchantillons durant la construction du

Le package DBMS_DATA_MINING et SVM

DBMS_DATA_MINING est le package ddi au datamining pour des applications Pl/sql.

svms_linear (pour noyau linaire)

La valeur par dfaut est : svms_linear

svms_complexity_factor TO_CHAR(numeric_expr > 0)

Arbres de dcision vs SVM

Nous allons ici prsenter une tude comparative entre lalgorithme de

Cancer du poumon dans le Wisconsin

Base de donnes pour les spams

Algorithme de SVM utilisant

Вам также может понравиться