Академический Документы
Профессиональный Документы
Культура Документы
***
Spécialité SSIR
Modèles Connexionnistes,
Apprentissage et
Fusion d’informations
Le neurone biologique
Neural networks for pattern recognition
C. M. Bishop
OXFORD
Pattern Recognition and Neural Networks
B. D. Ripley
CAMBRIDGE
Bibliographie historique
Historique [1] W.S. McCullogh et W. Pitts, 1943.
- Bibliographie A logical Calculus of the Ideas Immanent in Nervous Activity,
Bull. of Math. Biophysics 5 (1943) 115.
Modèles supervisés
Apprentissage et [2] D.O. Hebb, 1949.
Généralisation The Organization of Behaviour,
Wiley, New York 1949.
Réseaux dynamiques
Systèmes non [3] R. Rosenblatt, 1958.
supervisés Principles of Neurodynamics,
Spartan Books, New York 1962.
sortie noyau
axone
synapse
Autres neurones
Hebb (1949)
Historique [2] D.O. Hebb, 1949.
- McCullogh et Pitts
The Organization of Behaviour,
- Hebb Wiley, New York 1949.
- Rosenblatt
- Minsky et Papert
- Hopfield Dans ce livre, Donald Hebb propose le premier modèle biologiquement
- Rumelhart, Le Cun plausible d'apprentissage :
Modèles supervisés l'apprentissage correspond à une modification des efficacités de
Apprentissage et transmission synaptique qui peut être modélisée, dans le cas d'un
Généralisation réseaux de neurones formels, sous la forme d'une modification des
poids associés aux connexions.
Réseaux dynamiques
dendrites
Systèmes non Il ne s'agit à l'époque que d'une simple
supervisés « intuition », que les techniques expéri-
mentales ne permettent pas encore de Corps cellulaire
corroborer
noyau
Le phénomène de modification synaptique axone
Autres neurones
Rosenblatt (1958)
Historique [3] R. Rosenblatt, 1958.
- McCullogh et Pitts
Principles of Neurodynamics,
- Hebb Spartan Books, New York 1962.
- Rosenblatt
- Minsky et Papert
- Hopfield Rosenblatt réalise et étudie le premier réseau de neurones « intelligent », c'est-
- Rumelhart, Le Cun à-dire capable d'apprendre par lui même : le Perceptron.
Modèles supervisés
Il démontre un théorème fondamental, le "perceptron learning theorem", qui
Apprentissage et établit qu'un perceptron, s'il est en mesure de réaliser un tâche, sera toujours
Généralisation capable de l'apprendre en un temps fini.
Réseaux dynamiques
Systèmes non
supervisés
Entrée (rétine)
sorties
Minsky et Papert (1969)
Historique [4] M. Minsky et S. Papert, 1969.
- McCullogh et Pitts
Perceptrons ,
- Hebb the MIT Press, Cambridge 1969.
- Rosenblatt
- Minsky et Papert
- Hopfield
- Rumelhart, Le Cun Leurs travaux mettent surtout en relief les limites inhérentes aux modèles
de type perceptron dont la plus connue est son incapacité à résoudre des
Modèles supervisés problèmes non linéairement séparables tels que le XOR (ou exclusif).
Apprentissage et
Généralisation Rosenblatt a montré qu’à condition d’adjoindre au moins une couche de
neurones
Réseaux dynamiques au perceptron il est possible de dépasser ces limitations.
Systèmes non Mais il n’existe pas à l’époque de méthode d’apprentissage
supervisés Pour les perceptrons multi-couches.
Hopfield (1982)
Historique [5] J.J. Hopfield, 1982.
- McCullogh et Pitts
Neural Networks and Physical Systems with Emergent Collective
- Hebb Computational Abilities,
- Rosenblatt Proceedings of the National Academy of Sciences, USA, 1982, pp. 2,554.
- Minsky et Papert
- Hopfield
- Rumelhart, Le Cun
En introduisant formellement la notion d'énergie associée à un réseau
Modèles supervisés de neurones, Hopfield offre aux neuro-sciences un nouveau et puissant
moyen d'investigation, la physique statistique.
Apprentissage et
Généralisation
Grâce à ces nouveaux outils, les comportements collectifs des réseaux
Réseaux dynamiques complètement connectés peuvent être compris et prédits de manière
rigoureuse.
Systèmes non
supervisés entrées
Sorties bouclées
Rumelhart - Le Cun - Hinton(1986)
Le neurone formel
Cutané
Le perceptron Bipolaire Corps cellulaire
élémentaire Auditif de rétine
Mémoires associatives noyau
Olfactif axone
Interneurones
Amacrine
synapse
De rétine
Le neurone formel
• Vitesse : 0.5 à 100 m/s
Le perceptron
élémentaire
• Temps d’intégration : quelques ms
Mémoires associatives
• Nombre de neurones : 100 à 100 milliards
Coupe du cortex
(coloration de Golgi : une cellule sur
cent seulement est colorée)
Le neurone formel
Le neurone biologique
Le neurone formel
e1
- Le modèle
- La fonction de
e2 ω ω1
transfert 2 Etat, potentiel σ (V − θ )
- Décision
ωi V Sortie
∑
- Interprétation
géométrique ei seuil
V
x
- Limites du modèle
Le perceptron
élémentaire
Mémoires associatives
Entrées ωN Sommation pondérée
Fonction de transition, de transfert
⎛ N ⎞
y = σ (V ) = σ ⎜ ∑ ωi xi − θ ⎟
⎝ i =1 ⎠
La fonction de transfert
Fonction linéaire
Le neurone biologique
Le neurone formel
- Le modèle
- La fonction de Fonction sigmoïde
transfert
- Décision
- Interprétation
géométrique
- Limites du modèle Fonction seuil
Le perceptron
élémentaire
Mémoires associatives Les fonctions continues dérivables présentent un avantage mathématique
certain pour l’apprentissage.
La fonction linéaire permet de réaliser des réseaux linéaires
(Kohonen et les mémoires associatives).
Le neurone à seuil est plus proche du modèle biologique (spike) lorsque la
fonction a ses valeurs entre 0 et +1. Il est plus proche du modèle physique
(Hopfield et les verres de spin) entre –1 et +1.
Les fonctions probabilistes à valeurs continues entre 0 et 1 correspondent
à l’idée que c’est la fréquence d’activité qui compte plus que les décharges
individuelles.
Décision binaire
Le neurone biologique
Le neurone formel x1 ω1 = 2
- Le modèle
- La fonction de
transfert y
- Décision
ω1 = 1
θ = 47
- Interprétation x2
géométrique
- Limites du modèle
y = σ (ω1 x1 + ω2 x2 − θ )
Le perceptron
élémentaire
Mémoires associatives
Véhicule longueur x1 bruit x2 2x1 + x2 − θ sortie
Camion 1 20 8 48-47 = 1 1
Camion 1 15 20 50-47 = 3 1
Car 16 10 42-47 = -5 0
Voiture 1 5 15 25-47 = -18 0
Voiture 2 16 6 38-47 = -9 0
Moto 2 20 24-47 = -23 0
Interprétation géométrique
Le neurone biologique
x1 Frontière :
Le neurone formel
- Le modèle
x1 ω1 = 2 2 x1 + x2 − 47 = 0
- La fonction de
transfert y
- Décision ω2 = 1 x2
- Interprétation θ = 47
géométrique
x2
- Limites du modèle 1
Le perceptron
élémentaire
Mémoires associatives ⎧ y = σ (ω0 x0 + ω1 x1 + ω2 x2 )
⎪
y = σ (ω1 x1 + ω2 x2 − θ ) ⇔ ⎨ x0 = 1
⎪ω = −θ
⎩ 0
⎛ N ⎞
f ( x1 , x2 ,..., xN ) = σ ⎜ ∑ ωi xi ⎟ Et est limité aux problèmes à deux
⎝ i =0 ⎠ classes et à frontière linéaire
Les limites du neurone formel
Le neurone biologique
Le neurone formel ne sépare que 2 classes de formes ? Rien n’empêche de
Le neurone formel réaliser un réseau de neurones formels :
- Le modèle
- La fonction de x1 x1
transfert
y1 y1
- Décision
- Interprétation
géométrique
y2 y2
- Limites du modèle
x2 xN
Le perceptron
élémentaire
Mémoires associatives Le neurone formel est « logiquement complet ». Toutes les fonctions logiques
peuvent-être représentées par un réseau acyclique de neurones formels.
Mémoires associatives
WX Τ > 0
WX Τ < 0
Formulation du problème :
N
Soient deux ensembles C1 et C2 de vecteurs de
Trouver un vecteur W tel que :
⎧⎪ X ∈ C1 ⇒ WX Τ > 0 ⇒ y = +1
⎨ Τ
⎪⎩ X ∈ C2 ⇒ WX < 0 ⇒ y = −1
La règle du perceptron
Le neurone biologique Algorithme d’apprentissage du perceptron :
Le neurone formel
• Initialiser W aléatoirement
Le perceptron
• Tant qu'il existe X tel que :
élémentaire
- Apprentissage X ∈ C1 ⇒ WX Τ > 0 et X ∈ C2 ⇒ WX Τ < 0 non satisfaite
- La règle du perceptron Faire :
- La règle du delta
- Le théorème
W ← W + λ .δ ( X ) X
- Démonstration ⎧λ petite constante
- Limitations aux pbm LS ⎪
⎨ ⎧ X ∈ C1 ⇒ δ ( X ) = +1
- augmenter la dimension
⎪ ⎨ X ∈ C ⇒ δ ( X ) = −1
Mémoires associatives
⎩⎩ 2
X ∈ C1 mais WX < 0
(
On a : W ′X Τ =(W + λ .1. X ) X Τ = WX Τ + λ X
2
) > WX Τ
X ∈ C2 mais WX Τ > 0
Τ
WX < 0 W ′X Τ > 0
on cherche ΔW tel que W ′X Τ =(W +ΔW ) X Τ < 0 :
X
X (
On a : W ′X Τ =(W + λ .( −1). X ) X Τ = WX − λ X
2
) < WX Τ
La règle du delta
Le neurone biologique L’apprentissage dans un perceptron se produit sous la direction d’un
Le neurone formel « maître » qui dicte au perceptron la réponse correcte. On dit que
L’apprentissage est supervisé
Le perceptron
élémentaire
- Apprentissage Soit y d ∈ {−1, +1} la réponse correcte associée à une forme X .
- La règle du perceptron ⎧0 (pas d'erreur)
- La règle du delta ⎪
On a : δ ( X ) = − ( y − y d ) = ⎨
1
⎧ +1 si X ∈ C1 et y = 0
- Le théorème 2 ⎪ ± 1 (erreur) = ⎨
- Démonstration ⎩ ⎩ −1 si X ∈ C2 et y = 1
- Limitations aux pbm LS
- augmenter la dimension La règle d’apprentissage est appelée également règle du delta. Dans
Le cas du perceptron, elle dépend de l’erreur de décision. Elle s’écrit
Mémoires associatives « localement » :
i =0 i =0 i =0 i =0
d'où :
λ
ωi ' = ωi +Δωi avec Δωi = λδ ( X ) xi = −
2
(y− y )x
d
i
erreur de décision
Le théorème de convergence
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
- Apprentissage Quels que soient l’ensemble de motifs en entrée et leur
- La règle du perceptron classification désirée, l’algorithme d’apprentissage du
- La règle du delta
perceptron, la règle du delta, convergera vers un
- Le théorème
- Démonstration
ensemble correct de poids, et ceci en un nombre fini
- Limitations aux pbm LS d’opérations si un tel exemple existe [Rosenblatt,1962].
- augmenter la dimension
Mémoires associatives
Démonstration
Soit A = { X k , k =1,... K } l'ensemble des échantillons à classer en réalisant la fonction f .
Le neurone biologique
⎧⎪ ⎧ X k si f ( X ) = +1 ⎫⎪
Le neurone formel On pose A′ = ⎨ X k′ / X k′ = ⎨ ⎬
⎪⎩ ⎩ − X k si f ( X ) = −1 ⎪⎭
Le perceptron
élémentaire On cherche donc une solution W telle que WX k′Τ > 0 pour X k′ de A′
- Apprentissage Pour simplifier, on écrit toute modification comme (λ = 1, δ ( X k′ ) = 1, WX k′Τ < 0) :
- La règle du perceptron W ← W + ΔW = W + X k′ car ΔW = λδ ( X k′ ) X k′ = X k′
- La règle du delta Soit W0 = 0, W1 , W2 ,..., Wk ,..., WK la suite des vecteurs poids du perceptron pendant
- Le théorème
l'apprentissage et X 1' , X 2' , X 3' ,..., X k' ,..., X K' la suite d'éléments de A′ réalisant ces modifications
- Démonstration
On a :
- Limitations aux pbm LS
- augmenter la dimension ⎧⎪ Wk +1 2 = Wk 2 + X k′ +1 2 + 2Wk X k′Τ+1
Wk +1 = Wk + X k′ +1 avec Wk X ′ < 0 ⇒ ⎨
Τ
k +1
⎪⎩ ⇔ Wk +1 ≤ Wk + X k′ +1
2 2 2
Mémoires associatives
{
Posons M = sup X ′ / X ′ ∈ A ' , on a : Wk
2
} 2
≤ kM
* 2 V2
W
Les limites du Perceptron
Le neurone biologique Dans une étude très détaillée, Minsky et Papert montrent en 1969 que le
Le neurone formel Perceptron ne peut s’appliquer qu’aux problèmes linéairement séparables
Le perceptron
élémentaire Or les problèmes de classification posés dans les applications réelles sont
- Apprentissage presque toujours non linéairement séparables.
- La règle du perceptron
Le problème non linéairement séparable le plus simple est celui du OU Exclusif
À 2 entrées.
- La règle du delta
- Le théorème Fonction ET
WX Τ = 0 x1 ω
- Démonstration 1
- Limitations aux pbm LS
WX Τ > 0
- augmenter la dimension y
Mémoires associatives
x2 ω2
WX Τ < 0 WX Τ = 0
Table de vérité du OU Exclusif
Entrée 1 Entrée 2 Sortie
+1 +1 -1
+1 -1 +1
WX Τ < 0 Τ
WX > 0 -1 +1 +1
Fonction OU Exclusif -1 -1 -1
Dépasser les limites du Perceptron
Le neurone biologique On peut réaliser par un perceptron une classification non linéairement séparable
par changement de représentation en augmentant la dimension.
Le neurone formel
Le perceptron
élémentaire (+1, +1, +1)
- Apprentissage
- La règle du perceptron
- La règle du delta
- Le théorème
- Démonstration
Hyperplan séparateur
- Limitations aux pbm LS
(+1, −1, −1)
- augmenter la dimension
Mémoires associatives
(−1, −1, −1) (−1, +1, −1)
x1 ω1 x1 ω21
ω11
ω2 y ω22 y y
ET
ω3 ω12 ω23
x2 x2
Perceptron multicouches
II
- Formulation matricielle
- classification linéaire Le principe de minimisation de l'erreur repose sur une méthode de descente du
- la pseudo inverse gradient. On calcule le gradient de l'erreur par rapport au poids ωi et l'on effectue
- le coût quadratique
une correction en sens inverse :
- règle de Widrow-Hoff
∂Q ∂Q ∂y
Le perceptron ωi ← ωi − λ avec = 2 ( yk − ykd ) k = 2 ( yk − ykd ) xi
∂ ωi ∂ωi ∂ωi
Multi-couches (MLP)
d'où :
ωi ← ωi − λ 2 ( yk − ykd ) xi Q(ωi )
∂Q(ωi )
<0
∂ωi
Il vaut mieux minimiser
l’erreur quadratique moyenne
calculée sur tous les exemples
à apprendre. ωi
Δωi > 0
Formulation matricielle
Soit un ensemble A = { X 1 , X 2 ,..., X K } de formes sur N
auxquelles on désire
Le neurone biologique
associer les sorties désirées {Y1d , Y2d ,..., YKd } avec Ykd ∈ M
.
Le neurone formel
Le perceptron ⎡W1 ⎤
élémentaire ⎢W ⎥ ⎡ω11 ... ω1N ⎤
Soit Ω = ⎢ 2 ⎢
⎥= ω ...ω ... ω ⎥ la matrice des poids du réseau.
Mémoires associatives ⎢... ⎥ ⎢ 21 ij 2 N ⎥
⎢ ⎢
⎥ ⎣ ... ... ωMN ⎦⎥
- L’adaline
⎣⎢ M ⎦⎥
W
- apprentissage adaptatif
⎡ x1 ⎤
- Formulation matricielle
⎢x ⎥
- classification linéaire
Pour une cellule i la sortie s'écrit : yi = ∑ j = 0 ωij x j = [ωi1ωi 2 ...ωiN ] ⎢ 2 ⎥ = Wi X Τ
N
Y d = ΩX
Existe-t-elle ?
Est-elle unique ?
Classification linéaire
Le neurone biologique
Le neurone formel
Le problème de la classification linéaire Y = ΩX n'a pas toujours de solution Ω* = YX −1.
C'est le cas lorsque la matrice X n'est pas inversible.
Le perceptron
élémentaire
Mémoires associatives
- L’adaline La réponse à la question d’existence ressort du domaine de l’algèbre
- apprentissage adaptatif linéaire élémentaire :
- Formulation matricielle
- classification linéaire
1) Si l’ensemble des vecteurs d’entrées à apprendre est linéairement
- la pseudo inverse
indépendant, il existe toujours une application linéaire assignant à
- le coût quadratique ces exemples des valeurs vectorielles arbitraires.
- règle de Widrow-Hoff
Le perceptron
Multi-couches (MLP) 2) Dans le cas général, les relations de dépendance linéaire pouvant exister
entre les vecteurs d’entrée doivent être reproduites par les vecteurs de
sortie :
∑α
k
k X k = 0 ⇒ ∑ α k Yk = 0
k
La pseudo-inverse
Le neurone biologique On peut interpréter la relation Y = ΩX comme une application linéaire X qui
Le neurone formel associe à la matrice Ω les sorties Y :
Le perceptron Y Τ = (ΩX)Τ = X Τ ΩΤ
élémentaire
Dire que le problème Y = ΩX n'admet pas de solution, c'est dire qu'il existe des
Mémoires associatives
- L’adaline
matrices Y d qui n'appartiennent pas au sous espace vectoriel Img(X) engendré par X.
- apprentissage adaptatif
La solution est donnée par
- Formulation matricielle
le théorème de projection : Yd
- classification linéaire
Y d -ΩX
- la pseudo inverse La condition d'orthogonalité s'écrit :
- le coût quadratique
( ) (X Ω ) = 0
Τ Τ
- règle de Widrow-Hoff Y d − X ΤΩΤ Τ Τ
Img(X)
Le perceptron
⇔ ( Y − ΩX )( X Ω
d Τ Τ
)=0 ΩX
Multi-couches (MLP)
⇔ Y d X ΤΩ Τ − ΩXX Τ ΩΤ = 0
⇔ ( Y d X Τ − ΩXX Τ ) Ω Τ = 0 X Τ ( XX Τ ) = X +
−1
⇔ Y d X Τ − ΩXX Τ = 0
est la pseudo-inverse de X
⇔ Ω = Y d X Τ ( XX Τ −1
)
La projection orthogonale minimise la
⇔ Ω = Yd X+ distance Y d -ΩX : l’erreur quadratique
Minimisation du coût quadratique
Le problème de la classification linéaire Y = ΩX n'a pas toujours de solution :
Le neurone biologique
On définit donc une fonction cout notée f sur l'espace vectoriel des matrices
Le neurone formel
et on remplace le problème algébrique :
Le perceptron
" Trouver Ω tel que Y = ΩX "
élémentaire
par le problème d'optimisation :
Mémoires associatives
- L’adaline
" Trouver X qui minimise f (Y − ΩX ) "
- apprentissage adaptatif Ce problème a une solution unique lorsque f est une fonction quadratique
- Formulation matricielle Τ 2
- classification linéaire Trouver Ω qui minimise le cout quadratique Q(Ω) = Y d -X Τ Ω Τ .
- la pseudo inverse
Le gradient de Q(Ω) s'écrit :
- le coût quadratique
- règle de Widrow-Hoff (
∇Q(Ω) = 2X Y d -X Τ Ω Τ
Τ
) La matrice XX Τ est carrée et
symétrique :
Le perceptron
XX Τ = ( XX Τ )
et s'annule en : Τ
Multi-couches (MLP)
∇Q(Ω) = 0
On a X + X = I , mais en général :
( dΤ
⇔ 2X Y -X Τ Ω Τ = 0 ) XX + ≠ I
Τ
⇔ 2XY d = 2XX Τ Ω Τ Si XX Τ est singulière, la solution
n’est pas unique
⇔ Ω Τ = ( XX Τ ) XY d
−1 Τ
!! L’inversion de la matrice
⇔Ω=Y X d Τ
( XX )Τ −1
=Y X d +
peut poser des problèmes
numériques
Règle de Widrow-Hoff
⎛ N c−1
c c −1 ⎞
xi = σ ⎜ ∑ ωij x j ⎟
c
⎝ j =0 ⎠
Le nombre d’entrées et de sorties dépend du problème traité
Le neurone biologique
Le perceptron à deux couches permet de classer des formes non
Le neurone formel linéairement séparables :
Le perceptron ⎡ x1(1) ⎤
élémentaire ⎢ (1) ⎥
⎡ x1(0) ⎤ ⎢ x2 ⎥
Mémoires associatives ⎢ (0) ⎥ ⎢ x (1) ⎥
Le perceptron ⎢ x2 ⎥ ⎢ 3 ⎥
⎢ x (0) ⎥ y ⎢... ⎥
Multi-couches (MLP) ⎢ (1) ⎥
⎢ 3 ⎥
- structure ⎢... ⎥ ⎢⎣ xN1 ⎥⎦
- séparation non linéaire ⎢ (0) ⎥
- propriétés ⎢⎣ xN0 ⎥⎦
- la rétro-propagation
- différentiation
numérique ⎛ N1 (2) (1) ⎞ N1 N1
⎡ ⎛ N0 (1) (0) ⎞ ⎤ 1
y = σ ⎜ ∑ ω j x j ⎟ = 0 ⇔ ∑ ω j x j = 0 ⇔ ∑ ω j ⎢σ ⎜ ∑ ω jl xl ⎟ ⎥ x j = 0
(2) (1) (2)
MLP : optimisation ⎝ j =0 ⎠ j =0 j =0 ⎣ ⎝ l =0 ⎠⎦
L’équation montre une hyper-surface séparatrice non plane du fait
de la présence des fonctions sigmoïdes non linéaires :
eV − e −V
σ (V ) = th(V ) = V −V
e +e
Exemple du OU Exclusif
Avant apprentissage :
Le neurone biologique
2
⎡ x1 ⎤
Le neurone formel
1.5
⎢x ⎥ s
Le perceptron ⎣ 2⎦ 1
élémentaire 0.5
Mémoires associatives 0
Le perceptron
-0.5
Multi-couches (MLP) -1
- structure -1.5
- séparation non linéaire
- propriétés
-2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
MLP : optimisation 1
⎡ y1 ⎤ ⎡ +1⎤
⎢ y ⎥ = ⎢ −1⎥ ⇒ s = 1 (vert)
0.5
⎣ 2⎦ ⎣ ⎦ 0
⎡ y1 ⎤ ⎡ −1⎤ -0.5
⎢ y ⎥ = ⎢ +1⎥ ⇒ s = 0 (rouge)
⎣ 2⎦ ⎣ ⎦
-1
-1.5
-2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Propriétés des MLPs
Le neurone biologique Les réseaux de neurones de type MLP à au moins une couche cachée
Le neurone formel sont des approximateurs universels :
Le perceptron
élémentaire « Toute fonction bornée suffisamment régulière peut être approchée uniformément,
avec une précision arbitraire, dans un domaine fini de l’espace de ses variables, par
Mémoires associatives
un réseau comportant une couche de neurones cachés en nombre fini, possédant tous
Le perceptron la même fonction d’activation, et un neurone de sortie linéaire. » [Hornik et al. 1989]
Multi-couches (MLP)
- structure
- séparation non linéaire
- propriétés Cette propriété est un théorème d’existence, non spécifique aux
- la rétro-propagation réseaux de neurones. Elle ne détermine pas les paramètres du réseau
- différentiation
numérique
MLP : optimisation
Ce résultat provient d’un théorème de Kolmogorov (1957) apportant une
réponse négative au 13ème problème de Hilbert (1900) : « il existe des
fonctions de 3 variables ne pouvant pas être représenté par la superposition
de fonctions de 2 variables ». Kolmogorov montre au contraire que cela
est possible avec un petit nombre de fonctions à une variable. Les réseaux
de type MLP à couches implémentent ce type de superposition de fonctions.
Propriétés des MLPs : parcimonie
Le neurone biologique Les réseaux de neurones de type MLP avec fonctions de transition sigmoïde
Le neurone formel sont des approximateurs parcimonieux :
Le perceptron
élémentaire « On montre [Barron 1993] que, si l’approximation dépend des paramètres ajustables
de manière non linéaire, elle est plus parcimonieuse que si elle dépend linéairement des
Mémoires associatives
paramètres ».
Le perceptron Le nombre de paramètres nécessaire pour obtenir une précision donnée croît expo-
Multi-couches (MLP) nentiellement avec le nombre de variables lorsque l’approximateur dépend linéairement
- structure de ses paramètres. Il croît linéairement par rapport à ce nombre pour les approximateurs
- séparation non linéaire non linéaires.
- propriétés
- la rétro-propagation Ainsi, pour modéliser une fonction à grand nombre de variables,
- différentiation on aura plus intérêt à utiliser un réseau de neurone qu’un approximateur
numérique polynomial par exemple.
MLP : optimisation
Cet avantage des réseaux de neurones apparaîtra clairement lors de l’étude
de l’apprentissage.
Lorsque l’on fait en sorte que le nombre de paramètres ajustables d’un modèle
soit le plus faible possible, on cherche l’approximation la plus parcimonieuse.
Algorithme de rétropropagation (1)
Le neurone biologique Le réseau est du type MLP avec un nombre de couches quelconque et
Le neurone formel N c cellules par couche c.
On reprend la fonction réalisée par l’un quelconque des neurones i de la
Le perceptron
couche c connecté aux neurones de la couche précédente c-1 :
élémentaire
⎛ Nc−1 ( c ) ( c −1) ⎞
= σ ⎜ ∑ ωij x j ⎟
Mémoires associatives
Le perceptron
xi( c )
Multi-couches (MLP) ⎝ j =0 ⎠
- structure
Les fonctions de transition sont des fonctions non linéaires dérivables
- séparation non linéaire
quelconques (sigmoïdes par exemple).
- propriétés
- la rétro-propagation On considère l’ensemble des prototypes à apprendre appelé
- différentiation l’ensemble d’apprentissage :
numérique
MLP : optimisation A= {( x , y ) , ( x , y ) ,..., ( x , y ) ,..., ( x
1 d2 2 d2 k dk K
}
, y dK )
Q = ∑ Q k ( y1 , y 2 ,..., y K )
K
k =1
Algorithme de rétropropagation (2)
- la rétro-propagation δj = =∑ = ∑ δi
∂V j i =1 ∂Vi ( c ) ∂V j( c −1) i =1 ∂V j( c −1)
- différentiation
numérique
couche (c − 1) couche (c)
MLP : optimisation Par ailleurs :
∂Vi ( c ) ∂ N c−1
∂ N c−1
( c −1)
= ∑ω ( c ) ( c −1)
x = ∑ω (c )
σ ′ (Vl c −1 ) = ωij( c )σ ′ (V jc −1 )
∂V j ∂V j( c −1) ∂V j( c −1)
il l il
l l
Le neurone biologique L’estimation des dérivées de l’erreur relativement aux poids du réseau
Le neurone formel peut se résumer en quatre étapes :
Le perceptron
élémentaire
1) Appliquer un vecteur prototype X k en entrée du réseau et propager
Mémoires associatives l'activité pour estimer les sorties des cellules cachées et de sortie
Le perceptron 2) Evaluer l'erreur δ k sur toutes les unités de sortie
Multi-couches (MLP)
- structure 3) Rétropropager l'erreur δ pour estimer les δ ik sur toutes les cellules
- séparation non linéaire 4) Evaluer l'ensemble des modifications synaptiques Δωij
- propriétés
- la rétro-propagation
Pour tenir compte de l’ensemble des prototype en une seule étape
- différentiation
(Gradient total), on effectue la sommation de toutes les contributions :
numérique
MLP : optimisation
∂Q K
∂Q k
=∑
∂ωij k =1 ∂ωij
Le neurone formel Les cellules de sorties ont une fonction de transition linéaire
Le perceptron Les fonctions de transition des cellules cachées sont la fonction
élémentaire « logistic sigmoid » :
Mémoires associatives 1
1 0.5
Le perceptron σ (V ) =
1 + e −V 0
Multi-couches (MLP)
- structure
- séparation non linéaire (Une des caractéristiques de cette fonction est que : σ ′(V ) = σ (V ) (1 − σ (V ) ) )
- propriétés
La fonction de coût est la classique erreur quadratique moyenne (EQM) :
- la rétro-propagation
- différentiation 1 Ns k
Q = ∑ ( yi − yidk )
k 2
numérique
2 i =1
MLP : optimisation
On obtient les résultats suivants. Pour les unités de sortie :
∂Q k ∂ ⎡ 1 Ns k dk 2 ⎤
δi = σ ′ (Vi ) = ⎢ ∑ ( yi − yi ) ⎥ .1 = yi − yi
k dk
∂yi ∂yi ⎣ 2 i =1 ⎦
Pour les unités cachées : Réseau à 1 couche cachée :
) (1 − σ (V ) ) ∑ ω
Nc+1 N c+1 Nc+1
δ (c)
j = σ ′ (V j
(c)
) ∑ω ij δ
( c +1) ( c +1)
i = σ (V j
(c)
j
(c)
ij δ
( c +1) ( c +1)
i =V j
(c)
(1 − V ) ∑ ω
j
(c)
ij δ
( c +1) ( c +1)
i
i =1 i =1 i =1
Différentiation numérique
élémentaire = + θ (ε )
∂ωij ε
Mémoires associatives On perturbe une connexion donnée et on calcul la variation de coût occasionnée.
Le perceptron
Multi-couches (MLP)
Le principal inconvénient de la méthode est son temps de calcul en ο ( Ω )
2
- structure
- séparation non linéaire Contre ο ( Ω ) pour la rétro-propagation.
- propriétés
- la rétro-propagation L’utilisation d’une forme symétrique de la différentiation permet d’améliorer
- différentiation l’estimation :
numérique
MLP : optimisation ∂Q k Q (ωij + ε ) − Q (ωij − ε )
k k
= + θ (ε 2 )
∂ωij 2ε
Le neurone biologique Du fait de la non linéarité de la fonction erreur Q selon ses variables ωij ,
Le neurone formel on ne sait pas trouver de solution Ω* par des méthodes analytiques.
Le perceptron
Q(ω1 , ω2 )
élémentaire
Mémoires associatives Descente de gradient :
présence de minima
Le perceptron
Locaux : ∇Q = 0
Multi-couches (MLP)
MLP : optimisation
En tout point ΩC le gradient local de
- initialisation
la surface d'erreur est donné par ∇Q
- pas adptatif
- momentum ω1
- approxim. quadratique ΩA ΩC
- direction de Newton ΩB
ω2 ∇Q
⎧ ρλ si ΔQ < 0 ( ρ = 1.1)
λ←⎨
⎩σλ si ΔQ > 0 (σ = 0.5) Modifications synaptiques annulées
Momentum
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation −∇Q
- initialisation
- pas adptatif
L’ajout d’un terme de moment dans la formule de descente du gradient
- momentum
permet d’ajouter un effet d’inertie et donc de filtrer les oscillations :
- approxim. quadratique
- direction de Newton ΔΩ( q ) = −λ∇ Q Ω( q ) + μΔΩ( q −1)
0 ≤ μ ≤1
Gradient ordinaire paramètre du moment
Q(ω)
λ
ω En supposant ΔΩ( q ) ΔΩ( q −1) ΔΩ( q − 2) on a : ΔΩ = −λ∇Q(1 + μ + μ + ...) = − ∇Q
Δω(1) Δω(2) Δω(3) Δω(4) 1− μ
Approximation quadratique locale
Le neurone biologique Au voisinage d’un minimum, le gradient ne pointe pas souvent vers le minimum :
Le neurone formel
Le perceptron Direction donnée Ω*
élémentaire par le gradient g
Mémoires associatives Direction « idéale »
Ω
Le perceptron
Multi-couches (MLP)
On se rapproche sensiblement de la direction idéale en considérant une
MLP : optimisation approximation quadratique locale de la fonction erreur :
- initialisation
Développement de Taylor au 2ème ordre de
- pas adptatif
- momentum l'erreur autour d'un point Ω
ˆ de l'espace des poids :
- approxim. quadratique
- direction de Newton
( ) ( ) ( ) ( )
Τ Τ
Q (Ω) = Q Ω ˆ ∇Q + 1 Ω − Ω
ˆ + Ω−Ω ˆ H Ω−Ω
ˆ
Ω
ˆ
2
Gradient en Ω
ˆ Matrice du Hessien évalluée en Ω
ˆ
2
∇ Q Ω* = 0
Approximation quadratique locale (3)
2
Mémoires associatives
le gradient en tout point du voisinage est donné par :
Le perceptron
Multi-couches (MLP) g = ∇Q = H ( Ω − Ω* )
III
Le neurone biologique
Probabilités conditionnelles :
Le neurone formel
Le perceptron La probabilité conditionnelle d’appartenance de l’image à une classe sachant
élémentaire Le résultat d’une mesure pratiquée sur cette image s’écrit :
Le neurone biologique
Pour une nouvelle image de caractéristique x, la probabilité de mauvaise classification
Le neurone formel est minimisée si l’on assigne à l’image inconnue la classe qui maximise les probabilités
Le perceptron a posteriori :
élémentaire
Assigner la classe Ck qui minimise la probabilité a posteriori P(Ck | x)
Mémoires associatives
Le perceptron
Multi-couches (MLP) Cette règle de décision est appelée décision bayesienne quoique le théorème de bayes
est en fait lié à l’estimation des probabilités a posteriori :
MLP : optimisation
MLP : classification
- Décision bayésienne Estimation des
probabilité Décision
- Winner takes all
a posteriori
- Probabilités a
posteriori
- Rejet
- Confusions Le gros avantage du théorème de Bayes est de permettre d’exprimer les probabilités
a posteriori en fonction des densité de probabilité, plus faciles à estimer
MLP : généralisation
Le problème reste maintenant d’estimer les densités de probabilités (cf. cours de RdF)
Le neurone biologique
Dans certains cas, l’ensemble des probabilités calculées sont faibles. Il peut
Le neurone formel être préférable alors de ne pas effectuer de classification si l’on souhaite minimiser
Le perceptron Le risque de faire des erreurs de classification :
élémentaire
Rejet « distance » :
Mémoires associatives
Pr. a posteriori : P (Ck | x)
Le perceptron
Multi-couches (MLP) décision rejet
Seuil de rejet : θ
MLP : optimisation
MLP : classification
- Décision bayésienne
Classe : Ck
- Winner takes all Rejet « ambiguïté » :
- Probabilités a
posteriori Pr. a posteriori : P (Ck | x)
- Rejet
- Confusions Seuil de rejet : θ décision rejet
MLP : généralisation
Classe : Ck
Les rejets peuvent être traités par des méthodes de classification alternatives…
Winner takes all
Le neurone biologique En classification, l’objectif donné au réseau est d’associer à un vecteur de caractéristiques
donné en entré une classe d’appartenance en sortie.
Le neurone formel On a deux possibilités :
Le perceptron
élémentaire Réseau discriminant Décision directe
Mémoires associatives
Le perceptron x Classe
Multi-couches (MLP) d’appartenance
MLP : optimisation
MLP : classification Vecteur de Une cellule de sortie par
- Décision bayésienne Forme
caractéristiques classe. Chaque sortie évalue
- Winner takes all une probabilité a posteriori
- Probabilités a Réseau Décision Bayesienne ou WTA
posteriori
- Rejet P (Ck =1,..., K | x)
- Confusions Classe
x d’appartenance
MLP : généralisation
Probabilités a
posteriori
Le deuxième procédé est plus intéressant car on peut exploiter nombre de résultats théoriques
Exemples (1)
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation ÆA (score=0.43) ÆA (score=0.83) ÆB (score=0.74)
MLP : classification
- Décision bayésienne
- Winner takes all
- Probabilités a
posteriori
- Rejet
- Confusions
MLP : généralisation •Rétine d ’entrée : 13x13 (centrage+réduction)
•Couche de sortie: 26 cellules, 1 par classe
•Couche cachée: 30 à 40 neurones
•Apprentissage:
–Rétro-propagation de l’erreur
Exemples (2)
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
- Décision bayésienne
- Winner takes all
- Probabilités a
posteriori
- Rejet
- Confusions
MLP : généralisation
Exemples (3)
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
- Décision bayésienne
- Winner takes all
- Probabilités a
posteriori
- Rejet
- Confusions
MLP : généralisation
Modéliser les probabilités a
posteriori (1)
Le neurone biologique Parmi les résultats théoriques applicables aux réseaux WTA :
j =1
Le perceptron Comme vu en haut, on peut estimer les probabilités a priori à partir d’une grande collection
élémentaire d’exemples de classe connue. De ce fait, la base d’apprentissage véhicule des informations
a priori concernant les classes :
Mémoires associatives
Ni
Le perceptron P (Ci )
Multi-couches (MLP) N
MLP : optimisation On doit pouvoir retrouver ces probabilités par calcul de la moyenne des sorties du réseau
sur tous les exemples puisque :
MLP : classification
- Décision bayésienne
K
1 1 1
- Winner takes all
P (Ci ) = ∫ P (Ci | x) p ( x)dx = lim
K →∞ K
∑ P(C | x)
k =1
i
K
∑ k
P (Ci | x) =
K
∑ k
yi
(k )
- Probabilités a
posteriori Si les probabilités a priori estimées à partir du réseau ne coïncident pas avec celles attendues,
- Rejet c’est à dire que les informations a priori véhiculées par la base ne sont pas correctes, on
- Confusions peut compenser l’écart observé :
MLP : généralisation Proba. correctes
P (Ci )
yi → yi
Pˆ (Ci )
Proba. estimées sur la base
Modéliser les probabilités a
posteriori : rejet
Le neurone biologique
Le neurone formel Combiner les sorties de plusieurs réseaux :
Le perceptron Il est possible de subdiviser un problème complexe en plusieurs problèmes simples et autant
élémentaire de réseaux. A condition de diviser les sorties des réseaux par les probabilités a priori utilisées
durant l’apprentissage, il devient possible de les multiplier entre elles à condition toutefois que
Mémoires associatives les entrées partagées sur les différents réseaux soient indépendantes les unes des autres.
Le perceptron
Multi-couches (MLP) Faire du rejet :
MLP : optimisation Comme vu plus haut, le fait que les sorties soient des probabilités a posteriori permet de
d’effectuer du rejet d’exemples lorsque les sorties du réseau ne sont pas suffisamment
MLP : classification
Élevées (rejet distance) ou que les deux sorties les plus actives sont trop proches l’une
- Décision bayésienne
de l’autre (rejet ambiguïté).
- Winner takes all
- Probabilités a
posteriori Contraintes à respecter :
- Rejet On montre que lorsque la fonction de coût est du type EQM et que les densités de probabilité
- Confusions sont gaussiennes ou tout au moins de la famille des densités exponentielles, les sorties du
MLP : généralisation réseau approximent les probabilités a posteriori.
Densité de probabilité conditionnelle aux classes
P( x | Ci ) P(Ci )
P(Ci | x) = A noter que les réseaux
P( x) ne nécessitent pas l’estimation
des densités de probabilité
Confusions
Le neurone biologique La matrice des confusions est définie sur une base d’exemples labellisés, c’est à dire
Le neurone formel dont on connaît les classes d’appartenance. Les réponses données par le réseau (ou tout
autre système de RdF) sont cumulées selon le principe d’un histogramme des classes :
Le perceptron
élémentaire
Classes proposées par le réseau Exemples rejetés
Mémoires associatives
1 2 3 4 5 6 7 8 9 R
Le perceptron
Multi-couches (MLP) 1
MLP : optimisation 2
MLP : classification 3 5% des exemples de
- Décision bayésienne 4 Label 6 ont été rejetés
- Winner takes all
- Probabilités a 5
posteriori 6 5 3 4 6 5 45 22 5 0 5 ∑ = 100%
- Rejet 7
- Confusions
8 22% des exemples de label 6
MLP : généralisation ont été classés comme des 7 :
9
confusion
Le neurone biologique L’objectif de l’apprentissage d’un réseau n’est pas de mémoriser une représentation
Le neurone formel exacte des données d’apprentissage mais plutôt de construire une modélisation statistique
du modèle qui les a généré.
Le perceptron
élémentaire
Un moyen de vérifier si un réseau a construit une bonne modélisation est de tester ses
Mémoires associatives capacités en généralisation, c’est à dire ça capacité de donner de bonnes réponses pour
des données non apprises.
Le perceptron
Multi-couches (MLP)
Ensemble des données
MLP : optimisation Disponibles (100%)
MLP : classification Base de test (30%)
MLP : généralisation
Base d’apprentissage (70%)
Stabilisation structurelle
x Deux voies :
Données d’apprentissages (bruitées) Régularisation
MLP : Généralisation
Le neurone biologique
Le neurone formel Deux voies à explorer
Le perceptron
élémentaire
Stabilisation structurelle Régularisation
Mémoires associatives
Le perceptron
Multi-couches (MLP)
Contrôler la complexité du réseau Contrôler l’apprentissage par adjonction
MLP : optimisation par ajout ou élagage de connexions à la fonction erreur d’un terme de pénalité
et/ou cellules ou d’un critère d’arrêt
MLP : classification
MLP : généralisation
Formalisation probabiliste
Le neurone biologique L’objectif de l’apprentissage d’un réseau n’est pas de mémoriser parfaitement les données
Le neurone formel d’apprentissage mais plutôt de modéliser correctement le processus qui les a généré.
Le perceptron
élémentaire Ainsi, le réseau devra donner la meilleur prédiction de la cible z lorsqu’on
lui présente en entrée une donnée nouvelle x.
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation x y
MLP : classification
Erreur de
MLP : généralisation prédiction
Processus z=h( x)
z=y d
Mémoires associatives Pour les problèmes de classification, les cibles z sont des
labels représentant des classes d’appartenance ou, plus
Le perceptron généralement, des probabilités de classe d’appartenance.
Multi-couches (MLP)
Dans un problème à N classes, la vraisemblance s'écrit L = ∏∏ p ( x k , z i )
N
MLP : optimisation
k i =1
MLP : classification
soit : E = −∑∑ log p ( z i | x k ) − N ∑ log p ( x k )
N
MLP : généralisation k i =1 k
Soit yi ( x k , Ω ) l'une des N sorties calculées par le réseau (1 cellule par classe)
On suppose que la cible zi est générée par un processus bruité tel que : zi = hi (x) + ε i
On suppose également que ε suit une loi normale de moyenne nulle et de variance σ :
On a ici déduit l’erreur
⎜− i ( ) i
⎛ y xk , Ω − z
( ) ⎞
2
EQM à partir du principe ⎛ ( ε i )2 ⎞
p ( zi | x ) = p(ε i ) = ⎟
1 1
du maximum de vrai-
k
exp ⎜ − ⎟ = exp
2πσ 2 ⎜ 2σ 2 ⎟ 2πσ 2 ⎜⎜ 2σ 2 ⎟⎟
semblance et sous l’hypo- ⎝ ⎠ ⎝ ⎠
Où l'on a remplacé le modèle déterministe hi ( x) par le notre yi ( x k , Ω )
thèse d’une distribution
gaussienne des données.
∑∑ ( y ( x , Ω ) − z )
N
1 2 NK
Alors : E = k
+ NK log σ + log(2π )
2σ 2 i i
k i =1 2
Cibles bruitées
Le neurone biologique Une propriété importante est l’approximation par les sorties d’un réseau de l’espérance
conditionnelle des données cibles, lorsque l’on minimise l’EQM.
Le neurone formel
Le perceptron Si l'on suppose que la taille N de la base d'apprentissage tend vers l'infini
élémentaire
( () )
N
= ∑ ∫∫ ( yi ( x, Ω ) − zi ) p ( zi , x ) dzi d x
1 1
∑∑
2 2
On a : E = lim y x k
, Ω − z k
Mémoires associatives
i i
N →∞ 2 N 2 i
k i =1
z
Peut être négligé car ne dépend pas
des poids
p( z | x0 )
x yi ( x, Ω* ) = zi | x
x0
Données d’apprentissages (cibles bruitées)
Le biais et la variance
Le neurone biologique Idéalement, la fonction optimale y(x) réalisée par le réseau est telle que y(x)=<z|x>.
Dans la pratique, on se heurte au problème de la finitude de la base d’apprentissage :
Le neurone formel
Le perceptron Une mesure de la distance de la fonction réalisée par le réseau avec la fonction cible
élémentaire
est donnée par : ( y ( x ) − z | x )
2
Mémoires associatives
Mais cette mesure dépend de la base A utilisée pour apprendre le réseau.
Le perceptron
Multi-couches (MLP) On peut éliminer ce problème en calculant l’espérance sur l’ensemble des
ensembles d’apprentissage possibles :
MLP : optimisation
MLP : classification E A ⎡( y ( x ) − z | x ) ⎤
2
⎣ ⎦
MLP : généralisation
C’est la variance
C’est le biais
On montre : E A ⎡( y ( x ) − z | x ) (
⎤ = E ⎡ y ( x )⎤ − z | x ) ( )
+ E A ⎡ y ( x ) − E A ⎡⎣ y ( x ) ⎤⎦ ⎤
2 2 2
A ⎣ ⎦ ⎢⎣ ⎥⎦
⎣ ⎦
Minimisation des poids
Le neurone biologique La meilleure généralisation s’obtient lorsque l’on minimise simultanément le biais et la
variance. Ce cas arrive lorsque l’on fait tendre la taille de l’ensemble d’apprentissage vers
Le neurone formel
l’infini !
Le perceptron
élémentaire Réseau trop complexe Variance élevée
Mémoires associatives Dans la réalité, cet ensemble est fini.
Le perceptron Réseau trop simple Biais élevé
Multi-couches (MLP)
Méthodes de régularisation
MLP : optimisation
MLP : classification
Une variance élevée se traduit par des courbures fortes de la fonction
MLP : généralisation Réalisée par le réseau. L’obtention de telles courbures s’obtient par :
Données d’apprentissage
Nb Iterations
Arrêt recommandé
Performances d’un classifieur
Le neurone biologique
Le neurone formel
Le perceptron reconnaissance
élémentaire RF : représentation RC : représentation
Mémoires associatives des formes des classes
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation
Formes Classes
codage classification
Représentation des formes (2)
Le neurone biologique
Hypothèse 2 : mauvaise qualité de l’ensemble d’apprentissage
Le neurone formel
Le perceptron
élémentaire
RF
Mémoires associatives
Le perceptron
Multi-couches (MLP)
bonne mauvaise
MLP : optimisation
MLP : classification
MLP : généralisation
RC mauvaise en généralisation
IV
Le neurone biologique
Une des caractéristiques fondamentales de l'organisation des voies
Le neurone formel sensorielles primaires est l'existence d'une correspondance topique, c'est à
Le perceptron dire point par point, entre le récepteur périphérique et son aire de projection
élémentaire corticale.
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Aires sensorielles primaires
Le neurone biologique
Le neurone formel De cette constatation découlent plusieurs remarques importantes :
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation On peux ainsi illustrer l’importance des aires
corticales dédiées au toucher chez l’homme par
MLP : classification l’homonculus sensitif, on remarque en particulier
MLP : généralisation la proéminence des mains pour lesquelles ce sens
est particulièrement développé.
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Tonotopie
Le neurone biologique 2) On peux dresser des cartes neuronales mettant en avant une projection
Le neurone formel linéaire des signaux des récepteurs vers l’aire associée.
Le perceptron
élémentaire La partie grisée
représente l’aire auditive
Mémoires associatives du cerveau d’un chat et
Le perceptron celle de droite un gros plan
Multi-couches (MLP) sur l’organisation de ses
neurones.
MLP : optimisation
Chaque point correspond à
MLP : classification un neurone et le chiffre
MLP : généralisation associé indique la
fréquence reçue par le
Auto-organisation
système auditif (en KHz)
- Apprentissage non
pour laquelle le neurone
supervisé
est excité. Carte tonotopique du chat
- Chez les vertébrés
- Les cartes de Kohonen On remarque alors que les neurones correspondants aux basses fréquences sont
- Algorithmes LVQ situés à droite alors que les hautes fréquences sont situées à l’autre extrémité
du cortex auditif. De plus, deux neurones sensibles à des fréquences voisines
seront spatialement proches dans l’aire corticale auditive.
Le neurone biologique
On appelle plasticité, le phénomène d’adaptation du cerveau aux signaux
Le neurone formel qu’il reçoit.
Le perceptron
élémentaire
Illustration :
Mémoires associatives
Le perceptron Patient atteint de syndactylie (doigts attachés dès la naissance)
Multi-couches (MLP)
MLP : optimisation Avant l’opération, le patient a
trois doigts collés.
MLP : classification
par magnéto-encéphalographie
MLP : généralisation on peut dresser la carte
Auto-organisation somatotopique correspondant
- Apprentissage non
à la représentation corticale
supervisé des doigts.
- Chez les vertébrés
On constate alors que les aires
- Les cartes de Kohonen
de projection corticale des
- Algorithmes LVQ doigts sont très rapprochées
spatialement.
Plasticité du cortex
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation Après une opération visant à
séparer le doigt 4 du doigt 5,
Auto-organisation on remarque, en observant la
- Apprentissage non distance de séparation des
supervisé aires de projection corticale
- Chez les vertébrés de ces doigts, que le cerveau
- Les cartes de Kohonen s’adapte rapidement (6 jours)
- Algorithmes LVQ à la modification établie.
La courbe indique la distance
de séparation des aires de
projection corticale entre les
doigts 4 et 5 depuis le début
de l’opération.
Les cartes de Kohonen
Le neurone biologique
Le neurone formel Les réseaux de Kohonen sont directement inspirés des concepts vus dans la
partie précédente, ils doivent donc avoir les propriétés suivantes :
Le perceptron
élémentaire
Mémoires associatives
Le perceptron • L’apprentissage est non-supervisé, ce sont les signaux d’entrée qui
Multi-couches (MLP) organisent le réseau.
MLP : optimisation
MLP : classification • Le réseau doit avoir une structure topologique afin d’introduire le concept
MLP : généralisation de voisinage.
Auto-organisation
- Apprentissage non • Il doit prendre en compte le mécanisme d’interaction latérale.
supervisé
- Chez les vertébrés
- Les cartes de Kohonen • Deux signaux proches en entrée doivent activer deux neurones proches en
- Algorithmes LVQ sortie (tonotopie).
Intéraction latérale
Le neurone biologique L’interaction latérale (Kohonen) désigne le fait qu’il existe une relation entre
Le neurone formel l’activité d’un neurone du cortex et celle de ses voisins en fonction de la distance
les séparant.
Le perceptron
Cette dépendance est représentée par la fonction du « chapeau mexicain ».
élémentaire
Mémoires associatives
Le perceptron • Les neurones excités excitent
Multi-couches (MLP) à leur tour les neurones voisins
situés entre 50 et 100
MLP : optimisation
micromètres qui leurs sont
MLP : classification connectés.
MLP : généralisation • Pour des voisins plus lointains,
Auto-organisation 200 à 500 micromètres, l’action
- Apprentissage non
est inhibitrice.
supervisé • Pour des neurones encore plus
- Chez les vertébrés lointains, l’action est
- Les cartes de Kohonen négligeable.
- Algorithmes LVQ
Fonction du « chapeau mexicain »
Structure des cartes
Le neurone biologique
Le neurone formel Exemple d’une structure de réseau de Kohonen : N=2, M=9
MLP : optimisation
L’effet des connexions latérales récurrentes est une augmentation du contraste
MLP : classification dans le réseau : l’activité des neurones voisins est facilitée, celle des neurones
MLP : généralisation éloignés est inhibée. C’est le mécanisme de compétition.
Auto-organisation A l’équilibre, la sortie du réseau fait apparaître une zone d’activité prépondé-
- Apprentissage non rante autour du neurone gagnant, entouré de zones inactives, ou faiblement
supervisé actives.
- Chez les vertébrés
- Les cartes de Kohonen Les connexions modifiables sont ensuite ajustées selon la règle :
- Algorithmes LVQ
Δωij = α yi ( X − Wi )
Le neurone formel
Le perceptron X − Wi
élémentaire
X
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation α yi ( X − Wi )
MLP : classification Wi + ΔWi
MLP : généralisation
Auto-organisation Wi
- Apprentissage non
supervisé
- Chez les vertébrés Le problème posé par le produit scalaire est que l’on n’a pas forcément :
- Les cartes de Kohonen
Le neurone biologique
Le neurone formel Soit un ensemble de 10000 vecteurs à 2 composantes possédant une densité de
probabilité uniforme à valeur dans [0..10], [0..10].
Le perceptron
élémentaire Considérons une couche de sortie de 100 neurones avec une topologie
hexagonale.
Mémoires associatives
Les poids synaptiques sont initialisés avec des valeurs comprises entre 5 et 5,1 .
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Exemple (évolution de la carte)
Le neurone biologique
Le neurone formel
Le perceptron
élémentaire
Mémoires associatives
Le perceptron
Multi-couches (MLP)
MLP : optimisation
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé
- Chez les vertébrés
- Les cartes de Kohonen
- Algorithmes LVQ
Règle de Ritter et Shulten (1986)
Le neurone biologique
Définir les relation de voisinage ainsi que le nombre de neurones M de la couche de sortie.
Le neurone formel Initialiser les poids synaptiques W en fonction des données de la base d’apprentissage ou
Le perceptron bien aléatoirement. i
élémentaire
Faire
Mémoires associatives • Présentation d’un vecteur d’entrée X (t ) choisi aléatoirement
Le perceptron • Chercher le neurone gagnant :
Multi-couches (MLP)
i0 = arg min i∈[1..M ] || X (t ) - Wi ||
MLP : optimisation • Modifier les poids du gagnant et de son voisinage :
MLP : classification Δ W i = α ( t ) G ( i , i0 , t ) ( X ( t ) − W i )
MLP : généralisation • Décroître le pas d’apprentissage et l’étendue du voisinage :
Auto-organisation α ( t ) → α ( t + 1) et σ ( t ) → σ ( t + 1)
- Apprentissage non
Tant que critère d’arrêt non atteint
supervisé
- Chez les vertébrés
- Les cartes de Kohonen Note : on peut faire décroître les deux paramètres de la manière suivante :
- Algorithmes LVQ
Valeur finale
t
⎛α ⎞ tm ax Itération finale
α t = α i . ⎜⎜ f ⎟⎟
⎝ αi ⎠
Valeur initiale
Conclusion
Le neurone biologique
Le neurone formel
Comme pour tous les algorithmes provenant d’adaptation de
Le perceptron
élémentaire
constatations neurobiologiques, la démarche a été d’implémenter et
de tester d’abord puis ensuite de prouver mathématiquement son
Mémoires associatives efficacité.
Le perceptron
Multi-couches (MLP) Actuellement la connaissance des propriétés mathématiques de cet
algorithme est incomplète. Kohonen optimise-t’il un critère, le
MLP : optimisation
réseau converge-t’il?
MLP : classification
MLP : généralisation
Auto-organisation
- Apprentissage non
supervisé Remarque importante :
- Chez les vertébrés
- Les cartes de Kohonen La sélection du gagnant se fait à partir d’une distance mais il faut
- Algorithmes LVQ qu’elle soit adaptée aux données. Si toutes les composantes des
vecteurs d’entrée ont la même variance alors la distance euclidienne
est adaptée, sinon il faudra procéder à une normalisation ou prendre
une distance euclidienne pondérée.
Quantification vectorielle
Le neurone biologique Plus récemment, pour la classification, Kohonen a proposé une classe
Le neurone formel d’algorithmes nommée LVQ pour Learning Vector Quantization. Les règles
d’adaptation sont des versions supervisées des cartes topologiques.
Le perceptron
élémentaire La règle d’adaptation des poids s’effectue toujours sur les poids des
neurones appartenant au voisinage du gagnant, mais elle est modifiée :
Mémoires associatives
Le perceptron Δ W i = ± α G ( i , i0 ) ( X − W i )
Multi-couches (MLP)
MLP : optimisation On utilise le signe « + » lorsque le gagnant est de la même classe que
MLP : classification l’exemple présenté. Le signe « - » dans le cas contraire.
Le neurone biologique
1.2 1.2
Le neurone formel
1 1
Mémoires associatives
0.4 0.4
Le perceptron
Multi-couches (MLP) 0.2 0.2
MLP : optimisation 0 0
Auto-organisation 1 1
- Apprentissage non
supervisé 0.8 0.8
0.2 0.2
0 0
-0.2 -0.2
-0.2 0 0.2 0.4 0.6 0.8 1 1.2 -0.2 0 0.2 0.4 0.6 0.8 1 1.2
Exemple (2)
1.2
Le neurone biologique
1
Le neurone formel
0.8
Le perceptron
élémentaire 0.6
Le perceptron 0.2
Multi-couches (MLP) 0
MLP : classification
MLP : généralisation
1ère itération et 17ème itération.
1.2
Auto-organisation
Le taux d’erreur passe de 14.2% à
- Apprentissage non
1
supervisé
5.2%
0.8
0.2
-0.2
-0.2 0 0.2 0.4 0.6 0.8 1 1.2
Exemple (3)
Le neurone biologique
1.2 1.2
Le neurone formel
1 1
Le perceptron
élémentaire
0.8 0.8
0.6 0.6
Mémoires associatives
0.4 0.4
Le perceptron
Multi-couches (MLP)
0.2 0.2
MLP : optimisation
0 0
-0 . 2 -0 . 2
MLP : généralisation
1 .2 1.2
Auto-organisation
1 1
supervisé 0 .6 0.6
- Algorithmes LVQ
0 .2
0
0
-0.2
-0 .2 -0.2 0 0.2 0. 4 0 .6 0.8 1 1.2
-0 .2 0 0 .2 0.4 0 .6 0 .8 1 1 .2
Exemple (4)
Le neurone formel 1
Le perceptron 0.8
élémentaire
0.6
Mémoires associatives
0.4
Le perceptron
Multi-couches (MLP) 0.2
MLP : optimisation 0
Auto-organisation
- Apprentissage non Seulement 4 noyaux alors qu’il en 1
0.2
-0.2
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
Machines à
Vecteurs Supports
-SVM-
Auto-organisation
x2 ω2
y
Modèles LVQ Φ
Machines SVM
WX Τ < 0 WX Τ > 0
Fonction OU Exclusif
Machines SVM ⎢ 2⎥ ⎢ ⎥
Φ
⎢... ⎥ ⎢ x N ⎥
⎢ ⎥ ⎢ xN +1 ⎥
xN '
⎢⎣ xN ⎥⎦ ⎢ ⎥ classes
⎢... ⎥
Espace des entrées ⎢⎢ x ⎥⎥
⎣ N' ⎦
Espace des caractéristiques
Les problèmes posés par les SVM
Le neurone biologique 1) Pour un problème de classification donné, il faut connaître les bons
Le neurone formel descripteurs pour décrire les données, c’est à dire trouver le bon opérateur Φ
Le perceptron Plus la dimension de l’espace de description est grande, plus la probabilité
élémentaire de trouver un hyperplan séparateur est élevée.
Mémoires associatives
2) Calculer des produits scalaires dans le nouvel espace peut vite devenir
Le perceptron impraticable du fait de sa grande dimension.
Multi-couches (MLP) Ex :
• Soit à classer des images de caractères de dimension 16 × 16.
MLP : optimisation • On suppose qu'il faut tenir compte des corrélations entre 5 pixels
MLP : classification quelconques au plus dans l'image.
MLP : généralisation • L'espace de redescription qui contient toutes les combinaisons de 5
pixels quelconques parmi 256 est alors de dimension de l'ordre de 1010 !
Auto-organisation
Modèles LVQ On peut éviter de calculer dans l’espace de redescription en utilisant des
fonctions appelées « fonctions noyau ».
Machines SVM
3) Pour les problèmes linéairement séparables, il existe en général une infinité
d’hyperplans séparateurs. Certains permettent une meilleur généralisation.
Lequel choisir et comment ?
Le perceptron ⎢ ⎥
H ⎢... ⎥
Multi-couches (MLP) ⎢ xN ⎥
⎣ ⎦
MLP : optimisation appartiennent à l'hyperplan séparateur, normal au vecteur ω dans
MLP : classification l'espace des entrées élargi de dimension N + 1.
Dans l'espace élargi, l'hyperplan séparateur passe par l'origine.
MLP : généralisation
Auto-organisation Espace élargi
Si le problème est linéairement séparable, il
Modèles LVQ existe une infinité d’hyperplans qui classent
correctement les exemples :
Machines SVM
H
xH
ω
V ( x) = −1 ω , x H + ω0 = 0 ⇔ ∑ ωi xiH + ω0 = 0
i
Sortie du perceptron :
⎧+1 si V ( x) > 0
y=⎨ avec V ( x) = ω , x H + ω0
⎩−1 si V ( x) < 0
2
Marge maximale (après normalisation adéquate des poids) : d =
ω
Expression primale
Le neurone biologique La marge maximale s’obtient en minimisant la norme du vecteur poids :
Le neurone formel 2
maximiser d = revient à minimiser ω
Le perceptron ω
élémentaire
Le problème global d’optimisation (recherche de l’hyperplan optimal) est donc :
Mémoires associatives
Le perceptron ⎧ 1
⎪ Minimiser ω
2
Multi-couches (MLP)
⎨ 2
MLP : optimisation ⎪sous les contraintes : y kV ( x k ) ≥ 1 Formulation
⎩
«primale»
MLP : classification
MLP : généralisation
Sortie du perceptron Normalisation des poids
Auto-organisation pour l’exemple k pour une marge maximale d =
2
Modèles LVQ
ω
Problème quadratique en
⎧ 1
ω dimension N’ dans un
2
⎪ Minimiser
⎨ 2 domaine convexe (solution
( )
⎪sous les contraintes : y kV Φ ( x k ) ≥ 1
⎩
unique).
Intérêt supplémentaire
On obtient une machine SVM dite « à marge dure » des SVM
SVM : les contraintes
Le neurone biologique Aux qualités que l’on a déjà souligné des SVM :
Modèles LVQ • L’hyperplan optimal n’est pas forcément la solution qui généralise le mieux
Machines SVM (risque empirique et risque réel)
• Etant donné la grande dimension de l’espace des caractéristiques, on peu
même se demander si le risque empirique reste corrélé au risque réel
• La grande dimension de l’espace des caractéristiques rend impraticable
les calculs de minimisation quadratiques.
• Les exemples peuvent ne pas être linéairement séparés
SVM : expression duale
Le neurone biologique Il existe une transformation du problème d’optimisation dans une formulation
duale que l’on peut résoudre en pratique si la fonction à minimiser et ses
Le neurone formel
contraintes sont strictement convexes.
Le perceptron
élémentaire
Mémoires associatives Multiplicateurs de Lagrange
Le perceptron
( ( x ,ω ) )
Multi-couches (MLP) 1 K
(A) L(ω , ω0 , α ) = ω − ∑αk yk + ω0 − 1
2 k
MLP : optimisation 2 k =1
MLP : classification
MLP : généralisation Lagrangien Fonction à
y k (ω.x k + ω0 ) ≥ +1
minimiser Combinaison linéaire
Auto-organisation des contraintes :
Objectif :
Modèles LVQ
éviter la solution particulière :
Machines SVM
y k (ω.x k + ω0 ) ≥ 0 ⇔ ω = ω0 = 0
{
min max { L(ω , ω0 , α )}
ω α
}
∂L(ω , ω0 , α ) ∂L(ω , ω0 , α )
Point-selle du Lagrangien : = =0
∂ω ∂ω0
SVM : expression duale (suite)
( ( x ,ω ) )
K
1
Le neurone biologique (A) L(ω , ω0 , α ) = ω − ∑αk yk + ω0 − 1
2 k
Le neurone formel 2 k =1
Le perceptron
élémentaire ∂L(ω , ω0 , α ) K K
= 0 ⇔ ω − ∑αk y x = 0 ⇔ ω = ∑αk yk xk
k k
Mémoires associatives ∂ω k =1 k =1
Le perceptron
Multi-couches (MLP) ∂L(ω , ω0 , α ) K K
= 0 ⇔ −∑ α k y = 0 ⇔ ∑ α k y k = 0
k
K K K
+ ∑ α k − ∑∑ α kα k ' y k y k ' x k ,x k '
k =1 k =1 k '=1
K
1 K K
(B) L(ω , ω0 , α ) = ∑ α k − ∑∑ α kα k ' y y x ,x
k k' k k'
k =1 2 k =1 k '=1
forme duale du problème d’optimisation
Le neurone biologique Les variables primaires sont éliminées et l’on obtient la forme duale du
problème d’optimisation :
Le neurone formel
Le perceptron Trouver les multiplicateurs de Lagrange tels que :
élémentaire
Mémoires associatives ⎧ ⎧K 1 K K ⎫
Le perceptron ⎪max { L(ω , ω0 , α )} = max ⎨∑ α k − ∑∑ α kα k ' y k y k ' x k ,x k ' ⎬
Multi-couches (MLP) ⎪⎪
α α
⎩ k =1 2 k =1 k '=1 ⎭
⎨α k ≥ 0, i = 1,..., K
MLP : optimisation
⎪K
MLP : classification ⎪∑ α k y k = 0
⎪⎩ k =1
MLP : généralisation
Auto-organisation
Modèles LVQ L’hyperplan solution correspondant peut alors être écrit :
Machines SVM
⎛ K * k k⎞ K
V (x) = ω .x + ω = ⎜ ∑ α k y x ⎟ .x + ω0* =
* *
0 ∑α *
k y k x k , x + ω0*
⎝ k =1 ⎠ k =1
Le poids seuil ω0 est obtenu à partir de l'un quelconque Ne dépend plus de la dimension
de l’espace d’entrée mais du nombre
des vecteurs supports et de la contrainte correspondante :
d’exemples caractéristiques (les
( )
α k ⎡ y k ω * , x k + ω0 − 1⎤ = 0
⎣ ⎦
vecteurs supports).
Passage dans l’espace de redescription
Les vecteurs support sont exactement sur la marge, c’est à dire qu’ils
Le neurone biologique vérifient : K
V (x s ) = ∑ α k* y k x k , x s + ω0* = ±1
Le neurone formel
k =1
Le perceptron Après l’apprentissage, il suffit de ne conserver que les exemples de la
élémentaire base qui sont les vecteurs support et les coefficients associés. En effet,
l’équation de l’hyperplan ne dépend que des vecteurs supports et s’écrit :
Mémoires associatives S
Le perceptron V (x) = ∑ α s* y s x s , x + ω0* = 0
Multi-couches (MLP) s =1
MLP : optimisation La classe d’un exemple quelconque s’obtient donc par le calcul :
MLP : classification ⎧S * s s ⎫
y = sgn {V (x)} = sgn ⎨∑ α s y x , x + ω0* ⎬
MLP : généralisation ⎩ s =1 ⎭
Auto-organisation Il nous manque maintenant les bons descripteurs pour passer de l’espace
Modèles LVQ d’entrée à l’espace de description où le problème est sensé être linéairement
séparable.
Machines SVM
x = [ x1 , x2 ,..., xN ] → Φ ( x ) = ⎡⎣φ1 ( x ) , φ2 ( x ) ,..., φN ( x ) ,..., φN ' ( x ) ⎤⎦
⎨α k ≥ 0, i = 1,..., K
⎪K L’équation de l’hyperplan séparateur :
⎪∑ α k y = 0
k
( )
S
⎪⎩ k =1
∑
V (Φ ( x )) = α s* y s K x s , x + ω0* = 0
s =1
La classe d’un exemple quelconque :
⎧S * s ⎫
y = sgn {V (Φ ( x ))} = sgn ⎨∑ α s y K ( x s , x ) + ω0* ⎬
⎩ s =1 ⎭
Le noyau gaussien RBF
Un des opérateurs les plus utilisés est l’opérateur gaussien :
Le neurone biologique
( x − y )2
−
Le neurone formel K (x, y) = e σ2
Le perceptron
élémentaire Il est généralement appelé RBF (Radial Basis Function) et correspond à une
application dans un espace de caractéristiques de dimension infinie !
Mémoires associatives (l’écart type est défini a priori par l’utilisateur).
Le perceptron
Multi-couches (MLP)
MLP : optimisation La mise en œuvre de la méthode des SVM requiert l’accès à un système de
résolution de programmation quadratique.
MLP : classification
MLP : généralisation
Auto-organisation On remarque qu’avec les SVM, la dimension de l’espace des entrées augmente
Modèles LVQ ? considérablement (ce qui entraîne un risque empirique faible : on est confiant
dans l’existence d’une solution au problème) mais que dans le même temps,
Machines SVM le nombre d’exemples reste le même :
Machines SVM
Rˆ ( h, S K ) =
K
∑ L ( z , h)
k =1
k
R ( h ) = ∫ L ( z , h ) p ( z )dz
On ne peut pas mesurer le risque réel car la densité p(z) n’est pas connue
Apprentissage : l’induction
Le neurone biologique Le problème de l’induction est de trouver l’hypothèse h qui minimise le risque
Le neurone formel réel. Ne pouvant le mesurer, on se contente de mesurer le risque empirique.
Le perceptron Ce faisant, on induit que l’hypothèse trouvée, celle qui minimise le risque
élémentaire empirique, minimise également le risque réel.
Mémoires associatives
Comme ce n’est le plus souvent pas le cas, le problème de trouver h n’est
Le perceptron pas seulement un problème d’optimisation.
Multi-couches (MLP)
MLP : optimisation
MLP : classification Il existe une fonction f appartenant à une famille de fonctions F
MLP : généralisation réalisant l'association entre les entrées x et les étiquettes y.
Auto-organisation
On cherche une fonction hypothèse h, dans l'espace des fonctions H ,
Modèles LVQ
aussi proche que possible de f , la fonction cible.
Machines SVM
Il peut y avoir un bruit sur les étiquettes se traduisant par des étiquetages erronés.
Les erreurs d’apprentissage
Le neurone biologique
Le neurone formel Erreur d’estimation
Le perceptron (variance)
élémentaire
H
Erreur d’approximation
Mémoires associatives (biais)
Le perceptron
Multi-couches (MLP)
{hˆ} SK
F
MLP : optimisation h*
MLP : classification h •
MLP : généralisation
•
Auto-organisation
Modèles LVQ
Machines SVM • f
•
Erreur totale f + bruit
Erreur intrinsèque
Les erreurs d’apprentissage
Le neurone biologique
Le neurone formel Plus H est riche plus la variance
Le perceptron peut être importante. Le biais (inductif) est dû à
élémentaire
H
la différence entre F et H
Mémoires associatives
Le perceptron
Multi-couches (MLP)
{hˆ} SK
F
MLP : optimisation h*
MLP : classification ĥ •
MLP : généralisation
•
Auto-organisation
Modèles LVQ
Machines SVM • f
•
Erreur totale f + bruit
Cette erreur complique la recherche
de l’hypothèse optimale