Cours NN

T HOMSON-CSF/SDC
Les reseaux de neurones Cours E.N.S.T.A. 1995

1er fevrier 1995
Fabrice ROSSI
Table des matieres

1.1 1.2 1.3 1.4
1 Du neurone biologique au neurone formel

Le neurone biologique : : : : : : : : Le neurone de Mac Culloch et Pitts Apprentissage : : : : : : : : : : : : : Interpretation geometrique : : : : : : : : : : : : : : : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
: : : :
3 4 6 8
2 Le perceptron multi-couche (MLP)
2.1 Le modele : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 9 2.2 Apprentissage : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 12 2.3 Retro-propagation : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 15 Geometrie des regions de decision : : Calcul exact de fonctions booleennes Complexite de l'apprentissage : : : : Dimension de Vapnik-Chervonenkis : Calcul approximatif : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :
3 Resultats theoriques concernant les MLPs

3.1 3.2 3.3 3.4 3.5
19
19 23 24 25 26
4 Modeles derives des MLPs

5.1 5.2 5.3 5.4 Idee generale : : : : : : Calcul des di erentielles Complexite : : : : : : : Conclusion : : : : : : :
4.1 Reseau d'ondelettes : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 27 4.2 Autres modeles : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 29 : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 31 32 34 35
27 31
5 Generalisation: les reseaux d'operateurs
Ecole Normale Superieure
Fevrier 95
T HOMSON-CSF/SDC
6 Conclusion
36
Plan du cours
Slide 1
Du neurone biologique au neurone formel. Le perceptron multi-couches (MLP). Resultats theoriques sur les MLPs. Modeles derives des MLPs. Les reseaux d'operateurs.
Fevrier 95
T HOMSON-CSF/SDC
1 Du neurone biologique au neurone formel

1.1 Le neurone biologique
Le neurone biologique
Constitue de :
Slide 2
un corps cellulaire un axone (la sortie) des dendrites (les entrees). Signal emis par le neurone : depuis l'axone vers les dendrites des autres neurones. Jonction entre dendrite et axone : synapse (transmission chimique)
Le signal emis est une suite de depolarisation de la membrane de l'axone ou de la dendrite. Seule la frequence des emissions est importante. Cette frequence peut ^tre modi ee par la synapse e (synapse excitatrice ou inhibitrice). La transmission chimique fait intervenir des neuro-mediateurs (substances chimiques). Au niveau du neurone, on assiste a une integration du signal recu qui provoquera l'emission eventuelle d'un nouveau signal. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
1.2 Le neurone de Mac Culloch et Pitts
Le neurone formel de Mac Culloch et Pitts

Slide 3
Constitue de : un automate a deux etats (actif=1, inactif=0) une sortie (transmission de l'etat)=axone des entrees ponderees (entrees=dendrites, ponderations=synapse) un seuil de declenchement.
Modele mathematique
Slide 4
Wji coe cient synaptique de i vers j. xj (t) sortie (ou etat) de j a l'instant t. i seuil de i. L'etat du neurone j a l'instant t + 1 est : P 0 si i Wjixi (t) > i P 1 si i Wjixi (t) i
Fevrier 95
T HOMSON-CSF/SDC
Le coe cient synaptique modelise la synapse entre deux neurones par un reel (positif dans le cas excitateur et negatif dans le cas contraire). L'integration temporelle est representee par la sommation des entrees.
Fonction de transfert
Slide 5
Lien entre le potentiel recu Vj (t) = i Wji xi(t) et l'etat du neurone xj (t + 1) = f(Vj (t)). Mc Culloch et Pitts : f est la fonction de heaviside. Maintenant : choix tres large (fonction lineaire saturee, fonction sigmo de comme la tangente hyperbolique, etc.)
P
On verra dans la suite les conditions necessaires sur la fonction de transfert a n d'obtenir la propriete d'approximation universelle. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
1.3 Apprentissage
Utilisation
Slide 6
Une entree vectorielle et une sortie reelle : Calcul de fonction vectorielle (de IRn dans IR) Separation de vecteurs (avec heaviside). Le probleme: comment choisir les coe cients synaptiques?
La separation et le calcul de fonctions vectorielles sont bien entendu deux aspects d'un m^me e probleme.
Apprentissage supervise
Calculer les coe cients d'un neurone pour obtenir une fonction particuliere.
Slide 7
Une fonction: un ensemble de couples entree et sortie : les (xi yi ). Minimiser l'erreur commise par le neurone, i.e. une distance entre la sortie obtenue pour l'entree xi et la sortie desiree yi . Methode classique : mise a jour recursive des poids synaptiques du neurone en presentant les exemples un a un.
Fevrier 95
T HOMSON-CSF/SDC
La distance choisie est souvent une norme quadratique, comme nous le verons par la suite.
Regles classiques
Adaline : Vk =
X i
Wi (t)xik + (t)
Slide 8
Perceptron :
W(t + 1) = (yk ; Vk )xk (t + 1) = (yk ; Vk ) ok = H(

X i
Wi (t)xik + (t))
W (t + 1) = (yk ; ok )xk (t + 1) = (yk ; ok )
xk est le vecteur presente a l'instant t, xik designant sa i-eme composante. ok designe la sortie du neurone et H la fonction de heaviside. La regle de l'adaline s'arr^te quand un critere d'erreur e est veri e. Celle du Perceptron s'arr^te quand tous les vecteurs sont bien classes et ne s'applique e d'ailleurs que dans le cas ou la fonction de transfert est celle de heaviside. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
1.4 Interpretation geometrique
Geometrie
Slide 9
Un neurone calcule l'equation d'un hyperplan : les fonctions realisees sont lineairement separables. On peut calculer and et or. Les fonctions lineairement separables sont peu frequentes (exemple du XOR). Un neurone seul est donc tres fortement limite.
Une fonction booleenne f de B n dans B est lineairement separable quand il existe un hyperplan dans l'espace de depart B n separant l'image reciproque de 0 de celle de 1. C'est trivialement le cas des fonctions and et or. Ce type de fonction devient de plus en plus rare quand la dimension de l'espace d'entree augmente. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
2 Le perceptron multi-couche (MLP)

2.1 Le modele
Solution
Combiner des neurones et des portes logiques : En dimension n : avec 2n hyperplans, on isole un point. and sur la sortie des 2n neurones representant les hyperplans : valeur vraie si et seulement si le point d'entree est dans la zone voulue. or sur la sortie des portes and : union des zones. On forme ainsi n'importe quelle fonction booleenne. Tous les calculs sont neuronaux. Structure multi-couche.
Slide 10
Fevrier 95
T HOMSON-CSF/SDC
10
Comme or et and sont lineairement separables, on peut faire les calculs consideres gr^ce a des a neurones. On utilise de grosses ressources pour calculer les fonctions. Le but de cet exemple est juste de prouver la puissance theorique de l'architecture multi-couche, opposee au neurone seul.
Le perceptron multi-couche (MLP)

Slide 11
Suite de couches contenant chacune des neurones formels. Les entrees des neurones de la couche n sont les sorties des neurones de la couche n ; 1. Les neurones de la premiere couche sont relies a l'exterieur et recoivent tous la m^me entree (vectorielle). e La sortie du MLP est le vecteur constitue des sorties des neurones de la derniere couche.
Fevrier 95
T HOMSON-CSF/SDC
11
Un dessin est plus clair qu'un long discours (cf slide suivant). Les neurones sont les m^mes au e sein d'une m^me couche mais peuvent varier entre deux couches (neurones lineaires dans la couche e de sortie).
Neurones senseurs
Couche 1
Couche 2
Couche N
Organisation en couche
Slide 12
1 2
o1 s1 o2 s o s o s o s
2 2 1 1
o3
3 3
sortie du neurone
s3 o s on sn neurones de la couche p synapses

n n
transfert t integration
Calcul au niveau d'un neurone
Fevrier 95
T HOMSON-CSF/SDC
12
2.2 Apprentissage
Mesurer l'erreur
Slide 13
w : vecteur de parametres du MLP (ensemble des coe cients synaptiques et des seuils). f(x w) : vecteur de sortie du MLP pour l'entree x et le vecteur de parametres w. Erreur locale: d(f(xi w) yi) (norme quadratique, etc.) Erreur globale: X E (w) = d(f(xi w) yi) ou sup d(f(xi w) yi)
i i
Apprentissage supervise : trouver w minimisant E .
Optimisation de fonction
Slide 14
Probleme: trouver le vecteur u qui minimise la fonction f de IRp dans IR. Solutions: sans gradient : { algorithme genetique { algorithme du simplexe { methode de Powell avec gradient : { descente de gradient { gradient conjugue
Fevrier 95
T HOMSON-CSF/SDC
13
En general, et en particulier pour les reseaux de neurones, les methodes utilisant le gradient sont plus e caces que les autres. Les algorithmes de gradient conjugues sont nombreux. Leur idee principale est d'introduire des termes du second ordre dans le calcul, mais sans les calculer. Exemple de tels algorithmes: Polak-Ribiere, Fletcher-Reeves et Broyden-Fletcher-Goldfarb-Shanno. Les algorithmes genetiques sont en gros une forme de recherche aleatoire. Ils peuvent aussi utiliser le gradient et devenir ainsi plus e caces.
Descente de gradient
Slide 15
Methode iterative. Un vecteur de depart x0. Une regle de mise a jour : xn+1 = xn ; nrf(xn ) n est un pas de descente. Methodes plus evoluees : Determination de n. Choix de la direction de descente.
Fevrier 95
T HOMSON-CSF/SDC
14
Gradient local et total

Fonction a optimiser pour un reseau : X E (w) = d (f (xi w) yi )
Slide 16
Gradient local:
rEloci (w) =
Gradient total :
@f @d @x1 (f (xi w) yi ) @x2 (xi w)

X i
rEloci (w)
rE (w) =
Optimisation de E : gradient total ou local (methode stochastique).
La methode stochastique entra^ne bien la convergence, comme la methode classique. Certains auteurs pretendent que la methode stochastique est bien meilleure que l'autre (Yann Le Cun par exemple). Ce n'est ni un resultat theorique, ni un resultat evident dans la pratique. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
15
2.3 Retro-propagation
Calcul du gradient
Cas ou d (f (xi w) yi) = kf (xi w) ; yi k2 . Notations: I~k : resultat de la sommation pour la couche k ~ Ok : sortie vectorielle de la couche k ~ F k : transfert vectoriel de la couche k ~ O0 : entree du reseau ~ Y : sortie desiree B k : matrice synaptique ~k : vecteur de seuils ~ ~ I k = B k Ok;1 + ~k ~ ~ ~ Ok = F k I k
Slide 17
Fevrier 95
T HOMSON-CSF/SDC
16
On utilise donc la norme quadratique. Cette presentation est bien entendue equivalente a la presentation donnee au dessus.
Methode directe
Idee : appliquer les regles de derivation des fonctions composees.
Slide 18
~ ~ @I k @ Ok = F k 0 I k ~ ~ l l @Bij @Bij ~ ~ @ I k = B k @ Ol l l @Bij @Bij ~ @ I l = t ( 0 : : : 0 Ol;1 0 : : : 0) l | {z } j @Bij i ; 1 fois : produit terme a terme.
M^me type de formules pour e Ecole Normale Superieure
~ @ Ok . @ ~il
Fevrier 95
T HOMSON-CSF/SDC
17
Probleme : methode lente. Ordre de grandeur des calculs : nombre de connexions synaptiques au carre.
Retro-propagation
Idee : exprimer E(w) = kf (xi w) ; yi k2 comme ~ une fonction des I k . l @E = X @E @Ik l l l @Bij k @Ik @Bij k @E = Oj ;1 @I l i @E = @E @Iil @ ~il Derniere couche : @E = 2 F n I n ; Y F 0n I n ~ ~ ~ ~ ~ @I n
i
Slide 19
Couches internes : l @E = X @E @Ik+1 l+1 l @Iil k @Ik @Ii l @Ik+1 = B l+1 f k 0 ;I l i ki @Iil @E = t B k+1 @E F k 0 (I k ) ~ ~ @I l @I l+1
1ere equation: la sortie du reseau et donc l'erreur depend de B l seulement par l'intermediaire ~ de I l . ~ 2eme equation : par de nition de I l . 3eme equation : m^me raisonnement que les deux premieres. e 4eme equation : par de nition de la norme quadratique et de la sortie du reseau. ~ 5eme equation: la sortie du reseau et donc l'erreur depend de I l seulement par l'intermediaire ~ de I l+1 . P l+1 l ~ ~ ~ 6eme equation : I l+1 = B l+1 F l (I l ) donc Ik+1 = j Bkj f l (Ijl ), ce qui donne le resultat voulu apres derivation. 7eme equation : consequence directe de la premiere. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
18
La retro-propagation est plus rapide que la methode directe (nombre de calculs de l'ordre du nombre de connexions synaptiques). Le nom vient du fait que le calcul commence par la derniere couche et progresse dans le sens contraire du calcul de la sortie.
Retro-propagation
La retro-propagation est seulement une methode e cace pour calculer la gradient de la fonction d'erreur d'un MLP. La retro-propagation n'est pas un algorithme d'apprentissage.
Algorithme d'apprentissage : { retro-propagation pour calculer le gradient local { addition (ou maximum) pour calculer le gradient total (eventuellement) { algorithme de gradient classique
Slide 20
Fevrier 95
T HOMSON-CSF/SDC
19
3 Resultats theoriques concernant les MLPs

3.1 Geometrie des regions de decision
Formation de cellules
Neurones de la premiere couche : hyperplans et regions. Combien de regions avec n hyperplans?
1 8 2 7 9 11 10 3 5 4 6
Slide 21
k hyperplans dans IRd :

p avec Cn = 0 si n < p.
d X i Ck i=0
n p On rappelle que Cn = (n;p!)!p! . L'utilite pratique de cette formule est tres limitee. En e et, le nombre exact d'hyperplans necessaires pour separer deux ensembles de points depend bien entendu de la position de ces
Fevrier 95
T HOMSON-CSF/SDC
20
points. Si on se donne n points alignes, n ; 1 hyperplans sont necessaires pour les separer (on alterne les deux ensembles).
Association d'etiquettes
Slide 22
Premiere couche : calcul de regions. Couches suivantes : association d'etiquettes binaires aux regions. Probleme : on se donne un decoupage de IRn par des hyperplans. On separe les cellules en deux sous ensembles. Peut on faire le calcul avec un MLP? Theoreme : c'est possible avec un MLP a trois couches. Theoreme : c'est impossible avec un MLP a deux couches. Le 1er theoreme a deja ete demontre.
Cas du 2-LP
(1)
(1,1,1)
Slide 23
1
(2) 0 (0,1,0)
1 0
(3)
(0,0,0)
(1,0,0)
On est ramene a un calcul de fonction booleenne avec un neurone seul : impossible en general.
Fevrier 95
T HOMSON-CSF/SDC
21
Reference : Article \On the Decision Regions of Multilayer Perceptrons" de Gavin J. GIBSON et Colin F. N. COWAN, paru dans \Proceedings of the IEEE" (vol. 78, no. 10, Octobre 1990, pages 1590-1594).
Hyperplan inconsistant
Region calculable S de IRn : union de polyedres bornes. Hyperplan essentiel : possedant une intersection de dimension n ; 1 avec la frontiere de S . Hyperplan inconsistant : H tel que : il existe deux points de H , p1 et p2 , et un rayon r > 0 tel que B (p1 r) \ S = B (p1 r) \ H + et B (p2 r) \ S = B (p2 r) \ H ; .
Slide 24
B(p ,r)
1
H+ B(p ,r)
2
H-
Il existe un hyperplan essentiel et inconsistant dans S ) S n'est pas calculable par un 2-LP.
B(x r) designe la boule ouverte de centre x et de rayon r. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
22
Ce resultat ne concerne que les regions bornees. Il est du a Gibson et Cowan (cf. au dessus).
Resultat su sant pour les 2-LP

Slide 25
Soit S une region bornee union de polygones de IR2 . Supposons que ses hyperplans essentiels ne comportent pas de point triple. Alors S est realisable par un 2-LP si et seulement si aucun de ses hyperplans essentiels n'est inconsistant.
Avec un 2-LP : 14 + 1 neurones (57 poids synaptiques) Avec un 3-lp : 8 + 2 + 1 neurones (46 poids synaptiques)
Un point triple : trois droites se coupant au m^me point. e Ce theoreme ne s'etend pas facilement aux dimensions superieures a 2. Source : \Some Results on the Exact Realisation of Decision Regions Using Feed-Forward Networks With a Single Hidden Layer" de Gavin J. Gibson, paru dans les actes de la conference ICNN'94 (vol. 2, pages 912-917), a Orlando en Juin-Juillet 1994. L'exemple donne montre que le 2-LP n'est pas obligatoirement plus simple. Notons que le nombre de neurones donne pour le 2-LP est conjecture comme etant minimal. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
23
3.2 Calcul exact de fonctions booleennes
Circuits logiques
Les MLPs etendus sont plus puissants que les circuits logiques:
Slide 26
Le nombre de portes requises pour calculer la fonction parite d'ordre n dans un circuit logique de profondeur constante croit exponentiellement avec n. Dans un 2-LP, on peut calculer n'importe quelle fonction symetrique de n variables booleennes avec O(n) neurones (en fait n + 1 neurones). 2 Dans un 3-lp, on peut calculer n'importe quelle fonction p symetrique de n variables booleennes avec 2 n + O(1).
MLP etendu : un MLP dans lequel on autorise des connexions passant par dessus les couches. Circuit logique: m^me chose qu'un MLP etendu mais avec des portes logiques (AND, OR et e NOT) a la place des neurones. Il existe d'autres resultats concernant par exemple le calcul du produit, de la division, etc. Il est important de noter qu'on utilise e ectivement des connexions directes depuis l'entree vers la deuxieme couche par exemple. Pour plus d'information, on peut se reporter a un article tres complet: \Depth-Size Tradeo s for Neural Computation" de Kai-Yeung Siu, Vwani P. Roychowdhury et Thomas Kailath, paru dans \IEEE Transactions on Computers" (vol. 40, no. 12, decembre 1991, pages 1402-1412). Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
24
3.3 Complexite de l'apprentissage
Complexite de l'apprentissage
Slide 27
1. resultat de S. Judd : L'apprentissage dans un certain type de MLP est NP-complet. Probleme : les types d'apprentissage et de MLP sont peu communs. 2. resultats de B. Olah et Cs. Szepesvari : L'apprentissage des MLPs est polynomial pour une t^che binaire a exacte. Il est NP-complet pour une t^che etendue. a
Stephen Judd presente son resultat dans "Learning in Networks is Hard", publie dans les actes de la conference IEEE Neural Networks de 1987 (vol. 2, pages 685-692). Les di erences avec le modele classique sont les suivantes : l'apprentissage introduit la notion de \don't care". La reponse desiree est en e et une cha^ne constituee de \0", \1" et \*", ce dernier symbole designant les sorties dont la valeur n'est pas importante. Ce probleme d'apprentissage est bien sur plus complexe que le probleme classique qui consiste a dire qu'on cherche une solution exacte. le modele du reseau est arbitraire (pas d'organisation multicouche) et on peut utiliser n'importe quel noeud comme sortie du reseau, ce qui autorise un contr^le complet de celui-ci. o B. Olah et Cs. Szepesvari presentent leurs resultats dans : \Complexity of Learning : The Case of Everyday Neural Networks", paru dans les actes de la conference ICNN'94 (vol. 1, pages 61-65), a Orlando en Juin-Juillet 1994. Ce travail est une extension de celui de Judd. Il presente entre autre des MLPs reels (architecture classique) et montre que la NP-completude vient de la notion de \don't care" puisque sa suppression redonne une complexite polynomiale au probleme. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
25
3.4 Dimension de Vapnik-Chervonenkis
Dimension de Vapnik-Chervonenkis
A un ensemble.
S
un sous ensemble de P (A).
Slide 28
B sous ensemble ni de A. MS (B) nombre de separation possible de B par S . mS (l) = supB A jBj=l MS (B) La dimension de Vapnik-Chervonenkis de S est l'unique entier L tel que : si l L, mS (l) = 2l si l > L, mS < 2l .
Chaque element Q de S separe B en deux ensembles B \ Q et B ; (B \ Q). On compte le nombre de paires ainsi obtenues : c'est par de nition MS (B). Exemple : A = IRn et :
S
= fP
IRn j 9(a1 : : : an b) 2 IRn+1 tel que x 2 P ,
i = 1nai xi > bg
On montre que la dimension de VC de S est exactement n + 1. Il existe de nombreux theoremes faisant intervenir la dimension de VC. Malheureusement, ces theoremes ne sont pas veritablement utilisables dans la pratique. Ils donnent en e et des renseignements sur le nombre les proprietes de generalisation de systeme discriminants bases sur des ensembles de type S . Malheureusement, les bornes obtenues sont assez grossieres et eloignees de la pratique. Les progres realises dans ces domaines sont cependant assez rapides et il est probable que la dimension de VC soit utilisable dans la pratique dans quelques annees. Etat de l'art actuel : \How Practical are VC Dimension Bounds?" de Sean B. Holden, paru dans les actes de la conference ICNN'94 (vol. 1, pages 327-332), a Orlando en Juin-Juillet 1994. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
26
3.5 Calcul approximatif
Approximation de fonctions
Slide 29
fonction limitante : f non decroissante avec limx!1 f(x) = 1 et limx!;1 f(x) = 0 fonctions calculees par un 2-LP :
8 !9 p q < = X X r (f) = g : IRr ! IR j g (~ ) = x jf jkxk + j : j =1 k=1
C r : fonctions continues de IRr dans IR Si f est limitante, r (f) est dense dans C r sur tout compact, pour la norme in nie.
En d'autres termes : soit f une fonction limitante, g une fonction continue de IRr dans IR, une precision et K un compact de IRr , alors il existe un 2-LP utilisant f comme fonction de transfert pour les neurones de sa premiere couche (i.e., un element de r (f)) calculant une fonction h telle que 8x 2 K jh(x) ; g(x)j < . Avec les mains: toute fonction reguliere peut ^tre approchee a une precision arbitraire par un e 2-LP (sur un intervalle borne). Ce resultat peut ^tre etendu de diverses facons, en incluant le cas des fonctions avec IRq comme e espace d'arrivee, en traitant celui des MLPs (avec 3 couches ou plus), etc. Pour plus d'information, on se reportera aux deux excellents articles suivants : \Multilayer Feedforward Networks are Universal Approximators" de Kurt Hornik, Maxwell Stinchcombe et Halbert White, publie dans Neural Networks (vol. 2, pages 359-366, 1989) \Universal Approximation of an Unknown Mapping and Its Derivatives Using Multilayer Feedforward Networks" de Kurt Hornik, Maxwell Stinchcombe et Halbert White, publie dans Neural Networks (vol. 3, pages 551-560, 1990). Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
27
4 Modeles derives des MLPs

4.1 Reseau d'ondelettes
Ondelettes
Idee : representer une fonction f sur une base fonctionnelle obtenue par translation et dilatation d'une fonction mere . : IR ! IR. d t translation-dilatation de si d t (x) = (d(x ; t)). ~ Cas de IRn . On note diag(d ) la matrice diagonale de diagonale donnee par le ~ vecteur d. Alors d ~ est donnee par : ~t
v uY un x ~ ~ (~ ) = t di dt i=1
Slide 30
~ ;x t diag d ~ ; ~ conduit a un systeme
avec di > 0. un bon choix de dense.
Le coe cient est un facteur de normalisation pour obtenir des bases orthonormees. Pour obtenir une ondelette mere multi-dimensionnelle, on peut faire un produit d'ondelettes reelle. Ainsi, si s est une ondelette scalaire de IR dans IR veri ant certaines proprietes, alors on peut Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
28
de nir (x1 : : : xn) = s (x12) s (x2) : : : (xn), qui est une ondelette de IRn dans IR. Exemple 2 d'ondelette : x (x) = ;xe; 1 x .
Lien MLPs , Ondelettes

f (~ ) x
' '
Projection sur une base d'ondelette :

q X i=1 q X i=1
wi d ~ (~ ) ~ t x
i i
Slide 31
w0i
~ ;x t diag di ~ ; ~i
Approximation par 2-LP: f (~ ) ' x
q X i=1
x i T ~i :~ + i
Le modele general est le m^me: projection sur une base obtenue par e \translation-dilatation".
Reseaux d'ondelettes
Slide 32
M^me structure d'un 2-LP. e un neurone de la premiere couche : ; ; DR ~ ;~ x t R : matrice de rotation, D : matrice de dilatation (matrice diagonale). neurone de la deuxieme couche : combinaison a ne. Apprentissage : descente de gradient avec contraintes.
On optimise tous les parametres presents : les coe cients des deux matrices, les vecteurs de translation et les coe cients du neurone sommateur. Les contraintes sont implementees par un projection apres chaque etape de gradient, projection qui permet entre autre de conserver pour R une veritable matrice de rotation. On interdit aussi aux vecteurs de translation de sortir d'une certaine zone, etc. Article complet au sujet des reseaux d'ondelettes : \Wavelet Networks" de Qinghua Zhang et Albert Benveniste, publie dans IEEE Transactions on Neural Networks (vol. 3, no. 6, pages 889-898, novembre 1992). Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
29
4.2 Autres modeles
Reseaux Radial Basis Function

Idee : projection sur une base de fonctions regulieres a symetrie radiale. M^me structure d'un 2-LP. e un neurone de la premiere couche : K (k~ ; ~k) x c K est une fonction reguliere (en general C k avec toutes ses derivees monotones quand limr!1 K(x) = 0, la fonction est locale), ~ c est le centre de la fonction et k:k designe une norme. neurone de la deuxieme couche : combinaison a ne. Apprentissage : descente de gradient.
Slide 33
Fevrier 95
T HOMSON-CSF/SDC
30
Exemple de RBF : K(r) = e;r2 .
Vue generale
On modi e legerement le modele des MLPs :
Slide 34
on change de fonction de transfert (cosinus a la place de tangente hyperbolique). on change d'ecriture (translation dilatation). on modi e le neurone : rotation et dilatation au lieu de produit scalaire. Principe : solution classique du probleme de l'approximation universelle par projection sur une base fonctionnelle.
Principe d'extension
Slide 35
Modele : projection sur une base parametrique: ff : IRn ! IR j 9w 2 IRp tel que f (~ ) = F (w ~ )g ~ x ~x Approximation universelle : 8f 2 C 8 , il existe q, w1 : : : wq et ~ ~ a1 : : : aq tels que : f (~ ) ; x
q X i=1
aiF (~ i ~ ) < w x
Extension du modele: prise en compte de nouvelles bases parametriques. Ce principe est assez limite. Les extensions proposees pour les MLPs sont assez simples et ne visent en fait qu'a reecrire ces MLPs comme un instrument de projection sur une base parametrique (attention ici base signi e generateur au sens de hilbert, i.e., l'espace vectoriel engendre par les combinaisons lineaires nies des elements du systeme est dense pour la norme choisie). Ces extensions ne sont donc pas generales et ne tiennent nalement pas compte de la structure sous-jacente du MLP, a savoir le graphe des connexions. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
31
5 Generalisation : les reseaux d'operateurs

5.1 Idee generale
Modele general : principe

Slide 36
conserver les acquis : le neurone est une fonction parametrique: N(~ 1 :{z: ~ k |{z} ) x : x} w ~ | entrees parametre est un k-operateur a k entrees. Sa sortie est vectorielle. etendre le modele de calcul : le graphe qui relie les neurones est arbitraire (mais sans cycle). entrees du reseau : des 1-operateurs sans predecesseur. sorties du reseau : des operateurs sans successeur. Idee originale : \A Framework for the Cooperation of Learning Algorithms" de Leon Bottou et Patrick Gallinari, publie dans Neural Information Processing Systems (vol. 3, pages 781-788, 1991). Extension du modele: \Generic Back-Propagation in Arbitrary Feedforward Neural Networks" de Cedric Gegout, Bernard Girau et Fabrice Rossi, a para^tre dans les actes de la conference ICANNGA'95 (Avril 195, Ales).
w3 w w
1 6
3 x
1
1 o
1
6 o
6
8 o
8
Slide 37
2 o w
2
o w 5
4
7 o
7
9 o
9
o w
w
5
w 1ere etape o et o
1 2 5 3
3eme etape o
4 5
et o
2eme etape o , o et o
4eme etape o
et o
Principe du calcul
Fevrier 95
T HOMSON-CSF/SDC
32
ol (x w) designe la sortie du l'operateur l du reseau quand celui-ci recoit x comme vecteur d'entree et w comme vecteur de parametre.
5.2 Calcul des di erentielles
Calcul direct de la di erentielle

Slide 38
Principe : calculer la di erentielle par les formules de derivation des fonctions composees. Calcul local : @ol = dN l w @wl Calcul recurrent :
p @ol = X dN l @oP (l) @wj k=1 i @wj
l k k
l N l designe la fonction calculee par le noeud l. dNw est la di erentielle de N l par rapport a l designe la di erentielle de N l par rapport sa derniere variable (le vecteur de parametre) et dNi a sa k-eme variable (c'est a dire son k-eme vecteur d'entree). On note de plus P (l)i le i-eme predecesseur du noeud l, pl designant le nombre de ses predecesseurs.
k
Principe de la retro-propagation
Calculer la di erentielle de la sortie d'un noeud par rapport aux sorties de ses predecesseurs.
Slide 39
Calcul local (resultat simple a etablir): @ok = @ok!l dN l @wl @ol w Calcul recurrent (resultat delicat): @ok!l = X @ok!j dN j @ol N 2S (l) @oj i
j
Remarque: formules classiques de la retro-propagation dans le cas des MLPs.
Fevrier 95
T HOMSON-CSF/SDC
33
ok!l (x w f l ) designe la sortie du noeud k consideree comme une fonction de la sortie du noeud l. Dans ce cas, le calcul se fait de facon normale sauf qu'on utilise f l comme sortie du noeud l au lieu d'utiliser ol (x w): on libere le reseau par rapport au noeud l. S(l) designe l'ensemble des successeurs du noeud l.
3 1 do
Out 1 1
do
Out 1
6 do
Out 1 6
d o3 4 do 2
Out 1 4
8
Out 1 8
d o1 d o4 5 do do
Out 1 2
d o6
Out 2
do
Out 1
= Id
d o8 9
Out 3
7
Out 1 7
Slide 40
do
Out 1
d o7 do 2eme etape : do
Out 1 6 Out 1
d o2 4eme etape : do do
Out 1 1
d o5 3eme etape : do do do
Out 1 3
=0
d o9 1ere etape : do
Out 1 8
d o1
Out 1 2
d o3
Out 1 4
d o6 do
Out 1 7
d o8 do
Out 1 9
d o2
d o4
Out 1 5
d o7
d o5
d o9
Principe de la retro-propagation
Fevrier 95
T HOMSON-CSF/SDC
34
5.3 Complexite
Remarques sur la complexite

Dans le cas des MLPs, la retro-propagation est plus e cace que le calcul direct, a condition de calculer le gradient d'une erreur. Dans le cas des MLPs, si on calcule la di erentielle de la sortie, la retro-propagation n'est pas necessairement la plus rapide. M^me dans le cas d'un calcul de gradient, e si l'architecture est generale, la retro-propagation n'est pas necessairement la plus rapide. Les deux methodes ne sont donc pas comparables dans le cas general.
Slide 41
Ces resultats sont theoriques et font intervenir des formules de complexite exactes. Comme la complexite est directement calculable a partir des dimensions des espaces vectoriels mis en jeu au niveau des operateurs du reseau, il est envisageable de determiner quelle est la methode la plus e cace pour un reseau donne. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
35
5.4 Conclusion
Conclusion
Ce modele est une veritable extension du concept de MLP. Inter^ts du modele : e Toutes les extensions des MLPs sont des cas particuliers du modele. Modele su samment particulier pour autoriser la retro-propagation. Fondement theorique pour un simulateur generique : { simulation indispensable { duree d'implementation importante { travail repetitif et source d'erreur
Slide 42
La simulation est indispensable pour les reseaux de neurones, mais la mise en place d'un simulateur pour un nouveau modele est relativement longue et l'implementation de calculs complexes comme la retro-propagation est source d'erreur. Gr^ce au modele generique developpe, on peut a implementer un simulateur totalement generique. L'ajout d'un modele neuronal ne demandera alors que d'implementer le calcul e ectue au niveau des neurones (i.e., calcul de la sortie et des di erentielles). On reduit ainsi considerablement le risque d'erreur et la duree de l'implementation. Ecole Normale Superieure Fevrier 95
T HOMSON-CSF/SDC
36
6 Conclusion
Synthese
Les reseaux de neurones formels sont :
Slide 43
une tentative de modelisation du cerveau humain un modele de cooperation d'unites simples des approximateurs universels des systemes capables d'apprendre
Fevrier 95

Cours NN

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Cours NN

Загружено:

Авторское право:

Доступные форматы

T HOMSON-CSF/SDC

Les reseaux de neurones Cours E.N.S.T.A. 1995

Table des matieres

1 Du neurone biologique au neurone formel

2 Le perceptron multi-couche (MLP)

3 Resultats theoriques concernant les MLPs

4 Modeles derives des MLPs

5 Generalisation: les reseaux d'operateurs

Ecole Normale Superieure

Ecole Normale Superieure

1 Du neurone biologique au neurone formel

1.2 Le neurone de Mac Culloch et Pitts

Le neurone formel de Mac Culloch et Pitts

Ecole Normale Superieure

Ecole Normale Superieure

W(t + 1) = (yk ; Vk )xk (t + 1) = (yk ; Vk ) ok = H(

W (t + 1) = (yk ; ok )xk (t + 1) = (yk ; ok )

1.4 Interpretation geometrique

2 Le perceptron multi-couche (MLP)

Ecole Normale Superieure

Le perceptron multi-couche (MLP)

Ecole Normale Superieure

s3 o s on sn neurones de la couche p synapses

Calcul au niveau d'un neurone

Ecole Normale Superieure

Apprentissage supervise : trouver w minimisant E .

Ecole Normale Superieure

Ecole Normale Superieure

Gradient local et total

@f @d @x1 (f (xi w) yi ) @x2 (xi w)

Optimisation de E : gradient total ou local (methode stochastique).

Ecole Normale Superieure

M^me type de formules pour e Ecole Normale Superieure

Ecole Normale Superieure

3 Resultats theoriques concernant les MLPs

k hyperplans dans IRd :

Ecole Normale Superieure

Ecole Normale Superieure

Resultat su sant pour les 2-LP

3.2 Calcul exact de fonctions booleennes

3.3 Complexite de l'apprentissage

3.4 Dimension de Vapnik-Chervonenkis

un sous ensemble de P (A).

IRn j 9(a1 : : : an b) 2 IRn+1 tel que x 2 P ,

3.5 Calcul approximatif

4 Modeles derives des MLPs

~ ;x t diag d ~ ; ~ conduit a un systeme

avec di > 0. un bon choix de dense.

Lien MLPs , Ondelettes

Projection sur une base d'ondelette :

Approximation par 2-LP: f (~ ) ' x

4.2 Autres modeles

Reseaux Radial Basis Function

Ecole Normale Superieure

Exemple de RBF : K(r) = e;r2 .

5 Generalisation : les reseaux d'operateurs

Modele general : principe

Ecole Normale Superieure

5.2 Calcul des di erentielles

Calcul direct de la di erentielle

Remarque: formules classiques de la retro-propagation dans le cas des MLPs.

Ecole Normale Superieure

Ecole Normale Superieure