Академический Документы
Профессиональный Документы
Культура Документы
Lors de lmergence dune nouvelle technique, lingnieur se demande naturellement en quoi elle peut lui
tre utile. Si elle est dote dun nom plus mtaphorique que scientifique ce qui est videmment le cas pour
les rseaux de neurones , la rponse cette question doit tre particulirement prcise et motive. Cest la
raison pour laquelle ce chapitre est consacr un expos des arguments thoriques et pratiques qui justi-
fient lutilisation des rseaux de neurones, suivi de la prsentation dapplications exemplaires qui, bien
quelles soient en apparence trs diverses, reposent toutes sur les mmes principes. La mise en uvre des
rseaux de neurones est gnralement simple ; la tentation peut tre grande dappliquer cette technique
dune manire irrflchie ou inadapte, ce qui ne peut conduire qu des dceptions. Voil pourquoi on ne
cherchera pas expliquer en dtail, dans ce chapitre, comment on met en uvre les rseaux de neurones,
mais plutt pourquoi ils peuvent tre mis en uvre de prfrence dautres outils, et dans quel but.
Nous commencerons par introduire les dfinitions essentielles : nous expliquerons ce quest un neurone
(formel), ce quest un rseau de neurones, ce quest lapprentissage des rseaux de neurones (nous prci-
serons notamment les diffrences entre lapprentissage supervis et lapprentissage non supervis), et
nous introduirons la distinction fondamentale entre rseaux de neurones non boucls et rseaux de
neurones boucls (ou rcurrents ).
Nous pourrons alors introduire la proprit fondamentale des rseaux de neurones apprentissage
supervis : lapproximation non linaire parcimonieuse. Nous montrerons que cette proprit fait des
rseaux de neurones dexcellents outils de modlisation non linaire par apprentissage. La notion
dapprentissage apparatra alors de manire trs naturelle, et nous insisterons sur le fait que ce terme doit
tre utilis avec prcaution, car lapprentissage des rseaux de neurones na rien voir avec lapprentis-
sage au sens de la psychologie ou de lintelligence artificielle : la mise en uvre des rseaux de neurones
se rvlera, en grande partie, comme constituant une extension non linaire de mthodes statistiques bien
connues, ce qui suffit justifier la trs grande tendue de leur champ dapplication.
Nous introduirons ensuite les principes de mise en uvre des rseaux de neurones apprentissage : nous
ferons la liste des conditions qui doivent tre replies pour que la russite dune application soit garantie.
Nous insisterons particulirement sur lutilisation des rseaux de neurones apprentissage supervis pour
la classification, qui prsente des particularits importantes. Nous prsenterons, dune manire gnrale,
le problme de la classification (ou discrimination), sous son aspect probabiliste ( baysien ) ; nous
soulignerons le fait que les rseaux de neurones ne doivent pas tre utiliss pour rsoudre nimporte quel
problme de classification, et nous prciserons le domaine dexcellence des rseaux classifieurs. Nous
proposerons une mthodologie gnrale de conception dun classifieur neuronal.
Nous terminerons ce chapitre par la prsentation de diverses applications qui sont destines montrer la
varit des domaines o les rseaux de neurones sont susceptibles dapporter des solutions efficaces et
lgantes : reconnaissance de formes, contrle non destructif, filtrage dinformations textuelles, bio-
Les rseaux de neurones
2
Un neurone est une fonction algbrique non linaire, paramtre, valeurs bornes.
Suivant en cela lusage, nous utiliserons frquemment, par abus de langage, les termes de neurone
linaire pour dsigner une fonction paramtre linaire ou affine (qui nest donc pas borne).
y Les variables sur lesquelles opre le neurone sont habituellement dsignes
sous le terme dentres du neurone, et la valeur de la fonction sous celui de
sortie ; il est commode de reprsenter graphiquement un neurone comme
indiqu sur la figure 1-1. Cette reprsentation est le reflet de linspiration
f biologique qui a t lorigine de la premire vague dintrt pour les
neurones formels, dans les annes 1940 1970 [McCULLOCH et al. 1943],
[MINSKY et al. 1969].
La fonction f peut tre paramtre de manire quelconque. Deux types de paramtrages sont frquemment
utiliss :
Les paramtres sont attachs aux entres du neurone : la sortie du neurone est une fonction non linaire
dune combinaison des entres {xi} pondres par les paramtres {wi}, qui sont alors souvent dsigns
sous le nom de poids ou, en raison de linspiration biologique des rseaux de neurones, poids
synaptiques . Conformment lusage (galement inspir par la biologie), cette combinaison linaire
sera appele potentiel dans tout cet ouvrage. Le potentiel v le plus frquemment utilis est la somme
pondre, laquelle sajoute un terme constant ou biais :
n1
v = w0 + wi xi
i=1
La fonction f est appele fonction dactivation. Pour des raisons que nous exposerons plus bas, il est
recommand dutiliser pour f une fonction sigmode (cest--dire une fonction en forme de s )
symtrique par rapport lorigine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,
dans la trs grande majorit des applications qui seront dcrites dans ce chapitre, la sortie dun neurone
a pour quation :
n1
y = th w0 + wi xi
i=1
Les paramtres sont attachs la non-linarit du neurone : ils interviennent directement dans la fonc-
tion f ; cette dernire peut tre une fonction radiale ou RBF (en anglais Radial Basis Function), ou
encore une ondelette ; les premires tirent leur origine de la thorie de lapproximation [POWELL 1987],
les secondes de la thorie du signal [MALLAT 1989].
Les rseaux de neurones : pourquoi et pour quoi faire ?
3
CHAPITRE 1
Par exemple, la sortie dun neurone RBF non-linarit gaussienne a pour quation :
n
xi wi 2
i=1
y = exp 2
2 wn+1
o les paramtres wi, i = 1 n sont les coordonnes du centre de la gaussienne, et wn + 1 est son cart-type.
Dans les complments thoriques et algorithmiques, en fin de chapitre, nous prsentons dautres exemples
de neurones.
La diffrence pratique essentielle entre les deux types de neurones que nous venons dintroduire est la
suivante : les neurones tels que les RBF ou les ondelettes ont des non-linarits locales, qui tendent vers
zro dans toutes les directions de lespace des entres ; leur zone dinfluence est donc limite dans
lespace, ce qui nest pas le cas des neurones potentiel fonction dactivation sigmode.
Dfinition
Un rseau de neurones non boucl ralise une (ou plusieurs) fonctions algbriques de ses entres, par
composition des fonctions ralises par chacun des neurones.
Un rseau de neurones non boucl est donc reprsent graphiquement par un ensemble de neurones
connects entre eux, linformation circulant des entres vers les sorties sans retour en arrire : si
lon reprsente le rseau comme un graphe dont les nuds sont les neurones et les artes les
connexions entre ceux-ci, le graphe dun rseau non boucl est acyclique : si lon se dplace dans le
rseau, partir dun neurone quelconque, en suivant les connexions, on ne peut pas revenir au neurone de
dpart. La reprsentation de la topologie dun rseau par un graphe est trs utile, notamment pour les
rseaux boucls, comme nous le verrons dans le chapitre 2. Les neurones qui effectuent le dernier calcul
de la composition de fonctions sont les neurones de sortie ; ceux qui effectuent des calculs intermdiaires
sont les neurones cachs (voir figure 1-2).
Remarque
Le terme de connexions doit tre pris dans un sens mtaphorique : dans la trs grande majorit des applications, les oprations effec-
tues par un rseau de neurones sont programmes (nimporte quel langage de programmation convient), et excutes par un ordinateur
conventionnel. Le rseau de neurones nest donc pas, en gnral, un objet physique tel quun circuit lectronique, et les connexions
nont pas de ralit matrielle ; nanmoins, le terme de connexion, issu des origines biologiques des rseaux de neurones, est pass dans
lusage, car il est commode quoique trompeur. Il a mme donn naissance au terme de connexionnisme.
Les rseaux de neurones
4
Rseaux couches
La seule contrainte sur le graphe des connexions
dun rseau de neurones non boucl est quil ne
..... NO neurones de sortie contienne pas de cycle. On peut donc imaginer
une grande varit de topologies pour ces rseaux.
Nanmoins, pour des raisons que nous dveloppe-
rons plus bas, la trs grande majorit des applica-
.... Nc neurones cachs tions des rseaux de neurones mettent en jeu des
rseaux couches , dont un exemple est repr-
sent sur la figure 1-2.
.... n entres Forme gnrale
x1 x2 x3 xn Ce rseau ralise No fonctions algbriques des
variables dentres du rseau ; chacune des
Figure 1-2. Un rseau de neurones n entres, une couche de sorties est une fonction, ralise par le neurone
Nc neurones cachs, et No neurones de sortie de sortie correspondant, des fonctions non
linaires ralises par les neurones cachs.
Dfinition
Un rseau de neurones non boucl n entres, Nc neurones cachs et NO neurones de sortie ralise NO
fonctions non linaires de ses n variables dentre par composition des Nc fonctions algbriques rali-
ses par ses neurones cachs.
Il convient dinsister sur le fait que le temps ne joue aucun rle fonctionnel dans un rseau de neurones
non boucl : si les entres sont constantes, les sorties le sont galement. Le temps ncessaire pour le calcul
de la fonction ralise par chaque neurone est ngligeable et, fonctionnellement, on peut considrer ce
calcul comme instantan. Pour cette raison, les rseaux non boucls sont souvent appels rseaux
statiques , par opposition aux rseaux boucls ou dynamiques que nous introduirons plus bas.
Terminologie
Les rseaux de neurones non boucls couches, dont les neurones cachs ont une fonction dactivation sigmode, sont souvent appels
perceptrons multicouche (ou MLP pour Multi-Layer Perceptron).
proscrire
On voit souvent des textes qui mentionnent, outre la couche cache et la couche de sortie, une couche dentre , voire des
neurones dentre . Cette expression est trompeuse, car les entres (reprsentes par des carrs sur la figure 1-2) ne sont pas des
neurones : elles ne ralisent aucun traitement de linformation, puisquelles ne font que transmettre les valeurs des variables.
x0 = 1 x1 x2 xn + un biais = wN + 1, i th wij xj + wN + 1, 0
c c
i=1 j=0
o x est le vecteur des entres (de dimension n+1), et w est le vecteur des paramtres, de dimension
(n + 1)Nc+(Nc+1). Les neurones cachs sont numrots de 1 Nc et le neurone de sortie est numrot
Nc+1. Par convention, le paramtre wij est relatif la connexion allant du neurone j (ou de lentre j) vers
le neurone i.
Trs important
La sortie du rseau g(x, w) est une fonction linaire des poids de la dernire couche de connexions (qui
relient les Nc neurones cachs au neurone de sortie, numrot Nc+1), et elle est une fonction non linaire
des paramtres de la premire couche de connexions (qui relient les n+1 entres du rseau aux Nc
neurones cachs). Cette proprit a des consquences importantes que nous examinerons plus bas.
La sortie dun rseau de neurones non boucl est une fonction algbrique non linaire de ses entres et
de ses paramtres
Nc xj wij 2
g x, w = wNc + 1, i exp -
j=1
i=1 2 wi2
o x est le vecteur des entres du rseau (de dimension n), et w est le vecteur des paramtres du rseau (de
dimension (n+2) Nc) ([BROOMHEAD et al. 1988], [MOODY et al. 1989]) ; les neurones cachs sont num-
rots de 1 Nc, et le neurone de sortie porte le numro Nc+1.
Remarquons que deux sortes de paramtres interviennent ici : les poids de la dernire couche (qui relient
les Nc fonctions radiales au neurone de sortie), et les paramtres des fonctions radiales (centres et carts-
types pour des fonctions radiales gaussiennes). Les connexions de la premire couche ont toutes des poids
gaux 1. Dans ces rseaux, la sortie est une fonction linaire des poids de la dernire couche de
connexions, et elle est une fonction non linaire des paramtres des gaussiennes. Nous examinerons ult-
rieurement les consquences de cette proprit.
Les rseaux dondelettes ont exactement la mme structure, lquation de la gaussienne tant remplace
par celle dune ondelette multidimensionnelle. Les paramtres attachs la non-linarit sont alors les
centres et les dilatations des ondelettes ([BENVENISTE et al. 1994], [OUSSAR et al. 2000]).
Dfinition
Un rseau de neurones boucl temps discret ralise une (ou plusieurs) quations aux diffrences non
linaires, par composition des fonctions ralises par chacun des neurones et des retards associs
chacune des connexions.
Proprit
Tout cycle du graphe des connexions dun rseau de neurones boucl doit comprendre au moins une
connexion de retard non nul.
Proprit
Tout rseau de neurones boucl, aussi complexe soit-il, peut tre mis sous une forme canonique,
comportant un rseau de neurones non boucl dont certaines sorties (les variables dtat) sont rame-
nes aux entres par des bouclages de retard unit [NERRAND et al. 1993].
Les rseaux boucls (et leur forme canonique) seront tudis en dtail dans les chapitres 2, 4 et 8.
Les rseaux de neurones : pourquoi et pour quoi faire ?
9
CHAPITRE 1
Rsum
Nous avons introduit, dans cette section, les dfinitions essentielles relatives aux rseaux de neurones qui
sont le sujet de cet ouvrage. Nous avons notamment distingu :
les rseaux de neurones non boucls, statiques, qui ralisent des fonctions non linaires,
les rseaux de neurones boucls, dynamiques, qui ralisent des quations aux diffrences non linaires.
Nous avons vu galement que tout rseau de neurones boucl peut tre mis sous une forme canonique,
comprenant un rseau de neurones non boucl dont les sorties dtat sont ramenes ses entres avec un
retard unit.
Llment de base est donc le rseau de neurones non boucl ; voil pourquoi ltude de ce dernier est
fondamentale. Avant den indiquer les proprits et les applications, nous allons introduire la notion
dapprentissage.
Dfinition
On appelle apprentissage des rseaux de neurones la procdure qui consiste estimer les para-
mtres des neurones du rseau, afin que celui-ci remplisse au mieux la tche qui lui est affecte.
Dans le cadre de cette dfinition, on peut distinguer deux types dapprentissages : lapprentissage
supervis et lapprentissage non supervis .
Laprentissage supervis
Nous avons vu, dans le paragraphe prcdent, quun rseau non boucl ralise une relation algbrique
entre ses entres et ses sorties. On peut donc affecter un tel rseau la tche qui consiste raliser une
fonction algbrique non linaire ; celle-ci peut tre :
connue analytiquement : le rseau ralise alors une tche dapproximation de fonction,
inconnue analytiquement, mais pour laquelle on dispose de valeurs, en nombre fini, qui sont entaches
de bruit si ces valeurs rsultent de mesures effectues sur un processus physique, chimique, cono-
mique, biologique, etc. : le rseau ralise alors une tche de modlisation statique ou une rgression.
Cest essentiellement pour ce dernier type dapplications que sont mis en uvre les rseaux de neurones
apprentissage supervis.
On connat donc, en tous points ou seulement en certains points, les valeurs que doit avoir la sortie du
rseau en fonction des entres correspondantes : cest en ce sens que lapprentissage est supervis ,
mtaphore qui signifie quun professeur peut fournir au rseau des exemples de ce que celui-ci
doit faire. Lessentiel du chapitre 2 de cet ouvrage est consacr expliquer comment cette mtaphore se
traduit mathmatiquement, et les algorithmes qui en rsultent. Les chapitres 3, 4, 5, et 6, de cet ouvrage
sont consacrs la mise en uvre et aux applications des rseaux apprentissage supervis pour des
tches de modlisation statique et dynamique, et de classification (discrimination) automatique.
tches est connu en statistique sous le nom de mthodes dagrgation (en anglais clustering). On peut
utiliser les rseaux de neurones non boucls pour raliser une tche assez voisine : partir de donnes,
dcrites par des vecteurs de grande dimension, trouver une reprsentation de ces donnes dans un espace
de dimension beaucoup plus faible (typiquement de dimension 2) tout en conservant les proximits ou
ressemblances entre ces donnes. Il ny a donc pas l de professeur , puisque cest au rseau de
dcouvrir les ressemblances entre les lments de la base de donnes, et de les traduire par une proximit
dans la carte de dimension 2 quil doit produire. Les rseaux apprentissage non supervis les plus
tudis et utiliss sont les cartes auto-organisatrices ou cartes de Kohonen . Le chapitre 7 de cet
ouvrage est entirement consacr aux cartes auto-organisatrices et leurs applications.
Proprit
Toute fonction borne suffisamment rgulire peut tre approche uniformment, avec une prcision
arbitraire, dans un domaine fini de lespace de ses variables, par un rseau de neurones comportant une
couche de neurones cachs en nombre fini, possdant tous la mme fonction dactivation, et un
neurone de sortie linaire [HORNIK et al. 1989], [HORNIK et al. 1990], [HORNIK 1991].
Cette proprit, qui nest quun thorme dexistence et ne donne pas de mthode pour trouver les para-
mtres du rseau, nest pas spcifique aux rseaux de neurones. Cest la proprit suivante qui leur est
particulire et fait tout leur intrt.
Proprit fondamentale
On montre [BARRON 1993] que, si lapproximation dpend des paramtres ajustables de manire non
linaire, elle est plus parcimonieuse que si elle dpend linairement des paramtres.
Plus prcisment, on montre que le nombre de paramtres, pour une prcision donne, crot exponen-
tiellement avec le nombre de variables dans le cas des approximateurs linaires par rapport leurs
paramtres, alors quil crot linairement avec ce nombre pour les approximateurs non linaires par
rapport leurs paramtres. La parcimonie est donc dautant plus importante que le nombre dentres
du modle est grand : pour un modle 1 ou 2 entres, on peut utiliser indiffremment un modle
linaire par rapport ses paramtres (polynme par exemple) ou un modle non linaire par rapport
ses paramtres (rseau de neurones par exemple).
Les rseaux de neurones : pourquoi et pour quoi faire ?
11
CHAPITRE 1
Or, nous avons vu que la sortie des rseaux de neurones fonction dactivation sigmode nest pas linaire
par rapport aux poids du rseau, alors que la sortie des rseaux de RBF centres et carts-types fixs (ou
dondelettes centres et dilatations fixs) est linaire par rapport aux poids. De mme, une approximation
par polynme est linaire par rapport aux coefficients des monmes. Ainsi, lutilisation de neurones
cachs fonction dactivation sigmode permet une approximation plus parcimonieuse qu'une approxi-
mation polynomiale, ou qu'une approximation par fonctions radiales centres et carts-types fixes, ou
encore quune approximation par ondelettes centres et dilatations fixs. Si, en revanche, on considre
que les centres et carts-types des RBF gaussiennes (ou les centres et les dilatations des ondelettes) sont
des paramtres ajustables au mme titre que les poids des connexions, il ny a pas, lheure actuelle,
davantage mathmatiquement dmontr utiliser un type de neurones plutt quun autre. En revanche,
des arguments pratiques dcisifs peuvent justifier une prfrence : connaissances a priori sur le type de
non-linarit souhaitable, caractre localis ou non de la fonction, rapidit de calcul, facilit dinitialisa-
tion de lapprentissage (voir chapitre 2, paragraphe Initialisation des paramtres ), facilit de ralisa-
tion en circuit spcialis, etc.
Expliquons qualitativement lorigine de la parcimonie. Considrons un modle linaire par rapport ses
paramtres, un modle polynomial par exemple :
g(x) = 4 + 2x + 4x2 0,5x3.
Le rsultat g(x) du modle est une combinaison linaire des fonctions y = 1, y = x, y = x2, y = x3, avec les
poids w0 = 4, w1 = 2, w2 = 4, w3 = 0,5. Ces fonctions ont une forme qui est fixe une fois pour toutes.
Considrons prsent le modle neuronal reprsent sur la figure 1-8, dont lquation est :
g(x) = 0,5 2 th(10x + 5) + 3 th(x + 0,25) 2 th(3x 0,25).
g Le rsultat de ce modle est aussi une combinaison linaire de fonctions (y
= 1, y = th(10x + 5), y = th(x + 0,25), y = th(3x 0,25)), mais la forme de ces
fonctions dpend des valeurs des poids des connexions entre les entres et
les neurones cachs. Ainsi, au lieu de combiner des fonctions de formes
-2 3 -2 0,5 fixes, on combine des fonctions dont la forme elle-mme est ajuste par des
paramtres. On comprend facilement que ces degrs de libert supplmen-
taires permettent de raliser une fonction donne avec un plus petit nombre
10 5 1 0,25
0,25 3 -0,25 de fonctions lmentaires, ce qui est prcisment la dfinition de la parci-
monie.
Figure 1-8. Un rseau de neurones non boucl une variable (donc deux entres) et trois
x 1 neurones cachs. Les nombres indiquent les valeurs des paramtres.
Un exemple lmentaire
Considrons la parabole dquation
y = 16,71 x2 0,075.
Nous en prenons 20 chantillons rgulirement espacs, que nous utilisons pour effectuer un apprentis-
sage supervis dun rseau 2 neurones cachs ( fonction dactivation Arctg) reprsent sur la figure 1-9(a).
Un apprentissage laide de lalgorithme de Levenberg-Marquardt (voir chapitre 2) fournit, en quelques
dizaines ditrations, les paramtres indiqus sur la figure 1-9(a). La figure 1-9(b) reprsente les points de
lensemble dapprentissage et la sortie du rseau, qui passe par ces points avec une excellente prcision.
La figure 1-9(c) reprsente les sorties des neurones cachs, dont la combinaison linaire avec le biais
constitue la sortie du rseau. La figure 1-9(d) montre les points dun ensemble de test et la sortie du
rseau : lorsque lon sloigne du domaine dapprentissage [0,12, +0,12], la prcision de lapproxima-
Les rseaux de neurones
12
tion se dgrade, ce qui est normal. On notera la symtrie dans les valeurs des poids, qui reflte la symtrie
du problme (simulation ralise laide du logiciel NeuroOne de NETRAL S.A.).
Remarque
Bien entendu, approcher une parabole une variable par un rseau de neurones ne prsente aucun intrt pratique, puisque la parabole
a deux paramtres alors que le rseau de neurones en a sept ! La seule justification de cet exemple est que, tant mono-dimensionnel, il
permet dutiliser des reprsentations graphiques simples.
0.15
y Poids
0 -1,02 0.1
1 2,73
5 6 2 1,02 0.05
3 2,73
Figure 1-9. Interpo- 4 7,23
0
lation dune para- 5 4,58
4
bole par un rseau 6 - 4,57
1 3 0 2 -0.05
de neurones
2 neurones cachs ;
(a) rseau ; x 1 -0.1
(a) -0.15 -0.1 -0.05 0 0.05 0.1 0.15
(b) points dappren-
(b)
tissage (croix) et 6 18
sortie du rseau
16
aprs apprentissage ; 4
(c) sorties des deux 14
neurones cachs 2 12
(sigmodes) aprs 10
0
apprentissage ; 8
(d) points de test -2 6
(croix) et sortie
du rseau aprs -4 4
apprentissage : 2
lapproximation se -6
0
dgrade en dehors -8
-1 0 1 -2 -1
de la zone -0.5 0.5 -0.5 0 0.5 1
dapprentissage. (c) (d)
cherche tablir un modle du processus quil tudie, partir des mesures dont il dispose, et delles
seules : on dit quil effectue une modlisation bote noire . On notera que, dans le jargon des rseaux
de neurones, les donnes partir desquelles on cherche construire le modle sappellent des exemples.
Nous tudierons plus bas la modlisation bote noire du comportement dun processus (lactionneur
hydraulique dun bras de robot) : lensemble de variables {x} est constitu dune seule variable (langle
douverture de la vanne dadmission dhuile) et la grandeur zp est la pression dhuile dans lactionneur.
Nous verrons galement un exemple de prdiction de proprits chimiques de molcules : on cherche une
relation dterministe entre une proprit des molcules (par exemple leurs points dbullition) et des
descripteurs de ces molcules (masse molaire, nombre datomes, volume , moment dipolaire,
etc.) ; on peut ainsi prdire le point dbullition de molcules dont la synthse na pas t effectue. Le
lecteur rencontrera dans cet ouvrage de nombreux cas de ce genre.
Les termes de bote noire que nous venons dintroduire sopposent aux termes de modle de
connaissance ou modle de comportement interne , qui dsignent un modle mathmatique tabli
partir dune analyse physique (ou chimique, physico-chimique, conomique, etc.) du processus que lon
tudie ; ce modle peut contenir un nombre limit de paramtres ajustables, qui possdent une significa-
tion physique. Nous verrons plus bas que les rseaux de neurones peuvent tre utiliss pour llaboration
de modles botes grises , intermdiaires entre les modles botes noires et les modles de connais-
sance.
En quoi la proprit dapproximation parcimonieuse des rseaux de neurones peut-elle tre utile pour
rsoudre le problme de la modlisation bote noire ? Nous ne rpondrons ici que trs brivement
cette question. Nous prsenterons une rponse trs dtaille dans le chapitre 2, qui prsente une mthodo-
logie de conception et de ralisation de modles neuronaux, et dans le chapitre 3, qui propose, en compl-
ment mthodologique, des techniques trs utiles de rduction de la dimension des entres des modles
dune part, et dvaluation des performances et construction de modles neuronaux dautre part.
Modlisation statique
Considrons, pour simplifier, le cas dun modle une seule variable x. Supposons que lon puisse, pour
chaque valeur de x, effectuer une infinit de mesures et en calculer la moyenne ; celle-ci nest autre que la
grandeur zp recherche ; elle est appele esprance mathmatique de yp pour la valeur x de la variable.
Cette esprance mathmatique est videmment une fonction de x, appele fonction de rgression ; or
nous savons que toute fonction (suffisamment rgulire) peut tre approche par un rseau de neurones ;
par consquent, lingnieur peut esprer rsoudre son problme de modlisation bote noire en esti-
mant les paramtres dun rseau de neurones qui ralise une approximation de la fonction de rgression,
laquelle, rappelons-le, est inconnue.
Cette approximation ne sera pas une approximation uniforme telle que nous lavons dfinie et illustre
dans le paragraphe prcdent. Pour des raisons qui seront expliques en dtail dans le chapitre 2, ling-
nieur cherchera plutt une approximation au sens des moindres carrs, cest--dire quil cherchera une
fonction paramtre g(x, w), ralise, par exemple, laide dun rseau de neurones, pour laquelle la fonc-
tion de cot des moindres carrs
N
1
Jw=
2
yp x k g x k, w
2
k=1
est minimum . Rappelons que, dans cette relation, {xk, k = 1 N} est un ensemble de mesures des
variables dentre, et yp(xk) est la valeur mesure de la grandeur modliser, lorsque le vecteur dentre
vaut xk. Lapprentissage dun rseau ayant un nombre donn de neurones cachs consiste donc, dans ce
cas, en une procdure de minimisation qui permet de trouver un vecteur de poids w0 satisfaisant.
Les rseaux de neurones
14
Cette procdure pose aussitt deux questions, qui sont centrales dans la pratique des rseaux de neurones :
comment, dans une famille de rseaux de neurones donne, trouver celui qui minimise la fonction de
cot des moindres carrs ?
une fois que celui-ci a t trouv, comment juger sil est satisfaisant ?
Le lecteur trouvera dans cet ouvrage, notamment dans son chapitre 2, une mthodologie raisonne qui lui
permettra de rsoudre ces problmes.
Dans cette tche, nous serons aids par le fait que les deux questions que nous venons de mentionner ne
sont gure spcifiques aux rseaux de neurones : elles se posent depuis trs longtemps, en des termes
pratiquement identiques, tous ceux (ingnieurs, conomistes, financiers, biologistes, et, bien entendu,
statisticiens) qui cherchent, partir de donnes, extraire une information pertinente ([SEBER et al. 1989],
[ANTONIADIS et al. 1992], [DRAPER et al. 1998]). En fait, le cheminement que nous venons de raliser,
depuis lapproximation de fonction jusqu lestimation des paramtres dune rgression, est celui de tout
statisticien la recherche dun modle : nous pourrons tirer largement profit de rsultats tablis, notam-
ment dans le cadre de la rgression linaire, par ces derniers.
Rsumons, laide dun exemple, les tapes que nous venons de dcrire :
lorsquon dsire tablir un modle mathmatique dune dpendance entre des variables, on cherche
estimer la fonction de rgression, cest--dire la fonction que lon obtiendrait si lon pouvait faire, en
chaque point, un nombre infini de mesures et en calculer la moyenne ; cette fonction de rgression ne
peut donc jamais tre dtermine exactement ; la figure 1-10 reprsente un signal yp(x) que lon voudrait
modliser, cest--dire pour lequel on voudrait obtenir la meilleure approximation possible de la fonc-
tion de rgression inconnue ;
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
Figure 1-11. La situation relle dans laquelle se trouve lingnieur : il ne dispose que dun nombre fini de mesures. Noter
que, dans cet exemple, les points de mesure sont rgulirement espacs, mais cela nest pas obligatoire.
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
Figure 1-12. Une approximation de la fonction de rgression, ralise par un rseau de neurones, partir des points expri-
mentaux de la figure 1-11.
Ainsi, un rseau de neurones peut, partir dexemples, prvoir la valeur que peut prendre une grandeur
qui dpend de plusieurs variables, pour des valeurs de ces variables qui ne font pas partie de la base
dexemples utilise pour calculer les coefficients du rseau. Dans le cas reprsent sur la figure 1-12, le
rseau permet de trouver des valeurs du signal pour des points qui se trouvent entre les points de mesure.
Cette proprit est appele infrence statistique par les statisticiens, et, dans le domaine des rseaux
de neurones, sous le terme de gnralisation . Il faut bien comprendre que cette gnralisation est nan-
moins limite : elle ne peut pas stendre au-del des limites de la rgion de lespace des entres dans
laquelle se trouvent les exemples qui servent lapprentissage, comme illustr sur la figure 1-9. Le
problme de la qualit de la gnralisation est largement abord dans les chapitres de cet ouvrage.
Les rseaux de neurones
16
Classification (discrimination)
Classer un ensemble dobjets, cest attribuer chacun une classe (ou catgorie ) parmi plusieurs
classes dfinies lavance. Cette tche est appele classification ou discrimination . Un algorithme
qui ralise automatiquement une classification est appel classifieur.
Les statisticiens appellent aussi classification la tche qui consiste regrouper des donnes qui se
ressemblent dans des classes qui ne sont pas dfinies lavance, et nous avons vu que les rseaux de
neurones apprentissage non supervis peuvent raliser ce genre de tches ; il y a donc une certaine
confusion dans les termes. Nous nous efforcerons toujours de prciser ce dont il sagit, lorsque le contexte
ne rend pas la distinction vidente. Dans tout ce paragraphe, nous nous plaons dans le cas o les classes
sont connues lavance.
Les applications des classifieurs sont trs nombreuses : dans le domaine de la reconnaissance des formes
(chiffres et caractres manuscrits ou imprims, images, parole, signaux temporels...), mais galement
dans bien dautres domaines (conomie, finance, sociologie, traitement du langage...). De manire gn-
rale, nous dsignerons sous le terme de forme nimporte quel objet dcrit par un ensemble de nombres
( descripteurs ) : ainsi, une image pourra tre dcrite par lensemble des valeurs dintensit de ses pixels
(contraction de picture elements ou lments dimage), un signal temporel par ses valeurs successives
au cours dune priode de temps dfinie, une entreprise par lensemble des lments de son bilan, un texte
par lensemble des mots importants quil contient, etc. Schmatiquement, la question laquelle un clas-
sifieur doit apporter un lment de rponse est du type : le caractre inconnu est-il un a, un b, un c, etc. ?
le signal observ est-il normal ou anormal ? lentreprise examine constitue-t-elle un excellent, trs bon,
bon, mdiocre, mauvais, trs mauvais, support dinvestissement ? la dpche dagence reue est-elle rela-
tive une prise de participation entre entreprises ? y aura-t-il demain une alerte la pollution par lozone ?
Il faut noter que le classifieur nest pas ncessairement conu pour donner une rponse complte : il peut
apporter seulement un lment de rponse. Il faut bien, en effet, distinguer laide la dcision et la dci-
sion elle-mme : un classifieur peut apporter une information qui aidera un tre humain, ou un systme
Les rseaux de neurones : pourquoi et pour quoi faire ?
17
CHAPITRE 1
automatique, prendre une dcision concernant lappartenance de lobjet inconnu telle ou telle classe.
Historiquement, les premiers rseaux de neurones utiliss pour la classification taient conus pour
fournir une dcision. Grce aux progrs accomplis dans la comprhension des proprits fondamentales
des rseaux de neurones, on sait prsent quils peuvent donner une information beaucoup plus riche et
fine quune simple dcision binaire : ils peuvent estimer la probabilit dappartenance de lobjet inconnu
chacune des classes, ce qui leur permet notamment de sintgrer dans des systmes de reconnaissance
complexes qui utilisent plusieurs systmes de classification diffrents, chacun deux fournissant une esti-
mation de la probabilit dappartenance de lobjet inconnu chacune des classes. La dcision finale est
prise au vu de ces estimations, et en fonction, par exemple, des spcialits de chacun des classifieurs.
De mme, dans le domaine de la fouille de donnes (data mining), une problmatique de plus en plus
frquente est celle du filtrage dinformation : trouver automatiquement, dans un corpus de donnes,
les textes qui sont pertinents pour un thme donn, et prsenter ces textes par ordre de probabilit de perti-
nence dcroissante, afin que lutilisateur puisse faire un choix rapide parmi les documents qui lui sont
prsents. L encore, il est indispensable que le classifieur ne se contente pas de donner une rponse
binaire (document pertinent ou non), mais bien quil dtermine une probabilit dappartenance une
classe. Les rseaux de neurones non boucls sont bien adapts ce type de tche, dont limportance est
de plus en plus vidente.
La section du prsent chapitre intitule Rseaux de neurones apprentissage supervis et
discrimination , et le chapitre 6 en entier, sont consacrs la discrimination.
qui peuvent tre utilement dcrits par des quations rcurrentes (ou quations aux diffrences). Une partie
du chapitre 2, et tout le chapitre 4, sont consacrs la modlisation dynamique de processus.
Plusieurs motivations peuvent pousser lingnieur concevoir un modle dynamique :
utiliser le modle comme simulateur pour prvoir lvolution dun processus dont la modlisation
de connaissance est trop complexe, ou dont il est possible dcrire un modle qui contient des quations
trop incertaines ou dont les paramtres sont trop mal connus ;
utiliser le modle comme simulateur dun processus dont la modlisation de connaissance est possible,
mais conduit des quations diffrentielles, ou aux drives partielles, dont la rsolution numrique est
lourde et ne peut rpondre des contraintes de fonctionnement en temps rel : on peut alors crer un
ensemble dapprentissage partir du code de rsolution des quations, et concevoir un rseau de
neurones qui fournit de trs bonnes solutions dans des temps de calcul beaucoup plus courts ; larchi-
tecture de ce rseau peut avantageusement tre inspire des quations diffrentielles du modle de
connaissance : on conoit alors un modle semi-physique ou modle bote grise ;
utiliser le modle comme prdicteur trs court terme (une priode dchantillonnage) afin de lintgrer
un systme de commande.
La modlisation semi-physique
Il est trs frquent, notamment dans lindustrie manufacturire, que lon dispose dun modle de connais-
sance dun procd, mais que celui-ci ne soit pas satisfaisant ; il peut y avoir cela plusieurs raisons :
le modle peut tre insuffisamment prcis pour lobjectif que lon sest fix : par exemple, si lon dsire
dtecter une anomalie de fonctionnement en analysant la diffrence entre ltat du processus prvu par
le modle du fonctionnement normal et ltat rellement mesur, il faut que le modle de fonctionne-
ment normal soit prcis ;
le modle peut tre prcis, mais tre trop complexe pour pouvoir tre intgr numriquement en temps
rel (pour une application de surveillance ou de commande, par exemple).
Si lon dispose de mesures, on peut alors lgitimement dcider davoir recours un modle bote
noire , non linaire si ncessaire ; mais il serait nanmoins maladroit dabandonner compltement toutes
les connaissances accumules lors de la conception du modle, pour construire un autre modle fond
uniquement sur les mesures. La modlisation semi-physique permet de rconcilier ces deux points de vue,
en utilisant toutes les connaissances avres dont on peut disposer sur le processus (sous rserve quelles
soient sous la forme dquations algbriques ou diffrentielles) pour structurer le rseau et dfinir son
architecture. Nous prsenterons plus bas un exemple dapplication industrielle de la modlisation semi-
physique ; la mthodologie de conception dun tel modle est dcrite dans le chapitre 2.
La commande de processus
Commander un systme, cest lui imposer une dynamique de rponse une sollicitation. Sil sagit dun
asservissement, il faut imposer au systme de rester dans un tat dtermin quelles que soient les pertur-
bations, mesurables ou non, auxquelles il est soumis : pour un systme de commande de vitesse dune
voiture (cruise control), il faut agir automatiquement sur lacclrateur afin que la voiture conserve une
vitesse constante gale la vitesse de consigne, indpendamment de perturbations telles que bourrasques
de vent, changements de la pente de la route, etc. Sil sagit dun systme de poursuite, il faut imposer au
systme de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le systme de
chauffage pour que la temprature suive un profil temporel dtermin lavance, indpendamment de la
temprature du four, de la temprature des ingrdients que lon ajoute durant la fermentation, des rac-
tions exo- ou endothermiques qui peuvent se produire, etc. Pour raliser ces tches, il faut gnralement
disposer dun modle, qui, si les non-linarits sont importantes, peut tre un rseau de neurones. Le
chapitre 5 est entirement consacr la commande de processus non linaires.
Les rseaux de neurones : pourquoi et pour quoi faire ?
19
CHAPITRE 1
Il peut donc tre avantageux de mettre en uvre des rseaux de neurones pour toute application ncessi-
tant de trouver, par des mthodes statistiques, une relation non linaire entre des donnes numriques.
Sous quelles conditions peut-on utiliser une telle approche ?
Une premire condition, ncessaire mais non suffisante : puisque les rseaux de neurones entrent dans
le cadre des mthodes statistiques, il faut disposer dchantillons de taille suffisamment grande, et bien
reprsentatifs.
Une fois que ces donnes ont t recueillies, il faut sassurer de lintrt rel dun modle non linaire
pour lapplication considre : en effet, la mise en uvre dun modle linaire (ou affine) est toujours
plus simple, et moins coteuse en temps de calcul, que celle dun rseau de neurones. Par consquent,
en labsence de toute connaissance a priori sur lintrt dun modle non linaire, lingnieur doit
dabord utiliser les mthodes simples et prouves dlaboration dun modle linaire ; sil savre que
la prcision du modle est insuffisante bien que tous les facteurs pertinents soient prsents dans les
entres du modle, alors le concepteur de modle doit envisager la mise en uvre de modles non
linaires tels que les rseaux de neurones.
Si les donnes sont disponibles, et si lon sest assur quun modle non linaire est utile, il faut sinter-
roger sur lopportunit dutiliser un rseau de neurones de prfrence une autre famille de fonctions
non linaire, les polynmes par exemple. Cest ici quintervient la notion de parcimonie : comme nous
lavons vu plus haut, pour une prcision donne, le nombre de poids de la premire couche de
connexions varie linairement avec le nombre de variables, alors quil varie exponentiellement dans le
cas, par exemple, dune approximation polynomiale (il existe nanmoins des mthodes de slection des
monmes qui permettent, dans une certaine mesure, dviter cette explosion combinatoire).
Par consquent, les rseaux de neurones, notamment fonction dactivation sigmode, sont dautant
plus avantageux que le nombre de variables est grand ; dans la majorit des cas, grand signifie,
en pratique et de manire empirique, suprieur ou gal 3.
En rsum : si lon dispose de donnes numriques suffisamment nombreuses et reprsentatives, il est
gnralement avantageux dutiliser des rseaux de neurones dans toute application mettant en jeu lesti-
mation dune fonction de rgression non linaire possdant au moins trois variables. Si le nombre de
variables est suprieur ou gal 3, il est gnralement avantageux dutiliser des rseaux de neurones
fonction dactivation sigmode ; dans le cas contraire, des rseaux de neurones utilisant des RBF centres
et carts-types fixs, ou des ondelettes centres et dilatations fixs, ou encore des polynmes, peuvent tre
aussi prcises, et plus simples mettre en uvre.
Bien entendu, si les donnes ne sont pas numriques (mais linguistiques par exemple), les rseaux de
neurones ne peuvent les traiter directement. Il faut avoir recours des pr-traitements permettant de
quantifier ces donnes (par exemple laide de techniques issues de la thorie des ensembles flous).
destimer les valeurs des paramtres correspondant un minimum de la fonction de cot, cest--dire
deffectuer un apprentissage,
dvaluer les performances du rseau de neurones lissue de lapprentissage.
En fonction des rsultats obtenus, il peut tre ncessaire deffectuer plusieurs itrations de tout ou partie
de cette procdure.
Nous allons aborder successivement ces diffrents points.
cest--dire lorsque le modle possde de nombreuses entres, il nest pas possible de raliser un
pavage rgulier dans tout le domaine de variation des entres : il faut donc trouver une mthode
permettant de raliser uniquement des expriences qui apportent une information significative pour
lapprentissage du modle : il faut raliser un plan dexpriences . Pour les modles linaires, llabo-
ration des plans dexpriences est bien matrise ; ce nest pas le cas pour les modles non linaires. Nous
prsenterons dans le chapitre 2, section laboration de plans dexpriences , quelques lments qui
permettent de construire itrativement un plan dexpriences pour un modle neuronal.
mances du rseau. Pour ce faire, il convient de constituer, outre lensemble dapprentissage utilis pour le
calcul des poids du rseau, un ensemble de test, constitu de donnes diffrentes de celles de lensemble
dapprentissage, partir duquel on estime les performances du rseau aprs un apprentissage. Lindice de
performance le plus frquemment utilis est lerreur quadratique moyenne commise sur lensemble de
test (ou ensemble destimation des performances), dsigne par EQMT :
NT
1
EQMT = yk g x k, w
NT k = 1
2
o NT est le nombre dlments de lensemble de test, et o, pour simplifier les notations, nous dsignons
par yk les sorties mesures du processus modliser (nous nous plaons ici, pour simplifier, dans le cas
trs frquent dun rseau de neurones une sortie ; si le rseau a plusieurs sorties, lEQMP est la somme
des carts quadratiques moyens relatifs chacune des sorties) : yk = yp(xk).
Cette grandeur doit tre compare lerreur quadratique moyenne commise sur lensemble dapprentis-
sage (EQMA) :
NA
yk g x k, w
1 2
EQMA = ,
NA k = 1
+ 1,20
+ 0,30
Figure 1-14.
+ 0,00 Toutes choses
gales par
- 0,30 ailleurs, le
rseau de
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00 neurones le plus
parcimonieux
possde les
+ 1,20
meilleures
+ 0,90 proprits de
8 neurones cachs gnralisation.
+ 0,60 (25 poids)
+ 0,30
+ 0,00
- 0,30
En effet, on voit sur lexemple prsent sur la figure 1-14, que lEQMA du second rseau est certainement
infrieure celle du premier, mais que son EQMP est certainement suprieure celle du premier. Estimer
Les rseaux de neurones
24
les performances dun modle sur la base de sa seule EQMA serait donc erron et conduirait systmati-
quement concevoir des modles possdant trop de paramtres, donc souffrant de surajustement.
Remarquons que si la modlisation tait parfaite, cest--dire si la sortie du modle g(x, w) tait identique
la fonction de rgression, et si le nombre dlments des ensembles dapprentissage et de test tait trs
grand, lEQMA et lEQMP seraient gales, et de lordre de grandeur de lcart-type du bruit de mesure.
Lobjectif de la modlisation peut donc sexprimer de la manire suivante : trouver le modle (par
exemple le rseau de neurones non boucl) le plus parcimonieux possible, tel que lerreur quadratique
moyenne sur lensemble d'apprentissage et lerreur quadratique moyenne sur lensemble de test soient du
mme ordre de grandeur, et aussi petites que possible, cest--dire de lordre de grandeur de lcart-type
du bruit.
Comment faire en pratique ?
Lobjectif de cet ouvrage est de prsenter des mthodologies pratiques, mais bien fondes thoriquement,
pour concevoir des modles, que ce soit par apprentissage supervis ou non supervis. Pour lapprentis-
sage supervis, le lecteur trouvera une mthodologie complte dans le chapitre 2 (et des complments
dans le chapitre 3), et, pour lapprentissage non supervis, dans le chapitre 7.
k=1
o dsigne le vecteur des valeurs des variables pour lexemple k, yp(xk) la valeur de la mesure corres-
xk
pondante, w dsigne le vecteur des poids du rseau de neurones, et g(xk, w) est la valeur calcule par le
rseau de neurones muni des poids w pour le vecteur xk de variables. La fonction de cot est donc une
fonction de tous les paramtres ajustables w de tous les neurones et de toutes les connexions du rseau.
Lapprentissage consiste donc trouver lensemble des paramtres w qui rendent J(w) minimum .
Si lon met en uvre des rseaux dont la sortie est linaire par rapport aux paramtres (par exemple des
fonctions radiales gaussiennes dont les centres et carts-types sont fixs) la fonction de cot J est
quadratique par rapport aux paramtres : on peut alors utiliser les techniques, simples et bien connues,
des moindres carrs ordinaires. Leur simplicit et leur rapidit de calcul se paient nanmoins de deux
manires : dune part, la qualit du rsultat dpend essentiellement du choix des centres et des carts-
types des fonctions non linaires mises en uvre ; ce choix est loin dtre simple. Dautre part, ces
rseaux nont pas la proprit de parcimonie.
Si, en revanche, on met en uvre des rseaux de neurones dont la sortie nest pas linaire par rapport
aux paramtres, tels que des perceptrons multicouche ou les RBF centres et carts-types variables, on
doit rsoudre un problme doptimisation non linaire multivariable. Les mthodes utilises cet effet
seront exposes en dtail dans le chapitre 2. Il sagit de techniques itratives, qui, partir dun rseau
muni de poids dont les valeurs sont alatoires, modifient ces paramtres jusqu ce quun minimum de
la fonction de cot soit atteint, ou quun critre darrt soit satisfait.
Les rseaux de neurones : pourquoi et pour quoi faire ?
25
CHAPITRE 1
Ces techniques sont toutes des mthodes de gradient : elles sont fondes sur le calcul, chaque itration,
du gradient de la fonction de cot par rapport aux paramtres, gradient qui est ensuite utilis pour calculer
une modification de ceux-ci. Le calcul du gradient peut tre effectu de diverses manires ; il en est une,
appele rtropropagation (voir chapitre 2), qui est gnralement plus conome que les autres en termes
de nombres doprations arithmtiques effectuer pour valuer le gradient. Contrairement une ide trop
rpandue, la rtropropagation nest pas un algorithme dapprentissage : cest simplement une technique
dvaluation du gradient de la fonction de cot, qui est frquemment, mais pas obligatoirement, utilise
au sein dalgorithmes dapprentissage. Il faut noter que, contrairement bien des affirmations, ce nest pas
linvention de la rtropropagation qui a permis lapprentissage des rseaux de neurones couches ; en
effet, les spcialistes de traitement du signal connaissaient, bien avant la rtropropagation, des mthodes
dvaluation du gradient dune fonction de cot quadratique, mthodes qui auraient pu tre mises en
uvre pour effectuer lapprentissage de rseaux [MARCOS et al. 1992].
Figure 1-15.
2 Apprentissage
2 dun rseau
1,5 1,5 de neurones
une variable et
1 1 3 neurones
cachs. Le trait
0,5 0,5
continu repr-
-0 sente la sortie
-0
du rseau de
- 0,5 - 0,5 neurones.
Initialement, la
-1 -1 sortie du rseau
- 1,5 est pratique-
- 1,5
ment nulle. Elle
-2 -2 volue au cours
de lapprentis-
0 10 20 30 40 50 0 10 20 30 40 50 sage : (a) tat
initial ;
(a) (b)
(a) (b) (b) aprs une
itration ;
2 0 2 (c) aprs
6 itrations ;
1,5 1,5 (d) aprs
1 1 13 itrations
(reproduit avec
0,5 0,5 lautorisation
de NETRAL
-0 -0 S.A.).
- 0,5 - 0,5
-1 -1
- 1,5 - 1,5
-2 -2
0 10 20 30 40 50 0 10 20 30 40 50
(c) (d)
(c) (d)
Les rseaux de neurones
26
Ces algorithmes dapprentissage ont fait dnorme progrs au cours des dernires annes. Alors que, au
dbut des annes 1990, les publications faisaient tat de dizaines ou de centaines de milliers ditrations,
reprsentant des journes de calcul sur des ordinateurs puissants, les nombres ditrations typiques
lheure actuelle sont de lordre de quelques dizaines quelques centaines. La figure 1-15 montre le drou-
lement de lapprentissage dun modle une variable. Les croix reprsentent les mesures de lensemble
dapprentissage. Initialement, on donne aux poids du rseau des valeurs petites (nous expliquerons
prcisment ce que cela signifie dans le chapitre 2, paragraphe Initialisation des paramtres ), si bien
que la sortie du rseau est quasi nulle. Le rsultat obtenu au bout de 13 itrations est satisfaisant
visuellement ; quantitativement, lEQMA et lEQMP (cette dernire tant mesure sur un ensemble
de points non reprsents sur la figure) sont du mme ordre de grandeur, et de lordre de lcart-type du
bruit, de sorte que le modle est satisfaisant.
Conclusion
Dans ce paragraphe, nous avons expliqu quand et comment utiliser les rseaux de neurones. Rappelons
que lutilisation des rseaux de neurones peut tre avantageuse chaque fois que lon cherche tablir une
relation non linaire entre des donnes numriques. Les rseaux de neurones entrent donc dans le cadre
des mthodes statistiques, notamment de la rgression non linaire. Nous avons prsent une vue gnrale
de la mise en uvre de ces mthodes, en insistant sur les conditions qui doivent tre remplies pour quun
rseau de neurones donne des rsultats satisfaisants. Les techniques dapprentissage proprement dites,
dont lefficacit conditionne en grande partie les performances des rseaux, seront abordes en dtail dans
le chapitre 2.
devant une camra, afin quun bras de robot puisse saisir un condensateur ou un circuit intgr pour le placer
dans le rceptacle correspondant. En gros, les condensateurs apparaissent comme des rectangles plutt petits
et brillants, alors que les circuits intgrs sont des rectangles plutt grands et sombres.
On peut donc considrer que laire A et la rflectivit R des rectangles
x Un condensateur constituent des facteurs discriminants pour le problme pos :
Rflectivit
Un circuit intgr chaque objet sera ainsi caractris par 2 descripteurs. Supposons que
lon ait prlev des chantillons de circuits intgrs et de condensa-
teurs, et que lon en ait mesur laire et la rflectivit : on peut repr-
+
senter chaque chantillon par un point dans un espace deux dimen-
sions, comme indiqu sur la figure 1-16. Nous allons utiliser cet
Aire
exemple pour introduire les ides de base de la classification.
Figure 1-16. Chaque chantillon est reprsent par un point dans le plan rflectivit-aire. Les condensateurs sont repr-
sents par des x et les circuits intgrs par des +.
sont de petits paralllpipdes dlimits par les seuils de tolrance qui tiennent compte de la varia-
bilit de la fabrication et des erreurs de mesure ; tout le reste de lespace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en uvre des rgles simples portant
sur les descripteurs des pices classer. Ces rgles rsultent dune analyse du problme, effectue par les
concepteurs de la machine, qui a conduit un arbre de dcision implant dans lautomate. Dans un tel cas,
lutilisation dune mthode statistique de classification supervise telle que les rseaux de neurones nest
pas approprie.
Considrons prsent lvaluation du confort dune voiture. Pour prvoir les ractions des clients poten-
tiels la mise sur le march dun nouveau modle, les constructeurs automobiles ont recours des
panels dindividus, supposs reprsentatifs de la clientle, qui doivent mettre un jugement sur le
confort. Mais quest-ce que le confort ? Cest une notion complexe dans laquelle interviennent la qualit
de la suspension, la conception des siges, linsonorisation du vhicule, la visibilit, etc. Exprimer un
jugement (classer le confort du vhicule dans une des trois classes bon , moyen , insuffisant ) est
alors un processus impossible formaliser, fond sur des impressions plus que sur des mesures. Ce
problme a donc les caractristiques suivantes :
les descripteurs ne sont pas forcment tous connus et exprims clairement par les membres des panels ;
mme si les descripteurs sont bien dfinis, les jugements sont trs variables : deux personnes places
dans les mmes conditions peuvent mettre des jugements diffrents,
les descripteurs ne sont pas forcment mesurables,
il ny a pas de classe de rejet : un consommateur a forcment une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas ncessairement mesurables empche (ou rend trs
difficile) lutilisation dune mthode de classification statistique. Dans ce contexte, une mthode de clas-
sification floue serait mieux adapte.
La reconnaissance automatique des chiffres manuscrits, par exemple des codes postaux, a fait lobjet de
nombreuses tudes et ralisations. Considrons ce problme sous les mmes angles que les deux exem-
ples prcdents :
contrairement au cas du tri des pices de monnaie, la variabilit des styles dcriture pose un problme
majeur pour le choix des descripteurs ; nanmoins, contrairement au cas de lvaluation du confort, les
personnes qui savent lire donnent gnralement des rponses identiques pour une image de chiffre
donne (sauf si le chiffre est vraiment mal crit) ;
les descripteurs sont des nombres que lon peut extraire de limage : dans le cas dune description de bas
niveau, cest lintensit des pixels ; dans le cas dune description de haut niveau, cest le nombre de
boucles, de pointes, leur position, lorientation et la position des segments, etc. ;
la taille de la classe de rejet constitue un critre de performance : pour un taux derreur donn, le pour-
centage de rejet doit tre aussi faible que possible. En effet, toute enveloppe rejete ncessite linterven-
tion dun prpos, et il est plus coteux denvoyer une lettre dans une mauvaise direction que davoir
recours une intervention humaine. Le cahier des charges est donc exprim de la manire suivante :
pour un taux derreur donn (par exemple 1 %), on veut un taux de rejet aussi faible que possible. En
effet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffirait quil ne prenne
jamais de dcision. Compte tenu des donnes conomiques du problme que nous considrons ici, un
bon classifieur est un classifieur qui prend une dcision le plus souvent possible, tout en ne se trompant
pas plus dune fois sur cent. Si les conditions conomiques taient inverses, cest--dire si une erreur
cotait moins cher que lintervention dun expert, le critre de qualit serait diffrent : on chercherait
obtenir le taux derreur le plus petit possible pour un taux de rejet donn (cest le cas pour les diagnos-
tics mdicaux automatiss lchelle de toute une population, o lintervention dun mdecin cote
plus cher quune erreur de diagnostic...).
Les rseaux de neurones : pourquoi et pour quoi faire ?
29
CHAPITRE 1
Dans ces conditions, la mise en uvre dune mthode statistique telle que les rseaux de neurone est
opportune, sous rserve que lon dispose dune base de donnes suffisamment fournie. Le problme
central est celui du choix de la reprsentation des donnes. Cest dailleurs le cas dans la majorit des
problmes de classification non acadmiques : la rflexion du concepteur, jointe aux techniques de pr-
traitement des donnes dcrites dans le chapitre 3, est, dans la majorit des cas, aussi importante que
lalgorithme de classification lui-mme.
la classe Ci vaut p(a Ci) a. Puisque lobjet dont on mesure le descripteur A appartient certainement la
classe Ci, on a p(a Ci) da = 1.
La figure 1-17 reprsente une estimation de la densit de
probabilit p(a Classe = circuit intgr ) en fonction
+ +
+ + ++ de a. Bien entendu, on pourrait de mme tracer une esti-
(a)
Rflectivit
Considrons un exemple dapplication de la formule de Bayes : supposons que la distribution des tailles des
femmes dans la population franaise suive une loi gaussienne de moyenne 1,65 m et dcart-type 0,16 m :
2
1 1 t 1,65
pt F = exp
0,16 2 2 0,16
et que celle des hommes soit une gaussienne de moyenne 1,75 m et dcart-type 0,15 m :
2
1 1 t 1,75
pt H = exp .
0,15 2 2 0,15
Ces densits de probabilit sont reprsentes sur la
2.5
figure 1-18. Le recouvrement important de ces deux
Hommes gaussiennes montre que le descripteur choisi est
2 peu discriminant. Sil sagissait dun problme rel,
ces courbes suggreraient au concepteur de se
1.5 mettre la recherche dun autre descripteur (ou de
plusieurs autres descripteurs).
1 Femmes Supposons galement quil y ait autant dhommes que
de femmes dans la population considre. tant donn
0.5 un individu de cette population qui mesure 1,60 m,
quelle est la probabilit pour que ce soit une femme ?
0 La formule de Bayes fournit directement la rponse :
1.5 1.6 1.7 1.8 1.9 2 2.1
0,5 p 1,60 F
Taille (en m)
Pr F 1,60 = 60 %.
Figure 1-18. Densits de probabilit des tailles pour les 0,5 p 1,60 F + 0,5 p 1,60 H
individus de la population considre
Bien entendu, Pr(H1,60) = 40 %.
1 Compte tenu de ces rsultats, il est naturel
0.9 daffecter lindividu en question la classe F, qui a
la plus grande probabilit : cest une application de
0.8
la rgle de dcision de Bayes, que nous justifierons
0.7 plus bas. La frontire entre classes ainsi dfinie est
Hommes
0.6 reprsente sur la figure 1-19.
0.5 Les probabilits a priori tant supposes gales
0.4 pour les deux classes, la discrimination repose
Femmes
0.3 entirement sur les vraisemblances des classes.
0.2 Supposons prsent que lindividu observ soit
Seuil de classification
0.1 donne par la rgle de Bayes choisi au hasard dans les tribunes dun stade fran-
0 ais au cours dun match de football. Alors les vrai-
1.5 1.6 1.7 1.8 1.9 2 2.1 semblances des classes homme et femme ,
Taille (en m) compte tenu de la taille, sont les mmes que prc-
Figure 1-19. Probabilits a posteriori dappartenance demment, mais les probabilits a priori sont diff-
aux classes homme et femme en fonction de la rentes, car il y a gnralement plus dhommes que
taille, et frontire entre classes, lorsque lindividu est tir de femmes parmi les spectateurs dun match ;
de lensemble de la population franaise.
supposons que les proportions soient de 30 % de
femmes et 70 % dhommes. Alors les probabilits a
posteriori, calcules par la formule de Bayes avec les nouvelles probabilits a priori, deviennent
Pr(F1,60) = 39 % et Pr(H1,60) = 61 %. Les rsultats ont donc compltement chang : lindividu est
Les rseaux de neurones
32
prsent class dans la classe des hommes si lon utilise la mme rgle que prcdemment (affecter lobjet
la classe la plus probable) ; le changement observ est important parce que les vraisemblances des
classes sont peu diffrentes (le descripteur taille est peu discriminant), si bien que la classification est
dtermine, en grande partie, par les probabilits a priori. Ce rsultat est illustr sur la figure 1-20.
Cet exemple simple montre lutilisation de la
1
formule de Bayes pour estimer les probabilits a
0.9 posteriori, qui servent ensuite prendre la dcision
0.8 Hommes daffectation une classe, objectif final de tout
0.7 systme de classification.
0.6 Rappelons que, dans la pratique, et contrairement
0.5 ce que nous venons de prsenter, les vraisemblances
0.4 et les probabilits a priori ne sont pas connues exac-
tement et exprimables analytiquement, mais font
0.3
Femmes lobjet dune estimation partir dun ensemble
0.2 dobservations O, de taille finie. En toute rigueur, la
0.1 Limite de classification
donne par la rgle de Bayes
vraisemblance devrait donc tre note p(xCi, O) et
0 les probabilits a posteriori devraient tre notes
1.5 1.6 1.7 1.8 1.9 2 2.1 Pr(Cix, O) car leur estimation dpend de O. Nous
Taille (en m) nutiliserons pas cette notation en raison de sa lour-
Figure 1-20. Probabilits a posteriori dappartenance aux deur, mais il faut toujours garder lesprit le fait que,
classes homme et femme en fonction de la taille, dans la pratique, les densits de probabilit ou les
et frontire entre classes, lorsque lindividu est tir de probabilits que nous estimons sont toujours condi-
lensemble des spectateurs dun match de football.
tionnes par lensemble des observations utilis pour
ces estimations.
Pr(C1x) p(x) = Pr(C1) p(xC1) Pr(C2x) p(x) = Pr(C2) p(xC2) Naturellement, ce choix est satisfaisant
si les cots des erreurs des deux classes
sont les mmes ; nanmoins, il peut tre
plus grave, ou plus coteux, de
Frontire de Autre frontire
Bayes commettre une erreur de type faux
Erreur de positif (on considre que lobjet est
classification dans la classe A alors quil est dans la
classe B) que de commettre une erreur
Descripteur x
de type faux ngatif (on considre
que lobjet est dans la classe B alors quil
Figure 1-21. Interprtation gomtrique de la rgle de dcision de
Bayes ; la surface grise reprsente la probabilit de commettre une est dans A). Par exemple, en fouille de
erreur en choisissant la rgle de dcision de Bayes ; la surface hachure donnes, une entreprise qui commercia-
correspond laugmentation de la probabilit derreur rsultant dun lise des filtres dinformations peut
choix de frontire diffrent. prfrer proposer ses clients un filtre
qui rejette des documents alors quils
sont pertinents pour le sujet considr, plutt quun filtre qui laisse passer des documents non pertinents (en
effet, lutilisateur saperoit tout de suite que le filtre lui prsente des documents non pertinents, alors quil ne
sapercevra peut-tre jamais que tel ou tel document pertinent lui a chapp...). Ce type de considration, dans
la pratique, reprsente une part importante du travail de conception dun systme de classification raliste, quil
sagisse de reconnaissance de formes, de fouilles de donnes, dapplications bancaires, etc. Voil pourquoi il est
trs important destimer les probabilits avant de prendre la dcision, et il faut viter, sauf dans des cas trs
simples, de concevoir des classifieurs qui prennent directement une dcision.
La combinaison de la formule de Bayes et de la rgle de dcision de Bayes constitue le classifieur de
Bayes, qui prsente la meilleure performance possible si les probabilits a priori et les vraisemblances
sont connues exactement. Comme, dans la pratique, il est rare que cette condition soit remplie, le classi-
fieur de Bayes prsente un intrt plus thorique que pratique. Il peut nanmoins servir de rfrence
lorsque lon cherche valuer la qualit dun classifieur : on peut appliquer celui-ci un problme fictif
pour lequel les probabilits a priori et les vraisemblances sont connues exactement, et comparer ses
performances celle du classifieur de Bayes sur ce mme problme. Cest ce que nous ferons dans la suite
pour les classifieurs que nous prsenterons ; nous introduisons ici le problme fictif qui nous servira
tester quelques classifieurs.
Ce problme porte sur des objets
pouvant appartenir deux classes,
Classe A Classe B dcrits par un descripteur ; les
lments de la classe A sont engendrs
15 10 5 0 +5 + 10 par une distribution qui est la somme
de deux gaussiennes ; ceux de la
Figure 1-22. Densits de probabilit pour les classes A et B
classe B sont engendrs par une distri-
bution uniforme dans un intervalle
1 born (figure 1-22). On peut donc
calculer analytiquement les probabi-
0,5
lits a posteriori (figure 1-23), et
dterminer les limites de chaque
classe (figure 1-24). Pour estimer le
0
taux derreur, on ralise un grand
15 10 5 0 +5
nombre dexemples de chaque classe
Figure 1-23. Probabilit a posteriori de la classe A, calcule par la formule
de Bayes
et lon compte la proportion de ces
Les rseaux de neurones
34
Classification et rgression
Ayant tabli les bases probabilistes de la classification, nous allons montrer prsent en quoi les rseaux
de neurones, dont nous avons vu quils sont des outils de modlisation avantageux en raison de leur capa-
cit approcher toute fonction de rgression non linaire, peuvent tre pertinents pour la classification.
Comme les rseaux de neurones sont de bons candidats pour raliser une approximation de toute fonction de
rgression, ils peuvent notamment raliser une estimation des probabilits a posteriori : cest ce qui justifie
lutilisation de rseaux de neurones pour la classification. On trouvera une exposition lucide et dtaille de
cette approche dans lexcellent ouvrage de Christopher Bishop [BISHOP 1995].
Problme C classes
Lorsque le problme de classification est un problme plus de deux classes, plusieurs approches sont
possibles :
rsoudre globalement le problme en estimant simultanment, pour un objet donn, ses probabilits
dappartenance a posteriori aux diffrentes classes,
diviser le problme en sous-problmes deux classes, concevoir un ensemble de classifieurs deux
deux , et combiner les rsultats de ces derniers pour estimer les probabilits a posteriori globales.
Nous allons examiner successivement ces deux approches.
Approche globale
Cette approche est frquemment mise en uvre, bien quelle ne
soit pas toujours la plus efficace pour des problmes difficiles. Elle
C neurones
..... consiste utiliser un rseau de neurones C sorties (figure 1-27),
fonction
dactivation le rsultat tant cod laide dun code 1-parmi-C : lvnement
sigmode lobjet appartient la classe Ci est associ un vecteur de sortie
....
g dont seule la composante i est gale 1, les autres composantes
tant gales 0. De manire analogue au cas deux classes, on
dmontre facilement que lesprance mathmatique de chacune
....
des composantes est gale la probabilit a posteriori de la classe
Descripteurs correspondante.
x1 x2 x3 xn
Figure 1-27. Perceptron multicouche C sorties fonction dactivation sigmode
Terminologie
Dans le jargon des rseaux de neurones, un codage un-parmi-C est appel codage grand-mre . Cette appellation provient de la
neurobiologie : une des thories de la reprsentation des informations dans les systmes nerveux soutient que certains de nos neurones
sont spcialiss dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mre.
Il convient de noter plusieurs diffrences pratiques entre un perceptron multicouche pour la classification
et un perceptron multicouche pour la modlisation statique :
contrairement aux rseaux pour la modlisation, dont les neurones de sortie sont linaires, les neurones
de sortie dun rseau pour la classification ont une fonction dactivation sigmode : en effet, les sorties,
tant des probabilits, doivent tre comprises entre 0 et 1 (un changement de variable simple ramne les
sorties 1 et +1, comme il convient pour une non-linarit en tangente hyperbolique) ; on trouvera
dans le chapitre 6 une justification thorique lutilisation de la tangente hyperbolique comme fonction
dactivation des neurones de sortie pour la classification ;
pour la classification, il est plus naturel, pour estimer les probabilits, de minimiser la fonction de cot
dentropie croise plutt que la fonction de cot des moindres carrs ([HOPFIELD 1987], [BAUM et al.
1988], [HAMPSHIRE et al. 1990]) ; les algorithmes dapprentissage qui seront prsents dans le chapitre
2 sappliquent sans difficult pour cette fonction de cot :
C
gi x k 1 gi x k
J = ik Log + 1 ik Log
k i=1 ik 1 ik
Les rseaux de neurones
36
o ik est la valeur (0 ou 1) dsire pour la sortie i lorsque lon prsente lentre lexemple k, dcrit par
le vecteur de descripteurs xk, et gi(xk) est la valeur de la sortie i du classifieur. On montre que cette fonc-
tion est minimum lorsque tous les exemples sont correctement classs.
(a) Bien entendu, il convient
Classification : Thorique Estime avec 4 neurones caches
+ 1,00 de vrifier que la somme
des sorties vaut 1 la fin
de lapprentissage. La
+ 0,50 mthode Softmax permet
de garantir que cette
condition est automatique-
+ 0,00 ment remplie [BRIDLE et
15,00 10,00 5,00 + 0,00 + 5,00 + 10,00 al. 1990]. Cette difficult
(b) ne se prsente videmment
Classification : Thorique Estime avec 5 neurones caches pas si lon utilise un
+ 1,00
ensemble de classifieurs
deux deux , comme
+ 0,50 nous le verrons dans la
section suivante.
Il va de soi que le problme
+ 0,00 du surapprentissage, que
15,00 10,00 5,00 + 0,00 + 5,00 + 10,00
nous avons rencontr pour
(c) la rgression, existe aussi
Classification : Thorique Estime avec 6 neurones caches
+ 1,00 pour la discrimination : si
le rseau a trop de param-
tres, il sajuste trop fine-
+ 0,50 ment aux exemples de
lensemble dapprentissage
et donne de mauvais rsul-
+ 0,00 tats en gnralisation. Il
15,00 10,00 5,00 + 0,00 + 5,00 + 10,00
faut donc mettre en uvre,
Figure 1-28. Estimation des probabilits dappartenance la classe A avec trois pour slectionner le
architectures : (a) 4 neurones cachs (complexit insuffisante), (b) 5 neurones cachs meilleur modle, les tech-
(performance trs proche de la meilleure performance thorique, (c) 6 neurones cachs niques de validation croise
(surapprentissage manifeste). exposes dans le chapitre 2.
Essentiellement, il faut
trouver un rseau dont les taux derreurs de classification sur lensemble dapprentissage et sur un
ensemble de validation soient du mme ordre de grandeur, et les plus petits possibles. La figure 1-28
montre un exemple de surapprentissage dans lestimation de la probabilit dappartenance la classe A
pour lexemple prsent sur la figure 1-23 ; on voit que le rseau 4 neurones cachs est trop peu
complexe pour estimer correctement la probabilit, alors quun rseau 6 neurones cachs sajuste sur les
fluctuations de la densit des points utiliss pour lapprentissage. Pour le rseau 5 neurones cachs, le
taux de classification incorrecte, estim sur un ensemble de validation de plusieurs milliers de points, est
de 30,3 %, alors que, comme nous lavons vu plus haut, le classifieur thorique de Bayes donne une erreur
minimum de 30,1 %. On vrifie bien ici que les rseaux de neurones peuvent approcher les meilleures
performances possibles.
Les rseaux de neurones : pourquoi et pour quoi faire ?
37
CHAPITRE 1
Classification 2 2
Il est souvent beaucoup plus sr, pour des problmes difficiles, de dcomposer une classification C
classes en C(C-1)/2 problmes de classification 2 classes, pour les raisons suivantes :
on peut bnficier de nombreux rsultats et algorithmes, notamment concernant la sparation linaire
entre classes ; ces lments sont largement dvelopps dans le chapitre 6 ; nous les introduisons trs
brivement dans le paragraphe suivant, intitul sparabilit linaire ;
on obtient des rseaux beaucoup plus petits, dont lapprentissage est court et la manipulation simple ;
chacun deux ayant une seule sortie, son interprtation comme une probabilit est immdiate ;
les descripteurs pertinents pour sparer la classe A de la classe B ne sont pas ncessairement les mmes
que ceux qui sont utiles pour discriminer la classe A de la classe C ; notamment en reconnaissance de
formes, le fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue un
avantage considrable ; les techniques de slection des entres qui seront expliques dans le chapitre 2
sont directement utilisables.
Une fois que les C(C-1)/2 probabilits des classes deux deux ont t estimes, ventuellement par de
simples rseaux sans couche cache, la probabilit pour quun objet dcrit par le vecteur de descripteurs
x appartienne la classe Ci est calcule par la relation [PRICE et al. 1994] :
1
Pr Ci |x = C
1
Pr (C 2)
j=1, j i
ij
o C est le nombre de classes et Prij est la probabilit dappartenance de lobjet la classe i ou la classe
j, estime par le rseau de neurones qui spare la classe Ci de la classe Cj.
La sparabilit linaire
Deux ensembles dobjets, dcrits dans un espace de N descripteurs, appartenant deux classes diff-
rentes, sont dits linairement sparables sils se trouvent de part et dautre dun hyperplan dans
lespace des descripteurs.
Si des exemples sont linairement sparables, un rseau de neurones un seul neurone (galement appel
perceptron peut les sparer. Rappelons en effet que la sortie dun neurone possdant n entres a pour
n
quation y = th wi xi . Cette fonction varie entre 1 et +1 ; pour interprter la sortie y comme une proba-
i=1
bilit P, il suffit donc de faire le changement de variable P = (y + 1)/2. Si lon utilise la rgle de dcision
de Bayes, lquation de la surface de sparation entre les classes est le lieu des points o P = 0,5, soit
y = 0. Lquation de la surface de sparation entre les classes dtermine par le neurone est donc :
n
v = wi xi = 0.
i=1
On a donc v > 0 pour tous les exemples dune des classes, et v < 0 pour tous
Surface de
x les exemples de lautre. Dans un espace deux dimensions, cette surface est
xxx sparation plausible
x xx x
xxx x x x
une droite ; dans un espace trois dimensions, cest un plan ; dans un espace
Rflectivit
xxx
x Surface de sparation Lintroduction de neurones cachs permet de dfinir des surfaces de
x xx x plausible sparation plus complexes, comme celle reprsente sur la figure 1-30.
x
Rflectivit
xxx x x
+x +
x + +x + + + +
x + Figure 1-30. Sparation par un rseau ayant un petit nombre de neurones
x x+ + + + ++
+ + + + ++ + cachs. Trois exemples de chaque classe sont mal classs.
+ + + + ++
+ + + +
+ + + + ++ +++ ++
Bien entendu, si lon ajoute suffisamment de neurones cachs, on peut
Aire
rduire lerreur sur lensemble dapprentissage, au dtriment de la
qualit de la gnralisation. La figure 1-31 prsente un cas manifeste de
xxx
x Surface de sparation surajustement.
x xx x trs peu plausible
Rflectivit
x x x x
xx Figure 1-31. Sparation par un rseau de neurones trop complexe.
+ x+
x + +x + + + + Tous les exemples sont bien classs, mais la capacit de gnralisation est faible.
x + + + ++
x x+ +
+ + + + + +
+ ++ ++
+ +
+ + Lorsque lon dcompose le problme en sous-problmes de sparation
+ +
+ + + + ++ +++ ++
de classes deux deux, il apparat que la sparation linaire entre deux
Aire
classes prsente trs souvent une complexit suffisante ; il est mme
frquent que, dans des problmes multi-classe rputs difficiles , les
exemples soient, en fait linairement sparables si lon considre les classes deux deux. Or, dans ce dernier
cas, des algorithmes simples et lgants permettent de trouver une trs bonne solution, comme expliqu en
dtail dans le chapitre 6 : la premire tape, dans la conception dun classifieur, est donc de chercher savoir
si les classes sont sparables deux deux. Lalgorithme de Ho et Kashyap [HO et al. 1965], largement ant-
rieur aux rseaux de neurones, fournit rapidement une rponse cette question :
si les classes sont linairement sparables, lalgorithme converge en un nombre fini ditrations vers une
solution,
si les classes ne sont pas linairement sparables, lalgorithme lindique galement aprs un nombre fini
ditrations (voir les complments thoriques et algorithmiques la fin de ce chapitre).
Par exemple, pour la base de donnes de codes postaux fournie par le National Institute of Standards and
Technology, qui a servi de support de trs nombreux travaux, les classes de chiffres sont linairement
sparables deux deux, mme si lon utilise une reprsentation par pixels [KNERR et al. 1992] ! De mme,
il existe une base de donnes, relative des signaux sonar, qui a fait lobjet de trs nombreuses tudes et
a donn lieu la conception de nombreux classifieurs fort compliqus ; en moins de dix minutes de calcul
sur PC, lalgorithme de Ho et Kashyap, implant dans un programme Matlab non compil, montre que les
exemples des deux classes sont linairement sparables. Il est donc tout fait inutile, pour cette applica-
tion, de concevoir un classifieur plus complexe quun rseau un neurone ; nous retrouverons cette appli-
cation dans le chapitre 6.
Attention
Si le nombre dexemples nest pas grand devant la dimension du vecteur dentre dans la reprsenta-
tion choisie, il est inutile daller plus loin, en vertu du thorme de Cover [COVER 1965] qui est
prsent dans le chapitre 6 : il faut chercher une reprsentation plus compacte , ou bien collecter
dautres exemples, ou encore adopter une mthode de rgularisation svre telle que la modration des
poids (weight decay, technique dcrite dans le chapitre 2), avant de passer aux tapes suivantes ;
pour chaque paire de classes, effectuer la slection des descripteurs selon les mthodes dcrites dans le
chapitre 2 ; en effet, il nest pas du tout certain que les mmes descripteurs soient utiles pour sparer les
classes A et B et pour sparer les classes A et C ;
pour chaque paire de classes, tester la sparabilit linaire des classes deux deux laide de lalgo-
rithme de Ho et Kashyap ;
pour toutes les classes sparables deux deux, mettre en uvre les mthodes de sparation linaire
(dcrites dans le chapitre 6), et obtenir une estimation des probabilits ;
pour les classes non linairement sparables, mettre en uvre de petits perceptrons multicouche, ou des
perceptrons sphriques dcrits dans le chapitre 6, avec estimation des probabilits ; mettre en uvre des
mthodes de validation croise ou de leave-one-out (voir chapitres 2 et 3) pour la slection de modles ;
estimer la probabilit dappartenance chaque classe partir des probabilits dtermines ltape
prcdente, selon la formule indique plus haut dans la section Classification 2 2 ;
fixer les seuils de dcision pour dfinir les classes de rejet.
Cette stratgie constitue une variante de la procdure STEPNET ([KNERR et al. 1990] [KNERR 1991]), qui
a t utilise efficacement dans plusieurs applications industrielles.
Dans la planification dun tel projet, il ne faut pas sous-estimer le temps ncessaire pour la premire et
pour la dernire tape : dans les applications relles non triviales, ce sont frquemment les deux tapes les
plus longues, qui peuvent ventuellement remettre en cause les rsultats obtenus dans dautres tapes.
Lapplication de cette stratgie est videmment limite par le fait que le nombre de classifieurs varie comme
le carr du nombre de classes. Nanmoins, chacun des classifieurs est trs simple, de sorte que cette
dmarche sapplique sans difficult jusqu quelques dizaines de classes, ce qui couvre limmense majorit
des applications. Si le nombre de classes est plus lev, il faut avoir recours des stratgies hirarchiques.
res par lexpos de quelques applications typiques. Bien entendu, il nest pas question ici de faire un
expos exhaustif des applications des rseaux de neurones : plusieurs livres ny suffiraient pas. Il sagit
plutt de montrer quelques applications ayant un caractre exemplaire, en insistant sur les raisons pour
lesquelles les rseaux de neurones ont un apport important, voire dcisif.
En dpit de la grande diversit des traitements mis en uvre pour les images, il existe quelques oprations
de base que lon retrouve dans toutes les applications relles : dtection de contours, rehaussement de
contraste, etc. (certaines de ces oprations se retrouvent galement dans le systme visuel humain). Dans le
cas de la reconnaissance de caractres, la normalisation est galement incontournable, pour que tous les trai-
tements portent sur des chiffres de mme taille. Comme nous lavons dj indiqu, lingnieur doit toujours
raliser un compromis entre la complexit des pr-traitements ncessaires pour aboutir la reprsentation
choisie, et la complexit de la classification : un pr-traitement bien fait, qui extrait des caractristiques bien
discriminantes, donc pertinentes pour la classification, peut permettre lutilisation dun classifieur dune
grande simplicit, mais ce pr-traitement ne doit pas tre trop gourmand en temps de calcul ; en revanche,
un pr-traitement primitif (par exemple une simple normalisation) est extrmement rapide mais ne facilite
pas la tche du classifieur. Il faut donc trouver la solution qui prsente la meilleure performance compatible
avec le temps de calcul autoris par le cahier des charges de lapplication. Nous allons prsenter deux exem-
ples qui mettent en jeu des stratgies trs diffrentes pour rsoudre le mme problme.
Le premier exemple a t dvelopp aux laboratoires AT&T. Il sagit dun rseau de neurones, connu sous
le nom de LeNet [LE CUN et al. 1991], qui utilise une reprsentation par pixel (aprs normalisation). Les
premires couches du rseau ralisent des traitements locaux destins extraire automatiquement des
caractristiques ; les dernires couches effectuent la classification proprement dite. Ce rseau est repr-
sent sur la figure 1-33.
Les rseaux de neurones
42
Nous avons mentionn plusieurs reprises, notamment dans la section Mthodologie de conception
dun classifieur , limportance du choix de la reprsentation pour ce type dapplications. Nous pouvons
le mettre en vidence dans ce cas. Pour les deux reprsentations que nous avons mentionnes (reprsen-
tations par pixel dune part, cartes de caractristiques aprs dtection des contours dautre part), la
distance entre les barycentres des classes a t calcule ; elle est reprsente sur la figure 1-35. On observe
que les distances entre classes sont toujours suprieures, pour la reprsentation par cartes de caractristi-
ques, ce quelles sont pour la reprsentation par pixel. Ainsi, la reprsentation par cartes loigne les
classes les unes des autres, ce qui facilite videmment la tche des classifieurs.
1,2
Pixels Caractristiques Figure 1-35.
1,0 Distances entre
classes pour deux
0,8 reprsentations :
la reprsentation
0,6 par cartes de
caractristiques
0,4 loigne les classes
les unes des
0,2
autres, donc faci-
0 lite le travail ult-
rieur des
1 5 9 13 17 21 25 29 33 37 41 classifieurs.
Couple de classes
Taux de
Le tableau 1 met en vidence lamlioration de
Taux Taux
performances qui rsulte de la mise en uvre
chiffres
de dexemples
bien
rejet dune meilleure reprsentation : aprs ajuste-
mal classs
classs ment des seuils de dcision afin dobtenir, dans
Reprsentation
70,9 % 28,1 % 1% les deux cas, un taux derreur de 1 %, le taux de
par pixels rejet pour la reprsentation par pixel est beau-
Reprsentation par
90,3 % 8,7 % 1% coup plus lev que pour la reprsentation par
caractristiques caractristiques. Il faut noter que les deux
Tableau 1-1 reprsentations ont la mme dimension (dans
les deux cas, chaque chiffre est reprsent par
un vecteur de 256 composantes) : lamlioration ne provient pas de la compacit de la reprsentation,
mais de sa bonne adquation au problme pos. Cest la rflexion de lingnieur qui fait la diffrence...
Les rseaux de neurones
44
fonction dun ou plusieurs descripteurs. La figure 1-37 montre la probabilit dappartenance la classe des lus
en fonction de la dpense totale.
Cette application est de nature un peu diffrente 0,8 Figure 1-37. Estima-
des prcdentes : dans ces dernires, la classifi- tion, laide dun
Probabilit dlection
cation avait pour objectif daffecter une rseau de neurones,
0,6 de la probabilit
forme existante une classe, sachant que,
dlection en fonc-
vraisemblablement, on ne saurait jamais avec tion de la somme
0,4
certitude quelle classe la forme appartenait dpense au cours de
rellement. Ici, la situation est diffrente, la campagne (lec-
puisque lon sait avec certitude, ds que les 0,2 tions lgislatives de
rsultats des lections sont connus, quelle 1993).
classe appartient le candidat. Nous cherchons 0
donc ici raliser une prvision par simulation : 0 100 200 300 400 500 600
afin doptimiser ses chances de succs, un Dpense de campagne (kF)
candidat peut estimer sa probabilit de succs
en fonction de la stratgie quil met en uvre pour dpenser ses fonds de campagne de telle ou telle
manire. Il peut donc en dduire la stratgie la mieux adapte sa situation.
Dans les sections des chapitres suivants qui sont consacres la modlisation statique et dynamique, nous
verrons que la prvision par simulation constitue un domaine dexcellence des rseaux de neurones.
Lapplication que nous prsentons (extraite de [STRICKER 2000]) a t dveloppe pour la Caisse des
dpts et consignations, qui offre, sur lintranet du groupe, un service de filtrage de dpches de lAFP en
temps rel. Les objectifs sont doubles :
dveloppement dune application permettant un utilisateur dobtenir automatiquement un filtre
dinformation sur un thme de son choix, sous rserve de fournir des exemples de textes pertinents pour
le thme considr,
dveloppement dun outil permettant de surveiller lobsolescence des filtres classiques, qui sont consti-
tus de systmes base de rgles.
Pour atteindre le second objectif, on fabrique une copie dun filtre base de rgles avec un filtre utilisant
un rseau de neurones. Comme le rseau de neurones produit une probabilit de pertinence et non une
rponse binaire, il est possible danalyser les plus grandes divergences entre les deux filtres : les docu-
ments considrs comme pertinents par la mthode base de rgles, mais obtenant une probabilit proche
de zro avec le rseau de neurones, et les documents considrs comme non pertinents avec le premier et
obtenant une probabilit de pertinence proche de un avec le second [WOLINSKI et al. 2000].
Le premier de ces objectifs consiste en la conception et la ralisation dun systme de cration automa-
tique de filtres, dont la caractristique majeure est labsence dintervention dun expert, par opposition
la mise en uvre dun systme base de rgles. Il sagit donc de concevoir un systme de discrimination
deux classes : partir dune base de documents tiquets comme pertinents ou non pertinents pour le
thme considr, il faut :
trouver une reprsentation des textes par des nombres, reprsentation qui doit tre aussi compacte que
possible,
concevoir et mettre en uvre un classifieur utilisant cette reprsentation.
Le problme de la reprsentation des textes, donc de la slection des entres, est videmment central dans
cette application.
mots, classs par ordre de FC(m) dcroissant ; soit r(m) le rang du mot m dans cette liste. La loi de Zipf
snonce ainsi : FC(m) r(m) = K, o K est une constante qui dpend du corpus considr. Il y a donc un
petit nombre de mots trs frquents, et il y a un grand nombre de mots trs rares qui napparaissent quune
fois ou deux sur le corpus ; entre ces extrmes, il existe un ensemble de mots dans lesquels il faut chercher
les mots discriminants.
Extraction du vocabulaire spcifique
6 Pour dterminer le vocabulaire spcifique un thme donn,
on dfinit, pour chaque mot m de chaque texte pertinent t, le
5
rapport R(m, t) = FT(m, t) / FC(m). On range les mots du
Log FC (m)
Dtermination du contexte
Pour introduire le contexte dans la reprsentation des textes, on a cherch des mots de contexte dans une
fentre de 5 mots de part et dautre du chaque mot du vocabulaire spcifique. On a dfini
des mots de contexte positifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents pertinents,
des mots de contexte ngatifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents non pertinents.
Pour slectionner les mots de contexte, on utilise exactement la mme procdure que pour la dtermina-
tion du vocabulaire spcifique. Typiquement, pour lexemple de prise de participation entre
entreprises , on constate que pour le mot capital , qui fait partie du vocabulaire spcifique, les mots
dtient et droits figurent dans les mots de contexte spcifique, et les mots risque et fonds
dans le contexte ngatif.
En moyenne sur 500 thmes diffrents, un thme est dfini par 25 mots de vocabulaire spcifique, chacun
de ces mots ayant 3 mots de contexte.
Les rseaux de neurones
48
Score
0,6
preuve OHSU (63 thmes)
0,385
0,4 0,343 0,326 0,317
0,237 0,234
0,185 0,177
0,2 0,099 0,081
0
)
r2 r1
) ) o) r1
) ) 2) 00
) 0)
N po 2p r2 9r o0
R R
N
r f2 fr U
N N er no rp 0,6
(S2 (S2 k9 k9r (K (KU (M n trp a nt
C t(
o
t(
o
ge
n
en
G
.(
a .( preuve MeSH (500 thmes)
D D
C f
of /SI U
IC IC so s
e eg IT U r s
cr
o ro ijm ijm IR er
s
ge 0,4
i ic .N .N ut
g ut 0,335
Score
M M U R
U R 0,253
0,2 0,158
Figure 1-40. Rsultats de lpreuve de routing de TREC-9 ;
en noir : rsultats obtenus par la mthode dcrite ci-dessus ; en 0,0078
gris : rsultats obtenus par dautres mthodes. 0
ICDC Microsoft Rutgers U Rutgers U
(S2RNsamp) (ok9rfr2ps) (antrpnms00) (antrpms00)
La deuxime question se poser est celle des entres pertinentes pour le rseau de neurones envisag. Ici,
les connaissances du chimiste doivent ncessairement guider le choix des entres. On considre habituel-
lement trois catgories de descripteurs :
des descripteurs chimiques tels que la masse molculaire, le nombre datomes de carbone, etc. ;
des descripteurs gomtriques tels que le volume de la molcule, sa surface, son ovalit, etc. ;
des descripteurs lectriques tels que les charges portes par les diffrents atomes, le moment dipolaire, etc.
CH3 NMe2 CH3 CH3 Pour chaque proprit que lon cherche prdire, il faut donc
HO H H
OH O N N
tablir un ensemble de descripteurs que lon peut supposer
N
pertinents, et utiliser une technique de slection, telle que
NH2 N
CH3 celles qui sont dcrites dans le chapitre 2, afin de dterminer
OH
OH O OH O O O les descripteurs qui sont rellement utiles pour les molcules
Ttracycline Cafine et la proprit considre. En raison de leur parcimonie, des
rseaux de neurones de trs petite taille (5 7 neurones
cachs) fournissent des rsultats de meilleure qualit que les
techniques de rgression multilinaire habituellement mises
1,4-pentadine en uvre dans ce domaine [DUPRAT et al. 1998].
Prylne
Il est intressant de remarquer que, pour certaines molcules,
Figure 1-41. Molcules prsentant des parti- les valeurs de LogP sont systmatiquement mal apprises
cularits chimiques,dont les proprits sont (lorsque ces mesures font partie de lensemble dapprentis-
mal prdites par des rseaux de neurones. sage) ou systmatiquement mal prdites (lorsque ces mol-
cules font partie de lensemble de validation). Dans un tel
cas, le premier problme souponner est videmment une erreur de saisie ou de mesure. Si cette hypo-
thse est rejeter, il faut en conclure que ces lments ont des particularits qui sont absentes des autres
exemples ; ici, il apparat que les molcules en question sont soit fortement charges (ttracycline et
cafine, reprsents sur la figure 1-41), soit au contraire ont trs peu dinteractions avec le solvant
(prylne, 1-4 pentadine, voir figure 1-41). Ainsi, les rseaux de neurones peuvent servir dtecter des
anomalies de comportement ; cest un des grands domaines dapplications des rseaux de neurones.
lisation (bien entendu, cela ne remplace pas les grandeurs telles que lEQMT introduite plus haut, le score de
validation ou de leave-one-out dfinis dans le chapitre 2, ou toute autre bonne estimation quantitative de lerreur
de modlisation). Les entres des modles sont les teneurs en oxydes, la sortie est lestimation de la temprature
de liquidus. La figure 1-42(a) prsente le rsultat obtenu sur un verre de silice (compos, outre de SiO2, doxyde
de potassium K2O et dalumine Al2O3), obtenu avec un rseau 6 neurones cachs (25 paramtres), et la figure
1-42(b) le rsultat obtenu avec un polynme de degr 3, dont le nombre de paramtres est trs voisin (19). Il est
clair que, nombre de paramtres peu prs quivalent, le rseau de neurones fournit un bien meilleur rsultat.
La figure 1-42(c) indique, pour mmoire, le rsultat obtenu avec un modle linaire.
des tles. Lchauffement produit par effet Joule fait fondre une zone des tles. Aprs refroidissement, le
diamtre de la zone fondue (typiquement 5 mm) caractrise la qualit de la soudure ; si ce diamtre est
infrieur 4 mm, la soudure est considre comme dfectueuse. Le diamtre du point soud est donc un
lment crucial de la scurit du vhicule. lheure actuelle, il nexiste pas de mthode physique non
destructive qui permette dvaluer rapidement le diamtre de la soudure. En consquence, une stratgie
industrielle typique consiste :
utiliser une intensit de courant excessive, ce qui produit un trs grand chauffement, donc ljection
de gouttelettes de mtal en fusion de la zone de soudage (cest lorigine des tincelles que lon
observe chaque soudure effectue par les robots de soudage sur une chane de fabrication) ;
raliser des soudures en surnombre, afin que, avec une probabilit voisine de 1, on ait au moins une
soudure de bonne qualit.
Lexcs de courant et le trop grand nombre de soudures conduisent une dgradation rapide des lec-
trodes, qui doivent tre changes ou r-usines frquemment.
Pour toutes ces raisons, la modlisation du processus en vue dobtenir une prdiction fiable du diamtre
de la soudure, en temps rel, partir de mesures effectues pendant le soudage, constitue un problme
industriel important. Il est trs difficile de modliser la dynamique du processus de soudage, pour
plusieurs raisons :
le temps ncessaire pour intgrer numriquement les quations diffrentielles et les quations aux dri-
ves partielles du modle de connaissance est suprieur, de plusieurs ordres de grandeur, la dure
dune soudure ; on ne peut donc pas utiliser un tel modle pour une prdiction en temps rel ;
certains paramtres physiques, qui interviennent dans les quations du modle de connaissance, sont
mal connus.
La modlisation bote noire est donc une alternative intressante un modle de connaissance. Le
procd tant non linaire et prsentant plusieurs variables, les rseaux de neurones sont de bons candi-
dats pour effectuer une prdiction, en temps rel, du diamtre du point fondu, donc de la qualit de la
soudure, en fonction de mesures effectues pendant la soudure [MONARI 1999].
Les difficults sont, dune part, le choix des variables dentre du modle, et, dautre part, le fait que les
donnes disponibles sont relativement peu nombreuses, car coteuses obtenir.
Dans [MONARI 1999], les grandeurs candidates pour constituer des variables du modle taient des gran-
deurs mcaniques et lectriques qui peuvent tre mesures durant le processus. La slection des entres a
t effectue laide des mthodes dcrites dans le chapitre 2, et ce choix a t valid par les experts
impliqus dans le dveloppement du modle de connaissance du procd.
Comme il nexiste pas de mthode non destructive simple pour prdire le diamtre du point fondu, la base
de donnes est construite de la manire suivante : un ensemble de soudures est effectu dans des condi-
tions bien contrles ; elles sont ensuite arraches ( dboutonnes ), et le diamtre du bouton fondu ,
qui reste solidaire dune des tles, est mesur. Cest un processus long et coteux, de sorte que lensemble
dapprentissage initial comprenait seulement 250 exemples. En utilisant lestimation des intervalles de
confiance qui sera expose dans le chapitre 2, un plan dexpriences a t tabli, qui a permis denrichir
progressivement la base de donnes disponible. La moiti de ces donnes a t utilise pour lapprentis-
sage, lautre pour le test ; la slection de modle a t effectue par la procdure de leave-one-out
virtuel qui sera explique dans le chapitre 2, si bien quil na pas t ncessaire dutiliser un ensemble
de validation.
Les rseaux de neurones : pourquoi et pour quoi faire ?
53
CHAPITRE 1
7 7
chaque prdiction figure
6 6 avec son intervalle de
confiance. Lerreur de
5 5 gnralisation estime
4 4
(score de leave-one-out,
voir chapitre 2) est de
3 3 0,27 mm, et lEQMT de
lordre de 0,23 mm. Ces
2 2 quantits tant de lordre
3 4 2 5 6 7 8 2 3 4 5 6 7 8
Diamtre mesur (mm) Diamtre mesur (mm)
de grandeur de lincerti-
Figure 1-43. Diagrammes de dispersion pour la prdiction du diamtre de soudures par
tude de mesure, ces rsul-
points tats sont trs satisfaisants.
5 yp
y
-5
0 100 200 300 400 500
Traditionnellement, le solvant est de nature organique. Pour des raisons de scurit et denvironnement, il est
souhaitable de remplacer les solvants organiques par de leau. Un excellent modle physique du schage en
prsence dun solvant organique existe [PRICE et al. 1997] ; il est constitu de treize quations algbriques et
diffrentielles non linaires couples ; lorsque le solvant organique est remplac par leau, certains lments
de ce modle ne sont plus valables, si bien que les prdictions du modle sont beaucoup moins prcises.
La thorie de la dissolution du polymre dans leau est bien moins bien connue que celle du polymre
dans un solvant organique, si bien que lon ne peut pas laborer un modle de connaissance satisfaisant ;
par ailleurs, des squences de mesure du poids de lchantillon en fonction du temps et de la temprature
du four sont disponibles : lutilisation dun modle semi-physique parat donc possible et opportune.
Les quations qui constituent le modle expriment :
la conservation de la masse dans le volume du solvant : cette quation ne peut tre remise en cause par
le changement du solvant ;
la loi qui rgit le courant de solvant vers la surface (loi de Fick) ; la validit de cette loi nest pas discu-
table, mais elle fait intervenir une grandeur (le coefficient de diffusion) dont la variation en fonction de
la concentration et de la temprature est donne par une thorie (thorie du volume libre) dont la vali-
dit, dans le cas o le solvant est de leau, est incertaine ;
la condition de conservation de la masse la surface : toute molcule qui arrive la surface, et
svapore, contribue la variation de la pression partielle du solvant dans le gaz ; cette loi ne peut tre
remise en cause ;
la condition linterface entre le revtement et le substrat : le substrat tant impermable au solvant, il
ny a aucun flux de solvant vers le substrat ;
la valeur de la pression partielle de solvant dans le gaz, qui constitue la force motrice du processus ;
cette grandeur est donne par une loi dont la validit nest pas remise en cause par les experts.
la lumire de cette analyse, il apparat que cest la variation du coefficient de diffusion qui doit tre
reprsente par un rseau de neurones bote noire au sein du modle semi-physique. Cest ce qui a t
fait, en suivant la mthode de conception qui a t esquisse plus haut, et qui est dcrite en dtail dans le
chapitre 2. Il faut noter que les quations du modle ne sont pas des quations diffrentielles, mais des
quations aux drives partielles ; cela nest pas un obstacle lutilisation de la mthode.
Le lecteur intress par les dtails de la ralisation du modle et par les rsultats obtenus pourra les trouver
dans [OUSSAR et al. 2001]. On trouvera galement une autre application la dtection automatique de
dysfonctionnements dans une colonne distiller industrielle , mettant en uvre la modlisation neuro-
nale semi-physique, dans [PLOIX et al. 1997]. Mentionnons enfin que des applications sont opration-
nelles dans un groupe industriel franais majeur, pour la formulation de matriaux et de produits
nouveaux.
quipes de recherche franaises, en vue dune prdiction bote noire laide de mthodes mettant en jeu
un apprentissage. Les rseaux de neurones taient donc des candidats naturels pour raliser cette tche.
Comme il sagissait dune tude prliminaire de courte dure, on sest content dutiliser les donnes
issues dun seul capteur dozone, pour lequel les donnes disponibles (mesures heure par heure pendant
les annes 1995 1998) taient fiables. Les donnes des annes 1995 1997 ont t utilises pour
lapprentissage, celles de lanne 1998 pour le test. Lobjectif est de prvoir, 24 heures lavance, si la
pollution dpassera le seuil dalerte (180 g/m3 au moment o ltude a t effectue).
Deux possibilits peuvent tre envisages :
la classification : classer la journe venir en pollue ou non pollue (journe avec dpassement
du seuil ou sans dpassement), en fonction des donnes disponibles 16 h GMT ;
la prvision : prdire la concentration en ozone, 24 heures lavance.
Comme la dfinition de la classe pollue dpend de la dfinition du seuil, et que celle-ci peut varier en
fonction de donnes administratives, politiques ou conomiques, il nous a paru prfrable dliminer la
classification au profit de la seconde approche, qui reste valable indpendamment de toute autre consid-
ration. On a donc labor un modle neuronal bote noire qui, partir des donnes disponibles 14 h
GMT, prdit les concentrations qui seront mesures au cours des 24 heures suivantes.
Le processus tant essentiellement dynamique, avec des phnomnes qui varient selon la priode consi-
dre (jour ou nuit), il a sembl naturel dutiliser 24 rseaux de neurones qui effectuent tous la prdiction
une heure lavance, en fonction des donnes disponibles 14 h GMT.
Lide la plus simple consistait utiliser un modle
PRDICTEUR
+24 h dynamique non linaire (rseau de neurones
boucl). Nanmoins, il est apparu que cette solution
risquait de ne pas tre adapte, car une tude prli-
minaire des donnes montre que les facteurs perti-
nents pour la prvision de la pollution dpendent de
lheure considre ; or, dans un rseau boucl, les
entres exognes sont videmment les mmes
PRDICTEUR
quelle que soit lheure. Afin de pallier cet inconv-
+3 h nient, un ensemble de 24 rseaux de neurones en
cascade a t conu et ralis, chaque rseau tant
spcialis dans la prdiction correspondant une
tranche horaire (figure 1-47) : le rseau N prdit la
PRDICTEUR concentration mesure par le capteur considr
+2 h lheure 14+N GMT ; pour chaque rseau, les
entres candidates sont :
les prdictions des N 1 rseaux prcdents ;
lensemble des donnes fournies, soit :
PRDICTEUR 1 les mesures des capteurs NO et NO2 14 h
+1 h GMT,
2 la temprature 14 h le jour J,
Srie des mesures de O3 Gopotentiels NO et NO2 3 la temprature maximale mesure le jour J,
Tempratures jours J et J +1 et la temprature maximale prdite par Mto-
Figure 1-47. Structure dun rseau de neurones pour la
France pour le jour J + 1,
prvision, 24 heures lavance, des pics de pollution par 4 les gopotentiels le jour J,
lozone 5 la srie temporelle des mesures de la concen-
tration en ozone avant 14 h.
Les rseaux de neurones : pourquoi et pour quoi faire ?
57
CHAPITRE 1
Pour chaque rseau, une slection des entres qui figurent parmi la liste ci-dessus est effectue selon les
mthodes dcrites dans le chapitre 2. Ainsi, les entres exognes de chaque rseau sont adaptes la
tranche horaire considre.
Cette approche peut videmment tre adapte tout autre jeu de donnes, et elle offre la possibilit dint-
grer des connaissances expertes, lorsque celles-ci seront disponibles, dans un modle semi-physique.
Lerreur de prdiction moyenne sur lanne de test (1998) est de 23 g/m3. La figure 1-48 illustre la diffi-
cult du problme : en dpit dune prdiction trs prcise pendant 20 heures, soit presque toute la journe,
celle-ci apparat comme un faux ngatif car la mesure dpasse (de trs peu) le seuil dalerte. Il est
probable que, lorsque de tels outils seront oprationnels (ce qui nest pas le cas de lapplication prsente
ici au moment o ces lignes sont rdiges), de nouvelles procdures dalerte, plus subtiles que le simple
dpassement dun seuil, pourront tre mises en uvre.
0
14 h 19 h 24 h 05 h 10 h 14 h
Heure GMT
0.02
capacit des rseaux de neurones mod-
liser avec prcision des phnomnes non
0
linaires leur confre une place impor-
1 2 3 4 5 6 7 8 9 10 11 12 13
- 0.02 tante dans les systmes de dtection de
- 0.04
dysfonctionnements : si lon dispose dun
modle prcis du fonctionnement normal,
- 0.06
et que lon observe une diffrence signifi-
- 0.08 Drive cative entre les prdictions du modle et
-0.1
Fonctionnement les mesures effectues, on peut en
normal
conclure que le systme est en fonction-
- 0.12
Jour
nement anormal, ou, dans lexemple
dcrit ici, que le capteur considr est en
Figure 1-49. Dtection de panne de capteur dans un collecteur
deau pluviale panne.
Les rseaux de neurones
58
Conclusion
Dans ce chapitre, nous avons expos les lments essentiels qui permettent de comprendre pourquoi, et
dans quels cas, il est avantageux de mettre en uvre des rseaux de neurones. En prsentant quelques
applications typiques, nous avons tent de montrer, concrtement, ce que lingnieur peut attendre de
cette technique.
Avant daller plus loin, il est sans doute utile de rappeler les points fondamentaux quil convient de
toujours garder lesprit lorsque lon cherche mettre en uvre des rseaux de neurones :
les rseaux de neurones sont utiliss comme outils statistiques, qui permettent dajuster des fonctions non
linaires trs gnrales des ensembles de points ; comme toute mthode statistique, lutilisation de
rseaux de neurones ncessite que lon dispose de donnes suffisamment nombreuses et reprsentatives ;
les rseaux de neurones apprentissage supervis sont des approximateurs parcimonieux, qui permettent
de modliser des phnomnes statiques (rseaux non boucls) et dynamiques (rseaux boucls) ;
les rseaux de neurones apprentissage supervis peuvent constituer dexcellents classifieurs, dont les
performances peuvent approcher celles du classifieur baysien thorique ; nanmoins, pour la classifi-
cation en vue de la reconnaissance de formes, la reprsentation choisie pour les formes reconnatre
dtermine souvent, dune manire dcisive, la performance globale du systme ; dans ce contexte, les
rseaux de neurones apprentissage non supervis peuvent apporter des lments prcieux pour la
dtermination dune bonne reprsentation des formes ;
il est toujours souhaitable, et souvent possible, dutiliser, pour la conception du rseau, les connais-
sances mathmatiques dont on dispose sur le phnomne modliser ; les rseaux de neurones ne sont
pas ncessairement des botes noires .
Les chapitres qui suivent reprennent en dtail les lments exposs plus haut : le lecteur est invit se reporter
lavant-propos et guide de lecture pour naviguer dans cet ouvrage en fonction de ses centres dintrt.
Ainsi, la sortie du neurone a pour expression : y = f w0 + wixi . La figure 1-50 reprsente la sortie dun neurone 3 entres (x0=1,
i=1
x1, x2) muni des paramtres w = 0, w1 = 1, w2 = 1.
xi wi 2
i=1
y = exp .
2 wn2 + 1
Les paramtres {wi, i = 1 n} sont les coordonnes du centre de la gaussienne dans lespace des entres,
et le paramtre wn+1 est son cart-type. La figure 1-51 reprsente une RBF gaussienne isotrope, centre
lorigine, dcart-type gal 1/ 2 .
Remarque 1
Les fonctions radiales de base
tirent leur nom de ce quelles 0.8
forment, si elles sont convenable-
ment choisies, une base de fonc- 0.6
tions. Dans la pratique des
rseaux de neurones, les RBF ne 0.4
sont jamais choisies de faon
former une base ; nous utiliserons 0.2
donc simplement les termes de
fonction radiale (nanmoins, 0
2
nous suivrons lusage en
employant labrviation RBF). 1 2
0 1
0
Figure 1-51. RBF gaussienne -1
-1
isotrope y = exp [ (x12 + x22)] : -2 -2
w0 = w1 = 0, w3 = 1/ 2
Lalgorithme de Ho et Kashyap
Lalgorithme de Ho et Kashyap permet de dterminer, en un nombre fini ditrations, si deux ensembles
dexemples sont linairement sparables ; dans laffirmative, cet algorithme fournit une solution (parmi
une infinit de solutions possibles). Contrairement certains algorithmes dvelopps dans le chapitre 6, il
ne fournit pas une solution optimise. Son intrt essentiel est donc de dterminer si deux classes sont
linairement sparables, ou si elles ne le sont pas ; dans laffirmative, on utilisera, pour trouver une bonne
solution, un des algorithmes prsents dans le chapitre 6.
Considrons deux ensembles dexemples, appartenant deux classes A et B, en nombre na et nb ; si les
exemples sont dcrits par n descripteurs, chacun deux peut tre reprsent par un vecteur dans un espace
de dimension n. On dsigne par xka le vecteur reprsentatif du k-ime exemple de la classe a (k = 1 na),
et par w le vecteur des paramtres du sparateur linaire ; si un tel sparateur existe, il doit obir aux
conditions :
xka w > 0 pour tout k,
xkb w < 0 pour tout k.
Soit M la matrice dont les lignes sont les vecteurs reprsentatifs des exemples de A et les opposs des
vecteurs reprsentatifs des vecteurs de B :
M = x1a, x2a, ..., xnaa, x b1, x b2, ..., x bnb T
(o lexposant T dsigne la transposition). Alors un sparateur linaire existe si et seulement si il existe un
vecteur w tel que
Mw>0
Les rseaux de neurones
62
Bibliographie
ANTONIADIS A., BERRUYER J., CARMONA R. [1992], Rgression non linaire et applications, Economica.
BARRON A. [1993], Universal approximation bounds for superposition of a sigmoidal function, IEEE
Transactions on Information Theory, 39, p. 930-945.
BAUM E. B., WILCZEK F. [1988], Supervised learning of probability distributions by neural networks,
Neural Information Processing Systems, p. 52-61.
BENVENISTE A., JUDITSKY A., DELYON B., ZHANG Q., GLORENNEC P.-Y. [1994], Wavelets in identifica-
tion, 10th IFAC Symposium on Identification, Copenhague.
BISHOP C. [1995], Neural networks for pattern recognition, Oxford University Press.
BRIDLE J. S. [1990], Probabilistic interpretation of feedforward classification network outputs, with rela-
tionship to statistical pattern recognition, Neurocomputing : algorithms, architectures and applications,
p. 227-236 Springer.
BROOMHEAD D. S., LOWE D. [1988], Multivariable functional interpolation and adaptive networks,
Complex Systems, 2, p. 321-355.
COVER T. M. [1965], Geometrical and statistical properties of systems of linear inequalities with applica-
tions in pattern recognition, IEEE Transactions on Electronic Computers, 14, p. 326-334.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DUPRAT A., HUYNH T., DREYFUS G. [1998], Towards a principled methodology for neural network design
and performance evaluation in QSAR ; application to the prediction of LogP, Journal of Chemical Infor-
mation and Computer Sciences, 38, p. 586-594.
HAMPSHIRE J. B., PEARLMUTTER B. [1990], Equivalence proofs for multilayer perceptron classifiers and
the Bayesian discriminant function, Proceedings of the 1990 connectionist models summer school, p. 159-
172, Morgan Kaufmann.
HANSCH C., LEO A. [1995], Exploring QSAR, Fundamentals and applications in chemistry and biology;
American Chemical Society.
Les rseaux de neurones : pourquoi et pour quoi faire ?
63
CHAPITRE 1
HO E., KASHYAP R.L. [1965], An algorithm for linear inequalities and its applications, IEEE Transactions
on Electronic Computers, 14, p. 683-688.
HOPFIELD J. J. [1987], Learning algorithms and probability distributions in feedforward and frrdback
neural networks, Proceedings of the National Academy of Sciences, 84, p. 8429-433.
HORNIK K., STINCHCOMBE M., WHITE H. [1989], Multilayer feedforward networks are universal approxi-
mators, Neural Networks, 2, p. 359-366.
HORNIK K., STINCHCOMBE M., WHITE H. [1990], Universal approximation of an unknown mapping and
its derivatives using multilayer feedforward networks, Neural Networks, 3, p. 551-560.
HORNIK K. [1991], Approximation capabilities of multilayer feedforward networks, Neural Networks, 4,
p. 251-257.
KIM S. S., SANDERS T. H. Jr [1991], Thermodynamic modeling of phase diagrams in binary alkali silicate
systems, Journal of the American Ceramics Society, 74, p. 1833-1840.
KNERR S., PERSONNAZ L., DREYFUS G. [1990], Single-layer learning revisited : a stepwise procedure for
building and training a neural network, Neurocomputing : algorithms, architectures and applications, p.
41-50, Springer.
KNERR S. [1991], Un mthode nouvelle de cration automatique de rseaux de neurones pour la clas-
sification de donnes : application la reconnaissance de chiffres manuscrits, Thse de Doctorat de
l'Universit Pierre et Marie Curie, Paris.
KNERR S., PERSONNAZ L., DREYFUS G. [1992], Handwritten digit recognition by neural networks with
Single-layer Training, IEEE Transactions on Neural Networks, 3, p. 962-968.
LECUN Y., BOSER B., DENKER J.S., HENDERSON D., HOWARD R.E., HUBBARD W., JACKEL L.D. [1989],
Backpropagation applied to handwritten zip code recognition, Neural Computation, 1, p. 541-551.
MALLAT S. [1989], A theory for multiresolution signal decomposition : the wavelet transform, IEEE Tran-
sactions on Pattern Analysis and Machine Intelligence, 11, p. 674-693.
McCULLOCH W. S., PITTS W. [1943], A logical calculus of the ideas immanent in nervous activity, Bulletin
of Mathematical Biophysics, 5, p. 115-133.
MARCOS S., MACCHI O., VIGNAT C., DREYFUS G., PERSONNAZ L., ROUSSEL-RAGOT P. [1992], A unified
framework for gradient algorithms used for filter adaptation and neural network training, International
Journal of Circuit Theory and Applications, 20, p. 159-200.
MINSKY M., PAPERT S. [1969] Perceptrons. MIT Press.
MONARI G. [1999], Slection de modles non linaires par leave-one-out ; tude thorique et application
des rseaux de neurones au procd de soudage par points, Thse de Doctorat de l'Universit Pierre et
Marie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.
MOODY J., DARKEN C. J. [1989], Fast learning in networks of locally-tuned processing units, Neural
Computation, 1, p. 281-294.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G., MARCOS S. [1993], Neural networks and
non-linear adaptive filtering : unifying concepts and new algorithms, Neural Computation, 5, p. 165-197.
OUKHELLOU L., AKNIN P. [1997], Modified Fourier Descriptors : A new parametrization of eddy current
signatures applied to the rail defect classification, III International workshop on advances in signal
processing for non destructive evaluation of materials.
OUKHELLOU L., AKNIN P., STOPPIGLIA H., DREYFUS G. [1998], A new decision criterion for feature selec-
tion: application to the classification of non destructive testing signatures, European SIgnal Processing
COnference (EUSIPCO'98).
Les rseaux de neurones
64
OUSSAR Y. [1998], Rseaux dondelettes et rseaux de neurones pour la modlisation statique et dyna-
mique de processus, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
OUSSAR Y., DREYFUS G. [2000], Initialization by selection for wavelet network training, Neurocompu-
ting, 34, p. 131-143.
OUSSAR Y., DREYFUS G. [2001], How to be a gray box : dynamic semi-physical modeling, Neural
Networks, vol. 14, p. 1161-1172.
PLOIX J. L., G. DREYFUS [1997], Early fault detection in a distillation column: an industrial application of
knowledge-based neural modelling, Neural Networks: Best Practice in Europe, p. 21-31, World Scien-
tific.
POWELL M. J. D. [1987], Radial basis functions for multivariable interpolation : a review, Algorithms for
approximation, p. 143-167.
PRESS W. H., TEUKOLSKY S. A., VETTERLING W. T., FLANNERY B. P. [1992], Numerical recipes in C : the
art of scientific computing, Cambridge University Press.
PRICE D., KNERR S., PERSONNAZ L., DREYFUS G. [1994], Pairwise neural network classifiers with proba-
bilistic outputs, Neural Information Processing Systems, 7 , p. 1109-1116, Morgan Kaufmann.
PRICE P.E., WANG S., ROMDHANE I.H. [1997], Extracting effective diffusion parameters from drying
experiments. AIChE Journal, 43, p. 1925-1934.
RIVALS I., CANAS D., PERSONNAZ L., DREYFUS G. [1994], Modeling and control of mobile robots and intel-
ligent vehicles by neural networks, Proceedings of the IEEE Conference on Intelligent Vehicles, p. 137-142
RIVALS I. [1995], Modlisation et commande de processus par rseaux de neurones : application au pilo-
tage dun vhicule autonome, Thse de Doctorat de lUniversit Pierre et Marie Curie, Paris Disponible
sur le site http://www.neurones.espci.fr.
ROUSSEL P., MONCET F., BARRIEU B., VIOLA A. [2001], Modlisation dun processus dynamique laide
de rseaux de neurones boucls. Application la modlisation de la relation pluie-hauteur deau dans un
rseau dassainissement et la dtection de dfaillances de capteurs, Innovative technologies in urban
drainage, 1, 919-926, G.R.A.I.E.
SEBER G.A.F., WILD C.J. [1989], Nonlinear regression, Wiley Series in Probability and Mathematical
Statistics, John Wiley & Sons.
SINGHAL A. [1996], Pivoted length normalization. Proceedings of the 19th Annual International Confer-
ence on Research and Development in Information Retrieval (SIGIR'96), p. 21-29.
STOPPIGLIA H. [1997], Mthodes statistiques de slection de modles neuronaux ; applications finan-
cires et bancaires, Thse de Doctorat de lUniversit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STRICKER M. [2000], Rseaux de neurones pour le traitement automatique du langage : conception et
ralisation de filtres d'informations, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Dispo-
nible sur le site http://www.neurones.espci.fr.
STRICKER M., VICHOT F., DREYFUS G., WOLINSKI F. [2001], Training context-sensitive neural networks
with few relevant examples for the TREC-9 routing, Proceedings of the TREC-9 Conference.
VAPNIK V. [1995], The nature of statistical learning theory, Springer.
WOLINSKI F., VICHOT F., STRICKER M. [2000], Using learning-based filters to detect rule-based filtering
obsolescence, Confrence sur la Recherche dInformation Assiste par Ordinateur, RIAO'2000, Paris.
ZIPF G. K. [1949], Human Behavior and the Principle of Least Effort. Addison-Wesley.