Chap01 Les Réseaux de Neurones

1
Les rseaux de neurones :

pourquoi et pour quoi faire ?
Lors de lmergence dune nouvelle technique, lingnieur se demande naturellement en quoi elle peut lui
tre utile. Si elle est dote dun nom plus mtaphorique que scientifique ce qui est videmment le cas pour
les rseaux de neurones , la rponse cette question doit tre particulirement prcise et motive. Cest la
raison pour laquelle ce chapitre est consacr un expos des arguments thoriques et pratiques qui justi-
fient lutilisation des rseaux de neurones, suivi de la prsentation dapplications exemplaires qui, bien
quelles soient en apparence trs diverses, reposent toutes sur les mmes principes. La mise en uvre des
rseaux de neurones est gnralement simple ; la tentation peut tre grande dappliquer cette technique
dune manire irrflchie ou inadapte, ce qui ne peut conduire qu des dceptions. Voil pourquoi on ne
cherchera pas expliquer en dtail, dans ce chapitre, comment on met en uvre les rseaux de neurones,
mais plutt pourquoi ils peuvent tre mis en uvre de prfrence dautres outils, et dans quel but.
Nous commencerons par introduire les dfinitions essentielles : nous expliquerons ce quest un neurone
(formel), ce quest un rseau de neurones, ce quest lapprentissage des rseaux de neurones (nous prci-
serons notamment les diffrences entre lapprentissage supervis et lapprentissage non supervis), et
nous introduirons la distinction fondamentale entre rseaux de neurones non boucls et rseaux de
neurones boucls (ou rcurrents ).
Nous pourrons alors introduire la proprit fondamentale des rseaux de neurones apprentissage
supervis : lapproximation non linaire parcimonieuse. Nous montrerons que cette proprit fait des
rseaux de neurones dexcellents outils de modlisation non linaire par apprentissage. La notion
dapprentissage apparatra alors de manire trs naturelle, et nous insisterons sur le fait que ce terme doit
tre utilis avec prcaution, car lapprentissage des rseaux de neurones na rien voir avec lapprentis-
sage au sens de la psychologie ou de lintelligence artificielle : la mise en uvre des rseaux de neurones
se rvlera, en grande partie, comme constituant une extension non linaire de mthodes statistiques bien
connues, ce qui suffit justifier la trs grande tendue de leur champ dapplication.
Nous introduirons ensuite les principes de mise en uvre des rseaux de neurones apprentissage : nous
ferons la liste des conditions qui doivent tre replies pour que la russite dune application soit garantie.
Nous insisterons particulirement sur lutilisation des rseaux de neurones apprentissage supervis pour
la classification, qui prsente des particularits importantes. Nous prsenterons, dune manire gnrale,
le problme de la classification (ou discrimination), sous son aspect probabiliste ( baysien ) ; nous
soulignerons le fait que les rseaux de neurones ne doivent pas tre utiliss pour rsoudre nimporte quel
problme de classification, et nous prciserons le domaine dexcellence des rseaux classifieurs. Nous
proposerons une mthodologie gnrale de conception dun classifieur neuronal.
Nous terminerons ce chapitre par la prsentation de diverses applications qui sont destines montrer la
varit des domaines o les rseaux de neurones sont susceptibles dapporter des solutions efficaces et
lgantes : reconnaissance de formes, contrle non destructif, filtrage dinformations textuelles, bio-
Les rseaux de neurones
2
ingnierie, formulation de matriaux nouveaux, modlisation de procds industriels, contrle de lenvi-

ronnement, robotique, etc. Dautres applications (interprtation de spectres, classification dimages satel-
litaires, classification de signaux de sonar, commande de processus) seront mentionnes ou dcrites en
dtail dans les chapitres suivants.
Les rseaux de neurones : dfinitions et proprits

Dfinition
Un neurone est une fonction algbrique non linaire, paramtre, valeurs bornes.
Suivant en cela lusage, nous utiliserons frquemment, par abus de langage, les termes de neurone
linaire pour dsigner une fonction paramtre linaire ou affine (qui nest donc pas borne).
y Les variables sur lesquelles opre le neurone sont habituellement dsignes
sous le terme dentres du neurone, et la valeur de la fonction sous celui de
sortie ; il est commode de reprsenter graphiquement un neurone comme
indiqu sur la figure 1-1. Cette reprsentation est le reflet de linspiration
f biologique qui a t lorigine de la premire vague dintrt pour les
neurones formels, dans les annes 1940 1970 [McCULLOCH et al. 1943],
[MINSKY et al. 1969].
Figure 1-1. Un neurone ralise une fonction non linaire borne

x1 x2 xn y = f (x1, x2,... xn ; w1, w2, ... wp) o les {xi} sont les variables et les {wj} sont des paramtres.
La fonction f peut tre paramtre de manire quelconque. Deux types de paramtrages sont frquemment
utiliss :
Les paramtres sont attachs aux entres du neurone : la sortie du neurone est une fonction non linaire
dune combinaison des entres {xi} pondres par les paramtres {wi}, qui sont alors souvent dsigns
sous le nom de poids ou, en raison de linspiration biologique des rseaux de neurones, poids
synaptiques . Conformment lusage (galement inspir par la biologie), cette combinaison linaire
sera appele potentiel dans tout cet ouvrage. Le potentiel v le plus frquemment utilis est la somme
pondre, laquelle sajoute un terme constant ou biais :
n1
v = w0 + wi xi
i=1
La fonction f est appele fonction dactivation. Pour des raisons que nous exposerons plus bas, il est
recommand dutiliser pour f une fonction sigmode (cest--dire une fonction en forme de s )
symtrique par rapport lorigine, telle que la tangente hyperbolique ou la fonction Arctangente. Ainsi,
dans la trs grande majorit des applications qui seront dcrites dans ce chapitre, la sortie dun neurone
a pour quation :
n1
y = th w0 + wi xi
i=1
Les paramtres sont attachs la non-linarit du neurone : ils interviennent directement dans la fonc-
tion f ; cette dernire peut tre une fonction radiale ou RBF (en anglais Radial Basis Function), ou
encore une ondelette ; les premires tirent leur origine de la thorie de lapproximation [POWELL 1987],
les secondes de la thorie du signal [MALLAT 1989].
Les rseaux de neurones : pourquoi et pour quoi faire ?
3
CHAPITRE 1
Par exemple, la sortie dun neurone RBF non-linarit gaussienne a pour quation :
n
xi wi 2
i=1
y = exp 2
2 wn+1
o les paramtres wi, i = 1 n sont les coordonnes du centre de la gaussienne, et wn + 1 est son cart-type.
Dans les complments thoriques et algorithmiques, en fin de chapitre, nous prsentons dautres exemples
de neurones.
La diffrence pratique essentielle entre les deux types de neurones que nous venons dintroduire est la
suivante : les neurones tels que les RBF ou les ondelettes ont des non-linarits locales, qui tendent vers
zro dans toutes les directions de lespace des entres ; leur zone dinfluence est donc limite dans
lespace, ce qui nest pas le cas des neurones potentiel fonction dactivation sigmode.

Comme nous venons de le voir, un neurone ralise simplement une fonction non linaire, paramtre, de
ses variables dentre. Lintrt des neurones rside dans les proprits qui rsultent de leur association en
rseaux, cest--dire de la composition des fonctions non linaires ralises par chacun des neurones.
On distingue deux types de rseaux de neurones : les rseaux non boucls et les rseaux boucls.
Les rseaux de neurones non boucls

Forme gnrale
Dfinition
Un rseau de neurones non boucl ralise une (ou plusieurs) fonctions algbriques de ses entres, par
composition des fonctions ralises par chacun des neurones.
Un rseau de neurones non boucl est donc reprsent graphiquement par un ensemble de neurones
connects entre eux, linformation circulant des entres vers les sorties sans retour en arrire : si
lon reprsente le rseau comme un graphe dont les nuds sont les neurones et les artes les
connexions entre ceux-ci, le graphe dun rseau non boucl est acyclique : si lon se dplace dans le
rseau, partir dun neurone quelconque, en suivant les connexions, on ne peut pas revenir au neurone de
dpart. La reprsentation de la topologie dun rseau par un graphe est trs utile, notamment pour les
rseaux boucls, comme nous le verrons dans le chapitre 2. Les neurones qui effectuent le dernier calcul
de la composition de fonctions sont les neurones de sortie ; ceux qui effectuent des calculs intermdiaires
sont les neurones cachs (voir figure 1-2).
Remarque
Le terme de connexions doit tre pris dans un sens mtaphorique : dans la trs grande majorit des applications, les oprations effec-
tues par un rseau de neurones sont programmes (nimporte quel langage de programmation convient), et excutes par un ordinateur
conventionnel. Le rseau de neurones nest donc pas, en gnral, un objet physique tel quun circuit lectronique, et les connexions
nont pas de ralit matrielle ; nanmoins, le terme de connexion, issu des origines biologiques des rseaux de neurones, est pass dans
lusage, car il est commode quoique trompeur. Il a mme donn naissance au terme de connexionnisme.
4
Rseaux couches
La seule contrainte sur le graphe des connexions
dun rseau de neurones non boucl est quil ne
..... NO neurones de sortie contienne pas de cycle. On peut donc imaginer
une grande varit de topologies pour ces rseaux.
Nanmoins, pour des raisons que nous dveloppe-
rons plus bas, la trs grande majorit des applica-
.... Nc neurones cachs tions des rseaux de neurones mettent en jeu des
rseaux couches , dont un exemple est repr-
sent sur la figure 1-2.
.... n entres Forme gnrale
x1 x2 x3 xn Ce rseau ralise No fonctions algbriques des
variables dentres du rseau ; chacune des
Figure 1-2. Un rseau de neurones n entres, une couche de sorties est une fonction, ralise par le neurone
Nc neurones cachs, et No neurones de sortie de sortie correspondant, des fonctions non
linaires ralises par les neurones cachs.
Dfinition
Un rseau de neurones non boucl n entres, Nc neurones cachs et NO neurones de sortie ralise NO
fonctions non linaires de ses n variables dentre par composition des Nc fonctions algbriques rali-
ses par ses neurones cachs.
Il convient dinsister sur le fait que le temps ne joue aucun rle fonctionnel dans un rseau de neurones
non boucl : si les entres sont constantes, les sorties le sont galement. Le temps ncessaire pour le calcul
de la fonction ralise par chaque neurone est ngligeable et, fonctionnellement, on peut considrer ce
calcul comme instantan. Pour cette raison, les rseaux non boucls sont souvent appels rseaux
statiques , par opposition aux rseaux boucls ou dynamiques que nous introduirons plus bas.
Terminologie
Les rseaux de neurones non boucls couches, dont les neurones cachs ont une fonction dactivation sigmode, sont souvent appels
perceptrons multicouche (ou MLP pour Multi-Layer Perceptron).
proscrire
On voit souvent des textes qui mentionnent, outre la couche cache et la couche de sortie, une couche dentre , voire des
neurones dentre . Cette expression est trompeuse, car les entres (reprsentes par des carrs sur la figure 1-2) ne sont pas des
neurones : elles ne ralisent aucun traitement de linformation, puisquelles ne font que transmettre les valeurs des variables.
Rseaux une couche cache de sigmodes et un neurone de sortie linaire

Pour terminer cette prsentation des rseaux de neurones non boucls, considrons le cas, trs important
en pratique, des rseaux une couche cache fonction dactivation sigmode et un neurone de sortie
linaire (Figure 1-3).
5
CHAPITRE 1
g (x , w ) Figure 1-3. Un rseau de neurones n+1 entres,

une couche de Nc neurones cachs fonction dacti-
vation sigmode et un neurone de sortie linaire. Sa
Un neurone cach linaire sortie g(x, w) est une fonction algbrique non
N c +1 linaire du vecteur des entres x, de composantes 1,
x1, x2, ..., xN, et du vecteur des paramtres w, dont
les composantes sont les (n+1)Nc+Nc+1 param-
N tres du rseau.
c Nc neurones cachs
....
1 fonction dactivation
sigmode
La sortie de ce rseau a pour expression :
Nc n
g x, w = wN + 1, i th wij xj + wj0 + wN + 1, 0
c c
i=1 j=1
.... n entres variables Nc n
x0 = 1 x1 x2 xn + un biais = wN + 1, i th wij xj + wN + 1, 0
c c
i=1 j=0
o x est le vecteur des entres (de dimension n+1), et w est le vecteur des paramtres, de dimension
(n + 1)Nc+(Nc+1). Les neurones cachs sont numrots de 1 Nc et le neurone de sortie est numrot
Nc+1. Par convention, le paramtre wij est relatif la connexion allant du neurone j (ou de lentre j) vers
le neurone i.
Trs important
La sortie du rseau g(x, w) est une fonction linaire des poids de la dernire couche de connexions (qui
relient les Nc neurones cachs au neurone de sortie, numrot Nc+1), et elle est une fonction non linaire
des paramtres de la premire couche de connexions (qui relient les n+1 entres du rseau aux Nc
neurones cachs). Cette proprit a des consquences importantes que nous examinerons plus bas.
Ce quil faut retenir
La sortie dun rseau de neurones non boucl est une fonction algbrique non linaire de ses entres et
de ses paramtres
Quest-ce quun rseau de neurones zro neurones cachs ?

Un rseau de neurones non boucl sans neurone cach, avec un neurone de sortie linaire, ralise simplement une fonction linaire de
ses entres. On peut donc considrer tout systme linaire comme un rseau de neurones. Cela ne prsente cependant aucun intrt, ni
thorique ni pratique.
Les termes directs

Si la relation que lon cherche raliser entre les entres et les sorties prsente une importante composante linaire, il peut tre utile
dajouter, la structure de rseau couches qui vient dtre dcrite, des termes linaires, parfois appels termes directs , qui se tradui-
sent, dans la reprsentation graphique du rseau, par des connexions directes entre les entres et le neurone de sortie (figure 1-4). Par
exemple, pour un rseau dont les fonctions dactivation sont des sigmodes, lexpression de la sortie devient :
Nc n n
g x, w = wN c+1,i th wij x j + wN c + 1,j x j
i=1 j=0 j=0
6
Figure 1-4. Reprsentation graphique dun rseau de neurones g (x , w )

couches comportant des termes directs. Sa sortie g(x, w) dpend
du vecteur des entres x, de composantes 1, x1, x2, ..., xn, et du vecteur
des paramtres w, dont les composantes sont les paramtres du rseau. N c +1
Termes
directs
Rseaux de RBF (fonctions radiales de base)
ou dondelettes .... Nc
1
Dans ce cas, comme nous lavons indiqu plus haut, les para-
mtres relatifs aux RBF ne sont pas attachs aux connexions,
mais la non-linarit elle-mme ; en revanche, le neurone de
....
sortie (linaire) ralise une somme pondre des sorties des
neurones cachs. La sortie du rseau a donc pour expression
(pour des fonctions radiales gaussiennes) : x0 = 1 x1 x2 xn
n
Nc xj wij 2
g x, w = wNc + 1, i exp -
j=1
i=1 2 wi2
o x est le vecteur des entres du rseau (de dimension n), et w est le vecteur des paramtres du rseau (de
dimension (n+2) Nc) ([BROOMHEAD et al. 1988], [MOODY et al. 1989]) ; les neurones cachs sont num-
rots de 1 Nc, et le neurone de sortie porte le numro Nc+1.
Remarquons que deux sortes de paramtres interviennent ici : les poids de la dernire couche (qui relient
les Nc fonctions radiales au neurone de sortie), et les paramtres des fonctions radiales (centres et carts-
types pour des fonctions radiales gaussiennes). Les connexions de la premire couche ont toutes des poids
gaux 1. Dans ces rseaux, la sortie est une fonction linaire des poids de la dernire couche de
connexions, et elle est une fonction non linaire des paramtres des gaussiennes. Nous examinerons ult-
rieurement les consquences de cette proprit.
Les rseaux dondelettes ont exactement la mme structure, lquation de la gaussienne tant remplace
par celle dune ondelette multidimensionnelle. Les paramtres attachs la non-linarit sont alors les
centres et les dilatations des ondelettes ([BENVENISTE et al. 1994], [OUSSAR et al. 2000]).
Les rseaux de neurones boucls (ou rcurrents)

Forme gnrale
Nous introduisons ici larchitecture la plus gnrale pour un rseau de neurones, les rseaux boucls ,
dont le graphe des connexions est cyclique : lorsquon se dplace dans le rseau en suivant le sens des
connexions, il est possible de trouver au moins un chemin qui revient son point de dpart (un tel chemin
est dsign sous le terme de cycle ). La sortie dun neurone du rseau peut donc tre fonction delle-
mme ; cela nest videmment concevable que si la notion de temps est explicitement prise en considra-
tion.
Ainsi, chaque connexion dun rseau de neurones boucl (ou chaque arte de son graphe) est attach,
outre un poids comme pour les rseaux non boucls, un retard, multiple entier (ventuellement nul) de
lunit de temps choisie. Une grandeur, un instant donn, ne pouvant pas tre fonction de sa propre
valeur au mme instant, tout cycle du graphe du rseau doit avoir un retard non nul.
7
CHAPITRE 1
Dfinition
Un rseau de neurones boucl temps discret ralise une (ou plusieurs) quations aux diffrences non
linaires, par composition des fonctions ralises par chacun des neurones et des retards associs
chacune des connexions.
Proprit
Tout cycle du graphe des connexions dun rseau de neurones boucl doit comprendre au moins une
connexion de retard non nul.
La figure 1-5 reprsente un exemple de rseau de Figure 1-5. Un rseau g (kT )

neurones boucl. Les chiffres dans les carrs indiquent de neurones boucl
le retard attach chaque connexion, exprim en deux entres. Les 5
multiple de lunit de temps (ou priode dchantillon- chiffres dans les
carrs indiquent le
nage) T. Ce rseau contient un cycle, qui part du
retard attach 0 1
neurone 3 et revient celui-ci en passant par le neurone chaque connexion,
4 ; la connexion de 4 vers 3 ayant un retard de 1 unit de multiple de lunit de 0
temps, ce rseau est causal. temps (ou priode 3 0 4
dchantillonnage) T. 1
Explications Le rseau contient un
linstant kT : le neurone 3 reoit en entre les quantits u1(kT), cycle, qui part du 0 1 0
u2[(k1)T], y4[(k1)T] (o k est un entier positif et y4(kT) est la sortie du neurone 3, va au
neurone 4 linstant kT), et il calcule sa sortie y3(kT) ; le neurone 4 neurone 4, et revient
reoit u2(kT) et y3(kT), et il calcule sa sortie y4(kT) ; le neurone 5 reoit au neurone 3.
y3(kT), u1(kT) et y4[(k1)T], et il calcule sa sortie, qui est la sortie du u1 (kT ) u 2 (kT )
rseau de neurones, g(kT).
Forme canonique des rseaux de neurones boucls

Dans la mesure o les rseaux de neurones boucls ralisent des quations aux diffrences non linaires,
il est utile dexaminer les liens entre ces modles non linaires et les modles linaires dynamiques habi-
tuels, utiliss notamment en automatique des systmes linaires.
La description la plus gnrale dun systme linaire est la description dtat :
x(k+1) = A x(k) + B u(k)
y(k) = C x(k) + D u(k)
o x(k) est le vecteur des variables dtat linstant (discret) kT, u(k) est le vecteur des entres, y(k) est le
vecteur des sorties, et A, B, C, D sont des matrices. Rappelons que les variables dtat sont un ensemble
de variables, en nombre minimal, telles que lon peut calculer leurs valeurs linstant k+1 si lon connat
leurs valeurs initiales et si lon connat les valeurs des entres tout instant compris entre 0 et k. Le
nombre de variables dtat est appel ordre du systme.
De manire analogue, on dfinit la forme canonique dun systme non linaire temps discret par les
quations suivantes :
x(k) = [x(k 1), u(k 1)]
y(k) = [x(k)]
8
o et sont des fonctions non linaires (des Sorties Variables d'tat

rseaux de neurones par exemple), et x est le l'instant k l'instant k
vecteur des variables dtat. L encore, les varia-
bles dtat sont un ensemble de variables, en g (k ) x (k )
nombre minimal, qui permet de dcrire complte-
ment le systme linstant k si lon connat leurs
valeurs initiales et si lon connat les valeurs des
Rseau de neurones non boucl
entres tout instant compris entre 0 et k1. On
Retards
montrera dans le chapitre 2 que tout rseau de q -1 q -1
unitaires
neurones peut tre mis sous une forme cano-
nique, reprsente sur la figure 1-6, o le x (k - 1)
symbole q-1 reprsente un retard dune unit de u (k - 1)
temps. Ce symbole, habituel en automatique, sera
Entres externes Variables d'tat
utilis systmatiquement dans toute la suite de
l'instant k 1 l'instant k 1
louvrage, notamment dans les chapitres 2 et 4.
Figure 1-6. Forme canonique dun rseau de neurones boucl.
Le symbole q-1 reprsente un retard dune unit de temps.
Proprit
Tout rseau de neurones boucl, aussi complexe soit-il, peut tre mis sous une forme canonique,
comportant un rseau de neurones non boucl dont certaines sorties (les variables dtat) sont rame-
nes aux entres par des bouclages de retard unit [NERRAND et al. 1993].
Par exemple, le rseau de neurones reprsent g (kT ) g (kT ) x (kT )

sur la figure 1-5 peut tre mis sous la forme
canonique indique sur la figure 1-7. Ce rseau
prsente une seule variable dtat (il est donc du 5 5
1er ordre), qui est la sortie du neurone 3. Dans cet
exemple, ce neurone est un neurone cach, mais,
comme nous le verrons, un neurone dtat peut 0 1 3
q -1
aussi tre un neurone de sortie.
0
3 0 4 4
Figure 1-7. Forme canonique ( droite) du rseau repr- 1
sent sur la figure 1-5 ( gauche). Ce rseau possde une
variable dtat x(kT)( la sortie du neurone 3) : cest un 0 1 0
rseau du 1er ordre. La partie grise de la forme cano-
nique est un rseau de neurones non boucl.
u 1 (kT ) u 2 (kT ) u 1 (kT ) u 2 [( k -1)T ]

x [( k -1)T ]
Explications
linstant kT : le neurone 4 reoit u2[(k1)T] et x[(k1)T] = y3[(k1)T]) : il calcule donc la quantit y4[(k1)T] ; comme dans la forme non
canonique, le neurone 3 reoit en entre les quantits u1(kT), u2[(k1)T], y4[(k1)T] : il calcule donc la quantit y3(kT) ; le neurone 5 reoit
y3(kT), u1(kT) et y4[(k1)T] : il calcule donc sa sortie, qui est la sortie du rseau de neurones, g(kT). Les deux rseaux sont ainsi bien qui-
valents fonctionnellement.
Les rseaux boucls (et leur forme canonique) seront tudis en dtail dans les chapitres 2, 4 et 8.
9
CHAPITRE 1
Rsum
Nous avons introduit, dans cette section, les dfinitions essentielles relatives aux rseaux de neurones qui
sont le sujet de cet ouvrage. Nous avons notamment distingu :
les rseaux de neurones non boucls, statiques, qui ralisent des fonctions non linaires,
les rseaux de neurones boucls, dynamiques, qui ralisent des quations aux diffrences non linaires.
Nous avons vu galement que tout rseau de neurones boucl peut tre mis sous une forme canonique,
comprenant un rseau de neurones non boucl dont les sorties dtat sont ramenes ses entres avec un
retard unit.
Llment de base est donc le rseau de neurones non boucl ; voil pourquoi ltude de ce dernier est
fondamentale. Avant den indiquer les proprits et les applications, nous allons introduire la notion
dapprentissage.
Lapprentissage des rseaux de neurones
Dfinition
On appelle apprentissage des rseaux de neurones la procdure qui consiste estimer les para-
mtres des neurones du rseau, afin que celui-ci remplisse au mieux la tche qui lui est affecte.
Dans le cadre de cette dfinition, on peut distinguer deux types dapprentissages : lapprentissage
supervis et lapprentissage non supervis .
Laprentissage supervis
Nous avons vu, dans le paragraphe prcdent, quun rseau non boucl ralise une relation algbrique
entre ses entres et ses sorties. On peut donc affecter un tel rseau la tche qui consiste raliser une
fonction algbrique non linaire ; celle-ci peut tre :
connue analytiquement : le rseau ralise alors une tche dapproximation de fonction,
inconnue analytiquement, mais pour laquelle on dispose de valeurs, en nombre fini, qui sont entaches
de bruit si ces valeurs rsultent de mesures effectues sur un processus physique, chimique, cono-
mique, biologique, etc. : le rseau ralise alors une tche de modlisation statique ou une rgression.
Cest essentiellement pour ce dernier type dapplications que sont mis en uvre les rseaux de neurones
apprentissage supervis.
On connat donc, en tous points ou seulement en certains points, les valeurs que doit avoir la sortie du
rseau en fonction des entres correspondantes : cest en ce sens que lapprentissage est supervis ,
mtaphore qui signifie quun professeur peut fournir au rseau des exemples de ce que celui-ci
doit faire. Lessentiel du chapitre 2 de cet ouvrage est consacr expliquer comment cette mtaphore se
traduit mathmatiquement, et les algorithmes qui en rsultent. Les chapitres 3, 4, 5, et 6, de cet ouvrage
sont consacrs la mise en uvre et aux applications des rseaux apprentissage supervis pour des
tches de modlisation statique et dynamique, et de classification (discrimination) automatique.
Lapprentissage non supervis

Un rseau de neurones non boucl peut galement tre utilis dans un but de visualisation ou danalyse de
donnes : on dispose dun ensemble de donnes, reprsentes par des vecteurs de grande dimension, et
lon cherche les regrouper, selon des critres de ressemblance qui sont inconnus a priori. Ce type de
10
tches est connu en statistique sous le nom de mthodes dagrgation (en anglais clustering). On peut
utiliser les rseaux de neurones non boucls pour raliser une tche assez voisine : partir de donnes,
dcrites par des vecteurs de grande dimension, trouver une reprsentation de ces donnes dans un espace
de dimension beaucoup plus faible (typiquement de dimension 2) tout en conservant les proximits ou
ressemblances entre ces donnes. Il ny a donc pas l de professeur , puisque cest au rseau de
dcouvrir les ressemblances entre les lments de la base de donnes, et de les traduire par une proximit
dans la carte de dimension 2 quil doit produire. Les rseaux apprentissage non supervis les plus
tudis et utiliss sont les cartes auto-organisatrices ou cartes de Kohonen . Le chapitre 7 de cet
ouvrage est entirement consacr aux cartes auto-organisatrices et leurs applications.
Proprit fondamentale des rseaux de neurones non boucls

apprentissage supervis : lapproximation parcimonieuse
Les rseaux de neurones apprentissage supervis sont des approximateurs
universels
Proprit
Toute fonction borne suffisamment rgulire peut tre approche uniformment, avec une prcision
arbitraire, dans un domaine fini de lespace de ses variables, par un rseau de neurones comportant une
couche de neurones cachs en nombre fini, possdant tous la mme fonction dactivation, et un
neurone de sortie linaire [HORNIK et al. 1989], [HORNIK et al. 1990], [HORNIK 1991].
Cette proprit, qui nest quun thorme dexistence et ne donne pas de mthode pour trouver les para-
mtres du rseau, nest pas spcifique aux rseaux de neurones. Cest la proprit suivante qui leur est
particulire et fait tout leur intrt.
Certains rseaux de neurones sont des approximateurs parcimonieux

Dans la pratique, le nombre de fonctions ncessaires pour raliser une approximation est un critre impor-
tant dans le choix dun approximateur de prfrence un autre. Nous montrerons dans le paragraphe
suivant que le concepteur de modle doit toujours faire en sorte que le nombre de paramtres ajustables
soit le plus faible possible : on dit que lon cherche lapproximation la plus parcimonieuse.
Proprit fondamentale
On montre [BARRON 1993] que, si lapproximation dpend des paramtres ajustables de manire non
linaire, elle est plus parcimonieuse que si elle dpend linairement des paramtres.
Plus prcisment, on montre que le nombre de paramtres, pour une prcision donne, crot exponen-
tiellement avec le nombre de variables dans le cas des approximateurs linaires par rapport leurs
paramtres, alors quil crot linairement avec ce nombre pour les approximateurs non linaires par
rapport leurs paramtres. La parcimonie est donc dautant plus importante que le nombre dentres
du modle est grand : pour un modle 1 ou 2 entres, on peut utiliser indiffremment un modle
linaire par rapport ses paramtres (polynme par exemple) ou un modle non linaire par rapport
ses paramtres (rseau de neurones par exemple).
11
CHAPITRE 1
Or, nous avons vu que la sortie des rseaux de neurones fonction dactivation sigmode nest pas linaire
par rapport aux poids du rseau, alors que la sortie des rseaux de RBF centres et carts-types fixs (ou
dondelettes centres et dilatations fixs) est linaire par rapport aux poids. De mme, une approximation
par polynme est linaire par rapport aux coefficients des monmes. Ainsi, lutilisation de neurones
cachs fonction dactivation sigmode permet une approximation plus parcimonieuse qu'une approxi-
mation polynomiale, ou qu'une approximation par fonctions radiales centres et carts-types fixes, ou
encore quune approximation par ondelettes centres et dilatations fixs. Si, en revanche, on considre
que les centres et carts-types des RBF gaussiennes (ou les centres et les dilatations des ondelettes) sont
des paramtres ajustables au mme titre que les poids des connexions, il ny a pas, lheure actuelle,
davantage mathmatiquement dmontr utiliser un type de neurones plutt quun autre. En revanche,
des arguments pratiques dcisifs peuvent justifier une prfrence : connaissances a priori sur le type de
non-linarit souhaitable, caractre localis ou non de la fonction, rapidit de calcul, facilit dinitialisa-
tion de lapprentissage (voir chapitre 2, paragraphe Initialisation des paramtres ), facilit de ralisa-
tion en circuit spcialis, etc.
Expliquons qualitativement lorigine de la parcimonie. Considrons un modle linaire par rapport ses
paramtres, un modle polynomial par exemple :
g(x) = 4 + 2x + 4x2 0,5x3.
Le rsultat g(x) du modle est une combinaison linaire des fonctions y = 1, y = x, y = x2, y = x3, avec les
poids w0 = 4, w1 = 2, w2 = 4, w3 = 0,5. Ces fonctions ont une forme qui est fixe une fois pour toutes.
Considrons prsent le modle neuronal reprsent sur la figure 1-8, dont lquation est :
g(x) = 0,5 2 th(10x + 5) + 3 th(x + 0,25) 2 th(3x 0,25).
g Le rsultat de ce modle est aussi une combinaison linaire de fonctions (y
= 1, y = th(10x + 5), y = th(x + 0,25), y = th(3x 0,25)), mais la forme de ces
fonctions dpend des valeurs des poids des connexions entre les entres et
les neurones cachs. Ainsi, au lieu de combiner des fonctions de formes
-2 3 -2 0,5 fixes, on combine des fonctions dont la forme elle-mme est ajuste par des
paramtres. On comprend facilement que ces degrs de libert supplmen-
taires permettent de raliser une fonction donne avec un plus petit nombre
10 5 1 0,25
0,25 3 -0,25 de fonctions lmentaires, ce qui est prcisment la dfinition de la parci-
monie.
Figure 1-8. Un rseau de neurones non boucl une variable (donc deux entres) et trois
x 1 neurones cachs. Les nombres indiquent les valeurs des paramtres.
Un exemple lmentaire
Considrons la parabole dquation
y = 16,71 x2 0,075.
Nous en prenons 20 chantillons rgulirement espacs, que nous utilisons pour effectuer un apprentis-
sage supervis dun rseau 2 neurones cachs ( fonction dactivation Arctg) reprsent sur la figure 1-9(a).
Un apprentissage laide de lalgorithme de Levenberg-Marquardt (voir chapitre 2) fournit, en quelques
dizaines ditrations, les paramtres indiqus sur la figure 1-9(a). La figure 1-9(b) reprsente les points de
lensemble dapprentissage et la sortie du rseau, qui passe par ces points avec une excellente prcision.
La figure 1-9(c) reprsente les sorties des neurones cachs, dont la combinaison linaire avec le biais
constitue la sortie du rseau. La figure 1-9(d) montre les points dun ensemble de test et la sortie du
rseau : lorsque lon sloigne du domaine dapprentissage [0,12, +0,12], la prcision de lapproxima-
12
tion se dgrade, ce qui est normal. On notera la symtrie dans les valeurs des poids, qui reflte la symtrie
du problme (simulation ralise laide du logiciel NeuroOne de NETRAL S.A.).
Remarque
Bien entendu, approcher une parabole une variable par un rseau de neurones ne prsente aucun intrt pratique, puisque la parabole
a deux paramtres alors que le rseau de neurones en a sept ! La seule justification de cet exemple est que, tant mono-dimensionnel, il
permet dutiliser des reprsentations graphiques simples.
0.15
y Poids
0 -1,02 0.1
1 2,73
5 6 2 1,02 0.05
3 2,73
Figure 1-9. Interpo- 4 7,23
0
lation dune para- 5 4,58
4
bole par un rseau 6 - 4,57
1 3 0 2 -0.05
de neurones
2 neurones cachs ;
(a) rseau ; x 1 -0.1
(a) -0.15 -0.1 -0.05 0 0.05 0.1 0.15
(b) points dappren-
(b)
tissage (croix) et 6 18
sortie du rseau
16
aprs apprentissage ; 4
(c) sorties des deux 14
neurones cachs 2 12
(sigmodes) aprs 10
0
apprentissage ; 8
(d) points de test -2 6
(croix) et sortie
du rseau aprs -4 4
apprentissage : 2
lapproximation se -6
0
dgrade en dehors -8
-1 0 1 -2 -1
de la zone -0.5 0.5 -0.5 0 0.5 1
dapprentissage. (c) (d)
quoi servent les rseaux de neurones non boucls apprentissage

supervis ? Modlisation statique et discrimination (classification)
Les proprits mathmatiques dcrites dans la section prcdente sont fondamentales : elles donnent une
base solide aux applications des rseaux de neurones apprentissage supervis. Nanmoins, dans la
pratique, il est rare que lon cherche raliser une approximation uniforme dune fonction connue.
Le plus souvent, le problme qui se pose lingnieur est le suivant : il dispose dun ensemble de
variables mesures {xk, k = 1 N} et dun ensemble de mesures {yp(xk), k = 1 N} dune grandeur zp rela-
tive un processus de nature quelconque (physique, chimique, conomique, financier...). Il suppose quil
existe une relation entre le vecteur des variables {x} et la grandeur zp, et il cherche dterminer une forme
mathmatique de cette relation, valable dans le domaine o les mesures ont t effectues, sachant que (1)
les mesures sont en nombre fini, et que (2) ces mesures sont certainement entaches de bruit. De plus
toutes les variables qui dterminent zp ne sont pas forcment mesures. En dautres termes, lingnieur
13
CHAPITRE 1
cherche tablir un modle du processus quil tudie, partir des mesures dont il dispose, et delles
seules : on dit quil effectue une modlisation bote noire . On notera que, dans le jargon des rseaux
de neurones, les donnes partir desquelles on cherche construire le modle sappellent des exemples.
Nous tudierons plus bas la modlisation bote noire du comportement dun processus (lactionneur
hydraulique dun bras de robot) : lensemble de variables {x} est constitu dune seule variable (langle
douverture de la vanne dadmission dhuile) et la grandeur zp est la pression dhuile dans lactionneur.
Nous verrons galement un exemple de prdiction de proprits chimiques de molcules : on cherche une
relation dterministe entre une proprit des molcules (par exemple leurs points dbullition) et des
descripteurs de ces molcules (masse molaire, nombre datomes, volume , moment dipolaire,
etc.) ; on peut ainsi prdire le point dbullition de molcules dont la synthse na pas t effectue. Le
lecteur rencontrera dans cet ouvrage de nombreux cas de ce genre.
Les termes de bote noire que nous venons dintroduire sopposent aux termes de modle de
connaissance ou modle de comportement interne , qui dsignent un modle mathmatique tabli
partir dune analyse physique (ou chimique, physico-chimique, conomique, etc.) du processus que lon
tudie ; ce modle peut contenir un nombre limit de paramtres ajustables, qui possdent une significa-
tion physique. Nous verrons plus bas que les rseaux de neurones peuvent tre utiliss pour llaboration
de modles botes grises , intermdiaires entre les modles botes noires et les modles de connais-
sance.
En quoi la proprit dapproximation parcimonieuse des rseaux de neurones peut-elle tre utile pour
rsoudre le problme de la modlisation bote noire ? Nous ne rpondrons ici que trs brivement
cette question. Nous prsenterons une rponse trs dtaille dans le chapitre 2, qui prsente une mthodo-
logie de conception et de ralisation de modles neuronaux, et dans le chapitre 3, qui propose, en compl-
ment mthodologique, des techniques trs utiles de rduction de la dimension des entres des modles
dune part, et dvaluation des performances et construction de modles neuronaux dautre part.
Modlisation statique
Considrons, pour simplifier, le cas dun modle une seule variable x. Supposons que lon puisse, pour
chaque valeur de x, effectuer une infinit de mesures et en calculer la moyenne ; celle-ci nest autre que la
grandeur zp recherche ; elle est appele esprance mathmatique de yp pour la valeur x de la variable.
Cette esprance mathmatique est videmment une fonction de x, appele fonction de rgression ; or
nous savons que toute fonction (suffisamment rgulire) peut tre approche par un rseau de neurones ;
par consquent, lingnieur peut esprer rsoudre son problme de modlisation bote noire en esti-
mant les paramtres dun rseau de neurones qui ralise une approximation de la fonction de rgression,
laquelle, rappelons-le, est inconnue.
Cette approximation ne sera pas une approximation uniforme telle que nous lavons dfinie et illustre
dans le paragraphe prcdent. Pour des raisons qui seront expliques en dtail dans le chapitre 2, ling-
nieur cherchera plutt une approximation au sens des moindres carrs, cest--dire quil cherchera une
fonction paramtre g(x, w), ralise, par exemple, laide dun rseau de neurones, pour laquelle la fonc-
tion de cot des moindres carrs
N
1
Jw=
2
yp x k g x k, w
2
k=1
est minimum . Rappelons que, dans cette relation, {xk, k = 1 N} est un ensemble de mesures des
variables dentre, et yp(xk) est la valeur mesure de la grandeur modliser, lorsque le vecteur dentre
vaut xk. Lapprentissage dun rseau ayant un nombre donn de neurones cachs consiste donc, dans ce
cas, en une procdure de minimisation qui permet de trouver un vecteur de poids w0 satisfaisant.
14
Cette procdure pose aussitt deux questions, qui sont centrales dans la pratique des rseaux de neurones :
comment, dans une famille de rseaux de neurones donne, trouver celui qui minimise la fonction de
cot des moindres carrs ?
une fois que celui-ci a t trouv, comment juger sil est satisfaisant ?
Le lecteur trouvera dans cet ouvrage, notamment dans son chapitre 2, une mthodologie raisonne qui lui
permettra de rsoudre ces problmes.
Dans cette tche, nous serons aids par le fait que les deux questions que nous venons de mentionner ne
sont gure spcifiques aux rseaux de neurones : elles se posent depuis trs longtemps, en des termes
pratiquement identiques, tous ceux (ingnieurs, conomistes, financiers, biologistes, et, bien entendu,
statisticiens) qui cherchent, partir de donnes, extraire une information pertinente ([SEBER et al. 1989],
[ANTONIADIS et al. 1992], [DRAPER et al. 1998]). En fait, le cheminement que nous venons de raliser,
depuis lapproximation de fonction jusqu lestimation des paramtres dune rgression, est celui de tout
statisticien la recherche dun modle : nous pourrons tirer largement profit de rsultats tablis, notam-
ment dans le cadre de la rgression linaire, par ces derniers.
Rsumons, laide dun exemple, les tapes que nous venons de dcrire :
lorsquon dsire tablir un modle mathmatique dune dpendance entre des variables, on cherche
estimer la fonction de rgression, cest--dire la fonction que lon obtiendrait si lon pouvait faire, en
chaque point, un nombre infini de mesures et en calculer la moyenne ; cette fonction de rgression ne
peut donc jamais tre dtermine exactement ; la figure 1-10 reprsente un signal yp(x) que lon voudrait
modliser, cest--dire pour lequel on voudrait obtenir la meilleure approximation possible de la fonc-
tion de rgression inconnue ;
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00
Figure 1-10. Un signal que lon voudrait modliser
on effectue un nombre fini de mesures, comme illustr sur la figure 1-11 ;

un rseau de neurones tel que la fonction de cot des moindres carrs, cest--dire la somme des carrs
des diffrences entre les valeurs calcules par le rseau et les valeurs mesures (en nombre fini), soit
aussi petite que possible, permet de trouver une approximation de la fonction de rgression, comme
indiqu sur la figure 1-12.
15
CHAPITRE 1
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00
Figure 1-11. La situation relle dans laquelle se trouve lingnieur : il ne dispose que dun nombre fini de mesures. Noter
que, dans cet exemple, les points de mesure sont rgulirement espacs, mais cela nest pas obligatoire.
+ 1,20
+ 0,90
+ 0,60
+ 0,30
+ 0,00
- 0,30
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00
Figure 1-12. Une approximation de la fonction de rgression, ralise par un rseau de neurones, partir des points expri-
mentaux de la figure 1-11.
Ainsi, un rseau de neurones peut, partir dexemples, prvoir la valeur que peut prendre une grandeur
qui dpend de plusieurs variables, pour des valeurs de ces variables qui ne font pas partie de la base
dexemples utilise pour calculer les coefficients du rseau. Dans le cas reprsent sur la figure 1-12, le
rseau permet de trouver des valeurs du signal pour des points qui se trouvent entre les points de mesure.
Cette proprit est appele infrence statistique par les statisticiens, et, dans le domaine des rseaux
de neurones, sous le terme de gnralisation . Il faut bien comprendre que cette gnralisation est nan-
moins limite : elle ne peut pas stendre au-del des limites de la rgion de lespace des entres dans
laquelle se trouvent les exemples qui servent lapprentissage, comme illustr sur la figure 1-9. Le
problme de la qualit de la gnralisation est largement abord dans les chapitres de cet ouvrage.
16
En quoi la parcimonie est-elle avantageuse ?

Dans ce contexte, en quoi la parcimonie des rseaux de neurones, sur laquelle nous avons insist dans la
section prcdente, est-elle un avantage ? Nous avons dj mentionn le fait que la grande majorit des
applications des rseaux de neurones apprentissage supervis concerne la modlisation de processus :
on ajuste les paramtres du rseau, au cours de lapprentissage partir dexemples, pour que celui-ci
reproduise la relation non linaire qui existe entre les entres et les sorties. Or il est clair intuitivement que
le nombre dexemples ncessaires pour ajuster les paramtres de manire significative doit tre grand
devant le nombre de ces paramtres : on ne peut pas ajuster lquation dune droite avec un seul point, ou
lquation dun plan avec deux points. Les rseaux parcimonieux en paramtres sont donc galement
parcimonieux en nombre dexemples ; or ceux-ci, trs souvent, cotent cher (notamment si ce sont des
rsultats dexpriences sur un processus industriel), et leur collecte peut tre longue (par exemple, si lon
veut modliser un processus conomique partir dindices publis une fois par mois par lINSEE).
Lavantage pratique des rseaux de neurones par rapport aux techniques classiques de modlisation non
linaire rside donc dans leur capacit raliser des modles de prcision quivalente avec moins de
donnes exprimentales (ou dans leur capacit constituer des modles plus prcis partir du mme
nombre dexemples). De manire gnrale, les rseaux de neurones permettent de tirer le meilleur parti
des donnes numriques disponibles, pour construire des modles plusieurs entres.
La figure 1-42 montre un exemple de parcimonie dans une application relle : la prdiction dun para-
mtre thermodynamique dun verre.
Classification (discrimination)
Classer un ensemble dobjets, cest attribuer chacun une classe (ou catgorie ) parmi plusieurs
classes dfinies lavance. Cette tche est appele classification ou discrimination . Un algorithme
qui ralise automatiquement une classification est appel classifieur.
Les statisticiens appellent aussi classification la tche qui consiste regrouper des donnes qui se
ressemblent dans des classes qui ne sont pas dfinies lavance, et nous avons vu que les rseaux de
neurones apprentissage non supervis peuvent raliser ce genre de tches ; il y a donc une certaine
confusion dans les termes. Nous nous efforcerons toujours de prciser ce dont il sagit, lorsque le contexte
ne rend pas la distinction vidente. Dans tout ce paragraphe, nous nous plaons dans le cas o les classes
sont connues lavance.
Les applications des classifieurs sont trs nombreuses : dans le domaine de la reconnaissance des formes
(chiffres et caractres manuscrits ou imprims, images, parole, signaux temporels...), mais galement
dans bien dautres domaines (conomie, finance, sociologie, traitement du langage...). De manire gn-
rale, nous dsignerons sous le terme de forme nimporte quel objet dcrit par un ensemble de nombres
( descripteurs ) : ainsi, une image pourra tre dcrite par lensemble des valeurs dintensit de ses pixels
(contraction de picture elements ou lments dimage), un signal temporel par ses valeurs successives
au cours dune priode de temps dfinie, une entreprise par lensemble des lments de son bilan, un texte
par lensemble des mots importants quil contient, etc. Schmatiquement, la question laquelle un clas-
sifieur doit apporter un lment de rponse est du type : le caractre inconnu est-il un a, un b, un c, etc. ?
le signal observ est-il normal ou anormal ? lentreprise examine constitue-t-elle un excellent, trs bon,
bon, mdiocre, mauvais, trs mauvais, support dinvestissement ? la dpche dagence reue est-elle rela-
tive une prise de participation entre entreprises ? y aura-t-il demain une alerte la pollution par lozone ?
Il faut noter que le classifieur nest pas ncessairement conu pour donner une rponse complte : il peut
apporter seulement un lment de rponse. Il faut bien, en effet, distinguer laide la dcision et la dci-
sion elle-mme : un classifieur peut apporter une information qui aidera un tre humain, ou un systme
17
CHAPITRE 1
automatique, prendre une dcision concernant lappartenance de lobjet inconnu telle ou telle classe.
Historiquement, les premiers rseaux de neurones utiliss pour la classification taient conus pour
fournir une dcision. Grce aux progrs accomplis dans la comprhension des proprits fondamentales
des rseaux de neurones, on sait prsent quils peuvent donner une information beaucoup plus riche et
fine quune simple dcision binaire : ils peuvent estimer la probabilit dappartenance de lobjet inconnu
chacune des classes, ce qui leur permet notamment de sintgrer dans des systmes de reconnaissance
complexes qui utilisent plusieurs systmes de classification diffrents, chacun deux fournissant une esti-
mation de la probabilit dappartenance de lobjet inconnu chacune des classes. La dcision finale est
prise au vu de ces estimations, et en fonction, par exemple, des spcialits de chacun des classifieurs.
De mme, dans le domaine de la fouille de donnes (data mining), une problmatique de plus en plus
frquente est celle du filtrage dinformation : trouver automatiquement, dans un corpus de donnes,
les textes qui sont pertinents pour un thme donn, et prsenter ces textes par ordre de probabilit de perti-
nence dcroissante, afin que lutilisateur puisse faire un choix rapide parmi les documents qui lui sont
prsents. L encore, il est indispensable que le classifieur ne se contente pas de donner une rponse
binaire (document pertinent ou non), mais bien quil dtermine une probabilit dappartenance une
classe. Les rseaux de neurones non boucls sont bien adapts ce type de tche, dont limportance est
de plus en plus vidente.
La section du prsent chapitre intitule Rseaux de neurones apprentissage supervis et
discrimination , et le chapitre 6 en entier, sont consacrs la discrimination.
quoi servent les rseaux de neurones apprentissage non

supervis ? Analyse et visualisation de donnes
Les moyens modernes de traitement et de stockage de linformation permettent de disposer de trs
grandes quantits dinformations, quelles soient numriques (traitements numriques intensifs de rsul-
tats exprimentaux) ou linguistiques (corpus de textes). Retrouver des informations dont on sait quelles
doivent tre prsentes dans les donnes, mais dont on ne sait pas bien comment les extraire, devient une
proccupation de plus en plus importante. Les progrs du graphisme des ordinateurs permet des reprsen-
tations des donnes de plus en plus claires et conviviales, mais loprateur est incapable de visualiser clai-
rement des donnes de haute dimensionnalit. Il est donc trs important de disposer de techniques de
reprsentations des donnes basse dimension (typiquement 2) qui permettent de retrouver linformation
prgnante dans les donnes. Les rseaux de neurones apprentissage non supervis offrent un
ensemble de techniques puissantes dans ce domaine, notamment les cartes auto-organisatrices.
Le chapitre 7 de cet ouvrage, entirement consacr lapprentissage non supervis, dcrit en dtail de
belles applications, notamment en tldtection.
quoi servent les rseaux de neurones boucls apprentissage

supervis ? Modlisation dynamique bote noire et semi-
physique ; commande de processus
Nous avons vu, dans le paragraphe consacr aux rseaux de neurones boucls, que tout rseau de neurones
non boucl peut tre mis sous une forme canonique, qui comprend un rseau de neurones non boucls et
des bouclages (ou rcurrences) externes celui-ci. Les proprits des rseaux de neurones boucls
apprentissage supervis sont donc directement lies celles des rseaux non boucls : de mme que lon
met en uvre les rseaux de neurones non boucls pour modliser, de manire statique, des processus non
linaires qui peuvent tre utilement dcrits par des quations algbriques, de mme il est intressant de
mettre en uvre des rseaux de neurones boucls pour modliser, de manire dynamique, des processus
18
qui peuvent tre utilement dcrits par des quations rcurrentes (ou quations aux diffrences). Une partie
du chapitre 2, et tout le chapitre 4, sont consacrs la modlisation dynamique de processus.
Plusieurs motivations peuvent pousser lingnieur concevoir un modle dynamique :
utiliser le modle comme simulateur pour prvoir lvolution dun processus dont la modlisation
de connaissance est trop complexe, ou dont il est possible dcrire un modle qui contient des quations
trop incertaines ou dont les paramtres sont trop mal connus ;
utiliser le modle comme simulateur dun processus dont la modlisation de connaissance est possible,
mais conduit des quations diffrentielles, ou aux drives partielles, dont la rsolution numrique est
lourde et ne peut rpondre des contraintes de fonctionnement en temps rel : on peut alors crer un
ensemble dapprentissage partir du code de rsolution des quations, et concevoir un rseau de
neurones qui fournit de trs bonnes solutions dans des temps de calcul beaucoup plus courts ; larchi-
tecture de ce rseau peut avantageusement tre inspire des quations diffrentielles du modle de
connaissance : on conoit alors un modle semi-physique ou modle bote grise ;
utiliser le modle comme prdicteur trs court terme (une priode dchantillonnage) afin de lintgrer
un systme de commande.
La modlisation semi-physique
Il est trs frquent, notamment dans lindustrie manufacturire, que lon dispose dun modle de connais-
sance dun procd, mais que celui-ci ne soit pas satisfaisant ; il peut y avoir cela plusieurs raisons :
le modle peut tre insuffisamment prcis pour lobjectif que lon sest fix : par exemple, si lon dsire
dtecter une anomalie de fonctionnement en analysant la diffrence entre ltat du processus prvu par
le modle du fonctionnement normal et ltat rellement mesur, il faut que le modle de fonctionne-
ment normal soit prcis ;
le modle peut tre prcis, mais tre trop complexe pour pouvoir tre intgr numriquement en temps
rel (pour une application de surveillance ou de commande, par exemple).
Si lon dispose de mesures, on peut alors lgitimement dcider davoir recours un modle bote
noire , non linaire si ncessaire ; mais il serait nanmoins maladroit dabandonner compltement toutes
les connaissances accumules lors de la conception du modle, pour construire un autre modle fond
uniquement sur les mesures. La modlisation semi-physique permet de rconcilier ces deux points de vue,
en utilisant toutes les connaissances avres dont on peut disposer sur le processus (sous rserve quelles
soient sous la forme dquations algbriques ou diffrentielles) pour structurer le rseau et dfinir son
architecture. Nous prsenterons plus bas un exemple dapplication industrielle de la modlisation semi-
physique ; la mthodologie de conception dun tel modle est dcrite dans le chapitre 2.
La commande de processus
Commander un systme, cest lui imposer une dynamique de rponse une sollicitation. Sil sagit dun
asservissement, il faut imposer au systme de rester dans un tat dtermin quelles que soient les pertur-
bations, mesurables ou non, auxquelles il est soumis : pour un systme de commande de vitesse dune
voiture (cruise control), il faut agir automatiquement sur lacclrateur afin que la voiture conserve une
vitesse constante gale la vitesse de consigne, indpendamment de perturbations telles que bourrasques
de vent, changements de la pente de la route, etc. Sil sagit dun systme de poursuite, il faut imposer au
systme de suivre une trajectoire de consigne : par exemple, dans un fermenteur, agir sur le systme de
chauffage pour que la temprature suive un profil temporel dtermin lavance, indpendamment de la
temprature du four, de la temprature des ingrdients que lon ajoute durant la fermentation, des rac-
tions exo- ou endothermiques qui peuvent se produire, etc. Pour raliser ces tches, il faut gnralement
disposer dun modle, qui, si les non-linarits sont importantes, peut tre un rseau de neurones. Le
chapitre 5 est entirement consacr la commande de processus non linaires.
19
CHAPITRE 1
quoi servent les rseaux de neurones boucls sans

apprentissage ? Loptimisation combinatoire
Les utilisations des rseaux de neurones boucls prsentes dans la section prcdente mettent profit la
dynamique force des modles neuronaux, puisquil sagit de modliser la rponse dun processus aux
signaux de commande quil reoit. Il existe une autre classe dapplications des rseaux de neurones
boucls, dans lesquels cest au contraire la dynamique propre des modles qui est mise profit.
Il existe en effet des rseaux de neurones boucls, constitus de neurones dont la fonction dactivation est
un chelon (neurones de McCulloch et Pitts), dont la dynamique est caractrise par lexistence de points
fixes : si un tel rseau est plac dans un tat initial, et quon le laisse voluer spontanment, il aboutit, au
bout dun temps fini, dans un tat stable (qui dpend de ltat de dpart). Cet tat (cest--dire le vecteur
des sorties des neurones) tant binaire, il peut tre considr comme le code binaire dune information.
De plus, on montre quil existe une fonction de ltat, dite fonction dnergie, ou fonction de Liapounov,
qui dcrot toujours pendant lvolution libre du rseau ; les tats stables de celui-ci sont donc des minima
de cette fonction dnergie.
On peut inverser le problme : supposons que lon se pose un problme doptimisation combinatoire,
cest--dire que lon cherche le minimum (ou un bon minimum) dune fonction, dite fonction de
cot , de variables binaires. Sil existe un rseau de neurones boucl dont la fonction dnergie est
isomorphe de la fonction de cot que lon cherche minimiser, alors les points fixes de la dynamique de
ce rseau constituent des solutions au problme doptimisation combinatoire que lon cherche rsoudre.
Si lon peut construire un tel rseau, il peut alors trouver de lui-mme, partir dun tat initial quelconque,
une solution au problme doptimisation.
La mise en uvre de cette ide ncessite donc
de trouver un rseau de neurones dont la fonction dnergie soit isomorphe de la fonction de cot du
problme doptimisation,
de dterminer les paramtres de ce rseau,
de matriser la dynamique de celui-ci pour quil trouve un bon minimum de la fonction de cot,
ventuellement en faisant appel des techniques inspires de la mthode du recuit simul.
La mise en uvre de cette technique puissante, et ses applications, font lobjet du chapitre 8 de cet
ouvrage.
Quand et comment mettre en uvre des rseaux de

neurones apprentissage supervis ?
Aprs avoir prsent les justifications thoriques de lutilisation de rseaux de neurones, nous allons ici
aborder les problmes pratiques lis leur mise en uvre : nous rappellerons dabord quand utiliser et
quand ne pas utiliser les rseaux de neurones ; nous expliquerons brivement ensuite comment il faut les
mettre en uvre. Toutes les questions qui sont abordes ici sont approfondies dans les chapitres suivants.
Quand utiliser les rseaux de neurones ?

Nous avons expliqu prcdemment le fondement thorique de lutilisation des rseaux de neurones
apprentissage supervis : la proprit dapprocher, de manire parcimonieuse, toute fonction de rgres-
sion non linaire suffisamment rgulire.
20
Il peut donc tre avantageux de mettre en uvre des rseaux de neurones pour toute application ncessi-
tant de trouver, par des mthodes statistiques, une relation non linaire entre des donnes numriques.
Sous quelles conditions peut-on utiliser une telle approche ?
Une premire condition, ncessaire mais non suffisante : puisque les rseaux de neurones entrent dans
le cadre des mthodes statistiques, il faut disposer dchantillons de taille suffisamment grande, et bien
reprsentatifs.
Une fois que ces donnes ont t recueillies, il faut sassurer de lintrt rel dun modle non linaire
pour lapplication considre : en effet, la mise en uvre dun modle linaire (ou affine) est toujours
plus simple, et moins coteuse en temps de calcul, que celle dun rseau de neurones. Par consquent,
en labsence de toute connaissance a priori sur lintrt dun modle non linaire, lingnieur doit
dabord utiliser les mthodes simples et prouves dlaboration dun modle linaire ; sil savre que
la prcision du modle est insuffisante bien que tous les facteurs pertinents soient prsents dans les
entres du modle, alors le concepteur de modle doit envisager la mise en uvre de modles non
linaires tels que les rseaux de neurones.
Si les donnes sont disponibles, et si lon sest assur quun modle non linaire est utile, il faut sinter-
roger sur lopportunit dutiliser un rseau de neurones de prfrence une autre famille de fonctions
non linaire, les polynmes par exemple. Cest ici quintervient la notion de parcimonie : comme nous
lavons vu plus haut, pour une prcision donne, le nombre de poids de la premire couche de
connexions varie linairement avec le nombre de variables, alors quil varie exponentiellement dans le
cas, par exemple, dune approximation polynomiale (il existe nanmoins des mthodes de slection des
monmes qui permettent, dans une certaine mesure, dviter cette explosion combinatoire).
Par consquent, les rseaux de neurones, notamment fonction dactivation sigmode, sont dautant
plus avantageux que le nombre de variables est grand ; dans la majorit des cas, grand signifie,
en pratique et de manire empirique, suprieur ou gal 3.
En rsum : si lon dispose de donnes numriques suffisamment nombreuses et reprsentatives, il est
gnralement avantageux dutiliser des rseaux de neurones dans toute application mettant en jeu lesti-
mation dune fonction de rgression non linaire possdant au moins trois variables. Si le nombre de
variables est suprieur ou gal 3, il est gnralement avantageux dutiliser des rseaux de neurones
fonction dactivation sigmode ; dans le cas contraire, des rseaux de neurones utilisant des RBF centres
et carts-types fixs, ou des ondelettes centres et dilatations fixs, ou encore des polynmes, peuvent tre
aussi prcises, et plus simples mettre en uvre.
Bien entendu, si les donnes ne sont pas numriques (mais linguistiques par exemple), les rseaux de
neurones ne peuvent les traiter directement. Il faut avoir recours des pr-traitements permettant de
quantifier ces donnes (par exemple laide de techniques issues de la thorie des ensembles flous).
Comment mettre en uvre ces rseaux de neurones ?

Les rseaux de neurones ralisent des fonctions non linaires paramtres ; ils peuvent approcher toute
fonction de rgression si lon trouve un rseau de neurones qui rend minimum la fonction de cot des
moindres carrs (somme des carrs des diffrences entre les valeurs calcules par le rseau de neurones et
les valeurs mesures). La mise en uvre dun rseau de neurones ncessite donc
de dterminer les entres pertinentes, cest--dire les grandeurs qui ont une influence significative sur le
phnomne que lon cherche modliser,
de collecter les donnes ncessaires lapprentissage et lvaluation des performances du rseau de
neurones,
de trouver le nombre de neurones cachs ncessaires pour obtenir une approximation satisfaisante,
21
CHAPITRE 1
destimer les valeurs des paramtres correspondant un minimum de la fonction de cot, cest--dire
deffectuer un apprentissage,
dvaluer les performances du rseau de neurones lissue de lapprentissage.
En fonction des rsultats obtenus, il peut tre ncessaire deffectuer plusieurs itrations de tout ou partie
de cette procdure.
Nous allons aborder successivement ces diffrents points.
Les entres pertinentes

Le problme de la dtermination des entres pertinentes se pose de manire trs diffrente selon les appli-
cations envisages.
Si le processus que lon veut modliser est un processus industriel conu par des ingnieurs, le problme
est important mais pas crucial, car, en gnral, on connat bien les grandeurs qui interviennent et les
relations causales entre celles-ci. Ainsi, dans un procd de soudage par points, on fait fondre localement
les deux tles souder en faisant passer un courant lectrique trs important (quelques kiloampres)
pendant quelques millisecondes, entre deux lectrodes qui exercent une pression mcanique sur les tles
(figure 1-13). La qualit de la soudure, qui est caractrise par le diamtre de la zone fondue, dpend
videmment de lintensit du courant, de la dure pendant laquelle il est appliqu, de leffort exerc par
les lectrodes pendant le passage du courant et pendant la phase de solidification, de ltat de surface des
lectrodes, de la nature des tles, et de quelques autres facteurs qui ont t trs largement tudis en raison
de limportance industrielle du procd. On connat donc la nature des entres dsirables pour un modle ;
il peut tre nanmoins utile de faire un choix parmi ces grandeurs, en ne prenant en considration, en
entre du modle, que celles qui agissent de manire trs significative sur le processus (cest--dire celles
dont leffet est plus important que lincertitude de la mesure).
En revanche, si le processus modliser est un processus
naturel complexe (cologique par exemple), ou un
processus conomique, social ou financier, la dtermina-
tion des entres pertinentes peut tre beaucoup plus dli-
cate. Ainsi, si lon veut prdire une proprit chimique
dune molcule (cet exemple est dcrit en dtail plus
bas), le choix des descripteurs pertinents nest pas
vident ; de mme, pour dterminer la solvabilit dun
organisme, ou la qualit dune entreprise, il est trs
important de choisir des ratios appropris pour dcrire la
Transformateur
situation comptable, fiscale, commerciale, etc.
Ce problme (et, plus gnralement, le problme de la
Figure 1-13. Schma dun processus industriel : slection de modle) nest pas spcifique aux rseaux de
le soudage par points neurones : il se pose pour toutes les techniques de mod-
lisation, quelles soient linaires ou non. Nous verrons,
dans le chapitre 2, quil est possible dtendre aux rseaux de neurones des mthodes de slection connues
dans le domaine de la modlisation linaire.
La collecte des donnes

Nous avons vu que, pour pouvoir effectuer lapprentissage, il faut disposer de donnes. Celles-ci doivent
tre en nombre suffisant, et tre suffisamment reprsentatives des donnes qui seront prsentes au
modle lors de son utilisation. Lorsque la grandeur que lon veut modliser dpend de nombreux facteurs,
22
cest--dire lorsque le modle possde de nombreuses entres, il nest pas possible de raliser un
pavage rgulier dans tout le domaine de variation des entres : il faut donc trouver une mthode
permettant de raliser uniquement des expriences qui apportent une information significative pour
lapprentissage du modle : il faut raliser un plan dexpriences . Pour les modles linaires, llabo-
ration des plans dexpriences est bien matrise ; ce nest pas le cas pour les modles non linaires. Nous
prsenterons dans le chapitre 2, section laboration de plans dexpriences , quelques lments qui
permettent de construire itrativement un plan dexpriences pour un modle neuronal.
Le nombre de neurones cachs

Lcart entre lapproximation ralise par un rseau de neurones et la fonction approcher est inverse-
ment proportionnel au nombre de neurones cachs [BARRON 1993] ; malheureusement, ce rsultat,
comme dautres considrations thoriques telles que la dimension de Vapnik-Cervonenkis [VAPNIK 1995]
(introduite dans le chapitre 6) nest pas constructif, en ce sens quil ne peut que donner des estimations,
ou des bornes larges, du nombre de neurones cachs ncessaires. Il nexiste pas, lheure actuelle, de
rsultat thorique permettant de prvoir le nombre de neurones cachs ncessaires pour obtenir une
performance spcifie du modle, compte tenu des donnes disponibles. Il faut donc ncessairement
mettre en uvre une procdure numrique de conception de modle. Nous allons tout dabord dfinir le
problme de la conception dun modle statique non linaire bote noire , et notamment (mais pas
exclusivement), dun rseau de neurones non boucl.
La ncessit de la parcimonie
Lide la plus naturelle consisterait choisir le nombre de neurones cachs le plus grand possible, puisque
cest ce qui assure la plus grande prcision lapproximation uniforme dune fonction. Ce serait oublier
que le problme rel que lon se pose nest pas un problme dapproximation uniforme, mais un problme
dajustement dune fonction un nombre fini de points ; il faut donc, non seulement que la fonction
ralise par le rseau de neurones passe le plus prs possible , au sens des moindres carrs, des points
utiliss pour lapprentissage (lensemble de ces points est appel ensemble dapprentissage ), mais
galement quil soit capable de gnraliser de manire satisfaisante. Si le rseau de neurones possde un
nombre de paramtres excessif, en raison dun nombre excessif de neurones cachs, sa sortie peut passer
avec une trs grande prcision par tous les points dapprentissage, mais fournir des rsultats dpourvus de
signification entre ces points ; sil possde un nombre de paramtres trop restreint, le modle nest pas
suffisamment riche pour rendre compte de la complexit de la fonction de rgression inconnue. Ce
dilemme (appel dilemme biais-variance ) est le problme essentiel que doit affronter le concepteur de
modles : il rsulte du fait que la modlisation bote noire entre dans la catgorie des problmes dits
mal poss , en ce sens quils ne peuvent pas tre rsolus compltement en fonction des donnes dont
on dispose.
La figure 1-14 prsente le rsultat de lapprentissage, partir des mmes points de mesure, de deux
rseaux une couche cache de neurones fonction dactivation sigmode : lvidence, le rseau le plus
parcimonieux en neurones cachs est celui qui prsente les meilleures capacits de gnralisation, tandis
que le rseau qui a trop de paramtres conduit au phnomne classique de surajustement (en anglais
overfitting). En pratique, on sefforcera toujours de faire en sorte que le nombre de paramtres ajustables
soit petit devant le nombre dexemples : la parcimonie intrinsque aux rseaux de neurones fonction
dactivation sigmode permet de raliser cette condition plus facilement que si lon utilise une mthode de
rgression multilinaire par exemple.
Si, au vu des rsultats ports sur la figure 1-14, le choix entre les deux rseaux est vident, il nen va pas
de mme lorsque le modle possde plusieurs entres, car il nest alors pas possible de reprsenter graphi-
quement le rsultat de manire aussi simple. Il faut donc trouver un critre global de jugement des perfor-
23
CHAPITRE 1
mances du rseau. Pour ce faire, il convient de constituer, outre lensemble dapprentissage utilis pour le
calcul des poids du rseau, un ensemble de test, constitu de donnes diffrentes de celles de lensemble
dapprentissage, partir duquel on estime les performances du rseau aprs un apprentissage. Lindice de
performance le plus frquemment utilis est lerreur quadratique moyenne commise sur lensemble de
test (ou ensemble destimation des performances), dsigne par EQMT :
NT
1
EQMT = yk g x k, w
NT k = 1
2
o NT est le nombre dlments de lensemble de test, et o, pour simplifier les notations, nous dsignons
par yk les sorties mesures du processus modliser (nous nous plaons ici, pour simplifier, dans le cas
trs frquent dun rseau de neurones une sortie ; si le rseau a plusieurs sorties, lEQMP est la somme
des carts quadratiques moyens relatifs chacune des sorties) : yk = yp(xk).
Cette grandeur doit tre compare lerreur quadratique moyenne commise sur lensemble dapprentis-
sage (EQMA) :
NA
yk g x k, w
1 2
EQMA = ,
NA k = 1
o NA est le nombre dexemples de lensemble dapprentissage.
+ 1,20
+ 0,90 4 neurones cachs

(13 poids)
+ 0,60
+ 0,30
Figure 1-14.
+ 0,00 Toutes choses
gales par
- 0,30 ailleurs, le
rseau de
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00 neurones le plus
parcimonieux
possde les
+ 1,20
meilleures
+ 0,90 proprits de
8 neurones cachs gnralisation.
+ 0,60 (25 poids)
+ 0,30
+ 0,00
- 0,30
+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00
En effet, on voit sur lexemple prsent sur la figure 1-14, que lEQMA du second rseau est certainement
infrieure celle du premier, mais que son EQMP est certainement suprieure celle du premier. Estimer
24
les performances dun modle sur la base de sa seule EQMA serait donc erron et conduirait systmati-
quement concevoir des modles possdant trop de paramtres, donc souffrant de surajustement.
Remarquons que si la modlisation tait parfaite, cest--dire si la sortie du modle g(x, w) tait identique
la fonction de rgression, et si le nombre dlments des ensembles dapprentissage et de test tait trs
grand, lEQMA et lEQMP seraient gales, et de lordre de grandeur de lcart-type du bruit de mesure.
Lobjectif de la modlisation peut donc sexprimer de la manire suivante : trouver le modle (par
exemple le rseau de neurones non boucl) le plus parcimonieux possible, tel que lerreur quadratique
moyenne sur lensemble d'apprentissage et lerreur quadratique moyenne sur lensemble de test soient du
mme ordre de grandeur, et aussi petites que possible, cest--dire de lordre de grandeur de lcart-type
du bruit.
Comment faire en pratique ?
Lobjectif de cet ouvrage est de prsenter des mthodologies pratiques, mais bien fondes thoriquement,
pour concevoir des modles, que ce soit par apprentissage supervis ou non supervis. Pour lapprentis-
sage supervis, le lecteur trouvera une mthodologie complte dans le chapitre 2 (et des complments
dans le chapitre 3), et, pour lapprentissage non supervis, dans le chapitre 7.
Lapprentissage des rseaux de neurones non boucls : un problme

doptimisation
Une fois que le nombre de neurones cachs est dfini, on doit procder lapprentissage, cest--dire
lestimation des paramtres du rseau de neurones qui, avec le nombre de neurones cachs dont il dispose,
permet dobtenir une erreur quadratique minimum sur les points de lensemble dapprentissage.
Lapprentissage est donc un problme numrique doptimisation.
Considrons, pour simplifier, un rseau de neurones une sortie g(x, w). On dispose dun ensemble dappren-
tissage comprenant N exemples. Nous avons dfini plus haut la fonction de cot des moindres carrs :
N
1
Jw=
2
yp x k g x k, w
2
k=1
o dsigne le vecteur des valeurs des variables pour lexemple k, yp(xk) la valeur de la mesure corres-
xk
pondante, w dsigne le vecteur des poids du rseau de neurones, et g(xk, w) est la valeur calcule par le
rseau de neurones muni des poids w pour le vecteur xk de variables. La fonction de cot est donc une
fonction de tous les paramtres ajustables w de tous les neurones et de toutes les connexions du rseau.
Lapprentissage consiste donc trouver lensemble des paramtres w qui rendent J(w) minimum .
Si lon met en uvre des rseaux dont la sortie est linaire par rapport aux paramtres (par exemple des
fonctions radiales gaussiennes dont les centres et carts-types sont fixs) la fonction de cot J est
quadratique par rapport aux paramtres : on peut alors utiliser les techniques, simples et bien connues,
des moindres carrs ordinaires. Leur simplicit et leur rapidit de calcul se paient nanmoins de deux
manires : dune part, la qualit du rsultat dpend essentiellement du choix des centres et des carts-
types des fonctions non linaires mises en uvre ; ce choix est loin dtre simple. Dautre part, ces
rseaux nont pas la proprit de parcimonie.
Si, en revanche, on met en uvre des rseaux de neurones dont la sortie nest pas linaire par rapport
aux paramtres, tels que des perceptrons multicouche ou les RBF centres et carts-types variables, on
doit rsoudre un problme doptimisation non linaire multivariable. Les mthodes utilises cet effet
seront exposes en dtail dans le chapitre 2. Il sagit de techniques itratives, qui, partir dun rseau
muni de poids dont les valeurs sont alatoires, modifient ces paramtres jusqu ce quun minimum de
la fonction de cot soit atteint, ou quun critre darrt soit satisfait.
25
CHAPITRE 1
Ces techniques sont toutes des mthodes de gradient : elles sont fondes sur le calcul, chaque itration,
du gradient de la fonction de cot par rapport aux paramtres, gradient qui est ensuite utilis pour calculer
une modification de ceux-ci. Le calcul du gradient peut tre effectu de diverses manires ; il en est une,
appele rtropropagation (voir chapitre 2), qui est gnralement plus conome que les autres en termes
de nombres doprations arithmtiques effectuer pour valuer le gradient. Contrairement une ide trop
rpandue, la rtropropagation nest pas un algorithme dapprentissage : cest simplement une technique
dvaluation du gradient de la fonction de cot, qui est frquemment, mais pas obligatoirement, utilise
au sein dalgorithmes dapprentissage. Il faut noter que, contrairement bien des affirmations, ce nest pas
linvention de la rtropropagation qui a permis lapprentissage des rseaux de neurones couches ; en
effet, les spcialistes de traitement du signal connaissaient, bien avant la rtropropagation, des mthodes
dvaluation du gradient dune fonction de cot quadratique, mthodes qui auraient pu tre mises en
uvre pour effectuer lapprentissage de rseaux [MARCOS et al. 1992].
Figure 1-15.
2 Apprentissage
2 dun rseau
1,5 1,5 de neurones
une variable et
1 1 3 neurones
cachs. Le trait
0,5 0,5
continu repr-
-0 sente la sortie
-0
du rseau de
- 0,5 - 0,5 neurones.
Initialement, la
-1 -1 sortie du rseau
- 1,5 est pratique-
- 1,5
ment nulle. Elle
-2 -2 volue au cours
de lapprentis-
0 10 20 30 40 50 0 10 20 30 40 50 sage : (a) tat
initial ;
(a) (b)
(a) (b) (b) aprs une
itration ;
2 0 2 (c) aprs
6 itrations ;
1,5 1,5 (d) aprs
1 1 13 itrations
(reproduit avec
0,5 0,5 lautorisation
de NETRAL
-0 -0 S.A.).
- 0,5 - 0,5
-1 -1
- 1,5 - 1,5
-2 -2
0 10 20 30 40 50 0 10 20 30 40 50
(c) (d)
(c) (d)
26
Ces algorithmes dapprentissage ont fait dnorme progrs au cours des dernires annes. Alors que, au
dbut des annes 1990, les publications faisaient tat de dizaines ou de centaines de milliers ditrations,
reprsentant des journes de calcul sur des ordinateurs puissants, les nombres ditrations typiques
lheure actuelle sont de lordre de quelques dizaines quelques centaines. La figure 1-15 montre le drou-
lement de lapprentissage dun modle une variable. Les croix reprsentent les mesures de lensemble
dapprentissage. Initialement, on donne aux poids du rseau des valeurs petites (nous expliquerons
prcisment ce que cela signifie dans le chapitre 2, paragraphe Initialisation des paramtres ), si bien
que la sortie du rseau est quasi nulle. Le rsultat obtenu au bout de 13 itrations est satisfaisant
visuellement ; quantitativement, lEQMA et lEQMP (cette dernire tant mesure sur un ensemble
de points non reprsents sur la figure) sont du mme ordre de grandeur, et de lordre de lcart-type du
bruit, de sorte que le modle est satisfaisant.
Conclusion
Dans ce paragraphe, nous avons expliqu quand et comment utiliser les rseaux de neurones. Rappelons
que lutilisation des rseaux de neurones peut tre avantageuse chaque fois que lon cherche tablir une
relation non linaire entre des donnes numriques. Les rseaux de neurones entrent donc dans le cadre
des mthodes statistiques, notamment de la rgression non linaire. Nous avons prsent une vue gnrale
de la mise en uvre de ces mthodes, en insistant sur les conditions qui doivent tre remplies pour quun
rseau de neurones donne des rsultats satisfaisants. Les techniques dapprentissage proprement dites,
dont lefficacit conditionne en grande partie les performances des rseaux, seront abordes en dtail dans
le chapitre 2.
Rseaux de neurones apprentissage supervis et

discrimination (classification)
Le lecteur qui naurait abord les rseaux de neurones que par lintermdiaire de revues ou douvrages de
vulgarisation pourrait avoir limpression quils sont avant tout des outils de classification pour la recon-
naissance des formes, et stonner de limportance que nous donnons ici la rgression non linaire. En
effet, les premires applications industrielles des rseaux de neurones taient relatives la reconnaissance
de formes ou de signaux. Nous allons donc consacrer le paragraphe suivant une prsentation de ce quest
un problme de classification ; nous montrerons que tout problme de classification peut se ramener un
problme trs voisin de celui de la rgression non linaire : cest ce qui justifie lutilisation de rseaux de
neurones comme classifieurs. Lobjectif de cette section est seulement de prsenter le problme de la clas-
sification et le lien avec les notions dveloppes dans les paragraphes prcdents. Le lecteur trouvera une
prsentation beaucoup plus dtaille dans le chapitre 6 de cet ouvrage.
Nous utiliserons ici indiffremment le terme de classification ou celui de discrimination .
Quest-ce quun problme de classification ?

Comme nous lavons indiqu plus haut, classer un ensemble dobjets, cest attribuer chacun une classe
(ou catgorie ) parmi plusieurs classes dfinies lavance. Un algorithme qui ralise automatiquement
une classification est appel classifieur.
Avant de considrer le cas des classifieurs neuronaux, il est important de bien comprendre les caractristi-
ques gnrales des problmes de classification. Considrons pour cela un exemple : pour une application de
tri automatique, on dsire discriminer, dans une image, des condensateurs et des circuits intgrs qui dfilent
27
CHAPITRE 1
devant une camra, afin quun bras de robot puisse saisir un condensateur ou un circuit intgr pour le placer
dans le rceptacle correspondant. En gros, les condensateurs apparaissent comme des rectangles plutt petits
et brillants, alors que les circuits intgrs sont des rectangles plutt grands et sombres.
On peut donc considrer que laire A et la rflectivit R des rectangles
x Un condensateur constituent des facteurs discriminants pour le problme pos :
Rflectivit
Un circuit intgr chaque objet sera ainsi caractris par 2 descripteurs. Supposons que
lon ait prlev des chantillons de circuits intgrs et de condensa-
teurs, et que lon en ait mesur laire et la rflectivit : on peut repr-
+
senter chaque chantillon par un point dans un espace deux dimen-
sions, comme indiqu sur la figure 1-16. Nous allons utiliser cet
Aire
exemple pour introduire les ides de base de la classification.
Figure 1-16. Chaque chantillon est reprsent par un point dans le plan rflectivit-aire. Les condensateurs sont repr-
sents par des x et les circuits intgrs par des +.
Quand est-il opportun dutiliser un classifieur statistique tel

quun rseau de neurones ?
Les ingrdients dun problme de classification sont donc :
une population de N objets,
n variables descriptives (ou descripteurs) qui permettent de dcrire les objets, lensemble des descrip-
teurs constituant la reprsentation des objets,
un ensemble de C classes dans lesquelles on cherche ranger les individus (une des classes peut tre une
classe de rejet laquelle appartiennent tous les objets que lon ne peut attribuer aucune autre classe).
Rsoudre un problme de classification, cest donc trouver une application de lensemble des objets
classer dans lensemble des classes. Lalgorithme ou la procdure qui ralise cette application est appel
classifieur.
Lorsque lon se pose un problme de classification, il faut dabord analyser le type de mthode quil
convient de mettre en uvre pour le rsoudre. En effet, les rseaux de neurones et, plus gnralement, les
classifieurs statistiques, ne sont pas forcment adapts au problme, et il y a bien dautres mthodes de
classification que les rseaux de neurones. Afin de dlimiter le domaine dutilisation des rseaux de
neurones en classification, considrons quelques exemples plus ou moins acadmiques, qui illustrent
plusieurs aspects de cette tche. Pour chacun des exemples, nous nous poserons trois questions :
les connaissances a priori sur le problme permettent-elles de dterminer simplement des descripteurs
pertinents ?
ces descripteurs sont-ils mesurables (ou calculables partir de mesures) ?
quel est le rle de la classe de rejet ?
Les exemples suivants sont extraits de [STOPPIGLIA 1997].
Chacun a eu loccasion dutiliser un distributeur de tickets de mtro, ou une barrire de page de parking,
qui reconnat les pices de monnaie utilises en paiement, et rejette les pices fausses ou trangres.
Considrons ce problme sous langle des trois questions ci-dessus :
il est facile de dterminer des descripteurs pertinents : le diamtre de la pice, son poids, son paisseur,
la composition de lalliage, etc. ; ces descripteurs sont en petit nombre ; les nouvelles pices de monnaie
sont conues de manire faciliter la discrimination ;
les descripteurs sont des grandeurs physiques mesurables ;
la classe de rejet peut tre aussi grande que lon veut : elle nest limite que par la patience des usagers
qui naiment pas voir leurs pices rejetes sans raison ; ainsi, dans lespace des descripteurs, les classes
28
sont de petits paralllpipdes dlimits par les seuils de tolrance qui tiennent compte de la varia-
bilit de la fabrication et des erreurs de mesure ; tout le reste de lespace constitue la classe de rejet.
Dans ces conditions, il est facile de concevoir un automate qui met en uvre des rgles simples portant
sur les descripteurs des pices classer. Ces rgles rsultent dune analyse du problme, effectue par les
concepteurs de la machine, qui a conduit un arbre de dcision implant dans lautomate. Dans un tel cas,
lutilisation dune mthode statistique de classification supervise telle que les rseaux de neurones nest
pas approprie.
Considrons prsent lvaluation du confort dune voiture. Pour prvoir les ractions des clients poten-
tiels la mise sur le march dun nouveau modle, les constructeurs automobiles ont recours des
panels dindividus, supposs reprsentatifs de la clientle, qui doivent mettre un jugement sur le
confort. Mais quest-ce que le confort ? Cest une notion complexe dans laquelle interviennent la qualit
de la suspension, la conception des siges, linsonorisation du vhicule, la visibilit, etc. Exprimer un
jugement (classer le confort du vhicule dans une des trois classes bon , moyen , insuffisant ) est
alors un processus impossible formaliser, fond sur des impressions plus que sur des mesures. Ce
problme a donc les caractristiques suivantes :
les descripteurs ne sont pas forcment tous connus et exprims clairement par les membres des panels ;
mme si les descripteurs sont bien dfinis, les jugements sont trs variables : deux personnes places
dans les mmes conditions peuvent mettre des jugements diffrents,
les descripteurs ne sont pas forcment mesurables,
il ny a pas de classe de rejet : un consommateur a forcment une opinion sur le confort de sa voiture.
Le fait que les descripteurs ne soient pas connus et pas ncessairement mesurables empche (ou rend trs
difficile) lutilisation dune mthode de classification statistique. Dans ce contexte, une mthode de clas-
sification floue serait mieux adapte.
La reconnaissance automatique des chiffres manuscrits, par exemple des codes postaux, a fait lobjet de
nombreuses tudes et ralisations. Considrons ce problme sous les mmes angles que les deux exem-
ples prcdents :
contrairement au cas du tri des pices de monnaie, la variabilit des styles dcriture pose un problme
majeur pour le choix des descripteurs ; nanmoins, contrairement au cas de lvaluation du confort, les
personnes qui savent lire donnent gnralement des rponses identiques pour une image de chiffre
donne (sauf si le chiffre est vraiment mal crit) ;
les descripteurs sont des nombres que lon peut extraire de limage : dans le cas dune description de bas
niveau, cest lintensit des pixels ; dans le cas dune description de haut niveau, cest le nombre de
boucles, de pointes, leur position, lorientation et la position des segments, etc. ;
la taille de la classe de rejet constitue un critre de performance : pour un taux derreur donn, le pour-
centage de rejet doit tre aussi faible que possible. En effet, toute enveloppe rejete ncessite linterven-
tion dun prpos, et il est plus coteux denvoyer une lettre dans une mauvaise direction que davoir
recours une intervention humaine. Le cahier des charges est donc exprim de la manire suivante :
pour un taux derreur donn (par exemple 1 %), on veut un taux de rejet aussi faible que possible. En
effet, il serait facile de concevoir un classifieur qui ne se trompe jamais : il suffirait quil ne prenne
jamais de dcision. Compte tenu des donnes conomiques du problme que nous considrons ici, un
bon classifieur est un classifieur qui prend une dcision le plus souvent possible, tout en ne se trompant
pas plus dune fois sur cent. Si les conditions conomiques taient inverses, cest--dire si une erreur
cotait moins cher que lintervention dun expert, le critre de qualit serait diffrent : on chercherait
obtenir le taux derreur le plus petit possible pour un taux de rejet donn (cest le cas pour les diagnos-
tics mdicaux automatiss lchelle de toute une population, o lintervention dun mdecin cote
plus cher quune erreur de diagnostic...).
29
CHAPITRE 1
Dans ces conditions, la mise en uvre dune mthode statistique telle que les rseaux de neurone est
opportune, sous rserve que lon dispose dune base de donnes suffisamment fournie. Le problme
central est celui du choix de la reprsentation des donnes. Cest dailleurs le cas dans la majorit des
problmes de classification non acadmiques : la rflexion du concepteur, jointe aux techniques de pr-
traitement des donnes dcrites dans le chapitre 3, est, dans la majorit des cas, aussi importante que
lalgorithme de classification lui-mme.
Classification probabiliste et formule de Bayes

Supposons donc quune analyse pralable du problme ait conduit au choix de la mise en uvre dune
mthode statistique de classification, de prfrence un arbre de dcision par exemple. Les mthodes de
classification probabiliste reposent sur lide que lon peut traiter les descripteurs et les classes comme
sil sagissait de variables alatoires (le lecteur qui nest pas familier avec la notion de variable alatoire
trouvera les dfinitions utiles au dbut du chapitre 2). Ainsi, si lon tire au hasard un objet parmi ceux que
lon veut reconnatre, la classe laquelle il appartient est une ralisation dune variable alatoire dont la
valeur est le numro de la classe (cest donc une variable discrte). De mme, les valeurs des descripteurs
dun objet que lon tire au hasard peuvent aussi tre considres comme les ralisations de variables ala-
toires (ce sont en gnral des variables continues). Dans lexemple de la discrimination entre condensa-
teurs et circuits intgrs (figure 1-16), on peut dcider que la variable alatoire classe vaut zro pour
un condensateur et 1 pour un circuit intgr. La rflectivit R et laire A peuvent tre considres comme
des variables alatoires continues.
Dans ce cadre, le problme de la classification sexprime de faon trs simple : tant donn un objet
nouveau, dont la rflectivit vaut r et laire a (aux erreurs de mesure prs), quelle est la probabilit pour
que la variable alatoire classe soit gale zro (cest--dire pour que lobjet soit un condensateur) ?
Cette probabilit est la probabilit a posteriori de la classe condensateur pour lobjet inconnu consi-
dr, note
Pr(classe = 0 {r , a}).
Considrons un chantillon de condensateurs et de circuits intgrs ; on connat la classe, et la valeur des
descripteurs, de chaque lment de cet chantillon. On peut les utiliser pour estimer deux grandeurs trs
importantes :
la probabilit a priori de chaque classe : un lment tir au hasard dans lchantillon a une certaine
probabilit dappartenir lune ou lautre classe ; on note Pr(Ci) la probabilit de tirer au hasard un
chantillon de la classe Ci ; elle est appele probabilit a priori de la classe Ci. Si lon suppose que tout
objet appartient ncessairement lune des classes (il ny a pas de non-formes ), on a videmment
Ci = 1.
i
Cette information est pertinente pour la classification : en effet, supposons que lon sache que la proba-
bilit a priori de la classe condensateur est de 0,9, et donc la probabilit a priori de la classe circuit
intgr est de 0,1 ; alors, un classifieur stupide qui dciderait toujours que lobjet est un conden-
sateur, quelles que soient son aire et sa rflectivit, ne se tromperait, en moyenne, que dans 10 % des
cas.
la densit de probabilit conditionnelle de chaque descripteur: si lon tire au hasard un circuit intgr,
quelle est la probabilit pour que son aire A ait pour valeur a a, o a est un petit intervalle ? Cette
probabilit est videmment proportionnelle a. De manire gnrale, on note p(a Ci) la densit de
probabilit de a conditionnelle la classe Ci, ou vraisemblance de la classe Ci, tant donn le descripteur
a : par dfinition, la probabilit pour que le descripteur A ait pour valeur a a sachant quil appartient
30
la classe Ci vaut p(a Ci) a. Puisque lobjet dont on mesure le descripteur A appartient certainement la
classe Ci, on a p(a Ci) da = 1.
La figure 1-17 reprsente une estimation de la densit de
probabilit p(a Classe = circuit intgr ) en fonction
+ +
+ + ++ de a. Bien entendu, on pourrait de mme tracer une esti-
(a)
Rflectivit
+ + ++++ + mation de la densit de probabilit conditionnelle de la

+ + + + ++ rflectivit R, pour la classe circuit intgr , en fonction
++
+ + + +++++++ +++ de r.
Aire On peut donc disposer, partir dun chantillon des objets
classer, destimations des probabilits a priori des
classes {Pr(Ci)}, et des densits de probabilit condition-
p a classe = circuit intgr
nelles des descripteurs p(xCi). Alors, la formule de Bayes

(b)
fournit la solution du problme de classification, cest--
dire la probabilit a posteriori dappartenance dun objet
chaque classe, en fonction des estimations prcdentes :
p x Ci Pr Ci
Pr Ci x =
p x Ci Pr Ci
j
Aire a
Bien entendu, cette estimation nest correcte que si les
Figure 1-17. (a) Reprsentation d'un chantillon
de la classe des circuits intgrs dans le plan
descripteurs de lobjet inconnu obissent aux mmes
rflectivit-aire. (b) Estimation de la densit de densits de probabilit conditionnelles que celles des
probabilit conditionnelle de laire de lobjet si chantillons qui ont servi les estimer. Cest en ce sens
celui-ci appartient la classe des circuits intgrs. que lchantillonnage doit tre reprsentatif de lensemble
des objets classer.
Notons que :
si les probabilits a priori sont gales, les probabilits a posteriori sont indpendantes des probabilits
a priori, de sorte que la classification repose entirement sur les vraisemblances des classes ;
si les vraisemblances des classes sont gales, cest--dire si les descripteurs choisis ne sont absolument
pas discriminants, la classification est fonde entirement sur les probabilits a priori.
Nanmoins, aussi lgante que soit la formulation baysienne des problmes de classification, elle se
heurte une difficult pratique majeure : lestimation des quantits qui apparaissent dans le membre de
droite. Une bonne estimation des probabilits a priori des classes Pr(Ci) peut gnralement tre obtenue
facilement, par simple dnombrement permettant destimer les frquences dapparition de chaque classe
dans lchantillon. En revanche, lestimation des densits de probabilit conditionnelles p(xCi) se heurte
au problme connu sous le nom de maldiction de la dimension. En effet, rappelons que, en gnral, la
quantit x est un vecteur de descripteurs : sa dimension peut tre grande. Or il est trs difficile destimer
les densits de probabilit ds que la dimension du problme devient importante : en effet, la taille de
lchantillon ncessaire crot de faon exponentielle avec le nombre de descripteurs. Lorsque lon utilise
une reprsentation des formes trs primitive, le nombre de descripteurs peut tre trs grand : cest le cas
par exemple si une image est dcrite par lintensit de ses pixels, car la dimension du vecteur x est alors
gale au nombre de pixels de limage... Comme nous allons le voir, les rseaux de neurones offrent une
alternative intressante aux mthodes baysiennes de classification, car elles permettent une estimation
directe des probabilits a posteriori, sans passer par lintermdiaire des probabilits a priori et des vrai-
semblances.
31
CHAPITRE 1
Considrons un exemple dapplication de la formule de Bayes : supposons que la distribution des tailles des
femmes dans la population franaise suive une loi gaussienne de moyenne 1,65 m et dcart-type 0,16 m :
2
1 1 t 1,65
pt F = exp
0,16 2 2 0,16
et que celle des hommes soit une gaussienne de moyenne 1,75 m et dcart-type 0,15 m :
2
1 1 t 1,75
pt H = exp .
0,15 2 2 0,15
Ces densits de probabilit sont reprsentes sur la
2.5
figure 1-18. Le recouvrement important de ces deux
Hommes gaussiennes montre que le descripteur choisi est
2 peu discriminant. Sil sagissait dun problme rel,
ces courbes suggreraient au concepteur de se
1.5 mettre la recherche dun autre descripteur (ou de
plusieurs autres descripteurs).
1 Femmes Supposons galement quil y ait autant dhommes que
de femmes dans la population considre. tant donn
0.5 un individu de cette population qui mesure 1,60 m,
quelle est la probabilit pour que ce soit une femme ?
0 La formule de Bayes fournit directement la rponse :
1.5 1.6 1.7 1.8 1.9 2 2.1
0,5 p 1,60 F
Taille (en m)
Pr F 1,60 = 60 %.
Figure 1-18. Densits de probabilit des tailles pour les 0,5 p 1,60 F + 0,5 p 1,60 H
individus de la population considre
Bien entendu, Pr(H1,60) = 40 %.
1 Compte tenu de ces rsultats, il est naturel
0.9 daffecter lindividu en question la classe F, qui a
la plus grande probabilit : cest une application de
0.8
la rgle de dcision de Bayes, que nous justifierons
0.7 plus bas. La frontire entre classes ainsi dfinie est
Hommes
0.6 reprsente sur la figure 1-19.
0.5 Les probabilits a priori tant supposes gales
0.4 pour les deux classes, la discrimination repose
Femmes
0.3 entirement sur les vraisemblances des classes.
0.2 Supposons prsent que lindividu observ soit
Seuil de classification
0.1 donne par la rgle de Bayes choisi au hasard dans les tribunes dun stade fran-
0 ais au cours dun match de football. Alors les vrai-
1.5 1.6 1.7 1.8 1.9 2 2.1 semblances des classes homme et femme ,
Taille (en m) compte tenu de la taille, sont les mmes que prc-
Figure 1-19. Probabilits a posteriori dappartenance demment, mais les probabilits a priori sont diff-
aux classes homme et femme en fonction de la rentes, car il y a gnralement plus dhommes que
taille, et frontire entre classes, lorsque lindividu est tir de femmes parmi les spectateurs dun match ;
de lensemble de la population franaise.
supposons que les proportions soient de 30 % de
femmes et 70 % dhommes. Alors les probabilits a
posteriori, calcules par la formule de Bayes avec les nouvelles probabilits a priori, deviennent
Pr(F1,60) = 39 % et Pr(H1,60) = 61 %. Les rsultats ont donc compltement chang : lindividu est
32
prsent class dans la classe des hommes si lon utilise la mme rgle que prcdemment (affecter lobjet
la classe la plus probable) ; le changement observ est important parce que les vraisemblances des
classes sont peu diffrentes (le descripteur taille est peu discriminant), si bien que la classification est
dtermine, en grande partie, par les probabilits a priori. Ce rsultat est illustr sur la figure 1-20.
Cet exemple simple montre lutilisation de la
1
formule de Bayes pour estimer les probabilits a
0.9 posteriori, qui servent ensuite prendre la dcision
0.8 Hommes daffectation une classe, objectif final de tout
0.7 systme de classification.
0.6 Rappelons que, dans la pratique, et contrairement
0.5 ce que nous venons de prsenter, les vraisemblances
0.4 et les probabilits a priori ne sont pas connues exac-
tement et exprimables analytiquement, mais font
0.3
Femmes lobjet dune estimation partir dun ensemble
0.2 dobservations O, de taille finie. En toute rigueur, la
0.1 Limite de classification
donne par la rgle de Bayes
vraisemblance devrait donc tre note p(xCi, O) et
0 les probabilits a posteriori devraient tre notes
1.5 1.6 1.7 1.8 1.9 2 2.1 Pr(Cix, O) car leur estimation dpend de O. Nous
Taille (en m) nutiliserons pas cette notation en raison de sa lour-
Figure 1-20. Probabilits a posteriori dappartenance aux deur, mais il faut toujours garder lesprit le fait que,
classes homme et femme en fonction de la taille, dans la pratique, les densits de probabilit ou les
et frontire entre classes, lorsque lindividu est tir de probabilits que nous estimons sont toujours condi-
lensemble des spectateurs dun match de football.
tionnes par lensemble des observations utilis pour
ces estimations.
Rgle de dcision de Bayes

Pour affecter un objet une classe, on minimise le risque derreur en prenant la dcision daffecter lobjet
la classe dont la probabilit a posteriori est la plus grande.
Pour justifier cette rgle, considrons le cas dun problme deux classes C1 et C2, et un descripteur. Il est
vident que la probabilit derreur de classification est dautant plus grande que le descripteur de lobjet
considr est plus proche de la frontire entre les classes. Mais, au cours de lutilisation du classifieur,
celui-ci est amen traiter des objets dcrits par toutes les valeurs possibles de x : nous cherchons donc
minimiser la probabilit derreur globale plutt que la probabilit derreur locale : il faut donc trouver la
+
rgle de dcision qui rend minimale la quantit Pr (E) = Pr E x p(x) dx o E dsigne lvnement

erreur de classification . La densit de probabilit p(x) tant positive, lintgrale est minimale si
Pr(Ex) est minimale pour toute valeur du descripteur : on minimise donc lerreur globale en minimisant
lerreur locale. Or Pr(Ex) nest rien dautre que la probabilit a posteriori de C1 si lon prend la dcision
daffecter lobjet C2, et la probabilit a posteriori de C2 si lon prend la dcision daffecter lobjet C1.
On minimise donc Pr(Ex) en prenant la dcision daffecter lobjet la classe de plus grande probabilit.
Ce raisonnement se traduit gomtriquement de la manire suivante (figure 1-21) : si lon utilise la rgle
de Bayes, la probabilit derreur est reprsente par laire grise : tout autre choix de frontire a pour
consquence daugmenter cette aire.
Le rsultat stend aisment au cas o il y a plus de deux classes et o lobjet est dcrit par un vecteur de
descripteurs.
33
CHAPITRE 1
Pr(C1x) p(x) = Pr(C1) p(xC1) Pr(C2x) p(x) = Pr(C2) p(xC2) Naturellement, ce choix est satisfaisant
si les cots des erreurs des deux classes
sont les mmes ; nanmoins, il peut tre
plus grave, ou plus coteux, de
Frontire de Autre frontire
Bayes commettre une erreur de type faux
Erreur de positif (on considre que lobjet est
classification dans la classe A alors quil est dans la
classe B) que de commettre une erreur
Descripteur x
de type faux ngatif (on considre
que lobjet est dans la classe B alors quil
Figure 1-21. Interprtation gomtrique de la rgle de dcision de
Bayes ; la surface grise reprsente la probabilit de commettre une est dans A). Par exemple, en fouille de
erreur en choisissant la rgle de dcision de Bayes ; la surface hachure donnes, une entreprise qui commercia-
correspond laugmentation de la probabilit derreur rsultant dun lise des filtres dinformations peut
choix de frontire diffrent. prfrer proposer ses clients un filtre
qui rejette des documents alors quils
sont pertinents pour le sujet considr, plutt quun filtre qui laisse passer des documents non pertinents (en
effet, lutilisateur saperoit tout de suite que le filtre lui prsente des documents non pertinents, alors quil ne
sapercevra peut-tre jamais que tel ou tel document pertinent lui a chapp...). Ce type de considration, dans
la pratique, reprsente une part importante du travail de conception dun systme de classification raliste, quil
sagisse de reconnaissance de formes, de fouilles de donnes, dapplications bancaires, etc. Voil pourquoi il est
trs important destimer les probabilits avant de prendre la dcision, et il faut viter, sauf dans des cas trs
simples, de concevoir des classifieurs qui prennent directement une dcision.
La combinaison de la formule de Bayes et de la rgle de dcision de Bayes constitue le classifieur de
Bayes, qui prsente la meilleure performance possible si les probabilits a priori et les vraisemblances
sont connues exactement. Comme, dans la pratique, il est rare que cette condition soit remplie, le classi-
fieur de Bayes prsente un intrt plus thorique que pratique. Il peut nanmoins servir de rfrence
lorsque lon cherche valuer la qualit dun classifieur : on peut appliquer celui-ci un problme fictif
pour lequel les probabilits a priori et les vraisemblances sont connues exactement, et comparer ses
performances celle du classifieur de Bayes sur ce mme problme. Cest ce que nous ferons dans la suite
pour les classifieurs que nous prsenterons ; nous introduisons ici le problme fictif qui nous servira
tester quelques classifieurs.
Ce problme porte sur des objets
pouvant appartenir deux classes,
Classe A Classe B dcrits par un descripteur ; les
lments de la classe A sont engendrs
15 10 5 0 +5 + 10 par une distribution qui est la somme
de deux gaussiennes ; ceux de la
Figure 1-22. Densits de probabilit pour les classes A et B
classe B sont engendrs par une distri-
bution uniforme dans un intervalle
1 born (figure 1-22). On peut donc
calculer analytiquement les probabi-
0,5
lits a posteriori (figure 1-23), et
dterminer les limites de chaque
classe (figure 1-24). Pour estimer le
0
taux derreur, on ralise un grand
15 10 5 0 +5
nombre dexemples de chaque classe
Figure 1-23. Probabilit a posteriori de la classe A, calcule par la formule
de Bayes
et lon compte la proportion de ces
34
A B A B ralisations qui se trouve du mauvais ct

A
des limites dtermines par le classifieur de
15 10 5 0 +5 Bayes ; dans cet exemple, on dispose de 600
Figure 1-24. Classification ralise par le classifieur de Bayes exemples pour chaque classe (figure 1-25),
partir desquels, par simple dnombrement,
on estime le taux derreur 30,1 %. Ainsi, on peut affirmer que, pour ce problme, aucun classifieur, aussi bien
conu soit-il, ne peut raliser une performance meilleure que 69,9 % de classification correcte ; le meilleur clas-
sifieur rel est celui qui sapproche le plus de cette limite thorique.
600 exemples (A)
+ 0,00 Rpartition des 1 200 exemples Figure 1-25. Exemples utiliss

pour lestimation du taux
derreur. En haut : classe A ;
600 exemples (B) en bas : classe B.
15,00 10,00 5,00 + 0,00 + 5,00 + 10,00
Classification et rgression
Ayant tabli les bases probabilistes de la classification, nous allons montrer prsent en quoi les rseaux
de neurones, dont nous avons vu quils sont des outils de modlisation avantageux en raison de leur capa-
cit approcher toute fonction de rgression non linaire, peuvent tre pertinents pour la classification.
Problme deux classes

Considrons tout dabord un problme deux classes C1 et C2, auxquelles nous associons une variable ala-
toire , fonction du vecteur de descripteurs x ; cette variable alatoire vaut 1 lorsque lobjet classer appar-
tient la classe A, et 0 dans le cas contraire. Nous allons dmontrer le rsultat suivant : la fonction de rgres-
sion de la variable alatoire est la probabilit a posteriori dappartenance de lobjet la classe A.
En effet, soit y(x) la fonction de rgression recherche, cest--dire lesprance mathmatique de tant
donn x : y x = E x . Or
E x = Pr = 1 x 1 + Pr = 0 0 = Pr = 1 x
ce qui dmontre le rsultat.
Figure 1-26. Estimation de la probabilit a
Classe C 1 Estimation de la probabilit a posteriori
posteriori dappartenance la classe C1, et
0 Classe C 2 dappartenance de la forme dcrite par
dtermination du seuil de dcision par la
le descripteur de valeur x1 la classe C1
rgle de Bayes
1
Or, comme cela a t vu plus haut, si
Pr ( C 1 | x)
Frontire entre lon dispose dchantillons dune

les classes fonction, il est possible destimer la
0.5 rgression, par exemple laide de
rseaux de neurones. Il est donc
possible destimer, laide des
0 0 0 0 0000000000000000 mmes outils, les probabilits a poste-
x1 x riori dappartenance aux classes,
comme illustr par la figure 1-26.
35
CHAPITRE 1
Comme les rseaux de neurones sont de bons candidats pour raliser une approximation de toute fonction de
rgression, ils peuvent notamment raliser une estimation des probabilits a posteriori : cest ce qui justifie
lutilisation de rseaux de neurones pour la classification. On trouvera une exposition lucide et dtaille de
cette approche dans lexcellent ouvrage de Christopher Bishop [BISHOP 1995].
Problme C classes
Lorsque le problme de classification est un problme plus de deux classes, plusieurs approches sont
possibles :
rsoudre globalement le problme en estimant simultanment, pour un objet donn, ses probabilits
dappartenance a posteriori aux diffrentes classes,
diviser le problme en sous-problmes deux classes, concevoir un ensemble de classifieurs deux
deux , et combiner les rsultats de ces derniers pour estimer les probabilits a posteriori globales.
Nous allons examiner successivement ces deux approches.
Approche globale
Cette approche est frquemment mise en uvre, bien quelle ne
soit pas toujours la plus efficace pour des problmes difficiles. Elle
C neurones
..... consiste utiliser un rseau de neurones C sorties (figure 1-27),
fonction
dactivation le rsultat tant cod laide dun code 1-parmi-C : lvnement
sigmode lobjet appartient la classe Ci est associ un vecteur de sortie
....
g dont seule la composante i est gale 1, les autres composantes
tant gales 0. De manire analogue au cas deux classes, on
dmontre facilement que lesprance mathmatique de chacune
....
des composantes est gale la probabilit a posteriori de la classe
Descripteurs correspondante.
x1 x2 x3 xn
Figure 1-27. Perceptron multicouche C sorties fonction dactivation sigmode
Terminologie
Dans le jargon des rseaux de neurones, un codage un-parmi-C est appel codage grand-mre . Cette appellation provient de la
neurobiologie : une des thories de la reprsentation des informations dans les systmes nerveux soutient que certains de nos neurones
sont spcialiss dans la reconnaissance de formes usuelles, notamment du visage de notre grand-mre.
Il convient de noter plusieurs diffrences pratiques entre un perceptron multicouche pour la classification
et un perceptron multicouche pour la modlisation statique :
contrairement aux rseaux pour la modlisation, dont les neurones de sortie sont linaires, les neurones
de sortie dun rseau pour la classification ont une fonction dactivation sigmode : en effet, les sorties,
tant des probabilits, doivent tre comprises entre 0 et 1 (un changement de variable simple ramne les
sorties 1 et +1, comme il convient pour une non-linarit en tangente hyperbolique) ; on trouvera
dans le chapitre 6 une justification thorique lutilisation de la tangente hyperbolique comme fonction
dactivation des neurones de sortie pour la classification ;
pour la classification, il est plus naturel, pour estimer les probabilits, de minimiser la fonction de cot
dentropie croise plutt que la fonction de cot des moindres carrs ([HOPFIELD 1987], [BAUM et al.
1988], [HAMPSHIRE et al. 1990]) ; les algorithmes dapprentissage qui seront prsents dans le chapitre
2 sappliquent sans difficult pour cette fonction de cot :
C
gi x k 1 gi x k
J = ik Log + 1 ik Log
k i=1 ik 1 ik
36
o ik est la valeur (0 ou 1) dsire pour la sortie i lorsque lon prsente lentre lexemple k, dcrit par
le vecteur de descripteurs xk, et gi(xk) est la valeur de la sortie i du classifieur. On montre que cette fonc-
tion est minimum lorsque tous les exemples sont correctement classs.
(a) Bien entendu, il convient
Classification : Thorique Estime avec 4 neurones caches
+ 1,00 de vrifier que la somme
des sorties vaut 1 la fin
de lapprentissage. La
+ 0,50 mthode Softmax permet
de garantir que cette
condition est automatique-
+ 0,00 ment remplie [BRIDLE et
15,00 10,00 5,00 + 0,00 + 5,00 + 10,00 al. 1990]. Cette difficult
(b) ne se prsente videmment
Classification : Thorique Estime avec 5 neurones caches pas si lon utilise un
+ 1,00
ensemble de classifieurs
deux deux , comme
+ 0,50 nous le verrons dans la
section suivante.
Il va de soi que le problme
+ 0,00 du surapprentissage, que
15,00 10,00 5,00 + 0,00 + 5,00 + 10,00
nous avons rencontr pour
(c) la rgression, existe aussi
Classification : Thorique Estime avec 6 neurones caches
+ 1,00 pour la discrimination : si
le rseau a trop de param-
tres, il sajuste trop fine-
+ 0,50 ment aux exemples de
lensemble dapprentissage
et donne de mauvais rsul-
+ 0,00 tats en gnralisation. Il
15,00 10,00 5,00 + 0,00 + 5,00 + 10,00
faut donc mettre en uvre,
Figure 1-28. Estimation des probabilits dappartenance la classe A avec trois pour slectionner le
architectures : (a) 4 neurones cachs (complexit insuffisante), (b) 5 neurones cachs meilleur modle, les tech-
(performance trs proche de la meilleure performance thorique, (c) 6 neurones cachs niques de validation croise
(surapprentissage manifeste). exposes dans le chapitre 2.
Essentiellement, il faut
trouver un rseau dont les taux derreurs de classification sur lensemble dapprentissage et sur un
ensemble de validation soient du mme ordre de grandeur, et les plus petits possibles. La figure 1-28
montre un exemple de surapprentissage dans lestimation de la probabilit dappartenance la classe A
pour lexemple prsent sur la figure 1-23 ; on voit que le rseau 4 neurones cachs est trop peu
complexe pour estimer correctement la probabilit, alors quun rseau 6 neurones cachs sajuste sur les
fluctuations de la densit des points utiliss pour lapprentissage. Pour le rseau 5 neurones cachs, le
taux de classification incorrecte, estim sur un ensemble de validation de plusieurs milliers de points, est
de 30,3 %, alors que, comme nous lavons vu plus haut, le classifieur thorique de Bayes donne une erreur
minimum de 30,1 %. On vrifie bien ici que les rseaux de neurones peuvent approcher les meilleures
performances possibles.
37
CHAPITRE 1
Classification 2 2
Il est souvent beaucoup plus sr, pour des problmes difficiles, de dcomposer une classification C
classes en C(C-1)/2 problmes de classification 2 classes, pour les raisons suivantes :
on peut bnficier de nombreux rsultats et algorithmes, notamment concernant la sparation linaire
entre classes ; ces lments sont largement dvelopps dans le chapitre 6 ; nous les introduisons trs
brivement dans le paragraphe suivant, intitul sparabilit linaire ;
on obtient des rseaux beaucoup plus petits, dont lapprentissage est court et la manipulation simple ;
chacun deux ayant une seule sortie, son interprtation comme une probabilit est immdiate ;
les descripteurs pertinents pour sparer la classe A de la classe B ne sont pas ncessairement les mmes
que ceux qui sont utiles pour discriminer la classe A de la classe C ; notamment en reconnaissance de
formes, le fait de ne pas utiliser tous les descripteurs, mais seulement ceux qui sont utiles, constitue un
avantage considrable ; les techniques de slection des entres qui seront expliques dans le chapitre 2
sont directement utilisables.
Une fois que les C(C-1)/2 probabilits des classes deux deux ont t estimes, ventuellement par de
simples rseaux sans couche cache, la probabilit pour quun objet dcrit par le vecteur de descripteurs
x appartienne la classe Ci est calcule par la relation [PRICE et al. 1994] :
1
Pr Ci |x = C
1
Pr (C 2)
j=1, j i
ij
o C est le nombre de classes et Prij est la probabilit dappartenance de lobjet la classe i ou la classe
j, estime par le rseau de neurones qui spare la classe Ci de la classe Cj.
La sparabilit linaire
Deux ensembles dobjets, dcrits dans un espace de N descripteurs, appartenant deux classes diff-
rentes, sont dits linairement sparables sils se trouvent de part et dautre dun hyperplan dans
lespace des descripteurs.
Si des exemples sont linairement sparables, un rseau de neurones un seul neurone (galement appel
perceptron peut les sparer. Rappelons en effet que la sortie dun neurone possdant n entres a pour
n
quation y = th wi xi . Cette fonction varie entre 1 et +1 ; pour interprter la sortie y comme une proba-
i=1
bilit P, il suffit donc de faire le changement de variable P = (y + 1)/2. Si lon utilise la rgle de dcision
de Bayes, lquation de la surface de sparation entre les classes est le lieu des points o P = 0,5, soit
y = 0. Lquation de la surface de sparation entre les classes dtermine par le neurone est donc :
n
v = wi xi = 0.
i=1
On a donc v > 0 pour tous les exemples dune des classes, et v < 0 pour tous
Surface de
x les exemples de lautre. Dans un espace deux dimensions, cette surface est
xxx sparation plausible
x xx x
xxx x x x
une droite ; dans un espace trois dimensions, cest un plan ; dans un espace
Rflectivit
+ x+ de plus grande dimension, on lappelle un hyperplan . La figure 1-29

x ++ x + + + +
x x+ + x + + + ++ montre, dans lexemple des condensateurs et des circuits intgrs, une surface
+ + + + + +
+ + ++ ++ de sparation susceptible dtre dfinie par un rseau un neurone.
+ + + + + + + + + ++ ++
++ + Figure 1-29. Sparation linaire par un rseau 1 neurone. 10 %
Aire
des exemples sont mal classs.
38
xxx
x Surface de sparation Lintroduction de neurones cachs permet de dfinir des surfaces de
x xx x plausible sparation plus complexes, comme celle reprsente sur la figure 1-30.
x
Rflectivit
xxx x x
+x +
x + +x + + + +
x + Figure 1-30. Sparation par un rseau ayant un petit nombre de neurones
x x+ + + + ++
+ + + + ++ + cachs. Trois exemples de chaque classe sont mal classs.
+ + + + ++
+ + + +
+ + + + ++ +++ ++
Bien entendu, si lon ajoute suffisamment de neurones cachs, on peut
Aire
rduire lerreur sur lensemble dapprentissage, au dtriment de la
qualit de la gnralisation. La figure 1-31 prsente un cas manifeste de
xxx
x Surface de sparation surajustement.
x xx x trs peu plausible
Rflectivit
x x x x
xx Figure 1-31. Sparation par un rseau de neurones trop complexe.
+ x+
x + +x + + + + Tous les exemples sont bien classs, mais la capacit de gnralisation est faible.
x + + + ++
x x+ +
+ + + + + +
+ ++ ++
+ +
+ + Lorsque lon dcompose le problme en sous-problmes de sparation
+ +
+ + + + ++ +++ ++
de classes deux deux, il apparat que la sparation linaire entre deux
Aire
classes prsente trs souvent une complexit suffisante ; il est mme
frquent que, dans des problmes multi-classe rputs difficiles , les
exemples soient, en fait linairement sparables si lon considre les classes deux deux. Or, dans ce dernier
cas, des algorithmes simples et lgants permettent de trouver une trs bonne solution, comme expliqu en
dtail dans le chapitre 6 : la premire tape, dans la conception dun classifieur, est donc de chercher savoir
si les classes sont sparables deux deux. Lalgorithme de Ho et Kashyap [HO et al. 1965], largement ant-
rieur aux rseaux de neurones, fournit rapidement une rponse cette question :
si les classes sont linairement sparables, lalgorithme converge en un nombre fini ditrations vers une
solution,
si les classes ne sont pas linairement sparables, lalgorithme lindique galement aprs un nombre fini
ditrations (voir les complments thoriques et algorithmiques la fin de ce chapitre).
Par exemple, pour la base de donnes de codes postaux fournie par le National Institute of Standards and
Technology, qui a servi de support de trs nombreux travaux, les classes de chiffres sont linairement
sparables deux deux, mme si lon utilise une reprsentation par pixels [KNERR et al. 1992] ! De mme,
il existe une base de donnes, relative des signaux sonar, qui a fait lobjet de trs nombreuses tudes et
a donn lieu la conception de nombreux classifieurs fort compliqus ; en moins de dix minutes de calcul
sur PC, lalgorithme de Ho et Kashyap, implant dans un programme Matlab non compil, montre que les
exemples des deux classes sont linairement sparables. Il est donc tout fait inutile, pour cette applica-
tion, de concevoir un classifieur plus complexe quun rseau un neurone ; nous retrouverons cette appli-
cation dans le chapitre 6.
Mthodologie de conception dun classifieur

Ces considrations conduisent dfinir la stratgie suivante pour la conception dun classifieur qui utilise
des rseaux de neurones (il faut donc pralablement sassurer que le problme pos relve bien dun trai-
tement statistique, comme nous lavons discut plus haut) :
laborer une bonne reprsentation des objets classer, notamment dans des applications de reconnais-
sance de formes (on utilisera avec profit, si ncessaire, les techniques dcrites dans le chapitre 3) ; cette
tape est dune extrme importance et conditionne toute la suite, car une reprsentation bien discrimi-
nante peut rendre le problme de classification trivial ; ce point est illustr dans les applications dcrites
plus bas ;
39
CHAPITRE 1
Attention
Si le nombre dexemples nest pas grand devant la dimension du vecteur dentre dans la reprsenta-
tion choisie, il est inutile daller plus loin, en vertu du thorme de Cover [COVER 1965] qui est
prsent dans le chapitre 6 : il faut chercher une reprsentation plus compacte , ou bien collecter
dautres exemples, ou encore adopter une mthode de rgularisation svre telle que la modration des
poids (weight decay, technique dcrite dans le chapitre 2), avant de passer aux tapes suivantes ;
pour chaque paire de classes, effectuer la slection des descripteurs selon les mthodes dcrites dans le
chapitre 2 ; en effet, il nest pas du tout certain que les mmes descripteurs soient utiles pour sparer les
classes A et B et pour sparer les classes A et C ;
pour chaque paire de classes, tester la sparabilit linaire des classes deux deux laide de lalgo-
rithme de Ho et Kashyap ;
pour toutes les classes sparables deux deux, mettre en uvre les mthodes de sparation linaire
(dcrites dans le chapitre 6), et obtenir une estimation des probabilits ;
pour les classes non linairement sparables, mettre en uvre de petits perceptrons multicouche, ou des
perceptrons sphriques dcrits dans le chapitre 6, avec estimation des probabilits ; mettre en uvre des
mthodes de validation croise ou de leave-one-out (voir chapitres 2 et 3) pour la slection de modles ;
estimer la probabilit dappartenance chaque classe partir des probabilits dtermines ltape
prcdente, selon la formule indique plus haut dans la section Classification 2 2 ;
fixer les seuils de dcision pour dfinir les classes de rejet.
Cette stratgie constitue une variante de la procdure STEPNET ([KNERR et al. 1990] [KNERR 1991]), qui
a t utilise efficacement dans plusieurs applications industrielles.
Dans la planification dun tel projet, il ne faut pas sous-estimer le temps ncessaire pour la premire et
pour la dernire tape : dans les applications relles non triviales, ce sont frquemment les deux tapes les
plus longues, qui peuvent ventuellement remettre en cause les rsultats obtenus dans dautres tapes.
Lapplication de cette stratgie est videmment limite par le fait que le nombre de classifieurs varie comme
le carr du nombre de classes. Nanmoins, chacun des classifieurs est trs simple, de sorte que cette
dmarche sapplique sans difficult jusqu quelques dizaines de classes, ce qui couvre limmense majorit
des applications. Si le nombre de classes est plus lev, il faut avoir recours des stratgies hirarchiques.
Quelques exemples dapplications des rseaux

de neurones divers domaines des sciences de lingnieur
Introduction
Lambition de cet ouvrage est daider lingnieur ou le chercheur rpondre la question : les rseaux de
neurones peuvent-ils maider rsoudre mon problme, et peuvent-ils le faire mieux que dautres techniques ?
Pour donner les premiers lments de rponse raisonns cette question, nous avons consacr le dbut de
ce chapitre lexpos du contexte mathmatique qui est essentiel pour comprendre ce que sont rellement
les rseaux de neurones et les principes sur lesquels repose leur mise en uvre. Certains aspects peuvent
paratre un peu techniques , mais il est important davoir bien compris ces bases. En effet, la simplicit
mme de mise en uvre des rseaux de neurones constitue un danger, car elle peut conduire une appli-
cation irrflchie qui conduit des performances mdiocres ou mauvaises. Les rponses aux questions
que se pose tout ingnieur qui envisage dutiliser des rseaux de neurones peuvent galement tre clai-
40
res par lexpos de quelques applications typiques. Bien entendu, il nest pas question ici de faire un
expos exhaustif des applications des rseaux de neurones : plusieurs livres ny suffiraient pas. Il sagit
plutt de montrer quelques applications ayant un caractre exemplaire, en insistant sur les raisons pour
lesquelles les rseaux de neurones ont un apport important, voire dcisif.
Une application en reconnaissance de formes : la lecture

automatique de codes postaux
Cest sans doute dans le domaine de la reconnaissance de caractres que les rseaux de neurones ont
acquis leurs lettres de noblesse, et ont prouv quils constituent des alternatives fiables dautres
mthodes de classification. Nous citerons ici quelques exemples et rsultats, qui sappuient sur les consi-
drations pratiques donnes dans le paragraphe consacr aux rseaux de neurones pour la classification.
La reconnaissance automatique de codes postaux a probablement t lun des problmes de reconnais-
sance dimages les plus tudis. En effet, si le traitement automatique du courrier adresse dactylogra-
phie ou imprime est relativement simple, celui du courrier adresse manuscrite est beaucoup plus
complexe, en raison de la variabilit des styles dcriture. Pour chaque objet postal, une machine automa-
tique doit, soit identifier le code, soit indiquer quelle ne peut pas lidentifier, et donc faire appel un
oprateur humain. Nous avons indiqu plus haut quil est plus onreux de rectifier une erreur de tri
commise par une machine que de faire lire un code postal par un oprateur, de sorte que le critre de
performance le plus frquemment utilis pour les machines de lecture de codes postaux est le suivant :
pour un taux derreur maximum fix (par exemple 1 %) sur les codes identifis, quelle est la fraction du
courrier qui devra tre traite par un oprateur ? lheure actuelle, les machines les plus performantes
font appel des rseaux de neurones (conjointement dautres techniques), et le taux de rejet est infrieur
5 % pour un taux derreur de 1 %.
Lessor des tudes sur la reconnaissance des codes postaux est d deux facteurs : dune part, lenjeu cono-
mique du problme ; dautre part, le fait que, ds 1990, des bases de donnes de grande taille ont t mises
dans le domaine public par le Service postal des tats-Unis (USPS), puis par le National Institute of Science
and Technology (NIST). Cette disponibilit de bases de donnes, accessibles tous, a permis de nombreux
laboratoires, universitaires et industriels, de valider, de manire statistiquement significative, les mthodes et
procdures quils avaient dveloppes. Cette politique a permis de faire progresser ltat de lart sur la recon-
naissance des codes postaux, et, de manire plus gnrale, sur les problmes de classification complexes. La
figure 1-32 prsente quelques extraits de la base USPS, qui comprend en tout 9000 caractres (ce qui est
encore relativement peu, eu gard la complexit du problme). On observe immdiatement la diversit des
styles et les difficults auxquelles il faut faire face. Considrons lexemple du code postal situ en haut
droite de limage (encadr) : on lit sans effort le code 68544, mais on constate
que le chiffre 6 est coup en deux morceaux,
que le 8 et le 5 sont attachs,
mais que le 5 est coup en deux, et sa partie droite attache au 4 !
Donc, si lon fonde la reconnaissance du code sur la reconnaissance de chacun de ses chiffres sparment,
il faut dabord rsoudre le problme de la segmentation : comment sparer les chiffres les uns des
autres ? Une fois ce difficile problme rsolu, il reste traiter la trs grande diversit des styles, tailles,
orientations, des chiffres isols : il faut pour cela rsoudre le problme crucial de la reprsentation des
formes classer, cest--dire du choix des descripteurs qui seront utiliss par un ou plusieurs classifieurs,
ventuellement neuronaux. Il est impossible de traiter ce problme de reprsentation de manire gnrale,
car il dpend compltement de lapplication mise en uvre : il est vident que lon ne peut pas repr-
senter, de la mme manire, des images de trait telles que des caractres manuscrits ou imprims, des
images issues de satellites mtorologiques, ou encore des radiographies mdicales.
41
CHAPITRE 1
Figure 1-32. Quelques morceaux choisis

de la base de donnes NIST
En dpit de la grande diversit des traitements mis en uvre pour les images, il existe quelques oprations
de base que lon retrouve dans toutes les applications relles : dtection de contours, rehaussement de
contraste, etc. (certaines de ces oprations se retrouvent galement dans le systme visuel humain). Dans le
cas de la reconnaissance de caractres, la normalisation est galement incontournable, pour que tous les trai-
tements portent sur des chiffres de mme taille. Comme nous lavons dj indiqu, lingnieur doit toujours
raliser un compromis entre la complexit des pr-traitements ncessaires pour aboutir la reprsentation
choisie, et la complexit de la classification : un pr-traitement bien fait, qui extrait des caractristiques bien
discriminantes, donc pertinentes pour la classification, peut permettre lutilisation dun classifieur dune
grande simplicit, mais ce pr-traitement ne doit pas tre trop gourmand en temps de calcul ; en revanche,
un pr-traitement primitif (par exemple une simple normalisation) est extrmement rapide mais ne facilite
pas la tche du classifieur. Il faut donc trouver la solution qui prsente la meilleure performance compatible
avec le temps de calcul autoris par le cahier des charges de lapplication. Nous allons prsenter deux exem-
ples qui mettent en jeu des stratgies trs diffrentes pour rsoudre le mme problme.
Le premier exemple a t dvelopp aux laboratoires AT&T. Il sagit dun rseau de neurones, connu sous
le nom de LeNet [LE CUN et al. 1991], qui utilise une reprsentation par pixel (aprs normalisation). Les
premires couches du rseau ralisent des traitements locaux destins extraire automatiquement des
caractristiques ; les dernires couches effectuent la classification proprement dite. Ce rseau est repr-
sent sur la figure 1-33.
42
10 neurones de sortie Lentre du rseau est une matrice de

16 16 pixels. Une premire couche
Connectivit complte de neurones cachs est compose
30 neurones cachs de 12 ensembles de 64 neurones
cachs, chacun des 64 neurones
Connectivit complte cachs recevant des informations
12 x 16
concernant un champ rceptif
neurones cachs de 5 5 pixels. Ces ensembles de
64 neurones sont appels cartes
Connectivit partielle de caractristiques (en anglais,
(poids partags)
feature maps), car les entres de tous
12 x 64
les neurones dune carte donne sont
neurones cachs affectes des mmes poids (tech-
nique des poids partags , dcrite
dans le chapitre 2) : ainsi, on fait agir
le mme oprateur, localement, sur
Connectivit partielle
(poids partags)
chaque ensemble de 25 pixels, de
sorte que lensemble des sorties dun
groupe de 64 neurones constitue une
256 entres
carte du rsultat de lapplication de
Figure 1-33. LeNet, un rseau de neurones qui effectue lextraction loprateur limage. Si la technique
des caractristiques et la classification. des oprateurs locaux est classique
en traitement dimages, loriginalit
de la prsente mthode rside dans le fait que ces derniers ne sont pas conus par lingnieur, mais quils sont
dtermins par lapprentissage partir dexemples. Lopration est renouvele dans une deuxime couche
doprateurs qui traitent les rsultats de la premire couche. On obtient ainsi 12 cartes de 16 neurones cachs,
soit 192 neurones dont les sorties constituent le vecteur de descripteurs utilis pour la classification. Celle-ci est
effectue avec un rseau une couche de 30 neurones cachs et 10 neurones de sortie. Les neurones de sortie
utilisent un codage 1-parmi-C, que nous avons dfini plus haut : il y a autant de neurones dans la couche de
sortie que de classes, la sortie du neurone i doit tre gale 1 si la forme classer appartient la classe i, et doit
tre gale 0 sinon.
Ainsi, un tel rseau ralise automatiquement le pr-traitement et la classification, oprations qui sont
traditionnellement conues sparment. Le prix payer est videmment une grande lourdeur dapprentis-
sage, et, compte tenu du grand nombre de poids, la ncessit de faire preuve dune grande vigilance rela-
tivement au surapprentissage.
Pour traiter le mme problme, une approche trs diffrente [KNERR et al. 1992] consiste raliser un pr-
traitement de limage plus labor, afin dextraire des caractristiques discriminantes qui permettent
dutiliser un classifieur relativement simple. Le pr-traitement est la dtection de contours suivie dune
normalisation, qui produit 4 cartes de caractristiques de 64 lments, soit un vecteur de 256 compo-
santes. Mettant en uvre la mthodologie de conception dun classifieur que nous avons dcrite plus haut,
les dix classes ont t spares deux deux : 45 classifieurs diffrents ont t labors, dont lapprentis-
sage a t effectu sparment, et qui sont trs simples puisque, dans lapplication considre, il se trouve
que tous les exemples de lensemble dapprentissage sont linairement sparables deux deux. Chacun
des 45 classifieurs est donc en fait constitu dun seul neurone. La figure 1-34 montre les 18 erreurs
commises par ce classifieur sur les 9000 caractres de la base de donnes USPS. On remarquera notam-
ment le cas du dernier chiffre (en bas droite de la figure) qui est reconnu comme un chiffre 1 alors quil
est class dans la base comme un chiffre 8, ce qui est videmment une erreur dtiquetage.
43
CHAPITRE 1
Figure 1-34. Les 18 erreurs

de classification commises
par sparation linaire des
classes deux deux. Pour
chaque chiffre manuscrit,
lindication en haut
droite est la classe
dappartenance du chiffre
indique dans la base, et le
chiffre en bas droite est la
classe affecte par le clas-
sifieur.
Nous avons mentionn plusieurs reprises, notamment dans la section Mthodologie de conception
dun classifieur , limportance du choix de la reprsentation pour ce type dapplications. Nous pouvons
le mettre en vidence dans ce cas. Pour les deux reprsentations que nous avons mentionnes (reprsen-
tations par pixel dune part, cartes de caractristiques aprs dtection des contours dautre part), la
distance entre les barycentres des classes a t calcule ; elle est reprsente sur la figure 1-35. On observe
que les distances entre classes sont toujours suprieures, pour la reprsentation par cartes de caractristi-
ques, ce quelles sont pour la reprsentation par pixel. Ainsi, la reprsentation par cartes loigne les
classes les unes des autres, ce qui facilite videmment la tche des classifieurs.
1,2
Pixels Caractristiques Figure 1-35.
1,0 Distances entre
classes pour deux
0,8 reprsentations :
la reprsentation
0,6 par cartes de
caractristiques
0,4 loigne les classes
les unes des
0,2
autres, donc faci-
0 lite le travail ult-
rieur des
1 5 9 13 17 21 25 29 33 37 41 classifieurs.
Couple de classes
Taux de
Le tableau 1 met en vidence lamlioration de
Taux Taux
performances qui rsulte de la mise en uvre
chiffres
de dexemples
bien
rejet dune meilleure reprsentation : aprs ajuste-
mal classs
classs ment des seuils de dcision afin dobtenir, dans
Reprsentation
70,9 % 28,1 % 1% les deux cas, un taux derreur de 1 %, le taux de
par pixels rejet pour la reprsentation par pixel est beau-
Reprsentation par
90,3 % 8,7 % 1% coup plus lev que pour la reprsentation par
caractristiques caractristiques. Il faut noter que les deux
Tableau 1-1 reprsentations ont la mme dimension (dans
les deux cas, chaque chiffre est reprsent par
un vecteur de 256 composantes) : lamlioration ne provient pas de la compacit de la reprsentation,
mais de sa bonne adquation au problme pos. Cest la rflexion de lingnieur qui fait la diffrence...
44
Une application en contrle non destructif : la dtection de dfauts

dans des rails par courants de Foucault
Lexemple que nous venons de prsenter est relatif la reconnaissance automatique dimages. Bien
entendu, les formes que les rseaux de neurones peuvent classer ne sont pas ncessairement de cette
nature. Nous prsentons ici un exemple de reconnaissance de signaux dans le domaine du contrle non
destructif. Cette application consiste dtecter les dfauts dans les rails du mtro parisien laide de
courants de Foucault. Elle a t dveloppe par lInstitut national de la recherche sur les transports et leur
scurit (INRETS) pour la RATP [OUKHELLOU et al. 1997].
La dtection de dfauts dans les pices mtalliques laide de courants de Foucault est une technique clas-
sique dans le domaine du contrle non destructif. Son principe est simple : un bobinage cre un champ
magntique alternatif dans la pice contrler, ce qui engendre des courants de Foucault au voisinage de
celui-ci, dans une paisseur qui dpend de la frquence du champ magntique. Ces courants sont dtects
par un second bobinage ; la prsence de dfauts dans le mtal modifie le signal recueilli, la fois en ampli-
tude et en phase. Ainsi, le signal induit constitue une signature des dfauts. Comme il existe toujours
plusieurs catgories de dfauts, qui peuvent tre plus ou moins graves, il est important de pouvoir non seule-
ment dtecter ces dfauts, mais encore les classer. Il faut aussi pouvoir faire une distinction entre des dfauts
et des phnomnes normaux qui peuvent galement avoir une influence sur le signal : la jointure entre deux
rails provoque une modification des courants de Foucault, analogue celle qui est provoque par une fissure,
alors quil sagit dun vnement normal (mais sa position est connue, ce qui facilite la discrimination). Dans
lapplication considre, le systme de cration et de dtection des courants de Foucault est mont sous la
voiture, quelques dizaines de millimtres du rail, comme reprsent sur la figure 1-36.
Comme toujours, le choix des descripteurs
du signal conditionne en grande partie leffi-
cacit de la discrimination. Comme il sagit
ici dimages mono-dimensionnelles (par
opposition aux images bidimensionnelles
traites prcdemment), on peut utiliser un
relativement petit nombre de descripteurs qui
sont fonds sur les composantes de Fourier
du signal, condition que ces descripteurs
soient bien choisis. La mthode de slection
dentres appele mthode du vecteur
sonde , dcrite dans le chapitre 2, a t
utilise pour dvelopper cette application.
[OUKHELLOU 1998]
Figure 1-36. Photographie du systme de cration et de dtection
des courants de Foucault
Une application en prvision : lestimation de la probabilit

de succs aux lections lgislatives
La lgislation sur les dpenses de campagne oblige les candidats dclarer de manire prcise les sommes
dpenses au cours de la campagne lectorale, et leur ventilation. partir des donnes relatives aux lections
de 1993, il a t possible dvaluer la probabilit dlection en fonction de la dpense effectue, et de la venti-
lation de ces dpenses dans les diffrents postes. Il sagit donc dun problme deux classes ( lu ou
battu ), et les rseaux de neurones permettent dvaluer la probabilit dappartenance lune des classes en
45
CHAPITRE 1
fonction dun ou plusieurs descripteurs. La figure 1-37 montre la probabilit dappartenance la classe des lus
en fonction de la dpense totale.
Cette application est de nature un peu diffrente 0,8 Figure 1-37. Estima-
des prcdentes : dans ces dernires, la classifi- tion, laide dun
Probabilit dlection
cation avait pour objectif daffecter une rseau de neurones,
0,6 de la probabilit
forme existante une classe, sachant que,
dlection en fonc-
vraisemblablement, on ne saurait jamais avec tion de la somme
0,4
certitude quelle classe la forme appartenait dpense au cours de
rellement. Ici, la situation est diffrente, la campagne (lec-
puisque lon sait avec certitude, ds que les 0,2 tions lgislatives de
rsultats des lections sont connus, quelle 1993).
classe appartient le candidat. Nous cherchons 0
donc ici raliser une prvision par simulation : 0 100 200 300 400 500 600
afin doptimiser ses chances de succs, un Dpense de campagne (kF)
candidat peut estimer sa probabilit de succs
en fonction de la stratgie quil met en uvre pour dpenser ses fonds de campagne de telle ou telle
manire. Il peut donc en dduire la stratgie la mieux adapte sa situation.
Dans les sections des chapitres suivants qui sont consacres la modlisation statique et dynamique, nous
verrons que la prvision par simulation constitue un domaine dexcellence des rseaux de neurones.
Une application en fouille de donnes : le filtrage de documents

En raison de laugmentation constante du volume dinformation accessible grce llectronique, la
conception et la mise en uvre doutils efficaces, permettant notamment lutilisateur de navoir accs
qu linformation quil juge pertinente, devient une ncessit absolue. Comme la plupart de ces outils
sont destins tre utiliss dans un cadre professionnel, les exigences de fiabilit et de convivialit sont
trs importantes ; les problmes rsoudre pour satisfaire ces exigences sont nombreux et difficiles.
Laccs linformation pertinente peut se faire en fournissant un utilisateur des documents pertinents,
ou en lui proposant des passages de documents pertinents (ou des rponses des questions). Le premier
cas relve du domaine de la recherche de textes, le second du domaine de l'extraction d'informations.
La catgorisation de textes, appele galement filtrage, consiste trouver, dans un ensemble de docu-
ments (comme un fil de dpches dagence de presse, ou un ensemble de pages Web), ceux qui sont rela-
tifs un sujet dfini par avance. On peut ainsi fournir un utilisateur, en temps rel, toutes les informa-
tions importantes pour lexercice de son mtier. Dans ce cas, lutilisateur nexprime pas son intrt par
une requte, mais par un ensemble de documents pertinents qui dfinissent un thme ou une catgorie.
Pour un thme donn, la catgorisation consiste donc rsoudre un problme de classification supervise
deux classes ; celui-ci peut tre rsolu notamment par les mthodes dcrites dans cet ouvrage : les
rseaux de neurones, les machines vecteurs supports (chapitre 6), ou les modles de Markov cachs
(chapitre 4).
Cest un problme trs difficile, qui va bien au-del de la recherche par mots-cls : en effet, supposons,
que lon cherche slectionner, dans le flot des dpches de lAFP, celles qui sont pertinentes pour le
thme prises de participations entre entreprises ; des textes qui contiennent les phrases : la socit A
a rachet la socit B , ou bien A est entr dans le capital de B hauteur de 10 % , ou encore A vient
de franchir la hausse le cap des 20 % des parts sociales de B , sont tous pertinents, et pourtant ils ne
contiennent aucun des mots qui dfinissent le thme ; en revanche, la phrase la participation des
communistes au gouvernement inquite les chefs dentreprises nest pas pertinente, bien quelle
contienne deux des mots du thme.
46
Lapplication que nous prsentons (extraite de [STRICKER 2000]) a t dveloppe pour la Caisse des
dpts et consignations, qui offre, sur lintranet du groupe, un service de filtrage de dpches de lAFP en
temps rel. Les objectifs sont doubles :
dveloppement dune application permettant un utilisateur dobtenir automatiquement un filtre
dinformation sur un thme de son choix, sous rserve de fournir des exemples de textes pertinents pour
le thme considr,
dveloppement dun outil permettant de surveiller lobsolescence des filtres classiques, qui sont consti-
tus de systmes base de rgles.
Pour atteindre le second objectif, on fabrique une copie dun filtre base de rgles avec un filtre utilisant
un rseau de neurones. Comme le rseau de neurones produit une probabilit de pertinence et non une
rponse binaire, il est possible danalyser les plus grandes divergences entre les deux filtres : les docu-
ments considrs comme pertinents par la mthode base de rgles, mais obtenant une probabilit proche
de zro avec le rseau de neurones, et les documents considrs comme non pertinents avec le premier et
obtenant une probabilit de pertinence proche de un avec le second [WOLINSKI et al. 2000].
Le premier de ces objectifs consiste en la conception et la ralisation dun systme de cration automa-
tique de filtres, dont la caractristique majeure est labsence dintervention dun expert, par opposition
la mise en uvre dun systme base de rgles. Il sagit donc de concevoir un systme de discrimination
deux classes : partir dune base de documents tiquets comme pertinents ou non pertinents pour le
thme considr, il faut :
trouver une reprsentation des textes par des nombres, reprsentation qui doit tre aussi compacte que
possible,
concevoir et mettre en uvre un classifieur utilisant cette reprsentation.
Le problme de la reprsentation des textes, donc de la slection des entres, est videmment central dans
cette application.
Slection des entres

Lapproche la plus conventionnelle est la reprsentation en sac de mots , dans laquelle un texte est
reprsent par un vecteur dont chaque composante est un nombre, li la prsence ou labsence dun mot
dans le texte, ou sa frquence dans le texte. La difficult de cette approche est que la dimension de ce
vecteur est gale au nombre de mots du vocabulaire, ce qui est videmment norme ; on peut nanmoins
remarquer que tous les mots ne sont pas galement discriminants : les mots les plus frquents (de, la, et...)
sont inutiles pour la discrimination, de mme que les mots trs rares. Dans une premire tape, on cherche
donc, pour un thme donn, trouver les mots les plus pertinents pour le thme considr.
Codage des mots
Les mots sont cods de la manire suivante : soit FT(m, t) la frquence doccurrence du terme m dans le
texte t, et FT(t) la frquence moyenne des termes dans le texte t. Alors le mot m est dcrit par la quantit :
1 + log FT m, t
x(m) = ,
1 + log FT t
dont on trouvera la justification dans [SINGHAL 1996.]
La loi de Zipf
Pour slectionner les mots discriminants, on est aid par la loi de Zipf [ZIPF 1949] : soit un corpus de T
textes ; appelons FC(m) la frquence doccurrence du mot m sur le corpus T ; nous avons dfini, dans le
paragraphe prcdent, la quantit FT(m, t), frquence du mot m dans le texte t. Construisons une liste de
47
CHAPITRE 1
mots, classs par ordre de FC(m) dcroissant ; soit r(m) le rang du mot m dans cette liste. La loi de Zipf
snonce ainsi : FC(m) r(m) = K, o K est une constante qui dpend du corpus considr. Il y a donc un
petit nombre de mots trs frquents, et il y a un grand nombre de mots trs rares qui napparaissent quune
fois ou deux sur le corpus ; entre ces extrmes, il existe un ensemble de mots dans lesquels il faut chercher
les mots discriminants.
Extraction du vocabulaire spcifique
6 Pour dterminer le vocabulaire spcifique un thme donn,
on dfinit, pour chaque mot m de chaque texte pertinent t, le
5
rapport R(m, t) = FT(m, t) / FC(m). On range les mots du
Log FC (m)
4 texte par ordre de R(m, t) dcroissant, on supprime la

3 seconde moiti de la liste, et lon construit un vecteur
2
boolen v(t) tel que vi(t) = 1 si le mot i est prsent dans la
1 liste, et 0 sinon. On calcule enfin le vecteur v = v t , o
t
0
0 1 2 3 4 5 la somme porte sur tous les documents pertinents : le voca-
Log r (m) bulaire spcifique du thme est lensemble des mots dont
Figure 1-38. Vrification exprimentale de la loi
la composante dans v est non nulle. La figure 1-38 montre
de Zipf sur le corpus Reuters, et reprsentation que, sur le corpus des dpches Reuters, la loi de Zipf est
des mots du vocabulaire spcifique au thme assez bien vrifie, et que les mots du vocabulaire spci-
Falkland petroleum exploration fique du thme Falkland petroleum exploration sont bien
au milieu de la distribution.
Slection finale
lintrieur du vocabulaire spcifique ainsi dfini, et qui peut tre encore vaste (une quelques centaines
de mots), une slection finale est effectue par la mthode du vecteur sonde, dcrite dans le chapitre 2.
la fin de cette tape, il apparat que, en moyenne sur 500 thmes qui ont t tudis, le vocabulaire spci-
fique dun thme comprend 25 mots, ce qui est tout fait raisonnable pour un vecteur dentre dun rseau
de neurones. Nanmoins, cette reprsentation nest pas encore satisfaisante, mme si elle est compacte.
En effet, les mots seuls sont ambigus : dans une application comme celle-ci, il est indispensable de tenir
compte du contexte.
Dtermination du contexte
Pour introduire le contexte dans la reprsentation des textes, on a cherch des mots de contexte dans une
fentre de 5 mots de part et dautre du chaque mot du vocabulaire spcifique. On a dfini
des mots de contexte positifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents pertinents,
des mots de contexte ngatifs, qui sont les mots que lon trouve dans le voisinage des mots du vocabu-
laire spcifique, dans les documents non pertinents.
Pour slectionner les mots de contexte, on utilise exactement la mme procdure que pour la dtermina-
tion du vocabulaire spcifique. Typiquement, pour lexemple de prise de participation entre
entreprises , on constate que pour le mot capital , qui fait partie du vocabulaire spcifique, les mots
dtient et droits figurent dans les mots de contexte spcifique, et les mots risque et fonds
dans le contexte ngatif.
En moyenne sur 500 thmes diffrents, un thme est dfini par 25 mots de vocabulaire spcifique, chacun
de ces mots ayant 3 mots de contexte.
48
Conception et apprentissage des filtres

Filtres sans contexte
Si lon ne tient pas compte du contexte, le filtre a pour entres les mots du vocabulaire spcifique, cods
comme indiqu plus haut. Conformment la mthodologie de conception de classifieurs que nous avons
prsente dans la section consacre la discrimination, la structure du classifieur dpend de la complexit
du problme. Sur les corpus et les thmes tests, les ensembles dapprentissage sont gnralement linai-
rement sparables, de sorte que lon utilise un rseau un seul neurone fonction dactivation sigmode.
Filtres avec contexte
Figure 1-39. Un filtre sans contexte est un clas-
sifieur linaire qui reoit en entre le descrip-
teur de chacun des mots du vocabulaire
Filtre
spcifique (rectangles en traits gras) ; dans un
sans
filtre avec contexte, les entres sont les
contexte
descripteurs des mots du vocabulaire spci-
fique (rectangles en traits gras) et les mots de
contexte (rectangles en traits fins).
Filtre avec contexte
Le contexte doit modifier le descripteur

correspondant chaque mot du vocabu-
laire spcifique. Le filtre reprsente
donc chaque mot du vocabulaire par un
neurone fonction dactivation
sigmode, dont les entres sont le
descripteur du mot considr et les
descripteurs des mots de contexte de celui-ci. Les sorties de ces neurones sont spares linairement par
un neurone fonction dactivation sigmode. La figure 1-39 reprsente un filtre avec contexte et un filtre
sans contexte
Lutilisation du contexte augmente videmment le nombre de paramtres. Typiquement, pour un thme
avec 25 mots de vocabulaire spcifique, et 3 mots de contexte par mot du vocabulaire spcifique, le filtre
comprend 151 paramtres. Compte tenu du fait que le nombre de poids peut tre du mme ordre de gran-
deur que le nombre dexemples (voire infrieur celui-ci), il est impratif de mettre en uvre une
mthode de rgularisation. La mthode de modration des poids a t mise en uvre dans cette
application ; nous en verrons leffet dans le chapitre 2, dans la section consacre la rgularisation.
Validation des rsultats

Dans le domaine du traitement automatique du langage, la comptition organise chaque anne dans le cadre
de la confrence TREC (Text REtrieval Conference) constitue une rfrence. La mthodologie prsente ci-
dessus a t mise en uvre dans le cadre de la comptition TREC-9, pour lpreuve de routing : celle-ci
consiste classer un ensemble de textes par ordre de pertinence dcroissante pour des thmes imposs.
Lpreuve de TREC-9 portait sur deux ensembles de textes, se rapportant respectivement 63 et 500 thmes, et
comprenant au total 294 000 documents. Il va de soi que le nombre de documents analyser, et le nombre de
thmes, rendent impossible tout traitement manuel ou semi-automatique des donnes, dans le temps
imparti la comptition. Lapproche que nous avons dcrite a remport lpreuve, pour chacun des deux
thmes ; la figure 1-40 reprsente les scores raliss par les participants [STRICKER et al. 2001].
49
CHAPITRE 1
Score
0,6
preuve OHSU (63 thmes)
0,385
0,4 0,343 0,326 0,317
0,237 0,234
0,185 0,177
0,2 0,099 0,081
0
)
r2 r1
) ) o) r1
) ) 2) 00
) 0)
N po 2p r2 9r o0
R R
N
r f2 fr U
N N er no rp 0,6
(S2 (S2 k9 k9r (K (KU (M n trp a nt
C t(
o
t(
o
ge
n
en
G
.(
a .( preuve MeSH (500 thmes)
D D
C f
of /SI U
IC IC so s
e eg IT U r s
cr
o ro ijm ijm IR er
s
ge 0,4
i ic .N .N ut
g ut 0,335
Score
M M U R
U R 0,253
0,2 0,158
Figure 1-40. Rsultats de lpreuve de routing de TREC-9 ;
en noir : rsultats obtenus par la mthode dcrite ci-dessus ; en 0,0078
gris : rsultats obtenus par dautres mthodes. 0
ICDC Microsoft Rutgers U Rutgers U
(S2RNsamp) (ok9rfr2ps) (antrpnms00) (antrpms00)
Une application en bio-ingnierie : relations structure-activit (QSAR)

pour la prdiction de proprits chimiques de molcules
Ltude des relations structure-activit des molcules (QSAR pour Quantitative Structure-Activity Rela-
tions) est un domaine en plein essor, en raison des progrs trs rapides de la simulation molculaire. Ces
travaux ont pour objectif de prdire certaines proprits chimiques de molcules partir de donnes struc-
turales qui peuvent tre calcules a priori par ordinateur, sans quil soit ncessaire de synthtiser la
molcule ; on peut donc viter une synthse coteuse si lon peut prdire que la molcule envisage ne
possde pas les proprits souhaitables [HANSCH et al. 1995]. Cette approche est particulirement utile
dans le domaine de la bio-ingnierie, pour la prdiction de proprits pharmacologiques de molcules et
laide la dcouverte de nouveaux mdicaments, mais elle peut videmment tre transpose nimporte
quel domaine (prdiction de proprits mcaniques de matriaux complexes partir de leur formulation,
prdiction de paramtres thermodynamiques de mlanges, etc.).
Pourquoi les rseaux de neurones peuvent-ils tre mis en uvre avec profit dans ce contexte ? Si lon
admet quil existe une relation dterministe entre certains descripteurs de la molcule et la proprit que
lon veut prdire, alors on est ramen un problme de dtermination de la fonction de rgression de la
proprit envisage, en fonction des descripteurs choisis. Si cette fonction est non linaire, et si des bases
de donnes utilisables existent, lutilisation de rseaux de neurones est entirement justifie.
Comme on la dj soulign, la premire question quil convient de se poser, lorsque lon envisage de
dvelopper une application de rseaux de neurones, est celle des donnes utilisables pour lapprentissage
et pour lvaluation des performances du rseau. Compte tenu de limportance des enjeux, il existe de
nombreuses bases de donnes concernant des quantits telles que le point dbullition, la solubilit dans
leau ou le coefficient de partage eau-octanol. Cette dernire proprit est particulirement importante :
dans le domaine de la pharmacologie, elle dtermine la capacit de la molcule atteindre le milieu dans
lequel le mdicament devient efficace, par franchissement de barrires biologiques ; dans le domaine de
lenvironnement, le coefficient de partage eau-octanol caractrise la manire dont les pesticides sont
susceptibles de se rpandre dans le milieu naturel.
50
La deuxime question se poser est celle des entres pertinentes pour le rseau de neurones envisag. Ici,
les connaissances du chimiste doivent ncessairement guider le choix des entres. On considre habituel-
lement trois catgories de descripteurs :
des descripteurs chimiques tels que la masse molculaire, le nombre datomes de carbone, etc. ;
des descripteurs gomtriques tels que le volume de la molcule, sa surface, son ovalit, etc. ;
des descripteurs lectriques tels que les charges portes par les diffrents atomes, le moment dipolaire, etc.
CH3 NMe2 CH3 CH3 Pour chaque proprit que lon cherche prdire, il faut donc
HO H H
OH O N N
tablir un ensemble de descripteurs que lon peut supposer
N
pertinents, et utiliser une technique de slection, telle que
NH2 N
CH3 celles qui sont dcrites dans le chapitre 2, afin de dterminer
OH
OH O OH O O O les descripteurs qui sont rellement utiles pour les molcules
Ttracycline Cafine et la proprit considre. En raison de leur parcimonie, des
rseaux de neurones de trs petite taille (5 7 neurones
cachs) fournissent des rsultats de meilleure qualit que les
techniques de rgression multilinaire habituellement mises
1,4-pentadine en uvre dans ce domaine [DUPRAT et al. 1998].
Prylne
Il est intressant de remarquer que, pour certaines molcules,
Figure 1-41. Molcules prsentant des parti- les valeurs de LogP sont systmatiquement mal apprises
cularits chimiques,dont les proprits sont (lorsque ces mesures font partie de lensemble dapprentis-
mal prdites par des rseaux de neurones. sage) ou systmatiquement mal prdites (lorsque ces mol-
cules font partie de lensemble de validation). Dans un tel
cas, le premier problme souponner est videmment une erreur de saisie ou de mesure. Si cette hypo-
thse est rejeter, il faut en conclure que ces lments ont des particularits qui sont absentes des autres
exemples ; ici, il apparat que les molcules en question sont soit fortement charges (ttracycline et
cafine, reprsents sur la figure 1-41), soit au contraire ont trs peu dinteractions avec le solvant
(prylne, 1-4 pentadine, voir figure 1-41). Ainsi, les rseaux de neurones peuvent servir dtecter des
anomalies de comportement ; cest un des grands domaines dapplications des rseaux de neurones.
Une application en formulation : la prdiction de la temprature

de liquidus de verres
Dans le mme esprit que lapplication prcdente, on peut prdire des paramtres thermodynamiques de
matriaux en fonction de la composition de ceux-ci. Cest le cas notamment pour la temprature de
liquidus de verres doxydes. Cette temprature est la temprature maximale laquelle des cristaux sont
en quilibre thermodynamique avec le liquide ; il est important, industriellement, de pouvoir prdire cette
temprature en fonction de la composition du verre, car la valeur de la viscosit la temprature de
liquidus est un lment important pour le choix des paramtres des procds de formage des verres. La
prdiction de cette temprature en fonction de la composition du verre est difficile, car les diagrammes
prsentent des variations brutales dans le domaine dintrt ; compte tenu de cet intrt industriel, de
nombreuses tudes ont t menes (voir par exemple [KIM et al. 1991]), et des bases de donnes sont
disponibles. Lutilisation des rseaux de neurones sest montre avantageuse par rapport aux mthodes
traditionnelles, notamment pour les verres ayant plus de trois composantes.
La figure 1-42 illustre, sur un exemple concret, la parcimonie des rseaux de neurones. Elle prsente des
diagrammes de dispersion (scatter plot). Un tel diagramme constitue un outil graphique trs commode pour
visualiser la prcision de lapproximation : on porte en abscisse, pour chaque lment de la base de donnes, la
valeur mesure, et en ordonnes la valeur prdite correspondante. Si la prdiction tait parfaite, tous les points
devraient tre aligns sur la bissectrice ; la dispersion autour de celle-ci donne une ide de la qualit de la mod-
51
CHAPITRE 1
lisation (bien entendu, cela ne remplace pas les grandeurs telles que lEQMT introduite plus haut, le score de
validation ou de leave-one-out dfinis dans le chapitre 2, ou toute autre bonne estimation quantitative de lerreur
de modlisation). Les entres des modles sont les teneurs en oxydes, la sortie est lestimation de la temprature
de liquidus. La figure 1-42(a) prsente le rsultat obtenu sur un verre de silice (compos, outre de SiO2, doxyde
de potassium K2O et dalumine Al2O3), obtenu avec un rseau 6 neurones cachs (25 paramtres), et la figure
1-42(b) le rsultat obtenu avec un polynme de degr 3, dont le nombre de paramtres est trs voisin (19). Il est
clair que, nombre de paramtres peu prs quivalent, le rseau de neurones fournit un bien meilleur rsultat.
La figure 1-42(c) indique, pour mmoire, le rsultat obtenu avec un modle linaire.
Figure 1-42. Diagrammes de

dispersion pour la prdiction
de la temprature de liquidus
de verres doxydes en fonction
de la composition, pour trois
modles diffrents.
Une application en modlisation de procd industriel :

la modlisation du soudage par points
Le soudage par points est le procd de soudage le plus utilis dans lindustrie automobile : des millions
de soudures sont effectues chaque jour. Le procd est schmatis sur la figure 1-13 : le soudage des
deux tles est effectu en faisant passer un courant trs intense (des dizaines de kiloampres) pendant un
temps trs court (quelques centaines de millisecondes) entre deux lectrodes presses contre la surface
52
des tles. Lchauffement produit par effet Joule fait fondre une zone des tles. Aprs refroidissement, le
diamtre de la zone fondue (typiquement 5 mm) caractrise la qualit de la soudure ; si ce diamtre est
infrieur 4 mm, la soudure est considre comme dfectueuse. Le diamtre du point soud est donc un
lment crucial de la scurit du vhicule. lheure actuelle, il nexiste pas de mthode physique non
destructive qui permette dvaluer rapidement le diamtre de la soudure. En consquence, une stratgie
industrielle typique consiste :
utiliser une intensit de courant excessive, ce qui produit un trs grand chauffement, donc ljection
de gouttelettes de mtal en fusion de la zone de soudage (cest lorigine des tincelles que lon
observe chaque soudure effectue par les robots de soudage sur une chane de fabrication) ;
raliser des soudures en surnombre, afin que, avec une probabilit voisine de 1, on ait au moins une
soudure de bonne qualit.
Lexcs de courant et le trop grand nombre de soudures conduisent une dgradation rapide des lec-
trodes, qui doivent tre changes ou r-usines frquemment.
Pour toutes ces raisons, la modlisation du processus en vue dobtenir une prdiction fiable du diamtre
de la soudure, en temps rel, partir de mesures effectues pendant le soudage, constitue un problme
industriel important. Il est trs difficile de modliser la dynamique du processus de soudage, pour
plusieurs raisons :
le temps ncessaire pour intgrer numriquement les quations diffrentielles et les quations aux dri-
ves partielles du modle de connaissance est suprieur, de plusieurs ordres de grandeur, la dure
dune soudure ; on ne peut donc pas utiliser un tel modle pour une prdiction en temps rel ;
certains paramtres physiques, qui interviennent dans les quations du modle de connaissance, sont
mal connus.
La modlisation bote noire est donc une alternative intressante un modle de connaissance. Le
procd tant non linaire et prsentant plusieurs variables, les rseaux de neurones sont de bons candi-
dats pour effectuer une prdiction, en temps rel, du diamtre du point fondu, donc de la qualit de la
soudure, en fonction de mesures effectues pendant la soudure [MONARI 1999].
Les difficults sont, dune part, le choix des variables dentre du modle, et, dautre part, le fait que les
donnes disponibles sont relativement peu nombreuses, car coteuses obtenir.
Dans [MONARI 1999], les grandeurs candidates pour constituer des variables du modle taient des gran-
deurs mcaniques et lectriques qui peuvent tre mesures durant le processus. La slection des entres a
t effectue laide des mthodes dcrites dans le chapitre 2, et ce choix a t valid par les experts
impliqus dans le dveloppement du modle de connaissance du procd.
Comme il nexiste pas de mthode non destructive simple pour prdire le diamtre du point fondu, la base
de donnes est construite de la manire suivante : un ensemble de soudures est effectu dans des condi-
tions bien contrles ; elles sont ensuite arraches ( dboutonnes ), et le diamtre du bouton fondu ,
qui reste solidaire dune des tles, est mesur. Cest un processus long et coteux, de sorte que lensemble
dapprentissage initial comprenait seulement 250 exemples. En utilisant lestimation des intervalles de
confiance qui sera expose dans le chapitre 2, un plan dexpriences a t tabli, qui a permis denrichir
progressivement la base de donnes disponible. La moiti de ces donnes a t utilise pour lapprentis-
sage, lautre pour le test ; la slection de modle a t effectue par la procdure de leave-one-out
virtuel qui sera explique dans le chapitre 2, si bien quil na pas t ncessaire dutiliser un ensemble
de validation.
53
CHAPITRE 1
La figure 1-43 prsente

8 8 des diagrammes de dis-
persion typiques, o
Diamtre prdit (mm)

Diamtre prdit (mm)
7 7
chaque prdiction figure
6 6 avec son intervalle de
confiance. Lerreur de
5 5 gnralisation estime
4 4
(score de leave-one-out,
voir chapitre 2) est de
3 3 0,27 mm, et lEQMT de
lordre de 0,23 mm. Ces
2 2 quantits tant de lordre
3 4 2 5 6 7 8 2 3 4 5 6 7 8
Diamtre mesur (mm) Diamtre mesur (mm)
de grandeur de lincerti-
Figure 1-43. Diagrammes de dispersion pour la prdiction du diamtre de soudures par
tude de mesure, ces rsul-
points tats sont trs satisfaisants.
Une application en robotique : la modlisation de lactionneur

hydraulique dun bras de robot
On cherche concevoir un
modle dun bras de robot dont
1.5
la position est commande par
Commande
1 un actionneur hydraulique. La
0.5 position du bras dpend de la
pression dhuile dans laction-
0
neur, pression commande par
-0.5 louverture dune vanne. Les
-1 variations de louverture de la
-1.5 vanne, cest--dire la squence
0 200 400 (a) 600 800 1000 de commande {u(k)}, et la
Squence d'apprentissage Squence de test
pression dhuile correspon-
4 dante, cest--dire la squence
Sortie du processus de sortie {yp(k)}, sont repr-
2 sentes sur la figure 1-44. Cet
ensemble de donnes contient
0 1024 points de mesure : la
premire moiti dentre eux est
-2 utilise pour lapprentissage, la
seconde pour lestimation de la
-4 performance (squence de
0 200 400 (b) 600 800 1000
test). On ne dispose daucune
Figure 1-44. Squences dapprentissage et de test pour la modlisation dun bras autre information sur le
de robot processus : on a donc ncessai-
rement recours une modli-
sation bote noire .
54
y(k + 1) = x1(k + 1) Lexamen des donnes montre que le processus nest

certainement pas linaire, et que, compte tenu des oscilla-
tions observes en rponse des variations de u(k) qui sont
x2(k + 1) presque des chelons, le processus est au moins dordre 2.
On observe aussi que les squences dapprentissage et de
test nexplorent quapproximativement le mme domaine
de fonctionnement (signaux de sortie et de commande de
q 1 mme type et de mme amplitude). On note quaux
instants 600 et 850 environ de la squence de validation,
lamplitude de la commande dpasse les amplitudes maxi-
males atteintes sur la squence dapprentissage. On ne se
trouve pas dans les meilleures conditions possibles.
Nous analyserons en dtail cet exemple dans le chapitre 2.
1 u(k) x2(k) Les meilleurs rsultats ont t obtenus [OUSSAR 1998]
y(k) = x1(k) avec un modle dtat du second ordre, dont une des varia-
Figure 1-45. Modle neuronal dtat pour bles dtat est la sortie elle-mme, avec trois neurones
lactionneur hydraulique. La sortie est lune des cachs. Il est reprsent sur la figure 1-45.
variables dtat
Lerreur quadratique moyenne obtenue avec le modle de
la figure 1-45 est de 0,07 sur la squence dapprentissage,
et de 0,12 sur la squence de validation, ce qui est une trs
bonne performance compte tenu de la reprsentativit des donnes disponibles. Les rsultats obtenus sur
la squence de test sont reprsents sur la figure 1-46. Les dfauts de modlisation rsultent probablement
du fait quil y a des perturbations non mesures, qui ne figurent pas dans les entres du rseau.
5 yp
y
Figure 1-46. Modlisation dtat

0
de lactionneur hydraulique
-5
0 100 200 300 400 500
Une application de la modlisation semi-physique un procd

manufacturier
Nous prsentons ici une application de la mthode de modlisation semi-physique, qui sera dcrite en
dtail dans le chapitre 2, un problme industriel. Il sagit de la modlisation du schage du ruban adhsif
Scotch fabriqu par la Socit 3M.
Un ruban adhsif est constitu dun film de matire plastique le substrat sur lequel est dpos un film
liquide le revtement constitu dun polymre adhsif dissous dans un solvant. Lensemble passe dans
un four, dans une atmosphre gazeuse o la pression partielle du solvant est trs infrieure la pression
partielle lquilibre la temprature du four ; en consquence, le solvant svapore, si bien que la
concentration du solvant dans le revtement au voisinage de la surface devient infrieure la concentra-
tion du solvant dans le volume du revtement. Le solvant diffuse alors du volume vers la surface pour
compenser ce gradient de concentration, ce qui alimente encore lvaporation. Le processus se poursuit
jusquau schage du revtement, de sorte que seul subsiste ladhsif la surface du substrat.
55
CHAPITRE 1
Traditionnellement, le solvant est de nature organique. Pour des raisons de scurit et denvironnement, il est
souhaitable de remplacer les solvants organiques par de leau. Un excellent modle physique du schage en
prsence dun solvant organique existe [PRICE et al. 1997] ; il est constitu de treize quations algbriques et
diffrentielles non linaires couples ; lorsque le solvant organique est remplac par leau, certains lments
de ce modle ne sont plus valables, si bien que les prdictions du modle sont beaucoup moins prcises.
La thorie de la dissolution du polymre dans leau est bien moins bien connue que celle du polymre
dans un solvant organique, si bien que lon ne peut pas laborer un modle de connaissance satisfaisant ;
par ailleurs, des squences de mesure du poids de lchantillon en fonction du temps et de la temprature
du four sont disponibles : lutilisation dun modle semi-physique parat donc possible et opportune.
Les quations qui constituent le modle expriment :
la conservation de la masse dans le volume du solvant : cette quation ne peut tre remise en cause par
le changement du solvant ;
la loi qui rgit le courant de solvant vers la surface (loi de Fick) ; la validit de cette loi nest pas discu-
table, mais elle fait intervenir une grandeur (le coefficient de diffusion) dont la variation en fonction de
la concentration et de la temprature est donne par une thorie (thorie du volume libre) dont la vali-
dit, dans le cas o le solvant est de leau, est incertaine ;
la condition de conservation de la masse la surface : toute molcule qui arrive la surface, et
svapore, contribue la variation de la pression partielle du solvant dans le gaz ; cette loi ne peut tre
remise en cause ;
la condition linterface entre le revtement et le substrat : le substrat tant impermable au solvant, il
ny a aucun flux de solvant vers le substrat ;
la valeur de la pression partielle de solvant dans le gaz, qui constitue la force motrice du processus ;
cette grandeur est donne par une loi dont la validit nest pas remise en cause par les experts.
la lumire de cette analyse, il apparat que cest la variation du coefficient de diffusion qui doit tre
reprsente par un rseau de neurones bote noire au sein du modle semi-physique. Cest ce qui a t
fait, en suivant la mthode de conception qui a t esquisse plus haut, et qui est dcrite en dtail dans le
chapitre 2. Il faut noter que les quations du modle ne sont pas des quations diffrentielles, mais des
quations aux drives partielles ; cela nest pas un obstacle lutilisation de la mthode.
Le lecteur intress par les dtails de la ralisation du modle et par les rsultats obtenus pourra les trouver
dans [OUSSAR et al. 2001]. On trouvera galement une autre application la dtection automatique de
dysfonctionnements dans une colonne distiller industrielle , mettant en uvre la modlisation neuro-
nale semi-physique, dans [PLOIX et al. 1997]. Mentionnons enfin que des applications sont opration-
nelles dans un groupe industriel franais majeur, pour la formulation de matriaux et de produits
nouveaux.
Deux applications en contrle de lenvironnement : pollution par

lozone et hydrologie urbaine
Les deux applications que nous prsentons ici relvent de problmatiques semblables : la prvision de
phnomnes non linaires dans le domaine de lenvironnement.
Prvision des pics de pollution par lozone

La gnralisation des mesures de concentration en ozone, ainsi que le dveloppement de modles de
connaissance de la pollution atmosphrique, permettent denvisager la prvision des pics de pollution. Dans
le cadre dun groupe de travail du club Ingnierie du traitement de linformation de lassociation ECRIN,
des donnes relatives la pollution par lozone dans la rgion lyonnaise ont t mises la disposition des
56
quipes de recherche franaises, en vue dune prdiction bote noire laide de mthodes mettant en jeu
un apprentissage. Les rseaux de neurones taient donc des candidats naturels pour raliser cette tche.
Comme il sagissait dune tude prliminaire de courte dure, on sest content dutiliser les donnes
issues dun seul capteur dozone, pour lequel les donnes disponibles (mesures heure par heure pendant
les annes 1995 1998) taient fiables. Les donnes des annes 1995 1997 ont t utilises pour
lapprentissage, celles de lanne 1998 pour le test. Lobjectif est de prvoir, 24 heures lavance, si la
pollution dpassera le seuil dalerte (180 g/m3 au moment o ltude a t effectue).
Deux possibilits peuvent tre envisages :
la classification : classer la journe venir en pollue ou non pollue (journe avec dpassement
du seuil ou sans dpassement), en fonction des donnes disponibles 16 h GMT ;
la prvision : prdire la concentration en ozone, 24 heures lavance.
Comme la dfinition de la classe pollue dpend de la dfinition du seuil, et que celle-ci peut varier en
fonction de donnes administratives, politiques ou conomiques, il nous a paru prfrable dliminer la
classification au profit de la seconde approche, qui reste valable indpendamment de toute autre consid-
ration. On a donc labor un modle neuronal bote noire qui, partir des donnes disponibles 14 h
GMT, prdit les concentrations qui seront mesures au cours des 24 heures suivantes.
Le processus tant essentiellement dynamique, avec des phnomnes qui varient selon la priode consi-
dre (jour ou nuit), il a sembl naturel dutiliser 24 rseaux de neurones qui effectuent tous la prdiction
une heure lavance, en fonction des donnes disponibles 14 h GMT.
Lide la plus simple consistait utiliser un modle
PRDICTEUR
+24 h dynamique non linaire (rseau de neurones
boucl). Nanmoins, il est apparu que cette solution
risquait de ne pas tre adapte, car une tude prli-
minaire des donnes montre que les facteurs perti-
nents pour la prvision de la pollution dpendent de
lheure considre ; or, dans un rseau boucl, les
entres exognes sont videmment les mmes
PRDICTEUR
quelle que soit lheure. Afin de pallier cet inconv-
+3 h nient, un ensemble de 24 rseaux de neurones en
cascade a t conu et ralis, chaque rseau tant
spcialis dans la prdiction correspondant une
tranche horaire (figure 1-47) : le rseau N prdit la
PRDICTEUR concentration mesure par le capteur considr
+2 h lheure 14+N GMT ; pour chaque rseau, les
entres candidates sont :
les prdictions des N 1 rseaux prcdents ;
lensemble des donnes fournies, soit :
PRDICTEUR 1 les mesures des capteurs NO et NO2 14 h
+1 h GMT,
2 la temprature 14 h le jour J,
Srie des mesures de O3 Gopotentiels NO et NO2 3 la temprature maximale mesure le jour J,
Tempratures jours J et J +1 et la temprature maximale prdite par Mto-
Figure 1-47. Structure dun rseau de neurones pour la
France pour le jour J + 1,
prvision, 24 heures lavance, des pics de pollution par 4 les gopotentiels le jour J,
lozone 5 la srie temporelle des mesures de la concen-
tration en ozone avant 14 h.
57
CHAPITRE 1
Pour chaque rseau, une slection des entres qui figurent parmi la liste ci-dessus est effectue selon les
mthodes dcrites dans le chapitre 2. Ainsi, les entres exognes de chaque rseau sont adaptes la
tranche horaire considre.
Cette approche peut videmment tre adapte tout autre jeu de donnes, et elle offre la possibilit dint-
grer des connaissances expertes, lorsque celles-ci seront disponibles, dans un modle semi-physique.
Lerreur de prdiction moyenne sur lanne de test (1998) est de 23 g/m3. La figure 1-48 illustre la diffi-
cult du problme : en dpit dune prdiction trs prcise pendant 20 heures, soit presque toute la journe,
celle-ci apparat comme un faux ngatif car la mesure dpasse (de trs peu) le seuil dalerte. Il est
probable que, lorsque de tels outils seront oprationnels (ce qui nest pas le cas de lapplication prsente
ici au moment o ces lignes sont rdiges), de nouvelles procdures dalerte, plus subtiles que le simple
dpassement dun seuil, pourront tre mises en uvre.
Mesure Figure 1-48. Concentra-

Modle
tions en ozone mesure et
Concentration en ozone
prvue pour une journe

de 1998 ( faux ngatif )
180
g/m 3
0
14 h 19 h 24 h 05 h 10 h 14 h
Heure GMT
Modlisation de la relation pluie-hauteur deau dans un collecteur deau pluviale

La Direction de leau et de lassainissement du dpartement de Seine-Saint-Denis a dvelopp un systme
sophistiqu de mesure des niveaux deau dans le systme de collecte des eaux pluviales, et a procd des
mesures systmatiques des chutes de pluie et des niveaux deau correspondants. Lobjectif est une utilisation
optimale du rseau et une bonne anticipation des difficults qui peuvent rsulter de pluies importantes. La fiabi-
lit du systme dpend donc largement de la fiabilit des capteurs des niveaux deau dans les collecteurs : il est
donc important de pouvoir dtecter automatiquement quun capteur est en panne [ROUSSEL et al. 2001].
0.04 Comme nous lavons indiqu plus haut, la
Erreur moyenne de modlisation
0.02
capacit des rseaux de neurones mod-
liser avec prcision des phnomnes non
0
linaires leur confre une place impor-
1 2 3 4 5 6 7 8 9 10 11 12 13
- 0.02 tante dans les systmes de dtection de
- 0.04
dysfonctionnements : si lon dispose dun
modle prcis du fonctionnement normal,
- 0.06
et que lon observe une diffrence signifi-
- 0.08 Drive cative entre les prdictions du modle et
-0.1
Fonctionnement les mesures effectues, on peut en
normal
conclure que le systme est en fonction-
- 0.12
Jour
nement anormal, ou, dans lexemple
dcrit ici, que le capteur considr est en
Figure 1-49. Dtection de panne de capteur dans un collecteur
deau pluviale panne.
58
Deux types de pannes doivent tre considrs :

capteur bloqu (fournissant une mesure constante),
capteur subissant une drive lente.
Ces deux types de pannes peuvent tres dtects en utilisant des rseaux de neurones boucls, notamment
des modles NARMAX (prsents en dtail dans les chapitres 2 et 4). Ainsi, la figure 1-49 montre claire-
ment la diffrence de comportement de lerreur de modlisation lorsque le capteur est en fonctionnement
normal et lorsquil drive.
Une application en robotique mobile : le pilotage automatique

dun vhicule autonome
Commander un processus, cest dterminer les commandes lui appliquer, afin de lui assurer un compor-
tement donn (dfini par un cahier des charges), en dpit de perturbations.
Lexemple que nous prsentons ici est celui dun vhicule Mercedes 4 4 (baptis REMI), quip, par la
socit SAGEM, des capteurs et actionneurs ncessaires pour que le vhicule puisse tre autonome.
Commander ce processus, cest envoyer aux actionneurs du volant, de lacclrateur et du frein, les
signaux de commande ncessaires pour que le vhicule suive une trajectoire dfinie lavance, avec un
profil de vitesse dtermin lavance, en dpit des perturbations telles que la pente de la route, son dvers,
les bourrasques de vent, des drapages ventuels, etc.
Les rseaux de neurones sont de bons candidats pour tre des lments de systmes de commande de
processus non linaires. En effet, nous avons vu les capacits des rseaux de neurones raliser des
modles, botes noires ou aids de connaissances physiques. Or, pour tre en mesure dlaborer un
systme de commande pour un processus, il faut gnralement disposer dun modle de ce dernier ; les
rseaux de neurones interviennent donc dans les systmes de commande non linaires comme modles du
processus, soit pendant la phase dapprentissage, soit en tant qulment du systme de commande lui-
mme (commande avec modle interne, voir chapitre 5). Par ailleurs, llaboration du signal de
commande (par exemple, langle selon lequel il faut faire tourner le volant, et la vitesse angulaire avec
laquelle il faut le faire tourner) partir de linformation de consigne (le cap que doit suivre le vhicule)
implique gnralement la ralisation dune fonction non linaire : les rseaux de neurones peuvent donc
avantageusement assurer cette fonction, qui est celle du correcteur.
Le vhicule REMI est un 4 4 exprimental quip dactionneurs (moteur lectrique pour faire tourner le
volant, actionneur hydraulique pour le circuit de freinage, moteur lectrique pour le papillon dadmission
dair), et de capteurs de deux types :
des capteurs qui permettent de connatre ltat du vhicule (capteurs proprioceptifs) : odomtres sur les
roues, capteur angulaire sur le volant et le papillon dadmission dair, capteur hydraulique sur le circuit
de freinage ;
des capteurs avec lesquels on peut connatre la position du vhicule par rapport au monde extrieur
(capteurs extroceptifs) : une centrale inertielle.
Le systme de navigation et de pilotage est constitu des lments suivants :
un module de planification, qui, partir de lobjectif atteindre et des contraintes (routes), dtermine la
trajectoire que doit suivre le vhicule, et le profil de vitesse respecter durant le trajet ;
un module de guidage, qui labore les consignes de cap et de vitesse ;
un module de pilotage, qui dtermine les positions souhaites pour les actionneurs ;
un module de commande des actionneurs eux-mmes.
Dans cette structure, les rseaux de neurones interviennent au niveau du pilotage, pour dterminer les
actions souhaitables en fonction des consignes de cap et de vitesse [RIVALS et al. 1994] [RIVALS 1995].
59
CHAPITRE 1
Lapplication a ncessit la conception et la ralisation de deux systmes de commande destins raliser

deux tches :
la commande du volant, pour maintenir le vhicule sur sa trajectoire : un rgulateur neuronal de la position
a t ralis, qui permet une erreur latrale maximale de 40 cm, pour des courbures jusqu 0,1 m-1, et des
dvers jusqu 30 %, sur route et en tout-terrain ; cet asservissement a mis en uvre, en certains de ses
lments, une modlisation semi-physique ;
la commande de lacclrateur et du frein, pour respecter le profil de vitesse impos par le module de guidage.
Il faut noter que les divers rseaux de neurones mis en jeu dans cette application, quils jouent le rle de
modles ou de correcteurs, sont tous de trs petite taille (moins dune dizaine de neurones cachs). Leur
mise en uvre en temps rel na ncessit aucun matriel spcialis : ils ont t raliss sous forme unique-
ment logicielle, excuts sur une carte microprocesseur standard qui remplissait diverses autres fonctions.
Conclusion
Dans ce chapitre, nous avons expos les lments essentiels qui permettent de comprendre pourquoi, et
dans quels cas, il est avantageux de mettre en uvre des rseaux de neurones. En prsentant quelques
applications typiques, nous avons tent de montrer, concrtement, ce que lingnieur peut attendre de
cette technique.
Avant daller plus loin, il est sans doute utile de rappeler les points fondamentaux quil convient de
toujours garder lesprit lorsque lon cherche mettre en uvre des rseaux de neurones :
les rseaux de neurones sont utiliss comme outils statistiques, qui permettent dajuster des fonctions non
linaires trs gnrales des ensembles de points ; comme toute mthode statistique, lutilisation de
rseaux de neurones ncessite que lon dispose de donnes suffisamment nombreuses et reprsentatives ;
les rseaux de neurones apprentissage supervis sont des approximateurs parcimonieux, qui permettent
de modliser des phnomnes statiques (rseaux non boucls) et dynamiques (rseaux boucls) ;
les rseaux de neurones apprentissage supervis peuvent constituer dexcellents classifieurs, dont les
performances peuvent approcher celles du classifieur baysien thorique ; nanmoins, pour la classifi-
cation en vue de la reconnaissance de formes, la reprsentation choisie pour les formes reconnatre
dtermine souvent, dune manire dcisive, la performance globale du systme ; dans ce contexte, les
rseaux de neurones apprentissage non supervis peuvent apporter des lments prcieux pour la
dtermination dune bonne reprsentation des formes ;
il est toujours souhaitable, et souvent possible, dutiliser, pour la conception du rseau, les connais-
sances mathmatiques dont on dispose sur le phnomne modliser ; les rseaux de neurones ne sont
pas ncessairement des botes noires .
Les chapitres qui suivent reprennent en dtail les lments exposs plus haut : le lecteur est invit se reporter
lavant-propos et guide de lecture pour naviguer dans cet ouvrage en fonction de ses centres dintrt.
Complments thoriques et algorithmiques
Quelques types de neurones usuels

On peut distinguer deux types de neurones, en fonction de la manire dont interviennent leurs paramtres.
60
Les neurones entres paramtres

Les neurones les plus frquemment utiliss sont des neurones entres paramtres. Pour cette catgorie
de neurones, un paramtre est associ chaque entre du neurone. La sortie dun neurone n entres {xi},
i = 0 n1, sexprime donc sous la forme y = f ({xi, wi}, i = 0 n1. Le plus souvent, la fonction f est la
composition de deux oprations :
le calcul du potentiel du neurone, qui est la somme des entres du neurone, pondres par les
paramtres :
n1
v= wixi,
i=0
le calcul dune fonction non linaire du potentiel, dite fonction dactivation ; cette fonction est gnra-
lement en forme de s , do le nom gnrique de sigmode ; on utilise toujours une fonction sym-
trique par rapport 0, telle que la fonction tangente hyperbolique ou Arctangente, sauf si des
connaissances spciales sur le problme conduisent utiliser une autre fonction, mieux adapte celui-ci.
Remarque
Les entres du neurone comprennent gnralement une entre particulire, appele biais , qui a une valeur constante gale 1.
n
On lui attribue traditionnellement le numro zro, si bien que le potentiel peut tre rcrit sous la forme : y = f w0 + wixi .
n1 j=1
Ainsi, la sortie du neurone a pour expression : y = f w0 + wixi . La figure 1-50 reprsente la sortie dun neurone 3 entres (x0=1,
i=1
x1, x2) muni des paramtres w = 0, w1 = 1, w2 = 1.
Mentionnons deux variations sur ce

1
type de neurones :
les neurones dordre suprieur , dont
le potentiel nest pas une fonction affine
0.5
des entres, mais une fonction poly-
nomiale ; ce sont les anctres des
0
machines vecteurs supports
(Support Vector Machines ou SVM)
-0.5 utiliss pour la classification et dcrits
dans le chapitre 6 La discrimina-
-1 tion ;
5
les neurones de MacCulloch et
5
0
Pitts , ou sparateurs linaires
0 seuil , ou encore perceptrons ,
-5 -5 qui sont les anctres des neurones
utiliss actuellement ; leur emploi
Figure 1-50. Sortie dun neurone 3 entres {x0=1, x1, x2} munies des
poids {w0=0, w1=+1, w2=1}, dont la fonction dactivation est une
pour la discrimination sera largement
tangente hyperbolique : y=th(x1 x2). dvelopp dans le chapitre 6.
Les neurones non-linarit paramtre

Les paramtres de ces neurones sont attachs la non-linarit de ceux-ci : ils interviennent directement
dans la fonction f : ainsi, cette dernire peut tre une fonction radiale (RBF pour Radial Basis Func-
tion), ou encore une ondelette. Exemple : fonction radiale (RBF gaussienne isotrope) :
61
CHAPITRE 1
xi wi 2
i=1
y = exp .
2 wn2 + 1
Les paramtres {wi, i = 1 n} sont les coordonnes du centre de la gaussienne dans lespace des entres,
et le paramtre wn+1 est son cart-type. La figure 1-51 reprsente une RBF gaussienne isotrope, centre
lorigine, dcart-type gal 1/ 2 .
Remarque 1
Les fonctions radiales de base
tirent leur nom de ce quelles 0.8
forment, si elles sont convenable-
ment choisies, une base de fonc- 0.6
tions. Dans la pratique des
rseaux de neurones, les RBF ne 0.4
sont jamais choisies de faon
former une base ; nous utiliserons 0.2
donc simplement les termes de
fonction radiale (nanmoins, 0
2
nous suivrons lusage en
employant labrviation RBF). 1 2
0 1
0
Figure 1-51. RBF gaussienne -1
-1
isotrope y = exp [ (x12 + x22)] : -2 -2
w0 = w1 = 0, w3 = 1/ 2
Lalgorithme de Ho et Kashyap
Lalgorithme de Ho et Kashyap permet de dterminer, en un nombre fini ditrations, si deux ensembles
dexemples sont linairement sparables ; dans laffirmative, cet algorithme fournit une solution (parmi
une infinit de solutions possibles). Contrairement certains algorithmes dvelopps dans le chapitre 6, il
ne fournit pas une solution optimise. Son intrt essentiel est donc de dterminer si deux classes sont
linairement sparables, ou si elles ne le sont pas ; dans laffirmative, on utilisera, pour trouver une bonne
solution, un des algorithmes prsents dans le chapitre 6.
Considrons deux ensembles dexemples, appartenant deux classes A et B, en nombre na et nb ; si les
exemples sont dcrits par n descripteurs, chacun deux peut tre reprsent par un vecteur dans un espace
de dimension n. On dsigne par xka le vecteur reprsentatif du k-ime exemple de la classe a (k = 1 na),
et par w le vecteur des paramtres du sparateur linaire ; si un tel sparateur existe, il doit obir aux
conditions :
xka w > 0 pour tout k,
xkb w < 0 pour tout k.
Soit M la matrice dont les lignes sont les vecteurs reprsentatifs des exemples de A et les opposs des
vecteurs reprsentatifs des vecteurs de B :
M = x1a, x2a, ..., xnaa, x b1, x b2, ..., x bnb T
(o lexposant T dsigne la transposition). Alors un sparateur linaire existe si et seulement si il existe un
vecteur w tel que
Mw>0
62
soit encore sil existe un vecteur y > 0 et un vecteur w tels que M w = y.

On a alors w = M* y, o M*est la matrice pseudo-inverse de la matrice M : M* = MT (M MT) 1, qui peut
tre calcule par la mthode de Choleski [PRESS 1992].
Lalgorithme de Ho et Kashyap est le suivant :
Initialisation (itration 0) : w(0) = M* y(0) o y(0) est un vecteur positif quelconque

Itration i
(i) = M* w(i) y(i)
y(i+1) = y(i) + M* ((i)+|(i)|) o est un scalaire positif infrieur 1
w(i+1) = w(i) + ((i)+|(i)|)
Si (i) = (i+1) et y(i) < 0 alors les exemples ne sont pas linairement sparables.
Si (i) = (i+1) et y(i) > 0 alors les exemples sont linairement sparables et w(i) est une
solution.
Cet algorithme converge en un nombre fini ditrations.
Bibliographie
ANTONIADIS A., BERRUYER J., CARMONA R. [1992], Rgression non linaire et applications, Economica.
BARRON A. [1993], Universal approximation bounds for superposition of a sigmoidal function, IEEE
Transactions on Information Theory, 39, p. 930-945.
BAUM E. B., WILCZEK F. [1988], Supervised learning of probability distributions by neural networks,
Neural Information Processing Systems, p. 52-61.
BENVENISTE A., JUDITSKY A., DELYON B., ZHANG Q., GLORENNEC P.-Y. [1994], Wavelets in identifica-
tion, 10th IFAC Symposium on Identification, Copenhague.
BISHOP C. [1995], Neural networks for pattern recognition, Oxford University Press.
BRIDLE J. S. [1990], Probabilistic interpretation of feedforward classification network outputs, with rela-
tionship to statistical pattern recognition, Neurocomputing : algorithms, architectures and applications,
p. 227-236 Springer.
BROOMHEAD D. S., LOWE D. [1988], Multivariable functional interpolation and adaptive networks,
Complex Systems, 2, p. 321-355.
COVER T. M. [1965], Geometrical and statistical properties of systems of linear inequalities with applica-
tions in pattern recognition, IEEE Transactions on Electronic Computers, 14, p. 326-334.
DRAPER N. R., SMITH H. [1998], Applied regression analysis, John Wiley & Sons.
DUPRAT A., HUYNH T., DREYFUS G. [1998], Towards a principled methodology for neural network design
and performance evaluation in QSAR ; application to the prediction of LogP, Journal of Chemical Infor-
mation and Computer Sciences, 38, p. 586-594.
HAMPSHIRE J. B., PEARLMUTTER B. [1990], Equivalence proofs for multilayer perceptron classifiers and
the Bayesian discriminant function, Proceedings of the 1990 connectionist models summer school, p. 159-
172, Morgan Kaufmann.
HANSCH C., LEO A. [1995], Exploring QSAR, Fundamentals and applications in chemistry and biology;
American Chemical Society.
63
CHAPITRE 1
HO E., KASHYAP R.L. [1965], An algorithm for linear inequalities and its applications, IEEE Transactions
on Electronic Computers, 14, p. 683-688.
HOPFIELD J. J. [1987], Learning algorithms and probability distributions in feedforward and frrdback
neural networks, Proceedings of the National Academy of Sciences, 84, p. 8429-433.
HORNIK K., STINCHCOMBE M., WHITE H. [1989], Multilayer feedforward networks are universal approxi-
mators, Neural Networks, 2, p. 359-366.
HORNIK K., STINCHCOMBE M., WHITE H. [1990], Universal approximation of an unknown mapping and
its derivatives using multilayer feedforward networks, Neural Networks, 3, p. 551-560.
HORNIK K. [1991], Approximation capabilities of multilayer feedforward networks, Neural Networks, 4,
p. 251-257.
KIM S. S., SANDERS T. H. Jr [1991], Thermodynamic modeling of phase diagrams in binary alkali silicate
systems, Journal of the American Ceramics Society, 74, p. 1833-1840.
KNERR S., PERSONNAZ L., DREYFUS G. [1990], Single-layer learning revisited : a stepwise procedure for
building and training a neural network, Neurocomputing : algorithms, architectures and applications, p.
41-50, Springer.
KNERR S. [1991], Un mthode nouvelle de cration automatique de rseaux de neurones pour la clas-
sification de donnes : application la reconnaissance de chiffres manuscrits, Thse de Doctorat de
l'Universit Pierre et Marie Curie, Paris.
KNERR S., PERSONNAZ L., DREYFUS G. [1992], Handwritten digit recognition by neural networks with
Single-layer Training, IEEE Transactions on Neural Networks, 3, p. 962-968.
LECUN Y., BOSER B., DENKER J.S., HENDERSON D., HOWARD R.E., HUBBARD W., JACKEL L.D. [1989],
Backpropagation applied to handwritten zip code recognition, Neural Computation, 1, p. 541-551.
MALLAT S. [1989], A theory for multiresolution signal decomposition : the wavelet transform, IEEE Tran-
sactions on Pattern Analysis and Machine Intelligence, 11, p. 674-693.
McCULLOCH W. S., PITTS W. [1943], A logical calculus of the ideas immanent in nervous activity, Bulletin
of Mathematical Biophysics, 5, p. 115-133.
MARCOS S., MACCHI O., VIGNAT C., DREYFUS G., PERSONNAZ L., ROUSSEL-RAGOT P. [1992], A unified
framework for gradient algorithms used for filter adaptation and neural network training, International
Journal of Circuit Theory and Applications, 20, p. 159-200.
MINSKY M., PAPERT S. [1969] Perceptrons. MIT Press.
MONARI G. [1999], Slection de modles non linaires par leave-one-out ; tude thorique et application
des rseaux de neurones au procd de soudage par points, Thse de Doctorat de l'Universit Pierre et
Marie Curie, Paris. Disponible sur le site http://www.neurones.espci.fr.
MOODY J., DARKEN C. J. [1989], Fast learning in networks of locally-tuned processing units, Neural
Computation, 1, p. 281-294.
NERRAND O., ROUSSEL-RAGOT P., PERSONNAZ L., DREYFUS G., MARCOS S. [1993], Neural networks and
non-linear adaptive filtering : unifying concepts and new algorithms, Neural Computation, 5, p. 165-197.
OUKHELLOU L., AKNIN P. [1997], Modified Fourier Descriptors : A new parametrization of eddy current
signatures applied to the rail defect classification, III International workshop on advances in signal
processing for non destructive evaluation of materials.
OUKHELLOU L., AKNIN P., STOPPIGLIA H., DREYFUS G. [1998], A new decision criterion for feature selec-
tion: application to the classification of non destructive testing signatures, European SIgnal Processing
COnference (EUSIPCO'98).
64
OUSSAR Y. [1998], Rseaux dondelettes et rseaux de neurones pour la modlisation statique et dyna-
mique de processus, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
OUSSAR Y., DREYFUS G. [2000], Initialization by selection for wavelet network training, Neurocompu-
ting, 34, p. 131-143.
OUSSAR Y., DREYFUS G. [2001], How to be a gray box : dynamic semi-physical modeling, Neural
Networks, vol. 14, p. 1161-1172.
PLOIX J. L., G. DREYFUS [1997], Early fault detection in a distillation column: an industrial application of
knowledge-based neural modelling, Neural Networks: Best Practice in Europe, p. 21-31, World Scien-
tific.
POWELL M. J. D. [1987], Radial basis functions for multivariable interpolation : a review, Algorithms for
approximation, p. 143-167.
PRESS W. H., TEUKOLSKY S. A., VETTERLING W. T., FLANNERY B. P. [1992], Numerical recipes in C : the
art of scientific computing, Cambridge University Press.
PRICE D., KNERR S., PERSONNAZ L., DREYFUS G. [1994], Pairwise neural network classifiers with proba-
bilistic outputs, Neural Information Processing Systems, 7 , p. 1109-1116, Morgan Kaufmann.
PRICE P.E., WANG S., ROMDHANE I.H. [1997], Extracting effective diffusion parameters from drying
experiments. AIChE Journal, 43, p. 1925-1934.
RIVALS I., CANAS D., PERSONNAZ L., DREYFUS G. [1994], Modeling and control of mobile robots and intel-
ligent vehicles by neural networks, Proceedings of the IEEE Conference on Intelligent Vehicles, p. 137-142
RIVALS I. [1995], Modlisation et commande de processus par rseaux de neurones : application au pilo-
tage dun vhicule autonome, Thse de Doctorat de lUniversit Pierre et Marie Curie, Paris Disponible
sur le site http://www.neurones.espci.fr.
ROUSSEL P., MONCET F., BARRIEU B., VIOLA A. [2001], Modlisation dun processus dynamique laide
de rseaux de neurones boucls. Application la modlisation de la relation pluie-hauteur deau dans un
rseau dassainissement et la dtection de dfaillances de capteurs, Innovative technologies in urban
drainage, 1, 919-926, G.R.A.I.E.
SEBER G.A.F., WILD C.J. [1989], Nonlinear regression, Wiley Series in Probability and Mathematical
Statistics, John Wiley & Sons.
SINGHAL A. [1996], Pivoted length normalization. Proceedings of the 19th Annual International Confer-
ence on Research and Development in Information Retrieval (SIGIR'96), p. 21-29.
STOPPIGLIA H. [1997], Mthodes statistiques de slection de modles neuronaux ; applications finan-
cires et bancaires, Thse de Doctorat de lUniversit Pierre et Marie Curie, Paris. Disponible sur le site
http://www.neurones.espci.fr.
STRICKER M. [2000], Rseaux de neurones pour le traitement automatique du langage : conception et
ralisation de filtres d'informations, Thse de Doctorat de l'Universit Pierre et Marie Curie, Paris. Dispo-
nible sur le site http://www.neurones.espci.fr.
STRICKER M., VICHOT F., DREYFUS G., WOLINSKI F. [2001], Training context-sensitive neural networks
with few relevant examples for the TREC-9 routing, Proceedings of the TREC-9 Conference.
VAPNIK V. [1995], The nature of statistical learning theory, Springer.
WOLINSKI F., VICHOT F., STRICKER M. [2000], Using learning-based filters to detect rule-based filtering
obsolescence, Confrence sur la Recherche dInformation Assiste par Ordinateur, RIAO'2000, Paris.
ZIPF G. K. [1949], Human Behavior and the Principle of Least Effort. Addison-Wesley.

Chap01 Les Réseaux de Neurones

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Chap01 Les Réseaux de Neurones

Загружено:

Авторское право:

Доступные форматы

1

Les rseaux de neurones :

ingnierie, formulation de matriaux nouveaux, modlisation de procds industriels, contrle de lenvi-

Les rseaux de neurones : dfinitions et proprits

Figure 1-1. Un neurone ralise une fonction non linaire borne

Les rseaux de neurones

Les rseaux de neurones non boucls

Rseaux une couche cache de sigmodes et un neurone de sortie linaire

g (x , w ) Figure 1-3. Un rseau de neurones n+1 entres,

Ce quil faut retenir

Quest-ce quun rseau de neurones zro neurones cachs ?

Les termes directs

Figure 1-4. Reprsentation graphique dun rseau de neurones g (x , w )

Les rseaux de neurones boucls (ou rcurrents)

La figure 1-5 reprsente un exemple de rseau de Figure 1-5. Un rseau g (kT )

Forme canonique des rseaux de neurones boucls

o et sont des fonctions non linaires (des Sorties Variables d'tat

Par exemple, le rseau de neurones reprsent g (kT ) g (kT ) x (kT )

u 1 (kT ) u 2 (kT ) u 1 (kT ) u 2 [( k -1)T ]

Lapprentissage des rseaux de neurones

Lapprentissage non supervis

Proprit fondamentale des rseaux de neurones non boucls

Certains rseaux de neurones sont des approximateurs parcimonieux

quoi servent les rseaux de neurones non boucls apprentissage

+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00

Figure 1-10. Un signal que lon voudrait modliser

on effectue un nombre fini de mesures, comme illustr sur la figure 1-11 ;

+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00

+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00

En quoi la parcimonie est-elle avantageuse ?

quoi servent les rseaux de neurones apprentissage non

quoi servent les rseaux de neurones boucls apprentissage

quoi servent les rseaux de neurones boucls sans

Quand et comment mettre en uvre des rseaux de

Quand utiliser les rseaux de neurones ?

Comment mettre en uvre ces rseaux de neurones ?

Les entres pertinentes

La collecte des donnes

Le nombre de neurones cachs

o NA est le nombre dexemples de lensemble dapprentissage.

+ 0,90 4 neurones cachs

+ 0,00 + 1,75 + 3,50 + 5,25 + 7,00 + 8,75 + 10,50 + 12,25 + 14,00

Lapprentissage des rseaux de neurones non boucls : un problme

Rseaux de neurones apprentissage supervis et

Quest-ce quun problme de classification ?

Quand est-il opportun dutiliser un classifieur statistique tel

Classification probabiliste et formule de Bayes

+ + ++++ + mation de la densit de probabilit conditionnelle de la

nelles des descripteurs p(xCi). Alors, la formule de Bayes

Rgle de dcision de Bayes

A B A B ralisations qui se trouve du mauvais ct

600 exemples (A)

+ 0,00 Rpartition des 1 200 exemples Figure 1-25. Exemples utiliss

Problme deux classes

Frontire entre lon dispose dchantillons dune

+ x+ de plus grande dimension, on lappelle un hyperplan . La figure 1-29

Mthodologie de conception dun classifieur

Quelques exemples dapplications des rseaux

Une application en reconnaissance de formes : la lecture

Figure 1-32. Quelques morceaux choisis

10 neurones de sortie Lentre du rseau est une matrice de

Figure 1-34. Les 18 erreurs

Une application en contrle non destructif : la dtection de dfauts

Une application en prvision : lestimation de la probabilit