Вы находитесь на странице: 1из 11

pp.

331-341 331

Connexionnisme, calcul, reconnaissance des formes


et intelligence artificielle
Daniel Y. M. COLLOBERT *
Alain D. M A R U A N I **

R~sum~ Sommaire
Cet article est une introduction au domaine des I. Introduction.
r~seaux de neurones ainsi qu'gt certains processus II. Neurone biologique et neurone formeL
d'apprentissage. L'intelligence artificielle n'y inter- III. Apprentissage.
viendra qu'au travers de la reconnaissance des formes.
IV. Perceptrons et adalines.
Les rkseaux de neurones suscitent un intOr~t croissant
car il semble qu'ils soient capables de traiter des pro- V. Le modble de Hopfield et ses extensions.
blbmes pour lesquels une description symbolique n'existe VI. Perceptrons ?l plusieurs couches.
pas ou pour lesquels les temps de calcul sont rOdhibi- VII. R~alisations en cours.
toirement longs. C'est en reconnaissance des formes, VIII. Conclusion.
particulibrement dans les applications de reconnaissance
Bibliographie (28 r~f.).
de la parole, que leurs applications sont les plus per-
formantes ou les plus prometteuses.
Mots ei6s : R6seau neural, Reconnaissance forme, Intelligence
artificielle, Apprentissage automatique, Traitement parall61e, I. INTRODUCTION
Neurone.
Fantasme persistant enfoui dans le code g6n6tique
ou n6cessit6 d6coulant trivialement des progr6s des
techniques ou des technologies, l'ambition de cr6er
CONNECTIONISM, COMPUTING, des objets et des images 5- sa ressemblance insuffle
PATTERN R E C O G N I T I O N 5- l'6tre humain une volont6 dont l'origine v a s e
AND ARTIFICIAL I N T E L L I G E N C E perdre dans la nuit des temps. Depuis l'envol d'Icare
au sortir du labyrinthe, bien des espoirs ont fondu
Abstract comme cire au soleil : l'intelligence du vol de l'alouette
6chappant jusqu'ici au plus sagace des a6rodynami-
This paper provides an introduction to the field of ciens, l'avion 5- r6action n'a gard6 de l'ornithologie
neural nets and associated learning procedures. Artificial qu'une silhouette et quelques roots.
intelligence and pattern recognition are taken in it as Le projet d'intelligence artificielle (IA), pass6e la
synonyms. Massively parallel, neural-like, networks are p6riode initiale d'exaltation, se trouve confronts
receiving increasing attention as a mechanism for actuellement 5- une large classe de probl6mes, en pattie
expressing information processing models. The attempt peut-~tre parce qu'une hypoth6se sous-jacente 5-
to achieve human-like performances in the field of beaucoup de travaux est que l'on a affaire tout du
speech and image recognition justify this broadening long 5. des probl6mes algorithmiques, c'est-5--dire dont
of interest. Neural networks process information in la proc6dure de r6solution peut 8tre d6crite en un
new ways. The use of their properties appears to have nombre fini d'6tapes. En fait, la plupart des questions
promise for the development of solutions to problems que r6sout le psychisme se prSte real 5- l'algorithmisa-
that have intractable or unknown algorithms or are tion, il s'agit de probl6mes complexes, r6fractaires
too computationally intense. 5- la partition ch6re h la M6thode. Tel est le cas par
exemple de l'observation d'une image : il semble
Key words : Neuronal network, Pattern recognition, Artificial
intelligence, Automatic learning, Parallel processing, Neuron. impossible d'6noncer une m6thode g6n6rale (valable
pour toutes les images) d'inspection, indiquant
notamment le point de d6part et la maniSre dont
sont ensuite vus les diff6rents 616ments, cela sans

* CNET-LAB-ROC,route de Tr6gastel, BP 40, F-22301 Lannion Cedex.


** ENST, 46, rue Barrault, 75634 Paris Cedex 13.

1/11 ANN. T]ELI~COMMUN.,44, n o 5-6, 1989


332 D.Y.M. COLLOBERT. - CONNEXIONNISME, RECONNAISSANCEDES FORMES

mentionner le travail implicite d'extraction de pri- ind6pendante de leur support mat6riel est un dogme
mitives ou de contours, ni leur mise en relation avec tenace.
des traits de r6f6rence d6j5. m6moris6s. L'approche connexionniste est oppos6e et plut6t
La solution semble bien ~tre suspendue ~t la mise structuraliste ; elle prend le contre-pied de cette fagon
en oeuvre d'un renouveau conceptuel. Le connexion- de voir et sugg6re des repr6sentations des connaissances
nisme en est peut-~tre une 6tape. tr6s diff6rentes de celles utilis6es classiquement en
Selon Feldman [1], le connexionnisme est l'6tude informatique. Le paradigme principal y est que le
de certaines classes d'architectures massivement traitement de l'information se fair grace b, l'interaction
parall~les, comportant un grand nombre de proces- d'un grand nombre d'616ments simples, appel6s
seurs 616mentaires fortement interconnect6s. Dans cellules ou encore neurones ou encore plus prudem-
ces architectures, la connaissanee est stock6e dans les ment neurones formels, chacune de ces cellules envo-
connexions par l'interm6diaire de leur poids, leur yant des signaux excitateurs ou inhibiteurs ~ d'autres
efficacit6, et non pas dans des cellules de m6moire ; cellules du r6seau.
de l~t le terme de connexionnisme. La g6n6ration des concepts s'y fait ~t partir des
Mais ce mot englobe plusieurs courants de recherche exemples ; il y a extraction des r~gularit6s statistiques
pr6sentant entre eux des diff6rences tant du point pr6sentes dans les entr6es, sans formulation de r6gles
de vue technique que du point de vue th6orique. explicites. C'est l'acquisition des forces de liaisons
Chaque courant a donn6 lieu b. l'apparition d'une entre neurones qui permet au r6seau connexionniste
nouvelle appellation ; le << neuromim6tisme >> et les de fonctionner comme s'il connaissait les r6gles. Le
<< r6seaux neuroniques >> en sont deux exemples. savoir 6tant ainsi stock6 dans toutes les liaisons entre
Le d6nominateur commun ~ toutes ces 6tudes, les unit6s, il est r6parti. Les cellules n'ont g6n6ralement
quel que soit leur nom, est une dense interconnexion aucune signification en tant qu'616ment individuel
d'616ments de calcul simples : les <<neurones formels >~. mais quelquefois elles peuvent correspondre h des
Ce n'est que r6cemment, grfice en particulier ~t primitives conceptuelles.
l'apparition conjointe de supercalculateurs, de En plus de la connaissance, le calcul est lui aussi
m&hodes de calcul et d'algorithmes nouveaux que r6parti. Chaque unit6 individuelle effectue des calculs
le connexionnisme s'est d6velopp6 de fagon explosive. locaux et peut, par exemple, tester des hypoth6ses
Ces mod61es ont 6t6 appliqu6s avec succ~s ~. diverses concernant des objets comme des lettres dans un mot
tfiches cognitives comme la reconnaissance de carac- particulier, ou la fonction syntaxique des mots dans
t6res, la reconnaissance de la parole ou encore le une phrase donn6e. Dans ce cas, l'activation d'une
contr61eur moteur. Ces fftches requi6rent la satisfac- cellule reprdsente, en gros, la force que l'on prate
tion d'un grand nombre de contraintes qui peuvent ~t chacune des hypotheses possibles, et le poids de la
&re de types diff6rents, dont chacune peut elle-m~me connexion entre deux cellules repr6sente la contrainte
&re imparfaitement sp6cifi6e, mais qui toutes peuvent qui existe entre les hypoth6ses possibles.
virtuellement jouer un r61e d6terminant dans l'issue Et plut6t que de suivre un programme d'instructions
du traitement. s6quentiellement, le r6seau connexionniste, par nature,
Le connexionnisme est issu de travaux qui datent explore beaucoup d'hypoth6ses simultan6ment.
des ann6es 1950 et s'inspire des m6thodes d'appren- II n'est pas possible dans un article comme celui-ci
tissage statistiques dont le fleuron le plus c616bre fut de citer toutes les voies de recherche. Aussi nous n'y
le perceptron de Rosenblatt. C616bre, le perceptron d6velopperons que quelques id6es ou concepts clds
le fut surtout, tel Icare, pour son 6chec. Et l'apparition qui nous semblent importants et nous n'y expliciterons
des m6thodes bas6es sur la logique a conduit ~t l'6poque qu'un nombre limit6 de travaux.
au quasi-abandon des m&hodes statistiques en intel-
ligence artificielle.
A notre avis, n6anmoins, oublier les m6thodes II. NEURONE BIOLOGIQUE
statistiques c'est comme oublier que D6dale, lui, ET N E U R O N E F O R M E L
s'6chappa sans dommage du labyrinthe.
I1 existe actuellement deux dispositifs qui permettent
Dans ce paragraphe nous allons exposer quelques
de r6soudre des fftches cognitives : le cerveau et les
notions concernant les neurones et le cerveau. Si
machines. I1 semble surprenant que les 6tudes qui
dans les mod61es connexionnistes nous utilisons des
visent h reproduire les processus mentaux ne soient
termes issus de la biologie, qu'il soit bien clair qu'il
basges que sur le calculateur num6rique programm6
ne s'agit que d'une commodit6 de langage et que la
pour << mimer >} l'intelligence, qu'on appellera artifi-
ressemblance avec tout objet vivant peut n'~tre
cielle, alors que c'est le cerveau biologique qui produit
qu'extr~mement lointaine.
la vari6t6 naturelle. II y a cependant plusieurs raisons
5. cela. L'une est que l'on a beaucoup plus de con-
naissances sur le fonctionnement d'un calculateur II.1. Le neurone biologique.
que sur celui d'un cerveau, une autre est que l'assertion
philosophique fonctionnaliste qui pr6tend que les I1 s'agit d'une cellule vivante capable de recevoir
fonctions mentales peuvent &re 6tudi~es de fa~;on et de transmettre des signaux de nature 61ectro-

ANN. T~L~COMMUN.,44, n ~ 5-6, 1989 2/11


D. Y. M. COLLOBERT. - CONNEXIONN1SME, RECONNAISSANCEDES FORMES 333

chimique. Son fonctionnement est extr~mement com- e1


plexe, et b, l'heure actuelle, il n'est pas compl6tement
6lucid6. Le neurone se compose d ' u n corps, le soma,
'2 o,~
O~W2
c o m p o r t a n t un grand h o m b r e d'appendices fins et
courts, les dendrites, ainsi que d ' u n long prolonge- ENTRF'ES S
ment, l'axone, qui r6alise des connexions sur le soma ~- ~ SORTIE
ou les dendrites d'autres neurones. La transmission
des signaux se fait par l'interm6diaire de boutons ~\x d wn
synaptiques dont Faction r6sultante sur le neurone ",,en
aval est soit excitatrice, soit inhibitrice ; quelquefois
m~me un neurone peut simultan6ment exciter et
Fh= - - I -
inhiber un autre neurone (par l'interm6diaire de
synapses diff6rentes). F: FI. = f S=F(Zwie i)
C h a q u e neurone 6tablit en m o y e n n e 10 000 con-
nexions avec d'autres neurones [2]. Fs=~
FIG. 1. - - Le neurone formel de McCulloch et Pitts.
Le neurone formel op6re en deux 6tapes : il effectue tout
11.2. Le cerveau biologique. d'abord une sommation pond6r6e de ses entr6es ei, puis une
op6ration non lin6aire F sur le r6sultat. Fh est la fonction de
Heaviside, F1 une fonction lin6aire par parties, Fs une fonction
sigmoide. Pour Fh, par exemple, si la somme pond6r6e est
C'est un agr6gat de neurones, qui ressemble it un sup6rieure ~ un certain seuil (souvent 0), alors la sortie S prend
mat6riau a m o r p h e en ce qu'il est fortement structur6 la valeur 1 ; sinon elle vaut - - I.
courte distance et d6sordonn6 h longue distance. The formal neuron of McCulloch and Pitts.
De plus on sait qu'il existe des zones tr6s sp6cialis6es : The <<formal neuron >>works in two steps, first it makes the
la r6tine, la cochl6e ou le cervelet en sont trois exemples. weighted sum of its inputs, then a non-linear function of the
result. Fh is Heaviside, F1 piecewise-linear, Fs a ~<squashed>)
U n cerveau humain comporte environ 10 ~2 neurones function.
[3].

de neurone binaire, dans les deux derniers on parlera


de neurone analogique.
11.3. Approximation connexionniste : le neurone Enfin l'activit6 de chaque neurone, 6ventuellement
formel. le poids de chaque connexion synaptique, 6volue
selon un ensemble de r6gles appel6 dynamique du
U n r6seau connexionniste n'est q u ' u n e m6taphore systbme.
grossi6re du cerveau et de ses constituants : les Plus pr6cis6ment, les neurones de McCulloch et
neurones n ' y ont au plus q u ' u n e centaine de synapses Pitts sont des op6rateurs qui traitent des signaux
et les plus gros r6seaux ne comportent que 105 neu- binaires 0 et 1. Chaque neurone poss6de un 6tat lui
rones. aussi binaire q u ' o n peut appeler inactif ou actif,
I1 est maintenant d'usage d'appeler le neurone 0 ou 1 et ainsi de suite. Von N e u m a n n en 1956 [5]
connexionniste <~neurone formel >>selon la d6nomina- puis W i n o g r a d et C o w a n en 1963 [6] montr6rent
tion que lui donn6rent ses inventeurs McCulloch et qu'il 6tait possible de construire avec de tels neurones
Pitts en 1943 [4]. Dans toute la suite du texte, on des r6seaux redondants dans lesquels l'information
emploiera le m o t <~ neurone >~ dans le sens de neurone est distribu6e : un bit d ' i n f o r m a t i o n est repr6sent6
formel. On en trouvera une repr6sentation sur la de fagon redondante par plusieurs neurones et chaque
figure 1. Les signaux se propagent des entr6es vers neurone repr6sente partiellement plusieurs bits.
les sorties. Le neurone effectue une op6ration sur Une information n'est done pas localis6e dans une
ses entrdes E~ qui peuvent ~tre logiques ou ana- entit6 identifiable mais dans l'6tat du r6seau (en
logiques. Chacune de ces entr6es est pond6r6e par termes de variables incluant les 6tats de chaque cellule
un coefficient W~, le poids ou efficacit6 synaptique. ainsi que leur 6volution temporelle).
L'activit6 (g6n6ralement la somme pond6r6e des Le fait que dans les r6seaux l'information soit
entr6es) est ensuite propag6e vers la sortie apr~s r6partie dans les connexions entre les neurones de
avoir subi une transformation non lin6aire F. Cette McCulloch et Pitts a sans doute 6t6 p o u r quelque chose
non-lin6arit6 est n6cessaire car on salt q u ' u n e succes- dans l ' a b a n d o n de l'id6e selon laquelle il existe des
sion d'op6rations lin6aires est une op6ration lin6aire, neurones sp6cialis6s dans le cerveau biologique, par
et une telle op6ration n'offre g6n6ralement que peu exemple un neurone dit go61and qui ne serait
d'int6r~t du strict point de vue calculatoire. Cette activ6 que lorsque le motif << go61and >> serait pergu
transformation est repr6sentde sur la figure 1. Elle sur les entr6es.
peut 6tre une fonction d'Heaviside (Fn) ou fonction En fait, un tel concept n'est pas repr6sent6 par un
seuil, une fonction lin6aire par partie (F~) ou encore neurone isol6 mais par un 6tat d'activation du r6seau
une fonction sigmoide (F~) contin0ment d6rivable et cet 6tat fait intervenir un grand n o m b r e de neurones
et non d6croissante. Dans le premier cas, on parlera (Fig. 2). La robustesse des mod61es connexionnistes

3/11 ANN. TI~L1~COMMUN., 44, n ~ 5-6, 1981


334 D. Y. M. COLLOBERT. -- CONNEXIONNISME, RECONNAISSANCEDES FORMES

9',,.-- ENTREE probl6me que l ' o n d6sire traiter est simple, les poids
A= _1 _1
A' des connexions peuvent ~tre fix6s << h la main >>, mais
I p o u r la plupart des probl~mes cela est impossible.
.0,25 ~ > _1 I1 s'ensuit donc que le r6seau doit poss6der un m6ca-
nisme interne de structuration, une r~gle d'apprentis-
sage, en l'absence de laquelle celui-ci ne pr6sente
_0,25 0,25 0,25 _0,2.5 ~ _1
aucune utilit6 pratique.
SORTIE

0,25 _0,25 _0,25 D,25 ~ 1


III. APPRENTISSAGE

O,25 ,_o,2s _0,25 :),25 ~ ~ 1


j
Toute proc6dure d'apprentissage dans les r6seaux
neuroniques est bas6e sur un algorithme math6-
FIG. 2. - - Un r6seau de quatre neurones matique qui ajuste les poids de fa9on h ce que les
fonctionnant en associateur de configurations.
sorties soient appropri6es aux entr6es, selon un certain
Soient l'entr6e A = (1, - - 1, - - 1, 1) et la sortie d6sir6e
A' = (-- 1, - - 1, 1, 1). Pour que le r6seau fournisse A' en r6ponse crit6re.
h A, il suffit que les valeurs des connexions soient celles indiqu6es La plus ancienne proc6dure semble &re celle propos6e
ici (chaque poids est proportionnel au produit de la sortie
par l'entr6e correspondante). La fonction non lin6aire utilis6e par Hebb en 1949 [7]. Elle stipule que <<le p o i d s de la
est Fh avec un seuil nul. c o n n e x i o n q u i relie d e u x cellules d o i t varier selon q u e l q u e
On remarquera que si l'entr6e est bruit6e ((1, - - 1, 0, 1) f o n c t i o n de la c o r r d l a t i o n e x i s t a n t e n t r e les a c t i v i t d s
ou m~me (1, - - 1, 1, 1)), la sortie obtenue est n6anmoins celle
d6sir6e. Le lecteur est invit6 h trouver les poids qui correspondent de ces d e u x cellules >>. Les math6maticiens traduisirent
h l'association des vecteurs orthogonaux aux premiers (par et formalis6rent cette phrase en p r o p o s a n t que lorsque
exemple B = (1, - - 1, 1, - - 1)--+ B' = (-- 1, 1, 1, - - 1)), h deux neurones sont activ6s de faqon synchrone, alors
additionner les poids trouv6s h ceux de la figure puis h pr6senter
les motifs A e t B. les connexions les reliant se renforcent ; lorsque l'acti-
I1 constatera que le nouveau r6seau sait alors distinguer les vit6 n'est pas synchrone, alors la force de la connexion
vecteurs A et B et produire les sorties d6sir6es pour chacun
des cas. diminue (Fig. 3).

F[o. 2. - - A neural net which associate two configurations. Si


The net associates A' to A i f the weights are those o f the figure.
The non-linear function ts Fh with a nul threshold.
l f the input is noisy (1, - - 1, O, 1) or even (1, - - 1, 1, 1) the
output remains the good one. FIG. 3. - - R6gle de Hebb.
The reader is requested to find the weights needed to associate
the following vectors, orthogonal to the previous one : B(1, - - 1, Le poids reliant deux neurones i et j peut varier en fonction
1, - - 1) -+ B" ( - - 1, 1, 1, - - 1), to sum the corresponding weights, du temps suivant la loi de Hebb :
and to present as input, the two patterns A and B. W~j(t + 1) = W~j(t) + ~ Si(t)Sj(t).
FIG. 3. - - The Hebb rule for the weights.

aux d6fauts de r6alisation r6sulte de cette dispersion. La proposition de H e b b est tr6s importante, beau-
Le b6n6fice attendu des r6seaux de neurones va d o n c coup de paradigmes modernes d'apprentissage en
au-del~t du parall61isme, il s'6tend 5. la fiabilit6 op6- sont issus. T o u s l e s poids de la figure 2 peuvent ~tre
ratoire. obtenus ~t partir de vecteurs d'entr6e et de sortie
Pour comprendre cette insensibilit6 aux d6fauts, quelconques en appliquant la r6gle de Hebb. Mais
nous p o u v o n s utiliser l'image de l ' h o l o g r a m m e , qui la r6gle est beaucoup plus puissante encore. En effet,
est assez exacte h ce niveau. Dans un hologramme, apr~s avoir stocks une premiere association A ~ A',
chaque point r6sulte de l'interaction entre tous les il est possible d ' e n stocker une seconde B ---> B'.
points source. Si une partie de l ' h o l o g r a m m e est I1 suffit p o u r cela d ' a j o u t e r les poids correspondant
d6truite, l'image initiale est simplement d6grad6e mais aux deux associations A e t B p o u r obtenir une m6moire
pas perdue. associative telle que la pr6sentation de l ' u n ou l'autre
En revanche, si on r6alise 61ectroniquement des des motifs d'entr6e A ou B induise la production
r6seaux de neurones, il reste h prouver que le type correcte de la sortie correspondante (cf. l'exemple
de panne p o u v a n t affecter un neurone est bien compa- de la figure 2).
tible avec le fonctionnement du r6seau. Lorsque des R e m a r q u o n s que si nous bruitons al6atoirement
charges 61ectriques sont manipul6es, les cons6quences et de fa~on ind6pendante les entr6es et les sorties au
d ' u n circuit ouvert ne sont absolument pas les m~mes cours de l'apprentissage, la proc6dure de H e b b per-
que celles d ' u n court-circuit. II y a des pannes fatales, mettra d'associer la tendance centrale des configura-
d'autres qui ne le sont pas. tions d'entr6e et de sortie, et d ' i g n o r e r le bruit (le
Quoi qu'il en soit, p o u r sp6cifier un r6seau de lecteur est invit6 b. faire les exercices propos6s ~t la
neurones, il faut pr6ciser les caract6ristiques o p & a - figure 2).
tionnelles des cellules, la topologie et 6ventuellement Ce simple r6seau poss6de done des capacit6s de
la proc6dure d'apprentissage. En effet, tant que le g6n6ralisation : des configurations d'entr6e similaires

ANN. TI~Lt~COMMUN.,44, rt~ 5-6, 1989 4/11


D. Y. M. COLLOBERT. - CONNEXIONNISME, RECONNAISSANCE DES FORMES 335

tendent 5. produire des configurations de sortie simi- ensemble de pr6dicats consistant chacun en une
laires. Cette g6n6ralisation est spontan6e. cellule 5. seuil qui calcule une certaine fonction logique
C'est cette propri6t6 qui conf6re au r6seau la fix6e a priori sur un sous-ensemble de cellules de la
possibilit6 d'acqu6rir des comportements dont nous r6tine, ifi) d'une ou de plusieurs cellules de sortie,
consid6rons habituellement qu'ils rel6vent de l'utili- chacune poss6dant des connexions avec les pr6dicats,
sation de r6gles. seules ces connexions sont variables. Les cellules de
II existe cependant un certain nombre de limitations sortie sont des neurones de McCulloch et Pitts. I1
la rOgle de Hebb. La premi6re est que cette r6gle n ' y a donc qu'une touche de poids variables sur
ne permet d'apprendre les poids des connexions que laquelle va porter la proc6dure d'apprentissage. Nous
si les motifs A et B n ' o n t aucune corr61ation entre appellerons ces perceptrons : << perceptrons 5. une
e u x ; en d'autres termes, ils doivent ~tre orthogo- couche >>.
naux (produit scalaire nul). Rosenblatt prouva en 1960 [9] la convergence
Une deuxi6me limitation apparait si l'on remarque de la proc6dure suivante qui est une am61ioration
que les grandeurs pr6sentes 5. l'entr6e du r6seau sont notable de la r6gle de Hebb en ce sens qu'elle permet
en fait d6js. issues du codage ou de la repr6sentation un calcul it6ratif des poids tout en levant certaines
des concepts que l'on veut traiter. En parole par restrictions sur le choix des vecteurs d'entr6e :
exemple, le mot <~ pi >> pourrait ~tre cod6 A = (1, 0,
0, 1.... ) off le premier bit, (< 1 >>, correspondrait par * Envoyer un stimulus d'entr6e, les E h et noter
exemple 5. la pr6sence de la qualit6 plosive dans le les 6tats des cellules de sortie S i . Certaines
signal de parole, le deuxi6me bit, << 0 >>, 5. l'absence cellules sont 5. l'6tat d6sir6 D j , d'autres non.
de la qualit6 fricative etc. * Ne rien faire sur les cellules dont la r6ponse
Le codage pr6suppose donc en g6n6ral un certain est correcte, mais ajuster les poids des conne-
nombre de connaissances. I1 apparait n6anmoins xions en :
souhaitable, dans certains cas, que l'on puisse entrer
- - augmentant les poids de toutes les entr6es
des donn6es brutes dans le mod61e et que celui-ci
actives d'une cellule qui r6pond 0 alors
61abore lui-m~me les repr6sentations pertinentes. Or,
qu'elle devrait r6pondre 1,
la proc6dure de Hebb ne le permet pas.
Tr6s r6cemment, des paradigmes diff6rents sont --diminuant les poids de toutes les entr6es
actives d'une cellule qui r6pond 1 alors
apparus, nous y reviendrons au chapitre V.
qu'elle devrait r6pondre 0.
* Pr6senter un nouveau motif.
IV. PERCEPTRONS
ET A D A L I N E S L'algorithme peut s'6crire :
wu(t + l) = wu(t ) ~- ~(j) [Dj(t) - - Sj(t)] E h,
IV.1. Perceptrons. off ~(j) est ajust6 de faqon 5. converger suffisamment
vite tout en assurant la stabilit6 de la convergence
En 1958, 15 ans apr6s la publication de McCulloch (cf. par exemple [10]).
et Pitts, Rosenblatt introduit le perceptron [8], une Le th6or6me de convergence du perceptron assure
machine (un algorithme) capable de r6soudre certains que si une solution existe, c'est-5.-dire si les vecteurs
probl6mes de reconnaissance des formes. Un per- de la base d'exemples repr6sentent des 6tats lin6aire-
ceptron (Fig. 4) se compose : i) d'une r6tine, tableau ment s6parables (au sens de la classification), alors
d'entr6es binaires pouvant ~ventuellement ~tre les poids atteignent au bout d'un temps fini une
arrang6 sous une forme bidimensionnelle, ii) d ' u n configuration telle qu'5. toute entr6e on fait corres-
pondre la sortie correcte. Si les exemples de la base
~ i DELACELLUL~DESORTLEj ne sont pas lin6airement s6parables, alors il y a oscilla-
tion entre plusieurs 6tats.

STM
I ULUS ' ~ - x J
D~ Eh IV.2. Adalines.

Widrow et Hoff publi6rent peu apr6s Rosenblatt,


en 1960 [11], une variante du perceptron suffisamment
FIG. 4. - - Le perceptron de Rosenblatt (perceptron ~tune couche). c616bre pour la citer ici. I1 s'agit de l'adaline (pour
Sont figur6s ici : la r6tine, les pr6dicats (fix6s a priori), chacun adaptative linear neuron). La proc6dure associ6e
op6rant sur un sous-ensemble des points de la r6tine, un neurone est presque celle du perceptron si ce n'est que, m~me
reli6 ~t chaque pr6dicat par une connexion variable soumise si la r6ponse d'une cellule est correcte, les poids sont
5. apprentissage. D'apr~s Minsky et Papert [16].
modifi6s.
The perceptron of Rosenblatt (one layer perceptron). I1 s'agit d'une proc6dure qui minimise l'erreur en
From left to right : the retina, the fixed predicates, and the sortie. C'est une g6n6ralisation performante de la
true neuron with trainable weights. Adapted from Minsky and
Papers [16]. r6gle du perceptron qui a 6t6 utilis6e par de nombreux

5/11 ANN. TF.Lr~COMMUN.,44, n ~ 5-6, 1989


336 D. Y. M. COLLOBERT. -- CONNEXIONNISME, RECONNAISSANCE DES FORMES

auteurs : Kohonen [12], Amari [13], Sutton et Barto pour un perceptron h une couche de r6aliser la fonction
[14]. Elle op6re mSme si les vecteurs d'entr6e ne sont << o u exclusif>> (XOR). Cette impossibilit6 est r6dhibi-
pas orthogonaux rnais seulement lin6airement ind6- toire car on sait que toute expression logique peut se
pendants (au sens de l'alg6bre). Dans ce cas, ~t la fin mettre sous la forme d'une succession de XOR.
de l'apprentissage, les motifs de sorties restitu6s Que faut-il alors pour g6n6raliser le perceptron ?
par le r6seau sont exactement ceux d6sir6s. Pour r6pondre h cette question, remarquons tout
Dans le cas oh les motifs d'entr6e ne sont m~me d ' a b o r d que x x o a y peut s'6crire aussi :
pas lin6airement ind6pendants, la proc6dure de
XXORy ~ (XET(NONy)) OU ( y E T ( N O N X ) ) .
Widrow et H o f f permet de trouver une solution
optimale au sens des moindres carr6s (cf. par exemple On peut ensuite d6montrer facilement que chaque
[15]). conjonction ET, ~nsi que la disjonction ou, peuvent
8tre r6alis6es par un perceptron ~t une couche. I1
semble done indispensable d'avoir recours h un
IV.3. Applications, performances et limitations des
perceptron ~t deux couches, oh la premi6re couche
perceptrons /tune couche et des adalines.
contient deux perceptrons simples r6alisant les deux
I1 y a trois domaines diff6rents oh les perceptrons ET et la deuxi6me couche un perceptron r6alisant
sont utilis6s avec succ6s : le ou. Ceci n'est pas une d6monstration mais le r6sul-
- - Le premier domaine concerne la classification tat est n6anmoins exact (Fig. 5). Et il est possible de
des motifs d'entr6e en classes distinctes mSme quand construire <<h la main )> un perceptron h deux couches
ces motifs sont bruit6s ou perturb6s par un ph6nom6ne qui r6sout le probl6me du o u exclusif.
quelconque. Minsky et Papert, dans leur c616bre ouvrage << Per-
ceptrons >> (1969) [16], sonn6rent le glas des r6seaux
--Le second domaine est celui des m6moires
connexionnistes en faisant une liste des fonctions
associatives ou m6moires adressables par le contenu.
non r6alisables correctement par un perceptron
Ce type de m6moire est utilis6 lorsque le motif d'entr6e
une couche. En plus du o u exclusif, citons le probl6me
est incomplet et que l'on d6sire obtenir le motif
de la d6termination de la parit6 d'une image binaire
complet. Un exemple est la recherche d'une r6f6rence
(nombre de pixels ~t l) ou encore celui de la connexit6.
compl6te d ' u n article pour lequel on ne dispose que
Remarquons n6anmoins que ces probl6mes ne sont
d'informations partielles.
pas insolubles, simplement ils ne peuvent &re r6solus
- - Le dernier domaine est celui de la quantification qu'avec un nombre de pr6dicats qui augmente expo-
vectorielle, technique utilis6e pour transmettre ~ d6bit nentiellement avec la taille de l'image, ce qui n'offre
r6duit des images ou de la parole. guSre qu'un int6r~t th6orique.
Mais les perceptrons ne font que de la classification Minsky et Papert conclurent en affirmant explicite-
lin6aire, c'est-h-dire qu'ils ne peuvent partitionner ment que ces perceptrons ne seraient jamais utilis6s
l'espace des entr6es qu'en deux r6gions de d6cision en IA. I1 faut cependant bien voir que les th6or6mes
s6par6es par un hyperplan (cf. Fig. 5), ce qui est tr6s de limitation ne sont valides que pour les perceptrons
limitatif. L'exemple le plus c616bre est l'impossibilit6 ~t une couche. En particulier, on sait maintenant

types de rdgions probt6me du ctasses /l forms de r d g i o n s


structure de d 6 c i s i o n ou exctusif r6gions mai t t6es Les ptus g6n6rates
une couche
demi-ptan

A
Limit6
par ur
hyperptan

COUCheS
r6gions
convexes
ouvertes
ou fermdes

3 couches

arbitraire

FIG. 5. - R6gions de d6cision obtenues par un classifieur lin6aire (perceptron ~t une couche),
-

un perceptron h deux puis Atrois couches. La fonction non lin6aire utilis6e est Fh. Tir6 de Lippmann et Gold [28].
Decision regions for (from top to bottom) : a linear classifier, a two layered perceptron and a three layered perceptron.
The non-linear function used is Fh.

ANN. T~L~COMMUN., 44, n ~ 5-6, 1989 6/11


D. Y. M. C O L L O B E R T . - CONNEX1ONNISME, R E C O N N A I S S A N C E DES FORMES 337

apprendre la parit6 h un r6seau ~ deux couches n'ayant m6thodes de physique statistique extrSmement 61a-
qu'un nombre restreint de cellules. Et si Minsky et bor6es permettent d'6tudier ces 6tats de basse 6nergie
Papert ne croyaient pas aux perceptrons /t plusieurs h partir de mod61es a priori de l'interaction.
couches, c'est parce qu'ils ne voyaient pas comment Les r6seaux neuroniques s'int6ressent au probl6me
il 6tait possible d'entralner les cellules cach6es, c'est-~- inverse de celui que nous venons de consid6rer :
dire celles qui ne sont ni des entr6es ni des sorties. on se donne a priori une configuration d'un syst6me
Nous verrons un peu plus loin qu'il existe maintenant d'automates et on cherche l'interaction entre auto-
de tels algorithmes. mates qui fair que l'6tat consid6r6 est effectivement
un attracteur de la dynamique du syst6me ; la cor-
respondance est la suivante : neurone = impuret6
magn6tique et coefficient synaptique = interaction
V. LE M O D E L E DE HOPFIELD entre deux impuret6s.
ET SES EXTENSIONS De telles analogies ont 6t6 d6velopp6es en plusieurs
occasions, que ce soit pour l'6tude de probl6mes
I1 y eut peu de progr6s pendant la quinzaine d'an- fondamentaux comme la structure des bassins d'attrac-
n6es qui suivit les travaux de Minsky et Papert. Ce tion, ou appliqu6s, comme dans les mod61es sto-
n'est qu'h partir de 1982 que les 6tudes sur les r6seaux chastiques de reconnaissance des formes (comme la
de neurones reprirent de fa~on explosive, consacrant machine de Boltzmann).
par l~t m~me le terme de << connexionniste >>. En fait, Dans le mod61e de Hopfield (Fig. 6), chaque neurone
ce terme se rapportait aux travaux des pr6curseurs, peut exciter ou inhiber ses voisins (au sens large).
de Ramon y Cajal vers 1900 h Hebb en 1950, et ne Les entr6es sont binaires, chaque neurone effectue
concernait que le cerveau biologique. Strictement une somme pond6r6e de ses entr6es. Dans la version
parlant, il faudrait donc plut6t parler de << ndo- originale, la fonction non lin6aire est Fh.
connexionniste >) pour d6signer les 6tudes d6velopp6es Ce qui fait le succ6s des mod61es de Hopfield c'est
depuis 1980. la possibilit6 de stocker des informations dans des
configurations dont l'6volution dynamique conduit
5. des 6tats stables. Un autre int6r& provient du fait
V.1. ModUles de Hopfield. que les m&hodes de la thermodynamique statistique
s'appliquent h ces mod61es, permettant ainsi une
Curieusement, l'it~pulsion qui donna le signal du 6tude analytique approfondie.
renouveau des r6seaux de neurones provint d'un I1 a 6t6 prouv6 analytiquement que le r6seau de
physicien, Hopfield, qui montra en 1982 [17] l'analogie Hopfield converge spontan6ment vers un 6tat stable
formelle pouvant exister entre des r6seaux de neurones dans le cas off les poids sont sym6triques et la dyna-
5. connexions sym~triques, totalement interconnect6s mique asynchrone (c'est-5_-dire que les neurones sont
avec un objet invent6 r6cemment par les physiciens r6actualis6s les uns apr6s les autres). Hopfield a
et appel6 verre de spin. montr6 qu'en utilisant la r6gle de Hebb pour modifier
Les verres de spin, 6tudi6s intensivement depuis les poids synaptiques, le r6seau pouvait converger
1975, sont des mat6riaux magn6tiques n'ayant pas vers un 6tat stable appel6 attracteur.
de magn6tisme global. Constitu6s d'un m61ange Le r6seau se comporte comme une m6moire asso-
al6atoire d'atomes ferromagn6tiques et d'atomes ciative mais ses performances sont mauvaises en ce
antiferromagn6tiques, leur int6rSt provient du fait qui concerne le nombre de motifs stock6s.
qu'ils poss6dent un grand hombre d'6tats stables
diff~rents.

I
Plus pr6cis6ment, un verre de spin est un milieu

o!1
conducteur contenant des impuret6s magn6tiques
r6parties al6atoirement ; ces impuret6s interagissent
2 >
entre elles par l'interm6diaire des 61ectrons de con-
duction, l'6nergie d'interaction 6tant une fonction
oscillante et d6croissante de la distance [17].
_1 -3 2 :t )-

Ces deux propri6t6s font qu'il est impossible de -3


minimiser simultan6ment l'6nergie d'interaction de
toutes les paires de spins : le couplage est, al6atoire- -5 _1 t.1
ment, de type ferro ou antiferromagn6tique ; cette O >

impossibilit6, appel6e frustration, conduit h des


propri6t6s physiques 6tonnantes, non enti6rement FIG. 6. -- Mod61e de Hopfield h connexions sym6triques.
61ucid6es h ce jour (brisure d'ergodicit6...). Un trait Les sorties sont reboucl6es sur les entr6es. La fonction non
saillant de ces syst6mes, et dont rendent compte les lin6aire utilis6e est Fh dans la version originale. La diagonale
mod+les les plus simples, est qu'il existe un tr6s grand est nulle.
nombre de configurations du syst6me, d'6nergies HopfieM neural net with symetrical connections.
In the original work Fh is used. Notice that the diagonal weights
tr6s voisines, proches de l'6nergie minimale. Des are zero.

7/11 ANN. TI~LI~COMMUN.,44, n~ 5-6, 1989


338 D.Y.M. COLLOBERT. - CONNEXIONNISME, RECONNAISSANCE DES FORMES

II faut noter que la r6gle de Hebb est locale, le Ces possibilit6s de calcul proviennent du fait que,
poids w~j d'une connexion est d6termin6 uniquement dans ces mod61es, il apparait une fonction 6nergie
par les 6tats St et Sj des neurones i e t j (Fig. 3). Dans qui, par d6finition, d6crolt lors de l'6volution dyna-
le mod61e de Hopfield, ce poids est 6gal au produit mique du r6seau. En effet, ces syst6mes sont dissipatifs
S i S j moyenn6 sur t o u s l e s motifs. sinon ils ne pourraient converger vers un 6tat stable,
Notons 6galement que ce mod61e ne 16ve pas les appel6 p o i n t mdmoire. L'6nergie s'6crit :
limitations intrins6ques aux classifieurs lin6aires.
E : --~ Si S j ~2ij , S i , j : Jr 1.
Une autre limitation du mod61e provient du fait ij
que l'utilisation de la r6gle de Hebb engendre des
attracteurs non d6sir6s vers lesquels le r6seau con- Si nous consid6rons une cellule particuli~re i, la
vergera pour certaines conditions initiales. diff6rence d'6nergie du r6seau, selon que cette cellule
est /~ t'6tat 0 ou 1, est :

V.2. Extension du mod61e de Hopfield. AEi : Z Sj w U .


J

Beaucoup de mod61es actuellement /~ l'6tude cher- Si, apr6s calcul, on trouve que cette diff6rence
chent ~ supprimer ces 6tats ind6sirables de la dyna- d'6nergie est positive, alors la cellule i doit passer
mique du r6seau. Ils peuvent d6passer la limitation l'6tat 1 (ou rester A l'6tat 1) pour minimiser l'6nergie
des motifs orthogonaux. Au lieu d'utiliser une r6gle globale.
locale comme celle de Hebb, ils utilisent des r6gles En it6rant le processus un grand nombre de lois,
globales par exemple celle de la << pseudo inverse >> l'6nergie ne varie plus, le r6seau se trouve dans un
[18, 19] qui permettent de stocker des motifs corr616s. 6tat stationnaire qui minimise l'6nergie, cet 6tat
D'autres am61iorations sont apparues, notamment repr6sente g6n6ralement la solution du probl6me, ou
celle due ~. Sompolinsky [20], qui permet de construire au moins une solution approch6e.
des r6seaux dont les connexions ne sont pas sym6- Un autre int6rSt de ce mod61e est qu'il a 6t6 effecti-
triques. Nous renvoyons le lecteur int6ress6 vers la vement r6alis6 en 61ectronique, A l'aide d'amplifi-
bibliographie correspondante. cateurs op6rationnels coupl6s par des r6sistances,
pour r6soudre des probl6mes d'affectation et qu'il
V.3. Calculer avec les r6seaux de Hopfield. fonctionne avec des temps de convergence extr~me-
ment rapides (quelques $s) [22].
Hopfield et T a n k [21] ont montr6 que certains
r6seaux sont capables de r6soudre des probl6mes
d'optimisation avec contraintes, en particulier le
c616bre probl6me du ~< voyageur de commerce >> of~
VI. PERCEPTRONS
il s'agit de minimiser le trajet reliant un certain nombrc
A PLUSIEURS COUCHES
de villes.
La figure 7c montre le r6sultat obtenu par un r6seau
de Hopfield comportant 30 neurones. On y voit
que si celui-ci ne trouve pas le meilleur trajet, la VI.1. Classification et apprentissage.
solution donn6e est n6anmoins comparable ~t celle
Nous avons vu pr6c6demment qu'il existait des
trouv6e par la m6thode de Kernighan-Lin, une des
th6or6mes de limitation confinant l'utilisation des
meilleures proc6dures actuelles pour ce type de
perceptrons h une couche b~ des probl6mes lin6aire-
probl6me et qui donne la bonne solution. L'avantage
ment s6parables. Bien 6videmment, ces th6or6mes
du r6seau est sa rapidit6.
ne s'appliquent pas ~t des perceptrons h deux couches
ou plus, o~ il existe plusieurs 6tages de pr6dicats
(0) (b) (c)
1[_ D=tt,9
entre la r6tine et la sortie. Bien plus, il existe un th6o-
r6me, dfi h Kolmogoroff [23], qui stipule que toute
fonction vectorielle de N variables est calculable
o,6
0,4
avec un perceptron ~t deux couches, qui utilise N
O~ neurones analogiques dans la premi6re couche,
I I I I I I
N + 1 dans la deuxi6me, ainsi que la fonction non
0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0~6 0~8 ~ lin6aire Fs. Malheureusement le th6or6me ne dit
FIG. 7. - - Le probl/~me du voyageur de commerce rien sur la topologie et les poids, ni sur la forme
trait6 pour 30 villes. exacte que doit avoir la non-lin6arit6.
D repr6sente la longueur du trajet : I1 est possible de faire une d6monstration intuitive
a) trajet al6atoire, du th6or6me de Kolmogoroff en utilisant des neurones
b) trajet trouv6 par la m6thode de Lin-Kernighan,
c) trajet trouv6 par un r6seau de 30 neurones. binaires et une fonction Fh.
Tir6 de Hopfield et Tank [21]. Nous avons vu q u ' u n perceptron ~t une couche
s6pare par un hyperplan l'espace des entr6es en deux
The traveller salesman problem for 30 towns.
D is the total length of the tour. sous-espaces de d6cision. Un perceptron h deux

ANN. TI~L~COMMUN.,44, n ~ 5-6, 1989 8/11


D. Y. M. COLLOBERT. - CONNEXIONNISME~ RECONNAISSANCE DES FORMES 339

couches d6coupe dans cet espace une r6gion convexe, efficaces dans beaucoup d'applications, notamment
ferm6e ou ouverte. I1 peut alors r6soudre le ou exclu- en reconnaissance de la parole ; nous en donnerons
sif. Nous allons montrer qu'un perceptron ~t trois deux exemples ci-dessous :
couches peut former une zone de d6cision arbitraire-
ment complexe (Fig. 5).
En effet, dans l'espace des entr6es ~t N dimensions, VI.2. D e u x exemples.
un hypercube de dimension N n6cessite 2 N neurones
VI.2.1. NET-TALK OU conversion graph~me phoneme.
dans la premiere couche, un neurone pour chacun
des c6t6s de l'hypercube. I1 faudra aussi une cellule Cr66e par Sejnowski et Rosenberg, il s'agit d'une
dans la deuxi~me couche qui fera le ET des cellules machine ~t deux couches cach6es dont la base d'appren-
de la premiere couche. Ainsi les sorties des cellules tissage est repr6sent6e par un codage binaire des
de la deuxi~me couche seront 5. l'6tat haut seulement lettres pr6sentes dans une fen&re de 7 lettres. Cette
lorsque le point figuratif des entr6es sera ~ l'int6rieur fen6tre glisse sur un texte qui comporte 1 024 mots
de l'hypercube. En associant autant d'hypercubes dans l'ensemble d'apprentissage, la sortie d6sir6e
qu'il est n6cessaire pour d6crire toute la surface est un code binaire indiquant les caract6ristiques
d6sir6e et en faisant un ou fl partir de ces cellules phon6tiques de la lettre pr6sente au centre de la fen~tre
(3 ~ couche), on coupe le plan des entr6es par une (plosive, etc.). II y a 120 unit6s cach6es et 20 000 poids.
surface de forme quelconque. La sortie du r6seau est coupl6e 5. un synth6tiseur de
Le probl~me de l'entrMnement des cellules des parole.
couches cach6es revient ~ d6signer le principal respon- Apr6s apprentissage par r6tropropagation de gra-
sable d'une erreur qui s'est propag6e de faqon non dient, qui consiste h pr6senter 50 000 lois tout
lin6aire et irr6versible dans un canal d'information. l'ensemble d'apprentissage, le r6seau est capable de
Ce probl~me, le << credit assignment problem >~ (que lire ?t haute voix. II fait 5 % d'erreur sur la base
Le Cun propose de traduire par problkme du bouc d'apprentissage et 22 % sur un autre ensemble non
Omissaire) est rests ouvert jusqu'h ce que tr6s r6cem- utilis6 lors de l'apprentissage.
ment Le Cun [24], Parker [25] et Rumelhart [26] En utilisant des syst6mes bas6s sur l'utilisation de
proposent ind6pendamment des algorithmes efficaces. r6gles, on pourrait vraisemblablement obtenir de
Ces algorithmes sont bas6s sur une g6n6ralisation meilleures performances. Le fait remarquable ici
de la proc6dure de Widrow et Hoff qui stipule, rappe- est que NET-IALK extrait des r6gularit6s, par exemple
lons-le, que les poids doivent 6voluer de faq:on ~. l'effet d'une lettre terminale sur la prononciation de
minimiser l'erreur en sortie, c'est-~-dire la diff6rence la suivante, et qu'il apprend aussi les exceptions.
entre la sortie d6sir6e et la sortie effective d'une cellule
donn6e. VI.2.2. Reconnaissance de ia parole multilocuteurs.
On consid~rera uniquement des r6seaux que l'on De Mori et Bengio, de l'universit6 McGill ~ Mont-
peut mettre en couches successives, chaque cellule r6al, utilisent un perceptron A trois couches pour effec-
d'une couche donn6e ne faisant de connexions qu'avec tuer une reconnaissance de la parole (*). L'entr6e
des cellules de la couche imm6diatement sup6rieure. est l'image, bidimensionnelle, d'un spectrogramme
I1 n'y a pas de liaison intracouche. Les neurones acoustique. L'abscisse correspond au temps, l'ordon-
sont analogiques, la non-lin6arit6 est E, (Fig. 1). n6e aux fr6quences qui apparaissent aux diff6rents
La proc6dure d'apprentissage s'effectue en trois instants.
6tapes : L'architecture du r6seau est particuli~re. Chaque
i) dans la premi6re 6tape le signal d'entr6e se pro- couche cach6e est partitionn6e en 5 groupes fonction-
page h travers les diff6rentes couches vers la sortie ; nant ind6pendamment les uns des autres. La premiere
ii) une fois cette 6tape termin6e, les 6tats des cellules couche cach6e comprend ainsi 5 • 20 cellules, la
de sortie sont not6s et compar6s aux 6tats d6sir6s deuxi6me 5 • 10 cellules. L'image d'entr6e est cod6e
correspondants. On obtient ainsi l'erreur en sortie ; sur plusieurs bits et comporte environ 100 pixels.
iii) l'erreur de sortie est r6tropropag6e sur les La sortie est une description phon6tique de l'entr6e,
cellules des couches ant6rieures (plus pr6cis6ment sur cod6e de faqon redondante sur 10 bits. I1 y a donc
leurs connexions amont) en utilisant une r~gle qui environ l0 000 connexions.
la minimise. I1 s'agit d'une g6n6ralisation de la proc6- L'efficacit6 du r6seau sur des segments de parole
dure de Widrow et Hoff, ofa le crit6re ~_ minimiser isol6s est de 95 %, sup6rieure aux meilleurs algorithmes
est en fait le carr6 de l'erreur. La proc6dure fair actuels qui font intervenir des chaines de Markov
intervenir le gradient de ce crit~re, d'o~t le nom de cach6es [27].
<< r6tropropagation de gradient )> qui lui est donn6. I1 est surprenant que dans ces deux exemples les
performances soient aussi bonnes car ce que l'on doit
Le signal d'erreur est ainsi propag6 de la sortie obtenir avec la proc6dure d'apprentissage n'est en
vers l'entr6e jusqu'h la deuxi6me couche. Puis on toute rigueur qu'un minimum local de la fonction
r6it6re le processus ~ partir de la premiere 6tape.
I1 n'existe pas de th6or~me de convergence pour
de telles proc6dures mais n6anmoins celles-ci sont (*) DE MORI (R.), BENGIO(Y.). CAN communication priv6e.

9/11 ANN. T~L~COMMUN.,44, n ~ 5-6, 1989


340 D.Y.M. COLLOBERT. - CONNEXIONNISME, R E C O N N A I S S A N C E DES FORMES

de cofit et non un minimum global. En fait, dans toutes int6gr6es sur silicium. Elles sont surtout le fait de
les exp6riences r6alis6es, il semble qu'il y ait plus de grandes soci6t6s nord-am6ricaines (soit de grandes
connexions qu'il n'est n6cessaire pour r6soudre le soci6t6s : AT&T Holmdel, Bendix, Hughes, IBM,
probl6me. Ces connexions suppl6mentaires creusent Texas, TRW; soit de jeunes entreprises (start up)
des vall6es suppl6mentaires dans l'espace repr6sentant Hecht-Nielsen Neurocomputer Corp., Nestor Inc.,
le cofit (fonction des poids), ce qui permet, lors du Neural Tech Inc., Neuralware, Synaptics Inc.) ou
processus de descente de gradient dans cet espace, de encore d'universit6s comme celles de San Diego,
s'6chapper d'un minimum local. de Boston ou de Brown.
Toutes les r6alisations mat6rielles ont le silicium
monocristallin comme support, le nombre de neurones
VI.3. Critiques et perspectives des perceptrons /t y est faible, de l'ordre de quelques dizaines. En utilisant
plusieurs couches. cette technologie, il semble peu probable que le nombre
de neurones puisse facilement croltre de plusieurs
La critique essentielle provient de la dur6e d'appren- ordres de grandeur dans un avenir proche ; et pourtant
tissage. I1 est en effet ndcessaire, m~me pour un pro- la puissance des r6seaux de neurones est li6e ~t la
bl6me simple, de faire des milliers d'it6rations pour grande densit6 d'interconnexion...
converger vers la solution, ce qui conduit ~t des temps
En revanche, remarquons que, le photon 6tant un
de calculs longs, m~me pour des supercalculateurs.
boson, il est possible d'en mettre plusieurs au m~me
Cette lenteur a deux causes essentielles :
endroit au m~me instant, alors que ce n'est pas vrai
i) Les r6seaux construits sont des grands r6seaux pour l'61ectron, un fermion. On peut alors penser
homog6nes. Le nombre de poids y est sans doute que les r6seaux de neurones du futur feront intervenir
trop 61ev6 ; il peut ~tre int6ressant de partitionner l'optique dans leur r6alisation. Nous croyons beau-
ces r6seaux en plusieurs modules comme Font fait coup ~ cette possibilit6, ~. tout le moins pour les
De Mori et Bengio et de faire travailler ceux-ci sur connexions, en attendant le d6veloppement des mat6-
des r6gions particuli6res de l'image d'entr6e, ce qui riaux optiques non lin6aires. Des 6tudes en ce sens
revient ~t mettre de la connaissance a priori dans le sont en cours, rant en France qu'~t l'6tranger.
r6seau pour pouvoir traiter efficacement un probl6me Un programme europ6en existe d'ailleurs sur ce
donn6. sujet depuis novembre 87 : Brain (basic research in
ii) On a vu que les minimums locaux ne posaient adaptative intelligence and neurocomputing). Son
pas un vrai probl6me. Le probl6me de convergence objectif affich6 est de ~ mieux comprendre le cerveau
provient du fait que l'on a, h chaque instant, un seul et de concevoir des machines capables d'imiter cer-
point dans l'espace des poids ; or cet espace comporte taines de ses fonctions >>.
des ravins ayant des rayons de courbure grands et En France, le club ~ optique dans l'ordinateur>>
petits, obligeant /t choisir un pas de calcul tel que, plac6 sous la double 6gide de la SEE et de la soci6t6
lors de la convergence, le point figuratif de l'6tat franqaise d'optique, comporte plus d'une dizaine
du r6seau reste dans le ravin de plus petit rayon de d'6quipes. Les T616coms, par I'ENST OU le CNET(centres
courbure, sinon il y a apparition d'oscillations. Mais de Lannion et de Paris), y ont une part active.
lorsque le point figuratif se d6place dans une zone de
grand rayon de courbure, un petit pas de calcul est
un gaspillage de temps... II faudrait pouvoir disposer
d'une repr6sentation globale de l'espace des poids VIII. CONCLUSION
pour choisir une strat6gie meilleure que la r6tro-
propagation de gradient.
Un dernier reproche fait aux r6seaux multi couches Ce bref aper9u de la galaxie neuronique a permis
est que la repr6sentation interne qui s'est construite de voir le gouffre qui s6pare les r6seaux de neurones
lors de l'apprentissage est, dans le meilleur des cas, artificiels de leur mod61e biologique, le cerveau, mSme
difficilement interpr6table. II s'av~re g6n6ralement s'ils sont capables comme lui d'enc0der de mani6re
impossible ~ l'expert humain de savoir quelle d6marche r6partie une description implicite de ph6nom6nes
a suivi le r6seau pour arriver h u n certain r6sultat. complexes.
Situation frustrante mais stimulante pour l'homme, Les succ6s d'ores et d6j5. obtenus par ces r6seaux
qui r6ussit ainsi ~t construire une machine efficace font que l'on risque d'attendre d'eux plus qu'ils ne
qu'il ne peut plus comprendre. sont capables de donner.
En effet, les concepts utilis6s dans les r6seaux de
neurones sont fondamentalement tr6s simples, mais
leur mise en oeuvre, que ce soit au moyen de logiciels
VII. RI~ALISATIONS EN COURS
ou de mat6riels reste souvent d61icate, voire difficile.
D6jS. des limitations apparaissent, notamment en ce
I1 existe un certain hombre de simulateurs de r6seaux qui concerne les dur6es d'apprentissage.
de neurones (des logiciels) mais aussi des r6alisations Pourtant il semble bien que ces r6seaux soient

ANN. T~LI~COMMUN.,44, n ~ 5-6, 1989 10/11


D. Y. M. COLLOBERT. -- CONNEXtONNISME, RECONNAISSANCE DES FORMES 341

c a p a b l e s de t r a i t e r des p r o b l 6 m e s p o u r lesquels u n e T o u j o u r s est-il q u e les p u i s s a n c e s de calcul o b t e n u e s


d e s c r i p t i o n s y m b o l i q u e des s o l u t i o n s n ' e x i s t e pas, p a r ces r6seaux o n t s u f f i s a m m e n t m o t i v 6 p l u s d ' u n e
et cela sans d o u t e parce q u ' i l s s ' i n s p i r e n t d u syst6me d i z a i n e de soci6t6s p o u r q u ' e l l e s se l a n c e n t d a n s la
nerveux biologique. r 6 a l i s a t i o n de puces neuroniques. Elles s e r o n t s u r le
Peut-~tre sera-t-il d o n c n6cessaire, p o u r r e p r o d u i r e m a r c h 6 d a n s u n a v e n i r tr6s p r o c h e , et le c o n c e p t e u r
les processus de c o g n i t i o n , de s ' i n s p i r e r plus fid61ement de logiciels o u de mat6riels d e v r a e n t e n i r c o m p t e .
de l ' a r c h i t e c t u r e b i o l o g i q u e . M a i s j u s q u ' & quel p o i n t
faudra-t-il copier ? Manuscrit recu le 22 novembre 1988.

BIBLIOGRAPHIE

[1] FELDMAN(J. A.). Dynamic connections in neural networks. [19] KANTER (|.), SOMPOLINSKY (H.). Associative recall of
Biol. Cybern. D. (1982), 46, pp. 27-39. memory without errors. Phys. Rev. A, USA (1987), 35,
[2] *** Encyclopaedia Universalis, Fr (1979), 11, pp. 702-709. pp. 380-392.
[3] *** Encyclopaedia Universalis, Fr (1979), 8, pp. 317-318. [20] SOMPOLINSKY (H.). Neural networks with nonlinear
[4] McCULLOCH (W. S.), PITTS (W. H.). A logical calculus synapses and a static noise. Phys. Rev. A, USA (1986),
of the ideas immanent in nervous activity. Bull. Math. 34, pp. 2571-2574.
Biophysics, USA (1943), 5, pp. 115-133. [21] HOPEIELD (J. J.), TANK (D. W.). t< Neural >> computation
[5] VON NEUMAN (J.). Probabilistic logics and the synthetisis of decisions in optimization problems. Biolog. Cybern.,
of reliable organisms from unreliable componants. In D (1985), 52, pp. 141-152.
Automata Studies Princeton University Press, USA (1956). [22] HOPFIELD (J. J.), TANK (D. W.). Les r6seaux de neurones
[6] WINOGRAD (S.), COWAN (J. D.). Reliable computation formels. Pour la Science, Fr (f6v. 1988), pp. 80-89.
in the presence of noise. Cambridge Press University, USA [23] KOLMOGOROFF(A. N.). On the representation of continuous
(1963). functions of many variables by superposition of continuous
[7] HEBB (D. O.). The organisation of behavior. John Wiley, functions of one variable and addition. Dokl. Akad. Nauk
USA (1949). USSR, AMS, Trans., USA (1957), 114, pp. 953-956.
[8] ROSENBLATT (F.). The perceptron, a probabilistic model [24] LE CUN (Y.). A learning scheme for asymetric threshold
for information storage and organisation in the brain. networks. Proceedings Cognitiva Paris, CESTA-AFCET,
Psychoanalytic Rev., USA (1958), 65, pp. 386-408. Fr (1985), pp. 599-604.
[9] ROSENBLATT (F.). On the convergence of reinforcement [25] PARKER (D. B.). Learning logic. Center for computation
procedure in simple perceptrons. Cornell Aeronautical research in economics and management science, USA (1985),
Lab Report, USA (f6v. 1960). TR-47.
[10] KOHONEN (T.). Self organization and ar~ociative memory. [26] RUMELHART(D.), HINTON (G.), WILLIAMS(R.). Learning
Springer Verlag, D. (1984), p. 69. internal representation by error propagation in parallel
[ll] WIDROW (B.), HOVE Jr (M. E.). Adaptative switching distributed processing. MIT Press, USA (1986).
circuits. Institute of Radio Engineers, Western Electric [27] PORITZ (R. B.). Hidden Markov models : a guided tour.
Show and convention, Conventional Record (1960), 4, International Conf. on acoustics, speech and signal processing
pp. 96-104. IEEE ed., USA (avr. 1988), 1, pp. 7-13.
[12] KOHONEN(T.). An adaptative associative memory principle. [28] LIPPMANN (R. P.), GOLD (B.). Neural-net classifiers useful
IEEE Trans. C., USA (juil. 1974), C23,pp. 444-445. for speech recognition. 1st International Conf. on neural
[13] AMARI (S. I.). Neural theory of association and concept networks, San Diego, IEEE ed., USA (juin 1987), IV,
formalism. Biolog. Cybern., D (1977), 26, pp. 175-185. pp. 417-425.
[14] SUTTON(R. S.), BARTO (A. G.). Toward a modern theory
of adaptation networks : expectation and prediction.
Psychol. Rev., USA (1981), 88, pp. 135-171. BIOGRAPHIES
[15] WIDROW (B.), STEARNS(S. D.). Adaptative signal process-
ing. Prentice Hall, USA (1985).
Daniel Y. M. COLLOBERT, n6 le 21 novembre 1947. Docteur
[16] MINSKY (M.), PAPERT (S.). Perceptrons. MIT Press, USA d'6tat ~s-Sciences physiques (Orsay, 1982). Actuellement
(1969). animateur du groupe ~< R6seaux neuroniques appliqu6s A
[17] HOPFIELD (J. J.). Neural networks and physical systems l'imagerie >>au service Optique et technologies des composants
with emergent collective computational abilities. Proc. et mat6riaux du CNET.
Nat. Acad. Sc., USA (1982), 79, pp. 2554-2558. Alain D. MARUANI,n6 le 15 mai 1946. Docteur d'6tat 6s-Sciences
[18] PERSONNAZ (L.), GUYON (I.), DREYFUS (G.). Information physiques (Paris VII, 1981). Professeur /t T616com Paris
storage and retrieval in spin-like neural networks. Journal et au DEA de micro61ectronique et microinformatique de Paris
Phys. Lett., Fr (1985), 46, pp. L-359-365. VI - Paris VII.

11/11 ANN. T~LI~COMMUN.,44, n ~ 5-6, 1989

Вам также может понравиться