L'apprentissage Automatique - Préface

Manuscrit auteur, publi dans "Traitement Automatique des Langues 50, 3 (2009) 7-21"
Prface
1. Introduction Lapprentissage automatique (ou apprentissage artificiel) est, suivant la dfinition de Tom Mitchell dans (Mitchell, 1997), ltude des algorithmes qui permettent au programmes de samliorer automatiquement par e prience! Le domaine a connu ces derni"res annes un dveloppement considra#le, et ses interactions avec le T$L sont de plus en plus troites et frquentes, comme lillustre par e emple (Manning et %ch&t'e, 1999)! (u c)t des linguistes, les intr*ts pratiques de ce rapprochement sont nom#reu ! +n effet, la constitution manuelle de ressources spcifiques , une langue donne est une t-che longue et fastidieuse, qui doit *tre recommence pour chaque langue diffrente, et pour chaque sous.domaine spcifique dune langue! / condition de disposer de donnes initiales suffisantes et adaptes, lapprentissage automatique offre une alternative sduisante! 0l permet do#tenir ou damliorer , moindres frais des ressources, et de sassurer quelles sont ro#ustes et , large couverture! La dmarche inductive, emplo1e depuis longtemps en linguistique de corpus, peut ainsi *tre oprationnalise , grande chelle, et son efficacit value de fa2on s1stmatique! (ans sa composante plus thorique, lapprentissage automatique contri#ue aussi, via certains rsultats dapprena#ilit de classes de grammaires formelles, au d#ats sur lacquisition des langues rcurrents depuis les annes 34! (e leur c)t, les spcialistes de lapprentissage automatique voient dans le T$L un domaine dapplication privilgi, pourvo1eur potentiel de pro#l"mes difficiles et de grandes quantits de donnes! La fouille de te tes a ainsi t , lorigine dinnovations conceptuelles importantes ces derni"res annes! Mais la prudence est souvent de mise quant , linterprta#ilit des rsultats o#tenus! Les mthodes emplo1es sont de plus en plus fondes sur des mathmatiques raf5nes, apparemment rserves au spcialistes! (ans ce conte te, la linguistique a.t.elle encore son mot , dire 6 7omment com#iner des connaissances linguistiques d8, acquises avec des programmes dapprentissage automatique 6 9uand #ien m*me il peut les interprter, quelle confiance un linguiste peut.il accorder au rsultats de ces programmes 6 7est pour affronter ce questionnement contemporain que la revue T$L a dcid de consacrer un numro au relations entre apprentissage automatique et traitement automatique des langues (TAL), particuli"rement quand ils sintressent tous les
inria-00514535, version 1 - 2 Sep 2010
TAL. Volume 50 n 3/2009
deu au te tes! %i articles (parmi quator'e soumis), tr"s reprsentatifs des diffrentes tendances actuelles, ont t slectionns! Mais, avant de prsenter leur contenu, il nous a sem#l utile de faire un petit dtour historique et rfle if pour comprendre les liens quentretiennent depuis leurs origines lapprentissage automatique et le T$L! La premi"re partie de cette introduction est donc consacre , un survol historique comparatif des deu disciplines! +lle se focalise toutefois prioritairement sur lapprentissage automatique, suppos moins familier au lecteurs de la revue! (ans un deu i"me temps, nous a#orderons les pro#lmatiques des travau contemporains, qui renouvellent compl"tement les relations entre les deu domaines! 0l ne restera plus qu, conclure en laissant la place au contri#utions slectionnes! 2. Une brve histoire de lapprentissage automatique et du T !
Lapprentissage automatique et le T$L partagent le pro8et de doter les machines de certaines capacits humaines volues! +n ce sens, ils sont tous les deu les hritiers plus ou moins directs de lintelligence artificielle! 7ela fait ainsi pr"s de :4 ans que les deu domaines coha#itent au sein dune m*me communaut de recherche! ;ous verrons pourtant que, malgr cette filiation commune, ils ont longtemps suivi des chemins parall"les avant de commencer , colla#orer de mani"re fructueuse, depuis une vingtaine dannes! <our ce rapide et lg"rement acro#atique survol historique, nous nous appuierons notamment sur (7revier, 1999) et (7ornu8ols et Miclet, =44=)!
2.1. Les intuitions fondatrices Le langage et lapprentissage sont des capacits fondamentales des *tres humains, et ont dailleurs t identifis comme telles d"s les tout premiers pro8ets de construction dune > machine intelligente ?! Larticle programmatique fondateur de lintelligence artificielle, le fameu Computing Machinery and Intelligence d$lan Turing (Turing, 1934), les voque tous les deu de mani"re plus ou moins indirecte! 0l commence par introduire le > 8eu de limitation ? qui sera plus tard reformul en > test de Turing ?, et que lon pourrait rsumer ainsi @ un agent artificiel pourra *tre considr comme intelligent sil est indiscerna#le dun *tre humain lors dune interaction langagi"re , distance! Aien que Turing ne le dise pas e plicitement, et ne sem#le pas 1 accorder #eaucoup dimportance, ce test donne au langage naturel un statut particulier @ cest un peu plus que le vhicule de la pense, cest en quelque sorte son symptme, sa manifestation la plus incontesta#le! <lus intressant encore, et rarement rappel @ dans le m*me article, apr"s avoir pass en revue les mauvaises raisons de ne pas croire , le istence possi#le dune machine intelligente, Turing sattaque , la difficult pro#a#le de la programmer! 0l se lance alors dans un plaido1er en faveur dune > machine.enfant ? dont la comptence principale serait d*tre capa#le dapprendre, et quil suffirait donc dduquer correctement pour
<rface
quelle atteigne, voire dpasse, les performances des adultes humains! La toute 5n du te te (qui mrite dcidment d*tre rguli"rement relu) voque m*me #ri"vement le langage comme un des premiers domaines qui pourraient lui *tre enseigns! Les chercheurs en intelligence artificielle nont cess de rinventer ce r*ve, sous diffrentes formes! La caractrisation du principe dinduction, en vertu duquel on peut infrer des r"gles gnrales , partir de emples particuliers, est un pro#l"me qui mo#ilise les philosophes depuis au moins Bume, via notamment <opper! La formalisation des pro#a#ilits par Colmogorov, dans les annes 19D4, est ne aussi de cet effort, tandis que les travau de %hannon permettent, lors de la dcennie suivante, de mesurer la quantit dinformation dun message! Mais lhistoire de lapprentissage automatique proprement dit commence sans doute avec Mc7ulloch et <itts qui introduisent, en 19ED, un mod"le formel lmentaire du fonctionnement des neurones , #ase de > rtroaction ? (Mc7ulloch et <itts, 19ED)! 7ette intuition inspire aussi les pionniers dune > science c1#erntique ? qui, , linstar de ;or#ert Fiener, tentent dans les annes 34 de construire des animau artificiels dous de capacits dapprentissage par essaisGerreurs! La ps1chologie de cette priode, domine par le #ehaviorisme et lapprentissage par renforcement, va dans le m*me sens! 7est aussi , la m*me poque qu$rthur %amuel, , 0AM, dveloppe un programme de 8eu de dames amricain dont la fonction dvaluation samliore par la pratique!
2.2. Les dbuts incertains Les annes :4 sont une priode de rationalisation et de remise en question! +lles voient merger , la fois les premiers mod"les thoriques de lapprentissage automatique et les premiers rsultats qui montrent leurs limites! $insi, apr"s avoir t promu par Hosen#latt, le mod"le des perceptrons, anc*tre des rseau de neurones artificiels, est sv"rement critiqu par MinsI1 et <apert dans un livre (MinsI1 et <apert, 19:9) qui entraJne un arr*t de 13 ans des recherches sur le su8et! (e son c)t, en posant les #ases des > pro#a#ilits algorithmiques ? et de l> infrence inductive ?, %olomonoff contri#ue , formaliser les conditions de lapprentissage (%olomonoff, 19:E)! 7et o#8ectif est aussi celui de Kold, qui propose de modliser lacquisition de leur langue maternelle par les enfants via la notion dapprena#ilit > , la limite ? de classes de grammaires (Kold, 19:7)! Lintr*t de cette formalisation est apparemment attnu par les rsultats ngatifs qui laccompagnent @ dans le mod"le de Kold, aucune des classes de grammaires de la hirarchie de 7homsI1.%ch&t'en#erger nest apprena#le par e emples positifs seuls, cest.,.dire , partir de emples de phrases s1nta iquement correctes dune langue quelconque! 7e rsultat corro#ore, en quelque sorte, les prises de position de 7homsI1 lui. m*me qui, , la m*me poque, sattaque de front au #ehaviorisme! %il na 8amais travaill sur lapprentissage automatique proprement dit, on lui doit largument de la
10
> pauvret du stimulus ?, selon lequel les enfants seraient e poss , de #ien fai#les donnes, en regard des remarqua#les capacits langagi"res quils acqui"rent en un temps record! 7ela 8ustifie, , ses 1eu , le istence dune > capacit de langage ? inne et spcifique , lesp"ce humaine (7homsI1, 19L4 M <iatelli.<almarini, 1979)! 7et argument a le mrite de mettre laccent sur la comple it de la t-che dacquisition dune langue naturelle, qui avait t largement sous.estime par les tenants de lapprentissage par renforcement! M*me sil est au8ourdhui contest (<ullum, =44=), il a souvent t repris par des praticiens de lapprentissage automatique, pour 8ustifier des biais ou connaissances a priori quils intgraient , leurs programmes! La statistique te tuelle se dveloppe d"s les annes :4.74 (Aen'ecri, 19L=)! Mais la communaut de recherche qui se constitue alors (encore reprsente de nos 8ours par les confrences N$(T) ninteragit pas vraiment avec les thoriciens de lapprentissage automatique ni avec les linguistes de la tradition chomsI1enne! Le traitement de la parole (dans la ligne de laquelle se dvelopperont les confrences N+<) commence aussi tr"s t)t , faire appel , des > mod"les de langues ? promis , un certain avenir! Mais, de mani"re gnrale, les annes 74 sont marques en intelligence artificielle par la prdominance des mod"les s1m#oliques de reprsentation des connaissances! 7est aussi le cas en linguistique formelle, que ce soit pour le pression de la s1nta e (formalismes LOK, B<%K, grammaires catgorielles, T$K, etc!), de la smantique (rseau smantiques, formalismes de %chanI, rames de MinsI1, graphes conceptuels de %oPa, etc!), ou de leurs relations (Finograd, Montague, etc!)! +t cest vrai galement en apprentissage automatique s1m#olique oQ les travau pionniers ne manquent pas! Les plus connus sont $H7B, de Filson, qui apprend , reconnaJtre les empilements de #locs qui constituent une > arche ?, les programmes de dcouvertes mathmatiques $M puis +RH0%CS de Lenat, ou encore M+T$.(+;(H$L de Mitchell, ddi , lacquisition de r"gles pour un s1st"me e pert! Mais ces avances, , #ase dheuristiques, sont plus empiriques que conceptuelles! +t les programmes con2us sont tou8ours tr"s spcifiques des domaines sur lesquels ils visent , acqurir des connaissances! Malgr certains partis pris communs, le T$L et lapprentissage automatique interf"rent donc encore asse' peu entre eu ou alors, un peu plus tard, dans le cadre de mod"les gnrau de la cognition ($7T d$nderson ou %S$H de ;ePell) qui, malgr leur am#ition, nont pas vraiment donn lieu , des applications pratiques!
2.". Le retour de lapprentissage automatique (ans les annes L4, cest presque simultanment que les premiers rsultats ngatifs des annes :4 sont contre#alancs par de nouveau plus favora#les @ les rseau de neurones rmergent alors, accompagns de nouveau algorithmes dinfrence par descente de gradient plus puissants et efficaces que les prcdents,
<rface
11
tandis qu$ngluin montre que certaines classes non triviales de grammaires sont tout de m*me apprena#les par e emples positifs seuls dans le mod"le de Kold ($ngluin, 19L4 M $ngluin, 19L=)! <ar ailleurs, Taliant propose un nouveau mod"le de lapprena#ilit au sens <$7 (> pro#a#lement appro imativement correct ?) (Taliant, 19LE), plus raliste que celui de Kold! 7es avances sont asse' reprsentatives des travau en apprentissage automatique, et plus gnralement en intelligence artificielle, dans ces annes.l,! (un c)t, avec les rseau de neurones artificiels, on dispose de techniques dapprentissage > numriques ? oprationnelles et efficaces sur les donnes relles, mais dont les rsultats sont difficiles , interprter! (e lautre, avec les mod"les s1m#oliques dont est issue, entre autres, linfrence grammaticale ou, un peu plus tard, la <L0 (programmation logique inductive), on a acc"s , des rsultats thoriques #ien fonds, accompagns de thor"mes garantissant une certaine convergence et donnant lieu , des o#8ets comprhensi#les, mais dont les algorithmes sont difficiles , mettre en Uuvre en pratique, parce quils sont dune comple it leve et requi"rent des donnes non #ruites! 7ette dichotomie refl"te le d#at, tr"s prgnant dans les annes 94, entre approches > conne ionniste ? et > cognitiviste ?! Lide qui prdomine alors est que les mod"les de t1pe conne ionniste, de par leur inspiration dans le su#strat > matriel ? du fonctionnement du cerveau humain, sont plus aptes , modliser des facults > de #as niveau ? comme les perceptions sensorielles! Mais, pour la reprsentation des connaissances ou le raisonnement, ce sont plut)t les mod"les s1m#oliques qui sont encore privilgis! Les deu approches ne sont pourtant pas incompati#les! 7omme le formule alors e plicitement %molensI1 dans une tentative de s1nth"se (%molensI1, 199=), un > s1m#ole ? nest peut.*tre rien dautre quune tiquette associe , une configuration glo#ale, sta#ilise par apprentissage, dun rseau de neurones! La connaissance s1m#olique est dans ce cas envisage comme le passage ! la limite" lhori#on de lapprentissage num$rique ou statistique qui nen est quune appro imation imparfaite et provisoire!
2.#. Le triomphe de lapprentissage automatique Lintelligence artificielle a connu depuis lors une mutation profonde! Lo#8ectif initial de reproduire, voire dimiter, les capacits de lesprit humain (parfois dsign aussi comme le pro8et de l> 0$ forte ?), a laiss progressivement la place , lo#8ectif plus pragmatique de tirer le meilleur pro5t possi#le des capacits spcifiques des ordinateurs (> 0$ fai#le ?)! Sn est en quelque sorte pass de l> intelligence artificielle ? , l> intelligence des machines ?, tandis que les sciences cognitives ont pris le relais dans le champ de ltude et de la modlisation de lesprit humain (Kardner, 199D)! Sr, ces capacits spcifiques des ordinateurs sont plut)t , chercher du c)t des possi#ilits de stocIage, de traitement et dchange de donnes! $utant de
12
param"tres qui, 8ustement, atteignent des seuils critiques dans les annes 94, au moment oQ 0nternet et les ordinateurs individuels se #analisent! 7ette volution est sensi#le dans tous les domaines de lintelligence artificielle! 9ue ce soit pour la reconnaissance des formes, le raisonnement, la programmation de stratgies pour les 8eu , etc! @ la dmarche empirique, > bottom%up ?, fonde sur la force #rute du calcul et laccumulation de emples prend alors partout le pas sur la modlisation de connaissances s1m#oliques! Lapprentissage automatique suit le m*me chemin @ il cesse de se situer s1stmatiquement en rfrence au capacits des humains pour se concentrer sur les mo1ens de ploiter au mieu les donnes stocIes dans la mmoire des ordinateurs! 0l re8oint aussi la dmarche des statistiques, dont il stait longtemps tenu loign! La thorie de lapprentissage automatique progresse aussi , cette poque @ le no% ree%lunch theorem de (Folpert, 199=), en montrant quaucun algorithme nest meilleur que tous les autres sur lensem#le de tous les pro#l"mes possi#les, s"me, un temps, le trou#le! 0l formalise en quelque sorte lintuition suivant laquelle sans #iais, cest.,.dire sans restriction sur lespace des h1poth"ses possi#les, linduction est impossi#le! +n ce sens, il ouvre aussi la porte , lusage de stratgies dapprentissage varies pour rpondre , diffrents #esoins! Les annes 1994.=444 voient ainsi lmergence de multiples algorithmes qui se rv"lent efficaces sur diffrents pro#l"mes @ ar#res de dcision, classification #a1sienne, %TM, mod"les graphiques, etc! 7es algorithmes dits > superviss ? ncessitent de disposer de emples tiquets en quantit suffisante, mais reposent surtout sur des h1poth"ses numriques ou statistiques de mieu en mieu comprises (9uilan, 199D M Cearns et Ta'irani, 199E M TapniI, 1993 M Mitchell, 1997 M TapniI, 199L)! Le clustering et la dcouverte de r"gles dassociation, qui rel"vent de lapprentissage non supervis, connaissent aussi un grand dveloppement! <arall"lement, des corpus rels de grande dimension commencent , *tre disponi#les @ dans le sillage de la fouille de donnes, la fouille de te tes devient un domaine en pleine e pansion! La revue T$L sest fait lcho de cette volution d"s 1993, en consacrant un numro dou#le au > Traitements probabilistes et corpus ? (T$L, 1993)! 7elui.ci donne un panorama asse' vari de travau , #ase de corpus! Les questions de normes dtiquetage 1 sont tr"s prgnantes!
". !es visages contemporains de lapprentissage automatique appliqu au T ! / lheure actuelle lapprentissage automatique, principalement reprsent dans la communaut francophone par les confrences 7$< (anciennement NO$) et +K7, est devenu une composante fondamentale de lintelligence artificielle! 0l a atteint un degr de maturit tel quil est impossi#le de lignorer d"s quil sagit de manipuler de grandes quantits de donnes de quelque nature que ce soit! 7est aussi vrai pour
<rface
13
les te tes, et le domaine du T$L sen est trouv #oulevers! Tous les niveau danal1se et tous les domaines applicatifs sont concerns! Mais la mani"re de concevoir les liens entre apprentissage automatique et connaissances a aussi #eaucoup volu! 7est ce que nous e plorons dans les sections qui suivent!
".1. tat des lieux de lapprentissage automatique Lapprentissage automatique est actuellement un domaine vaste et comple e qui ne se limite pas, comme on le croit trop souvent, au traitements numriques ou statistiques! Lappel , communication de ce numro voulait voquer un plus vaste pa1sage, en citant plusieurs crit"res de classification possi#les! 0l 1 tait ainsi question dapproches thoriques V lies , lapprena#ilit et la non.apprena#ilit suivant des crit"res formels V ou empiriques V lies , lutilisation dalgorithmes e ploitant des donnes, annotes ou non, et sappu1ant sur un protocole e primental! 0l 1 tait aussi voqu que les mthodes dapprentissage mises en Uuvre pouvaient *tre s1m#oliques (infrence grammaticale, <L0, etc!), , #ase de mod"les pro#a#ilistes, statistiques ou numriques (mod"les #a1siens, %TM, etc!), ou de similarits (voisinages, analogies, memory%based learning, etc!)! +t encore, cet inventaire ne mentionnait ni lapprentissage par renforcement ni les algorithmes gntiques, il est vrai plus rarement utiliss en T$L! (7ornu8ols et Miclet, =44=) donne un panorama #eaucoup plus complet de lapprentissage automatique dans son ensem#le et illustre , sa fa2on la difficult d*tre e haustif en la mati"re! 0l aurait t aussi possi#le de structurer cet appel dune autre fa2on, en se focalisant plus sur la dimension applicative de lapprentissage automatique et en sappu1ant sur les diffrentes t-ches gnriques au quelles sattaquent les algorithmes actuels les plus courants! 7ertaines de ces t-ches, comme le clustering, la classification1 (%e#astiani, =44=), lannotation!!! sont tudies depuis longtemps M dautres, comme lordonnancement de donnes, ont merg plus rcemment! Leur identification a permis une rationalisation du domaine @ les progr"s en apprentissage automatique sont maintenant s1stmatiquement quantifis, plusieurs algorithmes tant mis en concurrence pour rsoudre la m*me t-che avec les m*mes donnes! 7ette rationalisation a entraJn en retour un affinement croissant des programmes emplo1s, devenus de plus en plus efficaces au fur et , mesure que leurs fondements mathmatiques devenaient plus comple es! Les %TM (> &uport 'ector Machines ? ou > machines , vecteurs supports ? en fran2ais) ont ainsi supplant les rseau de neurones pour les t-ches de classification, de m*me que les 7HO (> Conditional (andom )ields ?, (Laffert1 et al*, =441) ou > champs marIoviens conditionnels ? en fran2ais) sont en train de prendre le relais des BMM pour celles dannotation! <our le non.spcialiste qui souhaite mettre en Uuvre des techniques
1
! Le voca#ulaire emplo1 par les statisticiens et par les informaticiens diff"re parfois @ ici, nous utilisons la terminologie des informaticiens qui dfinissent la classification comme une catgorisation supervise, alors que le clustering est non supervis!
14
dapprentissage automatique, lessentiel du travail consiste dsormais souvent , ramener le probl+me quil veut traiter ! une de ces t,ches g$n$riques ! 7est un travail de modlisation, qui peut aller dune simple mise au format de ses donnes , une profonde reformulation de son pro#l"me! 0l na par e emple pas t vident tout de suite que le pro#l"me de le traction et du t1page des entits nommes dans un te te serait #ien trait en le reformulant comme une t-che dannotation de ce te te (%araPagi, =44L)! 9uant au choi de lalgorithme lui.m*me, lefficacit nest pas tou8ours le seul crit"re , prendre en compte! (autres param"tres peuvent 8ustifier lutilisation dun programme dapprentissage plut)t quun autre, comme le nom#re et le t1pe de emples quil requiert, sa capacit , intgrer des connaissances e ternes, ou encore linterprta#ilit de ses rsultats! 7ette nouvelle structuration du domaine montre quun renversement profond a eu lieu! Les t-ches dapprentissage automatique sont devenues de plus en plus gnriques, mais les algorithmes qui les traitent sont, de leur c)t, de plus en plus capa#les de prendre en compte, dans leurs mod"les, des connaissances e ternes! 7est un point fondamental sur lequel nous reviendrons plus loin! (e fait, au lieu dapparaJtre comme un acquis dfinitif ou comme un hori'on, les connaissances relatives au domaine trait sont dsormais intgres dans la formulation du pro#l"me! 7ette volution est particuli"rement sensi#le en T$L oQ la modlisation des connaissances a une longue histoire! (epuis plusieurs annes d8,, une des proccupations ma8eures des recherches en T$L est ainsi la com#inaison entre connaissances linguistiques et apprentissage automatique! Les programmes de recherche actuels mettent presque s1stmatiquement en avant des allers.retours fconds entre connaissances s1m#oliques e ternes et connaissances acquises , partir de donnes, et tentent de faire colla#orer les traitements manuels avec des traitements numriques ou statistiques! 7ette h1#ridation nouvelle ne va pas sans heurts, mais elle peut aussi prendre plusieurs formes! 7est ce que nous allons voir dans les sections qui suivent! ".2. Apprentissage automatique et connaissances linguistiques : affrontements 0l sem#le , premi"re vue que les ressources o#tenues par apprentissage automatique et celles construites > , la main ? rel"vent dapproches irrconcilia#les! 0l e iste, par e emple, divers tiqueteurs en > parties du discours ? (part o speech) pour le fran2ais produits manuellement @ ce sont en gnral des produits commerciau pa1ants! Les ressources li#res (tiqueteur de Arill (Arill, 199=), TreeTagger (%chmid, 199E)=) ont, elles, t apprises automatiquement , partir de corpus! (ans le domaine de lanal1se s1nta ique, les grammaires du fran2ais crites , la main dominent encore (c * les campagnes dvaluation +as1D puis <assageE), mais des travau sont en cours pour acqurir automatiquement une grammaire , partir du )renchTreeban- ($#eill et al*, =44D), en sinspirant de ce qui a d8, t
=
D
! http @GGPPP!ims!uni.stuttgart!deGpro8eIteGcorple GTreeTaggerG(ecisionTreeTagger!html ! http @GGPPP!technolangue!netGarticle19L!html E ! http @GGatoll!inria!frGpassageGeval=!fr!html
<rface
15
fait pour langlais avec le .enn Treeban- (BocIenmaier et %teedman, =44= M 7ollins, =44D M 7ollins, =44E)! 9uand de nouvelles pro#lmatiques applicatives mergent en T$L, comme la reconnaissance et le t1page des entits nommes ou la classification des te tes dopinion, lvolution des travau suit souvent un cours compara#le @ da#ord, le pro#l"me est a#ord en construisant et en e ploitant des ressources spcialises (dictionnaires, patrons crits , la main)! <uis, des corpus de rfrence commencent , *tre disponi#les et les mthodes dapprentissage automatique deviennent applica#les! +lles permettent do#tenir , moindres frais des programmes de #onne qualit qui, t)t ou tard, concurrencent les ressources patiemment construites , la main! Les deu t1pes de ressources ont chacun leurs intr*ts et leurs limites! Les mod"les s1m#oliques produits manuellement sont en gnral interprta#les par les humains! Mais leurs principau dfauts sont leur sensi#ilit au erreurs et leur fai#le volutivit! 9uand on produit , la main une ressource, il est impossi#le de prvoir , lavance tous les cas possi#les! Les situations non anticipes (mots inconnus, constructions non rpertories, etc!) mettent en chec le programme qui, au mieu , ne peut fournir quune rponse par dfaut! Les mod"les statistiques ou numriques appris automatiquement peuvent, au contraire, fournir une rponse en toutes circonstances qui sera la > moins mauvaise possi#le ?, en sappu1ant sur une com#inaison de facteurs o#serva#les disponi#les! 7ela signifierait.il que le patient travail des linguistes est en passe de devenir inutile 6
".". Apprentissage automatique et connaissances linguistiques : hybridations Beureusement pour les linguistes, la situation nest pas si som#re! Lopposition classique et caricaturale entre approches s1m#oliques et statistiques a d8,, en effet, largement perdu de sa pertinence! Tout da#ord, le domaine du s1m#olique sest depuis longtemps ouvert , diverses h1#ridations! (e nom#reu mod"les de reprsentation des connaissances int"grent, dans leur dfinition m*me, des r"gles s1m#oliques et des valeurs numriques! $insi, les grammaires ou les automates pro#a#ilistes (Manning et %ch&t'e, 1999), les rseau #a1siens ou les mod"les graphiques sont des o#8ets t1piquement h1#rides! M*me les mthodes dapprentissage automatique historiquement fondes sur des mod"les s1m#oliques ont pris un tournant pragmatique et sont devenues capa#les de se > frotter ? au donnes relles @ la <L0 a volu vers lapprentissage relationnel, voire m*me statistique (Ketoor et TasIar, =44:), et linfrence grammaticale sest #eaucoup diversifie (de la Biguera, =414)! <lusieurs campagnes de comptitions consacres , lidentification de grammaires , partir de emples ($#adingo, KoPachin,
16
Smphalos3, ou les actuels %tamina: et Wulu7) font progresser les algorithmes dans le sens dun passage , lchelle et dune moindre sensi#ilit au donnes errones! M*me si encore peu de travau com#inent apprentissage s1m#olique et apprentissage numrique ou statistique, on peut parier que lacquisition danal1seurs s1nta iques , partir de corpus ar#ors va de plus en plus faire appel , des techniques venues , la fois de linfrence grammaticale et de lapprentissage statistique! +nsuite, comme nous lavons d8, suggr dans la section D!1, les ressources construites , la main peuvent souvent *tre rinvesties par les algorithmes dapprentissage eu .m*mes pour enrichir les e emples et amliorer la qualit de ce qui est appris! La plupart des meilleurs algorithmes dapprentissage actuels sont capa#les dintgrer de telles connaissances! $insi, les %TM requi"rent la dfinition dun > no1au ? qui caractrise les distances entre donnes! 0l est possi#le, dans la dfinition de ce no1au, de prendre en compte une multitude dinformations, qui codent des connaissances e ternes! (e m*me, les 7HO sont fonds sur laffectation de > poids ? , des > caractristiques ? ( eatures)! Les caractristiques sont des fonctions #oolennes fournies au s1st"me! Toutes les connaissances linguistiques supposes utiles , la rsolution de la t-che peuvent *tre intgres au 7HO par le #iais de ces caractristiques! (ans les deu cas, les connaissances s1m#oliques e ternes peuvent donc *tre vues comme des > atomes de connaissances ? que les algorithmes se chargent de com#iner entre eu via des param"tres numriques fi s par apprentissage! Le programme ainsi d5ni est donc , la fois capa#le de tenir compte de toutes les informations s1m#oliques quon lui a fournies, mais aussi de paramtrer leur importance relative et de donner une rponse adapte en toutes circonstances! 7est sans doute l, le mode de com#inaison entre approches s1m#oliques et numriques le plus lgant et efficace actuellement disponi#le! $u lieu desprer atteindre des connaissances s1m#oliques par passage , la limite de mod"les numriques, il am"ne , considrer quelles sont en fait premi+res mais locales et ont #esoin d*tre intgres , plus grande chelle par le #iais de valeurs numriques! <lusieurs articles de ce numro en sont une parfaite illustration! ;otons en5n que les comptences des linguistes sont galement prcieuses pour comprendre et interprter les rsultats dun programme dapprentissage automatique! Le reproche qui a t longtemps fait au mod"les statistiques de ne pas *tre > interprta#les ? a ainsi de moins en moins lieu d*tre! L, encore, plusieurs des articles qui suivent le montrent de fa2on convaincante!
".#. Les articles de ce numro 0l est donc temps den venir #ri"vement au contenu de ce numro! Les articles
3
! Toir le site consacr , linfrence grammaticale (malheureusement peu , 8our) @ http@GGla#h.curien!univ.st.etienne!frGinformatiqueGgiG : ! http @GGstamina!chef#e!netG 7 ! http @GGla#h.curien!univ.st.etienne!frG'uluG
<rface
17
qui 1 figurent sont tr"s reprsentatifs de lvolution que nous venons de tracer , grands traits! 0ls traitent de niveau danal1se varis, allant de la s1nta e , la smantique en passant par la classification de phases de dialogues ou la traduction automatique! Mais, plut)t que de les agencer en fonction de leur domaine applicatif, nous avons choisi de les prsenter en fonction de la mani"re dont ils articulent apprentissage automatique et traitement des langues! Les deu premiers articles seraient ainsi , ranger dans la ligne historique qui va des donnes au connaissances, en mettant en Uuvre des stratgies dapprentissage non supervises, mais paramtres, contr)les et values par une e pertise humaine! Le premier dentre eu , dX , %alma Namoussi, montre quen appliquant certains algorithmes de clustering , des te tes, il est possi#le, dans le m*me temps, de traire des listes de mots reprsentatifs de leur contenu smantique! Les diverses techniques testes sont paramtres par diffrents choi possi#les de distances et de reprsentations des te tes, qui peuvent sinterprter comme diffrentes h1poth"ses distri#utionnelles! (ans celui sign par Thierr1 7harnois, Marc <lantevit, 7hristophe Higotti et Aruno 7rmilleu , des mthodes didentification de motifs squentiels frquents sont emplo1es pour constituer des patrons de traction dentits nommes et de relations qui les relient! 7ette derni"re t-che est t1piquement de celles quil est encore difficile da#order par apprentissage automatique, parce quelle se ram"ne difficilement , une t-che gnrique plus simple (comme la classification ou lannotation)! Les patrons o#tenus sont interprta#les et ont t soumis avec succ"s , des e perts humains! Les quatre articles suivants, quant , eu , illustrent parfaitement lint$gration de connaissances linguistiques dans un m$canisme dapprentissage supervis$ num$rique ou statistique sophistiqu$! Les deu premiers, en anglais, mettent en effet en Uuvre des %TM, outils actuellement les plus performants pour les t-ches de classi ication! 7elui de <ierre $ndrePs et %uresh Manandhar traite 8ustement dun pro#l"me de classification, relativement original, qui consiste , valuer laccord entre interlocuteurs dans un dialogue! Larticle se concentre sur les caractristiques (> eatures ?) linguistiques , intgrer au calcul du no1au du %TM pour atteindre les meilleurs tau de reconnaissance! Larticle suivant, de Lil8a Yvrelid, Nonas Cuhn et Cathrin %pre1er, utilise e actement la m*me mthodologie, mais pour une toute autre t-che @ acqurir un anal1seur s1nta ique efficace dans diffrentes langues! <our cela, le pro#l"me de lanal1se s1nta ique est tout da#ord ramen , une srie de classifications lmentaires! <our apprendre , raliser ces classifications, les donnes issues de grammaires s1m#oliques e istantes sont transformes, l, encore, en > caractristiques ? prises en compte dans le no1au du %TM! 7est une e cellente illustration de la mthodologie voque en section prcdente! Les deu derniers articles, en5n, portent sur les 7HO squentiels, le meilleur mod"le graphique actuel pour apprendre , annoter des te tes! Les 7HO aussi requi"rent des > caractristiques ? et la phase dapprentissage consiste , trouver les poids relatifs de chacune dentre elles pour tiqueter correctement une squence! Larticle de ;atali1a %oIolovsIa, Slivier 7app et Oran2ois Zvon dcrit une
18
stratgie qui permet de slectionner les caractristiques les plus utiles lors de la phase dapprentissage, garantissant ainsi dnormes gains en temps de calculs! Mais elle montre aussi que les rsultats dun tel mod"le restent interprta#les linguistiquement! Les e priences qui valident ce nouvel algorithme dinfrence portent sur le chun-ing et la reconnaissance des entits nommes, deu t-ches tr"s #ien traites par annotation! +n5n le dernier article d$le andre $llau'en et Kuillaume FisniePsIi dcrit aussi lutilisation de 7HO, cette fois pour raliser des alignements mots , mots multilingues pour la traduction automatique! +ncore une fois, une t-che comple e est ramene , une autre plus gnrique, mais capa#le dintgrer dans ses caractristiques des informations fournies par une autre ressource (dans ce cas, des catgories morphos1nta iques)!
#. $onclusion 7e court panorama, malgr dinvita#les simplifications, met en avant certaines lignes de force indiscuta#les! +n quelques dcennies, lapprentissage automatique, comme le T$L, a connu des fluctuations ma8eures! 0l est pass de la rsolution de pro#l"mes spcifiques a#outissant , des connaissances spcialises , ltude de t-ches gnriques capa#les dintgrer dans ses mod"les des connaissances du domaine! 7ette volution est un signe de maturit qui lui permet d*tre applica#le , des domaines tr"s varis! Sn peut aussi voir cet a#outissement (provisoire) comme un retour , lintuition initiale, suivant laquelle lapprentissage est une capacit gnrale et universelle! 7est vrai pour les humains, cest en train de le devenir pour les machines! Le T$L, qui na 8amais non plus renonc , lidal duniversalit des sciences du langage, a tout , gagner , cette nouvelle maturit! Mieu , lapprentissage automatique pourrait lui permettre en quelque sorte de se rconcilier avec lui. m*me @ la rupture historique, en son sein, entre > grammaires formelles ? et > thorie de linformation ?, qui remonte au controverses entre 7homsI1 et Barris, a de moins en moins lieu d*tre, quand on regarde de pr"s les travau actuels qui com#inent les deu approches (<ereira, =444)! 0l n1 a plus vraiment de contradictions , construire manuellement des ressources ou des mod"les formels et , les e ploiter dans un programme dapprentissage automatique , partir de donnes! Les acquis de lapprentissage automatique doivent dsormais faire partie du #agage de #ase de tout #on praticien du T$L!
<rface
19
%. &ibliographie
Abeill A., Clment L., Toussenel F., Treebanks : Building and Using Parsed Corpora, Kluwer, chapter Building a Treebank for French, p. 165-188, 2003. Angluin D., Inductive Inference of Formal Languages from Positive Data , Information and Control, vol. 45, n2, p. 117-135, May, 1980. Angluin D., Inference of Reversible Languages , Journal of the ACM, vol. 29, n3, p. 741765, July, 1982. Benzecri F., Histoire et prhistoire de lanalyse des donnes, Dunod, 1982. Brill E., A simple rule-based part of speech tagger , Proceedings of the third conference on Applied natural language processing, p. 152-155, 1992. Chomsky N., Rules and representations, Basil Blackwell, 1980.
Collins M., Head-Driven Statistical Models for Natural Language Parsing , Computational Linguistics, vol. 29, n4, p. 589-637, 2003. Collins M., New Developments in Parsing Technology, Kluwer, chapter Parameter Estimation for Statistical Parsing Models : Theory and Practice of Distribution-Free Methods, 2004. Cornujols A., Miclet L., Apprentissage arti ciel ; concepts et algorithmes, Eyrolles, 2002. Crevier D., A la recherche de lintelligence artificielle, champs, Flammarion, 1999. Gardner H., Histoire de la rvolution cognitive, Payot, 1993. Getoor L., Taskar B., Introduction to Statistical Relational Learning, MIT Press, 2006. Gold E., Language Identification in the Limit , Information and Control, vol. 10, p. 447474, 1967. Higuera (de la) C., Grammatical Inference, Learning Automata and Grammars, Cambridge University Press, 2010. Hockenmaier J., Steedman M., Generative Models for Statistical Parsing with Combinatory Categorial Grammars , Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, p. 335-342, 2002. Kearns M. J., Vazirani U. V., An Introduction to Computational Learning Theory, MIT Press, 1994. Lafferty J. D., McCallum A., Pereira F. C. N., Conditional Random Fields : Probabilistic Models for Segmenting and Labeling Sequence Data. , Proceedings of the Eighteenth International Conference on Machine Learning (ICML), p. 282-289, 2001. Manning C., Schtze H., Foundations of Statistical Natural Language Processing, MIT Press, Cambridge, 1999. McCulloch W., Pitts W., A Logical Calculus of the Ideas Immanent in Nervous Activity , Bulletin of Mathematical Biophysics, 1943. Minsky M., Papert S., Perceptrons, MIT Press, 1969. Mitchell T., Machine Learning, McGraw-Hill, 1997.
20
Pereira F., Formal grammar and information theory : Together again ? , Philosophical Transactions of the Royal Society, vol. 358, p. 1239-1253, 2000. Piatelli-Palmarini M., Thories du langage, thories de lapprentissage, le dbat entre Jean Piaget et Noam Chomski, Le Seuil, 1979. Pullum G., Empirical assessment of stimulus poverty arguments , The Linguistic Review, vol. 19, p. 9-50, 2002. Quilan J. R., C4.5 : Programs for Machine Learning, Morgan Kaufmann Publishers, 1993. Sarawagi S., Information Extraction , Foundations and Trends in Databases, vol. 1, n 3, p. 261-377, 2008. Schmid H., Probabilistic part-of-speech tagging using decision trees , Proceedings of International Conference on New Methods in Language Processing, p. 44-49, 1994.
Sebastiani F., Machine Learning in Automated Text Categorization , ACM Computing Surveys, vol. 34, n1, p. 1-47, 2002. Smolensky P., IA connexioniste, IA symbolique et cerveau, Folio essai, Gallimard, p. 77-107, 1992. Solomonoff R. J., A Formal Theory of Inductive Inference , Information and Control, vol. 7, p. 1-22,224-254, 1964. TAL, Traitements probabilistes et corpus, vol. 36, revue de lATALA, num 1-2, 1995. Turing A., Computing Machinery and Intelligence , Mind, vol. 49, p. 433-460, 1950. Valiant L. G., A Theory of the Learnable , Communications of the ACM, vol. 27, n11, p. 1134-1142, 1984. Vapnik V. N., The nature of statistical learning theory, Springer Verlag, 1995. Vapnik V. N., Statistical Learning Theory., John Wiley, 1998. Wolpert D., No free lunch theorem for optimization , IEEE Transactions on Evolutionary Computation, vol. 1, n 1, p. 467-482, 1992.
<rface
21
'emerciements 7e numro a t coordonn avec MarI %teedman, de luniversit d+dim#ourg! ;ous remercions chaleureusement tous les relecteurs qui 1 ont contri#u @ <ieter $driaans (B%7 La#, Rniversit d$msterdam, <a1s.Aas), Massih $mini (L0<:, <aris et 0T0.7;H7, 7anada), Falter (aelemans (7;T%, Rniversit d$nvers, Aelgique), <ierre (upont (Rniversit 7atholique de Louvain, Aelgique), $le ander 7larI (Ho1al BolloPa1, Rniversit de Londres, Krande.Aretagne), Berv (e8ean ([ero 7enter, Kreno#le), Keorge Ooster (0T0.7;H7, 7anada), 7olin de la Biguera (La#oratoire Bu#ert 7urien, Rniversit de %t +tienne), Oran2ois (enis (L0O, Rniversit de Marseille), <atricI Kallinari (L0<:, Rniversit de <aris :), 71ril Koutte (0T0.7;H7, 7anada), Laurent Miclet (+nssat, Lannion), Hichard Moot (7;H%, Aordeau ), +mmanuel Morin (L0;$, Rniversit de ;antes), Nose Sncina (<H$0 Kroup, Rniversit d$licante, +spagne), <ascale %#illot (0H0%$, 0;%$ Hennes), Marc Tommasi (L0OL.0nria, Rniversit de Lille), Menno van Waanen (0LC, Rniversit1 of Til#urg, <a1s.Aas)!
0sa#elle Tellier L0OS Rniversit dSrlans :, rue Lonard.de.Tinci A< :739 E3 4:7 Srlans 7ede Orance isabelle*tellier/univ%orleans* r http011222*univ%orleans* r1li o1Members1Isabelle*Tellier1

L'apprentissage Automatique - Préface

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

L'apprentissage Automatique - Préface

Загружено:

Авторское право:

Доступные форматы

Manuscrit auteur, publi dans "Traitement Automatique des Langues 50, 3 (2009) 7-21"

inria-00514535, version 1 - 2 Sep 2010

TAL. Volume 50 n 3/2009

inria-00514535, version 1 - 2 Sep 2010

inria-00514535, version 1 - 2 Sep 2010

TAL. Volume 50 n 3/2009

inria-00514535, version 1 - 2 Sep 2010

inria-00514535, version 1 - 2 Sep 2010

TAL. Volume 50 n 3/2009

inria-00514535, version 1 - 2 Sep 2010

inria-00514535, version 1 - 2 Sep 2010

TAL. Volume 50 n 3/2009

inria-00514535, version 1 - 2 Sep 2010

! http @GGPPP!ims!uni.stuttgart!deGpro8eIteGcorple GTreeTaggerG(ecisionTreeTagger!html ! http @GGPPP!technolangue!netGarticle19L!html E ! http @GGatoll!inria!frGpassageGeval=!fr!html

inria-00514535, version 1 - 2 Sep 2010

TAL. Volume 50 n 3/2009

inria-00514535, version 1 - 2 Sep 2010

inria-00514535, version 1 - 2 Sep 2010

TAL. Volume 50 n 3/2009

inria-00514535, version 1 - 2 Sep 2010

inria-00514535, version 1 - 2 Sep 2010

TAL. Volume 50 n 3/2009

inria-00514535, version 1 - 2 Sep 2010

inria-00514535, version 1 - 2 Sep 2010

Вам также может понравиться