Академический Документы
Профессиональный Документы
Культура Документы
RSUM. Cet article dcrit une plate-forme de TALN, modulaire et multilingue, enrichie dun
systme de contrle bas sur laide multicritre la dcision. La prsentation est complte
par une description des donnes linguistiques utilises ainsi que des applications bases sur
cette technologie.
ABSTRACT. This article describes a modular and multilingual NLP platform, which is enriched
by a system of multicriteria decision-aid. Further we describe the linguistic data used by this
platform as well as the applications based on its technology.
MOTS-CLS : bote outils TALN, architecture modulaire et symbolique, analyse lexicale, syn-
taxique et smantique, ontologies, multilinguisme, aide multicritre la dcision, ressources
linguistiques riches, indpendance donnes/traitements.
KEYWORDS: NLP toolbox, modular and data-driven architecture, lexical, syntactic and seman-
tical analysis, ontologies, multilinguism, multicriteria decision-aid, rich linguistic ressources,
separation of processing and data.
1. Introduction
France Tlcom mne des activits de R & D sur le traitement automatique des
langues depuis prs de deux dcennies. Les travaux sur le traitement du langage na-
turel crit sont mens notamment au sein de lquipe Langues Naturelles de Orange
Labs1 . Compte tenu de la dimension internationale de France Tlcom et de la po-
pularisation, de plus en plus croissante, des moyens de communication, faciliter le
traitement et laccs linformation dans un grand nombre de langues revt un intrt
particulier dans les activits de R & D. Les solutions lies au traitement automatique
des langues naturelles sont ainsi mises la disposition des utilisateurs (accs aux an-
nuaires et aux bases de donnes, recherche dinformation, etc.). Pour rpondre aux
besoins en matire daccs linformation, une plate-forme industrielle de TALN,
baptise TiLT (traitement linguistique des textes), a t mise en place Orange Labs
(Guimier de Neef et al., 2002). Cet article est orient vers une approche descriptive
de TiLT qui tente den souligner un certain nombre de caractristiques lies aux pro-
blmatiques architecturales et mthodologiques. Il est noter que cette description
concerne essentiellement lanalyse linguistique et naborde que trs sobrement la g-
nration. Aprs avoir prsent les choix architecturaux, les diffrents modules de la
plate-forme et les ressources linguistiques ncessaires son fonctionnement, nous
nous intressons linteroprabilit des diffrents composants travers le prisme du
contrle des processus danalyse linguistique ralisables par la plate-forme. Enfin,
nous terminons par une prsentation des applications oprationnelles utilisant TiLT.
Linterprtation linguistique dun nonc crit est souvent prsente comme re-
posant sur un ensemble de niveaux danalyse et de connaissances. Lune des plus
grandes difficults souleves par le TALN est la gestion de lindniable interdpen-
dance et complmentarit de ces niveaux danalyse. De nombreux systmes se sont
inspirs des modles cognitifs issus des travaux en psycholinguistique pour concevoir
des architectures informatiques de traitement respectant les proprits de paralllisme,
de complmentarit et dinterdpendance des connaissances et des tapes danalyse.
Cependant, bien que thoriquement justifiables, ces dveloppements se sont en
pratique heurts de nombreuses difficults, telles que la gestion des communica-
tions entre les niveaux danalyse, la formalisation des structures de connaissances ou
encore lefficacit des algorithmes de traitement. Cette vision thorique soppose ou
plutt se complte par une approche plus pragmatique considrant le TALN comme
un ensemble de technologies au service des applications. Sinscrivant dans cette der-
nire vision et sans doute influencs par des impratifs lis au contexte industriel,
nous nous sommes bass sur des modles informatiques classiques pour concevoir
une architecture plus facile dvelopper, maintenir et tendre avec de nouvelles
fonctionnalits.
Ainsi, la plate-forme TiLT a t dveloppe en privilgiant des proprits dadapta-
bilit, dextensibilit et de maintenance. Ceci a conduit au morcellement du processus
danalyse en modules de traitement. Lorganisation de lapplication des diffrents mo-
dules de traitement est gre par une approche squentielle, o diffrents modules de
traitement spcifiques peuvent tre appliqus successivement pour atteindre le niveau
dinterprtation souhait. Afin de pallier les limites de cette approche, des structures
de stockage des hypothses dinterprtation intermdiaires ont t dfinies de ma-
nire centralise, pour que les modules de traitement puissent exploiter lensemble des
connaissances gnres suite lapplication dautres modules. La stratgie dapplica-
tion successive des modules de traitement est dfinie de manire externalise dans un
fichier de configuration, garantissant ladaptabilit du systme mais permettant ga-
lement de rompre la squentialit de lapproche. Ainsi, sous rserve de respecter cer-
taines contraintes de dpendance forte entre modules, il est possible dinjecter dans
les structures de stockage centralises des connaissances issues de lapplication dun
module de traitement et de relancer lapplication de modules de plus bas niveau afin
quils prennent en compte ces connaissances initialement non disponibles.2
Le schma en figure 1 expose dune faon simplifie larchitecture globale de la
plate-forme TiLT. En fonction dune stratgie, des donnes linguistiques, du texte
analyser et de la configuration des modules de la plate-forme, un module nomm
stratge appelle les diffrents modules pour un traitement spcifique. Les rsultats de
chaque module sont entreposs dans un graphe danalyse (treillis). Afin de pouvoir
prendre une dcision en cas dambiguts, un contrle multicritre (voir section 4)
exploite des critres associs aux rsultats concurrents.
Grammaires Thsaurus
Rglesd'identification Rglesde (chunking, rglesde
Ressources Lexiques
delangue segmentation dpendance) construction
linguistiques
Modlesde
Stratgied'analyse: prfrences
segmentation
analyselexicale
contrlelexical Stratge
analysesyntaxique
contrlesyntaxique Oprateurs
... dcisionnels
Graphed'analyse Encapsulationdes
Hypothses (structuredestockagedes mthodesd'accs
stockes hypothseslinguistiques) auxhypothses
linguistiques
Basedecritres,
structuresde
Hypothseslinguistiques
prfrences,
classes,tries
tri,prordre,
ouslectionnes slection
liss sur la langue des signes franaise (LSF, voir fin section 3.6.1). Le lien entre les
langues, dans le cas des applications multilingues, est vhicul travers le thsau-
rus smantique (cf. 3.6.2) qui dfinit les concepts utiliss dans les traitements dordre
smantique.
Un outil interne lquipe permet dadapter les donnes gnriques de chaque
langue une application donne notamment en limitant ou spcialisant le vocabulaire
ncessaire ainsi que les grammaires ou les donnes smantiques. Les donnes utili-
ses par chaque module sont compiles de manire en optimiser laccs en vitesse
mme en trs grande volumtrie (par ex. 1 000 000 entres lexicales ou relations du
thsaurus).
Le comportement des modules est entirement contrl par des fichiers de configu-
ration. Ces derniers spcifient les donnes utiliser (telles que lexiques, grammaires,
thsaurus, voir section 3), des paramtres et stratgies pour le contrle et lanalyse
ainsi que lordre des tapes de lanalyse. Certaines donnes (notamment pour liden-
TiLT : plate-forme pour le TALN 21
3. Modules de la plate-forme
Nous distinguons deux types de modules : ceux qui sont prsents dans toutes les
applications parce quils fournissent une fonctionnalit fondamentale pour le TALN
(comme lanalyse lexicale ou syntaxique) et ceux qui mettent en uvre une applica-
tion spcifique comme le rsum automatique ou le traitement des requtes dutilisa-
teurs que nous ne dcrirons pas fonctionnellement dans le cadre de cet article (voir
section 5 pour leurs cas dutilisation).
Cette phase consiste appliquer des actions chaque segment identifi, en fonction
de son type, afin de lui associer les interprtations lexicales qui lui correspondent. Ces
objets, appels terminaux , sont stocks dans le graphe danalyse comme le sont
les segments (figure 1). Par rapport lexemple de section 3.2 on ne va pas rechercher
dans le lexique des chanes qui ont t types ANNE ou POINT, en revanche toutes
celles types MOT feront lobjet dun accs au lexique.
Chaque lexique monolingue comporte les informations morphologiques, phon-
tiques et syntaxiques des units lexicales de la langue, ainsi que leur dcoupage en
sens. Classiquement, chaque unit lexicale est rfrence par un lemme auquel est
attach un code flexionnel correspondant un paradigme graphique et phontique.
Lalignement entre graphie et phontique rend possible la fonctionnalit de correc-
tion phontique du logiciel. Des descripteurs morphologiques et syntaxiques (genre,
nombre, auxiliaire de conjugaison, valence, etc.) distinguent les formes flchies deux
deux et encodent les comportements syntaxiques des entres lexicales.
Les entres lexicales peuvent tre de type mot simple ou locution : pomme ,
rendez-vous , animal de compagnie , Banque nationale de Paris ; un mca-
nisme spcifique du module danalyse permet dans ce cas de crer les interprtations
correspondant des locutions connexes si tous les lments de ces locutions sont
prsents dans la phrase analyse. Les entres peuvent tre des formes contractes :
desquelles ou au pour le franais, vom , del ou gonna pour lalle-
mand, lespagnol ou langlais ou tre des clitiques : alkitab ou sayaktubuhu
pour larabe.
Si un mot est inconnu du lexique, diffrentes mthodes de correction peuvent lui
tre appliques : correction par raccentuation, correction phontique, correction ty-
pographique, etc. Un mcanisme danalyse morphologique peut tre aussi appel pour
complter les analyses dun mot ou le corriger. Il est important de noter que lemploi
de mthodes de correction sur les mots inconnus peut avoir pour consquence qu
un segment unique correspondent des formes lexicales multiples. Par exemple, la cor-
rection par raccentuation de peche donne pche (le fruit ou lacte de prendre
du poisson), pch (la faute), pche (une des formes conjugues de pcher
TiLT : plate-forme pour le TALN 23
lacte de commettre une faute). Le rsultat de lanalyse lexicale de peche sera donc
lensemble des rsultats des analyses lexicales des trois formes cites.
Dans cette tape, on utilise une grammaire de dpendance (Tesnire, 1959) pour
construire une analyse syntaxique arborescente dans laquelle les relations fonction-
nelles de la phrase sont exprimes. Ces relations syntaxiques sont construites entre les
diffrents groupes de premier niveau (GS1) dune phrase.
Pour y parvenir, on utilise des contraintes non locales telles que les complments
rgis par une tte lexicale ou laccord entre les groupes syntaxiques. La grammaire de
dpendance se compose de rgles de cration de sous-arbres telles que la rgle GV-5
(voir figure 3). Celle-ci permet lattachement dun pronom sujet une tte verbale :
SUJ est le type de relation cr. GV-PT est la catgorie de la tte (principal ; P), PRN-
S celle du dpendant (D). Le symbole >> exprime lordre linaire entre la tte et
le dpendant, ici le dpendant prcde la tte. Les ConditionsPrincipales expriment
les contraintes sur la tte : IMPERS SUJ_REMPLI le verbe tte ne doit
pas tre impersonnel et ne pas dj avoir un sujet. Des contraintes sur le dpendant
peuvent tre prcises si besoin. Les clauses P/NOMBRE unifier D/NOMBRE
et P/PERSONNE unifier D/PERSONNE des AutresConditions sassurent de
laccord entre le pronom (ici le dpendant) et le verbe (ici le principal) par unification
des traits de nombre et de personne. Le trait SUJ_REMPLI/+ sajoute aux traits
de la tte pour bloquer lattachement de plusieurs sujets sur un mme verbe.
IdentifiantUnique GV-5
RelationSyntaxique SUJ
Schma GV-PT >> PRN- S
ConditionsPrincipales SUJ_REMPLI IMPERS
AutresConditions P rajouter SUJ_REMPLI/+
P/NOMBRE unifier D/NOMBRE
P/PERSONNE unifier D/PERSONNE
(h) la grammaire des dates et des heures. Larbre de dpendance en figure 4 montre le
rsultat dune analyse. Lanalyse est montante, et se fait par lots, ce qui permet une
certaine robustesse. Dans le cas o la grammaire ne permet pas de produire un arbre
syntaxique pour toute une phrase, TiLT produit un ensemble darbres syntaxiques, o
chaque arbre reprsente un tronon de la phrase.
who
ref
class name firstname
hasSocialRole
firstname~Jean
sit NP~Person
player~Jean REL_EVENT.gagner role REL_EVENT.gagner
theme experiencer
ref experiencer situation u329590 theme situation
x329542
x330856
x329541
x330857 u330855 u329540
situation
class
detd detd situation
Figure 5. Graphe smantique pour Jean gagne la finale (avant et aprs lapplication
des rgles de transformation)
Afin de coupler TiLT avec des applications ou systmes bass sur des ontologies,
nous disposons dun module qui permet de transformer une phrase, une requte utili-
sateur en langue naturelle ou des mots-cls en reprsentation ontologique (Heinecke
et Toumani, 2003). Le rsultat de lanalyse syntaxique (cf. figure 4) et de lanalyse
smantique (cf. le graphe droite de la figure 5) est transform en une reprsentation
ontologique au format RDFS (Lassila et Swick, 1999) ou OWL (McGuinness et van
Harmelen, 2004) (la figure 6 est base sur des ontologies de domaine (Dasiopoulou
et al., 2007) issues du projet europen aceMedia7 ).
7. http:// www.acemedia.org/
8. http:// mkbeem.elibel.tm.fr/
TiLT : plate-forme pour le TALN 29
Comme pour la plupart des systmes de TALN, notamment ceux bass sur une
modlisation formelle des connaissances linguistiques, lapplication de TiLT dans cer-
tains contextes se heurte au problme rcurrent de la gestion dhypothses dinterpr-
tations concurrentes, parmi lesquelles certaines sont errones. En considrant larchi-
tecture de traitements modulaires et quasiment squentielle (voir section 2) de TiLT,
la gestion de ces indterminations tait initialement dlgue aux diffrents modules
de traitement. En effet, chaque module qui compose un processus danalyse a pour ob-
jectif de construire de nouvelles hypothses dinterprtation correspondant au niveau
de traitement concern, mais galement dattester de la pertinence des hypothses in-
termdiaires construites par les modules prcdents laide de nouvelles sources de
connaissances.
Cependant, le manque de complmentarit entre les diffrents niveaux de traite-
ment, ainsi que les incompltudes ou les imprcisions des ressources linguistiques
exploites entranent frquemment une propagation des hypothses concurrentes et
errones, se matrialisant au final par une explosion combinatoire de lespace des r-
sultats gnrs. Afin daugmenter la prcision et donc symtriquement de rduire le
bruit parmi les rsultats gnrs, il parat indispensable de complter les processus
danalyse par des stratgies spcifiques de contrle. Contrairement aux principaux
travaux traitant du contrle du processus danalyse linguistique qui ne proposent que
des stratgies ddies un contexte particulier dindtermination, nous avons dfini
une approche globale de contrle pouvant tre applique lors des diffrentes tapes du
processus danalyse ralis par TiLT.
Lobjectif des stratgies de contrle est de faire merger les hypothses les plus
pertinentes parmi toutes celles gnres. Cet objectif se matrialise par diffrentes
problmatiques en fonction notamment des impratifs du contexte applicatif et du cas
dindtermination trait. Il sagira soit de ranger les hypothses selon leur pertinence,
soit de slectionner un sous-ensemble de ces hypothses, soit daffecter ces hypo-
thses dans des classes ordonnes. Pour rpondre lune de ces problmatiques, il
est ncessaire de disposer dune valuation de la pertinence relative des diffrentes
hypothses gnres. Le contrle des processus danalyse, tel que nous le dfinissons,
repose donc sur deux tapes : lvaluation puis llaboration dune recommandation
de dcision (rangement, slection ou affectation).
Cette vision dcisionnelle du contrle que nous utilisons sintgre videmment
dans une dmarche plus gnrique du contrle des systmes dintelligence artificielle.
Les travaux de (Bachimont, 1992) ont permis didentifier les trois questions cen-
30 TAL. Volume 49 no 2/2008
trales souleves lors de la mise en place dune stratgie de contrle : (a) Quelles
connaissances de contrle utiliser ? , (b) Comment utiliser ces connaissances ?
et (c) Comment transmettre lensemble de ces connaissances au systme de
contrle ? .
travers une tude des diffrentes stratgies de contrle existantes, nous avons
constat que lvaluation de la pertinence des hypothses concurrentes reposait sur
lintgration et la prise en compte de connaissances supplmentaires et initialement
indisponibles ou inexploites. Nous considrons ces connaissances supplmentaires
comme des critres de comparaison apportant un jugement sur la pertinence des hy-
pothses. Ces critres peuvent tre de diffrentes natures :
empirique : usage de probabilits de patrons syntaxiques pour le contrle des
grammaires de proprits (Blache et Rauzy, 2006) ;
heuristique : vrification de proprits syntaxiques telles que les attachements
droits ou minimaux ;
symbolique : usage de cadres de sous-catgorisation pour le contrle dun ana-
lyseur syntaxique statistique (Bourigault et Frrot, 2004).
Exploit individuellement, chaque critre apporte des informations distinctives
permettant de rsoudre une partie des indterminations identifies. Pour obtenir un
jugement fiable et robuste il est donc indispensable de combiner les diffrents critres
de comparaison disponibles. Lefficacit dune stratgie de contrle base sur la com-
binaison de critres complmentaires a dj t dmontre dans des contextes varis,
en syntaxe avec notamment (Charniak, 2005) et en dsambigusation du sens des mots
avec (Audibert, 2007).
Lintgration de critres de comparaison matrialisant lusage de sources de
connaissances supplmentaires permet de rpondre la premire question souleve
savoir : Quelles connaissances de contrle utiliser ? .
Ces constats nous ont conduits effectuer une intersection avec un domaine spcia-
lis dans la rsolution de problmes dcisionnels bass sur la combinaison de critres
htrognes, laide multicritre la dcision (AMCD) et plus particulirement les
approches par surclassement (Roy et Bouyssou, 1993). LAMCD se dfinit comme
une extension pragmatique des travaux en thorie de la dcision, visant fournir un
ensemble de mthodes permettant de rpondre lune des problmatiques suivantes :
le rangement, la slection ou le tri. Contrairement aux mthodes dapprentissage au-
tomatique, les mthodes dAMCD par surclassement ne dpendent pas de la disponi-
bilit de corpus dapprentissage. La faon dont les diffrents critres de comparaison
doivent tre exploits est dfinie par les connaissances et les intuitions dun expert
formules a priori. Par expert , nous dsignons les linguistes et informaticiens en
charge de paramtrer TiLT dans diffrents contextes applicatifs.
Ces connaissances expertes sont formalises en tant que paramtres prfrentiels
constituant ainsi ce que nous nommons un modle de prfrences. Ainsi, sur chaque
critre utilis, lexpert peut associer : (a) un poids ; (b) un seuil de prfrence ; (c) un
seuil dindiffrence ; (d) un seuil veto. Les seuils dindiffrence et de prfrence per-
mettent de prendre en compte la nature imprcise des jugements mis sur les critres
de comparaison. Le seuil veto permet de filtrer des hypothses juges comme trop
faibles sur un des critres utiliss.
partir de cette formalisation des connaissances expertes et des performances
quelles obtiennent sur les diffrents critres, les hypothses concurrentes sont com-
pares entre elles. Ces comparaisons sont matrialises par des relations de surclas-
sement. Une hypothse H1 surclasse une autre hypothse H2 si, daprs les connais-
sances dont on dispose, on peut dterminer que H1 est au moins aussi pertinente que
H2 . Une situation de surclassement est tablie si une majorit suffisante de critres
valide cette assertion de surclassement et si la minorit des critres qui refuse cette
assertion nest pas trop importante. Cette majorit est matrialise par une mesure de
concordance qui correspond la somme pondre de la propension de chaque critre
valider lassertion de surclassement. Cette mesure est ensuite diminue par la pro-
pension pondre des critres qui refusent le surclassement, la discordance. Le lecteur
intress par la mthode de construction de ces relations pourra lire (Roy et Bouys-
sou, 1993) ou (Smits, 2008, p. 44-68).
Une relation de surclassement correspond alors une notion gnrique de compa-
raison des hypothses. Les relations construites peuvent ensuite tre interprtes pour
ranger, slectionner ou classer les hypothses.
Nous avons motiv notre choix pour une approche par surclassement par le fait que
cette mthode ne reposait pas sur la disponibilit dun corpus dapprentissage, mais
sur une formalisation de connaissances expertes en tant que paramtres prfrentiels.
32 TAL. Volume 49 no 2/2008
Pour rpondre la troisime question souleve par la mise en place dune stratgie
de contrle, savoir Comment transmettre lensemble des connaissances au systme
de contrle ? , nous avons conu, implment et intgr dans TiLT un module spci-
fique de contrle. Ce module de contrle a pour objectifs : (a) de faciliter lintgration
ou la dclaration de critres de comparaison et de les associer aux hypothses com-
parer ; (b) de stocker et de centraliser ces critres afin de les rendre disponibles tout au
long du processus danalyse ; (c) de permettre lapplication dtapes de contrle des
hypothses gnres ou exploites par les modules de traitement ; (d) de centraliser et
de fournir des mthodes daccs aux recommandations de dcisions mises lors des
TiLT : plate-forme pour le TALN 33
tapes de contrle ; (e) dobtenir une traabilit complte des rsultats des tapes de
contrle.
Afin de garantir lapplicabilit de ce module aux diffrents cas dindterminations
qui peuvent apparatre au cours de processus danalyse, nous lui avons octroy une
place prpondrante au cur de larchitecture initiale de traitement (voir figure 1).
Cette intgration dlicate au sein dune architecture logicielle existante complexe a pu
tre ralise en exploitant les proprits du paradigme de conception oriente objets.
Nous avons notamment procd une abstraction de la notion de module de traite-
ment, de laquelle hritent tous les modules prsents au cours de la section 3 et de la
notion dhypothse dinterprtation, de laquelle hritent tous les objets linguistiques
participant la construction de linterprtation finale (segments, terminaux, ensembles
de traits, constituants, arbres de dpendance, graphes smantiques, etc.). Ainsi chaque
module de traitement dispose de fonctionnalits centralises lies la manipulation
(instanciation, modification, accs) de critres de comparaison sur les hypothses din-
terprtation quil manipule. Diffrentes informations distinctives associes aux objets
linguistiques ou provenant de sources de connaissances supplmentaires peuvent alors
tre formalises sous la notion commune de critre de comparaison et tre associes
aux hypothses concurrentes pour qualifier leur pertinence relative.
Outre ces fonctionnalits de gestion des critres de comparaison, ce module dci-
sionnel permet chaque module de traitement de dfinir des tapes de contrle. En
rfrenant une configuration externalise dfinissant notamment les critres exploi-
ter et les paramtres dcisionnels utiliser, un module de traitement peut regrouper
au sein dune structure de comparaison des hypothses concurrentes et appliquer une
opration de contrle. Laspect dclaratif du module de contrle se traduit par une
externalisation de lensemble des lments de configuration et permet ainsi dinfluen-
cer le comportement du processus de traitement sans modifier le code des modules.
Ceci contribue la recherche dindpendance des modules vis--vis de la langue et du
contexte applicatif.
Lapplication de la mthodologie de comparaison des hypothses concurrentes g-
nre donc une recommandation de contrle, qui est ensuite exploite par le module de
traitement pour dterminer lordre de propagation des hypothses vers les modules de
niveau suprieur ou pour filtrer certaines hypothses juges non pertinentes.
On constate travers la description du fonctionnement du module de contrle et
de son intgration au sein de larchitecture de traitement (voir figure 1), que nous nous
rapprochons de la notion de contrleur prsent dans les architectures distribues de
traitement tel que les tableaux noirs (Bachimont, 1992).
notamment : (a) lidentification par tri des liens de corfrence entre expressions (voir
4.6.1) ; (b) la slection dune meilleure transcription de SMS (4.6.2).
Figure 7. Rsultats obtenus lors du contrle dun processus didentification des liens
de corfrence
La problmatique vise par la mise en place dune stratgie de contrle est donc
le tri des paires extraites en deux classes : celle des paires valides et celle des paires
non valides comme corfrentes. Pour obtenir ce tri, nous avons demand un ex-
pert de mettre en place un modle de prfrences dfinissant la faon dont les critres
doivent tre exploits pour identifier les paires dexpressions corfrentes. Nous avons
ensuite exploit les heuristiques dinterprtation de corpus de rfrence pour sugg-
rer automatiquement un modle de prfrences. Dans un troisime temps, nous avons
suggr ces paramtres dtermins de manire empirique lexpert afin quil com-
plte ou rvise ses jugements initiaux, ceci permettant davoir un troisime modle de
prfrences qualifi de mixte. Pour mieux apprhender la qualit du contrle par tri
effectu par notre approche par surclassement, nous avons compar les rsultats avec
ceux obtenus laide dune mthode classique de classification : les arbres de dci-
sion (algorithme C4.5). La figure 7 illustre en terme de F-Mesure les rsultats obtenus.
On constate que les rsultats obtenus laide dune approche par surclassement sont
meilleurs que ceux obtenus avec les arbres de dcision. De plus, on remaxrque que
lexpert dispose de connaissances a priori et dune comprhension de la smantique
des diffrents paramtres dcisionnels suffisantes pour mettre en place une stratgie
de contrle efficace. De mme, les bons rsultats obtenus laide du modle suggr
attestent de la pertinence des heuristiques dinterprtation des corpus de rfrence. En
TiLT : plate-forme pour le TALN 35
10. http:// www.alapage.com/ . Il est noter que les fonctionnalits optimales de TiLT ne sont
possibles quavec une synchronisation rgulire des donnes de TiLT et des bases Alapage.
11. http:// www.118712.fr/ , le site Web correspondant au numro des renseignements dOrange
118 712.
12. http:// www.pagesjaunes.fr/
38 TAL. Volume 49 no 2/2008
5.2. Abrgeur
Pour un texte donn (page Web, document), labrgeur fournit un rsum et une
liste de mots-cls. Le rsum est gnr en identifiant les phrases reprsentatives du
texte source (Renouf et Collier, 1995). Contrairement aux mthodes de rsum pure-
ment statistiques, labrgeur TiLT sappuie sur une mthode mixte, statistique et lin-
guistique qui permet de discerner plus efficacement les informations pertinentes dans
un texte. Lanalyse linguistique permet, par exemple, de reconnatre les diffrentes
variantes dun mot (conjugaison des verbes, formes flchies des noms et adjectifs,
etc.), didentifier les squences de mots correspondant un concept prcis (mots com-
poss, noms de personnes), de filtrer les mots faiblement informatifs (mots-outils ou
supports), etc. La taille du rsum peut tre choisie en nombre de phrases ou en pour-
centage du texte source. Labrgeur est multilingue et couvre, dans sa version actuelle,
sept langues : franais, anglais, espagnol, allemand, polonais, portugais et arabe. Des
prtraitements documentaires permettent de prendre en compte un certain nombre de
formats de documents (texte simple, Word, PDF, Postscript et HTML). Labrgeur
TiLT est dj intgr dans plusieurs services ou prototypes internes France Tlcom.
Il a galement t intgr dans une importante plate-forme documentaire de veille.
En terme de performances, la version actuelle de labrgeur TiLT, implmente
sur une machine similaire celle mentionne prcdemment, est capable de traiter,
en une minute, prs de 54 documents de 8 pages13 environ (ou approximativement
19 documents de 32 pages ou encore 3 documents de 128 pages), ce qui traduit une
performance pondre de prs de 500 pages par minute. Dans une version spcifique
optimise pour des flux documentaires de veille, labrgeur est sollicit pour traiter
plusieurs milliers de documents par jour.
Une autre instance de TiLT est utilise dans un service oprationnel dOrange pour
la vocalisation des SMS. Ce service permet de recevoir un SMS sur un tlphone fixe
quelles que soient les caractristiques du terminal fixe rcepteur. Si le tlphone ne
permet pas la lecture de messages, les SMS sont vocaliss. TiLT transcrit si besoin le
SMS en franais standard en amont de la synthse vocale. Le trafic actuel du service
est de lordre de 20 000 30 000 SMS par jour bien que les tests de charge montrent
une capacit de traitement dau moins 240 000 SMS par jour.
6. Conclusion
Remerciements
Nous remercions les nombreux collgues qui, depuis des annes, ont contribu
la conception et au dveloppement des modules et des donnes linguistiques de
TiLT : Frdrique Arga, Olivier Collin, Arnaud Debeurme, Pascal Filoche, Michel
Gilloux, Edmond Lassalle, Gilles Le Calvez, Patrick Le Dvdec, Jean-Michel Om-
brouck, Frdrique Pinson, Gilles Prigent, Olivier Tardif et Jrme Vinesse. Nous re-
mercions aussi tous les doctorants, post-doctorants, stagiaires et intervenants externes
pour leurs contributions.
15. http:// www.w3.org/ TR/ rdf-sparql-query/
40 TAL. Volume 49 no 2/2008
7. Bibliographie
Adda G., Mariani J., Paroubek P., Rajman M., Lecomte J., Mtrique et premiers rsultats de
lvaluation GRACE des tiqueteurs morpho-syntaxiques pour le franais , TALN, p. 15-
24, 1999.
Amblard M., Heinecke J., Maillebuau E., Discourse Representation Theory et graphes sman-
tiques. formalisation smantique en contexte industriel , TALN, p. 350-359, 2008.
Audibert L., Dsambigusation lexicale automatique : slection automatique dindices ,
TALN, p. 13-23, 2007.
Bachimont B., Le contrle dans les systmes base de connaissances, Hermes, 1992.
Blache P., Rauzy S., Mcanismes de contrle pour lanalyse en grammaires de proprits ,
TALN, p. 415-424, 2006.
Boualem M., Almeida L., Amdal I., Beires N., Boves L., den Os E., Filoche P., Gomes R.,
Knudsen J. E., Kvale K., Rugelbak J., Tallec C., Warakagoda N., Multimodal, multilin-
gual information services for small mobile terminals, Eurescom MUST project , TALN,
workshop NLP techniques for speech analysis, Nancy, p. 113-118, 2002.
Bourigault D., Frrot C., Ambigut de rattachement prpositionnel : introduction de res-
sources exognes de sous-catgorisation dans un analyseur syntaxique de corpus endo-
gne , TALN, 2004.
Bov R., Chardenon C., Jean V., Impact des disfluences sur lanalyse syntaxique automatique
de loral , TALN, p. 103-111, 2006.
Chagnoux M., Heinecke J., Aligner ontologies et langues naturelles. grer la synonymie ,
Plateforme AFIA. Atelier thmatique : Ontologies et Gestion de lHtrognit Sman-
tique, Grenoble, p. 87-94, 2007.
Charniak E., Coarse-to-fine n-best parsing and MaxEnt discriminative reranking , 43rd ACL,
p. 233-240, 2005.
Dasiopoulou S., Heinecke J., Saathoff C., Strintzis M. G., Multimedia reasoning with natural
language support , IEEE-Int. Conference on Semantic Computing, p. 413-420, 2007.
Fairon C., Paumier S., A translated corpus of 30 000 French SMS , LREC, 2006.
Fellbaum C., WordNet. An Electronic Lexical Database, MIT Press, Cambridge, MA., 1998.
Guimier de Neef E., Boualem M., Chardenon C., Filoche P., Vinesse J., Natural language
processing software tools and linguistic data developed by France Tlcom R&D , Indo
European Conference on Multilingual Technologies, Pune, India, 2002.
Guimier de Neef E., Debeurme A., Park J., TiLT correcteur de SMS : valuation et bilan
quantitatif , TALN 2007, Toulouse, p. 123-132, 2007.
Guimier de Neef E., Fessard S., valuation dun systme de transcription de SMS , Lexique
et Grammaire 2007, Bonifaccio, p. 217-224, 2007.
Heinecke J., Gnration automatique des reprsentations ontologiques , TALN, Presses uni-
versitaires de Louvain, Louvain, p. 502-511, 2006.
Heinecke J., Toumani F., A Natural Language Mediation System for E-Commerce applica-
tions. An ontology-based approach , Workshop Human Language Technology for the Se-
mantic Web and Web Services. ISWC, p. 39-50, 2003.
Iheddadene M., Traduction automatique. tude et ralisation dun module de gnration partir
dune reprsentation smantique interlingue, PhD thesis, Universit de Provence, 2006.
TiLT : plate-forme pour le TALN 41
Kervajan L., Guimier de Neef E., Breton G., Vers un systme de traduction automatique fran-
ais/langue des signes franaise , T.A.L., 2007.
Kononenko I., Estimating attributes : Analysis and extensions of RELIEF , European Confe-
rence on Machine Learning, 1994.
Lassila O., Swick R., Resource Description framework (RDF) Model and Syntax Specifica-
tion , 1999. http://www.w3.org/TR/REC/rdfsyntax.
Lger A., Michel G., Gitton S., Barrett P., Gmez-Prez A., Lehtola A., Mokkila K., Rodri-
gez S., Sallentin J., Varvarigou T., Vinesse J., Ontology domain modeling support for
multi-lingual services in E-Commerce : MKBEEM , ECAI. Workshop on Applications of
Ontologies and Problem-Solving Methods, 2000.
Liu W., Li H., Dong Y., He N., Luo H., Wang H., France Telecom R&D Beijing Word Segmen-
ter for Sighan Bakeoff 2006 , 5th SIGHAN Workshop on Chinese Language Processing,
ACL, Sidney, p. 122-125, 2006.
McGuinness D. L., van Harmelen F., OWL Web Ontology Language Overview , 2004.
http://www.w3.org/TR/2004/REC-owl-features-20040210/.
Melcuk I. A., Dictionnaire explicatif et combinatoire du franais contemporain. Recherches
lexico-smantiques III, Presses de lUniversit de Montral, Montral, 1992a.
Melcuk I. A., Paraphrase et lexique : La thorie sens-texte et le dictionnaire explicatif et
combinatoire , in I. A. Melcuk (ed.), Dictionnaire explicatif et combinatoire du fran-
ais contemporain. Recherches lexico-smantiques III, Presses de lUniversit de Montral,
Montral, p. 9-58, 1992b.
Melcuk I. A., Arbatchewsky-Jumarie N., Iordanskaja L., Mantha S., Polgure A., Dictionnaire
explicatif et combinatoire du franais contemporain. Recherches lexico-smantiques IV,
Presses de lUniversit de Montral, Montral, 1999.
Melcuk I. A., Polgure A., Introduction la lexicologie explicative et combinatoire, Editions
Duculot, 1984.
Park J., Maillebuau E., Guimier De Neef E., Vinesse J., Heinecke J., Evaluating an Interlin-
gual Semantic Representation , in K. Gerdes, T. Reuther, L. Wanner (eds), Meaning - Text
Theory 2007, Mnchen - Wien, 2007.
Paroubek P., Vilnat A., Robba I., Ayache C., Les rsultats de la campagne EASY dvaluation
des analyseurs syntaxiques du franais , TALN, Toulouse, p. 243-252, 2007.
Ptrier E., Construction automatique dun lexique drivationnel par lexemple , RECITAL,
Lausanne, 2000.
Renouf A., Collier A., A System of Automatic Textual Abridgement , 15th AI, p. 395-407,
1995.
Roy B., Bouyssou D., Aide Multicritre la Dcision : Mthodes et Cas, Economica, 1993.
Smits G., Une approche par surclassement pour le contrle dun processus danalyse linguis-
tique, PhD thesis, Universit de Caen, 2008.
Smits G., Tardif O., Resolving coreference using an outranking approach , Recent Advances
in Natural Language Processing (RANLP), 2007.
Sowa J. F., Conceptual Structures. Information Processing in Mind and Machine, Addison-
Wesley, Reading, MA., 1984.
Tesnire L., lments de syntaxe structurale, Klincksieck, Paris, 1959.