Вы находитесь на странице: 1из 25

TiLT : plate-forme pour le traitement

automatique des langues naturelles

Johannes Heinecke* Grgory Smits** Christine Chardenon*


Emilie Guimier De Neef* Estelle Maillebuau* Malek
Boualem*
* Orange Labs
2, avenue Pierre Marzin
F-22307 Lannion cedex
{johannes.heinecke, christine.chardenon, emilie.guimierdeneef, estelle.maillebuau,
malek.boualem}@orange-ftgroup.com
** ENSSAT
6, rue Kerampont
F-22300 Lannion
gregory.smits@univ-rennes1.fr

RSUM. Cet article dcrit une plate-forme de TALN, modulaire et multilingue, enrichie dun
systme de contrle bas sur laide multicritre la dcision. La prsentation est complte
par une description des donnes linguistiques utilises ainsi que des applications bases sur
cette technologie.
ABSTRACT. This article describes a modular and multilingual NLP platform, which is enriched
by a system of multicriteria decision-aid. Further we describe the linguistic data used by this
platform as well as the applications based on its technology.
MOTS-CLS : bote outils TALN, architecture modulaire et symbolique, analyse lexicale, syn-
taxique et smantique, ontologies, multilinguisme, aide multicritre la dcision, ressources
linguistiques riches, indpendance donnes/traitements.
KEYWORDS: NLP toolbox, modular and data-driven architecture, lexical, syntactic and seman-
tical analysis, ontologies, multilinguism, multicriteria decision-aid, rich linguistic ressources,
separation of processing and data.

TAL. Volume 49 no 2/2008, pages 17 41


18 TAL. Volume 49 no 2/2008

1. Introduction

France Tlcom mne des activits de R & D sur le traitement automatique des
langues depuis prs de deux dcennies. Les travaux sur le traitement du langage na-
turel crit sont mens notamment au sein de lquipe Langues Naturelles de Orange
Labs1 . Compte tenu de la dimension internationale de France Tlcom et de la po-
pularisation, de plus en plus croissante, des moyens de communication, faciliter le
traitement et laccs linformation dans un grand nombre de langues revt un intrt
particulier dans les activits de R & D. Les solutions lies au traitement automatique
des langues naturelles sont ainsi mises la disposition des utilisateurs (accs aux an-
nuaires et aux bases de donnes, recherche dinformation, etc.). Pour rpondre aux
besoins en matire daccs linformation, une plate-forme industrielle de TALN,
baptise TiLT (traitement linguistique des textes), a t mise en place Orange Labs
(Guimier de Neef et al., 2002). Cet article est orient vers une approche descriptive
de TiLT qui tente den souligner un certain nombre de caractristiques lies aux pro-
blmatiques architecturales et mthodologiques. Il est noter que cette description
concerne essentiellement lanalyse linguistique et naborde que trs sobrement la g-
nration. Aprs avoir prsent les choix architecturaux, les diffrents modules de la
plate-forme et les ressources linguistiques ncessaires son fonctionnement, nous
nous intressons linteroprabilit des diffrents composants travers le prisme du
contrle des processus danalyse linguistique ralisables par la plate-forme. Enfin,
nous terminons par une prsentation des applications oprationnelles utilisant TiLT.

2. Architecture de la plate-forme TiLT

2.1. Choix architecturaux

Linterprtation linguistique dun nonc crit est souvent prsente comme re-
posant sur un ensemble de niveaux danalyse et de connaissances. Lune des plus
grandes difficults souleves par le TALN est la gestion de lindniable interdpen-
dance et complmentarit de ces niveaux danalyse. De nombreux systmes se sont
inspirs des modles cognitifs issus des travaux en psycholinguistique pour concevoir
des architectures informatiques de traitement respectant les proprits de paralllisme,
de complmentarit et dinterdpendance des connaissances et des tapes danalyse.
Cependant, bien que thoriquement justifiables, ces dveloppements se sont en
pratique heurts de nombreuses difficults, telles que la gestion des communica-
tions entre les niveaux danalyse, la formalisation des structures de connaissances ou
encore lefficacit des algorithmes de traitement. Cette vision thorique soppose ou
plutt se complte par une approche plus pragmatique considrant le TALN comme
un ensemble de technologies au service des applications. Sinscrivant dans cette der-
nire vision et sans doute influencs par des impratifs lis au contexte industriel,

1. Anciennement CNET - Centre National dtudes des Tlcommunications et ensuite France


Tlcom R & D
TiLT : plate-forme pour le TALN 19

nous nous sommes bass sur des modles informatiques classiques pour concevoir
une architecture plus facile dvelopper, maintenir et tendre avec de nouvelles
fonctionnalits.
Ainsi, la plate-forme TiLT a t dveloppe en privilgiant des proprits dadapta-
bilit, dextensibilit et de maintenance. Ceci a conduit au morcellement du processus
danalyse en modules de traitement. Lorganisation de lapplication des diffrents mo-
dules de traitement est gre par une approche squentielle, o diffrents modules de
traitement spcifiques peuvent tre appliqus successivement pour atteindre le niveau
dinterprtation souhait. Afin de pallier les limites de cette approche, des structures
de stockage des hypothses dinterprtation intermdiaires ont t dfinies de ma-
nire centralise, pour que les modules de traitement puissent exploiter lensemble des
connaissances gnres suite lapplication dautres modules. La stratgie dapplica-
tion successive des modules de traitement est dfinie de manire externalise dans un
fichier de configuration, garantissant ladaptabilit du systme mais permettant ga-
lement de rompre la squentialit de lapproche. Ainsi, sous rserve de respecter cer-
taines contraintes de dpendance forte entre modules, il est possible dinjecter dans
les structures de stockage centralises des connaissances issues de lapplication dun
module de traitement et de relancer lapplication de modules de plus bas niveau afin
quils prennent en compte ces connaissances initialement non disponibles.2
Le schma en figure 1 expose dune faon simplifie larchitecture globale de la
plate-forme TiLT. En fonction dune stratgie, des donnes linguistiques, du texte
analyser et de la configuration des modules de la plate-forme, un module nomm
stratge appelle les diffrents modules pour un traitement spcifique. Les rsultats de
chaque module sont entreposs dans un graphe danalyse (treillis). Afin de pouvoir
prendre une dcision en cas dambiguts, un contrle multicritre (voir section 4)
exploite des critres associs aux rsultats concurrents.

2.2. Multilinguisme et ressources linguistiques de la plate-forme TiLT

Lune des principales proprits de la plate-forme TiLT est sa conception mul-


tilingue, non seulement pour traiter des documents en diffrentes langues (multi-
monolingue, par ex. voir section 5.2) mais aussi pour raliser des applications in-
terlingues (comme le CLIR3 ou la traduction automatique). Ainsi, afin de faciliter le
passage dune langue lautre, chaque module de traitement a t dfini de manire
la plus dclarative possible, permettant ainsi une sparation rigoureuse entre les algo-
rithmes de traitement et les connaissances linguistiques exploites. De ce fait, TiLT est
aussi indpendant que possible des langues traites. Il est utilisable, avec des niveaux
de couverture variables, pour des langues europennes (franais, anglais, allemand,
espagnol, portugais), pour larabe ou encore le chinois. Des travaux ont aussi t ra-

2. Par ex., lapplication de lanalyse en dpendance ddie la reconnaissance dentites nom-


mes permet dajouter des hypothses lexicales avant le dcoupage en constituants (cf. 3.4).
3. Cross language information retrieval, voir aussi section 5.4
20 TAL. Volume 49 no 2/2008

Grammaires Thsaurus
Rglesd'identification Rglesde (chunking, rglesde
Ressources Lexiques
delangue segmentation dpendance) construction
linguistiques

Modulesde Identificateurde Segmenteur Analyseur Analyseur Analyseur


traitement langue/encoding lexical syntaxique smantique

Modlesde
Stratgied'analyse: prfrences
segmentation
analyselexicale
contrlelexical Stratge
analysesyntaxique
contrlesyntaxique Oprateurs
... dcisionnels
Graphed'analyse Encapsulationdes
Hypothses (structuredestockagedes mthodesd'accs
stockes hypothseslinguistiques) auxhypothses
linguistiques
Basedecritres,
structuresde
Hypothseslinguistiques
prfrences,
classes,tries
tri,prordre,
ouslectionnes slection

Figure 1. Schma de larchitecture fonctionnelle de TiLT

liss sur la langue des signes franaise (LSF, voir fin section 3.6.1). Le lien entre les
langues, dans le cas des applications multilingues, est vhicul travers le thsau-
rus smantique (cf. 3.6.2) qui dfinit les concepts utiliss dans les traitements dordre
smantique.
Un outil interne lquipe permet dadapter les donnes gnriques de chaque
langue une application donne notamment en limitant ou spcialisant le vocabulaire
ncessaire ainsi que les grammaires ou les donnes smantiques. Les donnes utili-
ses par chaque module sont compiles de manire en optimiser laccs en vitesse
mme en trs grande volumtrie (par ex. 1 000 000 entres lexicales ou relations du
thsaurus).

2.3. Configuration et interoprabilit de la plate-forme TiLT

Le comportement des modules est entirement contrl par des fichiers de configu-
ration. Ces derniers spcifient les donnes utiliser (telles que lexiques, grammaires,
thsaurus, voir section 3), des paramtres et stratgies pour le contrle et lanalyse
ainsi que lordre des tapes de lanalyse. Certaines donnes (notamment pour liden-
TiLT : plate-forme pour le TALN 21

tification de langue) et fichiers de configuration associs sont crs automatiquement.


TiLT peut tre coupl avec des modules externes en entre ou en sortie (par ex. la
segmentation pour le chinois, (Liu et al., 2006) ou la synthse vocale).
La plate-forme TiLT est oprationnelle sous Linux et Windows (XP). Elle peut tre
dploye soit comme serveur HTTP, soit comme bibliothque dynamique (C/C++,
des interfaces pour Java, Python et Perl existent aussi). Pour faciliter le dveloppement
et les tests sur les donnes linguistiques, une interface graphique permet la visualisa-
tion de tous les modes dapplications et les rsultats intermdiaires des traitements.
Afin de pouvoir communiquer avec dautres outils, TiLT permet de sortir les rsul-
tats du traitement en XML. Cette sortie peut tre modifie en spcifiant TiLT des
fichiers XSLT. En entre, les modules de TiLT acceptent les encodages standard :
soit le codage 8-bits en fonction de la langue utilise, cest--dire ISO-8859-1 ou
ISO-8859-15 pour la plupart des langues occidentales, ISO-8859-2 pour les langues
dEurope de lEst (dans notre cas le polonais), ou encore ISO-8859-6 ou CP-1256
pour larabe. Les lexiques chinois sont cods en GB-2312 ou en B IG -5. Dans tous
les cas, TiLT permet danalyser des textes en UTF-8 (unicode). La plate-forme elle-
mme accepte des textes bruts ou des documents XML (qui doivent tre accompagns
par un fichier XSLT afin de pouvoir extraire les parties textuelles traiter).

3. Modules de la plate-forme

Nous distinguons deux types de modules : ceux qui sont prsents dans toutes les
applications parce quils fournissent une fonctionnalit fondamentale pour le TALN
(comme lanalyse lexicale ou syntaxique) et ceux qui mettent en uvre une applica-
tion spcifique comme le rsum automatique ou le traitement des requtes dutilisa-
teurs que nous ne dcrirons pas fonctionnellement dans le cadre de cet article (voir
section 5 pour leurs cas dutilisation).

3.1. Identification de langue

La plate-forme TiLT tant conue dune faon multilingue, le premier composant


appel sur un texte est un identificateur de langue4 . Il est bas sur trois mthodes
combinables en fonction de la taille du texte (trigrammes, avec lexiques, avec patrons
morphologiques). En plus de la langue identifie, lidentificateur rend aussi le codage
du texte (UTF-8, ISO-8859-1, etc.). Le choix des diffrentes mthodes se fait en
fonction de la taille du texte analyser : lidentification par trigramme est peu fiable
sur des noncs trs courts (< 15 caractres).
4. Nous disposons actuellement des donnes permettant de distinguer environ 40 langues.
22 TAL. Volume 49 no 2/2008

3.2. Segmentation de la phrase

Cette tape consiste dcouper la phrase en segments, en fonction des donnes


de segmentation dcrites sous la forme dexpressions rgulires. Chaque segment
est constitu dun type et dune chane de caractres. Le type permet dorienter les
traitements postrieurs effectus sur ce segment. Un exemple de rsultat de cette
tape pour une phrase comme Lanne 2007 tait bonne ! est L[MOT] an-
ne[MOT] [ESPACE] 2007[ANNE] [ESPACE] tait[MOT] [ESPACE] bonne[MOT]
[ESPACE] ![POINT] .

3.3. Analyse lexicale et types de correction

Cette phase consiste appliquer des actions chaque segment identifi, en fonction
de son type, afin de lui associer les interprtations lexicales qui lui correspondent. Ces
objets, appels terminaux , sont stocks dans le graphe danalyse comme le sont
les segments (figure 1). Par rapport lexemple de section 3.2 on ne va pas rechercher
dans le lexique des chanes qui ont t types ANNE ou POINT, en revanche toutes
celles types MOT feront lobjet dun accs au lexique.
Chaque lexique monolingue comporte les informations morphologiques, phon-
tiques et syntaxiques des units lexicales de la langue, ainsi que leur dcoupage en
sens. Classiquement, chaque unit lexicale est rfrence par un lemme auquel est
attach un code flexionnel correspondant un paradigme graphique et phontique.
Lalignement entre graphie et phontique rend possible la fonctionnalit de correc-
tion phontique du logiciel. Des descripteurs morphologiques et syntaxiques (genre,
nombre, auxiliaire de conjugaison, valence, etc.) distinguent les formes flchies deux
deux et encodent les comportements syntaxiques des entres lexicales.
Les entres lexicales peuvent tre de type mot simple ou locution : pomme ,
rendez-vous , animal de compagnie , Banque nationale de Paris ; un mca-
nisme spcifique du module danalyse permet dans ce cas de crer les interprtations
correspondant des locutions connexes si tous les lments de ces locutions sont
prsents dans la phrase analyse. Les entres peuvent tre des formes contractes :
desquelles ou au pour le franais, vom , del ou gonna pour lalle-
mand, lespagnol ou langlais ou tre des clitiques : alkitab ou sayaktubuhu
pour larabe.
Si un mot est inconnu du lexique, diffrentes mthodes de correction peuvent lui
tre appliques : correction par raccentuation, correction phontique, correction ty-
pographique, etc. Un mcanisme danalyse morphologique peut tre aussi appel pour
complter les analyses dun mot ou le corriger. Il est important de noter que lemploi
de mthodes de correction sur les mots inconnus peut avoir pour consquence qu
un segment unique correspondent des formes lexicales multiples. Par exemple, la cor-
rection par raccentuation de peche donne pche (le fruit ou lacte de prendre
du poisson), pch (la faute), pche (une des formes conjugues de pcher
TiLT : plate-forme pour le TALN 23

lacte de commettre une faute). Le rsultat de lanalyse lexicale de peche sera donc
lensemble des rsultats des analyses lexicales des trois formes cites.

3.4. Analyse syntaxique : dcoupage en constituants syntaxiques

Le module de dcoupage en constituants syntaxiques (chunking) a pour rle prin-


cipal de construire une analyse syntaxique de surface (shallow parsing). Il sappuie
sur les rsultats de lanalyse minimale. Le but du dcoupage en constituants est :
de regrouper les terminaux de mmes catgories et correspondant un mot donn
au sein dun objet unique (GS1). partir des GS1 on cre des syntagmes minimaux
(constituants syntaxiques ou chunks) initiaux ;
dappliquer des rgles hors contexte pour crer des constituants syntaxiques
partir des GS1 ; par exemple, le bloc de rgles de la figure 2 ( gauche) dcrit, sans
exhaustivit, la composition possible dun groupe nominal en franais : dterminant
+ adjectif + nom avec optionnalit de ladjectif. Avec ces quatre rgles et la portion
de texte le petit rouge , un seul constituant syntaxique factorise les trois analyses
possibles montres droite dans la mme figure ;
de vrifier des contraintes daccord au sein des constituants par un mcanisme
dunification pour assurer la cohrence grammaticale du groupe ; dans lexemple de la
figure 2 la contrainte daccord associe aux constituants de type GNN5 vrifie laccord
en genre et en nombre de ladjectif, du dterminant et du nom ;
de slectionner une suite de constituants syntaxiques respectant deux deux des
contraintes de squentialit. La stratgie de base consiste slectionner les consti-
tuants syntaxiques les plus longs possibles de la gauche vers la droite. Prcisons que
cette stratgie peut tre remise en cause par le mcanisme de contrle (cf. 4.6.2).

GND + GNA GNA


(le/GND petit_rouge/GNN)
GNA + GNN GNN
(le/GND petit/GNA rouge/GNN)
GND + GNN GNN
(le/GND petit/GNN rouge/GNA)
GNN + GNA GNN

Figure 2. Exemple de rgles de chunking ( gauche) et le rsultat de leur application

Le rsultat de cette tape est le dcoupage en constituants de la phrase. Chaque


constituant peut tre ambigu en termes de suites de GS1 et donc de terminaux. Des
mcanismes de pondration permettent de restituer une solution unique pour obtenir
une dsambigusation morphosyntaxique des segments de la phrase (part-of-speech
tagging). Les grammaires de dcoupage en constituants syntaxiques des diffrentes

5. GNN : nom commun/groupe nominal, GNA : adjectif/groupe adjectival, GND : dterminant.


Les parties gauche de la premire partie des rgles ainsi que la partie droite (aprs la flche)
sont des constituants, les parties droite de la premire partie des rgles sont des GS1.
24 TAL. Volume 49 no 2/2008

langues ont t constitues manuellement daprs observations sur corpus. Le nombre


de rgles pour chacune des langues couvertes varie entre 1 000 et 2 000. Lanalyseur
a t valu sur le franais dans le cadre de la campagne GRACE (Adda et al., 1999)
avec une prcision suprieure 95 %.

3.5. Analyse syntaxique : dpendance

Dans cette tape, on utilise une grammaire de dpendance (Tesnire, 1959) pour
construire une analyse syntaxique arborescente dans laquelle les relations fonction-
nelles de la phrase sont exprimes. Ces relations syntaxiques sont construites entre les
diffrents groupes de premier niveau (GS1) dune phrase.
Pour y parvenir, on utilise des contraintes non locales telles que les complments
rgis par une tte lexicale ou laccord entre les groupes syntaxiques. La grammaire de
dpendance se compose de rgles de cration de sous-arbres telles que la rgle GV-5
(voir figure 3). Celle-ci permet lattachement dun pronom sujet une tte verbale :
SUJ est le type de relation cr. GV-PT est la catgorie de la tte (principal ; P), PRN-
S celle du dpendant (D). Le symbole >> exprime lordre linaire entre la tte et
le dpendant, ici le dpendant prcde la tte. Les ConditionsPrincipales expriment
les contraintes sur la tte : IMPERS SUJ_REMPLI le verbe tte ne doit
pas tre impersonnel et ne pas dj avoir un sujet. Des contraintes sur le dpendant
peuvent tre prcises si besoin. Les clauses P/NOMBRE unifier D/NOMBRE
et P/PERSONNE unifier D/PERSONNE des AutresConditions sassurent de
laccord entre le pronom (ici le dpendant) et le verbe (ici le principal) par unification
des traits de nombre et de personne. Le trait SUJ_REMPLI/+ sajoute aux traits
de la tte pour bloquer lattachement de plusieurs sujets sur un mme verbe.

IdentifiantUnique GV-5
RelationSyntaxique SUJ
Schma GV-PT >> PRN- S
ConditionsPrincipales SUJ_REMPLI IMPERS
AutresConditions P rajouter SUJ_REMPLI/+
P/NOMBRE unifier D/NOMBRE
P/PERSONNE unifier D/PERSONNE

Figure 3. Exemple dune rgle de dpendance

On ne cherche pas forcment traiter tous les phnomnes syntaxiques dune


langue donne ; par exemple pour le franais (la langue la mieux couverte), on vise
traiter :(a) la syntaxe des principaux groupes : groupes nominaux (avec noms propres
et noms communs), groupes verbaux et groupe adjectivaux ; (b) les phnomnes de
sous-catgorisation ; (c) les phnomnes dalternances syntaxiques les plus saillantes ;
(d) les principaux types de circonstants ; (e) les principaux types de subordonnes ;
(f) les principales tournures interrogatives ; (g) les principaux cas de coordination ;
TiLT : plate-forme pour le TALN 25

(h) la grammaire des dates et des heures. Larbre de dpendance en figure 4 montre le
rsultat dune analyse. Lanalyse est montante, et se fait par lots, ce qui permet une
certaine robustesse. Dans le cas o la grammaire ne permet pas de produire un arbre
syntaxique pour toute une phrase, TiLT produit un ensemble darbres syntaxiques, o
chaque arbre reprsente un tronon de la phrase.

Figure 4. Arbre de dpendance pour Jean a gagn la finale

Lanalyseur a t valu dans le cadre de la campagne EASY (Paroubek et al.,


2007) (systme P1) et a montr sa robustesse par la stabilit de ses rsultats sur les
diffrents types de corpus tests (oral, presse, Web . . .).

3.6. Analyse smantique

3.6.1. Graphes smantiques


Lanalyse smantique construit une reprsentation du sens de la phrase, sous forme
dun graphe conceptuel (Sowa, 1984) le plus indpendant possible de la structure syn-
taxique. Ces graphes sont orients et acycliques ; par exemple la phrase anglaise Jean
won the final ou le passif Cette finale a t gagne par Jean produisent le mme
graphe. Il est noter quil ne sagit pas dune logique du premier ordre mais plutt
dune structure prdicat-argument : la quantification, par exemple, nest pas modli-
26 TAL. Volume 49 no 2/2008

se, pas plus que la porte de la ngation, la smantique du discours ou la modlisation


du focus et du thme.
Pour parvenir au calcul du graphe, plusieurs types de donnes et reprsentations
sont mobiliss, en particulier les donnes de smantique lexicale regroupes dans le
thsaurus (voir section 3.6.2). Le graphe smantique est calcul partir de lana-
lyse en dpendance. Chaque nud de larbre est parcouru et associ un ou plu-
sieurs prdicats. Pour lnonc Jean gagne la finale , REL_EVENT.gagner(agent=x1 ,
situation=x2 , thme=x3 ) est le prdicat associ gagner, playerJean(x1 ) celui de
Jean, et EVENT.finale_match celui de finale. Les diffrents prdicats sont lis en fonc-
tion des relations syntaxiques de larbre de dpendance. Par exemple, la relation de d-
pendance SUJ entre Jean et gagne est exploite par la rgle : SUJ : P/suj = D/narg0 .
afin de lier les prdicats associs (playerJean et REL_EVENT.gagner). Cette rgle
peut sinterprter comme dans la relation SUJ, les variables doivent tre unifies
entre litem qui a la fonction sujet dans le principal et litem qui a la fonction narg0 du
dpendant . Le graphe smantique de Jean gagne la finale est donn en figure 5.

x329587 u329581 x329582

who
ref
class name firstname
hasSocialRole
firstname~Jean

sit NP~Person
player~Jean REL_EVENT.gagner role REL_EVENT.gagner

theme experiencer
ref experiencer situation u329590 theme situation
x329542
x330856
x329541
x330857 u330855 u329540

situation
class
detd detd situation

NP~Player DEF.artDef EVENT.finale_match


DEF.artDef EVENT.finale_match

Figure 5. Graphe smantique pour Jean gagne la finale (avant et aprs lapplication
des rgles de transformation)

En fonction de lapplication, des rgles de transformation peuvent tre utilises


afin de transformer des parties du graphe, rajouter ou supprimer des prdicats, notam-
ment pour faire merger les prdicats partir des traits morphologiques (comme
temps, aspect ou encore nombre). Le graphe de gauche en figure 5 est transform
en celui de droite afin de crer des reprsentations ontologiques (cf. section 3.7). Des
perspectives pour amliorer cette approche sont dcrites dans (Amblard et al., 2008).
Tous les arbres issus de lanalyse en dpendance sont a priori utilisables pour la
cration des graphes, ce qui entrane une explosion combinatoire. En effet, lambigut
des mots et des structures morphosyntaxiques multiplie le nombre de graphes obtenus.
Pour limiter lexplosion, et afin dobtenir le graphe le plus adquat, nous utilisons des
heuristiques simples : limitation du nombre darbres en dpendance en fonction de
leur pertinence syntaxique ; suppression des doublons de graphes, tri et slection en
fonction de leur connectivit. Bien entendu, la construction des graphes dpend de la
qualit de lanalyse en dpendance et de la couverture du thsaurus. cause de la
limitation des phnomnes traits par la dpendance on ne peut pas traiter des phrases
TiLT : plate-forme pour le TALN 27

syntaxiquement complexes. En revanche, pour les phrases de type requtes utilisateur


(je cherche un train pour Londres lundi prochain) dans un domaine smantiquement
limit, nous avons montr quil tait possible de mettre au point les donnes linguis-
tiques ncessaires pour la construction des graphes (Heinecke et Toumani, 2003).
La reprsentation smantique associe chaque nonc peut faire office de pivot
interlingue pour un systme de traduction automatique. Un module de gnration peut
y tre adjoint et permettre une reformulation de lnonc de dpart dans une autre
langue. Des travaux sur la traduction automatique symbolique avec pivot interlingue
ont t mens dans lquipe pour la traduction du franais vers langlais et inversement
ainsi que la traduction du franais vers la langue des signes avec, dans ce dernier cas,
restitution par un avatar signeur. Nous renvoyons le lecteur intress aux travaux de
(Iheddadene, 2006) et (Kervajan et al., 2007).

3.6.2. Thsaurus multilingue


Les informations smantiques pour les diffrentes langues sont rpertories dans
un thsaurus multilingue. Il sagit dun catalogue qui accumule de linformation sur
les diffrents sens des mots et sur les relations quils entretiennent entre eux. Linfor-
mation smantique y est structure afin de permettre lexploitation de son contenu par
les diffrents modules.
Il est structur en hirarchie thmatique ; quatre niveaux sont reprsents :
(a) 26 macrodomaines (ensembles de domaines), exemple : nature ; (b) 175 domaines
(ensembles de thmes), exemple : mammifres ; (c) 880 thmes (ensembles de syn-
sets), exemple : chien ; (d) 100 000 synsets (inspirs de WordNet (Fellbaum, 1998),
groupes multilingues de lexicalisations) exemple : [caniche | poodle | Pudel] (fran-
ais, anglais, allemand).

3.6.3. Modle smantique


Un modle smantique explicitant les relations des synsets entre eux sapplique de
manire transversale au thsaurus. Ce modle est en partie inspir de (Melcuk et Pol-
gure, 1984)6 ; lide de certaines fonctions lexicales a notamment t reprise (Park
et al., 2007). Les lments centraux qui constituent le modle sont appels tribus .
Ce sont des familles smantiques qui regroupent des synsets. Chaque tribu est asso-
cie un prdicat dcrivant une distribution darguments (argument1 , argument2 . . .).
Chaque argument remplit un rle smantique (agent, patient. . .). Les mots prsents
dans la tribu sont les lexicalisations des prdicats. Par exemple, les mots marcher
et marcheur sont dans la mme tribu. Les tribus bnficient dun autre lment per-
mettant de structurer leur contenu : les fonctions de lexicalisation (il en existe environ
170 diffrentes). Ces fonctions permettent de passer dun sens un autre, au sein dune
mme tribu. Par exemple, vendange et raisin sont relis par la fonction <est la rcolte
de>. Toute fonction peut se composer avec les autres fonctions : exemple dormir +
CAUSATIVE/TERMINATIVE rveiller ; cest--dire : causer la fin de dormir .

6. Voir aussi (Melcuk, 1992b), (Melcuk, 1992a) et (Melcuk et al., 1999).


28 TAL. Volume 49 no 2/2008

Les informations concernant les tribus sont ajoutes manuellement et semi-


automatiquement dans le thsaurus de manire progressive, en fonction des besoins.
Un systme de tribus cres automatiquement en exploitant les proprits de morpho-
logie drivationelle (Ptrier, 2000) a t mis en place afin que le thsaurus soit couvert
entirement lors de son utilisation dans les projets.

3.7. Gnration de reprsentations ontologiques

Afin de coupler TiLT avec des applications ou systmes bass sur des ontologies,
nous disposons dun module qui permet de transformer une phrase, une requte utili-
sateur en langue naturelle ou des mots-cls en reprsentation ontologique (Heinecke
et Toumani, 2003). Le rsultat de lanalyse syntaxique (cf. figure 4) et de lanalyse
smantique (cf. le graphe droite de la figure 5) est transform en une reprsentation
ontologique au format RDFS (Lassila et Swick, 1999) ou OWL (McGuinness et van
Harmelen, 2004) (la figure 6 est base sur des ontologies de domaine (Dasiopoulou
et al., 2007) issues du projet europen aceMedia7 ).

<?xml version="1.0" encoding="ISO-8859-1"?>


<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dolcel="http://ontology.ip.rm.cnr.it/ontologies/DOLCE-Lite#"
xmlns:midlevel="http://www.acemedia.org/ontos/midlevel#"
xmlns:tennis="http://www.acemedia.org/ontos/tennis#">
<dolcel:Natural-Person rdf:about="#V329587">
<midlevel:hasFirstName>Jean</midlevel:hasFirstName>
<midlevel:hasSocialRole rdf:resource="#V329542"/>
</dolcel:Natural-Person>
<tennis:Player rdf:about="#V329542"/>
<tennis:Finale rdf:about="#V329541">
<tennis:isWonBy rdf:resource="#V329542"/>
</tennis:Finale>
</rdf:RDF>

Figure 6. Reprsentation ontologique (RDFS/XML) pour Jean gagne la finale

Cette projection ncessite lalignement pralable des ressources linguistiques (no-


tamment les donnes smantiques) avec les classes et proprits (concepts et relations)
des ontologies cibles. Pour le projet MKBEEM (Lger et al., 2000)8 , cet alignement
tait fait manuellement, en revanche pour le projet aceMedia, un alignement automa-
tique a t expriment (Heinecke, 2006 ; Chagnoux et Heinecke, 2007).

7. http:// www.acemedia.org/
8. http:// mkbeem.elibel.tm.fr/
TiLT : plate-forme pour le TALN 29

4. Systme de traitement contrl

4.1. Gnration et propagation dhypothses concurrentes et errones

Comme pour la plupart des systmes de TALN, notamment ceux bass sur une
modlisation formelle des connaissances linguistiques, lapplication de TiLT dans cer-
tains contextes se heurte au problme rcurrent de la gestion dhypothses dinterpr-
tations concurrentes, parmi lesquelles certaines sont errones. En considrant larchi-
tecture de traitements modulaires et quasiment squentielle (voir section 2) de TiLT,
la gestion de ces indterminations tait initialement dlgue aux diffrents modules
de traitement. En effet, chaque module qui compose un processus danalyse a pour ob-
jectif de construire de nouvelles hypothses dinterprtation correspondant au niveau
de traitement concern, mais galement dattester de la pertinence des hypothses in-
termdiaires construites par les modules prcdents laide de nouvelles sources de
connaissances.
Cependant, le manque de complmentarit entre les diffrents niveaux de traite-
ment, ainsi que les incompltudes ou les imprcisions des ressources linguistiques
exploites entranent frquemment une propagation des hypothses concurrentes et
errones, se matrialisant au final par une explosion combinatoire de lespace des r-
sultats gnrs. Afin daugmenter la prcision et donc symtriquement de rduire le
bruit parmi les rsultats gnrs, il parat indispensable de complter les processus
danalyse par des stratgies spcifiques de contrle. Contrairement aux principaux
travaux traitant du contrle du processus danalyse linguistique qui ne proposent que
des stratgies ddies un contexte particulier dindtermination, nous avons dfini
une approche globale de contrle pouvant tre applique lors des diffrentes tapes du
processus danalyse ralis par TiLT.

4.2. Le contrle : un processus dcisionnel bas sur la combinaison de critres de


comparaison

Lobjectif des stratgies de contrle est de faire merger les hypothses les plus
pertinentes parmi toutes celles gnres. Cet objectif se matrialise par diffrentes
problmatiques en fonction notamment des impratifs du contexte applicatif et du cas
dindtermination trait. Il sagira soit de ranger les hypothses selon leur pertinence,
soit de slectionner un sous-ensemble de ces hypothses, soit daffecter ces hypo-
thses dans des classes ordonnes. Pour rpondre lune de ces problmatiques, il
est ncessaire de disposer dune valuation de la pertinence relative des diffrentes
hypothses gnres. Le contrle des processus danalyse, tel que nous le dfinissons,
repose donc sur deux tapes : lvaluation puis llaboration dune recommandation
de dcision (rangement, slection ou affectation).
Cette vision dcisionnelle du contrle que nous utilisons sintgre videmment
dans une dmarche plus gnrique du contrle des systmes dintelligence artificielle.
Les travaux de (Bachimont, 1992) ont permis didentifier les trois questions cen-
30 TAL. Volume 49 no 2/2008

trales souleves lors de la mise en place dune stratgie de contrle : (a) Quelles
connaissances de contrle utiliser ? , (b) Comment utiliser ces connaissances ?
et (c) Comment transmettre lensemble de ces connaissances au systme de
contrle ? .
travers une tude des diffrentes stratgies de contrle existantes, nous avons
constat que lvaluation de la pertinence des hypothses concurrentes reposait sur
lintgration et la prise en compte de connaissances supplmentaires et initialement
indisponibles ou inexploites. Nous considrons ces connaissances supplmentaires
comme des critres de comparaison apportant un jugement sur la pertinence des hy-
pothses. Ces critres peuvent tre de diffrentes natures :
empirique : usage de probabilits de patrons syntaxiques pour le contrle des
grammaires de proprits (Blache et Rauzy, 2006) ;
heuristique : vrification de proprits syntaxiques telles que les attachements
droits ou minimaux ;
symbolique : usage de cadres de sous-catgorisation pour le contrle dun ana-
lyseur syntaxique statistique (Bourigault et Frrot, 2004).
Exploit individuellement, chaque critre apporte des informations distinctives
permettant de rsoudre une partie des indterminations identifies. Pour obtenir un
jugement fiable et robuste il est donc indispensable de combiner les diffrents critres
de comparaison disponibles. Lefficacit dune stratgie de contrle base sur la com-
binaison de critres complmentaires a dj t dmontre dans des contextes varis,
en syntaxe avec notamment (Charniak, 2005) et en dsambigusation du sens des mots
avec (Audibert, 2007).
Lintgration de critres de comparaison matrialisant lusage de sources de
connaissances supplmentaires permet de rpondre la premire question souleve
savoir : Quelles connaissances de contrle utiliser ? .

4.3. Approche par surclassement pour combiner les critres disponibles

Afin de dterminer la faon dont ces connaissances spcifiques de contrle doivent


tre utilises et ainsi de rpondre la question Comment utiliser ces connais-
sances ? , nous avons cherch une mthodologie adapte notre formalisation d-
cisionnelle du contrle et aux impratifs de notre contexte industriel. Ceci nous a
amens considrer dautres mthodes que celles issues de lapprentissage automa-
tique, dans la mesure o leur application et leur efficacit sont entirement condition-
nes par la disponibilit de corpus dapprentissage qui ne sont pas toujours libres. Par
ailleurs, les mthodes plus classiques dagrgation de critres, telles que les mthodes
lexicographiques ou par critre unique de synthse, souffrent de limites importantes
notamment lorsque lon cherche combiner des critres non commensurables et ap-
portant des jugements imprcis et incertains.
TiLT : plate-forme pour le TALN 31

Ces constats nous ont conduits effectuer une intersection avec un domaine spcia-
lis dans la rsolution de problmes dcisionnels bass sur la combinaison de critres
htrognes, laide multicritre la dcision (AMCD) et plus particulirement les
approches par surclassement (Roy et Bouyssou, 1993). LAMCD se dfinit comme
une extension pragmatique des travaux en thorie de la dcision, visant fournir un
ensemble de mthodes permettant de rpondre lune des problmatiques suivantes :
le rangement, la slection ou le tri. Contrairement aux mthodes dapprentissage au-
tomatique, les mthodes dAMCD par surclassement ne dpendent pas de la disponi-
bilit de corpus dapprentissage. La faon dont les diffrents critres de comparaison
doivent tre exploits est dfinie par les connaissances et les intuitions dun expert
formules a priori. Par expert , nous dsignons les linguistes et informaticiens en
charge de paramtrer TiLT dans diffrents contextes applicatifs.
Ces connaissances expertes sont formalises en tant que paramtres prfrentiels
constituant ainsi ce que nous nommons un modle de prfrences. Ainsi, sur chaque
critre utilis, lexpert peut associer : (a) un poids ; (b) un seuil de prfrence ; (c) un
seuil dindiffrence ; (d) un seuil veto. Les seuils dindiffrence et de prfrence per-
mettent de prendre en compte la nature imprcise des jugements mis sur les critres
de comparaison. Le seuil veto permet de filtrer des hypothses juges comme trop
faibles sur un des critres utiliss.
partir de cette formalisation des connaissances expertes et des performances
quelles obtiennent sur les diffrents critres, les hypothses concurrentes sont com-
pares entre elles. Ces comparaisons sont matrialises par des relations de surclas-
sement. Une hypothse H1 surclasse une autre hypothse H2 si, daprs les connais-
sances dont on dispose, on peut dterminer que H1 est au moins aussi pertinente que
H2 . Une situation de surclassement est tablie si une majorit suffisante de critres
valide cette assertion de surclassement et si la minorit des critres qui refuse cette
assertion nest pas trop importante. Cette majorit est matrialise par une mesure de
concordance qui correspond la somme pondre de la propension de chaque critre
valider lassertion de surclassement. Cette mesure est ensuite diminue par la pro-
pension pondre des critres qui refusent le surclassement, la discordance. Le lecteur
intress par la mthode de construction de ces relations pourra lire (Roy et Bouys-
sou, 1993) ou (Smits, 2008, p. 44-68).
Une relation de surclassement correspond alors une notion gnrique de compa-
raison des hypothses. Les relations construites peuvent ensuite tre interprtes pour
ranger, slectionner ou classer les hypothses.

4.4. Vers une mthodologie hybride de contrle

Nous avons motiv notre choix pour une approche par surclassement par le fait que
cette mthode ne reposait pas sur la disponibilit dun corpus dapprentissage, mais
sur une formalisation de connaissances expertes en tant que paramtres prfrentiels.
32 TAL. Volume 49 no 2/2008

Sous rserve de disponibilit dun corpus reprsentatif du cas de contrle concern,


nous avons cependant dvelopp un ensemble dheuristiques permettant de suggrer
des valeurs possibles aux diffrents paramtres prfrentiels qui composent un mo-
dle de prfrences (Smits, 2008, p. 88-100). Cette extension de lusage classique des
mthodes par surclassement vise assister et faciliter le travail de lexpert en ce qui
concerne la mise en place dune stratgie de contrle efficace.
Ainsi, lorsque nous disposons dun corpus de rfrence, cest--dire dun ensemble
dhypothses annotes comme valides ou non valides, nous effectuons un alignement
entre les hypothses concurrentes comparer et les hypothses du corpus de rf-
rence. Cet alignement nous permet de construire des tables de performances qui sont
composes des hypothses comparer, des performances quelles ont obtenues sur les
critres de comparaison concerns et dune annotation en tant quhypothse valide ou
non valide.
partir de ces donnes supervises, nous exploitons la mthodes dapprentissage
de mtriques RELIEF (Kononenko, 1994) pour valuer et quantifier limportance re-
lative des diffrents attributs/critres et ainsi dterminer un poids pour chaque critre.
Pour estimer et suggrer des valeurs aux autres paramtres prfrentiels, nous
construisons pour chaque critre les courbes de rpartition des hypothses valides et
non valides. Ces courbes sont interprtes par des heuristiques statistiques afin diden-
tifier des zones de prfrence valeur du critre au-dessus de laquelle on trouve une
forte majorit dhypothses correctes ; dindiffrence espace de valeur o la dif-
frence de proportion dhypothses correctes et incorrectes nest pas significative ;
dincomparabilit valeur en dessous de laquelle on ne trouve que des hypothses
incorrectes.
travers ces premiers travaux, nous avons montr que notre approche de contrle
initialement base sur une formalisation a priori de connaissances expertes pouvait
tre complte par des mthodes statistiques. La faon dont les connaissances de
contrle sont utilises repose soit sur des connaissances expertes soit sur des connais-
sances empiriques.

4.5. Le module de contrle : un lment central dans larchitecture de TiLT

Pour rpondre la troisime question souleve par la mise en place dune stratgie
de contrle, savoir Comment transmettre lensemble des connaissances au systme
de contrle ? , nous avons conu, implment et intgr dans TiLT un module spci-
fique de contrle. Ce module de contrle a pour objectifs : (a) de faciliter lintgration
ou la dclaration de critres de comparaison et de les associer aux hypothses com-
parer ; (b) de stocker et de centraliser ces critres afin de les rendre disponibles tout au
long du processus danalyse ; (c) de permettre lapplication dtapes de contrle des
hypothses gnres ou exploites par les modules de traitement ; (d) de centraliser et
de fournir des mthodes daccs aux recommandations de dcisions mises lors des
TiLT : plate-forme pour le TALN 33

tapes de contrle ; (e) dobtenir une traabilit complte des rsultats des tapes de
contrle.
Afin de garantir lapplicabilit de ce module aux diffrents cas dindterminations
qui peuvent apparatre au cours de processus danalyse, nous lui avons octroy une
place prpondrante au cur de larchitecture initiale de traitement (voir figure 1).
Cette intgration dlicate au sein dune architecture logicielle existante complexe a pu
tre ralise en exploitant les proprits du paradigme de conception oriente objets.
Nous avons notamment procd une abstraction de la notion de module de traite-
ment, de laquelle hritent tous les modules prsents au cours de la section 3 et de la
notion dhypothse dinterprtation, de laquelle hritent tous les objets linguistiques
participant la construction de linterprtation finale (segments, terminaux, ensembles
de traits, constituants, arbres de dpendance, graphes smantiques, etc.). Ainsi chaque
module de traitement dispose de fonctionnalits centralises lies la manipulation
(instanciation, modification, accs) de critres de comparaison sur les hypothses din-
terprtation quil manipule. Diffrentes informations distinctives associes aux objets
linguistiques ou provenant de sources de connaissances supplmentaires peuvent alors
tre formalises sous la notion commune de critre de comparaison et tre associes
aux hypothses concurrentes pour qualifier leur pertinence relative.
Outre ces fonctionnalits de gestion des critres de comparaison, ce module dci-
sionnel permet chaque module de traitement de dfinir des tapes de contrle. En
rfrenant une configuration externalise dfinissant notamment les critres exploi-
ter et les paramtres dcisionnels utiliser, un module de traitement peut regrouper
au sein dune structure de comparaison des hypothses concurrentes et appliquer une
opration de contrle. Laspect dclaratif du module de contrle se traduit par une
externalisation de lensemble des lments de configuration et permet ainsi dinfluen-
cer le comportement du processus de traitement sans modifier le code des modules.
Ceci contribue la recherche dindpendance des modules vis--vis de la langue et du
contexte applicatif.
Lapplication de la mthodologie de comparaison des hypothses concurrentes g-
nre donc une recommandation de contrle, qui est ensuite exploite par le module de
traitement pour dterminer lordre de propagation des hypothses vers les modules de
niveau suprieur ou pour filtrer certaines hypothses juges non pertinentes.
On constate travers la description du fonctionnement du module de contrle et
de son intgration au sein de larchitecture de traitement (voir figure 1), que nous nous
rapprochons de la notion de contrleur prsent dans les architectures distribues de
traitement tel que les tableaux noirs (Bachimont, 1992).

4.6. Illustrations de lapplication de la stratgie de contrle

La pertinence de notre approche dcisionnelle et les fonctionnalits du module


ddi cette tche ont t values sur diffrents cas concrets dindtermination et
34 TAL. Volume 49 no 2/2008

notamment : (a) lidentification par tri des liens de corfrence entre expressions (voir
4.6.1) ; (b) la slection dune meilleure transcription de SMS (4.6.2).

4.6.1. Identification des liens de corfrence


Nous disposons dun corpus de rfrence compos de 80 articles du journal
Le Monde analys par TiLT et valid manuellement dont les paires dexpressions
corfrentes ont t annotes (Smits et Tardif, 2007). Une tude linguistique a per-
mis lidentification de 25 critres apportant des informations distinctives intressantes
pour lidentification des liens de corfrence. Ces critres sont de nature syntaxique
ou catgorielle : accords genre et nombre, similarit de fonctions syntaxiques, etc. ; de
nature statistique ou contextuelle : distance entre expressions, nombre doccurences,
etc. ; ou bien encore de nature structurelle : similarit graphique des expressions,
nombre de mots en commun, etc. Les diffrentes paires dexpressions extraites candi-
dates, ainsi que leur valuation sur les 25 critres identifis constituent donc une table
de performances compose la fois dhypothses valides (paires dexpressions cor-
frentes) et non valides (paires dexpressions non corfrentes). Cette table contient
3 504 paires dexpressions valides et 24 871 paires non valides.

Modle Modle Modle Arbre de


expert empirique hybride dcision
F-mesure 0,65 0,65 0,68 0,60

Figure 7. Rsultats obtenus lors du contrle dun processus didentification des liens
de corfrence

La problmatique vise par la mise en place dune stratgie de contrle est donc
le tri des paires extraites en deux classes : celle des paires valides et celle des paires
non valides comme corfrentes. Pour obtenir ce tri, nous avons demand un ex-
pert de mettre en place un modle de prfrences dfinissant la faon dont les critres
doivent tre exploits pour identifier les paires dexpressions corfrentes. Nous avons
ensuite exploit les heuristiques dinterprtation de corpus de rfrence pour sugg-
rer automatiquement un modle de prfrences. Dans un troisime temps, nous avons
suggr ces paramtres dtermins de manire empirique lexpert afin quil com-
plte ou rvise ses jugements initiaux, ceci permettant davoir un troisime modle de
prfrences qualifi de mixte. Pour mieux apprhender la qualit du contrle par tri
effectu par notre approche par surclassement, nous avons compar les rsultats avec
ceux obtenus laide dune mthode classique de classification : les arbres de dci-
sion (algorithme C4.5). La figure 7 illustre en terme de F-Mesure les rsultats obtenus.
On constate que les rsultats obtenus laide dune approche par surclassement sont
meilleurs que ceux obtenus avec les arbres de dcision. De plus, on remaxrque que
lexpert dispose de connaissances a priori et dune comprhension de la smantique
des diffrents paramtres dcisionnels suffisantes pour mettre en place une stratgie
de contrle efficace. De mme, les bons rsultats obtenus laide du modle suggr
attestent de la pertinence des heuristiques dinterprtation des corpus de rfrence. En
TiLT : plate-forme pour le TALN 35

bnficiant la fois de la capacit des mthodes empiriques identifier les critres


discriminants rcurrents et des connaissances plus spcifiques de lexpert permettant
notamment dexploiter des critres peu rcurrents mais fortement discriminants, les
rsultats obtenus laide du modle mixte sont nettement meilleurs.

4.6.2. Contrle empirique dun processus symbolique de transcription de SMS


Une instance de la plate-forme TiLT a t dploye afin de transcrire des SMS9
en franais standard (cf. 5.3). Le processus initial de transcription est caractris
par lusage de ressources linguistiques adaptes aux particularits de ce style atypique
dcriture. Aprs une phase didentification des diffrents segments qui composent un
SMS, une analyse lexicale et diffrentes stratgies de corrections sont appliques sur
chacun des segments, formant ainsi un treillis dunits lexicales. Lapplication du mo-
dule danalyse syntaxique de surface (voir section 3.4) permet ensuite de dterminer
une succession valide syntaxiquement dunits lexicales qui formeront la transcrip-
tion du SMS initial. Pour plus de dtails sur ce processus, le lecteur pourra consul-
ter (Guimier de Neef et al., 2007).
Une valuation de ce processus initial de transcription a permis de mettre en avant
le caractre encourageant des rsultats obtenus tout en soulignant galement les fai-
blesses de cette approche symbolique (Guimier de Neef et Fessard, 2007). Au cours
de cette valuation, nous avons notamment constat limpact ngatif des indtermina-
tions et de leur propagation. En effet, on observe que, malgr une couverture lexicale
complte, 25 % des 29 000 SMS utiliss lors de lvaluation sont mal transcrits. Ainsi,
parmi lensemble des units lexicales concurrentes gnres par le module danalyse
lexicale et les diffrentes mthodes correctives, lhypothse valide nmerge pas mal-
gr la validation syntaxique effectue. Une analyse des erreurs commises par TiLT
a galement mis en vidence lorigine multiple de ces mauvaises dcisions. Parmi
les 25 % de SMS couverts lexicalement mais mal transcrits, nous avons notamment
constat que les sources derreurs de dcision provenaient soit du dcoupage en consti-
tuants syntaxiques, soit de la slection dune distribution fonctionnelle, soit de la s-
lection finale des units lexicales concurrentes valides syntaxiquement.
Afin de faire merger les units lexicales valides parmi toutes celles gnres, nous
avons mis en place une stratgie globale de contrle du processus initial de transcrip-
tion. Nous avons notamment exploit la disponibilit de corpus de SMS et de leurs
transcriptions (corpus de Louvain (Fairon et Paumier, 2006) et un corpus ralis par
luniversit de Provence) pour intgrer et combiner des critres de nature empirique
lors du processus de transcription. Ainsi, pour chaque unit lexicale gnre, nous lui
associons les frquences observes de sa forme flchie et de sa forme lemmatise.
Nous calculons galement un meilleur chemin de bigrammes de mots sur le treillis
des units lexicales et nous marquons laide dun critre binaire chaque unit qui
appartient ce chemin. Nous utilisons galement un critre heuristique, matrialis
par un score numrique dfini a priori, qui est associ aux units lexicales en fonction

9. Acronyme de Short Message Service .


36 TAL. Volume 49 no 2/2008

de leur catgorie morphosyntaxique permettant de privilgier certaines catgories par


rapport dautres.
Diffrentes tapes de contrle ont t ajoutes au processus initial de transcription,
afin notamment de valider le dcoupage en constituants effectu vis--vis des critres
associs aux units lexicales. Cette valuation sappuie sur un tri en deux classes,
valide et non valide, des constituants en cours de construction. Une fois ce dcou-
page syntaxique effectu, nous slectionnons une meilleure distribution fonctionnelle
parmi en moyenne trois hypothses concurrentes. Finalement, nous slectionnons une
meilleure succession dunits lexicales qui formera la transcription parmi 2,7 units
lexicales concurrentes en moyenne par segment.
Cette stratgie de contrle a conduit une rduction de 20 % des units lexicales
errones prsentes dans les transcription pour les SMS couverts lexicalement. Cette
premire exprimentation autour du contrle du processus de transcription de SMS
a surtout permis douvrir dintressantes perpectives, notamment lusage de critres
complmentaires tels que lappartenance un meilleur chemin de trigrammes de ca-
tgories morphosyntaxiques ou encore un critre de confiance de correction valuant
la fois la frquence de la forme initiale du segment et la distance par rapport aux
formes suggres par les mthodes correctives, ceci nous permettra dviter le phno-
mne de surcorrection . Cette exprimentation a mis en vidence la facilit duti-
lisation et lapport du module de contrle et plus particulirement la centralisation et
la propagation des diffrents critres de comparaison, les rendant ainsi disponibles et
exploitables tout au long du processus danalyse.

5. Applications oprationnelles de la technologies TiLT

Un des aspects remarquables de la plate-forme TiLT est quun certain nombre


dapplications qui en sont issues sont dployes travers des services oprationnels,
soit destination du grand public, soit pour des communauts spcifiques dutili-
sateurs. Bien entendu, ces dploiements exigent que la technologie soit :(a) robuste
pour traiter des donnes htrognes et non pralablement formates ; (b) optimise
en termes de performance et de tenue de la charge ; (c) multilingue et adaptable
de nouvelles langues des cots raisonnables ; (d) exhaustive en terme de couverture
des phnomnes linguistiques concernant le service vis par lapplication ; (d) para-
mtrable pour rpondre des adaptations spcifiques au sein dun mme service ; (e)
portable sur diffrents systmes et diffrentes plates-formes ; (f) intgrable sous divers
modes dintgration et (g) bien documente pour laccompagnement des intgrateurs,
des installateurs et des utilisateurs.
Il est noter que toutes les applications de la plate-forme intgrent lidentification
des langues et des encodages afin de dterminer lensemble des donnes linguistiques
adaptes la langue du texte traiter (voir section 3.1).
TiLT : plate-forme pour le TALN 37

5.1. Correction et interprtation des requtes

Les modules danalyse de base et de dcoupage en constituants ont t utiliss


pour des applications oprationnelles de correction orthographique et dinterprtation
de requtes. La correction orthographique du site Alapage10 et 118 71211 est en partie
faite par TiLT ; correction et interprtation de requtes sont utilises pour lanalyse du
champ Qui Quoi du site annuaire des Pages Jaunes12 .
Pour Alapage, lensemble des ressources lexicales a t adapt au catalogue pro-
duit. TiLT ralise la correction typographique ( laurent vouzly laurent voulzy )
et phontique ( ouellebec houellebecq ) mais aussi le dcollement de pr-
fixes ( aly mac beal ally mcbeal ), les abrviations et variantes orthogra-
phiques rgulires ( dictionnaire des filles dico des filles ). Pour le 118 712,
les ressources lexicales et grammaticales gnrales de TiLT sont adaptes au contexte
annuaire (localits, activits des professionnels). Le primtre des corrections sappa-
rente celui offert sur Alapage.
Dans le cas des Pages Jaunes, intervient galement linterprtation de la requte
qui permet de rapprocher la demande de lutilisateur avec une ou plusieurs rubriques
de lannuaire. Un traitement hors ligne (back office) fait avec TiLT permet de trans-
former les descriptifs de rubriques annuaire en concepts TiLT (issus du thsaurus) :
TiLT dsambiguse le vocabulaire et lenrichit. Ainsi le mot avocat sera asso-
ci au concept PROFESSION.avocat dans lindexation de lactivit professionnelle des
avocats, mais il sera associ au concept PLANT.avocatier dans lindexation des mara-
chers. Ces concepts permettent galement de ramener du vocabulaire supplmentaire
( barreau , avocassier ; avocatier ). Les donnes issues de cette analyse faite
hors ligne sont utilises en ligne pour analyser la requte utilisateur. Cette analyse
se fait en plusieurs tapes : dsambigusation, correction orthographique, rapproche-
ment au contenu analys hors ligne et reconnaissance des noms de professionnels
(sur la base de patrons syntaxiques issus de la grammaire de dpendance). La requte
avocat prudhome Matre Dupuis sera corrige en avocat prudhommes Matre
Dupuis . La requte avocat prudhommes permettra de ramener lactivit des
avocats dans la rponse et Matre Dupuis sera isol comme nom de professionnel.
Pour cette application, la plate-forme est trs performante : sur une machine
64 bits, avec 4 Go de mmoire et une vitesse de 2,80 GHz, quipe de Linux, en-
viron 120 requtes sont traites par seconde en mode serveur. En production chaque
serveur traite environ 731 000 requtes par jour.

10. http:// www.alapage.com/ . Il est noter que les fonctionnalits optimales de TiLT ne sont
possibles quavec une synchronisation rgulire des donnes de TiLT et des bases Alapage.
11. http:// www.118712.fr/ , le site Web correspondant au numro des renseignements dOrange
118 712.
12. http:// www.pagesjaunes.fr/
38 TAL. Volume 49 no 2/2008

5.2. Abrgeur

Pour un texte donn (page Web, document), labrgeur fournit un rsum et une
liste de mots-cls. Le rsum est gnr en identifiant les phrases reprsentatives du
texte source (Renouf et Collier, 1995). Contrairement aux mthodes de rsum pure-
ment statistiques, labrgeur TiLT sappuie sur une mthode mixte, statistique et lin-
guistique qui permet de discerner plus efficacement les informations pertinentes dans
un texte. Lanalyse linguistique permet, par exemple, de reconnatre les diffrentes
variantes dun mot (conjugaison des verbes, formes flchies des noms et adjectifs,
etc.), didentifier les squences de mots correspondant un concept prcis (mots com-
poss, noms de personnes), de filtrer les mots faiblement informatifs (mots-outils ou
supports), etc. La taille du rsum peut tre choisie en nombre de phrases ou en pour-
centage du texte source. Labrgeur est multilingue et couvre, dans sa version actuelle,
sept langues : franais, anglais, espagnol, allemand, polonais, portugais et arabe. Des
prtraitements documentaires permettent de prendre en compte un certain nombre de
formats de documents (texte simple, Word, PDF, Postscript et HTML). Labrgeur
TiLT est dj intgr dans plusieurs services ou prototypes internes France Tlcom.
Il a galement t intgr dans une importante plate-forme documentaire de veille.
En terme de performances, la version actuelle de labrgeur TiLT, implmente
sur une machine similaire celle mentionne prcdemment, est capable de traiter,
en une minute, prs de 54 documents de 8 pages13 environ (ou approximativement
19 documents de 32 pages ou encore 3 documents de 128 pages), ce qui traduit une
performance pondre de prs de 500 pages par minute. Dans une version spcifique
optimise pour des flux documentaires de veille, labrgeur est sollicit pour traiter
plusieurs milliers de documents par jour.

5.3. Vocalisation des SMS

Une autre instance de TiLT est utilise dans un service oprationnel dOrange pour
la vocalisation des SMS. Ce service permet de recevoir un SMS sur un tlphone fixe
quelles que soient les caractristiques du terminal fixe rcepteur. Si le tlphone ne
permet pas la lecture de messages, les SMS sont vocaliss. TiLT transcrit si besoin le
SMS en franais standard en amont de la synthse vocale. Le trafic actuel du service
est de lordre de 20 000 30 000 SMS par jour bien que les tests de charge montrent
une capacit de traitement dau moins 240 000 SMS par jour.

5.4. Interface avec des systmes base dontologie

Deux prototypes14 exploitent linterface de TiLT qui permet aux utilisateurs de


communiquer avec un systme base dontologie (cf. 3.7). Le caractre multilingue

13. Une page contient environ 2 600 3 100 caractres.


14. Ils ont t dvelopps dans le cadre des projets MKBEEM et aceMedia.
TiLT : plate-forme pour le TALN 39

de TiLT sillustre parfaitement dans ce contexte : les expressions ontologiques, in-


dpendantes de la langue source, sont indiffremment gnres partir des requtes
ou annotations textuelles franaises, anglaises ou espagnoles (cf. synsets du thsaurus
3.6.2). Par exemple, dans aceMedia, les annotations textuelles en plusieurs langues
des contenus multimdias sont transformes en reprsentations ontologiques qui sont
stockes (avec dautres mtadonnes) dans une base de connaissances. Ensuite les
utilisateurs peuvent formuler leurs requtes qui sont transformes en expressions on-
tologiques (SPARQL15 ), afin de les rechercher dans cette base.

6. Conclusion

Cet article prsente, de manire succincte et descriptive, la plate-forme de traite-


ment automatique des langues naturelles dveloppe France Tlcom. travers cette
prsentation, un certain nombre de caractristiques de TiLT ont t soulignes. Ainsi,
sa dimension multilingue, soutenue par lindpendance des donnes linguistiques vis-
-vis des traitements, facilite grandement ladaptation de nouvelles langues, et mme
des familles de langues diffrentes (langues indo-europennes, smitiques ou sino-
tibtaines ou encore langues signes). Par ailleurs, larchitecture trs modulaire de
la plate-forme, enrichie par un systme de contrle global, permet de dcliner les
traitements sur un grand nombre dapplications diffrentes utilisant des modules lin-
guistiques communs ou spcifiques. Ainsi TiLT offre une grande interoprabilit tant
au niveau des modules linguistiques de base quau niveau des modules dapplication.
Un point particulirement remarquable est la capacit de TiLT traiter des types de
textes de styles trs divers : textes journalistiques, requtes utilisateurs, transcription
de loral (Bov et al., 2006), SMS ou rsultats de la reconnaissance optique de ca-
ractres. Ceci permet TiLT dtre un composant efficace dans des applications mul-
timodales (Boualem et al., 2002). Ces caractristiques rendent TiLT particulirement
exploitable pour laccs linformation multimdia disponible sur lInternet et ce
partir de terminaux fixes ou mobiles.

Remerciements

Nous remercions les nombreux collgues qui, depuis des annes, ont contribu
la conception et au dveloppement des modules et des donnes linguistiques de
TiLT : Frdrique Arga, Olivier Collin, Arnaud Debeurme, Pascal Filoche, Michel
Gilloux, Edmond Lassalle, Gilles Le Calvez, Patrick Le Dvdec, Jean-Michel Om-
brouck, Frdrique Pinson, Gilles Prigent, Olivier Tardif et Jrme Vinesse. Nous re-
mercions aussi tous les doctorants, post-doctorants, stagiaires et intervenants externes
pour leurs contributions.
15. http:// www.w3.org/ TR/ rdf-sparql-query/
40 TAL. Volume 49 no 2/2008

7. Bibliographie

Adda G., Mariani J., Paroubek P., Rajman M., Lecomte J., Mtrique et premiers rsultats de
lvaluation GRACE des tiqueteurs morpho-syntaxiques pour le franais , TALN, p. 15-
24, 1999.
Amblard M., Heinecke J., Maillebuau E., Discourse Representation Theory et graphes sman-
tiques. formalisation smantique en contexte industriel , TALN, p. 350-359, 2008.
Audibert L., Dsambigusation lexicale automatique : slection automatique dindices ,
TALN, p. 13-23, 2007.
Bachimont B., Le contrle dans les systmes base de connaissances, Hermes, 1992.
Blache P., Rauzy S., Mcanismes de contrle pour lanalyse en grammaires de proprits ,
TALN, p. 415-424, 2006.
Boualem M., Almeida L., Amdal I., Beires N., Boves L., den Os E., Filoche P., Gomes R.,
Knudsen J. E., Kvale K., Rugelbak J., Tallec C., Warakagoda N., Multimodal, multilin-
gual information services for small mobile terminals, Eurescom MUST project , TALN,
workshop NLP techniques for speech analysis, Nancy, p. 113-118, 2002.
Bourigault D., Frrot C., Ambigut de rattachement prpositionnel : introduction de res-
sources exognes de sous-catgorisation dans un analyseur syntaxique de corpus endo-
gne , TALN, 2004.
Bov R., Chardenon C., Jean V., Impact des disfluences sur lanalyse syntaxique automatique
de loral , TALN, p. 103-111, 2006.
Chagnoux M., Heinecke J., Aligner ontologies et langues naturelles. grer la synonymie ,
Plateforme AFIA. Atelier thmatique : Ontologies et Gestion de lHtrognit Sman-
tique, Grenoble, p. 87-94, 2007.
Charniak E., Coarse-to-fine n-best parsing and MaxEnt discriminative reranking , 43rd ACL,
p. 233-240, 2005.
Dasiopoulou S., Heinecke J., Saathoff C., Strintzis M. G., Multimedia reasoning with natural
language support , IEEE-Int. Conference on Semantic Computing, p. 413-420, 2007.
Fairon C., Paumier S., A translated corpus of 30 000 French SMS , LREC, 2006.
Fellbaum C., WordNet. An Electronic Lexical Database, MIT Press, Cambridge, MA., 1998.
Guimier de Neef E., Boualem M., Chardenon C., Filoche P., Vinesse J., Natural language
processing software tools and linguistic data developed by France Tlcom R&D , Indo
European Conference on Multilingual Technologies, Pune, India, 2002.
Guimier de Neef E., Debeurme A., Park J., TiLT correcteur de SMS : valuation et bilan
quantitatif , TALN 2007, Toulouse, p. 123-132, 2007.
Guimier de Neef E., Fessard S., valuation dun systme de transcription de SMS , Lexique
et Grammaire 2007, Bonifaccio, p. 217-224, 2007.
Heinecke J., Gnration automatique des reprsentations ontologiques , TALN, Presses uni-
versitaires de Louvain, Louvain, p. 502-511, 2006.
Heinecke J., Toumani F., A Natural Language Mediation System for E-Commerce applica-
tions. An ontology-based approach , Workshop Human Language Technology for the Se-
mantic Web and Web Services. ISWC, p. 39-50, 2003.
Iheddadene M., Traduction automatique. tude et ralisation dun module de gnration partir
dune reprsentation smantique interlingue, PhD thesis, Universit de Provence, 2006.
TiLT : plate-forme pour le TALN 41

Kervajan L., Guimier de Neef E., Breton G., Vers un systme de traduction automatique fran-
ais/langue des signes franaise , T.A.L., 2007.
Kononenko I., Estimating attributes : Analysis and extensions of RELIEF , European Confe-
rence on Machine Learning, 1994.
Lassila O., Swick R., Resource Description framework (RDF) Model and Syntax Specifica-
tion , 1999. http://www.w3.org/TR/REC/rdfsyntax.
Lger A., Michel G., Gitton S., Barrett P., Gmez-Prez A., Lehtola A., Mokkila K., Rodri-
gez S., Sallentin J., Varvarigou T., Vinesse J., Ontology domain modeling support for
multi-lingual services in E-Commerce : MKBEEM , ECAI. Workshop on Applications of
Ontologies and Problem-Solving Methods, 2000.
Liu W., Li H., Dong Y., He N., Luo H., Wang H., France Telecom R&D Beijing Word Segmen-
ter for Sighan Bakeoff 2006 , 5th SIGHAN Workshop on Chinese Language Processing,
ACL, Sidney, p. 122-125, 2006.
McGuinness D. L., van Harmelen F., OWL Web Ontology Language Overview , 2004.
http://www.w3.org/TR/2004/REC-owl-features-20040210/.
Melcuk I. A., Dictionnaire explicatif et combinatoire du franais contemporain. Recherches
lexico-smantiques III, Presses de lUniversit de Montral, Montral, 1992a.
Melcuk I. A., Paraphrase et lexique : La thorie sens-texte et le dictionnaire explicatif et
combinatoire , in I. A. Melcuk (ed.), Dictionnaire explicatif et combinatoire du fran-
ais contemporain. Recherches lexico-smantiques III, Presses de lUniversit de Montral,
Montral, p. 9-58, 1992b.
Melcuk I. A., Arbatchewsky-Jumarie N., Iordanskaja L., Mantha S., Polgure A., Dictionnaire
explicatif et combinatoire du franais contemporain. Recherches lexico-smantiques IV,
Presses de lUniversit de Montral, Montral, 1999.
Melcuk I. A., Polgure A., Introduction la lexicologie explicative et combinatoire, Editions
Duculot, 1984.
Park J., Maillebuau E., Guimier De Neef E., Vinesse J., Heinecke J., Evaluating an Interlin-
gual Semantic Representation , in K. Gerdes, T. Reuther, L. Wanner (eds), Meaning - Text
Theory 2007, Mnchen - Wien, 2007.
Paroubek P., Vilnat A., Robba I., Ayache C., Les rsultats de la campagne EASY dvaluation
des analyseurs syntaxiques du franais , TALN, Toulouse, p. 243-252, 2007.
Ptrier E., Construction automatique dun lexique drivationnel par lexemple , RECITAL,
Lausanne, 2000.
Renouf A., Collier A., A System of Automatic Textual Abridgement , 15th AI, p. 395-407,
1995.
Roy B., Bouyssou D., Aide Multicritre la Dcision : Mthodes et Cas, Economica, 1993.
Smits G., Une approche par surclassement pour le contrle dun processus danalyse linguis-
tique, PhD thesis, Universit de Caen, 2008.
Smits G., Tardif O., Resolving coreference using an outranking approach , Recent Advances
in Natural Language Processing (RANLP), 2007.
Sowa J. F., Conceptual Structures. Information Processing in Mind and Machine, Addison-
Wesley, Reading, MA., 1984.
Tesnire L., lments de syntaxe structurale, Klincksieck, Paris, 1959.

Вам также может понравиться