Вы находитесь на странице: 1из 6

TALN 2010 Session Posters, Montral, 1923 juillet 2010

Les entits nommes vnement et les verbes de cause-consquence


Batrice Arnulphy1,2 Xavier Tannier1,2 Anne Vilnat1,2 (1) Univ. Paris-Sud, Orsay, France (2) LIMSI-CNRS, B.P. 133, 91403 Orsay Cedex, France {Beatrice.Arnulphy, Xavier.Tannier, Anne.Vilnat}@limsi.fr

Rsum.

Lextraction des vnements dsigns par des noms est peu tudie dans des corpus gnralistes. Si des lexiques de noms dclencheurs dvnements existent, les problmes de polysmie sont nombreux et beaucoup dvnements ne sont pas introduits par des dclencheurs. Nous nous intressons dans cet article une hypothse selon laquelle les verbes induisant la cause ou la consquence sont de bons indices quant la prsence dvnements nominaux dans leur cotexte.

Abstract.

Few researches focus on nominal event extraction in open-domain corpora. Lists of cue words for events exist, but raise many problems of polysemy. In this article, we focus on the following hypothesis : verbs introducing cause or consequence links have good chances to have an event noun around them.

Mots-cls : Keywords: 1

Entit nomme, vnement, rapports de cause et consquence. Named entity, event, cause and consequence links.

Introduction

Lanalyse des entits nommes (EN) se focalise gnralement sur les notions classiques de lieu, organisation, personne ou date. Les vnements sont rarement considrs, alors mme quils ont une grande importance pour les applications habituelles comme la recherche dinformation, lextraction dinformation ou la veille technologique. Les vnements dsigns par des verbes sont traits dans de nombreux travaux comme (Vendler, 1967) ou dans le cadre de TimeML (Pustejovsky et al., 2003). En complment de ces travaux, nous nous intressons au rsultat de la nomination dun vnement, aux noms donns aux vnements, que nous appellerons entits nommes vnement (EN-E). Les vnements nominaux peuvent tre de plusieurs types : des noms dverbaux, drivs de verbes qui font vnement tels que fte (issu de fter) ; des lments qui voquent des vnements de faon non ambigu comme festival dans Festival du lm de Berlin ; ou encore des mots qui prennent un caractre vnementiel en contexte, par exemple salon dans La cinquime dition du Salon de lducation ou un nom de lieu comme Tchernobyl ou Copenhague, dsignant, par mtonymie, lincident qui sy est produit ou la confrence qui sy est tenue (Personne ne veut dun nouveau Tchernobyl ; Copenhague se solde par un chec). Une tape du travail dextraction des EN-E est donc de dterminer les expressions dsignant potentiellement un vnement, puis de dterminer en contexte si cest bien le cas. Nous formulons ici lhypothse que certains verbes introduisant la notion de cause ou de consquence sont des dclencheurs de noms

B ATRICE A RNULPHY, X AVIER TANNIER , A NNE V ILNAT dvnements dans leur cotexte. Nous prsentons un survol des dnitions donnes lvnement et un aperu de quelques travaux entrepris pour le traitement des EN-E (Section 2), puis nous dveloppons le problme li lextraction des EN-E, ainsi que notre hypothse de travail (Section 3). Pour nir, nous prsentons notre tude lexicale et lexprimentation mise en uvre pour valider cette hypothse (Section 4)1 .

tat de lart

Quelques dnitions de lvnement ont t avances en philosophie, histoire ou linguistique. Notons celles dveloppes en journalisme et en linguistique. Une rexion importante a t dveloppe depuis les annes 70 sur la notion dvnement mdiatique2 . Ces travaux se sont intresss ce qui fait vnement et comment les mdias le crent. Neveu & Qur (1996) prsente la notion dvnement, comme une occurrence singulire, imprvue, non rptable, produite dans un pass plus ou moins proche. Son actualit ou sa ralit passe est tenue pour absolue, singulire, non rptable et contingente. En linguistique, quelques travaux se sont attachs aborder des problmes relatifs aux vnements et aux EN-E. Velde (2000) introduit la notion de nom propre de temps, en faisant le parallle entre les noms propres et la triade je-ici-maintenant. Il existe bien des noms propres de personnes et noms de lieux, et ceux de temps doivent donc exister galement. De plus, des noms de lieux et des dates peuvent, par mtonymie, se charger du sens de lvnement qui a eu lieu en cet endroit ou cette date (Steimberg, 2006). Cest le cas par exemple du toponyme Tchernobyl (Lecolle, 2004) qui dsigne lexplosion du racteur nuclaire de la centrale de Tchernobyl en 1986, ou de lhmronyme 11 septembre (Steimberg, 2008) qui nomme les attentats de New York. De plus, les travaux dEhrmann & Hagge (2009) dveloppent des indices pour lextraction des expressions temporelles qui ne sont pas des vnements. Par opposition, certains de ces indices peuvent permettre de reconnatre des vnements. Ces dnitions et ces travaux restent pourtant thoriques et sont peu adaptables directement au reprage automatique des EN et leur extraction par la machine. Nombre de travaux se sont intresss lextraction dEN (cf. Ehrmann (2008) pour un historique complet sur la reconnaissance des EN), mais peu dentre eux se sont focaliss sur la catgorie des vnements. Il est noter que deux campagnes dvaluation dextraction dEN ont abord le sujet : ACE (Doddington et al., 2004) et Ester (Gravier et al., 2004). Un systme de questions-rponses ayant pour objectif la communication homme-machine fonde sur loral est dvelopp dans le cadre du projet Ritel (Rosset et al., 2005). Lextraction des EN y a t mise au point, et en particulier celle des vnements. Les corpus une fois transcrits sont analyss et enrichis, notamment en EN classiques (lieu, organisation, personne ou date). Une entit nomme y est dnie comme une expression dcrivant un modle spcique dun type donn. Dans ce cadre, le festival de Cannes est un vnement non dni, une entit non-prcise, tandis que le festival de Cannes 2006 est lui une entit nomme (vnement prcis). Nous nous intressons en priorit aux vnements sous leurs formes nominales, en tant quEN. Les entits uniques comme les noms dvnements historiques (la Grande Guerre), celles plus rcurrentes (Festival
Ce travail a t partiellement nanc par OSEO dans le cadre du programme Quaero. Mme si notre corpus de travail est essentiellement constitu darticles de presse, nous ne nous intressons pas uniquement aux vnements mdiatiques ou journalistiques. Notons tout de mme que ce sont les mdias qui en gnral nomment les vnements.
2 1

L ES ENTITS NOMMES VNEMENT ET LES VERBES DE CAUSE - CONSQUENCE de Cannes), linstanciation de ces phnomnes (les JO de 1996), les noms de fte (Nol). Nous souhaitons aussi nous attarder sur les phnomnes plus anodins comme la descente de police de demain ou moins dnissables et plus ous comme le branle-bas de combat mondial, le dbat ou la dcision. Les entits recherches peuvent tre passes, futures ou hypothtiques. Ainsi nous ncartons pas lanalyse des noms dventualits au sens de Vendler.

Utilisation des verbes de cause-consquence

An de dgager au mieux des groupes nominaux dsignant des vnements, nous avons prcdemment constitu une liste des dclencheurs de noms dvnement. cette n, deux lexiques ont t utiliss : une liste de dclencheurs avrs et une liste forme partir des substantifs du lexique VerbAction (Hathout et al., 2002). La premire liste de dclencheurs (681 termes lemmatiss) a t constitue partir des mots vnements prvus dans Wmatch (Galibert, 2009), un outil conu dans le cadre du projet Ritel (cf. Section 2) : 39 termes prsents dans des grammaires locales descriptives restrictives (permettant par exemple de ne pas rcuprer guerre en dclencheur de nom dvnement dans les cas o il apparat dans lexpression navire de guerre). Cette liste est enrichie par quelque 588 lemmes du lexique EventNominals de (Bittar, 2009), constitu par des lemmes de substantifs ayant au moins une interprtation vnementielle. De nombreux mots de ce lexique appartiennent des registres de langue particuliers, comme anticoagulothrapie. Concernant le lexique VerbAction, il est constitu dune liste de verbes daction accompagne des noms dverbaux morphologiquement apparents ceux-ci (9393 couples verbe-nom, soit 9200 lemmes nominaux uniques). Les verbes daction impliquant que quelque chose se produit (fter), les noms dverbaux de ces verbes devraient donc dcrire une action (fte) et donc potentiellement nommer lvnement qui a lieu lorsque cette action se produit (la fte de la musique). Il est possible dutiliser des listes de mots dclencheurs vnementiels ou des dverbaux pour reconnatre les EN-E. Cependant certaines EN-E ne sont pas dtectables par ce moyen, cest le cas de certaines expressions qui ne renferment lorigine aucun trait vnementiel, comme le Watergate, les frgates de Taiwan, le sang contamin ou Clearstream. Ainsi, Copenhague, n 2009-dbut 2010, ne dsignait plus seulement aux yeux du monde la capitale du Danemark, mais surtout la confrence des Nations Unies sur le changement climatique qui sy est tenue. La raret impliquant la qualit, il ne nous est pas possible de concevoir passer ct de ces termes qui dans limaginaire collectif sont troitement lis (ne serait-ce que sur une courte priode) un vnement particulier. Dans le cas de mots polysmiques, la tche est aussi complexe. En effet, le mot salon dsigne le mobilier et la pice qui le reoit, autant que le lieu dexposition et lvnement qui sy droule. Avec une majuscule, Salon est rgulirement analys en EN de type lieu, car cest un nom de ville. Dans une phrase comme Le Salon de lAgriculture est organis Porte de Versailles, on souhaite valider le groupe nominal Salon de lAgriculture en tant que nom dvnement. Lhypothse que nous cherchons vrier dans le travail prsent ici est que lutilisation des verbes qui impliquent la cause ou la consquence pourrait constituer un indice pour la reconnaissance de ces expressions en EN-E et pour lobtention dexpressions candidates. Nous appelons expression candidate une expression qui ne reprsente pas un vnement en temps normal, mais qui dans un certain contexte en est un (les hmronymes, les toponymes ou les noms polysmiques). Constituer une liste de ces expressions peut bien entendu tre prcieux pour faciliter lextraction de ces vnements par la suite. Par exemple, 11 septembre, dans un titre darticle, peut tre un vnement, mais galement une simple date, tandis que

B ATRICE A RNULPHY, X AVIER TANNIER , A NNE V ILNAT 12 septembre, ne peut tre a priori quune date. Une action ou un vnement peut tre la cause dun autre vnement : un vnement provoque ainsi un autre vnement en consquence. Les verbes entraner ou provoquer peuvent fonctionner de la sorte. Dans La crise conomique entranera la famine dans de nombreux pays sous-dvelopps, le verbe entraner a pour sujet la crise conomique et pour objet la famine. Famine est lvnement consquence de lautre EN-E de la phrase, la crise conomique. Cest aussi le mode de fonctionnement du verbe signer dans Le 11 septembre signe la n de cette hgmonie sur le reste du monde. Ici, signer prsente deux vnements, lun (11 septembre) cause de lautre (n de cette hgmonie sur le reste du monde). Nous souhaitons donc vrier si les syntagmes nominaux en position sujet ou argument de certains verbes de cause-consquence sont gnralement des vnements.

Exprimentations

Pour mener bien notre tude sur lintrt des verbes de cause-consquence dans le cadre de lextraction dEN-E, nous avons privilgi une approche lexicale du problme. partir dune liste de verbes dgage au cours dtudes de corpus pralables, nous avons prlev des syntagmes nominaux (SN) issus des contextes gauches et droits au moyen de grammaires locales dveloppes avec Wmatch. Deux annotateurs (expert) ont ensuite ltr manuellement les SN extraits pour ne conserver que les groupes en position sujet et argument, en tenant galement compte des sujets inverss. Ceci permet de saffranchir des ventuelles erreurs du systme. Rappelons que le but nest pas de tester un systme (permettant ou non une analyse syntaxique), mais dvaluer dans quelle mesure certains verbes sont accompagns de noms dvnements. En parallle, les annotateurs ont indiqu si le sujet du verbe (sil existe) et si largument le plus proche de ce verbe (si un argument a t extrait) reprsentent ou non des noms dvnements. Au total, 4345 verbes ont t annots en une dizaine dheures, pour un total de 5016 noms. Laccord inter-annotateur est jug bon (kappa = 0,79 (Cohen, 1960)). Puis les verbes ont t regroups en fonction de leur lemme, de leur prposition et de leur pronominalisation (expliquer et sexpliquer par sont deux entits distinctes tant donn leur fonctionnement syntaxique diffrent). On obtient ainsi 89 units verbales. Les tableaux suivants prsentent les verbes qui ont, pour au moins 75% de leurs occurrences dans le corpus, un vnement en position sujet (Tableau 1.a) ou en argument (Tableau 1.b). Bien entendu, certains de ces chiffres sont peu signicatifs tant donn leur nombre doccurrences, comme avoir pour origine prsent dans que les crises aient pour origine des problmes de dfaillance technique, de sant publique, etc. ou tirer les leons de dans le gouvernement se runira pour tirer les leons des lections. Nous avons cependant choisi de les conserver dans cette liste parce quils nous semblent particulirement pertinents. Il est intressant de constater que 305 noms dvnements du corpus ne sont pas prsents dans les listes pr-tablies. Par exemple, si conit y est prsent (le conit Danone peut donner naissance une forme d alliance entre salaris et consommateurs), ce nest pas le cas de mise en sourdine dans cette lection entranera-t-elle la mise en sourdine des intrts communaux ? ni de toll (provoqu un toll chez les organisations amrindiennes) ou de revers (subissent un cuisant revers). Ces mots peuvent donc tre intgrs dans nos lexiques. Par ailleurs, nous souhaitions galement vrier une autre hypothse selon laquelle un vnement provoque un vnement, cest--dire la conguration dans laquelle sujet et argument dun verbe sont tous

L ES ENTITS NOMMES VNEMENT ET LES VERBES DE CAUSE - CONSQUENCE Pourcentage Verbe innitif Occurrences dvnements gauche avoir lieu 89 100% se produire 45 94% provoquer 42 76% sexpliquer par 12 92% se traduire par 12 80% affecter 10 83% aboutir 7 78% prcipiter 4 80% se passer 4 80% avoir pour origine 1 100% tre entraner 1 100% rendre 1 100% se donner 1 100% Pourcentage Occurrences dvnements droite 134 87% 120 94% 85 79% 84 76% 56 100% 55 93% 53 93% 46 81% 38 81% 34 87% 22 100% 16 80% 5 100% 1 100% 1 100% 100% 100%

Verbe innitif

a) Position sujet

provoquer organiser permettre subir dclencher conduire assister contribuer aboutir se traduire par donner lieu perptrer inciter occasionner se prcipiter tirer les consquences de 1 tirer les leons de 1 b) Position argument

TAB . 1 Prsence 75% et plus dun SN dsignant un vnement en position sujet ou argument de verbes de cause-consquence

les deux des vnements. Sur 670 verbes prsentant une annotation des sujet et argument (31 verbes diffrents), 181 occurrences seulement prsentent la conguration vnement-verbe-vnement, et aucun verbe ne se dtache vraiment pour dmontrer notre hypothse. Le meilleur exemple, le verbe provoquer, compte 30 occurrences de ce type pour 45 triplets, comme son arrestation provoque des manifestations mireligieuses, mi-politiques. Le tiers a pour argument des consquences matrielles comme dans une autre mini-tornade a provoqu des dgts Villeneuve-ls-Maguelone ou pour sujet des personnes ou assimils personne, exemple : le Conseil de prvention et de lutte contre le dopage avait provoqu une petite crise avec lUnion cycliste. On peut aussi noter donner lieu qui 7 fois sur 10 vrie cette hypothse, le rachat de USA Networks ne donnera lieu ni cration dactions nouvelles ni dimportantes sorties dargent liquide. Enn, les deux dates du corpus reprsentant des vnements ont t repres au moyen des verbes de cause-consquence. Il sagit de 11 septembre (le 11 septembre aura prcipit une rcession) et mai 68 (mai 68 a prcipit sa disparition). Mme si les occurrences sont peu nombreuses, ce rsultat est intressant. En effet, une mthode dextraction base sur les verbes de cause-consquence peut conduire construire une liste de dates ou de lieux qui peuvent potentiellement se comporter comme des vnements, et donc den amliorer lextraction.

B ATRICE A RNULPHY, X AVIER TANNIER , A NNE V ILNAT

Conclusion et perspectives

Nous envisageons dans un futur proche de mener terme une autre partie de cette tude qui consiste vrier la validit de nos listes de dclencheurs. Une perspective intressante serait dutiliser lanalyse syntaxique an de travailler sur les sujets et complments dobjet des verbes qui nous intressent, la suite de cette tude pralable purement lexicale. Enn nous prvoyons dintgrer lutilisation des verbes de cause-consquence qui se sont dgags de notre tude an de collecter des mots dclencheurs dvnements et dextraire au mieux nos EN-E.

Rfrences
B ITTAR A. (2009). Annotation of events and temporal expressions in french texts. In ACL-SIGANN. C OHEN J. (1960). A coefcient of agreement for nominal scales. Educational and Psychological Measurement, 20, 3746. D ODDINGTON G., M ITCHELL A., P RZYBOCKI M., R AMSHAW L., S TRASSEL S. & W EISCHEDEL R. (2004). The Automatic Content Extraction program - tasks, data, and evaluation. In LREC04. E HRMANN M. (2008). Les Entits Nommes, de la linguistique au Tal : Statut thorique et mthodes de dsambigusation. PhD thesis, Universit Paris 7. E HRMANN M. & H AGGE C. (2009). Proposition de caractrisation et de typage des expressions temporelles en contexte. In Actes de TALN 2009, Avignon. G ALIBERT O. (2009). Approches et mthodologies pour la rponse automatique des questions adaptes un cadre interactif en domaine ouvert. PhD thesis, Universit Paris-Sud 11, Orsay, France. G RAVIER G., B ONASTRE J.-F., G EOFFROIS E., G ALLIANO S., M C TAIT K. & C HOUKRI K. (2004). Ester, une campagne dvaluation des systmes dindexation automatique dmissions radiophoniques en franais. In Proceedings of JEP04, Fz, Maroc. H ATHOUT N., NAMER F. & DAL G. (2002). An Experimental Constructional Database: The MorTAL Project. In P. B OUCHER, Ed., Many Morphologies, p. 178209. Somerville, Mass.: Cascadilla. L ECOLLE M. (2004). Toponymes en jeu : Diversit et mixage des emplois mtonymiques de toponymes. In Studii si cercetari lologice 3 / 2004, Universit de Pitesti, Roumanie. N EVEU E. & Q UR L. (1996). Prsentation. Rseaux, 14(75), 721. P USTEJOVSKY J., C ASTAO J., I NGRIA R., S AUR R., G AIZAUSKAS R., S ETZER A. & K ATZ G. (2003). TimeML: Robust specication of event and temporal expressions in text. In IWCS-5. ROSSET S., G ALIBERT O., I LLOUZ G. & M AX A. (2005). Interaction et recherche dinformation : le projet RITEL. TAL. Traitement automatique des langues, 46(3), 155179. S TEIMBERG L. C. (2006). La construction de la mmoire historico-mdiatique travers les dsignations dvnements. Studies van de BKL 2006 - Papers of the LSB 2006. S TEIMBERG L. C. (2008). Les hmronymes. ces vnements qui font date, ces dates qui deviennent vnements. Mots. Les langages du politique, 3, 115128. V ELDE D. V. D. (2000). Existe-t-il des noms propres de temps ? Lexique, 15, 151. V ENDLER Z. (1967). Verbs and Times, In Linguistics in Philosophy, p. 97121. Cornell University Press: Ithaca, NY, USA.

Вам также может понравиться