Вы находитесь на странице: 1из 18

De lAPD Tropes : comment un outil danalyse de contenu

peut voluer en logiciel de classification smantique gnraliste


Communication au colloque Psychologie et communication
Tarbes Juin 2009

Pierre Molette
www.tropes.fr
contact [at] tropes.fr

Note - Ractualisation des adresses web de ce document (en juin 2014).

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 2/18

Introduction
Afin de saffranchir des biais de lanalyse thmatique (en particulier la dfinition arbitraire des units de codage et du choix subjectif
des indicateurs utiliss pour l'interprtation), Rodolphe Ghiglione et le Groupe de Recherche sur la Parole (GRP, Universit Paris 8)
ont labor successivement deux thories danalyse de contenu : lAnalyse Propositionnelle du Discours (APD) puis lAnalyse
Cognitivo Discursive (ACD).
Ces thories sont fondes sur un dcoupage du texte en propositions grammaticales, la catgorisation smantique des mots outils,
lidentification de classes paradigmatiques de substantifs (appels "rfrents noyaux") et la modlisation des propositions sous un
formalisme simplifi (appel "modle argumentatif" dans lAPD ou "noyau gnrateur" et "structure fondamentale de la signification"
dans lACD). Pour rsumer, disons quil sagit dextraire du texte une srie de variables qui vont faire lobjet dun traitement
statistique permettant de rvler des rsultats danalyse objectifs, qui ne seraient pas forcment identifis aprs une lecture
approfondie du texte.
Linformatisation de la thorie de lAPD a fait lobjet de plusieurs prototypes de logiciels universitaires (dans les annes 80 et au
dbut des annes 90), qui ont t utiliss pour des travaux de recherche avec des rsultats satisfaisants. Ces prototypes,
rudimentaires, ncessitaient la prsence permanente de lutilisateur, impliquaient des interventions frquentes sur le lexique (de
capacit insuffisante) et restituaient les rsultats sous la forme de tableaux statistiques. Lutilisation tait laborieuse : lanalyse
durait des heures et il fallait la recommencer pour appliquer une modification de dictionnaire. Il sagissait en fait dune "analyse
manuelle assiste par ordinateur". On arrivait donc un paradoxe : la thorie et loutil existaient, mais ils taient trs lents et
difficilement exploitables. Ce qui impliquait, faute de temps, de rduire la quantit de texte traite et paradoxalement de prendre
des risques sur linterprtation des rsultats, puisque ceux-ci taient issus de petits chantillons de donnes textuelles.
On sest donc mis rver dun logiciel automatique, rapide, dot dune interface graphique moderne. Mais pour y parvenir il fallait
se doter de moyens qui dpassaient largement le budget dun laboratoire universitaire. Le Groupe de Recherche sur la Parole sest
donc appuy sur une entreprise, qui sest lance dans un processus dingnierie et a dvelopp le logiciel Tropes, ds 1994. Aprs
sept versions conscutives, et quinze ans dexistence, Tropes est devenu une plate-forme danalyse smantique de contenu. Il
sest loign des "pures" mthodologies dorigine, qui se sont en quelque sorte "dilues" dans dautres. Lobjectif de cette
confrence est de montrer comment ces thories et ces outils issus de la recherche universitaire ont du tre transforms, puis
fusionns, pour obtenir une suite doutils danalyse smantiques qui dpassent largement le cadre mthodologique fix lorigine
par lAPD et lACD.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 3/18

Analyse lexicomtrique versus analyse smantique


La lexicomtrie consiste, pour rsumer, trier des formes flchies extraites dun corpus de textes, filtrer les mots outils et
supprimer les termes faible frquence (dont les hapax), afin dlaborer des statistiques.
Cette approche est parfaitement valable et utile.
Cependant la lexicomtrie pose plusieurs problmes quand on veut sen servir pour lanalyse de contenu :
1 Labsence de rsolution des ambiguts ncessite dcarter certains termes, qui sont pourtant essentiels.
2 Le traitement statistique implique de rduire fortement le nombre de variables, donc de perdre de linformation.
3 Lanalyste doit dcouvrir lui-mme les quivalents smantiques durant la phase dinterprtation des rsultats.
4 Les mots composs ne sont pas reconnus, ce qui introduit de nombreux artefacts.
Malgr ces inconvnients, la lexicomtrie prsente lintrt dtre simple du point de vue informatique et de pouvoir fonctionner
sans intervention humaine (on la retrouve dans certains moteurs de recherche). Ce qui lui permet de traiter de nombreuses langues
vivantes et explique quelle soit complte par de nombreux outils statistiques, plus astucieux les uns que les autres.
A contrario, lanalyse smantique va regrouper des mots issus dun corpus de textes dans des catgories (par ex. cause, but,
temps, lieu, etc.) ou des classifications (synonymes, hyperonymes), en sappuyant sur des grammaires et des rseaux
smantiques. Disons quon passe de "lanalyse de contenant" (formes) lanalyse de contenu (sens), en faisant appel la
pragmatique linguistique (i.e. tenir compte du contexte). La smantique facilite lanalyse et rduit le risque interprtatif.
Mais cette approche implique daffronter la polysmie, avec linconvnient dutiliser une logique complexe de rsolution de
problmes (grammaticaux, smantiques) et de ncessiter de gros dictionnaires de classification, qui ne seront jamais totalement
parfaits ou exhaustifs. Lanalyse smantique impose donc des reclassifications, avant linterprtation des rsultats.
Un exemple : dans un texte qui contient "de lor, de largent, du bronze", trois substantifs qui ne seraient compts quune fois en
lexicomtrie (donc non significatifs dans ce cadre), Tropes va retenir la classification "mtaux et alliages" (compte trois fois), aprs
dsambigusation ("or"=>conjonction et mtal ; "bronze"=>verbe bronzer, objet dart et mtal ; "argent"=>moyen de paiement et
mtal) ; en cartant des ambiguts comme "livre dor", "or noir", "mdaille dargent", "ge du bronze", etc.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 4/18

Tropes - Vue globale du processus danalyse

Chanes de
caractres,
paragraphes

Corpus
de
textes

Conversion

Formes
flchies,
phrases

Propositions,
mots et
lemmes

Analyse
morpho
syntaxique

Lexiques,
grammaires et
rgles
syntaxiques

Catgories,
rfrences,
Scnario

Analyses
smantiques

Ontologies,
catgories
et autres
classifications

Rafales,
pisodes,
styles, SFS

Statistiques

Rsultats
danalyse
et
graphiques

Reclassification
personnalise

Contrairement aux logiciels de lexicomtrie, Tropes fait appel deux processus danalyse (morphosyntaxique et smantique) avant
de faire des statistiques. Le filtrage des hapax est optionnel.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 5/18

Tropes - Vue globale de lanalyse morphosyntaxique

Ponctuation
et mise en
page

Lettres et
chiffres

Dcoupage
en phrases

Analyse
lexicale

Frontires
linguistiques

Filtrage

Leve
dambigut

Dcoupage
propositionnel

Formes
flchies

Conjugueur
flchisseur

Propositions
grammaticales

Mots
canoniques
(lemmes)

Lassemblage des mots composs intervient plusieurs endroits dans ce schma (avant et aprs dcoupage propositionnel).
La leve dambigut est un processus trs complexe, qui fait appel la logique des prdicats, des grammaires statistiques, un
correcteur orthographique, un flchisseur et un lexique.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 6/18

Tropes - Vue globale des analyses smantiques

Substantifs
noms propres

Leve
dambigut

Modalisations et
connecteurs

Classification par catgories

Adjectifs

Analyse APD

Verbes

Analyse des
acteurs
(actant, act)

Classification
de la
rfrence

Univers de
rfrence,
Scnario

Statistiques
dans la
proposition

Analyse des
cooccurrences

Relations,
expressions
rgulires

Analyse
chronologique,
rafales

Analyse
ACD

Propositions
remarquables
(SFS)

Analyse de
distribution

Catgories
frquentes

Style
gnral du
texte

La leve dambigut smantique fait appel un processus danalyse stochastique exploitant une "mtaphore informatique" de la
mmoire humaine (i.e. un processus de dcision incluant des connaissances a priori, une mmoire court terme et long terme).

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 7/18

Comment prsenter certains rsultats ?


Des graphiques conus comme des outils danalyse
Le graphe des rafales et des pisodes est une analyse chronologique du rcit :

Une Rafale regroupe des occurrences (contenues dans


une classe dquivalents ou une catgorie APD) ayant
tendance arriver avec une concentration significative
dans une partie limite du texte (mais jamais de faon
uniforme sur lintgralit de celui-ci).

Un Episode correspond une partie du texte dans


lequel un certain nombre de Rafales se sont formes et
termines. Ce sont de grands blocs dargumentation,
reprsentatifs de la structure du discours observ.

Certaines catgories APD, ainsi que les pronoms


personnels, sont affichs sur ces graphiques.

Sur cet exemple, on voit que le texte commence par "parler" dlection, de problme et de citoyen, puis passe un autre pisode
voquant le chmage, le travail et la scurit sociale, etc.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 8/18

Comment prsenter certains rsultats ?


Des graphiques conus comme des outils danalyse (suite)
Le graphe des acteurs est une extension de lAPD, synthtisant frquences doccurrence, cooccurrences et acteurs :

Sur cet exemple on voit le


rsultat dune analyse de
Madame Bovary de Flaubert.

Tous les personnages


principaux sont des actants
et bnficient dune
importante diversit de
relation. On les voit en haut
et gauche du graphique.

Les autres rfrents, droite,


sont acts : on y retrouve des
objets, des lieux ou des
personnages secondaires.

L'axe vertical indique la concentration de relations pour chaque rfrence affiche. Il sagit de pondrer la frquence
doccurrence par le nombre de relations de cooccurrence diffrentes. Les traits indiquent les relations avec dautres rfrences.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 9/18

Lexiques et rseaux smantiques


Voici deux graphiques concernant la rpartition des mots des dictionnaires, pour la langue franaise :

Classifications smantiques

Formes flchies

Verbes

Substantifs

Adjectifs
Autres
Substantifs

Verbes
Adjectifs
Autres

Le nombre de conjugaisons est lev en Franais, ce qui gnre beaucoup de formes flchies (800 000 thoriques). Toutefois les
verbes sont peu nombreux (environ 8000 lemmes, sans compter en double les pronominaux), contrairement aux substantifs
(environ 120 000 lemmes) qui font lobjet du plus grand nombre de classifications.
Les formes flchies stockes dans le lexique de Tropes ont t extraites en analysant des corpus contenant des millions de
documents (et des milliards doccurrences de mots). Elles sont donc attestes. Les formes flchies rares (par ex. plus-que-parfait
du subjonctif) ou non-attestes sont gres par un conjugueur flchisseur (qui corrige aussi certaines fautes dorthographe).

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 10/18

Langues vivantes traites


Des dictionnaires existent actuellement dans quatre groupes de langues, qui font fait lobjet de cinq versions diffrentes du logiciel :
Anglais, Espagnol, Franais et Portugais/Brsilien
Ce graphique indique, pour chaque langue, le
nombre de formes flchies attestes ainsi que
le nombre total de classifications smantiques
(hors scnario).

Franais

Il faut relativiser ces statistiques, sachant que


ces langues ne sont pas toutes comparables.
Par exemple, le nombre dentres canoniques
anglaises dpasse les autres langues (qui ont
beaucoup de formes flchies, parce quelles
ont des grammaires complexes).

Anglais

Portugais

Classifications

Bien que la qualit des rsultats ne soit pas la


mme, la version espagnole de Tropes gre
en pratique (via le flchisseur) autant de
formes de verbes que la portugaise.

Formes flchies

Espagnol

50000

100000

150000

200000

250000

300000

350000

A titre de comparaison, la version espagnole


actuelle de Tropes contient 4 fois plus de
classifications et gre 30 fois plus de formes
flchies que le logiciel APD version 1992.

Dautres langues sont prvues (Roumain, Grec) ou existent ltat de prototype (Allemand, Italien).

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 11/18

Analyse de la rfrence : des quivalents classs par hyperonymes

Concepts
gnraux

Hyperonymes
antonymes

Co-hyponymes
synonymes

Noms communs
et noms propres

Mammifre

200

1600
Univers de
rfrence 2

Canids

20 000
Rfrences

100 000
Lemmes

Chien

Teckel

Flids

Chat

Cocker

Chaton

Le dictionnaire des quivalents de Tropes contient une triple classification des substantifs (Univers de rfrence 1 et 2, Rfrences
utilises), ce qui permet une forte rduction du nombre de variables utilises pour classer la rfrence. Ces classifications sont
reprises dans larborescence des scnarios danalyse. Lobjectif est de prendre du recul, avant de passer linterprtation.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 12/18

Le Scnario : un diteur dontologies


Le Scnario est un outil interactif permettant de contextualiser lanalyse, qui rpond plusieurs objectifs :
Fonctionnalits
Complter les classifications existantes et
rsoudre manuellement certaines ambiguts
Proposer des constructions hirarchises,
comme un thesaurus
Permettre des classifications combinant
substantifs, verbes et adjectifs
Dfinir plusieurs ontologies personnalises en
fonction des objectifs danalyse

Objectifs
Amliorer lanalyse ;
Rsoudre certains quivalents paradigmatiques
Structurer le rsultat
Elaborer dautres modles danalyse
Test de plusieurs hypothses

Par exemple, les mots pomme , citron et banane peuvent, suivant le contexte, faire lobjet de trois classifications
pertinentes, au sens courant, en botanique et suivant la nomenclature douanire.

Le Scnario nimpose pas les contraintes de lAPD. Par exemple, les substantif syndicaliste , verbe syndicaliser et adjectif
syndical peuvent tre regroups sous la rfrence [Syndicat], ce qui est correct du point de vue linguistique.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 13/18

Une extraction terminologique couple lanalyse smantique


Cet outil lexico-smantique extrait du texte les mots composs ou expressions rgulires (i.e. suite de termes rpts contenant au
moins un substantif et cohrents dun point de vue linguistique) qui peuvent prsenter un intrt pour lanalyse.

Sur cet exemple on voit une partie des


rsultats dune extraction terminologique
effectue sur L'origine des espces de
Charles Darwin
Ce sont rarement de simples quivalents
paradigmatiques.

Lextracteur terminologique permet, la fois, denrichir rapidement les Scnarios du logiciel (en regroupant, par exemple, tous les
sigles avec les expressions qui y correspondent) et dobtenir une classification plus prcise (en proposant, par exemple, de cbler
les termes qui posent des problmes dambigut et/ou qui peuvent parasiter lanalyse des cooccurrences (Relations)).

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 14/18

Une mthode rcursive de construction dontologies


Si lobjectif est de disposer dun plan de classement "exhaustif"
pour un domaine, une approche pragmatique peut consister
extraire des textes de linformation smantique (atteste) et
lutiliser pour complter une ontologie existante.
Cette mthode se fonde sur un processus rcursif danalyse, qui
va partir dune premire classification (construite a priori) et
boucler sur les trois tapes suivantes :
1 analyser une collection de documents (corpus de test)
reprsentative du sujet trait ;
2 identifier tous les termes et expressions qui ne sont pas
pris en compte dans la classification (et qui sont jugs
pertinents par rapport la problmatique danalyse) ;
3 rajouter les termes pertinents dans la classification et
repartir ltape 1 (autant de fois que ncessaire), en
changeant ventuellement de corpus de test.
Sous certaines conditions, cette approche rcursive peut tre
considre comme termine quand la classification reste stable
lorsquon ajoute de nouveaux corpus.

Une mthode drive de ce qui prcde peut servir valuer la qualit dune ontologie ou un thesaurus, pour les faire voluer.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 15/18

Projet Agrovoc : un exemple dvaluation de thesaurus scientifique


AGROVOC est un vocabulaire multilingue structur (thesaurus) de la FAO (Food and Agriculture Organization) conu pour couvrir
la "terminologie de tous les domaines ayant trait lagriculture, la pche, lalimentation et aux domaines connexes".
Ce projet, ralis en partenariat avec la FAO et le CIRAD, a dans un premier temps consist transformer le vocabulaire
dAGROVOC en rseau smantique, puis valuer sa pertinence pour analyser des textes. Il a t ensuite dcid de complter la
classification par regroupement avec dautres ontologies existantes. Ce qui a ncessit dvaluer puis de fusionner plusieurs
ontologies et darbitrer sur les parties qui pouvaient a priori tre juges comme les meilleures.
Lanalyse des intersections entre les termes scientifiques
communs plusieurs ontologies (AGROVOC, ITIS, Mesh
et Wikipedia) a donn trois ensembles distincts :
1 les classifications communes la majorit des
ontologies (consensus) ;
2 les classifications contradictoires (sans rel
consensus) ;
3 des classifications orphelines (qui nexistaient que
dans une seule ontologie).
Larbitrage a t rendu possible en constituant un corpus
scientifique permettant de choisir entre telle ou telle
classification.
ITIS (Integrated Taxonomic Information System) est une base de donnes multilingue dinformations taxonomiques concernant les
plantes, les animaux, les champignons et les micro-organismes publie par le US Department of Agriculture (USDA)
MeSH (Medical Subject Headings) est un thesaurus mdical vocabulaire contrl, de la National Library of Medicine (NIH).
Lencyclopdie Wikipedia contient des informations assez pertinentes dans le domaine des Sciences de la vie et ses taxinomies.

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 16/18

Rutilisation dontologies dans un moteur de classification : Zoom

Zoom utilise les scnarios de


Tropes pour classer des
structures de fichiers,
des pages web ou
des fonds documentaires
La capacit dindexation de
Zoom est consquente :
plusieurs millions de
documents
Il est possible de regrouper
les documents par
rfrences, puis de les
analyser en bloc dans Tropes
Zoom permet donc de
multiplier les analyses via
une approche de gnration
dynamique de corpus

Dans lexemple ci-dessus, une recherche sur le terme scientifique "schistocerca" a donn 88 documents (pages Web) inclus dans
la rfrence "criquet" (qui est un terme vernaculaire, hyperonyme de schistocerca).

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 17/18

Background scientifique et technique


Outils et fonctions danalyse

Crdit

Catgories APD

Groupe de Recherche sur la Parole

Analyse propositionnelle

Groupe de Recherche sur la Parole

Style du texte

Patrick Charaudeau, Agns Landr

Rafales

Mathieu Brugidou

Episodes

Pierre Molette

Propositions remarquables

Rodolphe Ghiglione, Pierre Molette

Analyse morphosyntaxique

Pierre Molette, Dan Caragea

Leve dambigut smantique

Pierre Molette

Analyse de cooccurrence

Agns Landr, Pierre Molette

Classification de la rfrence

John Lyons, Pierre Molette, Agns Landr

Extraction terminologique et Scnario

Pierre Molette

Graphes

Pierre Molette

Dictionnaires et ontologies

Acetic, Cyberlex, Semantic-Knowledge

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

De lAPD Tropes : comment un outil danalyse de contenu peut voluer en logiciel de classification smantique gnraliste - 18/18

Rfrences bibliographiques

* LOGICIEL TROPES. http://www.tropes.fr


* AGROVOC. FAO (Food and Agriculture Organization, Nations Unies). http://www.fao.org/agrovoc/
* Brugidou, M. L'lection prsidentielle : discours et enjeux politiques. Paris, L'harmattan, 1995.
* Charaudeau P. Grammaire du sens et de l'expression. Paris, Hachette-Education, 1992.
* CIRAD (Centre de coopration internationale en recherche agronomique pour le dveloppement). Organisme scientifique
spcialis en agriculture des rgions tropicales et subtropicales . http://www.cirad.fr
* Ghiglione R., Landr A., Bromberg M., Molette P. L'analyse automatique des contenus. Paris, Dunod, 1998.
* Ghiglione R., Kekenbosch C., Landr A. L'analyse cognitivo-discursive. Grenoble, Presses Universitaires de Grenoble, 1995.
* Grevisse M., Goosse A. Le bon usage. Paris, Duculot, 1993.
* ITIS (Integrated Taxonomic Information System). USDA (US Department of Agriculture). http://www.itis.gov
* Le Quau P., Brugidou M. La dynamique interne du rcit. Paris, Cahier de recherche Crdoc numro 124, 1998.
* Lyons J. Smantique linguistique. Paris, Larousse, 1980.
* MeSH (Medical Subject Headings). National Library of Medicine (NIH, USA). http://www.nlm.nih.gov/mesh

Pierre Molette Communication au colloque Psychologie et communication Tarbes Juin 2009

Оценить