Вы находитесь на странице: 1из 122

1

Ecole Nationale Suprieure des Mines de Paris



Travail doption

effectu

lATILF (Nancy, CNRS)



Analyse et modlisation smantiques
partir de ressources lexico-smantiques



Reutenauer Coralie

Anne 2008







2
Remerciements

Mes remerciements sadressent avant tout mes quatre tuteurs. Merci infiniment Evelyne
J acquey qui ma consacr temps et nergie sans compter, dont les conseils clairs mont permis de
progresser chaque nouvelle tape et dont le dynamisme inpuisable a su me stimuler en permanence.
Merci Mathieu Valette qui ma fait dcouvrir les terres inconnues de la smantique, ma permis
davoir des changes extrmement enrichissants et qui a toujours su tre attentif mes interrogations
et ma progression. Merci J ean-Marie Pierrel, pour lintrt quil a manifest pour mon projet tout
au long de mon stage et pour mavoir ouvert non seulement les portes de son laboratoire, mais aussi
celles dun univers extraordinaire, et qui a ainsi russi me communiquer la passion de la recherche.
Merci Pierre Chauvet, sans lequel je naurais pu faire ce stage, tant pour les efforts quil a dploys
afin de satisfaire mes demandes que pour son extrme disponibilit, louverture dont il a fait preuve et
tout ce quil a mis en uvre pour maccompagner dans ma progression.

J e tiens aussi remercier Etienne Petitjean qui ma permis de faire dimmenses progrs en J ava et
sans lequel mon programme naurait probablement pas fonctionn ; Mick Grzesitchak, qui a su
mapporter son secours sur nombre de questions informatiques et ma initie Smy ; Bertrand Gaiffe,
qui a su mclairer plus dune occasion et a fait avancer mes rflexions par ses remarques
pertinentes ; Sandrine Ollinger pour sa prsence, son aide sur des points problmatiques et lintrt
quelle a manifest pour mon travail.

J e souhaite enfin exprimer ma reconnaissance lATILF et ses membres qui ont su si bien
maccueillir et, plus largement, tous ceux qui se sont intresss mon projet et mont soutenue pour
le mener bien.
3
Table des matires
REMERCIEMENTS ............................................................................................................................................ 2
TABLE DES MATIERES.................................................................................................................................... 3
I) OBJECTIFS : BATIR UN MODELE INTEGRANT DES ELEMENTS DUNE SEMANTIQUE DE
CORPUS................................................................................................................................................................ 5
II) CADRE GENERAL : LETUDE DES LANGUES NATURELLES, EN PARTICULIER DU
FRANAIS............................................................................................................................................................ 6
2.1) LE TRAITEMENT AUTOMATIQUE DES LANGUES ........................................................................................... 6
2.2) ETABLISSEMENT DACCUEIL : LATILF....................................................................................................... 6
III) VERS LA MODELISATION : CADRE THEORIQUE, RESSOURCES ET OUTILS DISPONIBLES
................................................................................................................................................................................ 8
3.1) THEORIE LINGUISTIQUE : LA SEMANTIQUE INTERPRETATIVE OU SEMANTIQUE TEXTUELLE.......................... 8
3.1.1 Une smantique des pratiques.............................................................................................................. 8
3.1.2 Formalisation de cette thorie : les traits smantiques ou smes......................................................... 9
3.1.3 Phnomnes observs........................................................................................................................... 9
3.2) THEORIES MATHEMATIQUES POUR LANALYSE LINGUISTIQUE................................................................... 10
3.2.1) De la statistique linguistique tf-idf ................................................................................................. 11
3.2.2) Modles rcents : mtriques et distances smantiques...................................................................... 13
3.2.2.1) Modlisation de polysmie lexicale par Bernard Victorri ........................................................................... 13
3.2.2.2) Le modle LSA ........................................................................................................................................... 13
3.2.2.3) Une tentative dexploitation de plusieurs modles : travaux de Mauceri .................................................... 15
3.2.3) Autres perspectives............................................................................................................................ 17
3.3) RESSOURCES INFORMATISEES ET OUTILS DE TRAITEMENT ......................................................................... 17
3.3.1) Premire ressource informatise : un dictionnaire, le TLFi ............................................................. 17
3.3.2) Bases textuelles ................................................................................................................................. 18
3.3.2.1) Frantext, une base de textes littraires......................................................................................................... 18
3.3.2.2) LEst Rpublicain, corpus de textes journalistiques.................................................................................... 19
3.3.2.3) Wikisource, des contes parmi un vaste panel de textes............................................................................... 19
3.3.2.4) Corpus constitu partir du web par le biais de loutil Pompadoc.............................................................. 19
3.3.3) Deux outils rcemment dvelopps pour la smantique textuelle : regroupements morphologiques et
Smy ............................................................................................................................................................ 20
3.3.3.1) Regroupements morphologiques................................................................................................................. 20
3.3.3.2) Smy........................................................................................................................................................... 21
IV) MODELE OPTIMAL.................................................................................................................................. 24
4 .1) DEMARCHE GLOBALE................................................................................................................................ 24
4.2) CHOIX DES MATERIAUX DE BASE ............................................................................................................... 27
4.3) PRE-TRAITEMENTS..................................................................................................................................... 29
4.3.1) Dcoupage du corpus........................................................................................................................ 29
4.3.1.1) Multiplicit des chelles smantiques......................................................................................................... 30
4.3.1.2) Ordre : conservation ou non ?..................................................................................................................... 31
4.3.2) Affectation des traits smantiques..................................................................................................... 31
4.3.2.1) Source des traits smantiques...................................................................................................................... 31
4.3.2.2) Filtrage et regroupement des smes............................................................................................................. 33
4.3.3) Pondration des traits smantiques................................................................................................... 34
4.4) TRAITEMENTS MATHEMATIQUES................................................................................................................ 35
4.4.1) Matrice du corpus : du nombre doccurrences la significativit des cooccurrences ..................... 35
4.4.1.1) Point de dpart : dcompte des occurrences................................................................................................ 35
4.4.1.2) Transformations matricielles....................................................................................................................... 35
4.4.1.2.1) Frquence et significativit : dans le sillage de Zipf ........................................................................... 35
4.4.1.2.2) Reprage de la surreprsentation et sous-reprsentation..................................................................... 36
4.4.1.2.3) Psycho-linguistique et gestion de la multiplicit de sens.................................................................... 36
4.4.1.2.4) Des occurrences aux cooccurrences.................................................................................................... 37
4.4.1.2.5) Ordre dapplication des transformations............................................................................................. 38
4.4.1.2.6) Interprtation du produit final ............................................................................................................. 38
4.4.2) Du global au local : reprsentation du mot et de son cotexte........................................................... 38
4
4.4.2.1) Le mot......................................................................................................................................................... 38
4.4.2.2) Le cotexte.................................................................................................................................................... 39
V) EXPERIMENTATIONS............................................................................................................................... 41
5.1) AUTOMATISATION DES TRANSFORMATIONS : PROGRAMMATION EN J AVA ................................................. 41
5.1.2) Architecture....................................................................................................................................... 41
5.1.2) Justification des choix effectus ........................................................................................................ 43
5.1.3) Limites et difficults rencontres....................................................................................................... 44
5.2) PARAMETRES DES TESTS EFFECTUES.......................................................................................................... 44
5.2.1) Les supports de rfrence.................................................................................................................. 44
5.2.2) Oprations mathmatiques appliques.............................................................................................. 45
5.3) TESTS ET ANALYSE DES RESULTATS........................................................................................................... 47
5.3.1) Mthodes danalyse mathmatiques.................................................................................................. 47
5.3.1.1) Visualisation des matrices : logiciel PermutMatrix..................................................................................... 47
5.3.1.2) Analyse de moyennes et carts-types.......................................................................................................... 47
5.3.2) Tests raliss : observations des activations et inhibitions............................................................... 47
5.3.2.1) Analyse n1 : influence de la transformation mathmatique....................................................................... 48
Cooccurrences simples, sans autre transformation.............................................................................................. 48
Mthode tf-id....................................................................................................................................................... 49
Mthode adapte de LSA.................................................................................................................................... 50
Mthode adapte du (applique la matrice de cooccurrences) ..................................................................... 51
Calcul des cosinus............................................................................................................................................... 52
5.3.2.2) Influence des cotextes................................................................................................................................. 53
Analyse n1 : comparaison des cotextes par PermutMatrix et indicateurs de valeurs centrales et dispersion..... 53
Analyse n2 : effets de cotextes de taille et de nature diffrentes........................................................................ 55
Analyse n3 : explication de la faible influence des cotextes par lcart-type..................................................... 56
5.3.2.3) Analyse n4 : mesure des variations fines................................................................................................... 58
5.3.3) Conclusion sur les expriences ......................................................................................................... 60
CONCLUSION ET PERSPECTIVES .............................................................................................................. 62
GLOSSAIRE....................................................................................................................................................... 63
BIBLIOGRAPHIE.............................................................................................................................................. 65
ANNEXES ........................................................................................................................................................... 67
A1) CODE INFORMATIQUE, ELEMENTS PRINCIPAUX DU PROGRAMME REALISE EN J AVA.................................... 67
Classe principale (sans le main) : ReprSem0.............................................................................................. 67
Classe SemEtDistri ...................................................................................................................................... 73
Classe Matrice............................................................................................................................................. 74
A2) SEMEME DE POLLEN, SABLE, ECLAT ET OR ................................................................................................. 84
Smme de pollen ........................................................................................................................................ 84
Smme du mot sable................................................................................................................................... 86
Smme du mot clat ................................................................................................................................... 91
Smme du mot or ....................................................................................................................................... 99
Smme du mot or ....................................................................................................................................... 99
A3) COTEXTES DU CORPUS DE CONTES........................................................................................................... 110
1er cotexte : nacre (1289 familles de traits smantiques) .............................................................................. 110
2e cotexte : nacre et sable (1329 familles de traits smantiques)................................................................. 110
3e cotexte : sable (1119 familles de traits smantiques)................................................................................ 110
4e cotexte : sable (510 familles de traits smantiques).................................................................................. 110
5e cotexte : pollen (559 familles de traits smantiques)................................................................................. 110
6e cotexte : rose (739 familles de traits smantiques).................................................................................... 110
7e cotexte : rose (1123 familles de traits smantiques).................................................................................. 110
8e cotexte : rose (500 familles de traits smantiques).................................................................................... 111
9e cotexte : rose (568 familles de traits smantiques).................................................................................... 111
10e cotexte : clat et or (660 familles de traits smantiques)........................................................................ 111
11e cotexte : clat (435 familles de traits smantiques)................................................................................. 111
12e cotexte : fer (602 familles de traits smantiques)..................................................................................... 111
13e cotexte : fer (1654 familles de traits smantiques)................................................................................... 111
A4) COMPARAISON DE TRANSFORMATIONS MATHEMATIQUES : EXEMPLE DECLAT DANS LE COTEXTE N10.. 112
A5) COMPARAISON DE COTEXTES : INDICATEURS DE VALEURS CENTRALES ET DE DISPERSION DU MOT SABLE115
A6) MOYENNES DE TRAITS SEMANTIQUES DE ROSE RELATIVES AU TRAIT /EGLISE/......................................... 119
5
I) Objectifs : btir un modle intgrant des lments dune
smantique de corpus

Les langues naturelles, outils quotidiens de communication, apparaissent plusieurs gards comme
un ensemble structur, avec ses rgles syntaxiques ou encore ses rgularits morphologiques. Le sens
quelles vhiculent constitue, de mon point de vue, une de leurs raisons dtre majeure. La smantique,
discipline de la linguistique qui a pour objet ltude du sens, sattaque donc un aspect fondamental
du langage et constituera le socle de mon stage.

Le sens est, par essence, subjectif. Linterprtation dun texte, le texte constituant une forme
particulire de lusage de langues naturelles, varie selon les individus, lpoque et, de manire plus
gnrale, lenvironnement de ce texte. Pourtant, nous nous comprenons. Ce consensus pourrait donc
tre considr comme le reflet dune convergence smantique. Les linguistes tentent de comprendre
les mcanismes qui rgissent cette convergence et daller au-del de leur intuition linguistique. Pour ce
faire, ils collectent des donnes relles. Cependant, la masse de donnes gnres est trs importante et,
pour la synthtiser et lexploiter, le recours une modlisation mathmatique des phnomnes de
convergence et de variation smantiques en prsence savre ncessaire.
Cette modlisation, un des enjeux majeurs du stage effectu, met en jeu des disciplines jeunes la
croise de la linguistique, de linformatique et des mathmatiques : le traitement automatique des
langues, la statistique linguistique et la smantique textuelle. Ces sciences abordent le fonctionnement
des langues naturelles, en particulier leur fonctionnement smantique, diffrents niveaux : le niveau
lexical, cest--dire le niveau du mot, supra-lexical, fond sur des units langagires plus tendues que
le mot (phrase, paragraphe, texte) et infra-lexical, sappuyant sur des units plus petites que le mot. Ce
dernier niveau, niveau central de mon tude, repose sur le principe suivant : tout mot peut tre
affect un ensemble dunits de sens minimales, appeles traits smantiques ou smes. Les traits
smantiques qui composent un mot peuvent tre partags par dautres mots, comme par exemple lide
de mouvement ou encore lopposition entre concret et abstrait. Ils interagissent et dterminent ainsi
notre perception du sens.
Par ailleurs, mon travail se fonde sur lhypothse suivante : le sens nest pas intrinsque mais
dpend de son environnement, environnement que nous appellerons le cotexte dans le cadre dun
texte donn. Ainsi, les relations entre traits smantiques et lmergence du sens reposent sur lusage.
Le sens nest pas fig comme dans les ressources encyclopdiques, il est vivant, mouvant et volue
dans le temps. Il est dpendant des situations, des interlocuteurs, tout comme les usages
1
.
Cette approche linguistique du sens, reprsente notamment par la smantique interprtative ou
textuelle, permet dtudier les tendances smantiques globales dun texte, mais aussi les variations
fines plus petite chelle, notamment par rapport un mot, cest--dire au niveau lexical. Les
recherches dveloppes au cours de mon stage et prsentes dans ce rapport se centrent sur ce dernier
point : le mot et ltude de ses variations locales en tudiant les variations au niveau infra-lexical par
lintermdiaire des traits smantiques ou smes.
Pour mesurer les dplacements smantiques, je me suis efforce de rechercher des modles
pertinents dans des domaines semblables au mien, dadapter ces modles et dtudier leur qualit.
Cette qualit a t estime laune de mes objectifs, savoir obtenir une reprsentation mathmatique
globale du contenu smantique dun texte ou corpus de textes et observer les variations du contenu
smantique dun mot en un point du texte.

1
Nous rappelons cependant que la prsente tude sintresse essentiellement linfluence des usages reprsents
par les textes. En effet, les linguistes nont pas les outils thoriques ncessaires la modlisation des situations
comme celle des interlocuteurs en tant quindividus.
6
II) Cadre gnral : ltude des langues naturelles, en
particulier du franais
2.1) Le Traitement Automatique des langues
Avec lmergence des NTIC et la ncessit de grer linformation, lingnierie des langues a pris
une dimension majeure, dont les enjeux et avances sont dcrits dans [Pierrel, 1997]. Elle sest en
particulier concrtis travers le TAL, Traitement Automatique des Langues, aussi appel TALN
(Traitement Automatique du Langage Naturel),
Le TAL est n vers le milieu du XXe sicle aux Etats-Unis. Il a pour objet le traitement
automatique partir doutils informatiques, linguistiques et formels de donnes textuelles (textes crits
ou oraux ou encore units linguistiques).
Comme le soulignent [Cori & Lon, 2002], les frontires du TAL ne sont pas clairement dfinies. Il
balance entre science et technologie, oscille entre vises thoriques et industrielles. Sa dlimitation est
donc dlicate. Quelques lments permettent cependant de saisir globalement ce quil reprsente.
Le TAL repose sur quatre disciplines principales : la linguistique, linformatique, les
mathmatiques et les sciences cognitives. N dans une optique de traduction automatique, il voit son
champ dinvestigation stendre rapidement pour recouvrir des domaines trs varis. Selon [Miller &
Torris, 1990] cit par [Cori & Lon, 2002], il sintresse la linguistique thorique, quil cherche
dcrire explicitement ; linformatique thorique pour loptimisation des algorithmes et programmes
mis en place ; ltude mathmatique des proprits formelles des outils de traitement et thories
linguistiques ([Miller & Torris, 1990], p.15) ; lintelligence artificielle et aux thories cognitives.
Sur le plan linguistique, il se situe diffrents niveaux dobservation : le niveau morpho-lexical,
qui sattache ltude de la structure des mots (morphologie) et la classification et au recensement
des formes dune langue (lexicologie) ; le niveau syntaxique (par exemple, pour les grammaires dune
langue) ; smantique (tude du sens) ; pragmatique (contextualisation). Ces diffrentes approches sont
complmentaires, souvent imbriques, comme par exemple les dmarches sintressant linterface
syntaxe / smantique.
Lexistence du TAL se justifie par deux raisons principales : il permet dune part danalyser de
grands corpus de textes et dautre part de mettre en place et analyser des modles formels.
Dans le vaste champ dinvestigation du TAL, mon travail se positionne au niveau smantique.
Le TAL a de nombreux domaines dapplication : la recherche dinformation, la traduction
automatique, la classification de textes, le filtrage dinformation, la correction automatique, la
gnration automatique de textes (rsum par exemple) ou encore la comprhension automatique des
textes. Les domaines dapplication de mon sujet sont principalement la recherche dinformation et la
classification de textes.
2.2) Etablissement daccueil : lATILF
Le laboratoire ATILF (Analyse et Traitement de la Langue Franaise) au sein duquel jai effectu
mon stage est une unit mixte de recherche du CNRS (dpartement Homme et Socit) et de Nancy
Universit, Campus Lettres et Sciences Humaines et Universit Henri Poincar. Il est issu du
rapprochement de lINALF (Institut National de la Langue Franaise) et de lquipe daccueil de
luniversit LANDISCO (Langue, discours, cognition universit Nancy 2). Ses champs
dinvestigation se situent la croise de diffrentes disciplines : linguistique, informatique et
mathmatiques.
Le projet phare de lATILF est le Trsor de la Langue Franaise informatis (TLFi). Le Trsor de
la Langue Franaise (TLF), dont le TLFi est la version informatise, est un dictionnaire de langue
franaise des XIXe et XXe sicles en 16 volumes et un supplment. TLF et TLFi sont le fruit dun
travail de plus de quarante ans, dbut sous la direction de Paul Imbs en 1957. La version actuelle du
TLFi est disponible sur le web en accs libre (site http://www.atilf.fr/tlfi.htm) et sur CD-Rom. Ce
7
dictionnaire informatis se distingue par les fonctionnalits de recherche quil propose : recherche
simple avec affichage de larticle et outils de visualisation des diffrents lments de larticle
(dfinition, exemples, ), recherche assiste et requtes complexes.
LATILF ne se limite pas au TLFi : dautres projets denvergure ont t mens. Citons la
ralisation de Frantext, base textuelle constitue de prs de 4000 textes littraires franais denviron
1000 auteurs du XVIe au XXIe sicle. Les textes peuvent y tre consults par recherches simples ou
complexes. Une version partielle de Frantext est accessible librement ladresse
http://www.atilf.fr/frantext.htm. Mentionnons galement les nombreuses tudes portant sur lancien
franais et ayant conduit au DMF (Dictionnaire du Moyen Franais, accessible en ligne partir de
ladresse www.atilf.fr/dmf), autre produit phare de lATILF contenant prs de 120000 articles sur la
langue franaise de 1330 1500. Enfin, le Franzsisches Etymologisches Wrterbuch (FEW),
dictionnaire tymologique du moyen franais, offre une approche approfondie du galloroman, avec
une description du gascon, de loccitan, du francoprovenal et de dialectes dol. Celle-ci est taye
par toutes les donnes accumules de la lexicographie franaise et recense les volutions
morphologiques et smantiques du galloroman au cours des sicles.
8
III) Vers la modlisation : cadre thorique, ressources et
outils disponibles
3.1) Thorie linguistique : la smantique interprtative ou
smantique textuelle
La smantique interprtative, dveloppe partir des annes 80 par Franois Rastier (1987, 1991,
2001), est une thorie unifie visant dcrire tous les paliers de la textualit, du mot au texte, partir
des mmes outils conceptuels. Parmi ceux-l, le sme (ou trait smantique), hrit de la tradition
structuraliste (Saussure, Greimas, Pottier), prsente un intrt tout particulier pour notre propos.
3.1.1 Une smantique des pratiques
Deux traditions fondent la smantique daujourdhui : la tradition rhtorique-hermneutique qui
traite de textes et la tradition logico-grammaticale. Cette seconde approche, courant dominant dans la
communaut linguistique, a construit la smantique sur de petites chelles : tude du sens au niveau du
mot ou encore de la phrase. Lapport des cotextes et contextes y a alors t sous-estim et nglig. Par
cotexte, nous entendons lensemble des units smantiques qui ont une influence sur une unit donne
et sur lequel elle-mme a une incidence. Le contexte renvoie lenvironnement extralinguistique. Les
textes et, dans une certaine mesure, les contextes matrialisent la notion dusage. La smantique
interprtative sattache ltude dun sens non pas ontologique, cest--dire dun sens par essence,
intrinsque au mot, mais dune varit de sens associe aux textes et aux usages.
Lenvironnement (textes, contextes,) influence le sens des mots sur plusieurs plans. Le genre est
un premier cadre dinfluence. En effet, celui-ci met en jeu un univers smantique dans lequel les units
de sens mobilises sinscriront. Par exemple, les units de sens actives pour le mot essence seront,
dans le cas gnral, plutt relies au ptrole et des notions conomiques dans un corpus
journalistique, alors quelles feront cho ltre et lexistence dans des traits de philosophie.
Lpoque a galement un impact smantique : les pratiques sociales changent au cours des sicles,
ainsi que le sens des mots. Considrons le groupe nominal le mari du : dans des conversations du
XXIe sicle, on imaginera plutt un chec de lpouse sur un terrain quelconque (championne sportive
dtrne, rle de reprsentation mal tenu, ) et le mari affect par lincapacit de sa femme
satisfaire ses attentes ; dans du Molire, cette expression voquera le mari tromp par sa femme. De
plus, la smantique interprtative fait lhypothse que les discours et genres textuels refltent le cadre
socio-culturel, ce qui influera galement sur les units de sens actives. Enfin, la taille des cotextes
joue aussi un rle important : les units de sens mergentes ne seront pas toujours les mmes si on se
borne une phrase, un paragraphe, quon stend un chapitre, un texte ou encore un corpus de
textes. Un concept bien connu illustrant cet aspect est celui de lintertextualit : celle-ci ne peut tre
active que si le lecteur se place non pas simplement au niveau du texte quil lit mais se place dans un
univers smantique constitu de lectures antrieures.
Une notion-cl sinscrit dans ce cadre de lusage : le parcours interprtatif. Rastier, dans son
glossaire repris par [Missire, 2006], dfinit le parcours interprtatif comme une suite doprations
permettant dassigner un ou plusieurs sens un passage ou un texte . En clair, cela signifie que
chacun construira sa propre approche du sens selon diffrents paramtres : son milieu dorigine, son
poque, sa culture, le moment et la situation dans laquelle il est confront au texte, Ainsi,
linterprtation est influence par de multiples paramtres, variables selon les individus.
Enfin, soulignons que lapproche textuelle prend le contre-pied des rfrences dictionnairiques ou
encyclopdiques. Au mot au sens fig par ces ressources soppose un mot au sens volutif selon les
contextes (situation dnonciation ou de production du texte). Les cotextes lis ces situations
permettent alors non seulement de dsambiguser un mot polysmique mais aussi dintroduire des
variations smantiques pour un mot monosmique.
9
3.1.2 Formalisation de cette thorie : les traits smantiques ou smes
Lintroduction dentits particulires, les traits smantiques ou smes, a permis de formaliser les
principes exposs ci-dessus. Cette dmarche sinscrit dans un cadre infra-lexical qui considre que les
mots sont dcomposables en units de sens plus petites. Les traits smantiques ou smes constituent
les units de sens minimales. Chaque mot comprend un smme, ensemble structur de traits
smantiques.
Les traits smantiques dun smme peuvent tre classs en diffrentes catgories. Ainsi, les smes
peuvent tre gnriques ou spcifiques. Des smes gnriques sont des smes qui indiquent
lappartenance une classe, une famille plus vaste, comme le domaine auquel le mot appartient. Au
contraire, les smes spcifiques sont les smes permettant de distinguer le mot par rapport aux autres
mots des mmes domaines ou classes. Par exemple, pour le mot poirier, le trait smantique /arbre/
est un sme gnrique qui ramne une famille plus vaste ; le trait smantique /poire/ est en
revanche un sme spcifique, propre au mot poirier.
Ces diffrentes catgories de traits ont leur importance dans le cadre mathmatique o nous nous
plaons. Ainsi, de bonnes mesures de distance entre mots devraient reflter la structure en traits
gnriques et spcifiques. Les smes gnriques seraient facteurs de rapprochement smantique entre
deux mots et les smes spcifiques facteurs dloignement. Lanalyse linguistique, avec rpartition des
smes en smes gnriques et spcifiques, ouvre des perspectives sur le mode de validation dun
modle mathmatique.
Par ailleurs, deux statuts peuvent tre affects aux smes : le statut de sme inhrent et celui de
sme affrent. Un sme est dit inhrent sil est hrit dun mot, par exemple le sme /noir/ pour
corbeau. Il est au contraire dit affrent sil est greff un mot du fait dun cotexte particulier. Par
exemple, cheval aura pour sme affrent /jouet/ dans lexpression cheval de bois. Cette notion de
smes affrent et inhrent soulve un problme majeur dune modlisation idale : celle-ci doit
considrer un mot non comme un ensemble structur de taille fixe, susceptible dvoluer uniquement
au niveau de sa structure interne, mais comme un ensemble de taille variable, auquel peuvent tre
ajouts des lments quelconques de lunivers (espace constitu de lensemble des points ; dans notre
cas, il sagirait de lensemble des traits smantiques de la langue franaise).
Ajoutons aux notions abordes celle de forme smantique et de molcule smique. Une forme
smantique est un groupement stable de smes spcifiques articuls par des relations structurales. Une
molcule smique est un cas particulier de forme smantique. J e napprofondirai pas les diffrences
entre forme smantique et molcule smique, approche dtaille qui sort de mon champ de
comptences et mcarte de lobjet de ce travail de stage lintrieur duquel il mest actuellement
possible dutiliser indiffremment lun pour lautre, approximation que le lecteur voudra bien me
pardonner. Ce concept de molcule smique ma paru important car il implique la structuration du
smme et fait cho la notion de clusterisation en mathmatiques. Il ouvre donc des pistes de
rflexion intressantes sur la modlisation.
3.1.3 Phnomnes observs
Les traits smantiques sont soumis divers phnomnes en contexte, illustrs dans [Valette, 2004]
et [Valette & Grabar, 2004] : lactivation, la virtualisation, la domanialisation et ddomanialisation ;
ils peuvent se regrouper en noyau smique ou tre lorigine disotopies et enrichir le smme dun
mot.
Tout dabord, les traits smantiques peuvent tre activs ou au contraire virtualiss, cest--dire
inhibs en contexte. Par exemple, dans lexpression Un verre de rouge, le trait smantique /alcool/
est activ dans le mot rouge. En revanche, dans un chat siamois, le trait smantique /jumeaux/ du
mot siamois est inhib.
Un autre phnomne est celui de la domanialisation : le sens dun un mot peut se voir rattach un
domaine particulier dans un contexte donn. A linverse, un mot peut tre ddomanialis, cest--dire
10
quun sme gnrique qui le caractrise peut tre inhib en contexte. Les deux exemples cits ci-
dessous, tirs de [Valette & Rastier, 2008], illustrent ces notions de domanialisation et
ddomanialisation.
Considrons le premier exemple :
Si l ' on devi ent de pl us en pl us r i che, on r empl acer a peut - t r e
pr ogr essi vement l e McDo quot i di en par des t oast s au cavi ar , du
homar d, des omel et t es aux t r uf f es bl anches et d' aut r es choses
encor e pl us appt i ssant es et aussi r af f i nes que cot euses
( For umdu si t e teleologie.org, 3. 03. 2001)
Le mot caviar connat dans cet exemple une domanialisation gastronomique (prsence dun trait
/gastronomie/). Inversement, dans la presse sportive, lutilisation de caviar pour qualifier une belle
passe est lillustration mme, sur le plan smantique, dune ddomanialisation accompagne dune
redomanialisation. Le domaine dans lequel caviar se situe nest plus la gastronomie ou le luxe mais le
football (allocation dun trait smantique /sport/).

Lisotopie recouvre une ralit assez diffrente des deux prcdentes. Il sagit dun effet de la
rcurrence dun sme qui se traduit par la prsence rpte dudit sme dans un texte intervalles
rguliers. Le mot correspondant lunit de sens isotopique peut tout fait tre rare dans le texte,
voire absente.
Par ailleurs, dans les textes, on peut assister des regroupements de traits smantiques plus ou
moins variables. Ces regroupements varient mais semblent parfois prsenter des lments communs
rcurrents : le noyau smique. Soulignons que lexistence dun noyau smique, pour lensemble des
mots ou, plus vraisemblablement, certaines catgories de mots, na pas encore t dmontre. Une
modlisation du phnomne et des tudes statistiques des rsultats permettrait de rpondre, ou de
formuler un dbut de rponse cette question ouverte. Ces questions de regroupements smantiques
ont au demeurant dj fait lobjet dtudes (voir [Valette, Estacio-Moreno, Petitjean & J acquey, 2006]).
Enfin, un dernier phnomne mentionner est lenrichissement du smme. Cette question
denrichissement nest pertinente que si lon considre que le smme dun mot est, un instant donn,
un ensemble fini de traits smantiques structurs. Ce smme constitue le smme de rfrence.
Ltude du mot dans une srie de cotextes peut faire merger que certains traits smantiques manquent
dans le smme de rfrence, tandis que dautres peuvent sembler prsents tort. Le smme de
rfrence peut alors tre enrichi ou appauvri. Le nouveau smme peut alors tre considr comme
une nouvelle reprsentation du mot relative une classe de cotextes possdant des caractristiques
communes. En ritrant ltude sur plusieurs classes de cotextes, il sera possible de gnrer des
smmes profils en fonction dusages (ceux reprsents par la classe de cotextes choisis).
Lenrichissement met donc en lumire des mcanismes fins quune approche mathmatique pourrait
aider normaliser.

Dans mes dmarches, je me suis efforce de faire merger par des mthodes
mathmatiques certains de ces phnomnes ou tats : lactivation et linhibition de traits smantiques ;
lexistence ou non dun noyau smique ; la structuration en molcules smiques dans un contexte
donn. Pour des questions de temps, je nai pu approfondir la question de lenrichissement du smme.
Ltude de lisotopie, envisage dans un premier temps, a t carte puisquelle ne sinscrivait pas
dans la dmarche consistant aller du global (texte, corpus) au local (mot).
3.2) Thories mathmatiques pour lanalyse linguistique
Lanalyse linguistique pourrait, certes, tre exclusivement du ressort des linguistes qui possdent
la fois la connaissance des mcanismes de langue et une intuition qui semble difficilement quantifiable.
La question de la modlisation est dailleurs trs dbattue : certains soutiennent quelle est impossible.
Si le recours des mtriques nest peut-tre pas mme de traiter finement toutes les subtilits du
langage, il peut cependant faire merger des tendances, mettre jour des mcanismes caractriss par
11
certaines rgularits. De plus, il ouvre des perspectives sur le traitement et lanalyse de grandes masses
de donnes (celles de corpus par exemple), opration qui dpasse les capacits humaines.
Diffrents modles et procds mathmatiques ont retenu mon attention, depuis [Muller, 1968] ou
[Habert & Nazarenko, 1997] [Victorri, 2005 & 1994], [Venant, 2004] ou [Landauer, Foltz & Laham,
1998] : ils paraissaient robustes, transposables au moins sur certains plans et certains de leurs rouages
appropris aux outils que je souhaitais dvelopper pour les analyses smantiques envisages.
3.2.1) De la statistique linguistique tf-idf
La plupart des supports mathmatiques dvelopps en linguistique puisent leur source dans une
science fonde en France dans les annes soixante par Charles Muller (cf [Muller, 1968]) : la
statistique linguistique.
Cette discipline dveloppe les outils danalyse de la linguistique. Elle tudie par exemple la
structure et ltendue du vocabulaire, la pertinence de distributions en frquence de certains mots ou
catgories grammaticales, etc. Elle utilise divers outils statistiques : indicateurs moyens, indicateurs de
dispersion, coefficient de corrlation, tests statistiques types. Un test statistique utilis avec succs
dans diverses tudes est celui du , dont on trouvera les dtails dans [Hatchuel & Tonneau, 1996].
Celui-ci seffectue de la manire suivante :
Soit un tableau constitu de m lignes et p colonnes. Le nombre de degrs de libert est de
( ) ( ) 1 1 n p . On note
ij
n , 1 ,1 i m j p ,
i
n

la somme des coefficients de la ligne i,


j
n

la
somme des coefficients de la ligne j, n la somme totale des coefficients.


Ltape suivante consiste tablir une valeur thorique moyenne
ij
m sous lhypothse
dindpendance des lignes et colonnes pour chaque coefficient :
i j
ij
n n
m
n

= . On calcule ensuite la
valeur observe de la variable de test :
( )
2
2
1 ,1
ij ij
i m j p
n m
n

=

.
Cette valeur est ensuite compare avec un tableau de distribution du tabul en degrs de libert.
Chaque colonne correspond au seuil de probabilit au-del duquel lhypothse de dpart (dans notre
cadre, hypothse dquirpartition ou encore de rpartition non significative des occurrences ou
cooccurrences) est rejete. Cette mthode est intressante, bien que le stade consistant sommer les
carts au carr entre valeurs relles et valeurs thoriques fasse perdre linformation apporte par
chaque coefficient. Elle est la source de certaines transformations que jai effectues.

[Muller, 1968] propose une synthse des connaissances accumules sur les lois lexicales existantes
et, travers des tudes statistiques, discute de leur validit. La loi de Zipf a particulirement retenu
mon attention. Considrons les mots dun texte classs par ordre de frquence dcroissant. Soit n le
rang dun mot, ( ) f n sa frquence. La loi de Zipf est, daprs [Lemire 2008] et [Muller, 1968], de la
forme ( )
K
f n
n
= , K constante. Cette loi, dite loi empirique, reflte une tendance gnrale du lexique,
affirmation taye par de nombreuses tudes. Au niveau des phnomnes linguistiques en jeu, elle
indique que le comportement gnral de la distribution des occurrences nest pas uniforme : il existe
un petit nombre de mots trs frquents et un grand nombre de mots trs rares.
12
De cette loi dcoule une mthode mathmatique assez utilise en recherche dinformation : la
mthode tf-idf. Elle sappuie galement sur deux autres constatations. Premire constatation : les mots
trs prsents, statistiquement prsents dans une forte proportion de documents constituant un corpus,
ne sont pas discriminants. Deuxime constatation : les mots les plus frquents napportent que peu
dinformation smantique.
La mthode tf-idf sappuie sur le nombre doccurrences ou sur la frquence dun mot (tf : term
frequency) et sur la distribution de ce mot dans diffrents textes, paragraphes ou autres units
textuelles (idf : inverse document frequency) Considrons un corpus constitu de documents. Soit D
le nombre de documents du corpus et
i
df le nombre de documents contenant le mot i.
i
df
D
correspond
donc la proportion de documents contenant le mot i.

( ) ln
i
df
idf i
D

=




Notons lutilisation du logarithme. Celle-ci trouve ses sources dans la thorie de linformation : la
quantit dinformation I relative un vnement e
i
ayant la probabilit doccurrences pi est :
( )
2
( ) log
i i
I e p = (voir [Rouchaleau, 2008] p.17). La probabilit est ici remplace par la frquence
dapparition (en termes de prsence / absence, sans dcompte multiple des occurrences) dans les
documents.
La fonction idf permet de reprsenter le poids du mot dans le corpus. Elle accorde un poids
important aux termes rares et un poids faible aux termes trs frquents, avec une dcroissance du poids
de plus en plus lente.



( , ) tf i j = frquence du mot i dans le document j.
Cette fonction reprsente le poids du mot lintrieur dun document. Ce poids crot
proportionnellement au nombre doccurrences du mot.
La formule gnrale de tf-idf dfinit le coefficient suivant : ( ) , ( , ) ( ) tfidf i j tf i j idf i = . Ce
coefficient peut sinterprter comme un coefficient de significativit : les termes qui ont une forte
significativit pour un document donn sont trs prsents dans ce document, mais rares dans les autres
documents. Des termes trs prsents dans le document considr mais galement dans tous les autres
1
0
log
i
D
df



[ ]
% 0;1
i
df
n x
D
= =
13
documents ont une significativit relativement faible (termes non discriminants, donc napportant que
peu de valeur ajoute).
La transformation tf-idf, considre comme une rfrence par les scientifiques en linguistique, a t
retenue pour certaines des expriences menes au cours de ce stage. Insistons cependant sur un point :
la loi de Zipf ainsi que la transformation tf-idf ont t mises en place et testes au niveau lexical, cest-
-dire au niveau des mots. Les tudes au niveau infra-lexical, laide des traits smantiques dans le
cadre de ce travail, sont rcentes et encore au stade exploratoire. . Il nest donc pas carter que les
rsultats des mmes lois doivent tre interprts un peu diffremment au niveau infra-lexical.
3.2.2) Modles rcents : mtriques et distances smantiques
3.2.2.1) Modlisation de polysmie lexicale par Bernard Victorri
[Victorri, 2005] dveloppe un modle pour dsambiguser le sens dun mot ayant plusieurs sens
possibles, cest--dire trouver le sens appropri dun terme polysmique, partir dun dictionnaire de
synonymes constitu au pralable. La mthode utilise comporte deux tapes.
La premire tape se droule comme suit : choix dun adjectif dsambiguser ; dtermination de
la liste des synonymes de cet adjectif ; constitution de cliques, cest--dire de regroupements ou
clusters de synonymes partir du dictionnaire de synonymes ; calcul de distances entre les cliques
partir dune matrice value en fonction de la prsence (valeur 1) ou de labsence (valeur 0) dun
synonyme dans une clique.
La deuxime tape se dcompose ainsi :
slection des diffrents noms dont ladjectif de rfrence est pithte dans un corpus de textes
constitution dune matrice dont les lignes correspondent aux noms voqus ci-dessus, les colonnes
aux synonymes de ladjectif de rfrence et les valeurs prises en entres au nombre de cooccurrences
(cest--dire dapparition conjointe) du couple (mot ; adjectif synonyme).
partir dune hypothse dquiprobabilit des distributions, calcul de coefficients thoriques selon
le mme procd que dans le test du .
application dune fonction linaire par morceau (nulle, croissante, puis constante) au rapport
ij
ij
m
n
,
o m
ij
est la valeur thorique et n
ij
la valeur relle, pour tous les couples (i,j) correspondant aux
couples (mot ; synonyme). La valeur prise par la fonction, comprise entre 0 et 1, est qualifie de degr
daffinit par Victorri.

Cette deuxime tape ma paru particulirement pertinente dans le cadre de mes travaux. Elle
prsente en effet plusieurs intrts : elle drive dun test statistique de rfrence ; elle part de
cooccurrences observes en cotexte, dans un corpus de textes ; elle affecte tout couple de la matrice
un coefficient daffinit, contrairement au test du qui additionne tous les carts entre valeurs relle
et thorique et ne retourne quun coefficient global pour lensemble de la matrice ; le coefficient
daffinit repose sur la valeur relative du coefficient rel au thorique et saffranchit de la valeur
absolue (bien que la fonction choisie, linaire par morceau dans ce cas, ne soit pas un lment
indiscutable du modle).
Nanmoins, soulignons quelques points importants : le cadre dapplication du modle de Victorri
est trs diffrent de celui dans lequel jvolue. En effet, il se situe au niveau des mots, cest--dire au
niveau lexical. La notion de cooccurrence correspond la relation nom adjectif pithte. Dans mes
dmarches, la cooccurrence ne reposera pas sur la syntaxe mais sur la prsence au sein dune mme
unit textuelle. Cependant, cette diffrence prs, le cadre dans lequel je me placerai sera similaire.
3.2.2.2) Le modle LSA
Le modle LSA (analyse smantique latente), dvelopp par [Landauer, Foltz & Laham, 1998], est
une thorie et mthode dextraction et reprsentation du sens des mots en contexte par des traitements
statistiques appliqus de larges corpus de textes. Lide qui le sous-tend est que les contraintes
mutuelles exerces entre mots dans des cotextes suffisent faire merger le sens. Ses objectifs se
14
situent deux niveaux : dune part, il cherche tablir une similarit entre mots, par exemple pour
dterminer si un mot peut tre substitu un autre ; dautre part, il constitue un modle de la rflexion
et des dmarches de la pense pour acqurir et utiliser la connaissance.
LSA ne se construit que par analyse de textes. Son point de dpart est un grand corpus, de trois
millions de mots environ. Dans ce corpus, les mots sont assimilables aux points dun espace
smantique de grande dimension (entre 50 et 1500). Les phrases ou encore les paragraphes, cest--
dire les cotextes choisis, correspondent aux dimensions de cet espace smantique. Ces cotextes
constituent des expressions unitaires de sens, pour lesquelles lordre nest pas pris en compte : ni
lordre des mots au sein du cotexte, ni lordre des cotextes entre eux. Seule compte la prsence dun
mot dans un cotexte. Elle se traduit mathmatiquement par la frquence. Celle-ci subit un
prtraitement, qui sappuie sur la distribution du mot dans les cotextes o il est utilis,
indpendamment de ses corrlations avec dautres mots et est transforme en une mesure de
linformation quelle apporte. Ltape suivante, mcanisme cl de LSA, repose sur la rduction de la
dimension des relations entre mots et cotextes. Enfin, une mesure de similarit entre deux mots est
introduite.
Dtaillons lapproche mathmatique des tapes dcrites ci-dessus :
Soit un corpus constitu de n mots
,1 i i n
m

et p cotextes
,1 j j p
c

.
Soit f
ij
la frquence dapparition du mot m
i
dans le cotexte c
j
.
Soit M la matrice des frquences dapparition des mots par cotexte :
:
...
j
i ij
c
M m f


=




Soit p
ij
la probabilit dapparition du mot i dans le cotexte j, P la matrice des p
ij
.
Pour pondrer les coefficients en fonction de leur significativit, on applique la fonction
( )
( ) ln 1
0
: , ln( )
0 0
f
si p
f p p p
si p

a tous les couples


( )
1 ,1
,
ij ij
i n j p
f p

.
On note
( )
,
ij ij ij
f p = et la matrice des
ij
.
La rduction du nombre de degrs de libert seffectue par dcomposition en valeurs singulires de
la matrice :
T
UDV = ,
( )
1 2 1 2
, ,..., ,0,...,0 , ...
q q
D diag = diagonale de
dimension (p,p) et de rang q, U orthogonale de dimension (n,p) et V orthogonale de dimension (p,p).
On souhaite se ramener un sous-espace de dimension k, k q .
Soit ( )
2 1 2
, ,..., ,0,...0
k
D diag = et
2 2
T
UDV = .
Lopration effectue correspond en fait une projection sur k directions principales. Le
mcanisme de pense correspondant cette transformation serait le suivant : lesprit humain ne peut
grer la trop grande multiplicit de sens. Cest pourquoi il se ramne des grandes lignes, cest--
dire des directions principales de sens. Les coefficients de
2
sont donc des coefficients de
significativit des mots aprs transformation par lesprit humain des textes.
La mesure de similarit est calcule partir du cosinus des angles entre vecteurs-lignes de la
matrice
2
.

La dmarche de LSA est intressante plusieurs points de vue. Tout dabord, elle sappuie sur des
corpus, donc du texte vivant et non une ressource dictionnairique ou encyclopdique fige. Par ailleurs,
elle sappuie sur des mthodes et thories mathmatiques solides : elle drive de lACP, trs utilise en
analyse des donnes, et, avec lintroduction de lentropie ( ln( ) p p ), elle sappuie sur la thorie de
linformation.
15
Toutefois, lanalyse smantique latente nest pas parfaite et quelques points mritent attention. Elle
se situe, comme les autres modles mentionns, au niveau lexical. Le modle de rflexion humaine
semble cohrent et rejoint une branche de la linguistique, la linguistique de linteraction, pour laquelle
lapprentissage de la langue seffectuerait travers les changes, les dialogues, la confrontation des
situations. Mais la thorie pose des problmes de validation : elle na pour linstant donn lieu qu
des expriences petite chelle, trs cibles et donc loignes des interactions relles.
3.2.2.3) Une tentative dexploitation de plusieurs modles : travaux de Mauceri
[Mauceri, 2007a et 2007b] utilise un modle qui intgre diffrentes mthodes et thories prcites.
Il se place dans une optique dindexation de textes recourant des rapprochements entre diffrents
textes et sappuie sur le reprage disotopies. Il se place ainsi dans le cadre de la smantique textuelle.
Pour quantifier son approche, il introduit une mtrique dont langle dobservation est celui des
cooccurrences, cest--dire de lapparition commune de deux traits smantiques.
Le modle quil btit puise ses sources dans une approche vectorielle, le modle de Salton. Celui-ci
dcrit les cotextes comme des vecteurs dans lespace des mots. La reprsentation matricielle des
vecteurs est, de manire analogue au modle dcrit au paragraphe prcdent une matrice dont les
lignes sont les mots, les colonnes sont les cotextes et lentre en position (i,j) de la matrice le nombre
doccurrences du mot i dans le cotexte j. Mauceri souligne ensuite les failles de ce modle et propose
diffrentes manires dy remdier. Il choisit en particulier de ne conserver que les mots
smantiquement pleins
2
. Une des mthodes quil propose ensuite est la transformation tf-idf applique
la matrice doccurrences. Il complte cette transformation par des oprations similaires celles de
LSA. Il obtient ainsi une matrice dont les coefficients refltent non plus les occurrences, mais des
occurrences pondres par leur significativit, avec prise en compte de la loi de Zipf et ses
rpercussions, ainsi que du modle cognitif de LSA.
Il se ramne ensuite un espace indpendant du dcoupage initial en textes ou cotextes. Pour ce
faire, il gnre une matrice de cooccurrences en multipliant la matrice prcdente par sa transpose.
Les nouveaux coefficients ne conservent certes quune partie de linformation lie au dcoupage en
cotextes mais permettent de saffranchir du texte pour se placer dans un espace ne dpendant plus que
des interactions entre mots.
Enfin, Mauceri pointe du doigt le problme de la significativit statistique limite des coefficients
et propose une mthode de filtrage. Celle-ci limine les coefficients statistiquement non significatifs et
rajuste les autres coefficients selon quils sont plus ou moins significatifs statistiquement. Pour cela,
il sappuie sur le test de Fisher.
Considrons le tableau de contingence suivant :


La classe A (resp. B) est constitue de a (resp. b) individus, la population totale est de n individus.
x individus appartiennent A et B, a-x (resp. b-x) A (resp. B) seulement, n-a-b+x aucune des deux
classes.
Sous lhypothse H0 dindpendance des lignes et des colonnes, la distribution suit une loi
hypergomtrique :

2
Les mots pleins smantiquement sont des mots voluant extrmement rapidement dans le temps. Ils se rfrent
des situations, des vnements, des objets ou des individus et portent donc une partie essentielle du sens des
phrases et des textes. Ce sont souvent des noms, adjectifs, verbes, parfois aussi des adverbes. Ils sopposent aux
mots dits mots grammaticaux ou mots outils , qui eux voluent peu dans le temps. Dans les phrases, ces
mots se situent autour des mots smantiquement pleins, ils servent de lien entre eux. Il sagit de prpositions
comme ou de , des dterminants, des pronoms, etc.
arg
arg
A A m e
B x b x b
B a x n a b x n b
m e a n a n

16
( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
! !( )!( )!
, , ,
! !( )!( )!( )!
1 1 1 1
1 1 1 1 1
a n a
x b x a b n b n a
f x a b n
n n x b x a x n a b x
b
a b n b n a
n x b x a x n a b x




= =
+


+ + + +
=
+ + + + + +
, o ( ) , , , f x a b n est
la probabilit davoir x individus appartenant aux classes A et B de taille respectives a et b dans une
population de n individus.
La probabilit davoir plus de individus appartenant A et B est :
( ) ( ) ( ) , , , , , , ,
x
p T x a b n x f x a b n


Si lon se replace dans le cadre linguistique, le tableau de contingence considr est maintenant de
la forme :

1
c

i
c

n
c

1
c
j
c
p
c

ij
c

1
c

i
c

n
c

1
c
j
c
p
c

ij
c



c
ij
est le nombre de cooccurrences des mots i et j.
c
i.
(resp. c
.j
) est le nombre de cooccurrences du mot i (resp. j) avec lensemble des autres mots
c est le nombre total de cooccurrences :
i j
i j
c c c

= =



Lhypothse H0 est que tous les couples de mots sont indpendants. La probabilit dobserver c
ij
cooccurrences entre les mots i et j sachant que le mot i cooccurre c
i.
fois et le mot j c
.j
fois est de :
( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
1 1 1 1
, , ,
1 1 1 1 1
i j j i
ij i j
ij j ij i ij i j ij
c c c c c c
f c c c c
c c c c c c c c c c



+ + + +
=
+ + + + + +

La probabilit davoir plus de c
ij
cooccurrences entre les mots i et j est :
( ) ( ) ( )
, , , , , , ,
ij i j i j
x
p p T x c c c x f x c c c

= =


Une cooccurrence sera considre comme non significative si
ij
p , o est le seuil de
cooccurrences. La matrice des coefficients filtres aura pour valeur
ij
pij
c

en position (i,j)
si
ij
p et 0 sinon.
La mthode de Mauceri ma intresse plusieurs points de vue et je men suis inspire dans mes
propres dmarches. Tout dabord, elle traite les problmes suivants : celui des termes trop frquents et
peu significatifs (mthode tf-idf) ; celui de la significativit statistique. Elle applique LSA et se place
ainsi dans la mouvance du modle cognitif quil propose. Elle opte pour une approche en
cooccurrences plutt quen occurrences, choix qui donne une marge de libert par rapport au support
de cotextes choisis et lextension dautres cotextes.
17
Notons cependant que, si chaque transformation considre indpendamment des autres parat
pertinente et interprtable sur le plan linguistique, lenchanement des transformations a des effets plus
difficiles se reprsenter au niveau linguistique.
3.2.3) Autres perspectives
Il existe de nombreux modles mathmatiques qui ont t mis en uvre pour de la linguistique ou
dont dcoulent certaines transformations prcdemment cites. Parmi elles, mentionnons lACP,
intressante pour son approche multidimensionnelle ; les chanes de Markov, dont la dynamique ouvre
des perspectives intressantes (mais pose aussi le problme de la divergence) ; les rseaux de
neurones ; des modles de graphes entre synonymes, mots darticles ou dfinitions de dictionnaire,
J e nai pas approfondi ces pistes fort potentiel pour deux raisons : un temps trop court et un risque
dparpillement.

Retenons de tous les modles et transformations dcrits que chacun prsente des atouts sduisants,
mais que, dans mes choix, jai donn la prfrence des modles plutt rcents et qui mont paru le
plus mme de rpondre au cadre de mon tude. Dans tous les cas, il est ncessaire de faire la part des
choses : si la thorie semble cohrente et donne des rsultats probants dans un champ bien dtermin,
mon cadre dapplication (niveau infra-lexical et recours aux traits smantiques) est diffrent, vierge
dexprimentation et exige certainement des adaptations que seule lexprience pourra mettre en
lumire.
3.3) Ressources informatises et outils de traitement
La rflexion thorique et llaboration de modles sont des dmarches riches et constructives.
Cependant, pour valider le thorique et orienter les pistes de rflexion, il est ncessaire de se
confronter la pratique. Or lexprimentation requiert des ressources et des moyens techniques.
LATILF proposait diffrents outils informatiss et diffrentes ressources informatises susceptibles
dtre exploits. J e prsente ci-dessous des outils intressants par rapport mon sujet, janalyse leur
pertinence et jexplique pourquoi je les ai retenus ou non pour les expriences de ces quatre mois de
stage.
3.3.1) Premire ressource informatise : un dictionnaire, le TLFi
Le TLFi contient de la matire pour gnrer des donnes et prsente une structure favorable au
dveloppement doutils dexploitation. Il constitue donc un support fondamental sur le plan pratique,
que jai exploit dans mes expriences.
Tout dabord, il peut tre considr comme un rservoir de traits smantiques, autrement dit, dans
ce projet, le smme de tout mot est assimil lensemble des mots smantiquement pleins de sa
dfinition (noms, verbes, adjectifs, adverbes). Cette hypothse repose sur les arguments suivants. Un
mot peut tre considr comme un ensemble de traits smantiques. Les termes smantiquement pleins
de sa dfinition servent faire merger le sens de ce mot, on peut donc lgitimement supposer quils
appartiennent son smme. Par ailleurs, la dfinition doit permettre dapprhender le sens dun mot
inconnu quel que soit son contexte dapparition. Le smme est donc inclus dans les units de sens
vhicules par les termes dfinitoires. Certes, le jeu sur le double niveau, lexical et infra-lexical, pose
le problme des imbrications multiples : un terme de la dfinition peut tre vu comme trait smantique
mais galement comme mot, auquel cas il est lui-mme compos dun ensemble de traits smantiques
qui, eux-mmes pris comme mots, sont constitus de traits smantiques, etc. Nous partirons de
lhypothse que les termes de la dfinition forment le smme en premire approximation.
Par ailleurs, le TLFi est un outil riche, relativement fiable et structur. La richesse apparat travers
la grande diversit lexicale (100000 mots, 270000 dfinitions) et lobjectif fix dexhaustivit sur les
mots du XIXe et XXe sicle. Soulignons des lacunes sur le vocabulaire de la fin du XXe sicle. Sur ce
point, des modifications sont actuellement en cours avec la ralisation du supplment du TLF mais ne
18
sont pas encore intgres. A la diversit lexicale sajoute une richesse du contenu des entres. Celles-
ci comportent la dfinition mme, mais galement dautres rubriques : exemples, titres, dates et
auteurs dexemples, constructions, syntagmes, domaines techniques, synonymes et antonymes, sources.
Dans les expriences menes, seules les dfinitions ont servi constituer le smme affect un mot,
mais lexistence des autres rubriques ouvre des perspectives denrichissement de ce smme.
Dautre part, concernant la fiabilit et la structuration, le TLFi a t rdig par des lexicographes
pendant trente ans. Il est donc le fruit du travail approfondi de personnes qualifies. La question de la
comptence des rdacteurs nest pas problmatique comme dans le cas des wiki (site web enrichi et
modifi par des utilisateurs).
Enfin, les informations du TLFi peuvent tre facilement rcupres et exploites. En effet, une
version simplifie du TLFi, appele SEMEME, est issue de lexploitation du codage XML du TLFi
ainsi que de ltiquetage grammatical des mots apparaissant dans les dfinitions. Lencodage XML de
SEMEME permet daccder aisment au contenu comme la structure. Cette ressource comporte
notamment lensemble des mots smantiquement pleins (noms, verbes, adjectifs, adverbes) composant
une dfinition. Soulignons nanmoins que toutes les fonctionnalits ne sont pas contenues dans cette
version XML. En particulier, la fonctionnalit de mots apparents nest pas conserve. Cette
fonctionnalit permet de retrouver les mots susceptibles de correspondre une entre non identifie,
par exemple le singulier dun pluriel (le mot apparent dsastres est dsastre ), le remplaant
potentiel dun mot mal orthographi ( hagard , agar ou agare pour lentre agard ).
3.3.2) Bases textuelles
Les bases textuelles sont des supports essentiels car ce sont elles qui fournissent la matire pour
constituer et procurent des cotextes dun mot donn. Les bases textuelles prsentes ci-dessous sont
diverses, aussi bien en contenu quen structure informatique. Nous aborderons dabord Frantext, base
de textes littraires, puis la base journalistique de lEst Rpublicain, ensuite Wikisource, base de textes
libres de droit disponible en ligne et enfin un outil capable de gnrer des corpus partir du web :
Pompadoc.
3.3.2.1) Frantext, une base de textes littraires
Linterface web de Frantext (voir 2.3) permet de slectionner des textes en fonction de ses besoins
et ainsi de constituer des corpus. Les textes sont accessibles par auteur, titre genre et dates. Une
recherche peut tre effectue dans les textes par mots, mais aussi par critres plus sophistiqus :
lemmes, expressions, liste de mots, entits catgorises, squence de mots, mots spars par un certain
intervalle, Cette recherche complexe permet la constitution relativement fine de corpus, du moins si
celle-ci slabore autour dun ou plusieurs mots ou expressions.
Frantext prsente donc une indniable richesse et un mode de gnration de corpus intressant. Son
contenu est littraire, ce qui garantit une certaine qualit de construction des textes. La probabilit
davoir dans les crits des relations smantiques penses et non fruits dune maladresse est plus grande
quen langue parle ou des textes rcuprs sur des blogs. En revanche, Frantext prsente des
inconvnients assez srieux. La mise en forme des textes de Frantext respecte la disposition dorigine
des textes dans les ouvrages. Ainsi, les textes saisis sont baliss en fins de ligne : celles-ci sont les
mmes que celles des ouvrages dorigine. Au contraire, phrases et paragraphes ne sont pas baliss. Or,
par rapport mon axe dapproche, la structuration du texte en units smantiques et non lexicales est
fondamentale. Autre problme, en partie li au prcdent : une recherche centre sur un mot permet de
visualiser un cotexte de ce mot qui nest pas ncessairement de taille approprie. Ce cotexte a en effet
une taille indpendante de la structuration en paragraphe ou autre unit smantique laquelle il
appartient. De plus, sur le plan pratique, la rcupration du cotexte nest pas automatique mais
manuelle (copie du cotexte apparaissant lcran dans un nouveau document texte). Ajoutons enfin
que les genres de Frantext ne sont pas clairement dfinis, problme actuellement en cours de
traitement au sein de lATILF. Cette faiblesse influe sur lhomognit et la qualit du corpus
constitu.
19
Frantext a dans un premier temps t le candidat principal la constitution de corpus pour mes
expriences, mais les raisons techniques mentionnes ci-dessus lont relgu au second plan.
3.3.2.2) LEst Rpublicain, corpus de textes journalistiques
LATILF dispose dun corpus journalistique constitu darticles de lEst Rpublicain. Ce corpus
comporte lensemble des articles parus en 1999, 2002 et 2003. Il est disponible au format TEI (la TEI,
Text Encoding Initiative, est une norme de balisage, de notation et dchange de corpus). La structure
interne comporte notamment un balisage en articles dcomposs en une accroche, un titre et le corps
de larticle ainsi quun balisage en paragraphes, non systmatique mais assez frquent.
Un des avantages de ce corpus est quil est ancr dans lactualit et correspond une pratique
sociale bien dtermine savoir celle du discours journalistique. De plus, son contenu est trs diffrent
des textes littraires de Frantext. Il permet donc une approche complmentaire particulirement utile.
En effet, des rsultats concluants dun modle mathmatique sur un corpus de textes ne garantissent
pas luniversalit de ce modle. La comparaison des rsultats obtenus dans des corpus de nature
diffrente permet de faire merger des failles du modle ou dentriner sa robustesse.
Signalons quelques points critiques. Les articles disponibles lATILF ne sont pas les versions
dfinitives et comportent parfois des commentaires des rdacteurs certains emplacements. De plus,
les informations ne sont pas toujours dans la bonne catgorie. Par ailleurs, il est actuellement
impossible deffectuer une slection darticles par mot-cl.
Malgr lapproche intressante de la langue quil offre, lEst Rpublicain na pas servi de support
dans la phase exprimentale. Outre les questions techniques mentionnes ci-dessus, il prsente un
autre inconvnient, li au choix du TLFi comme ressource de rfrence. En effet, le vocabulaire de
lEst Rpublicain est celui des annes 2000. Or le TLFi nintgre pas le vocabulaire rcent et sarrte
vers les annes 90. Lintroduction au Supplment du TLFi doit remdier ce problme mais nest pas
encore effective. Il paraissait donc plus judicieux de diffrer lexploitation de lEst Rpublicain la
mise en place du Supplment.
3.3.2.3) Wikisource, des contes parmi un vaste panel de textes
Wikisource (http://fr.wikisource.org/wiki/Accueil) est une bibliothque libre en ligne. Elle est
constitue denviron 10000 textes de 1700 auteurs. Ces textes sont sous licence libre ou passs dans le
domaine public et se rpartissent en diffrentes catgories : littrature, sciences humaines, exactes et
sciences de la nature, religion, arts. Les textes sont accessibles par genre, poque, auteurs, livres,
courants, thmes ou encore mots-cls.
Les textes mis disposition par Wikisource prsentent plusieurs intrts : ils offrent de la varit,
sont libres de droits et dj mis en forme.
Ils prsentent toutefois quelques inconvnients. Ainsi, les outils de slection des textes sont moins
dvelopps que ceux de Frantext. En outre, les textes sont rcuprables par des moyens manuels
(copier-coller) mais ne sont pas disponibles en XML. Cette situation est grable pour un corpus de
textes de taille limite, mais est plus problmatique pour de grands corpus. Enfin, Wikisource est un
wiki, donc modifiable par tout utilisateur, cest--dire trs volutive. On peut certes supposer que sa
stabilit est plus importante que celle des pages web accessibles par les moteurs de recherche.
Cependant, lvolution des textes (ajout, suppression, modification de la mise en forme comme par
exemple le dcoupage en paragraphes) nest pas contrlable. La reproductibilit dune exprience peut
donc de ce fait tre mise mal.
En raison de ses atouts forts et malgr les bmols signals, jai opt pour des textes, plus
prcisment des contes de Wikisource dans mes applications. En effet, les contes mont paru un genre
particulirement favorable lanalyse ( Les contes4.2).
3.3.2.4) Corpus constitu partir du web par le biais de loutil Pompadoc
La Pompadoc, dveloppe au sein de lATILF, prototype par J rmie Ceintrey et Yorick Petey et
maintenue par Sandrine Ollinger, est un outil daspiration et de stockage de pages web partir de
moteurs de recherche (actuellement Yahoo et Google).
20
Elle slectionne les pages web partir de mots-cls, aprs diverses spcifications : langue des sites,
nombre de pages aspirer, taille minimale ou maximale en mots des pages, liminations des pages en
double et ventuellement nom du domaine au sein duquel effectuer la recherche. Sur Google, il est
galement possible de prciser lemplacement o le mot doit tre localis : adresse URL, titre ou texte.
Une fois les pages slectionnes, elles sont rcupres au format HTML et converties au format
XHTML. Lopration suivante vise conserver et structurer les informations ad hoc, puis rcuprer
ces informations sous format XML/TEI. Elle sappuie sur lutilisation de feuilles de style. Par exemple,
pour des sites de presse rgionale et nationale, larticle principal, le titre et lauteur sont rcuprs et
les commentaires dutilisateur, les images ou encore la publicit limins.
Un tel outil apparat comme extrmement prcieux dans une optique de constitution de corpus.
Son champ dinvestigation est vaste, il peut collecter des pages web issues de la presse aussi bien que
de blogs ou de sites officiels.
Toutefois, une critique essentielle peut tre formule lencontre de Pompadoc. Elle concerne la
fluctuation des informations disponibles sur la Toile : le web est en volution permanente et les pages
aspires aussi bien que leur contenu peuvent changer dun jour lautre. Ceci soulve le problme de
la reproductibilit des expriences, critre fondamental en sciences.
3.3.3) Deux outils rcemment dvelopps pour la smantique textuelle :
regroupements morphologiques et Smy
3.3.3.1) Regroupements morphologiques
Franois Rastier propose danalyser le sens suivant trois paliers : microsmantique (mot),
msosmantique (du syntagme la priode, unit regroupant plusieurs syntagmes et infrieure au texte)
et macrosmantique (texte).
[Ramdani, 2007] sattache regrouper les traits smantiques partir danalyses microsmantiques.
Elle constitue des familles de traits smantiques partir de leur structure morphologique interne. Elle
dtermine des critres thoriques de regroupements et met en place un outil informatique les ralisant.
Les regroupements se fondent sur diffrentes mthodes. La mthode fondamentale repose sur
lanalogie graphique de mots, cest--dire sur des rapprochements partir de la similarit de la
squence de lettres composant le mot. Ainsi, banane et bananier prsentent une analogie graphique, de
mme que retranscrire et transcription ou angle et anglais. Pour viter des regroupements
malencontreux, comme le dernier exemple mentionn, elle recourt au TLFi. Son hypothse est la
suivante : un mot graphiquement proche dun autre mot et ayant un lien smantique avec celui-ci aura
tendance apparatre dans sa dfinition. Elle ajoute dautres mthodes celle-ci, afin daugmenter le
rappel (rapport du nombre dlments pertinents slectionns sur le nombre total dlments
pertinents) : elle utilise le lexique morphologique Verbaction qui un verbe associe les noms daction
correspondants et exploite les rsultats de lanalyseur morphologique DriF qui travaille sur les
suffixes (-tion, -able par exemple), prfixes (re-, in-,) et effectue des conversions adjectif verbe.
Les regroupements morphologiques effectus permettent de passer dun peu plus de 40000 smes
plus de 7000 familles et prs de 22000 smes non regroups. Voici un exemple de famille obtenue :
Famille du sme /bicyclette/ : cyclisme,NOM cyclotourisme,NOM bicyclette,NOM
cyclotourisme,NOM cyclable,ADJ cycliste,ADJ bicycliste,NOM bicycle,NOM cycliste,NOM
Ces regroupements prsentent un intrt majeur : ils rduisent le nombre dlments distincts, ce
qui permet de lutter contre une forme de dispersion et vite dobtenir des matrices encore plus creuses
que celles obtenues lors des expriences menes au cours de ce stage.
Cependant, les regroupements ne sont pas tous satisfaisants et doivent tre manipuls avec
prcaution. En effet, si la plupart des regroupements paraissent appropris, dautres sont trop larges ou
non pertinents, gnrant des familles dont le cur smantique est parfois difficile dgager. Citons
par exemple la famille de /forme/ qui comporte 182 items, parmi lesquels informatique, effort,
rforme, formule ou encore formaliste. Dautres regroupements, plus petits et moins htrognes, nen
21
sont pas moins problmatiques. Lhomonymie
3
et la polysmie en sont lorigine, comme dans le cas
de /chanter/, dont le regroupement comportera aussi bien chantage que chanteur, ou action
regroupant actionnaire et activisme. Ces problmes ont t reprs, leur cause analyse et une
description thorique de regroupements plus fins existe, du moins partiellement, mais elle na pas t
mise en uvre informatiquement.
Mon quipe de travail, tout en ayant conscience des limites, sest accorde pour conserver les
regroupements la fois pour les avantages quils prsentaient et pour des raisons techniques despace
mmoire insuffisant. Lutilisation des regroupements actuels est une solution temporaire qui exige,
terme, un travail daffinage.
3.3.3.2) Smy
Smy est une plateforme dannotation en traits smantiques. Il sagit dun programme informatique
crit en Python ralis par [Grzesitchak, 2007] dans le cadre de la smantique textuelle. Il associe
des units de textes (mots, phrases, paragraphes) les traits smantiques correspondants et leur nombre
doccurrences.
Voici une brve description de son mode de fonctionnement. Le point de dpart est un texte
dcoup en units (paragraphe, phrase, fentre de mots, ). On souhaite connatre les traits
smantiques prsents dans le texte et leur distribution, cest--dire leur nombre doccurrences par unit
de dcoupage. Smy prend en entre un fichier texte o est crit le texte de rfrence. Ce fichier
comporte une unit (paragraphe, ) par ligne. Pour chaque ligne du texte, Smy dtermine la
catgorie grammaticale et la forme lemmatise
4
des mots de cette ligne grce TreeTagger, systme
automatique dtiquetage grammatical et de lemmatisation. Il trie ensuite les lemmes : seuls sont
conservs les noms, verbes, adjectifs et adverbes : les autres catgories sont cartes pour le moment.
Les lemmes sont ensuite recherchs dans SEMEME, la version simplifie du TLFi. Certains, non
identifis, soit cause dun mauvais tiquetage de TreeTagger, soit parce quils sont absents de
SEMEME, sont considrs comme invalides et limins. A chaque lemme restant sont affects les
mots smantiquement pleins de la ou des dfinition(s) de SEMEME correspondante(s), considrs
comme les traits smantiques. Smy se base en effet sur lhypothse que les traits smantiquement
pleins de la dfinition constituent le smme de lentre du dictionnaire choisie. Il peut regrouper
ensuite les traits smantiques en familles morphologiques (voir paragraphe prcdent), puis tablit la
distribution des traits smantiques.

Schma illustrant le fonctionnement de Smy :


3
Relation entre plusieurs formes linguistiques ayant le mme signifiant graphique et/ ou phonique et des
signifis totalement diffrents. Ex : avocat (magistrat et fruit) ; mre et mer.
4
La lemmatisation dune forme est la mise sous forme conventionnelle de celle-ci, son lemme, et correspond
son entre dans un lexique (par exemple, la forme lemmatise dun verbe conjugu sera son infinitif ; le lemme
dun adjectif au fminin pluriel, comme sucres, sera le masculin singulier, sucr).
22
unit(paragraphe, mot, phrase, ) n0
unit(paragraphe, mot, phrase, ) n1
unit(paragraphe, mot, phrase, ) nk
unit(paragraphe, mot, phrase, ) np

Di eu! La voi x spul cr al e


NOM NOM DET ADJ
Des Dj i nns! . . . - Quel br ui t i l s f ont !
NOM VER DET PRO PRO NOM
dieu la voix spulcral
du Djinns quel bruit il faire
Etiquetage (TreeTagger) :
Catgorie grammaticale
Forme lemmatise
Catgorie grammaticale
Forme lemmatise
Mots invalides ou hors tude Mots valides
di eu voi x spul cr al
br ui t f ai r e
l a
du Dj i nns quel i l
spul cr al
TLFi : recherche des traits smantiques
{ / spul cr e/ / l ampe/ / l ant er ne/ / al l umer / / t ombeau/ / mor t / / voquer /
/ l ugubr e/ / t r i st e/ / si ni st r e/ / aspect / / spect r al / / f ant omat i que/ }
Distributions
/ spul cr e/ {0: 1}
/ al l umer / {0: 1 ; 4: 2 ; 5: 1}
/ mar che/ {3: 1}
prsence une fois dans lunit 0
prsence une fois dans lunit 0, 2 fois dans la 4, 1 fois dans la 5
prsence une fois dans lunit 3
unit(paragraphe, mot, phrase, ) n0
unit(paragraphe, mot, phrase, ) n1
unit(paragraphe, mot, phrase, ) nk
unit(paragraphe, mot, phrase, ) np

Di eu! La voi x spul cr al e


NOM NOM DET ADJ
Des Dj i nns! . . . - Quel br ui t i l s f ont !
NOM VER DET PRO PRO NOM
dieu la voix spulcral
du Djinns quel bruit il faire
Etiquetage (TreeTagger) :
Catgorie grammaticale
Forme lemmatise
Catgorie grammaticale
Forme lemmatise
Mots invalides ou hors tude Mots valides
di eu voi x spul cr al
br ui t f ai r e
l a
du Dj i nns quel i l
spul cr al
TLFi : recherche des traits smantiques
{ / spul cr e/ / l ampe/ / l ant er ne/ / al l umer / / t ombeau/ / mor t / / voquer /
/ l ugubr e/ / t r i st e/ / si ni st r e/ / aspect / / spect r al / / f ant omat i que/ }
Distributions
/ spul cr e/ {0: 1}
/ al l umer / {0: 1 ; 4: 2 ; 5: 1}
/ mar che/ {3: 1}
prsence une fois dans lunit 0
prsence une fois dans lunit 0, 2 fois dans la 4, 1 fois dans la 5
prsence une fois dans lunit 3
5


En sortie, Smy retourne plusieurs fichiers : des fichiers annexes sur ltiquetage de TreeTagger et
les termes limins (la liste des mots hors tude, des mots invalides, des mots tiquets
grammaticalement et lemmatiss ou encore des mots conservs) et des fichiers centraux, avec en
particulier un fichier aux formats csv et html qui indique les familles de traits smantiques apparus
dans le texte, un indice qui leur est affect arbitrairement et la distribution de la famille de traits par
unit.




5
Schma fictif dont la vocation est purement pdagogique.
indice
famille de traits smantiques
distribution
23
Smy possde un certain nombre doptions et dextensions qui nont pas t exploites mais
mritent dtre mentionnes. Une premire option consiste choisir entre un dcompte simple
(prsence / absence : 1 ou 0) ou multiple des occurrences par dfinition. Ainsi, si le trait /allumer/
apparat deux fois dans la dfinition de lampe et une fois dans la dfinition dteindre, le nombre
doccurrences sera de deux en dcompte simple (1+1) et de trois (2 +1) en dcompte multiple dans
lunit Dj steint ma lampe. Autre option propose par Smy : effectuer ou non les regroupements
morphologiques de [Ramdani, 2007]. Le programme a toujours t utilis en mode regroupement dans
les expriences menes pour les raisons invoques au paragraphe prcdent. Par ailleurs, Smy peut
prendre en compte un double dcoupage, par exemple dcoupage dun corpus en textes eux-mmes
dcoups en paragraphes. Pour signaler le double dcoupage, il faut constituer autant de fichiers .txt
quil y a de textes et organiser les fichiers .txt comme dcrit prcdemment, avec un paragraphe par
ligne. Smy retourne alors un fichier comportant la distribution des traits smantiques par textes et
interne chaque texte. Supposons que le fichier de sortie indique une distribution de la forme
{0 :{0 :1 ; 2 :1} ; 1 :{0 :3} ; 2 :{1 :4}} pour le trait smantique /cornaline/: cette notation signifie
que le trait est prsent deux fois dans le texte n 0 (une fois au paragraphe 0 et une fois au paragraphe
n2), trois fois dans le texte n 1 (dans le paragraphe 0), quatre fois dans le texte n 2 (au paragraphe
n1). Cette fonctionnalit na pas t exploite mais est riche de perspectives si on se place dans une
optique de dcoupages imbriqus. Par ailleurs, Smy ne se contente pas de dterminer des
distributions, il tablit galement certains calculs statistiques, savoir moyenne et cart-type calculs
partir des distributions.
Signalons enfin une caractristique actuelle de Smy : pour linstant, le smme affect partir du
TLFi est non rflexif, autrement dit le mot qui sert dentre nest pas intgr son propre smme.
24
IV) Modle optimal
4 .1) Dmarche globale
Notre objectif est dans un premier temps de parvenir une image mathmatique globale, obtenue
partir dun corpus de textes. Cette image doit reflter les affinits entre traits smantiques. Il sagit
dans un deuxime temps dextraire de cette reprsentation mathmatique globale une image locale,
cest--dire centre sur un mot de rfrence et le cotexte proche de celui-ci. Nous qualifierons cette
dmarche de modlisation et prions le lecteur de ne pas voir derrire le terme de modle des
prtentions plus ambitieuses.

mot mot
dcoupage
du corpus
affectation
des traits
smantiques
M
s

m
e
s
sous-units
M
s

m
e
s
sous-units
M
s

m
e
s
sous-units
M
s

m
e
s
sous-units
transformations
mathmatiques
(tf-idf, LSA,)
mot
s1
s2
s3
s1
s2
s3
Espace de smes
slection des
smes s1
s2
s3
s1
s2
s3
C C C
mot en contexte
affectation
des traits
smantiques
{smes du contexte} C C
slection des
smes
s1
s2
s3
s1
s2
s3
matrice
doccurrences
cooccurrences
significatives
s

m
e
s
C
smes
s

m
e
s
C
smes
affectation
des traits
smantiques


Ltape pralable est la slection dunits textuelles appropries ( partie 4.2)). Elle correspond au
choix dun corpus de textes, du mot dont on souhaite tudier les variations smantiques et du cotexte
dapparition de ce mot. Le choix du corpus, du mot de rfrence et du cotexte est conditionn par les
expriences que lon souhaite effectuer.

mot
mot
contexte corpus
el l e r col t ai t l e pol l en des
f l eur s et s' en nour r i ssai t , et
el l e buvai t l a r ose qui t ai t
t ous l es mat i ns sur l es
f eui l l es
pol l en
mot
mot mot
contexte corpus
el l e r col t ai t l e pol l en des
f l eur s et s' en nour r i ssai t , et
el l e buvai t l a r ose qui t ai t
t ous l es mat i ns sur l es
f eui l l es
pol l en


Les units textuelles sont ensuite mises un format standard (partie 4.3) : le corpus doit tre
structur, cest--dire dcoup en sous-units. Chaque unit et sous-unit textuelle est ensuite
transpose du plan lexical au plan infra-lexical : son smme lui est affect.

25
sous-unit1
sous-unit2
sous-unit3
corpus
dcoupage en
sous-units
1
2
3
sous-unit1
sous-unit2
sous-unit3
corpus corpus
dcoupage en
sous-units
1
2
3
chapeau
miel
grain
sous-unit1
sous-unit2
sous-unit3
/coiffure/ /matire/
/forme/ /homme/
/femme/ /bord/ /casque/
/matire/ /ruche/ /fleur/
/abeille/ /nourriture/
/fruit/ /vgtal/
/semence/ /comestible/
/petit/ /contenir/
smme
/coiffure/ /matire/
/forme/ /homme/
/femme/ /bord/ /casque/
/coiffure/ /matire/
/forme/ /homme/
/femme/ /bord/ /casque/
/matire/ /ruche/ /fleur/
/abeille/ /nourriture/
/matire/ /ruche/ /fleur/
/abeille/ /nourriture/
/fruit/ /vgtal/
/semence/ /comestible/
/petit/ /contenir/
/fruit/ /vgtal/
/semence/ /comestible/
/petit/ /contenir/
smme
affectation des smmes
traits smantiques de la sous-unit


Au stade suivant (partie 4.4), limage du corpus obtenue par passage du niveau lexical au niveau
infra-lexical est convertie en une reprsentation mathmatique. Le passage du qualitatif au quantitatif
repose sur le dnombrement doccurrences, cest--dire dapparitions, des traits smantiques. Les
sous-units du corpus constituent le support de distribution des occurrences : les apparitions dun trait
smantique sont dcomptes par sous-units.
Ces dcomptes permettent de gnrer une matrice doccurrences. Les lignes de la matrice
correspondent aux traits smantiques, les colonnes aux sous-units du corpus et les entres de la
matrice au nombre doccurrence de chaque trait smantique par sous-unit.


chapeau
miel
grain
sous-unit1
sous-unit2
sous-unit3
/coiffure/ /matire/
/forme/ /homme/
/femme/ /bord/ /casque/
/matire/ /ruche/ /fleur/
/abeille/ /nourriture/
/fruit/ /vgtal/
/semence/ /comestible/
/petit/ /contenir/
smme
/coiffure/ /matire/
/forme/ /homme/
/femme/ /bord/ /casque/
/coiffure/ /matire/
/forme/ /homme/
/femme/ /bord/ /casque/
/matire/ /ruche/ /fleur/
/abeille/ /nourriture/
/matire/ /ruche/ /fleur/
/abeille/ /nourriture/
/fruit/ /vgtal/
/semence/ /comestible/
/petit/ /contenir/
/fruit/ /vgtal/
/semence/ /comestible/
/petit/ /contenir/
smme
traits smantiques de la sous-unit
15 0 0 3 2 7 0 9
3 2 5 8 6 10 5 1
4 0 1 ...
...
0
0
6 14 26 ...
0 2 7 ...
coiffure
matire
forme
fruit
vgtal
petit
abeille













s
o
u
s
-
u
n
i
t

1
s
o
u
s
-
u
n
i
t

2
s
o
u
s
-
u
n
i
t

3
s
o
u
s
-
u
n
i
t

n
nombre doccurrences du sme
/matire/ dans la sous-unit3
6444447444448
matrice smes / sous-units
(remarque : coefficients de la matrice fictifs)
report des
occurrences dans
une matrice


Par la suite, cette matrice subit des transformations mathmatiques double vocation : convertir le
nombre doccurrences en un coefficient de significativit ou de proximit smantique ; se ramener
un espace ne dpendant que des traits smantiques et de leurs relations rciproques (gnration dune
matrice dite de cooccurrences).
26
15 0 0 3 2 7 0 9
3 2 5 8 6 10 5 1
4 0 1 ...
...
0
0
6 14 26 ...
0 2 7 ...
coiffure
matire
forme
fruit
vgtal
petit
abeille













s
o
u
s
-
u
n
i
t

1
s
o
u
s
-
u
n
i
t

2
s
o
u
s
-
u
n
i
t

3
s
o
u
s
-
u
n
i
t

n
6444447444448
matrice doccurrences
tf-idf tf-idf
7.1 0 0 1.4 0.9 3.3 0 4.2
3 2 5 8 6 10 5 1
2.4 0 0.6 ...
...
0
0
3 7 13 ...
0 0.4 1.4 ...
coiffure
matire
forme
fruit
vgtal
petit
abeille













s
o
u
s
-
u
n
i
t

1
s
o
u
s
-
u
n
i
t

2
s
o
u
s
-
u
n
i
t

3
s
o
u
s
-
u
n
i
t

n
6444447444448
M
M x M
T
M x M
T
6444447444448
matrice de cooccurrences
significatives
C
81.7 75.1 23.3 ... 14.3 7.8 12.7 66.3
75.1 264 12.5 145.4 50.5 244 87.6
23.3 12.5 32.6 ...
... ...
14.3
7.8
12.7 244 132 ...
66.3 87.6 9.4 ...
coiffure
matire
forme
fruit
vgtal
petit
abeille













c
o
i
f
f
u
r
e
m
a
t
i

r
e
f
o
r
m
e

a
b
e
i
l
l
e
p
e
t
i
t
M
transformations mathmatiques
matrice doccurrences
significatives


La matrice finale sinterprte comme une reprsentation smantique du monde telle quelle apparat
travers le corpus : elle doit reflter limportance que nous accorderions un trait smantique a priori
et les associations entre traits smantiques que nous effectuerions hors de tout contexte. Cette
reprsentation matricielle du monde est tributaire du corpus de dpart : les traits smantiques
/avocat/ et /agricole/ auront un poids de cooccurrences diffrent si le corpus de dpart est un
ensemble de textes juridiques ou un ensemble de rapports dactivit en agro-alimentaire. A titre
dillustration, on peut aisment imaginer quun enfant lev aux contes et aux dessins anims
neffectuera vraisemblablement pas les mmes associations smantiques quun tudiant chinois en
ingnierie initi la langue franaise par le vocabulaire de lentreprise.

Ensuite, la reprsentation dun mot donn est extraite de limage smantique du corpus que lon
peut voir comme une toile smantique de ce corpus. Cette approche permet de prendre en compte
la reprsentation globale, cest--dire lensemble du corpus, dans la reprsentation locale dun mot.
Une approche complmentaire et mathmatiquement quivalente est la suivante : le corpus est vu sous
un angle dobservation particulier, savoir du point de vue du mot.

3 7 0
28 10 5
5 26
... 6
...
10
5
1
coiffure
fil
forme
fruit
tissu
grand
abeille













f
i
l
t
i
s
s
u
g
r
a
n
d
3 7 0
28 10 5
5 26
... 6
...
10
5
1
coiffure
fil
forme
fruit
tissu
grand
abeille













f
i
l
t
i
s
s
u
g
r
a
n
d
35 3 0 ... 2 7 0 9
3 28 5 6 10 5 1
0 5 42 ... 26 7
... ... ...
2 6
7 10
0 5 26 ...
9 1 7 ...
coiffure
fil
forme
fruit
tissu
grand
abeille













c
o
i
f
f
u
r
e
f
i
l
f
o
r
m
e
f
r
u
i
t
t
i
s
s
u
g
r
a
n
d
a
b
e
i
l
l
e
C
35 3 0 ... 2 7 0 9
3 28 5 6 10 5 1
0 5 42 ... 26 7
... ... ...
2 6
7 10
0 5 26 ...
9 1 7 ...
coiffure
fil
forme
fruit
tissu
grand
abeille













c
o
i
f
f
u
r
e
f
i
l
f
o
r
m
e
f
r
u
i
t
t
i
s
s
u
g
r
a
n
d
a
b
e
i
l
l
e
35 3 0 ... 2 7 0 9
3 28 5 6 10 5 1
0 5 42 ... 26 7
... ... ...
2 6
7 10
0 5 26 ...
9 1 7 ...
coiffure
fil
forme
fruit
tissu
grand
abeille













c
o
i
f
f
u
r
e
f
i
l
f
o
r
m
e
f
r
u
i
t
t
i
s
s
u
g
r
a
n
d
a
b
e
i
l
l
e
C
lycra (fil , lastomre , confrer , tissu , grand , lasticit)
mot smme
matrice de cooccurrences matrice corpus-mot


A cette tape succde le passage du global au local : de la reprsentation du mot sur lensemble du
corpus nest conserve que la projection sur le sous-espace correspondant au cotexte du mot, ou, dans
loptique de lapproche complmentaire, seule la partie reprsentative du cotexte est conserve dans
lespace du mot.
27
3 7 0
28 10 5
5 26
...
coiffure
fil
forme
fruit






f
i
l
t
i
s
s
u
g
r
a
n
d
3 7 0
28 10 5
5 26
... 6
...
10
5
1
coiffure
fil
forme
fruit
tissu
grand
abeille













f
i
l
t
i
s
s
u
g
r
a
n
d
3 7 0
28 10 5
5 26
... 6
...
10
5
1
coiffure
fil
forme
fruit
tissu
grand
abeille













f
i
l
t
i
s
s
u
g
r
a
n
d
matrice corpus-mot
matrice contexte-mot
contexte
contexte
contexte
contexte lycra
mot
lycra
mot
smes
coiffure
forme
fruit
fil
smes
coiffure
forme
fruit
fil
smes
coiffure
forme
fruit
fil

La ritration des tapes prcdentes pour divers cotextes, mots, corpus ou transformations
mathmatiques fournit des images smantiques diffrentes. Des traitements mathmatiques
complmentaires sont alors ncessaires pour accder une reprsentation synthtique des donnes ou
visualiser celles-ci. Ces processus ouvrent la porte lanalyse et la comparaison de rsultats.
4.2) Choix des matriaux de base
Les lments de dpart sont les suivants : le corpus, le mot et son cotexte. La slection est guide
par un certain nombre de critres. Cependant, le choix optimal est difficile dfinir : nombre de
critres se heurtent des controverses, le passage du qualitatif au quantitatif nest pas clairement dfini
et la linguistique, science des nuances, doit composer avec des mathmatiques rclamant du gnral et
le lissage des cas particuliers.

La constitution du corpus soulve des questions autour des points suivants : lhomognit, la taille
et la structuration interne du corpus.

Un corpus doit-il tre homogne ou htrogne ? Les informations quil fournira serviront,
rappelons-le, crer la reprsentation du monde vhicule par la matrice finale du corpus. Cette
reprsentation fait cho aux reliefs et connexions smantiques sous-jacentes au cerveau humain. Un tel
argument plaide en faveur de lhtrognit. Cependant, lhtrognit bute contre la contrainte des
limites et peut prendre diffrentes formes : genre, poque, domaine ou encore thme.
Avons-nous les mmes intuitions smantiques lorsque nous abordons du thtre, des essais ou de la
posie ? Non, car les discours (discours littraire, scientifique, ) correspondent des pratiques
sociales. Les pratiques sociales correspondent elles-mmes des usages linguistiques. De plus, au sein
dun discours, les genres textuels rpondent des codes de rdaction et dinterprtation, contraintes
intgres la fois par lauteur et le lecteur. Le sens est donc en partie fonction du genre. Dans le cadre
de cette tude, les genres suivants ont t prslectionns : des contes (voir Wikisource), des romans et
un corpus journalistique. Les contes sont susceptibles de donner une reprsentation du monde telle que
les adultes la destinent aux enfants. Les notions abstraites y sont sous-reprsentes mais le caractre
imag, concret, facilite lanalyse et en fait un candidat lgitime aux premires expriences. Le corpus
littraire offre une garantie de structure : les auteurs littraires veillent gnralement respecter lunit
smantique dune phrase, dun paragraphe ou encore dun chapitre. Un bmol toutefois : les effets de
style et le caractre extrmement construit des ouvrages nclipsent-ils pas le rle dterminant de
lusage, notion au cur de ma thmatique ? Reste savoir comment dfinir les limites de lusage.
Quant au corpus journalistique, il constitue un panel certainement plus proche de lusage, mme si les
champs abords sont parfois trs abstraits et moins propices lanalyse, du moins pour les dbuts.
Soulignons enfin que cette prslection a aussi t guide par les outils disponibles.
Comment choisir les limites temporelles ? En effet, le sens des mots volue dans le temps : la
situation du mari du de la championne sportive dtrne et du mari du dans les comdies de
Molire sont loin dtre comparables. Un critre invite choisir une poque relativement rcente : les
28
dfinitions du TLFi constituent le rservoir de traits smantiques. Or ces dfinitions ont t rdiges
par des linguistes du XXe sicle pour leurs contemporains. De plus, le TLFi na pas vocation tre un
dictionnaire historique. Toutefois, la notion de relativement rcent reste dfinir. Un texte du
XVIIIe lest-il ? Du XIXe ? La limite suivante a t retenue : les textes choisis sont postrieurs au
XIXe sicle et antrieurs aux annes 90, partir desquelles nous savons que les informations venir
du Supplment au TLFi nous serons ncessaires..
Une fois le genre et lpoque slectionns, une certaine htrognit est privilgier. Il est
judicieux de ne pas se centrer sur une seule uvre dun auteur, mais par exemple de partir dune
uvre, dajouter une autre uvre du mme auteur puis une uvre dun auteur diffrent. Les critres
respecter se rsument donc ceci : varier les auteurs et choisir des thmatiques diffrentes au sein
dun mme genre.

La taille thorique du corpus est un autre critre dterminer. Un corpus trop petit risque de
conduire une surreprsentation ou sous reprsentation de certains traits smantiques. Ainsi, si ltude
effectue est centre sur un mot relativement rare et si la prsence de ce mot est un critre de slection
des textes du corpus, le mot sur lequel ltude est centre sera surreprsent. Par ailleurs, le corpus
doit donner une image globale, donc sa taille doit tre suffisamment importante. La rfrence suivante
parat pertinente : la mthode LSA sappuie sur des corpus denviron trois millions de mots. Signalons
toutefois que notre tude ne requiert pas ncessairement une telle taille. En effet, les mots ne sont plus
la rfrence mais les traits smantiques. Or un mot correspond en moyenne dix traits smantiques si
le TLFi est utilis pour affecter les traits smantiques (voir partie 4.3)). Nuanons toutefois : le recours
au trait implique galement une rduction du nombre de mots concerns. Certaines catgories de mots
(dterminants, pronoms) sont en effet filtres et napportent pas de trait smantique. Les expriences
menes ont repos sur des corpus beaucoup plus petits pour des raisons techniques abordes au
paragraphe 5.1.3.

Autre point fondamental : la structuration interne du corpus. Le dcompte doccurrences, qui
initialise la reprsentation mathmatique, repose sur le dcoupage du corpus. La structure interne
justifiant le dcoupage ne doit donc pas tre une maladresse mais une volont smantique de lauteur.
Lexistence dune structure simple, avec possibilit deffectuer un seul dcoupage (en paragraphes en
loccurrence), a suffi nos expriences. Nanmoins, la possibilit de structurer plus finement semble
indispensable pour les volutions ultrieures du modle.

Pour conclure sur le corpus, rappelons quun corpus se constitue en fonction des objectifs fixs. Un
choix dhomognit pour certains critres devrait saccompagner dune tude contrastive. Ainsi, les
rsultats dune exprience sur un corpus de textes du XVIIe sicle devraient ensuite tre confronts
ceux dun corpus du XXe sicle par exemple.

La slection du mot demande elle aussi un examen attentif. Doit-il tre polysmique ou
monosmique
6
? Quelle doit tre la taille de son smme ? Vaut-il mieux privilgier un mot rare ou un
mot frquent ? Voici quelques lments de rponse. Avant tout, les questions prcdentes sont lies :
un mot dont lusage est frquent a gnralement une plus grande richesse polysmique quun mot rare.
Si un mot polysmique se voit affecter lensemble de ses traits smantiques, toutes dfinitions
confondues, la taille de son smme est accrue. Deuxime lment de rponse : les critres de choix
dpendent de lexprience mener. Si lobjectif est de faire merger les traits smantiques dominants,
un mot monosmique convient. Sil est de structurer le smme, la taille du smme doit tre
suffisante pour quun relle structuration apparaisse. Par exemple, le smme de fragrance, constitu
de deux smes, /odeur/ et /agrable/ ne sera pas appropri. Sil sagit de dsambiguser
7
, le choix
dun mot polysmique est indispensable. Par ailleurs, la slection doit aussi prendre en compte les
capacits humaines danalyse : avoir une analyse humaine fine dun smme constitu de cent traits
smantiques sera beaucoup plus ardu que lanalyse dun smme de vingt traits, faute de vue
densemble.

6
monsmique : qui na quun seul sens ; polysmique : qui peut prendre plusieurs sens
7
dsambiguser : dterminer le sens appropri un contexte donn dun mot polysmique
29

Le choix du cotexte donne galement matire rflexion. Premier point examiner : la taille du
cotexte. Lunit de dfinition du cotexte et lunit de dcoupage du corpus doivent-elles tre
identiques ? En particulier, supposons que le cotexte soit dfini partir dune unit plus petite que
lunit de dcoupage ou partir dunits non multiples de celle-ci. Ce cas de figure peut de prime
abord sembler plus problmatique, voire aberrent. Lanalogie suivante illustre le nud du problme :
alors que les observations qui ont permis de construire notre support ont t faites lil nu, peut-on
en tirer des conclusions au niveau microscopique ? Premire remarque : les entits observes, savoir
les traits smantiques, sont toujours les mmes, elles ne sont donc pas transformes par le changement
dchelle. En revanche, la structure des entits observes change. Or les oprations effectues sur le
corpus ont prcisment pour objectif de saffranchir de la structure et de donner une reprsentation
gnrale des relations entre traits smantiques, laquelle nimporte quelle structure pourra tre
applique. La slection dun cotexte dont lunit de dfinition est quelconque se justifie donc.
Signalons cependant que cette structure particulire doit se traduire, au niveau mathmatique, par une
fonction refltant ses caractristiques.
Par ailleurs, faut-il intgrer ou non le mot dans le cotexte ? Autrement dit, une fois slectionn le
cotexte centr le mot, faut-il en retirer le mot lui-mme ? A nouveau, un tel procd dpend des
expriences effectuer. Ainsi, la double approche, cotexte sans mot et cotexte avec mot, parat
approprie pour mesurer dune part la conformit dun mot avec le cotexte dans lequel il apparat,
dautre part ce quil apporte spcifiquement. Lillustration suivante peut savrer clairante : le cotexte
cre une toile smantique, dans laquelle nous attendons quun terme avec un certain profil smantique
prenne place. Celui-ci peut avoir le profil attendu ou au contraire apporter quelque chose dinattendu
et, du mme coup, rtroagir sur la toile du corpus pour la redessiner.



Une telle approche peut tre, terme, particulirement intressante pour ltude de nologies (non
dveloppe dans le cadre de ce stage).
4.3) Pr-traitements
4.3.1) Dcoupage du corpus
Le dcoupage du corpus, indispensable pour constituer la matrice doccurrences, pose des
problmes de deux ordres : lchelle de dcoupage et la conservation de lordre des units dcoupes.
profil du contexte
sans le mot
superposition des profils
du mot et
du contexte sans le mot
profil smantique du mot conforme au contexte
fort apport smantique
nouveau profil du contexte
avec le mot
30
4.3.1.1) Multiplicit des chelles smantiques
Un corpus de textes est compos de nombreuses units : smes, mots, mots composs (pomme de
terre), syntagmes (regroupements de mots selon la structure grammaticale), collocations (pole frire,
placard balai), expressions figes ou semi figes (tuer le temps), phrases, paragraphes, chapitres, le
textes Ces units constituent les candidats un dcoupage, units seules ou regroupes, comme par
exemple les regroupements de mots, aussi appels fentres de mots. Ces units, qui entretiennent des
relations dinclusion illustres ci-dessous, permettent de constituer un jeu dchelle.




Les dcoupages possibles sont donc multiples, mais leur pertinence est variable en fonction de ce
que lon dsire observer. Rappelons que notre tude est axe sur les occurrences et cooccurrences de
traits smantiques au sein de lunit de dcoupage choisie. Linteraction entre un trait smantique
prsent la troisime page dun roman et un trait la cent cinquantime page a de fortes probabilits
dtre moins significative quentre deux traits smantiques distants dau plus cent mots ; en revanche,
quen est-il entre deux paragraphes ? Un trait smantique prsent en dbut dun paragraphe est-il en
plus troite relation avec un trait en fin de ce mme paragraphe ou un trait en fin du paragraphe
prcdent ? Une loi gnrale est difficile dgager, dautant plus que les tudes sur les smes sont
presque inexistantes. En revanche, pour les mots, les avis des linguistes convergent sur certaines
tendances, par exemple sur limportance dominante des quatre termes placs en tte dune dfinition.
Or la place du mot correspond aussi la place de son smme, donc tendre aux smes les rsultats
obtenus sur les mots ne semble pas, a priori, compltement aberrent.
En premier lieu, les regroupements de paragraphes, chapitres, textes ou un corpus tout entier
constituent des units trop importantes. Les fentres de mots ont galement une pertinence contestable.
Elles soulvent en particulier le problme de la fragmentation dunits smantiques : affectation de
deux parties de paragraphe des units diffrentes, phrases coupes en plein milieu, etc. Nanmoins,
elles pourraient avoir leur intrt pour la dfinition dune borne suprieure. Ainsi, couples un
dcoupage en paragraphe, elles permettraient dviter des units de dcoupage trop importantes. De
mme, elles constituent un recours en cas dimpossibilit technique daccder aux autres dcoupages
(voir paragraphe sur les limites de Frantext). Laccs aux autres dcoupages nest au demeurant pas
insoluble, mais peut exiger le dveloppement doutils de dcoupage, parfois coteux en temps. Les
fentres de mots ou regroupements dautres units ont un autre avantage : elles permettent dutiliser
des fentres glissantes, cest--dire un ensemble de fentres qui ne forment pas une partition mais se
chevauchent et sobtiennent par ritration dune translation. Le syntagme est une unit smantique
pertinente mais trop petite parce quon dsire observer un phnomne smantique. Le choix de la
phrase est lui aussi contest pour les mmes raisons. Les linguistes saccordent en revanche sur la
pertinence du paragraphe comme unit smantique.

Le dcoupage idal semble donc difficile obtenir : plusieurs units smantiques font sens et aucun
dcoupage unique ne peut prendre en compte cette arborescence de structures. Plutt que de
dterminer un dcoupage simple, ne serait-il pas judicieux de recourir des dcoupages multiples ?
Un dcoupage multiple permettrait dintgrer les informations apportes par les syntagmes, les phrases
et les paragraphes par exemple. Cependant, ce dcoupage multiple soulve de nouveaux problmes :
comment intgrer ces diffrents dcoupages ? Le traitement de chaque dcoupage doit-il tre
identique ? Diffrent ? Auquel donner la prpondrance ? Une solution consisterait gnrer pour
chaque dcoupage limage du corpus par les mmes transformations mathmatiques, puis faire la
moyenne ventuellement pondre des valeurs obtenues. Mais une nouvelle question se pose : est-il
judicieux de synthtiser les informations apportes par chaque dcoupage en aval des transformations
mathmatiques ? Un travail en amont ne conviendrait-il pas mieux ? Ces questions sont importantes et
nont pas t rsolues. Lapproche adopte est la suivante : le corpus a t soumis un dcoupage
simple, procd certes grossier mais cohrent, moins complexe et ralisable avec les outils existants.
Ce modle grossier des premiers pas appelle naturellement tre affin terme. Il devra sappuyer sur
les rflexions mentionnes ci-dessus.
syntagme phrase paragraphe
sme mot texte corpus
fentre de mots




31
4.3.1.2) Ordre : conservation ou non ?
Le dcoupage en paragraphes exclusivement, sans prendre en compte les units suprieures et
infrieures, et le traitement matriciel ramenant un espace de traits smantiques affranchis des
dcoupages (matrice de cooccurrences, voir 4.4.1.1) font perdre toute notion dordre. A titre
dillustration, le corpus peut tre vu comme un puzzle. Les morceaux de puzzle sont les units de
dcoupage (les paragraphes dans les tudes menes) et sont mlangs. Chacun de ces morceaux
contient de nombreuses units, les traits smantiques, affects dun poids mais sans aucun agencement
les uns par rapport aux autres. Les liens entre traits smantiques ne dpendent donc que des
cooccurrences au sein dun mme morceau de puzzle.
Le modle choisi, qui a certes sa cohrence, peut toutefois paratre quelque peu brutal. En effet,
pour des tres humains, lordre semble intervenir en permanence et parat fondamental. La lecture
dun texte est linaire, la syntaxe repose elle aussi sur une relation dordre, des tudes linguistiques ont
soulign que linfluence des lments en tte de paragraphe (respectivement de phrase) est dominante
au sein du paragraphe (resp. de la phrase) textes.
Lapproche matricielle mise en uvre au cours de ce stage, de mme que la plateforme Smy
dannotation en traits smantiques, ne prennent pas en compte lordre. Nous avons opt pour un
modle plus simple mais robuste pour les premiers pas, conscients des imperfections de ce modle. Ce
modle appelle tre affin et complexifi par la suite. Les rflexions qui suivent sattaquent au sujet,
de manire plus ou moins approfondie selon les cas, et ouvrent de perspectives sur une intgration
ultrieure de lordre dans le modle.
Lordre peut tre intgr diffrents niveaux. Tout dabord, pour un dcoupage simple, lordre
pourrait tre pris en compte lors des transformations matricielles. En particulier lors du passage de la
matrice doccurrences, o les paragraphes sont encore ordonns (premire colonne : premier
paragraphe ; deuxime colonne : deuxime paragraphe,), la matrice de cooccurrences (lignes et
colonnes correspondent des traits smantiques), la structure des paragraphes peut tre en partie
prserve par une transformation mathmatique adquate ; pour ce faire, les oprations sur les
coefficients doivent sappuyer sur les carts dindices de colonnes
1 2
j j , qui est une distance
linaire. Une autre approche consisterait faire des dveloppements mathmatiques parallles, sous
forme matricielle par exemple (constitution dune autre matrice de cooccurrences) ne prenant en
compte que les distances linaires. Celles-ci dpendraient de lunit de dcoupage choisie, savoir le
paragraphe. Par exemple, les traits smantiques distants de n paragraphe(s) auraient un coefficient de
cooccurrence de f(n) dans la matrice de cooccurrences. La distance linaire pourrait galement tre
plus complexe et prendre en compte les multiples units smantiques : deux traits distants de m
paragraphes, n phrases et p mots auraient une distance d fonction de m, n et p. Une des difficults
majeures rside dans le choix dune fonction adapte, susceptible de reflter de manire juste les
phnomnes linguistiques. Une autre approche est celle mentionne au paragraphe prcdent : elle
reposerait sur des transformations menes en parallle sur les diffrents dcoupages et une synthse
des objets mathmatiques finals. Dernire approche envisage : travailler sur des voisinages glissants.
Le dcoupage ne se ferait plus en units disjointes mais en units qui se recouvreraient. Ainsi, dans
une optique de paragraphes, le premier lment correspondrait aux paragraphes 1, 2 et 3, les second
aux paragraphes 2, 3 et 4, Toutefois, cette solution pose un problme non ngligeable : celui des
effets de bord. Enfin, une dernire remarque simpose sur lordre linaire : celui-ci est certes valable
chelle suffisamment grande mais peut poser problme chelle trop fine (infrieure la phrase), o
la syntaxe influe fortement. Faudrait-il alors substituer lordre linaire un ordre logique ? Et, si cela
est thoriquement possible, les outils capables dtablir cet ordre existent-ils et sont-ils adaptables au
modle ?
4.3.2) Affectation des traits smantiques
4.3.2.1) Source des traits smantiques
Laffectation des traits smantiques repose sur la plateforme dannotation Smy. Celle-ci a pour
base le TLFi et sappuie sur les regroupements morphologiques de [Ramdani, 2007].
32
A chaque unit textuelle est associ un ensemble de smes. Ceux-ci sont obtenus par le TLFi qui
contient le smme de chaque mot retenu dans lunit textuelle. Les traits smantiques sont puiss
dans les entres associes chaque mot. Seule une partie des entres a t retenue : les dfinitions. Les
autres rubriques (exemples, leurs auteurs, dates et titres, syntagmes, domaines techniques,
synonymes,) ont t limines.

Smme : { /instrument/, /corde/, /accorder/, /quinte/, }


Remarquons nanmoins que les domaines auraient eu leur pertinence. Cette extension devrait tre
intgre terme par le concepteur de Smy, la plateforme dannotation en traits smantiques qui
permet la slection des traits appropris (catgorie grammaticale, rubrique du TLFi, etc). La slection
dune seule rubrique a un avantage majeur : elle permet de limiter le nombre de traits smantiques
affects un mot, donc rduit la combinatoire lors de calculs ultrieurs ainsi que le bruit, cest--dire
la proportion de traits smantiques non pertinents affects un mot.
Deux autres extensions mritent dtre prises en considration : ladjonction du mot lui-mme dans
son smme et lenrichissement par smme inverse. Le premier point soulve la question de la
rflexivit : un mot fait-il partie de son propre smme ? Ne fait-il partie de son propre smme que
sil est repris dans sa dfinition ? Lexemple suivant met en lumire un argument en faveur de la
rflexivit : si le mot sable a le trait smantique /jaune/, et le mot jaune na pas /jaune/ comme
trait smantique, lunit de sens /jaune/ sera plus prsente dans Il marche dans le sable que
Tout son intrieur tait jaune : chaises jaunes, canap jaune, mur jaune . Dans les expriences
menes, la rflexivit na pas t systmatise pour des raisons techniques. Si le modle est dvelopp,
cette faille devra tre comble. La seconde extension est celle du smme inverse. Le smme inverse
est un smme obtenu par la dmarche inverse de celle effectue : les traits smantiques du smme
taient les termes de la dfinition du mot de rfrence ; les traits smantiques du smme inverse sont
les termes dont le mot fait partie de la dfinition. Prenons un exemple : le mot vibrato. La dfinition
du TLFi est la suivante : technique dinterprtation destine rendre un son plus expressif en
faisant varier lgrement et trs rapidement sa hauteur . Le smme correspondant est :
{/technique/, /interprtation/, /son/, /plus/, /expressif/, /faire/, /varier/, /lgrement/,
/trs/, /rapidement/, /hauteur/}. Par ailleurs, vibrato apparat dans les dfinitions de sifflet,
tremblant, vibrant, vibrer et voix. Le smme inverse est donc : {/trembler/, /vibrer/, /sifflet/,
/voix/}. Le smme total, constitu du smme direct et du smme inverse, est enrichi et parat
plus pertinent. Toutefois, le smme pose galement un certaines nombre de problmes : pour les mots
polysmiques, le bruit sera amplifi. Le mot palais se verra enrichir aussi bien de traits smantiques
comme /lysen/, /alcazar/ ou /vch/ que d/arrire-gorge/, /amygdale/ ou /voyelle/. On
imagine leffet dans un corpus de contes parlant de princes et de leur palais : les traits indsirables
seront multiplis. Au problme de la pertinence sajoute celui de la quantit. Par exemple, le smme
33
de rose (nom et adjectif runis) comporte un peu plus de cent smes. Or rose apparat dans 160
dfinitions. Le smme total serait donc plus que doubl. Ajoutons un troisime bmol pour les mots
polysmiques : le TLFi est structur en dfinitions et la slection de la dfinition approprie est
techniquement possible. En revanche, lorsquun mot apparat dans une dfinition, aucune indication
nest enregistre sur le sens ad hoc. Autrement dit, traiter la polysmie indsirable semble possible
avec le smme direct mais dun autre niveau de complexit dans le cas du smme inverse. En
somme, le smme inverse peut savrer prcieux mais doit tre manipul avec prcaution. Une piste
explorer consisterait dfinir le type de mots enrichir par smme inverse. Les candidats pourraient
tre des mots monosmiques, dune catgorie grammaticale dtermine (nom par exemple) et dont le
smme direct nexcderait pas une certaine taille.
4.3.2.2) Filtrage et regroupement des smes
Certains traits smantiques sont filtrs. Les lments conservs sont les traits smantiquement
pleins, do la slection des catgories grammaticales suivantes : noms, verbes, adjectifs et adverbes.
Les autres catgories (pronoms, dterminants, ) sont limines. De mme, les lments
mtalinguistiques hrits des dfinitions et convertis en smes (par ex., qui na pas devient un
sme /absence de/, qui est en rapport avec ou qui est caractris par devient
/caractristique de/, ) sont retirs des listes.
La slection effectue dans les expriences ralises a toutefois mis en lumire des faiblesses de
cette slection. Ainsi, la pertinence des adverbes est contestable. Par exemple, le smme du mot
pollen est constitu de dix-huit traits smantiques. Parmi eux, deux adverbes : /trs/ et
/gnralement/. Le manque de pertinence de ces adverbes est manifeste : le pollen nvoque ni la
gnralit, ni lintensit. Cependant, le retrait complet des adverbes est-il une solution adquate ?
Reprenons lexemple de vibrato : supprimer les smes /rapidement/ et /lgrement/,
smantiquement riches et pertinent, priverait le smme dlments fondamentaux. Le traitement des
adverbes ncessiterait une solution panache : la suppression dune liste dentre eux soit par tude
statistique sur les dfinitions du TLFi (limination des adverbes dont le taux de prsence dpasse un
certain seuil), soit par tude linguistique du mme ordre que celle sur les mtasmes. Dautres points
mritent considration : que faire des verbes tels tre , avoir , faire , tenir ? Certes, leur
prsence parasite souvent le smme, mais leur apport est indispensable dans certains cas, comme
dans les smmes de dtenir (/avoir/), possder (/avoir/) ou serrer (/tenir/).
Aprs la slection simpose un regroupement de traits smantiques. Celui-ci sopre par
lemmatisation. La lgitimit de la lemmatisation semble a priori vidente : lessentiel du contenu
smantique dun verbe semble identique quels que soient la personne, le nombre, le mode et le temps
auquel il est employ ; les apports smantiques de la conjugaison paraissent extrieurs au verbe, dune
source dissocie, indpendante du cur smantique du verbe. Soulignons toutefois que, dans des
analyses linguistiques fines, ce caractre dvidence est mis mal. Brve illustration, reprise de
[Bourion, 2001] : dans les romans du XIXe sicle, pieds et pied navaient pas la mme coloration
smantique : les traits smantiques /fin/, /petit/ et /gracieux/ taient beaucoup plus rattachs au
pluriel pieds quau singulier. Puis sajoute la lemmatisation un regroupement en familles. Celles-ci
sont les familles morphologiques dcrites au paragraphe 3.3.3. A nouveau, ces regroupements
entranent une moindre finesse de sens. Examinons le cas particulier du sme /nature/ : celui-ci est
regroup avec /naturaliser/, /naturiste/, /naturel/ ou encore /dnatur/. Les smes voqus sont
loin dtre synonymes. Pourtant, ils ont effectivement un point commun, smantiquement parlant. Ces
regroupements prsentent un autre avantage : ils vitent une distribution de sens trop disperse. Sur le
plan mathmatique, ils amoindrissent les problmes lis aux matrices creuses.
En somme, le bien-fond de la lemmatisation et des regroupements repose principalement sur
largument suivant : la dmarche adopte est une dmarche de modlisation. Celle-ci est une
simplification du rel, elle repose sur des caractres gnraux et rguliers. Un modle capable de
34
rendre compte de toutes les subtilits de la langue ne serait plus un modle... ou serait le modle
parfait, assassin de la libert humaine travers le langage.
4.3.3) Pondration des traits smantiques
Avant toute opration mathmatique se posent deux questions fondamentales : faut-il affecter une
pondration aux traits smantiques dune dfinition avant tout traitement ? Le cas chant, sur quels
critres doit reposer cette pondration ?
La premire question est en ralit un faux choix : ne pas pondrer entrane implicitement la
slection dune pondration par dfaut. Celle-ci est une pondration prsence/absence : le poids 1 est
affect au trait prsent dans la dfinition du mot, quel que soit son nombre doccurrences dans la
dfinition, 0 au trait absent.
Les pondrations possibles recouvrent des aspects multiples. Premire interrogation : quelle poids
donner aux smes apparaissant plusieurs fois dans une dfinition ? Les apparitions doivent-elles tre
comptes de faon simple ou multiple ? Argument pour un dcompte multiple : un terme qui apparat
plusieurs fois dans une dfinition peut tre considr comme plus significatif que dautres. Prenons
lexemple du mot th. Les traits smantiques apparaissant plusieurs fois dans la dfinition sont :
/feuille/ (6 occurrences), /boisson - boire/ (6), /th/ (4), /servir/ (3), /prparer - prparation/
(3), /bourgeon/ (2), /plante/ (2), /infusion/ (2), /autre/ (2), /mode/ (2). Ces traits smantiques
semblent, pour la plupart, particulirement caractristiques du th et une pondration proportionnelle
au nombre doccurrences ne semblerait pas aberrante. Cependant, les traits /autre/ et /mode/
mettent en lumire un autre problme : les traits smantiques trop frquents ou mots passe-partout
risquent de voir leur pondration dmultiplie, alors quon souhaiterait au contraire les liminer. Pour
trancher la question, une tude rigoureuse, la fois statistique et linguistique, des dfinitions du TLF
simposerait et la pondration devrait probablement intgrer la frquence des termes dans la langue
franaise. J e nai pas ax mes efforts sur une telle tude, purement dictionnairique, puisque mon sujet
tait centr sur le contexte. Mon choix a t de garder la pondration prsence absence,
indpendamment de lordre de multiplicit.
Deuxime question aborder : celle de la normalisation. Considrons deux mots. Le smme du
premier comporte dix smes, celui du second quatre-vingt. Faut-il alors accorder un poids de 1/10 aux
smes du premier mot et de 1/80 ceux du second, ou le mme poids tous les smes, sachant que le
poids du mot sera de 10 contre 80, du moins si le poids du mot est gal la somme des poids de ses
smes ? Grossirement, il sagit de choisir entre une galit entre mots et une galit entre smes. Les
deux approches se dfendent. Toutefois, mon approche infra-lexicale, dtache du niveau des mots,
mincite privilgier une galit entre smes, donc un retour la pondration basique.
Une troisime pondration pourrait dpendre de la rubrique dans laquelle un trait smantique
apparat. Rappelons que les traits slectionns appartiennent tous la dfinition. Cependant, il serait
envisageable denrichir le smme avec les smes prsents dans les exemples ou encore les
synonymes. Selon la rubrique (dfinition, exemple,) le sme pourrait se voir affecter un certain
poids (1 pour la dfinition, pour les autres rubriques par exemple). Mais au problme de la
pondration adquate sajoute un problme dj mentionn en 4.3.2.1 : adjoindre de nouvelles
rubriques entrane une multiplication des smes du smme.
Un autre mode de pondration creuser sappuierait sur la position dans la dfinition. Par position,
on peut entendre position linaire (nime mot de la dfinition, ou encore mot prsent dans la k
ime

fraction) ou position syntaxique. Une telle pondration peut parat prometteuse. Cependant, elle
soulve de nouveaux obstacles : comment pondrer ? Par dcroissance linaire, logarithmique,
exponentielle ? Une fois lordre syntaxique dtermin, quelles rgles appliquer ? Le choix dun
modle appropri mriterait une rflexion soigne, que certaines tudes linguistiques permettent dj
dalimenter.
35
4.4) Traitements mathmatiques
4.4.1) Matrice du corpus : du nombre doccurrences la significativit
des cooccurrences
4.4.1.1) Point de dpart : dcompte des occurrences
Les briques de base qui permettent de faire le passage des traits smantiques, donnes qualitatives,
une reprsentation quantitative sont les suivantes :
- la prsence / absence (indicateur 1 / 0)
- le nombre doccurrences, cest--dire le nombre dapparitions dun trait smantique ; il peut tre
absolu (sur lensemble du corpus) ou relatif (par unit de dcoupage)
- le cardinal du corpus (en traits smantiques)
- le cardinal de chaque sous-unit du corpus
- le nombre de sous-units


Ces lments permettent de gnrer une matrice
doccurrences. Cette matrice a pour lignes les traits smantiques
du corpus, pour colonnes les sous-units du corpus et pour
entres le nombre doccurrences dun trait smantique dans une
sous-unit du corpus.


Lindicateur choisi, savoir le nombre doccurrences,
pourrait tre affect dune pondration comme indiqu en partie
4.3, mais le choix effectu en accord avec mon quipe de travail
a t de dmarrer la rflexion et les exprimentations avec un
corpus le plus simple et le plus robuste possible, affiner et
complexifier dans des dveloppements ultrieurs.

15 0 0 3 2 7 0 9
3 2 5 8 6 10 5 1
4 0 1 ...
...
0
0
6 14 26 ...
0 2 7 ...
coiffure
matire
forme
fruit
vgtal
petit
abeille













s
o
u
s
-
u
n
i
t

1
s
o
u
s
-
u
n
i
t

2
s
o
u
s
-
u
n
i
t

3
s
o
u
s
-
u
n
i
t

n
nbdoccurrences du sme
/matire/ dans la fentre 3
6444447444448
matrice doccurrences
15 0 0 3 2 7 0 9
3 2 5 8 6 10 5 1
4 0 1 ...
...
0
0
6 14 26 ...
0 2 7 ...
coiffure
matire
forme
fruit
vgtal
petit
abeille













s
o
u
s
-
u
n
i
t

1
s
o
u
s
-
u
n
i
t

2
s
o
u
s
-
u
n
i
t

3
s
o
u
s
-
u
n
i
t

n
nbdoccurrences du sme
/matire/ dans la fentre 3
nbdoccurrences du sme
/matire/ dans la fentre 3
nbdoccurrences du sme
/matire/ dans la fentre 3
6444447444448
matrice doccurrences

4.4.1.2) Transformations matricielles
Ltape suivante consiste transformer la matrice doccurrences du corpus par diverses oprations.
Ces oprations doivent permettre dobserver les rsultats de phnomnes linguistiques de diffrents
types, dcrits ci-dessous. Elles ont deux vocations : gnrer des coefficients qui, lissue des
oprations, refltent la significativit des traits smantiques ; se ramener un espace de cooccurrences
et non plus doccurrences, dans lequel on considre les traits smantiques non plus relativement un
texte dcoup mais relativement eux-mmes. Ce deuxime objectif est troitement corrl avec la
notion de forme smantique : les traits smantiques sont considrs travers leurs relations et leurs
regroupements, et non plus de manire indpendante. Cette nouvelle structure, btie sur les
cooccurrences, est favorable aux jeux dchelle et favorise les expriences sur des cotextes varis.
4.4.1.2.1) Frquence et significativit : dans le sillage de Zipf
Le premier type de transformations effectues tente de reflter le principe suivant, exprim dans un
premier temps au niveau lexical, puis transposer au niveau infra-lexical : les mots trs frquents sont
peu significatifs ; les mots rares ont une forte significativit dans le cotexte proche mais sont inhibs
par leffet de masse plus grande chelle. Comme exemple, citons tre, 3
e
mot le plus frquent de la
langue franaise daprs le [Dictionnaire des frquences, 1971], et pouvoir, au 42
e
rang : lapport
smantique de tels termes sera, en rgle gnral, trs faible.
36
Soulignons que la loi de Zipf ne prend pas en compte tous les phnomnes, en particulier pour des
termes rares : la raret ou labsence dun terme peut tre dune extrme significativit. Daprs
lexemple de [Valette, 2006c], dans le corpus des 400 confrences du linguiste Gustave Guillaume, le
mot mcanisable napparat quune fois, alors que les drivs de mcanique sont extrmement
frquents. Or mcanisable est un nologisme invent dans le contexte cyberntique. Son absence
est en fait un moyen pour Gustave Guillaume de cacher ses sources quil ne cite dailleurs jamais. La
reprsentation simplificatrice voque ci-dessus a cependant t juge acceptable, au moins
temporairement, au sein de lquipe composantes transverses dans laquelle je travaille.
Puis lhypothse suivante a t faite : ce phnomne, observable au niveau lexical, se reproduit au
niveau infra-lexical, pour les traits smantiques.
Lallure dune courbe reprsentative de la significativit en fonction de la frquence dun trait
smantique pourrait donc tre une des deux suivantes :



Les lois auxquelles ce comportement gnral sapplique sont la loi de Zipf, la mthode tf-idf ou
encore lentropie, mentionnes au 3.2.1, lois dailleurs en relation les unes avec les autres. Dans les
expriences menes, la mthode tf-idf a t applique.
Quelques questions, non rsolues, mritent dtre mentionnes : cette loi est-elle valable toutes
les chelles ? Pour un dcoupage en paragraphes, doit-elle tre applique de manire inter- ou intra-
paragraphes ? Si elle nest plus valable partir dun certain seuil, quel est ce seuil ? Comment le
dterminer ?
4.4.1.2.2) Reprage de la surreprsentation et sous-reprsentation
Autre phnomne en jeu : le taux de prsence anormal, au sens statistique, dun trait smantique.
Plus prcisment, le nombre de cooccurrences observ entre deux traits smantiques (resp. le nombre
doccurrences dun trait dans un paragraphe donn) peut tre considr comme fruit du hasard ou
significatif, connaissant le nombre de cooccurrences total de chacun des traits (resp. le nombre
doccurrences total du trait et le nombre total de traits dans le paragraphe considr).
De manire plus formalise et dans une optique statistique, nous pourrions reformuler cette
assertion ainsi : considrons deux traits smantiques. Sous lhypothse H0 dindpendance de 2 traits
(resp. du trait et du paragraphe), la probabilit que le nombre de cooccurrences (resp. occurrences) soit
dans lintervalle [a, b] est de n%. Si le nombre de cooccurrences (resp. occurrences) est hors de cet
intervalle, la cooccurrence est considre comme significative, les traits sont donc corrls.
Le reprage de cooccurrences significatives sappuie donc sur des mthodes statistiques dont
lobjectif est de quantifier la significativit. Les mthodes repres correspondant cette dmarche
sont celle employe par [Victorri, 2005] qui sinspire de la mthode du et celle employe par
Mauceri reposant sur le test de Fisher, avec la formule de filtrage des cooccurrences significatives. La
mthode mise en uvre dans les expriences est semblable celle employe par Victorri, bien que
celle de Mauceri mrite galement dtre implmente. Faute du temps ncessaire, seule celle de
Victorri a t applique.
4.4.1.2.3) Psycho-linguistique et gestion de la multiplicit de sens
La troisime ligne de force des applications mathmatiques choisies repose sur des critres psycho-
linguistiques. Sommairement, le principe est le suivant : lesprit humain ne peut grer une trop grande
frquence
frquence
significativit significativit
37
multiplicit smantique, il se ramne donc de grandes lignes, quon peut concevoir comme des
directions principales sur lesquelles il projette le reste. Cette formulation est certes schmatique et ne
prtend donner quune approche grossire du problme
Une approche plus mathmatique consiste se reprsenter les traits smantiques comme un espace
multidimensionnel. Une projection est alors effectue selon certains axes, en loccurrence les axes
principaux, partir de lensemble des donnes disponibles.
Les travaux mathmatiques dans la veine de cette conception sont lanalyse par composantes
principales et lanalyse smantique latente (LSA) qui dcoule de lACP. La transformation
mathmatique applique dans les expriences a tent de reproduire les oprations mathmatiques
pratiques pour LSA.
4.4.1.2.4) Des occurrences aux cooccurrences
Une autre tape dans les transformations mathmatiques consiste passer dune matrice
doccurrences, qui reflte la prsence ou le poids des traits smantiques en fonction de leur sous-unit
de corpus dapparition, une matrice de cooccurrences, o les poids ou prsence des traits
smantiques sexpriment en fonction des autres traits smantiques.
Cette transformation permet de saffranchir du dcoupage et dappliquer dautres dcoupages. Elle
est indispensable, ou du moins dun grand secours pour passer dobservations globales des
observations locales. Signalons cependant que les informations apportes par le dcoupage du corpus
ne sont pas compltement perdues : elles seront en partie contenues dans les coefficients de la nouvelle
matrice, bien quil y ait tout de mme perte dinformation. La gnration dune matrice de
cooccurrences rpond galement une autre logique : la comparaison de traits smantiques. Par cette
transformation, les traits smantiques sont ramens les uns aux autres. Ajoutons un autre lment : un
trait smantique peut tre vu comme un lment affect dun poids propre, li sa seule prsence, et
dun poids de cooccurrence, li la prsence des traits smantiques avec lesquels il apparat. Voici une
reprsentation image du phnomne en jeu : les traits smantiques peuvent tre considrs comme
des atomes de masse ou dimension variables (leur significativit propre) et sont relis deux deux
tous les autres traits smantiques par des liaisons de force variable (la significativit de cooccurrence).
grain
jaune
utricule
anthre
petit
contenir
significativitpropre
significativitde
cooccurrences
grain
jaune
utricule
anthre
petit
contenir
significativitpropre
significativitde
cooccurrences


Diffrentes transformations peuvent tre appliques pour obtenir la matrice de cooccurrences. Pour
apprhender les oprations effectues, reprsentons-nous la matrice doccurrences comme un
ensemble de vecteurs (les lignes) dans lespace p dimensions des sous-units du corpus (paragraphes
en loccurrence), p tant le nombre de sous-units. Les transformations possibles sont :
- la multiplication de la matrice doccurrences par sa transpose : le coefficient (i,j) de la nouvelle
matrice correspond au produit scalaire entre le vecteur ligne (trait smantique) i et le vecteur ligne
(trait smantique) j. Intuitivement, cela signifie que le poids de cooccurrences de deux trait crot avec
la significativit de chaque trait et avec la similarit de distribution (diminution de langle entre les
deux vecteurs).
- par calcul du cosinus entre deux lignes (coefficient en position (i,j) : cosinus entre les vecteurs des
lignes i et j de la matrice doccurrences) : dans ce cas, la norme des vecteurs (significativit totale) ne
joue plus, seul compte la similarit de distribution des smes, autrement dit langle entre vecteurs.
Lintrt du cosinus est que ses valeurs sont comprise entre -1 et 1, ce qui facilite linterprtation, plus
intuitive.
38
- par tout autre mesure de distance entre deux vecteurs, effectue sur tous les couples (i,j) de
vecteurs-lignes de la matrice doccurrences.

Se ramener dune distance un poids, coefficient daffinit ou encore de significativit, est ais :
prendre linverse de la distance (en traitant le cas du zro) ou, dans le cas dune fonction borne en
valeur absolue par M, retrancher M la distance sont des solutions relativement triviales.
Le produit de la matrice par sa transpose et le cosinus ont t appliqus dans les expriences.
Lexploitation dautres mesures reste une voie explorer.
4.4.1.2.5) Ordre dapplication des transformations
Les diffrents modles prsents ont tous leur cohrence et peuvent mme paratre
complmentaires. Cependant, si lon choisit dappliquer plusieurs transformations, dans quel ordre
appliquer celles-ci ? En effet, ces transformations ne sont pas commutatives et imposent de se
reprsenter la manire dont les traits smantiques sont affects par les transformations.
Lexercice daller-retour entre plan mathmatique et plan linguistique a constitu un obstacle rel,
attaqu mais non surmont. Plutt que de chercher obtenir une vision thorique limpide avant
deffectuer les expriences, jai choisi de mappuyer sur les expriences pour quelles confortent ou
guident les intuitions thoriques. Le choix de la bonne transformation sest appuy sur diffrents essais
o seule la succession de transformations variait, puis sur une analyse comparative des diffrents
rsultats obtenus.
Les cas de figure possibles sont lapplication successive des transformations mathmatiques
(composition de fonctions) ou application spare des transformations (application de fonctions
diffrentes la matrice de dpart) puis synthse des diffrents rsultats obtenus (fonction de plusieurs
matrices). Dans les expriences menes, la composition sest borne deux, au maximum trois
fonctions, la dernire tant, sauf dans un cas le passage de la matrice doccurrences ou de
cooccurrences (produit de la matrice par sa transpose ou cosinus). Les combinaisons de
transformations appliques sont dtailles en partie exprience (voir 5.2.2).
4.4.1.2.6) Interprtation du produit final
La matrice finale est une matrice symtrique, dont les lignes et les colonnes correspondent aux
traits smantiques du corpus. Les coefficients de la matrice sont les poids de significativit affects
une paire de traits smantiques. Lensemble de la matrice est une reprsentation mathmatique du
corpus, une vision globale (cest--dire lchelle du corpus) des units smantiques et de leurs
interactions.
4.4.2) Du global au local : reprsentation du mot et de son cotexte
Une fois la reprsentation globale obtenue, nous souhaitons nous ramener une tude locale : celle
dun mot dans un cotexte proche.
4.4.2.1) Le mot
La reprsentation du mot seffectue travers son smme. Ce smme peut tre considr comme
un espace smantique n dimensions, o n est le nombre de smes composant le smme. Par
exemple, le mot pollen, compos de dix-huit traits smantiques, peut se voir comme un espace dix-
huit dimensions : la dimension jaune, la dimension grain, la dimension poussire,

39
j
a
u
n
e
grain
p
o
u
s
s
i

r
e
j
a
u
n
e
grain
p
o
u
s
s
i

r
e

c
l
a
i
r
e
r
b
l
b
a
l
a
i
a
rtifice

c
l
a
i
r
e
r
b
l
b
a
l
a
i
a
rtifice
g
r
i
s
a
i
r
abeille
trange
p
a
r
t
i
r
m
a
n
g
e
r
g
r
i
s
a
i
r
abeille
trange
p
a
r
t
i
r
m
a
n
g
e
r
j
a
u
n
e
grain
p
o
u
s
s
i

r
e
j
a
u
n
e
grain
p
o
u
s
s
i

r
e
espace des traits smantiques du mot espace des traits smantiques :
positionnement des traits du corpus

Les dimensions sont quivalentes, autrement dit lespace dans lequel on se place est isotrope dans
notre cas. En effet, seule compte la prsence / absence dans le smme. Un autre choix aurait pu tre
fait, par exemple daccorder la prsance aux smes prsents de manire multiple dans la dfinition,
ou ceux prsents en tte de dfinition. Un tel choix se serait traduit par une anisotropie de lespace.


Lespace du mot correspond un sous-espace de la
matrice reprsentative du corpus : il sagit de la projection
orthogonale de la matrice du corpus sur lespace des traits
smantiques du mot. Cette projection correspond une
slection de colonnes (les lignes auraient aussi convenu, la
matrice tant symtrique). Rappelons que les colonnes de
la matrice correspondent chacune un sme. Les colonnes
slectionnes sont celles qui correspondent aux smes
prsents dans le smme du mot de rfrence.

g
r
a
i
n
35 3 0 ... 2 7 0 9
3 28 5 6 10 5 1
0 5 42 ... 26 7
... ... ...
2 6
7 10
0 5 26 ...
9 1 7 ...
balai
air
poussire
balai
jaune
bl
grain













b
a
l
a
i
a
i
r
p
o
u
s
s
i

r
e

t
r
a
n
g
e
j
a
u
n
e
b
l

g
r
a
i
n
35 3 0 ... 2 7 0 9
3 28 5 6 10 5 1
0 5 42 ... 26 7
... ... ...
2 6
7 10
0 5 26 ...
9 1 7 ...
balai
air
poussire
balai
jaune
bl
grain













b
a
l
a
i
a
i
r
p
o
u
s
s
i

r
e

t
r
a
n
g
e
j
a
u
n
e
b
l

35 3 0 ... 2 7 0 9
3 28 5 6 10 5 1
0 5 42 ... 26 7
... ... ...
2 6
7 10
0 5 26 ...
9 1 7 ...
balai
air
poussire
balai
jaune
bl
grain













b
a
l
a
i
a
i
r
p
o
u
s
s
i

r
e

t
r
a
n
g
e
j
a
u
n
e
b
l

reprsentation matricielle de
la slection des traits du mot

4.4.2.2) Le cotexte
Lors de ltape prcdente, lensemble des lignes de la matrice corpus-mot correspondait un
ensemble de vecteurs dans lespace smantique du mot.
Pour se ramener au cotexte, le choix effectu est de ne garder que les vecteurs correspondant aux
traits smantiques prsents dans le cotexte. Au niveau matriciel, cette opration correspond la
slection dune sous-matrice de la matrice corpus-mot : la matrice cotexte-mot. Ses colonnes sont les
mmes que celles de la prcdente et ses lignes sont celles correspondant aux smes du cotexte. Pour
complter cette approche, reprenons la reprsentation atomique, avec des atomes-smes et des liens
entre toutes les paires datomes. La constitution de la matrice corpus-mot correspond une slection
de liens : seuls sont gards les liens entre les smes du mot et les autres smes du corpus. La slection
du cotexte revient supprimer les liens avec tous les atomes-smes diffrents des smes du cotexte.
Revenons enfin sur un problme mentionn en 4.2) au sujet de lunit de dfinition du cotexte.
Nous soulignions alors la possibilit de prendre un cotexte de taille quelconque, pourvu que cette
slection du cotexte se traduise au niveau mathmatique par une fonction refltant la structure du
cotexte. Dans notre cas, la fonction applique est une simple fonction crneau. Elle pourrait prendre
diffrentes formes, en particulier reflter le centrage sur le mot de rfrence.

40

M
1
0
M
1
0
droulement du texte
poids de cooccurrence
droulement du texte
poids de cooccurrence
14243
14243
contexte
contexte
Fonction crneau Autre fonction refltant le centrage sur le mot
M : mot de rfrence
41
V) Exprimentations

A la rflexion thorique sur les modles adquats a succd une phase pratique, avec mise en place
dun outil exprimental (programme en J ava). Cette phase pratique a consist en la dtermination et la
ralisation dune srie de tests en fonction des objectifs fixs et des contraintes techniques, puis
analyse des rsultats obtenus.
5.1) Automatisation des transformations : programmation en Java
5.1.2) Architecture
Le programme informatique prend en entre trois fichiers gnrs par le programme Smy : un
fichier correspondant aux traits smantiques du corpus dcoup en sous-units et leur distribution ; un
fichier correspondant aux traits smantiques du cotexte ; un fichier correspondant aux traits
smantiques du mot. Il gnre une matrice doccurrences du corpus dont les lignes sont associes des
traits smantiques et les colonnes aux units de dcoupage, il effectue diffrentes transformations
mathmatiques (voir partie 4.4) sur cette matrice, en extrait limage du mot puis du cotexte et retourne
de fichiers contenant les rsultats obtenus ainsi que des fichiers contenant toute linformation sur les
objets crs. Le schma suivant illustre le fonctionnement de ce programme et sera suivi
dexplications plus dtailles :

0 0 0 0 1 0 0 0 0 1
0 2 1 3 1 0 2 1 3 1
billet,NOM billeton,NOM billet,NOM billeton,NOM
pouvoir pouvoir

objets SemEtDistri
fichier du corpus produit par Smy

1 0 0 0 0
0 0 1 0 0
0 0 2 1 1
1 0 0 0 0
0 0 0 1 0
0 0 0 0 0
0 0 0 1 0
0 1 0 0 0
1 3 1 2 0














1 0 0 0 0
0 0 1 0 0
0 0 2 1 1
1 0 0 0 0
0 0 0 1 0
0 0 0 0 0
0 0 0 1 0
0 1 0 0 0
1 3 1 2 0














objet Matrice
matrice srialise
table srialise
srialisation
rcupration
de la matrice
srialisation
exportation
sous forme de
fichier texte
matrice doccurrences
constitution de la
table de hachage

42
1 0 0 1 0 0 0 0 1
0 1 2 0 0 0 0 0 1
0 2 4 0 1 0 1 0 4
1 0 0 1 0 0 0 0 1
0 0 1 0 1 0 1 0 2
0 0 0 0 0 0 0 0 0
0 0 1 0 1 0 1 0 2
0 0 0 0 0 0 0 1 3
1 1 4 1 2 0 2 3 15














1 0 0 1 0 0 0 0 1
0 1 2 0 0 0 0 0 1
0 2 4 0 1 0 1 0 4
1 0 0 1 0 0 0 0 1
0 0 1 0 1 0 1 0 2
0 0 0 0 0 0 0 0 0
0 0 1 0 1 0 1 0 2
0 0 0 0 0 0 0 1 3
1 1 4 1 2 0 2 3 15














matrice srialise
table srialise
remplacement
de la
distribution
dans la table
de hachage
srialisation
exportation
sous forme de
fichier texte
srialisation
oprations matricielles
matrice de cooccurrences

slection de lignes
88
66
44
1 0 0 1 0 0 0 0 1
0 1 2 0 0 0 0 0 1
0 2 4 0 1 0 1 0 4
1 0 0 1 0 0 0 0 1
0 0 1 0 1 0 1 0 2
0 0 0 0 0 0 0 0 0
0 0 1 0 1 0 1 0 2
0 0 0 0 0 0 0 1 3
1 1 4 1 2 0 2 3 15














33
slection de colonnes

fichier du mot de rfrence


fichier du contexte produit par Smy
0
0
1





matrice contexte-mot
matrice srialise
exportation
sous forme de
fichier texte
srialisation
0
0
1







Pour chaque ligne du fichier des traits smantiques du corpus, le programme cre, partir dune
classe spcifique (SemEtDistri), un objet qui contient deux informations : la famille de traits
smantiques, stocke dans une liste de type ArrayList, et la distribution, stocke dans un tableau p
colonnes, o p est le nombre de sous-units du corpus.
Il gnre ensuite une table de hachage, cest--dire une structure qui relie deux types dobjets : les
valeurs et les cls par lesquelles on accde aux valeurs. Dans notre cas, les cls sont les indices des
traits smantiques et correspondront par la suite aux indices de ligne des matrices ; les valeurs sont les
objets SemEtDistri.
A la table de hachage est ensuite associ un objet Matrice. Le vecteur de la (i+1)
me
ligne correspond
la distribution (tableau comportant le nombre doccurrences) de la famille de smes dindice i.
Diffrentes mthodes sont ensuite appliques aux matrices, chacune correspondant une
transformation mathmatique (tf-idf, LSA, transformation inspire du semblable celle de Victorri,
produit de la matrice par sa transpose ou matrice des cosinus entre vecteurs-lignes). A lissue des
transformations, une nouvelle table de hachage du corpus est cre avec les mmes cls et traits
smantiques, ainsi que les nouvelles distributions.

Dans un deuxime temps, le mot de rfrence est recherch dans la table de hachage du corpus.
Pour ce faire, le programme utilise les traits smantiques du mot de rfrence tudi et les recherche
dans la table du corpus.
Il rcupre ensuite dans la table du corpus les indices de lignes des traits identifis. A partir de cette
liste dindices, le programme extrait les colonnes correspondantes de la matrice et obtient ainsi la
matrice corpus-mot. Il effectue ensuite une opration similaire partir du cotexte : utilisation des traits
smantiques vhiculs par les mots du cotexte du mot de rfrence. Mais cette fois, le programme
slectionne les lignes et non les colonnes de la matrice corpus-mot.

43
Il exporte enfin les donnes de la matrice obtenue dans un fichier au format txt.

Ajoutons que les matrices et tables de hachage sont, chaque transformation, stockes sous forme
srialise, cest--dire dans des fichiers contenant lensemble des informations permettant de les
reconstituer.
5.1.2) Justification des choix effectus
Quelques explications sur les choix de programmation simposent.
J ai hsit sur le langage de programmation. Deux alternatives soffraient : programmation en J ava
ou programmation en Python. Rappelons que le programme Smy est crit en Python, donc que ce
langage aurait permis dintgrer les classes de Smy celles de mon programme. Cependant, je
navais aucune base en Python. Linitiation un nouveau langage aurait certes pu tre trs formatrice,
mais risquait de seffectuer au dtriment de lefficacit. J ai donc prfr J ava et jai ainsi pu y
approfondir mes connaissances. La communication entre Python et J ava reste au demeurant toujours
ralisable, grce J ython, un interprteur de Python crit en J ava.

Le nombre de classes dont je dispose est rduit. En effet, une multiplication des classes disponibles
implique une multiplication des objets crs et stocks en mmoire. Or le manque despace mmoire a
t un problme crucial, do le choix effectu.
La classe Matrice a t btie partir dun package J ava de classes matricielles, disponible ladresse
http://math.nist.gov/javanumerics/jama/. Ce package permet de crer un objet Matrix partir dun
tableau de valeurs et deffectuer les oprations de base (addition, soustraction,) ainsi que certaines
oprations plus compliques, comme la dcomposition en valeurs singulires, indispensable dans LSA.
Ma classe Matrice reprend un certain nombre des fonctionnalits du package J ama et enrichit celui-ci
de mthodes spcifiques aux transformations que je souhaite effectuer : oprations matricielles
permettant de raliser tf-idf, LSA, de calculer des cosinus entre vecteurs-lignes, la matrice des
cooccurrences ou les valeurs thoriques du test du . A lorigine, ma classe Matrice hritait donc de la
classe Matrix du package J ama, mais pour des raisons de mmoire (cration dobjets Matrix
intermdiaires consommateurs despace), jai dupliqu les lments de Matrix qui paraissaient utiles
dans Matrice, devenue indpendante du package J ama.

Les tables de hachage ont t introduites pour faire le pont entre les lignes de la matrice et les traits
smantiques auxquels elles correspondent. En effet, pour manipuler les objets de type Matrice, il faut
disposer dune indexation chiffre des lignes, alors que lanalyse des rsultats impose didentifier les
traits smantiques correspondant chaque ligne.
La srialisation des matrices ou tables de hachage prsente un double avantage. Dune part, les
paramtres faire varier et donc les combinaisons des oprations raliser sont nombreux. Or
certaines oprations sont coteuses en temps. La srialisation dobjets intermdiaires permet ensuite
de repartir du stade intermdiaire correspondant pour faire en suite varier les paramtres souhaits. Par
exemple, lextraction de limage de n cotextes diffrents de la matrice de cooccurrences pourra
soprer partir de cette matrice sans quil soit ncessaire deffectuer toutes les tapes pralables
chaque fois. Ajoutons que la srialisation constitue une forme de sauvegarde des rsultats et vite de
perdre tous les rsultats antrieurs en cas de problmes dans les dernires tapes. Dautre part, cette
srialisation vite la multiplication des objets stocks en mmoire et permet donc de remdier
certains problmes despace mmoire. Par exemple, supposons que lon souhaite gnrer trois
matrices de cooccurrences, une partir dune transformation tf-idf, une partir dune transformation
de type LSA et une sans aucune transformation, puis que lon veuille slectionner dans chacune de ces
matrices la reprsentation du mot et de son cotexte. Lespace mmoire occup est peu prs le triple
de celui consomm par une seule matrice. La srialisation, mise zro temporaire puis dsrialisation
des matrices non utilises permet de grer la surconsommation despace mmoire. Soulignons
toutefois que la srialisation et dsrialisation des objets adapts pour chaque transformation
impliquent plus de manipulations et compliquent donc la gestion du programme. Cette solution est
acceptable dans un premier temps, phase exprimentale o prime la gnration de donnes, mais
44
ncessite dtre rvise pour permettre nimporte quel utilisateur de se servir facilement du
programme.

Enfin, la cration de fichiers de donnes au format texte ou csv en sortie ouvre la porte
lexploitation des rsultats par dautres logiciels, qui souvent prennent en entre des fichiers ces
formats-l. Ce sera par exemple le cas du logiciel PermutMatrix utilis pour lanalyse des donnes et
dcrit au paragraphe 5.3.1.
5.1.3) Limites et difficults rencontres
Le principal problme rencontr est celui de la mmoire. En effet, ds que le nombre de traits
smantiques et nombre de sous-units du corpus devient consquent, les matrices et tables de hachages
deviennent des objets particulirement volumineux au niveau de la mmoire. Ainsi, pour un corpus
contenant plus de 8000 traits smantiques, le fichier de la matrice srialise des cooccurrences
(matrice de dimension suprieure 8000 sur 8000) ou celui de sa table de hachage fait une taille de
plus dun demi Gigaoctet. Sur des machines disposant de 2 Gigaoctets de RAM, le seuil de capacit
est rapidement atteint avec quelques objets de ce type.
Ce problme de mmoire a ncessit des adaptations du programme informatique (pas dhritage de la
classe Matrix, srialisations, fragmentation du contenu du main, ). Malgr ces adaptations, le
programme na pu traiter des corpus au-del dune certaine taille. Deux critres dterminent le seuil
limite : le nombre de traits smantiques et le nombre dunits de dcoupage du corpus dorigine.
Quelques essais ont permis dtablir un seuil entre 8850 et 9000 traits smantiques pour 628 units de
dcoupage du corpus. Soulignons enfin que le seuil dtermin ne prend pas en compte un aspect :
lexportation des fichiers texte de la matrice de cooccurrences. Plus prcisment, la matrice de
cooccurrences peut tre calcule et srialise, donc il est possible davoir accs ses informations. En
revanche, le fichier texte qui permet de visualiser lensemble des rsultats est trop important pour tre
gnr. Ce problme nest pas fondamental puisque dune part la matrice de cooccurrences nest
jamais exploite directement mais travers des sous-matrices, dautre part lexportation de sous-
matrices de la matrice de cooccurrences fonctionne et pourrait permettre, moyennant quelques lignes
de code supplmentaires, de reconstituer la matrice dorigine si laccs celle-ci devait savrer
ncessaire.

Autre problme mentionner : la lenteur du programme, problme croissant avec la taille du
corpus. Pour y remdier, une phase doptimisation a t ncessaire, avec par exemple reprise des
boucles for, de lemplacement o les objets taient crs et surtout changement au niveau du
traitement des entres et sorties. Le changement principal repose sur lintroduction dlments
bufferiss pour lcriture (objet StringBuilder) et la lecture de fichiers. La rapidit du programme a
ainsi pu tre fortement accrue.
5.2) Paramtres des tests effectus
5.2.1) Les supports de rfrence
Les tests effectus se sont appuys sur un corpus constitu de six contes extraits de Wikisource :
- George Sand, La fe poussire : une fe, apparemment pauvre petite vieille et dans ce conte
allgorie de la poussire, emmne la narratrice dans son palais et lui fait voir ses richesses
ainsi que les rouages de cration du monde quelle y met en uvre
- Charles Renel, La Race inconnue lenfant dargile : conte africain sur une femme strile qui
fait croire son village quelle a accouch de jumeaux, dont un est fils dun esprit protecteur
- Ernest du Laurens de la Barre, Fantmes bretons les poires dor : une famille possde un
poirier produisant des poires en or qui, une fois prtes tre cueillies, se font toujours voler,
elle dcouvre que le voleur est un ogre ; un des fils de la famille part rclamer les poires
voles auprs de logre, finit par tuer celui-ci et pouser sa fille
45
- Hans Christian Andersen, Une rose de la tombe dHomre : conte sur lamour malheureux
dun rossignol pour une rose et leur destin tragique
- Madame dAulnoy, Le nain jaune : un vil nain jaune se fait promettre en pouse une belle
princesse qui trahit la promesse, se donne en mariage un roi et se fait enlever par le nain
- J acob et Wilhelm Grimm, Hnsel et Gretel : deux enfants pauvres, un frre et une sur, sont
abandonns par leurs parents dans la fort, aboutissent chez une sorcire qui veut dvorer le
frre, parviennent liminer celle-ci et retourner chez eux chargs de richesses.
Ces contes ont t rdigs par six auteurs diffrents. Ils reprennent un certain nombre dlments
traditionnels des contes, comme les personnages royaux (belle princesse, reine, roi), les cratures
merveilleuses (nain, gant, fe, sorcire), les palais et chteaux, le thme de la magie, de la richesse,
de la pauvret, de lamour, de la bravoure ou encore de la fcondit. Mais ils balayent un vaste champ,
varient les approches et comportent une richesse thmatique et lexicale suffisante. Le dcoupage
dorigine, en paragraphes, a t conserv comme dcoupage de rfrence au cours des
exprimentations. Le corpus comporte 240 units de dcoupage, 20324 occurrences de mots
(approximativement 28 pages en taille 12, police Times New Roman dans un diteur de textes) et
8467 traits smantiques diffrents (ou famille de traits smantiques).

La liste suivante comporte les mots de rfrence tudis. Le choix des mots sest port sur des
noms concrets, au smme diversifi, cest--dire compos dunits smantiques trs diffrentes et
susceptibles dtre actives ou inhibes selon des cotextes particuliers.
pollen, de taille 18 (taille du smme en nombre de familles de traits smantiques, aprs
traitement effectu par Smy)
nacre, de taille 29
sable, de taille 34
clat, de taille 46
fer, de taille 74
or, de taille 91
rose, de taille 103 (fleur et couleur regroups)

A chaque mot ont t associs un quatre cotextes, centrs sur les mots et slectionns manuellement.
Les cotextes correspondent des paragraphes ou regroupements de phrases. La taille des cotextes
varie de 500 1654 traits smantiques. Ces cotextes sont disponibles en annexe 3.

Un autre corpus a t gnr partir de la base de textes Frantext. Il est constitu dextraits de
romans de quatre auteurs du XIXe et XXe sicle :
- Marcel Proust, A la recherche du temps perdu Sodome et Gomhorre
- Maurice Genevoix, La bote pche
- J ean Giraudoux, Suzanne et le Pacifique
- Maurice Schreiber, Un silence denviron une demi-heure
Ce corpus est centr sur pollen, avec 26 cotextes dapparition de ce mot. Lexploitation de ce
corpus na pu tre mene bien pour des raisons despace mmoire : le corpus contient plus de 12000
traits, ce qui excde largement le seuil limite. Un travail dlagage des textes permettrait dobtenir une
taille adapte. La priorit a cependant t donne au corpus de contes, dont les pistes dexploitation se
sont avres particulirement riches et prioritaires sur des tudes comparatives entre les deux corpus
mentionns ou de nouvelles tudes exclusivement sur le corpus de Frantext.
5.2.2) Oprations mathmatiques appliques
A mot et cotexte fix, diffrentes transformations mathmatiques ont t appliques, afin de
comparer leurs effets et dterminer lesquelles seraient les plus appropries selon les observations
faire (activation et inhibition de traits smantiques, structuration du smme). Le schma ci-dessous
retranscrit les combinaisons de transformations effectues :
46
matrice doccurrences
tf-idf
mthode adapte de LSA
paramtre : nombre de valeurs diagonales
conserves dans la matrice diagonale de la
dcomposition en valeurs singulires
mthode adapte
du test du
produit scalaire entre vecteurs lignes
(produit de la matrice courante par sa transpose)
cosinus entre
vecteurs lignes
mthode adapte du
test du
(si non applique avant)
matrices de cooccurrences significatives
matrices doccurrences significatives


La mthode adapte du reprend les calculs mis en uvre par [Victorri, 2005, p. 119], un
changement prs : au lieu dappliquer une fonction linaire par morceau au rapport
ij
ij
m
n
du rapport de
la valeur thorique sur la valeur moyenne, je lai applique au rapport inverse
ij
ij
n
m
. En effet, la formule
propose ne paraissait pas cohrente avec le rle de la fonction ni avec le tableau de rsultats [Victorri,
2005, p. 120 Tableau 3.2]. Celle-ci doit mesurer un degr daffinit entre deux mots, dautant plus
important que la valeur relle est suprieure la valeur thorique. Par mesure de prcaution, jai
galement effectu quelques expriences avec la fonction applique au rapport
ij
ij
m
n
.
La mthode adapte du a t applique deux niveaux diffrents : dans un cas avant le calcul de
la matrice de cooccurrences, dans le second cas aprs celle-ci. Les perspectives sont diffrentes dans
chaque cas. Lorsque la mthode est applique avant calcul de la matrice de cooccurrences, on effectue
un filtrage par rapport la rpartition des traits smantiques par paragraphe. Un trait smantique sera
considr comme significatif, et affect dun coefficient refltant cette significativit, sil est
surreprsent par rapport une distribution quiprobable par paragraphe. La constitution de la matrice
de cooccurrences revient considrer que les traits smantiques qui sont surreprsents ou sous-
reprsents dans les mmes paragraphes ont un fort degr daffinit. Lautre cas de figure reprend la
mme approche que [Mauceri, 2007] puisquil effectue un filtrage sur la matrice de cooccurrences, en
aval de la chane de transformations. Un degr daffinit entre deux traits smantiques est significatif
sil est suprieur un degr daffinit thorique. Celui-ci est obtenu sous hypothse dquirpartition
des affinits des traits ou encore dindpendance des traits smantiques en termes daffinit.

La mthode adapte de LSA reprend la partie centrale des oprations effectues dans LSA, savoir
la dcomposition en valeurs singulires et la mise 0 dun certain nombre de coefficients diagonaux
de la matrice diagonale obtenue lors de la dcomposition. Cette matrice diagonale est, dans
lexprience effectue sur les contes, de taille 240. Les expriences ont t menes pour 5, 10, 25 et 50
valeurs diagonales conserves leur valeur dorigine, les autres tant annules. La combinaison de tf-
idf et de la mthode adapte de LSA permet de se rapprocher du vritable modle utilis par LSA.
47
5.3) Tests et analyse des rsultats
5.3.1) Mthodes danalyse mathmatiques
5.3.1.1) Visualisation des matrices : logiciel PermutMatrix
PermutMatrix est un logiciel dvelopp par [Caraux & Pinloche, 2005] dans le cadre de la
bioinformatique. Il permet de visualiser et analyser de matrices. Il procde par ragencement des
lignes et colonnes de la matrice et sappuie sur diffrentes mthodes : des mthodes de classification
hirarchique et des mthodes de sriation. Jai utilis ce logiciel pour observer les smes du mot
activs et inhibs, jai donc privilgi les mthodes de sriation
Les mthodes de sriation partent de lhypothse quil existe un ordre quelles essayent de faire
merger. Elles reposent sur un critre optimiser. J ai choisi la mthode dite de positionnement
unidimensionnel pour mes applications, efficace lorsquil existe une structure 1D. J e cherchais
tablir les smes dominants et inhibs, cest--dire une relation du type la significativit du trait 1 est
suprieure celle du trait 4, elle-mme suprieure celle du trait 2, , donc dterminer une
structure unidimensionnelle entre les traits smantiques, do le choix de cette mthode. Sur le plan
mathmatique, elle part des coefficients dune matrice D de dissimilarit. Celle-ci contient en position
(i,j) la distance (euclidienne dans mon cas) entre la ligne (resp. colonne ) i et la ligne (resp. colonne) j
dans le cas dune optimisation selon les lignes (resp. colonnes). Le critre minimiser
est : ( ) ( ) ( ) ( ) ( )
2
, C d i i a i j =

, o est une permutation et a une constante


multiplicative de mise lchelle.

optimisation des
lignes et des
colonnes
matrice initiale matrice srie
optimisation des
lignes et des
colonnes
matrice initiale matrice srie


5.3.1.2) Analyse de moyennes et carts-types
J ai par ailleurs complt mes analyses par divers calculs de moyennes et carts-types, lorsque les
rsultats de PermutMatrix ne permettaient pas une interprtation immdiate ou lorsque certaines
conclusions tires mritaient dtre renforces par des observations complmentaires.
5.3.2) Tests raliss : observations des activations et inhibitions
Les rsultats gnrs par le programme J ava ouvraient la porte de nombreuses expriences et de
multiples axes dobservation. Les efforts se sont ports sur un petit ensemble daspects seulement et ne
recouvrent quune petite partie des pistes explorer dcrites dans ce rapport.

48
Une premire tentative a t effectue sur le corpus de Frantext, construit autour du pollen. Vingt-
six cotextes ont t slectionns et annots : trois personnes diffrentes ont dtermin quels traits du
smme de pollen taient activs selon les diffrents cotextes. Cette analyse humaine devait valider les
rsultats de lexprience. Celle-ci na pu tre mene bien car le corpus, de taille trop importante, a
rvl les problmes de mmoire, do la ncessit de construire le petit corpus de contes. Cependant,
la dmarche entreprise sur Frantext a t imite sur le corpus de contes, pour 13 cotextes : le reprage
des traits smantiques activs dans chaque cotexte a fait lobjet dune analyse humaine pralable.
Cette dmarche a t entreprise pour viter une dmarche inverse la validation des rsultats par
lanalyse humaine : il sagissait de comparer linfluence des diffrents paramtres et dtudier les
failles du modle, et non pas de tirer des conclusions sur les phnomnes linguistiques partir des
rsultats mathmatiques, dmarche qui ne peut tre effectue quaprs la premire, aprs tablissement
dun modle valide sur de petites expriences.

Les premires analyses portent sur linfluence des diffrentes transformations mathmatiques. Dans
un second temps, jai tudi linfluence des cotextes, sous lhypothse que la matrice cotexte-mot
contenait des informations dues la matrice corpus mot, mais que linfluence locale tait suffisante
pour faire merger des diffrences significatives dun cotexte lautre. Les observations faites ont
remis en cause cette hypothse et conditionn les expriences suivantes, constitues dabord de la
recherche de facteurs explicatifs, puis dune mthode pour observer les variations fines.
5.3.2.1) Analyse n1 : influence de la transformation mathmatique
La premire srie danalyses a pour but de faire merger les effets lis chaque transformation
mathmatique, mot et cotexte fixs. Nous avons dabord tudi lactivation et linhibition des traits
smantiques. Les observations faites portaient sur les traits smantiques dclat dans le cotexte n10
(voir annexe 3), or dans le cotexte n10, sable dans le cotexte n4 et pollen dans le cotexte n5.
Cooccurrences simples, sans autre transformation
Dans tous les exemples analyss, les familles de traits smantiques activs se regroupent en deux
catgories. La premire catgorie est constitue de familles morphologiques non pertinentes, dune
taille dmesure due dune part au regroupement de familles smantiquement distinctes qui auraient
d tre rparties dans plusieurs classes, dautre part la gnralit du sens port par les reprsentants
de chaque famille. La seconde catgorie est constitue de traits smantiquement faibles, de sens trs
gnral, comme /objet/ ou /faire/. A titre dillustration, voici la matrice de cooccurrences simples
du mot or obtenue par PermutMatrix aprs rorganisation optimale des colonnes :



Indice des 5 traits
activs (5 premires
colonnes)
Reprsentant de la famille morphologique Taille de la
famille
morphologique
40 reprsentant impossible identifier (trop de diversit) 859 lments
28 voir, -vis- -
61 prendre, entrer, produire, ouvrir 144 lments
49
44 faire -
74 forme, fond 182 lments


Les traits inhibs correspondent des termes rares en langue franaise, comme /anthre/ et
/utricule/, traits smantiques de pollen les plus inhibs de son smme, ou des traits inattendus
dans un corpus de contes, mais dont lapparition pourrait se justifier dans dautres corpus. Par exemple,
les traits smantiques /acide/, /ductile/, /atome/ ou /nickel/ renvoient aux proprits physiques
de lor, renvoient au domaine scientifique et font partie des smes les plus inhibs du mot or.

Labsence de transformation donne donc des rsultats satisfaisants au niveau des traits inhibs. En
revanche, il fait apparatre comme dominants des traits quon pourrait qualifier de traits
smantiquement faibles et qui devraient tre au contraire inhibs.
Mthode tf-id
La mthode tf-idf permet de restructurer le smme et surtout les traits dominants, point faible du
calcul des cooccurrences simples. Une grande partie des traits activs sont des traits smantiquement
forts, au contenu smantique riche. Soulignons que certains traits ne rpondent pas ces
caractristiques et sont des traits gnraux, comme /trs/ dans le smme de pollen.
Les smes inhibs sont peu prs les mmes que ceux obtenus sans transformation particulire,
auxquels sajoutent les familles dominantes de la matrice des cooccurrences simples, savoir les
familles trop grandes ou reprsentatives de traits-outils , cest--dire de termes extrmement
gnraux. La matrice obtenue par PermutMatrix sur le smme dor est un exemple type des
observations dcrites :




Indice des 10
traits dominants
(10 premires
colonnes)
Reprsentant de la
famille
morphologique
Indice des 10
traits les plus
inhibs (de la
droite vers la
gauche)
Reprsentant de la
famille
morphologique
65 eau 40 reprsentant
impossible identifier
(trop de diversit)
45 lumire 44 faire
36 mtal 61 prendre, entrer,
produire, ouvrir
20 reprsenter 28 voir, vis-
77 couleur 62 galon
26 chaud 11 inaltrable
83 argent 10 ppite
50
22 alli / alliance /
alliage
73 nickel
71 civil / civiliser 88 acide
31 utile / utiliser 53 talon

Les rsultats obtenus par la mthode tf-idf sont donc beaucoup plus probants que ceux obtenus sans
transformation. De plus, la mthode rpond aux attentes : elle inhibe les traits surreprsents tout en
conservant un faible poids pour les termes rares. La transposition de la mthode tf-idf des mots aux
traits smantiques apparat donc comme valide et efficace.
Mthode adapte de LSA
La mthode de type LSA (partie centrale de LSA, avec dcomposition en valeurs singulires et
projection sur les directions principales de la matrice diagonale) applique seule avant le calcul des
cooccurrences, respectivement aprs application de tf-idf, na pas donn de rsultats notablement
diffrents de ceux des cooccurrences simples (resp. de la mthode tf-idf). En effet, lallure gnrale de
la matrice finale obtenue par PermutMatrix est la mme avec ou sans la mthode de type LSA, ainsi
que la liste des smes activs, inhibs et lordre des colonnes les reprsentant. Signalons lune ou
lautre permutation mineure sur des paires de colonnes conscutives, quelquefois des triplets de
colonnes conscutives, mais rarement plus. Les matrices ci-dessous correspondent au smme de
sable dans le cotexte 3.

Calcul des cooccurrences sans LSA Calcul des cooccurrences avec LSA


Application de tf-idf puis calcul des
cooccurrences sans LSA
Application de tf-idf puis calcul des
cooccurrences avec LSA


Lobservation des moyennes des coefficients pour chaque trait smantique rejoint les constations
prcdentes : les moyennes ne sont pas significativement diffrentes. Lhistogramme ci-dessous
repsente les moyennes des coefficients de la matrice cotexte-mot pour sable dans le cotexte 4.
Lapplication de LSA fait suite celle de tf-idf.
51
0
50
100
150
200
250
300
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
moyenne par trait (LSA
appliqu)
moyenne par trait sans LSA

Influence de LSA : moyenne par trait du mot sable avec
transformation tf-idf
0
50
100
150
200
250
300
0 3 6 9
1
2
1
5
1
8
2
1
2
4
2
7
3
0
3
3
i ndi ce du trai t
m
o
y
e
n
n
e
moyenne par trait (LSA
appliqu)
moyenne par trait (sans LSA)

La mthode adapte de LSA fait donc apparatre des variations fines, mais insuffisantes pour
changer en profondeur la structure du smme. Ces rsultats ne sont cependant pas anormaux. Alors
que dans la mthode tf-idf, significativit et frquence avaient des sens de variation inverses au-del
dun certain seuil, LSA a en quelque sorte pour vocation de lisser les variations observes, non de les
restructurer compltement. Pour peu que le nuage de points soit allong le long des directions
principales, les changements apports par LSA seront minimes. Ltude des coefficients de la matrice
diagonale obtenue lors de la dcomposition en valeurs singulires permettrait une analyse plus fine des
rsultats.
Mthode adapte du (applique la matrice de cooccurrences)
Dans lexemple analys (clat dans le cotexte n10), la mthode adapte du donne des rsultats
satisfaisants concernant les familles de traits faible contenu smantique ou les familles de traits de
taille excessive, puisque ces familles se trouvent inhibes, comme la famille de /donner/, /faire/ ou
encore ladverbe /surtout/. En revanche, les traits smantiques rares, comme /touffe/ ou /tapage/
voient leur significativit relative remonter par rapport toutes les autres transformations et se situent
dans des positions centrales dominantes. Ainsi, les quelques observations sur la transformation
adapte du laissent entrevoir une capacit inhiber les traits non pertinents contenu smantique
trop gnral, mais laffectation dune trop forte significativit aux termes rares.
52
Calcul des cosinus
Tout comme pour la matrice de cooccurrences obtenue en multipliant la matrice doccurrences par
sa transpose, le calcul des cosinus fait merger comme traits dominants les familles de traits
smantiques de taille particulirement importante ou les traits faible contenu smantique (par
exemple, /tat/ ou /caractre/). Le calcul des cosinus semble mme encore moins adapt que le
calcul des cooccurrences simples pour faire merger les traits dominants et inhibs car certains traits
forte significativit sur le plan linguistique semblent plus inhibs par le calcul des cosinus. Ce
phnomne sexplique par le critre de calcul des coefficients de la mthode cosinus : seul compte
langle fait entre deux vecteurs lignes de traits smantiques, quel que soit la norme de ces vecteurs.
On perd totalement linformation sur la quantit doccurrences absolue, seule compte la similarit de
distribution des traits sur les diffrents paragraphes. Au vu des rsultats, on serait donc plutt incit
prendre le produit scalaire plutt que le cosinus entre vecteurs-lignes pour calculer des coefficients de
similarit, du moins sans transformation pralable. Ltude de linfluence du cosinus aprs tf-idf suivie
de la mthode adapte de LSA tmoigne galement en dfaveur du calcul du cosinus, avec une
remonte brutale de termes non pertinents auxquels tf-idf avait affect une faible significativit. Par
exemple, sur le mot clat dans le cotexte 10, considrons les deux familles suivantes, extraites du
smme :
famille de /faire/ : faillibilit,NOM refaonnement,NOM dfaitisme,NOM
redfaire,VERBE dfaitiste,ADJ fabrique,NOM affaireux,ADJ fabricatrice,NOM
prfabriqu,ADJ mfaire,VERBE refait,NOM fabrication,NOM refaiseuse,NOM
dfaitiste,NOM factieuse,NOM mfait,NOM faillir,VERBE dfaillance,NOM
faonnerie,NOM facturer,VERBE fautivement,ADV dfaillement,NOM faillite,NOM
faonnier,NOM dfaonner,VERBE falloir,VERBE dfaillir,VERBE fabricant,NOM
affaire,NOM refaiseur,NOM faillie,NOM prfabriqu,NOM affairiste,NOM
fabricateur,NOM dfait,ADJ fait,NOM faillible,ADJ factionnaire,NOM
facturation,NOM prfabrication,NOM refaire,VERBE rfection,NOM refaonner,VERBE
prfabriquer,VERBE fauter,VERBE parfaire,VERBE surfacturer,VERBE
refaonnage,NOM facture,NOM faction,NOM dfaillant,ADJ fabriquer,VERBE
faute,NOM failli,NOM faonnier,ADJ faon,NOM faire,NOM refabriquer,VERBE
factieux,NOM faonnage,NOM faire,VERBE malfaonn,ADJ dfaite,NOM
fabricante,NOM faonnire,NOM fabricien,NOM rfectionner,VERBE faonner,VERBE
failli,ADJ fautif,ADJ factionnaire,ADJ dfaire,VERBE refabrication,NOM dfaut,NOM
refaonneur,NOM surfacturation,NOM factieux,ADJ faonnement,NOM
famille de /prendre/, /ouvrir/, /poser/ et /produire/ (regroupement non pertinent car fusion
de plusieurs familles) : /1101/ : preneur,NOM entr'ouvrir,VERBE reproductibilit,NOM
dcomposant,ADJ reprocheur,ADJ productif,ADJ composant,ADJ reprsent,ADJ
produire,VERBE improduit,ADJ incomprhensiblement,ADV entrouvrir,VERBE
reproductivit,NOM mcomprendre,VERBE production,NOM rentr,NOM
entrance,NOM reprsentation,NOM surprise,NOM apprhendement,NOM
emprisonn,ADJ autoreproducteur,ADJ rentrayeur,NOM rentrant,NOM reprisage,NOM
mcomprhension,NOM reproductif,ADJ incomprhensible,ADJ apprsentation,NOM
prisonnier,NOM comprhension,NOM entr'ouvrement,NOM reproduire,VERBE
plexus,NOM reproductrice,NOM pris,ADJ sentimentaliste,NOM sentimentalit,NOM
surproduction,NOM entrouverture,NOM entreprise,NOM indcompos,ADJ
dprise,NOM reprographique,ADJ senti,NOM incomplexe,ADJ sentimentalisation,NOM
irreprsentable,ADJ rentrante,NOM incomprhensif,ADJ reproche,NOM
prisonnire,NOM rentrayeuse,NOM prsent,ADJ prison,NOM reprsente,NOM
prise,NOM reprsenter,VERBE prsenter,VERBE repriser,VERBE incompris,ADJ
dcomposer,VERBE reprise,NOM reprocher,VERBE prsence,NOM procs,NOM
comprhensible,ADJ reprsentante,NOM preneuse,NOM reproductivement,ADV
entrer,VERBE reprisable,ADJ rentrant,ADJ reprsentativit,NOM reprographier,VERBE
prendre,VERBE rentrage,NOM indcomposable,ADJ coproduction,NOM
dprendre,VERBE repriseur,ADJ reprochable,ADJ reprendre,VERBE imprenable,ADJ
53
composante,NOM prsentation,NOM reproductible,ADJ improductivement,FUNC
repriseuse,NOM coproduire,VERBE improductif,ADJ preneur,ADJ producteur,NOM
rprhension,NOM prhension,NOM reprsentable,ADJ senti,ADJ entrant,NOM
comprendre,VERBE reproduction,NOM rentrure,NOM entreprendre,VERBE
incomprhensibilit,NOM apprhension,NOM sentimentaliser,VERBE produit,ADJ
surproduit,NOM improductivit,NOM sentiment,NOM complexe,ADJ reprsent,NOM
reprsentatif,ADJ sentimental,ADJ prisonnier,ADJ produit,NOM reproducteur,ADJ
intercomprhension,NOM sentimentalisme,NOM entre,NOM rentre,NOM
sentir,VERBE emprisonner,VERBE dissentiment,NOM surproduire,VERBE
apprhender,VERBE rentrer,VERBE rentr,ADJ surreprsentation,NOM
apprsenter,VERBE entrant,ADJ prsent,NOM composant,NOM
reprsentativement,FUNC reproducteur,NOM incomprhension,NOM dcomposition,NOM
entrante,NOM entrepreneur,NOM emprisonnement,NOM surprendre,VERBE
apprhend,ADJ reprsentant,NOM reprographie,NOM dcomposable,ADJ

Ces familles sont prcisment celles auxquelles on souhaite affecter un faible coefficient de
significativit. Dans lapplication de tf-idf suivie de LSA et calcul de cooccurrences par produit
scalaire, ces deux familles sont inhibes, respectivement en 36
e
et 39
e
positions (classement des
colonnes rouges, traits forte significativit, vers les colonnes vertes, traits faible significativit)
pour un smme de 46 familles de traits. En revanche, lorsque le produit scalaire est remplac par un
calcul de cosinus, ces familles de traits se retrouvent respectivement en 5
e
et 1
re
positions.
Ritrer les expriences, relativement peu nombreuses sur le cosinus, permettrait dobtenir des
rsultats plus fiables. Cependant, les analyses ralises donnent penser que le cosinus nest pas la
mthode la plus pertinente pour faire merger la significativit.
5.3.2.2) Influence des cotextes
Analyse n1 : comparaison des cotextes par PermutMatrix et indicateurs de valeurs
centrales et dispersion
Les indicateurs utiliss, savoir PermutMatrix ou des calculs dindicateurs moyens et de dispersion,
font apparatre quelques diffrences entre cotextes mais trs faibles, quelle que soit la transformation.
En effet, les mmes plages de couleurs sont affectes aux mmes sries dindices de traits smantiques.
On peut observer des permutations entre rangs successifs, essentiellement sur 3 4 rangs et un peu
plus dans quelques cas rares. Ainsi, lagencement des traits reste dans son ensemble peu prs
identique. Lexemple ci-dessous correspond au mot sable dans les cotextes 2,3 et 4 pour la
transformation tf-idf suivie de LSA :
Cotexte 2

Cotexte 3
54

Cotexte 4


Les moyennes, quartiles et carts-types voluent prsentent galement la mme volution dun
cotexte lautre. Lexemple ci-dessous correspond lhistogramme comparatif des moyennes et
carts-types de sable dans les cotextes 2,3 et 4 pour la transformation tf-idf. Des rsultats
complmentaires sont disponibles en annexe (mdiane, quartiles), ainsi que la correspondance entre
indices et familles de traits smantiques (annexes 2 et 5).
Moyenne de sable dans les contextes 2, 3 et 4
0
50
100
150
200
250
300
0 2 4 6 8
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
indice du trai t
M
o
y
e
n
n
e
contexte 2
contexte 3
contexte 4

55
Ecart-type de sable pour les contextes 2, 3 et 4 (transformation tf-
idf)
0
20
40
60
80
100
120
0 2 4 6 8
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
indice des t rait s

c
a
r
t
-
t
y
p
e
contexte 2
contexte 3
contexte 4

Les diffrentes observations indiquent donc une similarit de comportement des traits smantiques
du mot de rfrence, aussi bien en moyenne quau niveau de leur dispersion. Cette similarit apparat
au niveau des distributions des traits du mot par rapport aux traits smantiques du cotexte et au niveau
de la structuration ou des relations entre traits smantiques du mot.

Nous pouvons avancer plusieurs hypothses.
Dabord, les phnomnes observs sont peut-tre lis aux cotextes dobservation choisis : ceux-ci
proviennent du corpus de contes et font la taille dun paragraphe : la taille trop importante du cotexte
par rapport celle du corpus (effet chantillon reprsentatif) et la nature du cotexte (cotextes issus du
corpus lui-mme) attnuent probablement les carts quon pourrait mesurer.
Une autre hypothse est que lcart-type dun vecteur-colonne de traits smantiques est faible par
rapport la moyenne, plus prcisment trop faible par rapport aux carts entre moyennes des
diffrentes colonnes pour faire voluer la distribution des valeurs de manire significative.
Lexprience n2 a pour but de vrifier cette hypothse.
Enfin, on peut supposer que la matrice corpus mot intgre les spcificits du corpus, comme le
dcoupage en sous-units. La simple slection dune sous-matrice, considrer comme une fonction
de projection ou encore une multiplication des coefficients par une indicatrice (valeur 1 si le trait est
prsent dans le cotexte, 0 sinon), ne comporte pas suffisamment dinformations spcifiques au cotexte.
La fonction applique est donc beaucoup trop grossire. Consquence de ce dernier point : pour des
observations mme vocation (observation des smes dominants et inhibs dans lensemble du
smme ; structuration des smes), la matrice cotexte mot peut tre considre comme reprsentative
de la matrice corpus mot. Autrement dit, lobservation locale est le reflet de linformation globale
apporte par le corpus. Ltude des variations fines requiert dautres outils danalyse, plus adapts.
Analyse n2 : effets de cotextes de taille et de nature diffrentes
Ces expriences se sont fondes sur des matrices cotexte mot construites sur le mot pollen et
plusieurs types de cotextes :
des cotextes constitus sur le corpus de Frantext. Dun cotexte lautre, les traits activs taient
trs diffrents : activation de /fconder/ chez Proust, /couleur/ chez Schreiber ou encore
/grain/ dans certains cotextes de Giraudoux.
des cotextes constitus dun seul mot : matrices pollen pollen, sable pollen, or pollen,
La premire srie de cotextes devait vrifier linfluence de la nature (genre dorigine, auteur dorigine)
du cotexte sur lagencement des mots. La deuxime srie de cotextes a servi vrifier si la taille des
cotextes (en nombre de traits smantiques) expliquait les rsultats prcdents.

56
Voici un exemple de trois matrices mot 1 pollen :


matrice pollen - pollen matrice sable pollen matrice nacre pollen
Liste des traits smantiques (familles de traits compltes : voir annexe 2) :

0 : fluide
1 : tre
2 : sac
3 : loge
4 : poussire
5 : produire
6 : membrane
7 : anthre
8 : trs
9 : petit
10 : fconder
11 : jaune
12 : contenir
13 : utricule
14 : grain
15 : fin
16 : gnralement
17 : microscopique

On observe que les plages de couleur semblent se rpartir de la mme manire dun cotexte lautre et
que les changements dordre sont mineurs, avec dcalage dun ou deux rangs. Les constatations faites
sur ces exemples particuliers correspondent aux observations sur lensemble des tests effectus, aussi
bien sur des cotextes tirs de Frantext que des cotextes rduits un seul mot.

Dans les deux cas, les rsultats ne permettent donc pas de relever de changement majeur
concernant lordre des traits smantiques et lmergence de traits dominants et inhibs. Seules des
variations mineures sont observables. Lexplication des faibles variations constates dans la premire
analyse ne tient donc pas la nature du cotexte, ni une taille trop importante. Cest pourquoi jai
explor la seconde voie dexplication mentionne au paragraphe prcdent : les valeurs des carts-
types par rapport aux carts entre moyennes.
Analyse n3 : explication de la faible influence des cotextes par lcart-type
Dans cette analyse, des calculs de moyennes et carts-types par trait smantique du mot, puis du
rapport cart-type sur moyenne, ont t effectus. Les expriences ont t menes sur le smme de
sable, pollen et rose partir de la matrice corpus-mot, sur les transformations cosinus, cooccurrences
simples (produit scalaire de vecteurs-lignes pour le calcul des cooccurrences), tf-idf et tf-idf suivie de
la mthode adapte de LSA avec 5 valeurs propres puis dun calcul de cosinus.

On observe dune transformation lautre des variations assez importantes des rapports carts-
types sur moyenne. Soulignons cependant quils sont assez importants, sauf dans le cas de tf-idf suivie
de LSA puis calcul des cosinus. Par exemple, les rapports sont proches de 1 (cart-type de lordre de la
moyenne) sur la matrice des cosinus de pollen, sable et rose, suprieurs 1,2 pour la transformation
tf-idf.

57
Une hypothse explicative de ce phnomne tient la spcificit des matrices. Dans de nombreux
cas, elles peuvent tre qualifies de matrices creuses. Or leffet des valeurs nulles dun vecteur sur sa
moyenne et son cart-type est non ngligeable. Considrons la srie de valeurs suivantes : {0 ; 48 ; 52 ;
0 ; 0}. Elle est de moyenne gale 20 et dcart-type gal 24,5. En revanche, la sous-liste compose
des coefficients non nuls prsente une moyenne de 50 et un cart-type de 2. Non seulement, la
prsence des zros baisse fortement la moyenne, mais encore elle contribue laugmentation de
lcart-type. Une nouvelle srie danalyse a donc t effectue sur les vecteurs des traits smantiques
du mot. Leur moyenne et cart-type a t calcul sur une sous-liste des coefficients, savoir les
coefficients non nuls des vecteurs de traits smantiques. Cependant, les rsultats observs nont pas t
significativement diffrents des prcdents. Limportance de lcart-type par rapport la moyenne de
chaque trait ne sexplique donc pas seulement par la prsence des 0 dans le vecteur.
On observe par ailleurs un autre phnomne assez remarquable, qui, peut-tre, ouvre sur une
explication du point prcdent : dans une reprsentation avec la moyenne en abscisse et lcart-type en
ordonne, le nuage de points des traits smantiques est de forme trs allonge, proche dune droite,
comme lillustrent les exemples ci-dessous, obtenus sur rose, sable et pollen :
Nuage de points correspondant aux traits smantiques de
rose: cart-type en fonction de la moyenne
0
20
40
60
80
100
120
0 20 40 60 80 100 120
moyenne

c
a
r
t
-
t
y
p
e



N u a g e d e p o i n t s c o r r e s p o n d a n t a u x t r a i t s s m a n t i q u e s d e
s a b l e : c a r t - t y p e e n f o n c t i o n d e l a m o y e n n e ( t r a n s f o r m a t i o n t f -
i d f )
0
2 0
4 0
6 0
8 0
1 0 0
0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 0 1 0 0
m o y e n n e
c
art
-
typ


58
Nuage de points correspondant aux traits smantiques de
pollen: cart-type en fonction de la moyenne (matrice des
cosinus)
0
0,05
0,1
0,15
0,2
0,25
0 0,05 0,1 0,15 0,2 0,25 0,3 0,35
moyenne

c
a
r
t
-
t
y
p
e
Srie1

Les conclusions, avances toutefois avec prudence, sont que les traits smantiques prsentent une
dispersion similaire. Il se pourrait que ce phnomne soit d lexistence de classes smantiques aux
comportements distincts (valeurs disperses) mais par rapport auxquels deux traits smantiques
volueront de la mme manire. Ces classes smantiques ne sont pas reprsentes par deux classes de
coefficients distinctes mais par des classes de coefficients chelonnes, ce qui expliquerait la faible
diffrence entre moyennes et carts-types calculs avec ou sans 0.
5.3.2.3) Analyse n4 : mesure des variations fines
Lobjectif de cette analyse est dtudier lvolution dun trait smantique donn pour une
transformation fixe dans diffrents cotextes et de dterminer si un cotexte lactive, linhibe, ou sil est
dans un tat neutre. Pour chaque cotexte, le vecteur-colonne correspondant au trait smantique
tudier est rcupr dans la matrice cotexte-mot. Dun cotexte lautre, les vecteurs nont pas la
mme taille, il est donc ncessaire, pour comparer, de synthtiser les informations contenues dans
chaque vecteur par un indicateur commun tous, la moyenne en loccurrence.

Les expriences ont t effectues sur des traits smantiques du mot rose : /rouge/, /beaut/,
/cur/, /parfum/, /amour/, /glise/, /instrument/ et /vivre/. Les matrices cotexte mot
provenant des cooccurrences simples et de tf-idf ont servi de support. Quatre cotextes diffrents ont
servi la comparaison, savoir les cotextes n6, 7, 8 et 9 disponibles en annexe.

Lindicateur choisi a dans un premier temps t la moyenne des coefficients du vecteur reprsentatif
du trait smantique. Cependant, une comparaison directe des moyennes implique le prsuppos
suivant : pour des tats dactivation similaires dans diffrents cotextes, les moyennes seront peu prs
gales. Or cette hypothse ne prend pas en compte la taille variable des vecteurs reprsentatifs des
traits smantiques. Rappelons que cette taille dpend du nombre de traits smantiques du cotexte.
Dans notre cas, les cotextes 6, 7, 8 et 9 avaient respectivement des tailles de 741, 1125, 500 et 568
traits smantiques.

Une comparaison rapide des carts relatifs aux quatre moyennes na rvl aucune relation triviale
entre lagencement relation triviale (par exemple de type linaire) entre taille du cotexte. Les
moyennes des cotextes 8 et 9 (plus petites tailles) sont globalement suprieures aux moyennes des
cotextes 6 et 7. Les rsultats d/instrument/ et /couleur/ refltent la tendance gnralement
observe. Nanmoins, lallure du nuage de points reprsentatif des moyennes peut varier de manire
importante dun trait smantique lautre. Il est difficile de savoir quelle est la part dinfluence de la
spcificit du cotexte sur le plan smantique et la part des biais dus par exemple la taille du cotexte.
59
Moyenne d' /instrument/ dans les contextes 6, 7, 8 et 9
205
210
215
220
225
230
0 200 400 600 800 1000 1200
tai l l e du contexte
m
o
y
e
n
n
e

Moyenne de /couleur/ dans les contextes 6, 7, 8 et 9
212
214
216
218
220
222
224
226
228
0 200 400 600 800 1000 1200
tai l l e du contexte
m
o
y
e
n
n
e


Moyenne de /rouge/ dans les contextes 6, 7, 8 et 9
170
175
180
185
190
195
200
205
0 200 400 600 800 1000 1200
tai l l e du contexte
m
o
y
e
n
n
e


La solution adopte consiste ramener toutes les moyennes une moyenne de rfrence, puis
effectuer les comparaisons. Ainsi, pour le cotexte 6 par exemple, la moyenne de tous les traits tudis
(/rouge/, /beaut/, /cur/, /parfum/, /amour/, /glise/, /instrument/ et /vivre/) est divise
par la moyenne d/glise/ dans le cotexte 6. Les moyennes ainsi pondres semblent donc
comparables puisque ramenes un rfrentiel commun. Le trait /glise/ a t choisi comme rfrent
en raison danalyses linguistiques pralables, avec identification de lactivation ou non des traits
60
smantiques de rose pour chaque cotexte. Daprs ces analyses, /glise/ ntait activ dans aucun des
quatre cotextes. Ce trait a donc t considr comme relativement neutre. Cette affirmation doit
cependant tre considre avec prcaution en raison de la subjectivit de linterprtation humaine en
gnral, ce qui renvoie la notion de parcours interprtatif.

Les rsultats obtenus sont disponibles en annexe. Le tableau ci-dessous fait le bilan des
observations sur la transformation tf-idf :
Trait smantique Conformit
lanalyse
linguistique
Explication de la non-conformit de certains rsultats
amour - Le trait apparat activ dans les cotextes 7, 8 et 9 et fortement inhib
dans le cotexte 6. Si lactivation pour les cotextes 8 et 9 se
comprend, lactivation dans le 7 et linhibition dans le 8 semblent
difficilement pertinents.
beaut oui
cur oui
couleur non En supprimant le rsultat sur le cotexte 8, lagencement des points
reprsentatifs des moyennes est conforme une analyse
linguistique : /couleur/ est fortement activ dans le cotexte 7 par
rapport au cotexte 6, dans lequel le trait est lui-mme plus activ que
dans le cotexte 9. La lecture des diffrents cotextes correspond ces
analyses. En revanche, la forte activation du trait dans le cotexte 8
est tonnante et apparat comme non pertinente.
parfum oui
rouge oui
vivre non
/vivre/ recouvre une notion trop gnrale et, parmi les traits
smantiquement pleins, est un trait faible contenu smantique, qui
se rapprocherait de la frontire avec le smantiquement vide.
instrument non
/instrument/ appartient une famille de traits smantiques
dfectueuse : celle-ci fusionne deux familles, celle d/installer/ et
d/instrument/. Le programme informatique et lanalyse
linguistique (faite uniquement partir d/instrument/) ne partent
donc pas sur les mmes bases et peuvent difficilement tre
conformes, dautant plus que /installer/ est un terme
particulirement gnral tandis qu/instrument/ est assez
spcifique.

Les rsultats ne sont donc pas tous conformes aux attentes, mais bon nombre de rsultats ngatifs
trouvent une explication cohrente. Les rsultats du test peuvent donc tre considrs comme
relativement probants. Des conclusions plus gnrales et robustes sur la validit du test demanderaient
la ritration des expriences sur un grand nombre de mots et de traits appartenant chaque mot. Ceci
pose cependant le problme de la validation linguistique, ralise par des humains : si un programme
informatique a la capacit de gnrer en peu de temps une grande masse de donnes, lanalyse
humaine de lactivation ou linhibition de traits est une opration longue et requrant de multiples
intervenants pour diminuer le phnomne de la subjectivit.
5.3.3) Conclusion sur les expriences
Les diffrentes expriences ont soulev un problme majeur : les faibles variations des
informations locales par rapport aux informations globales. Le facteur explicatif principal de ces
faibles variations nest ni d une faible dispersion, ni une taille trop importante du cotexte ou sa
61
nature. Une explication plausible est que la slection dune sous-matrice nest pas une opration
mathmatique capable dappliquer de faon suffisamment importante les spcificits du cotexte local.
Les matrices cotexte-mot nont donc pas t exploites pour de la comparaison de cotexte par rapport
lensemble du smme mais elles ont t considres comme reprsentatives des informations
contenues par la matrice corpus-mot. Ltude des transformations mathmatiques sur les matrices
cotexte-mot nous informe donc sur la significativit des traits smantiques dun smme telle quelle
nous apparat travers le corpus. La transformation tf-idf est apparue adapte pour faire merger des
coefficients de significativit pertinents alors que le calcul direct des cooccurrences faisait apparat
comme significatifs des traits contenu smantique faible et lapplication du semblait avoir leffet
inverse, avec une faible significativit pour des termes trs frquents, mais des coefficients de
significativit trop importants pour des termes rares. En outre, le passage des occurrences aux
cooccurrences a donn de meilleurs rsultats avec un produit scalaire entre vecteurs-lignes plutt
quun calcul de cosinus. Enfin, pour mesurer leffet des cotextes, donc ltude des variations locales
partir de limage globale, a donn des rsultats encourageants avec ltude dun trait smantique donn
ramen une valeur de rfrence.
62
Conclusion et perspectives

Le travail effectu a t extrmement riche et a permis dexplorer des champs trs varis. Il a
demand un investissement au niveau thorique aussi bien que pratique. Il a ncessit non seulement
de mettre en uvre des capacits de synthse dinformations et danalyse mais aussi de mettre en
place une dmarche constructive dans la ralisation du programme et la conduite des expriences,
ainsi que des efforts pour faire le lien en permanence entre domaine mathmatique et domaine
linguistique.

Ce stage a nanmoins prsent un certain nombre de difficults. Il ma en effet fallu me familiariser
avec une discipline inconnue. De plus, la traduction permanente du champ linguistique au champ
mathmatique, et inversement, sest avre tre un exercice particulirement dlicat, tant pour la
conception du modle que pour linterprtation des rsultats. De manire plus gnrale, la
communication avec les membres de lquipe, aux champs de spcialit trs divers (diffrentes
approches smantiques, informatique), sest rvle indispensable ma progression et extrmement
enrichissante. Une autre difficult sest concrtise travers la multiplicit des possibles : les pistes
dexploration taient extrmement nombreuses et ont exig une restriction des ambitions de dpart.
Entre approfondissement et exploration de nouvelles pistes, jai souvent t confronte un choix
cornlien. Ajoutons comme difficult les problmes techniques, cest--dire au niveau informatique :
la ralisation dun programme efficient a t difficile, en particulier cause des problmes de manque
despace mmoire, et naurait pas t mene bien sans laide dont jai bnfici.
Pendant quatre mois, le travail ralis et les rflexions mises en oeuvre mont permis de toucher du
doigt un terrain extrmement vaste et presque vierge. J e nai pas la prtention davoir tout explor
mais pense avoir contribu, trs modestement, quelque avance dans ce domaine : jai ouvert lune
ou lautre piste, essay de vrifier la validit dhypothses linguistiques au niveau infra-lexical et tent
dexpliciter au niveau linguistique des phnomnes mathmatiques ; jai propos un modle, tudi la
validit de celui-ci, slectionn les voies les plus intressantes, pistes creuser ; jai enfin gnr un
outil permettant dobtenir des donnes conformment au modle.

Les perspectives quouvre mon travail se situent diffrents niveaux. Dabord, un dveloppement
de la plate-forme informatique gnre parat ncessaire : il faudrait rsoudre les problmes despace
mmoire afin de mener des tudes sur des corpus de taille plus importante, quitte recrer des objets
Matrice avec une structure plus lgre. De plus, la manipulation actuelle du programme est assez
artisanale et ncessite une certaine connaissance de celui-ci. Une interface homme-machine (IHM)
serait mettre en place terme, pour permettre lexploitation du programme par tout utilisateur.
Sur le plan linguistique, les rsultats ont mis jour des faiblesses dans les regroupements en
familles morpho-syntaxiques. Reprendre ceux-ci semble indispensable pour avoir des rsultats plus
pertinents.
Par ailleurs, le modle nen est qu des balbutiements, il est loin de reflter finement les
phnomnes smantiques. Plusieurs pistes damlioration sont creuser : il faudrait concevoir un
mode de pondration des coefficients afin dintgrer les spcificits du cotexte, en particulier la
syntaxe ; de prendre en compte lordre interne aux units de dcoupage et entre units de dcoupage ;
dintgrer les diffrentes chelles smantiques (syntagme, phrase, paragraphe, article pour un corpus
journalistique, ). Cette tape requiert le choix et ltude de fonctions mathmatiques appliques aux
paramtres mentionns. Au niveau de lanalyse, il serait judicieux de ritrer les expriences afin de
multiplier les donnes disponibles et effectuer sur celles-ci des tudes statistiques plus pousses.
Laffinement des outils statistiques utiliser fait aussi partie des aspects dvelopper.
Comme dernire perspective, voquons la conception de nouvelles expriences destines reprer
des candidats lenrichissement du smme ou encore dterminer des couplages entre traits dun mot
et traits du cotexte.
63
Glossaire

contexte
conditions extralinguistiques dnonciation et/ou de production dun texte.
Par exemple, lpoque, la pratique sociale (mdecine, linguistique, )
correspondant la production du texte relvent du contexte.

cooccurrence
apparition conjointe dunits linguistiques
corpus
ensemble de textes runis en fonction dune application particulire

cotexte
voisinage dun mot ple dans un texte. Ex : cotexte de 50 mots, paragraphe
centr sur un mot.

ddomanialisation
phnomne par lequel un mot se dsolidarise de son domaine dorigine. Par
ex arpenter tait un terme du domaine de la topographie et sest
ddomanialis pour faire partie de lusage courant.

dsambigusation
identification du sens adquat dun mot polysmique en fonction du contexte
dapparition

domanialisation

spcialisation dun mot dans un domaine donn. Ex : clavier dans le domaine
informatique
fentre de mots
regroupement de mots conscutifs de taille dfinie
forme smantique
groupement stable de smes structurs
hyperonyme
terme dont le sens inclut celui dun ou plusieurs autres. Par exemple, rouge
est lhyperonyme de ses hyponymes vermillon, carlate et cramoisi

hyponyme
antonyme dhyperonyme
infra-lexical
qui relve des units linguistiques constitutives du mot. Ex. : les traits
smantiques

lemmatisation
conversion dune forme en lemme

lemme
forme canonique et conventionnelle dun mot sous laquelle on range les
variations flexionnelles. Ex : le lemme de mangeront est manger ; le
lemme de petites est petit

lexical
qui relve du mot
molcule smique
voir forme smantique
monosmique
qui na quun seul sens
mot smantiquement plein
mot dont la valeur relve de son contenu smantique et non de sa fonction
syntaxique ; oppos mot-outil. Ex : adjectifs, verbes, substantifs, adverbes ;
par opposition : dterminants, pronoms

noyau smique
sous-ensemble du smme dun mot instanci de manire rcurrente

occurrence
apparition dune unit linguistique dans un contexte textuel
64
polysmique
qui a plusieurs sens
regroupement
morphologique
regroupement de mots fond sur leur forme. Ex : grainetier, graine

smantique
discipline qui tudie le sens

smantique interprtative
smantique dont la perspective est hermneutique, cest--dire centre sur
linterprtation des textes

smantique textuelle
smantique des textes, centre sur lanalyse en composantes textuelles
(thmatique par exemple) ; assimile dans ce contexte la smantique
interprtative

sme
unit minimale de sens ; dans le contexte de mon stage, les smes sont
extraits automatiquement de dfinitions lexicographiques

smme

ensemble des traits smantiques dun mot
Smy

plate-forme dannotation en traits smantiques dveloppe par Mick
Grzesitchak dans le cadre de ce projet
supra-lexical

qui relve des units linguistiques suprieures au mot
syntagme
groupe de mots la succession a un sens et qui forment une unit
fonctionnelle.

syntaxe
partie de la linguistique qui dcrit les rgles par lesquelles les units
linguistiques se combinent en syntagmes ou en phrases

TLFi
Trsor de la Langue Franaise informatis, dictionnaire de langue dvelopp
par lATILF

trait smantique
voir sme

65
Bibliographie

[Bourion, 2001] Bourion, E., 2001, chapitre 3 de Laide linterprtation des textes lectroniques,
thse de doctorat, Universit Paris X Nanterre

[Caraux & Pinloche, 2005] Caraux, G., Pinloche, S. (2005), Permutmatrix : A Graphical
Environment to Arrange Gene Expression Profiles in Optimal Linear Order, Bioinformatics, 21,
1280-1281

[Cori & Lon, 2002] Cori, M., Lon, J ., 2002, La constitution du TAL Etude historique des
dnominations et des concepts, TAL. Volume 43 n+3-2002, pages 21 55. Disponible sur
http://infolang.u-paris10.fr/modyco/textes/cori/CoriLeon.PDF.

[Delafosse, 1999] Delafosse, L., 1999, Glossaire de linguistique computationnelle Traitement
automatique des langues, http://pagesperso-orange.fr/ldelafosse/Glossaire/Tal.htm

[Dictionnaire des frquences, 1971] CNRS, Centre de recherche pour un trsor de la langue franaise,
1971, Dictionnaire des Frquences. tudes statistiques sur le vocabulaire franais. Vocabulaire
littraire des XIX
me
et XX
me
sicles. II- Table des frquences dcroissantes, Nancy

[Habert & Nazarenko, 1997] Habert, B., Nazarenko, A., Salem, A., 1997, Quantifier les faits
langagiers dans Les linguistiques de corpus, Armand Colin/Masson, Paris

[Hatchuel & Tonneau, 1996] Hatchuel, A., Tonneau, S., 1996, chapitre 7 II.2 et III.1, dans Modles et
dcisions statistiques, Presses de lEcole des Mines de Paris.

[Landauer, Foltz & Laham, 1998] Landauer, T.K., Foltz, P.W., Laham, D., 1998, Introduction to
Latent Semantic Analysis (LSA). Disponible sur http://lsa.colorado.edu/

[Lemire, 2008] Lemire, Les lois de Zipf et de Mandelbrot , Inf6460, cours en ligne sur la recherche
et le filtrage dinformations, disponible sur
http://benhur.teluq.uqam.ca/SPIP/inf6460/article.php3?id_article=109&id_rubrique=18

[M. Grzesitchak, 2007] Grzesitchak, M., juin 2007, Annotation Smantique de Donnes Textuelles :
Proposition pour l'analyse en traits smantiques et la recherche d'isotopies, Master Sciences
Cognitives - Spcialit Traitement Automatique des Langues - Universit Nancy 2.

[Mauceri, 2007a] Mauceri, C., 2007, Isotopie et statistiques contextuelles dans Indexation et
isotopie : vers une analyse interprtative des donnes textuelles, Thse de doctorat

[Mauceri, 2007b] Mauceri, C., Ho, D., 2007, Clustering By Kernel Density

[Miller & Torris, 1990] Miller P., Torris T., 1990, Formalismes syntaxiques pour le traitement
automatique du langage naturel, p. 15, Herms, Paris

[Missire, 2006] Missire, R., 2006, Glossaire de smantique. Disponible sur http://www.revue-
texto.net/Inedits/Missire/Missire_th_glossaire.pdf

[Muller, 1968] Muller, C., 1968, Initiation la statistique linguistique, Larousse

[Pierrel, 1997] Pierrel, J .-M., 1997, Ingnierie des langues, Herms

66
[Ramdani, 2007] Ramdani, E., 2007, Du dictionnaire de langue au lexique TAL la construction
dune ressource pour lannotation smantique des textes, Mmoire de Master

[Rastier, 1996] Rastier, F., 1996, La smantique des textes : concepts et applications, Texto !.
Disponible sur http://www.revue-texto.net/Inedits/Rastier/Rastier_Concepts.html

[Rouchaleau, 2008] Rouchaleau, Y., 2008 , p.18, Traitement numrique du signal, Les Presses de
lEcole des Mines

[Valette, 2004] Valette, M., 2004, Smantique interprtative applique la dtection automatique de
documents racistes et xnophobes sur Internet, Approches Smantiques du Document Numrique,
Actes du 7e Colloque International sur le Document Electronique, 22-25 juin 2004, Patrice Enjalbert
et Mauro Gaio, eds, pp.215-230

[Valette, 2006c] Valette, M., 2001, Observations sur la nature et la fonction des emprunts
conceptuels en sciences du langage , Corpus en Lettres et Sciences sociales : des documents
numriques l'interprtation, Actes du colloque international d'Albi, juillet 2006. Carine Duteil,
Baptiste Foulqui (publ.), Franois Rastier, Michel Ballabriga (dir.), Paris, Texto, 2006. ISSN 1773-
0120

[Valette, Estacio-Moreno, Petitjean & J acquey, 2006] Valette, M., Estacio-Moreno, A., Petitjean, E.,
J acquey, E., Elments pour la gnration de classes smantiques partir de dfinitions
lexicographiques pour une approche smique du sens, paru dans Verbum ex Machina,Actes de la 13
e

confrence sur le traitement automatique des langues naturelles (TALN06),Piet Mertens, Cdrick
Fairon, Anne Dister, Patrick Watrin (ds), Cahier du CENTAL, 2.1, UCL Presses Universitaires de
Louvain. Volume 1. Pages 357-366.

[Valette & Grabar, 2004] Valette, M., Grabar, N., 2004, Caractrisation de textes contenu
idologique : statistique textuelle ou extraction de syntagme ? Lexemple du projet PRINCIP, Le poids
des mots, Actes des 7
e
J ournes internationales dAnalyse statistique des Donnes Textuelles (J ADT),
Louvain-la-Neuve (Belgique)

[Valette & Rastier, 2008] Valette, M., Rastier, F., paratre (sept 2008), De la polysmie la
nosmie

[Venant, 2004] Venant, F., 2004, Gomtriser le sens, Actes de la confrence RECITAL , Fs, Maroc

[Victorri, 1994] Victorri, B., 1994, The use of continuity in modelling semantic phenomena

[Victorri, 2005] Victorri, B., 2005, Polysmie lexicale , dans Smantique et traitement automatique
du langage naturel, chapitre, Herms

67
ANNEXES
A1) Code informatique, lments principaux du programme ralis
en Java
Classe principale (sans le main) : ReprSem0
i mpor t j ava. t ext . Number For mat ;
i mpor t j ava. i o. *;
i mpor t j ava. ut i l . Scanner ;
i mpor t j ava. ut i l . r egex. *;
i mpor t j ava. ut i l . *;
i mpor t j ava. l ang. I nt eger ;
i mpor t j ava. sql . SQLExcept i on;

publ i c cl ass Repr Sem0 {

publ i c st at i c voi d mai n( St r i ng [ ] ar gs) {
}

/ / Mt hode pour r cupr er sous f or me de t abl e de hachage l es donnes
f our ni es par un f i chi er de SEMY
/ / Ent r es : nombr e d' uni t s de dcoupage, f i chi er sour ce
/ / sor t i e : t abl e de hachage cont enant
/ / 1) comme cl l e numr o de l a f ami l l e de smes,
/ / 2) comme val eur l ' obj et SemEt Di st r i compos de {f ami l l e de smes
( at t r i but 1) + di st r i but i on ( at t r i but 2) }
publ i c st at i c HashMap<I nt eger , SemEt Di st r i > l i r eFi chi er Semy( i nt
nombr eDeCont ext es, Fi l e f i chi er Sour ce) {
i nt nbCt x = nombr eDeCont ext es;
/ / Les expr essi ons r gul i r es r epr er dans l e f i hi er de pr odui t par
Smy :
/ / 1) i t em: l es smes
/ / 2) di st r i : l a di st r i but i on sous f or me de {0: 1, 1: 3}, . . .
/ / 3) l es i ndi cat eur s de f ami l l e de smes : / 1204/ par ex ( cor r espond
l a f ami l l e 1204 d' Egl e)
Pat t er n i t em=Pat t er n. compi l e( " \ \ - ?\ \ p{L}+\ \ - ?\ \ p{L}*( , \ \ - ?\ \ p{L}+\ \ -
?\ \ p{L}*) *" , Pat t er n. MULTI LI NE) ;
Pat t er n di st r i = Pat t er n. compi l e( " \ \ {( \ \ d+: \ \ d+, ) *( \ \ d+: \ \ d+) \ \ }" ,
Pat t er n. MULTI LI NE) ;
Pat t er n f ami l l eSM = Pat t er n. compi l e( " \ \ / \ \ d+\ \ / " ) ;
HashMap<I nt eger , SemEt Di st r i > t bSem = new HashMap<I nt eger , SemEt Di st r i >( ) ;
/ / Ut i l i sat i on d' un Scanner qui par cour t l e t ext e
t r y {
Scanner sc = new Scanner ( f i chi er Sour ce, " UTF- 8" ) ;
f or ( i nt i =0 ; i <6 ; i ++) {
sc. next Li ne( ) ;
}

do {
Ar r ayLi st <St r i ng> i t emSemes = new Ar r ayLi st <St r i ng>( ) ; / / Li st e
cont enant t ous l es smes de l a f ami l l e de smes
doubl e [ ] di st r i Occ = new doubl e[ nbCt x] ;
St r i ng number = sc. f i ndWi t hi nHor i zon( " \ \ d+" , Pat t er n. UNI CODE_CASE) ;

/ / Si l e scanner t r ouve un nombr e dans l a l i gne ( numr o i ndi qu en
dbut de l i gne) :
68
i f ( number ! = nul l ) {
i nt num= I nt eger . par seI nt ( number ) ;
Syst em. out . pr i nt l n( " Lect ur e l i gne " +num) ;

/ / Saut er l es i ndi cat eur s des f ami l l es d' Egl e
i f ( sc. hasNext ( f ami l l eSM) ) {
i t emSemes. add( sc. next ( ) ) ;
sc. next ( ) ;
}

/ / gnr at i on de l a l i st e de smes composant l a f ami l l e de smes
whi l e ( sc. hasNext ( i t em) ) {
i t emSemes. add( sc. f i ndI nLi ne( i t em) ) ;
}
i f ( i t emSemes. i sEmpt y( ) ) {
i t emSemes. add( " Mot non i dent i f i e, voi r i t emnumr o " +num) ;
}

/ / Rcupr at i on de l a r par t i t i on sous f or me d' un t abl eau de
doubl e ( ni me cas : f ent r e n ; val eur : nb d' occur r ences dans l a f ent r e n)
St r i ng val =sc. f i ndI nLi ne( " \ \ d+" ) ;

i nt numCol =0;
doubl e nbOcc=0;
bool ean col =t r ue;

whi l e ( val ! =nul l ) {
i f ( col ) {
numCol = I nt eger . par seI nt ( val ) ;
col = f al se;
}
el se {
nbOcc = Doubl e. par seDoubl e( val ) ;
di st r i Occ[ numCol ] = nbOcc;
col = t r ue;
}
val =sc. f i ndI nLi ne( " \ \ d+" ) ;
}
SemEt Di st r i sd = new SemEt Di st r i ( i t emSemes, di st r i Occ) ;
t bSem. put ( num, sd) ;
sc. next ( " \ \ }" ) ; / / Sans cet t e l i gne, boucl e whi l e i nf i ni e
cause de l ' accol ade
}
el se r et ur n t bSem;
} whi l e ( sc. hasNext Li ne( ) ) ;
sc. cl ose( ) ;
}
cat ch ( Except i on e) {
Syst em. out . pr i nt l n( e. t oSt r i ng( ) ) ;
}
r et ur n t bSem;
}


/ / Mt hode pour r cupr er une mat r i ce par t i r de l a t abl e de hachage
/ / Ent r e : l a t abl e de hchage dont on veut r cupr er l es coef f i ci ent s ;
l e nombr e de cont ext es en l esquel s l e cor pus a t dcoup
/ / Sor t i e : l a mat r i ce d' occur r ences cor r espondant l a t abl e ; nombr e
de l i gnes = nombr es de f ami l l es de smes ; nombr e de col onnes = nombr e de
cont ext es
publ i c st at i c Mat r i ce t oMat r i ce( HashMap<I nt eger , SemEt Di st r i > t bSem) {
69
i nt nbLgn=t bSem. si ze( ) ;
Syst em. out . pr i nt l n( " nb de l i gnes de t oMat r i ce : " +nbLgn) ;
i nt nbCol = Repr Sem0. get NbCt x( t bSem) ;
Syst em. out . pr i nt l n( " nb de col onnes de t oMat r i ce : " +nbCol ) ;
Mat r i ce mat = new Mat r i ce( nbLgn, nbCol ) ;
f or ( i nt i =0 ; i <nbLgn ; i ++) {
doubl e [ ] val eur s=t bSem. get ( i ) . get Occ( ) ;
i nt nC=val eur s. l engt h;
f or ( i nt j =0 ; j <nC ; j ++) {
mat . set ( i , j , val eur s[ j ] ) ;
}
}
r et ur n mat ;
}

/ / Mt hode pour r econst i t uer une t abl e de hachage apr s t r ansf or mat i ons
mat hmat i ques
/ / Ent r e : l a mat r i ce ayant subi l es t r ansf or mat i on ; l a t abl e de
hachage d' or i gi ne dont l es val eur s ( di st r i but i ons) ont t t r ansf or mes
/ / / Sor t i e : l a t abl e de hachage avec l es nouvel l es val eur s de
di st r i but i on
publ i c st at i c HashMap<I nt eger , SemEt Di st r i >
r empl aceDi st r i ( HashMap<I nt eger , SemEt Di st r i > t bSem, Mat r i ce mat ) {
HashMap<I nt eger , SemEt Di st r i > newTb = new HashMap<I nt eger , SemEt Di st r i >( ) ;
doubl e [ ] [ ] t bMat = mat . get Ar r ay( ) ;
doubl e [ ] l gnMat ;
SemEt Di st r i sed;
SemEt Di st r i sed2;
f or ( i nt i =0 ; i <t bMat . l engt h ; i ++) {
l gnMat = t bMat [ i ] ;
sed=t bSem. get ( i ) ;
sed2 = new SemEt Di st r i ( sed. get Semes( ) , l gnMat ) ;
newTb. put ( i , sed2) ;
}
r et ur n newTb;
}

/ / Mt hode pour sl ect i onner seul ement cer t ai nes ent r es de l a t abe de
hachage
/ / l es ent r es sl ect i onnes sont l es smes cont enus dans une aut r e t abl e
de hachage
publ i c st at i c HashMap<I nt eger , SemEt Di st r i >
get Li nes( HashMap<I nt eger , SemEt Di st r i > t bSuppor t ,
HashMap<I nt eger , SemEt Di st r i > t bAExt r ai r e) {
HashMap<I nt eger , SemEt Di st r i > t bExt r ai t e = new
HashMap<I nt eger , SemEt Di st r i >( ) ;
i nt si zeSup = t bSuppor t . si ze( ) ; / / nombr e de f ami l l es de smes du
cor pus
Syst em. out . pr i nt l n( " Tai l l e de t bSuppor t : " +si zeSup) ;
Set <I nt eger > i ndi cesTax = t bAExt r ai r e. keySet ( ) ; / / l i st e des numr o des
smes i dent i f i er
i nt nbCl es = i ndi cesTax. si ze( ) ;
Syst em. out . pr i nt l n( " Nombr e de smes ext r ai r e : " +nbCl es) ;

bool ean [ ] cl eI dent i f i ee = new bool ean[ nbCl es] ;
i nt nbI dent i f i e = 0;

f or ( i nt i =0 ; i <si zeSup ; i ++) { / / en par cour ant l a t abl e de hachage
du cor pus
SemEt Di st r i sed = t bSuppor t . get ( i ) ; / / r cupr e l e i me sme du cor pus
et sa di st r i but i on
70
Ar r ayLi st <St r i ng> smSup = sed. get Semes( ) ; / / n' en gar de que l e sme

f or ( i nt j : i ndi cesTax) { / / en par cour ant l es ent r es des smes du
mot / cont ext e pas encor e r el i s aux smes du cor pus
i f ( cl eI dent i f i ee[ j ] ==t r ue) {
cont i nue;
}
el se {
Ar r ayLi st <St r i ng> smI nf = t bAExt r ai r e. get ( j ) . get Semes( ) ;
/ / r cupr e l e sme
i f ( smSup. get ( 0) . equal s( smI nf . get ( 0) ) ) { / / si l e sme du cor pus
et du mot / cont ext e sont i dent i ques
t bExt r ai t e. put ( j , sed) ; / / pr end dans l a t abl e du cor pus l e sme
et sa di st r i , met s- l es dans l a nouvel l e t abl e de hachage
/ / Syst em. out . pr i nt ( " l gn = " +j +" , val =" +sed. get Occ( ) [ 0] +" ,
nbCol =" +sed. get Occ( ) . l engt h+" ; " ) ;
cl eI dent i f i ee[ j ] =t r ue;
nbI dent i f i e++;
i f ( nbI dent i f i e==nbCl es) {
Syst em. out . pr i nt l n( " Nbi dent i f i e == nbCl es" ) ;
/ / i f ( i ndi cesTax. i sEmpt y( ) ) { / / si l a l i st e est vi de
r et ur n t bExt r ai t e; / / r et our ne l a t abl e de hachage
}
br eak;
}
}
}
}
i nt nbCol onnes = t bSuppor t . get ( 0) . get Occ( ) . l engt h;
f or ( i nt j : i ndi cesTax) {
i f ( cl eI dent i f i ee[ j ] ==f al se) {
SemEt Di st r i sed = t bAExt r ai r e. get ( j ) ;
t bExt r ai t e. put ( j , sed) ;
}
}
r et ur n t bExt r ai t e;
}

publ i c st at i c i nt get NbCt x( HashMap<I nt eger , SemEt Di st r i > hm) {
i nt nbCt x=0;
i f ( ! hm. i sEmpt y( ) ) {
nbCt x=hm. get ( 0) . get Occ( ) . l engt h;
}
r et ur n nbCt x;
}
/ / Mt hode pour obt eni r l a t abl e de hachage de l a t r anspose de l a
mat r i ce smes du cor pus - smes du mot
/ / ATTENTI ON : l a mat r i ce du cor pus doi t t r e symt r i que
/ / cor r espond une sl ect i on de col onnes
/ / Ent r e :
/ / 1) l a t abl e de hachage dont l es di st r i but i ons vont t r e t r ansf or mes
( sous- t abl eau du t abl eau de di st r i )
/ / 2) l a t abl e de hachage per met t ant de sl ect i onner l e bon sous- t abl eau
/ / 3) l e nombr e de cont ext es, i e l a t ai l l e des t abl eaux de di st r i but i on
dans l a t abl e de hchage dont on ne va gar der qu' une par t i e
/ / Sor t i e : La nouvel l e t abl e de hchage avec pour di st r i but i on l e sous-
t abl eau du t abl eau i ni t i al ( sl ect i onn en f onct i on des smes de l a t abl e
de hchage ser vant l a sl ect i on)
publ i c st at i c HashMap<I nt eger , SemEt Di st r i >
get Col umns( HashMap<I nt eger , SemEt Di st r i > t bCor pus,
HashMap<I nt eger , SemEt Di st r i > t bMot ) {
71
HashMap<I nt eger , SemEt Di st r i > t bI nt er m
=Repr Sem0. get Li nes( t bCor pus, t bMot ) ;
Mat r i ce mTr ansposee = Repr Sem0. t oMat r i ce( t bI nt er m) ;
Mat r i ce me = mTr ansposee. t r anspose( ) ;
r et ur n Repr Sem0. r empl aceDi st r i ( t bCor pus, me) ;
}

/ / Mt hode pour sr i al i ser l es obj et s mat r i ces
publ i c st at i c voi d ser i al i ser ( Obj ect o, St r i ng nomFi chi er ) {
t r y {
Syst em. out . pr i nt l n( " Ser i al i sat i on en cour s" ) ;
Fi l eOut put St r eamf os = new Fi l eOut put St r eam( nomFi chi er ) ;
Obj ect Out put St r eamoos = new Obj ect Out put St r eam( f os) ;
t r y {
oos. wr i t eObj ect ( o) ;
oos. f l ush( ) ;
Mat r i ce mat Vi de=new Mat r i ce( ) ;
bool ean mat r i ce=o. get Cl ass( ) . i sI nst ance( mat Vi de) ;
HashMap<I nt eger , SemEt Di st r i > hmVi de = new
HashMap<I nt eger , SemEt Di st r i >( ) ;
bool ean hashMap = o. get Cl ass( ) . i sI nst ance( hmVi de) ;
i f ( mat r i ce) {
Syst em. out . pr i nt l n( " Mat r i ce ser i al i see" ) ;
}
el se i f ( hashMap) {
Syst em. out . pr i nt l n( " Tabl e de hachage ser i al i see" ) ;
}
} f i nal l y {
t r y {
oos. cl ose( ) ;
} f i nal l y {
f os. cl ose( ) ;
}
}

} cat ch ( I OExcept i on i oe) {
i oe. pr i nt St ackTr ace( ) ;
}

}

/ / Mt hode de dsr i al i sat i on d' une Mat r i ce
publ i c st at i c voi d deser i al i ser Mat r i ce ( St r i ng nomFi chi er ) {
t r y {
/ / ouver t ur e d' un f l ux d' ent r e depui s l e f i chi er nomFi chi er
Fi l eI nput St r eamf i s = new Fi l eI nput St r eam( nomFi chi er ) ;
/ / cr at i on d' un " f l ux obj et " avec l e f l ux f i chi er
Obj ect I nput St r eamoi s= new Obj ect I nput St r eam( f i s) ;

t r y {
/ / dsr i al i sat i on : l ect ur e de l ' obj et depui s l e f l ux d' ent r e
Mat r i ce mat =( Mat r i ce) oi s. r eadObj ect ( ) ;
i f ( mat . get RowDi mensi on( ) ! = 0 && mat . get Col umnDi mensi on( ) ! =0) {
Syst em. out . pr i nt l n( " Mat r i ce deser i al i see" ) ;
}


} f i nal l y {
/ / on f er me l es f l ux
t r y {
oi s. cl ose( ) ;
72
} f i nal l y {
f i s. cl ose( ) ;
}
}
} cat ch( I OExcept i on i oe) {
i oe. pr i nt St ackTr ace( ) ;
} cat ch( Cl assNot FoundExcept i on cnf e) {
cnf e. pr i nt St ackTr ace( ) ;
}
}

/ / Mt hode de dsr i al i sat i on d' une HashMap
publ i c st at i c voi d deser i al i ser HashMap ( St r i ng nomFi chi er ) {
t r y {
/ / ouver t ur e d' un f l ux d' ent r e depui s l e f i chi er nomFi chi er
Fi l eI nput St r eamf i s = new Fi l eI nput St r eam( nomFi chi er ) ;
/ / cr at i on d' un " f l ux obj et " avec l e f l ux f i chi er
Obj ect I nput St r eamoi s= new Obj ect I nput St r eam( f i s) ;

t r y {
/ / dsr i al i sat i on : l ect ur e de l ' obj et depui s l e f l ux d' ent r e
HashMap<I nt eger , SemEt Di st r i >
hMap=( HashMap<I nt eger , SemEt Di st r i >) oi s. r eadObj ect ( ) ;
i f ( hMap! =nul l ) {
Syst em. out . pr i nt l n( " Tabl e de hachage deser i al i see" ) ;
}

} f i nal l y {
/ / on f er me l es f l ux
t r y {
oi s. cl ose( ) ;
} f i nal l y {
f i s. cl ose( ) ;
}
}
} cat ch( I OExcept i on i oe) {
i oe. pr i nt St ackTr ace( ) ;
} cat ch( Cl assNot FoundExcept i on cnf e) {
cnf e. pr i nt St ackTr ace( ) ;
}
}

/ / Pour r cupr er des f i chi er s t ext es avec l es val eur s des mat r i ces
publ i c st at i c voi d expor t er Fi chi er ( Mat r i ce mat , St r i ng nomFi chi er csv) {
t r y {
Pr i nt Wr i t er out = new Pr i nt Wr i t er ( nomFi chi er csv) ;
St r i ngBui l der buf f er = new St r i ngBui l der ( 32*1024*1024) ;
i nt nbLgn = mat . get RowDi mensi on( ) ;
i nt nbCol = mat . get Col umnDi mensi on( ) ;

buf f er . append( " i ndi ces\ t " ) ;
f or ( i nt i =0 ; i <nbCol ; i ++) {

buf f er . append( i ) ;
buf f er . append( " \ t " ) ;
}
buf f er . append( " \ n" ) ;


i nt n=0;
i nt c=0;
73
f or ( i nt i =0 ; i <nbLgn ; i ++) {
n++;
buf f er . append( i ) ;
buf f er . append( " \ t " ) ;
i nt n2=0;
f or ( i nt j =0 ; j <nbCol ; j ++) {
doubl e val = Mat h. f l oor ( mat . get ( i , j ) *100) / 100;
doubl e nbTr onque = val ;
n2++;
buf f er . append( nbTr onque) ;
buf f er . append( " \ t " ) ;
}
buf f er . append( " \ n" ) ;
}

out . append( buf f er ) ;
buf f er . r epl ace( 0, buf f er . l engt h( ) - 1, " " ) ;
out . cl ose( ) ;
}
cat ch ( I OExcept i on e) {
Syst em. out . pr i nt l n( e) ;
}
}

publ i c st at i c voi d expor t er Fi chi er ( HashMap<I nt eger , SemEt Di st r i > al ,
St r i ng nomFi chi er ) {
Mat r i ce mat = Repr Sem0. t oMat r i ce( al ) ;
Repr Sem0. expor t er Fi chi er ( mat , nomFi chi er ) ;
}
}
Classe SemEtDistri

i mpor t j ava. ut i l . *;
i mpor t j ava. i o. Ser i al i zabl e;

publ i c cl ass SemEt Di st r i i mpl ement s Ser i al i zabl e {
pr i vat e st at i c f i nal l ong ser i al Ver si onUI D = 70L;
Ar r ayLi st <St r i ng> gr Semes; / / sme et f ami l l e ( d' apr s l es r gpt s d' Egl e)
l aquel l e i l appar t i ent
doubl e [ ] nbOccU; / / nombr e d' occur r ences uni t ai r e, i e par dcoupage ;
ent r es d' une l i gne de l a mat r i ce d' occur r ences ou cooccur r ences

publ i c SemEt Di st r i ( Ar r ayLi st <St r i ng> al , doubl e [ ] d) {
gr Semes = new Ar r ayLi st <St r i ng>( al ) ;
nbOccU = new doubl e [ d. l engt h] ;
Syst em. ar r aycopy( d, 0, nbOccU, 0, d. l engt h) ;
}

publ i c Ar r ayLi st <St r i ng> get Semes( ) {
r et ur n gr Semes;
}
publ i c St r i ng get Semes( i nt i ) {
i nt t ai l l e = gr Semes. si ze( ) ;
i f ( t ai l l e == 0) {
St r i ng s = " Mot avec accent , pb de l ect ur e" ;
r et ur n s;
}
el se i f ( i <t ai l l e) {
74
r et ur n gr Semes. get ( i ) ;
}
el se {
Syst em. out . pr i nt l n( " I l n' y a que " +t ai l l e+" smes dans l a gr oupement .
Rcupr at i on du pr emi er sme. " ) ;
r et ur n gr Semes. get ( 0) ;
}
}

publ i c doubl e [ ] get Occ( ) {
r et ur n nbOccU;
}
}


Classe Matrice

Remarque : seules sont prsentes les mthodes ajoutes la classe Matrix du package Jama
disponible sur http://math.nist.gov/javanumerics/jama/

/ ** Somme l es coef f i ci ent s d' une col onne
@par amc i ndi ce de col onne
@r et ur n sum, somme des l ment s de l a col onne
@except i on Ar r ayI ndexOut Of BoundsExcept i on
*/

publ i c doubl e sumCol ( i nt c)
{
doubl e sum=0;
f or ( i nt j =0; j <m; j ++) {
sum+=A[ j ] [ c] ;
}
r et ur n sum;
}

/ ** Somme l es coef f i ci ent s d' une l i gne
@par amc i ndi ce de l i gne
@r et ur n sum, somme des l ment s de l a l i gne
@except i on Ar r ayI ndexOut Of BoundsExcept i on
*/

publ i c doubl e sumLgn( i nt l ) {
doubl e sum=0;
f or ( i nt j =0 ; j <n; j ++) {
sum+=A[ l ] [ j ] ;
}
r et ur n sum;
}

/ ** Somme t ous l es coef f i ci ent s de l a mat r i ce
@r et ur n sum, somme de t ous l es coef f i ci ent s
*/
publ i c doubl e sumTot ( ) {
doubl e sum=0;
f or ( i nt i =0 ; i <m; i ++) {
f or ( i nt j =0 ; j <n ; j ++) {
sum+=A[ i ] [ j ] ;
}
}
r et ur n sum;
}
75

/ ** Moyenne par l i gne pour t out es l es l i gnes de l a mat r i ce
@r et ur n d, vect eur ( 1, m) des moyennes
*/
publ i c doubl e [ ] moyLgns( ) {
doubl e [ ] d=new doubl e[ m] ;
f or ( i nt i =0 ; i <m; i ++) {
d[ i ] =0;
f or ( i nt j =0 ; j <n ; j ++) {
d[ i ] +=A[ i ] [ j ] ;
}
d[ i ] =d[ i ] / n;
}
r et ur n d;
}

/ **Moyenne par col onne pour t out es l es col onnes de l a mat r i ce
@r et ur n d, vect eur ( 1, n) des moyennes
*/
publ i c doubl e [ ] moyCol s( ) {
doubl e [ ] d=new doubl e[ n] ;
f or ( i nt j =0 ; j <n ; j ++) {
d[ j ] =0;
f or ( i nt i =0 ; i <m; i ++) {
d[ j ] +=A[ i ] [ j ] ;
}
d[ j ] =d[ j ] / m;
}
r et ur n d;
}

/ **Cal cul de l ' car t - t ype des l i gnes
@par ammoy : vect eur des moyennes par l i gne
@r et ur n d : vect eur des car t s- t ypes par l i gne
*/
publ i c doubl e [ ] si gmaLgns( doubl e [ ] moy) {
doubl e [ ] d=new doubl e[ m] ;
f or ( i nt i =0 ; i <m; i ++) {
d[ i ] =0;
f or ( i nt j =0 ; j <n ; j ++) {
d[ i ] +=A[ i ] [ j ] *A[ i ] [ j ] ;
}
d[ i ] =Mat h. sqr t ( d[ i ] / n- moy[ i ] *moy[ i ] ) ;
}
r et ur n d;
}

/ **Cal cul de l ' car t - t ype des col onnes
@par ammoy : vect eur des moyennes par col onne
@r et ur n d : vect eur des car t s- t ypes par col onne
*/
publ i c doubl e [ ] si gmaCol s( doubl e [ ] moy) {
doubl e [ ] d=new doubl e[ n] ;
f or ( i nt j =0 ; j <n ; j ++) {
d[ j ] =0;
f or ( i nt i =0 ; i <m; i ++) {
d[ j ] +=A[ i ] [ j ] *A[ i ] [ j ] ;
}
d[ j ] =Mat h. sqr t ( d[ j ] / m- moy[ j ] *moy[ j ] ) ;
}
r et ur n d;
76
}

/ **Cal cul de l ' car t - t ype des l i gnes
@r et ur n d : vect eur des car t s- t ypes par l i gne
*/
publ i c doubl e [ ] si gmaLgns( ) {
doubl e [ ] s=new doubl e[ m] ;
doubl e [ ] moy=new doubl e[ m] ;
f or ( i nt i =0 ; i <m; i ++) {
s[ i ] =0;
moy[ i ] =0;
f or ( i nt j =0 ; j <n ; j ++) {
moy[ i ] +=A[ i ] [ j ] ;
s[ i ] +=A[ i ] [ j ] *A[ i ] [ j ] ;
}
moy[ i ] =moy[ i ] / n;
s[ i ] =Mat h. sqr t ( s[ i ] / n- moy[ i ] *moy[ i ] ) ;
}
r et ur n s;
}

/ **Cal cul de l ' car t - t ype des col onnes
@r et ur n d : vect eur des car t s- t ypes par col onne
*/
publ i c doubl e [ ] si gmaCol s( ) {
doubl e [ ] s=new doubl e[ n] ;
doubl e [ ] moy=new doubl e[ n] ;
f or ( i nt j =0 ; j <n ; j ++) {
s[ j ] =0;
moy[ j ] =0;
f or ( i nt i =0 ; i <m; i ++) {
moy[ j ] +=A[ i ] [ j ] ;
s[ j ] +=A[ i ] [ j ] *A[ i ] [ j ] ;
}
moy[ j ] =moy[ j ] / m;
s[ j ] =Mat h. sqr t ( s[ j ] / m- moy[ j ] *moy[ j ] ) ;
}
r et ur n s;
}

/ **Moyenne par l i gne pour t out es l es l i gnes de l a mat r i ce sans compt er
l es 0
@r et ur n d, vect eur ( 1, n) des moyennes des coef s non nul s par l i gne
*/
publ i c doubl e [ ] moyLgnsSans0( ) {
doubl e [ ] d=new doubl e[ m] ;
i nt nbCoef NonNul s;
f or ( i nt i =0 ; i <m; i ++) {
d[ i ] =0;
nbCoef NonNul s=0;
f or ( i nt j =0 ; j <n ; j ++) {
i f ( A[ i ] [ j ] ! =0) {
d[ i ] +=A[ i ] [ j ] ;
nbCoef NonNul s+=1;
}

}
i f ( nbCoef NonNul s! =0) {
d[ i ] =d[ i ] / nbCoef NonNul s;
}
}
77
r et ur n d;
}
/ **Moyenne par col onne pour t out es l es col onnes de l a mat r i ce sans
compt er l es 0
@r et ur n d, vect eur ( 1, n) des moyennes des coef s non nul s par col onne
*/
publ i c doubl e [ ] moyCol sSans0( ) {
doubl e [ ] d=new doubl e[ n] ;
i nt nbCoef NonNul s;
f or ( i nt j =0 ; j <n ; j ++) {
nbCoef NonNul s=0;
d[ j ] =0;
f or ( i nt i =0 ; i <m; i ++) {
i f ( A[ i ] [ j ] ! =0) {
d[ j ] +=A[ i ] [ j ] ;
nbCoef NonNul s+=1;
}
}
i f ( nbCoef NonNul s! =0) {
d[ j ] =d[ j ] / nbCoef NonNul s;
}
}
r et ur n d;
}

/ **Cal cul de l ' car t - t ype des l i gnes sans l es 0
@par ammoy : vect eur des moyennes par l i gne sur l es coef s non nul s
@r et ur n d : vect eur des car t s- t ypes par l i gne sur l es coef s non nul s
*/
publ i c doubl e [ ] si gmaLgnsSans0( doubl e [ ] moy) {
i nt nbCoef NonNul s;
doubl e [ ] d=new doubl e[ m] ;
f or ( i nt i =0 ; i <m; i ++) {
nbCoef NonNul s=0;
d[ i ] =0;
f or ( i nt j =0 ; j <n ; j ++) {
i f ( A[ i ] [ j ] ! =0) {
d[ i ] +=A[ i ] [ j ] *A[ i ] [ j ] ;
nbCoef NonNul s+=1;
}
}
i f ( nbCoef NonNul s! =0) {
d[ i ] =Mat h. sqr t ( d[ i ] / nbCoef NonNul s- moy[ i ] *moy[ i ] ) ;
}
}
r et ur n d;
}

/ **Cal cul de l ' car t - t ype des col onnes sans l es 0
@par ammoy : vect eur des moyennes par col onne sur l es coef s non nul s
@r et ur n d : vect eur des car t s- t ypes par col onne sur l es coef s non
nul s
*/
publ i c doubl e [ ] si gmaCol sSans0( doubl e [ ] moy) {
i nt nbCoef NonNul s;
doubl e [ ] d=new doubl e[ n] ;
f or ( i nt j =0 ; j <n ; j ++) {
nbCoef NonNul s=0;
d[ j ] =0;
f or ( i nt i =0 ; i <m; i ++) {
i f ( A[ i ] [ j ] ! =0) {
78
d[ j ] +=A[ i ] [ j ] *A[ i ] [ j ] ;
nbCoef NonNul s+=1;
}
}
i f ( nbCoef NonNul s! =0) {
d[ j ] =Mat h. sqr t ( d[ j ] / nbCoef NonNul s- moy[ j ] *moy[ j ] ) ;
}
}
r et ur n d;
}

/ **Cal cul de l ' car t - t ype des l i gnes sans l es 0
@r et ur n d : vect eur des car t s- t ypes par l i gne sur l es coef s non nul s
*/
publ i c doubl e [ ] si gmaLgnsSans0( ) {
i nt nbCoef NonNul s;
doubl e [ ] s=new doubl e[ m] ;
doubl e [ ] moy=new doubl e[ m] ;
f or ( i nt i =0 ; i <m; i ++) {
nbCoef NonNul s=0;
s[ i ] =0;
moy[ i ] =0;
f or ( i nt j =0 ; j <n ; j ++) {
i f ( A[ i ] [ j ] ! =0) {
moy[ i ] +=A[ i ] [ j ] ;
s[ i ] +=A[ i ] [ j ] *A[ i ] [ j ] ;
nbCoef NonNul s+=1;
}
}
i f ( nbCoef NonNul s! =0) {
moy[ i ] =moy[ i ] / nbCoef NonNul s;
s[ i ] =Mat h. sqr t ( s[ i ] / nbCoef NonNul s- moy[ i ] *moy[ i ] ) ;
}
}
r et ur n s;
}

/ **Cal cul de l ' car t - t ype des col onnes sans l es 0
@r et ur n d : vect eur des car t s- t ypes par col onne sur l es coef s non
nul s
*/
publ i c doubl e [ ] si gmaCol sSans0( ) {
i nt nbCoef NonNul s;
doubl e [ ] s=new doubl e[ n] ;
doubl e [ ] moy=new doubl e[ n] ;
f or ( i nt j =0 ; j <n ; j ++) {
nbCoef NonNul s=0;
s[ j ] =0;
moy[ j ] =0;
f or ( i nt i =0 ; i <m; i ++) {
i f ( A[ i ] [ j ] ! =0) {
moy[ j ] +=A[ i ] [ j ] ;
s[ j ] +=A[ i ] [ j ] *A[ i ] [ j ] ;
nbCoef NonNul s+=1;
}
}
i f ( nbCoef NonNul s! =0) {
moy[ j ] =moy[ j ] / nbCoef NonNul s;
s[ j ] =Mat h. sqr t ( s[ j ] / nbCoef NonNul s- moy[ j ] *moy[ j ] ) ;
}
}
79
r et ur n s;
}

/ ** Mul t i pl i cat i on mat r i ci el l e d' une mat r i ce et de sa t r ansposee, A * B'
@par amB anot her mat r i x
@r et ur n Mat r i ce pr oduct , A * B'
@except i on I l l egal Ar gument Except i on Mat r i ce i nner di mensi ons must agr ee.
*/

publ i c Mat r i ce t i mesTr anspose ( Mat r i ce B) {
i f ( B. n ! = n) {
t hr ow new I l l egal Ar gument Except i on( " Mat r i ce i nner di mensi ons must
agr ee. " ) ;
}
Mat r i ce X = new Mat r i ce( m, B. m) ;
doubl e[ ] [ ] C = X. get Ar r ay( ) ;
f or ( i nt j = 0; j < B. m; j ++) {
f or ( i nt i = 0; i < m; i ++) {
doubl e s = 0;
f or ( i nt k = 0; k < n; k++) {
s += A[ i ] [ k] *B. A[ j ] [ k] ;
}
C[ i ] [ j ] = s;
}
}
r et ur n X;
}

/ * - - - - - - - - - - - - - - - - - - - - - - - -
Mes Met hodes
* - - - - - - - - - - - - - - - - - - - - - - - - */

/ ** Cal cul du nombr e d' occur r ences moyen, f ond sur l e pr i nci pe de l a
di st ance du chi 2 ( hyppot hse d' i ndpendance)
@r et ur n M, mat r i ce des coef f i ci ent s moyens
*/

publ i c Mat r i ce chi 2( ) {
Mat r i ce M=new Mat r i ce( m, n) ;
doubl e [ ] [ ] X=M. get Ar r ay( ) ;
doubl e ni ;
doubl e nj ;
doubl e nT=sumTot ( ) ;
f or ( i nt i =0 ; i <m; i ++) {
ni =sumLgn( i ) ;
f or ( i nt j =0 ; j <n ; j ++) {
nj =sumCol ( j ) ;
i f ( nT! =0) {
X[ i ] [ j ] =ni *nj / nT;
}
}
}
r et ur n M;
}

/ ** Cal cul des coef f i ci ent s moyens sous l ' hypot hse d' i ndpendance et
appl i cat i on d' une f onct i on l i nai r e au r appor t ' val eur r el l e' / ' val eur
moyenne'
@r et ur n M, mat r i ce avec l es nouveaus coef f i ci ent s
*/

80
publ i c Mat r i ce chi 2Func( ) {
Mat r i ce M=new Mat r i ce( m, n) ;
doubl e [ ] [ ] X=M. get Ar r ay( ) ;
doubl e ni ;
doubl e nj ;
doubl e mi j ;
doubl e ni j ;
doubl e nT=sumTot ( ) ;
f or ( i nt i =0 ; i <m; i ++) {
Syst em. out . pr i nt l n( " Li gne " +i ) ;
ni =sumLgn( i ) ;
f or ( i nt j =0 ; j <n ; j ++) {
nj =sumCol ( j ) ;
i f ( nT! =0) {
mi j =ni *nj / nT;
i f ( mi j ! =0) {
ni j =A[ i ] [ j ] ;
i f ( ni j >=2*mi j ) {
X[ i ] [ j ] =1;
}
el se i f ( ni j <2*mi j && ni j >0) {
X[ i ] [ j ] =ni j / ( 2*mi j ) ;
}
}
}
}
}
r et ur n M;
}

/ ** Appl i que l a t r ansf or mat i on t f - i df et r et our ne une nouvel l e mat r i ce
*/

publ i c Mat r i ce t f i df ( ) {
i nt nbCoef NonNul s;
Mat r i ce Mat =new Mat r i ce( m, n) ;
doubl e [ ] [ ] X=Mat . get Ar r ay( ) ;
doubl e i df , coef f ;

f or ( i nt i =0 ; i <m; i ++ ) {
nbCoef NonNul s = 0;

f or ( i nt j =0; j <n; j ++) {
i f ( A[ i ] [ j ] ! =0) nbCoef NonNul s++;
}

i df = Mat h. l og( ( doubl e) n/ ( doubl e) nbCoef NonNul s) ;

f or ( i nt j =0; j <n; j ++) {
coef f = A[ i ] [ j ] ;
i f ( coef f ! = 0) {
X[ i ] [ j ] =coef f *i df ;
}
}
}
r et ur n Mat ;
}

/ ** Mat r i ce des cooccur r ences obt enue par pr odui t de l a mat r i ce et de sa
t r anspose
*/
81
publ i c Mat r i ce get Mat r i ceCooc( ) {
Syst em. out . pr i nt l n( " aaa" ) ;
Mat r i ce Mat = new Mat r i ce( m, m) ;
doubl e [ ] [ ] C = Mat . get Ar r ay( ) ;
Syst em. out . pr i nt l n( " bbb" ) ;
doubl e s=0;
doubl e d=0;
f or ( i nt j =0 ; j <m; j ++) {
d=0;
f or ( i nt k=0 ; k<n ; k++) {

d+=A[ j ] [ k] *A[ j ] [ k] ;
}
C[ j ] [ j ] =d;
f or ( i nt i =0 ; i <m&& i <j ; i ++) {
s=0;
f or ( i nt k=0 ; k<n ; k++) {
s+=A[ i ] [ k] *A[ j ] [ k] ;
}
C[ i ] [ j ] =s;
C[ j ] [ i ] =s;
}
Syst em. out . pr i nt l n( " Mat r i ce de cooccur r ences : l i gne " +j +"
cal cul e" ) ;
}

r et ur n Mat ;
}

/ ** Appl i que une t r ansf or mat i on de t ype LSA et r et our ne une nouvel l e
mat r i ce
@par amnbVP nombr e de val eur s si ngul i er es conser vees
*/
publ i c Mat r i ce pseudoLSA( i nt nbVP) {
Syst em. out . pr i nt l n( " Recour s Si ngul ar Val ueDecomposi t i on,
pat i ence. . . " ) ;
Si ngul ar Val ueDecomposi t i on2 SVD = new
Si ngul ar Val ueDecomposi t i on2( t hi s) ;
Syst em. out . pr i nt l n( " Recuper ai t on des val eur s si ngul i er es. . . " ) ;
doubl e [ ] val Si ng = SVD. get Si ngul ar Val ues( ) ;
i nt l gVS = val Si ng. l engt h;
i f ( nbVP>=l gVS) {
r et ur n t hi s;
}
el se {
doubl e[ ] [ ] D = new doubl e [ n] [ n] ;
Syst em. out . pr i nt l n( " Gener at i on de l a mat r i ce di agonal e t r onquee. . . " ) ;
f or ( i nt i =0 ; i <nbVP ; i ++) {
D[ i ] [ i ] =val Si ng[ i ] ;
}
Mat r i ce Dmoi ns = new Mat r i ce( D) ;
Syst em. out . pr i nt l n( " Pr odui t UD' V en cour s. . . " ) ;
r et ur n SVD. get U( ) . t i mes( Dmoi ns. t i mesTr anspose( SVD. get V( ) ) ) ;
}
}


/ ** Mat r i ce de t ai l l e ( m, m) des cosi nus f ai t ent r e t ous l es coupl es de
vect eur s- l i gnes ( i , j )
@r et ur n M, mat r i ce des cosi nus
*/
82

publ i c Mat r i ce cosi nus( ) {
Mat r i ce M=new Mat r i ce( m, m) ;
doubl e [ ] [ ] MA=M. get Ar r ay( ) ;


doubl e nor m2Li ;
doubl e nor m2Lj ;
doubl e pr odui t Scal ai r e;
f or ( i nt i =0 ; i <m; i ++) {
Syst em. out . pr i nt l n( " Cosi nus l i gne " +i ) ;
nor m2Li =0;
f or ( i nt j =0 ; j <n; j ++) {
nor m2Li +=A[ i ] [ j ] *A[ i ] [ j ] ;
}

i f ( nor m2Li ==0) {
MA[ i ] [ i ] =0;
f or ( i nt j =0 ; j <m&& j <i ; j ++) {
MA[ i ] [ j ] =0;
MA[ j ] [ i ] =0;
}
}
el se {
nor m2Li =Mat h. sqr t ( nor m2Li ) ;
MA[ i ] [ i ] =1;

f or ( i nt j =0 ; j <m&& j <i ; j ++) {

nor m2Lj =0;
f or ( i nt k =0 ; k<n ; k++) {
nor m2Lj +=A[ j ] [ k] *A[ j ] [ k] ;
}

i f ( nor m2Lj == 0) {
MA[ i ] [ j ] =0;
MA[ j ] [ i ] =0;
}
el se {
nor m2Lj =Mat h. sqr t ( nor m2Lj ) ;
pr odui t Scal ai r e=0;
f or ( i nt k=0; k<n; k++) {
pr odui t Scal ai r e +=A[ i ] [ k] *A[ j ] [ k] ;
}
doubl e cos = pr odui t Scal ai r e/ ( nor m2Li *nor m2Lj ) ;
MA[ i ] [ j ] =cos;
MA[ j ] [ i ] =cos;
}
}
}
}
r et ur n M;
}


/ ** Met hode t oSt r i ng pour vi sual i ser l a mat r i ce
@r et ur n s, vi sual i sat i on sous f or me de t abl eau de l a mat r i ce
*/
publ i c St r i ng t oSt r i ng( ) {
St r i ng s=" " ;
f or ( i nt i =0 ; i <m; i ++) {
83
f or ( i nt j =0 ; j <n ; j ++) {
s=s+A[ i ] [ j ] +" " ;
}
s=s+" \ n" ;
}
r et ur n s;
}


84
A2) Smme de pollen, sable, clat et or
Smme de pollen
Le smme affich ci-dessous correspond aux informations dlivres en sortie de Smy.

numro item
0
/4243/ : fluidement,ADV fluidique,ADJ fluidiste,NOM fluide,NOM fluidomtre,NOM
fluidifiant,NOM fluidiforme,NOM fluidit,NOM suprafluidit,NOM fluidification,NOM
superfluide,ADJ fluidifier,VERBE fluide,ADJ
1 tre
2
/6635/ : saccageur,NOM saccageoter,VERBE saccageuse,NOM saccage,NOM
saccagement,NOM saccager,VERBE sac,NOM
3
/2970/ : logement,NOM relogement,NOM loge,NOM logeur,NOM logeable,ADJ
logeuse,NOM reloger,VERBE dlogement,NOM logette,NOM loger,VERBE
dloger,VERBE
4 poussire
5
/1101/ : preneur,NOM entr'ouvrir,VERBE reproductibilit,NOM dcomposant,ADJ
reprocheur,ADJ productif,ADJ composant,ADJ reprsent,ADJ produire,VERBE
improduit,ADJ incomprhensiblement,ADV entrouvrir,VERBE reproductivit,NOM
mcomprendre,VERBE production,NOM rentr,NOM entrance,NOM
reprsentation,NOM surprise,NOM apprhendement,NOM emprisonn,ADJ
autoreproducteur,ADJ rentrayeur,NOM rentrant,NOM reprisage,NOM
mcomprhension,NOM reproductif,ADJ incomprhensible,ADJ apprsentation,NOM
prisonnier,NOM comprhension,NOM entr'ouvrement,NOM reproduire,VERBE
plexus,NOM reproductrice,NOM pris,ADJ sentimentaliste,NOM sentimentalit,NOM
surproduction,NOM entrouverture,NOM entreprise,NOM indcompos,ADJ dprise,NOM
reprographique,ADJ senti,NOM incomplexe,ADJ sentimentalisation,NOM
irreprsentable,ADJ rentrante,NOM incomprhensif,ADJ reproche,NOM
prisonnire,NOM rentrayeuse,NOM prsent,ADJ prison,NOM reprsente,NOM
prise,NOM reprsenter,VERBE prsenter,VERBE repriser,VERBE incompris,ADJ
dcomposer,VERBE reprise,NOM reprocher,VERBE prsence,NOM procs,NOM
comprhensible,ADJ reprsentante,NOM preneuse,NOM reproductivement,ADV
entrer,VERBE reprisable,ADJ rentrant,ADJ reprsentativit,NOM reprographier,VERBE
prendre,VERBE rentrage,NOM indcomposable,ADJ coproduction,NOM
dprendre,VERBE repriseur,ADJ reprochable,ADJ reprendre,VERBE imprenable,ADJ
composante,NOM prsentation,NOM reproductible,ADJ improductivement,FUNC
repriseuse,NOM coproduire,VERBE improductif,ADJ preneur,ADJ producteur,NOM
rprhension,NOM prhension,NOM reprsentable,ADJ senti,ADJ entrant,NOM
comprendre,VERBE reproduction,NOM rentrure,NOM entreprendre,VERBE
incomprhensibilit,NOM apprhension,NOM sentimentaliser,VERBE produit,ADJ
surproduit,NOM improductivit,NOM sentiment,NOM complexe,ADJ reprsent,NOM
reprsentatif,ADJ sentimental,ADJ prisonnier,ADJ produit,NOM reproducteur,ADJ
intercomprhension,NOM sentimentalisme,NOM entre,NOM rentre,NOM
sentir,VERBE emprisonner,VERBE dissentiment,NOM surproduire,VERBE
apprhender,VERBE rentrer,VERBE rentr,ADJ surreprsentation,NOM
apprsenter,VERBE entrant,ADJ prsent,NOM composant,NOM
reprsentativement,FUNC reproducteur,NOM incomprhension,NOM
dcomposition,NOM entrante,NOM entrepreneur,NOM emprisonnement,NOM
85
surprendre,VERBE apprhend,ADJ reprsentant,NOM reprographie,NOM
dcomposable,ADJ
6
/6024/ : membraniforme,ADJ membraneux,ADJ membranule,NOM membran,ADJ
membrane,NOM
7 anthre
8 trs
9
/1054/ : petite,NOM petitement,ADV rapetisser,VERBE rapetissage,NOM
petitette,ADJ rapetissement,NOM petitesse,NOM petiot,ADJ petiote,NOM petiot,NOM
petit,ADJ apetisser,VERBE petitounet,ADJ apetissement,NOM petit,NOM
10 fconder
11
/352/ : jauniot,ADJ jaunissure,NOM jaunisse,NOM jaunet,ADJ jaunissement,NOM
jaunasse,ADJ jaunissant,ADJ jaune,NOM jaune,ADJ jaunissage,NOM jaunir,VERBE
jaunet,NOM jauntre,ADJ
12
/2482/ : entretenu,ADJ entreteneuse,NOM entretenage,NOM rtentrice,NOM
entretenir,VERBE soutien,NOM soutnement,NOM rtentionnaire,ADJ codtenu,NOM
entretnement,NOM rtenteur,ADJ retenir,VERBE dtenir,VERBE soutenance,NOM
codtenue,NOM contenir,VERBE soutenir,VERBE rtention,NOM dtention,NOM
rtenteur,NOM rtentionniste,NOM entreteneur,NOM retenu,ADJ dtenu,NOM
contention,NOM tenir,VERBE rtentionnel,ADJ entretien,NOM retenue,NOM
rtentionnaire,NOM tenue,NOM
13 /8765/ : utriculaire,ADJ utriculeux,ADJ utricule,NOM
14
/107/ : agrainage,NOM grainetier,NOM grainetire,NOM agrainer,VERBE grain,ADJ
graine,NOM grainier,NOM grain,NOM agrain,NOM grainire,NOM graineterie,NOM
grainasse,NOM
15 fin
16 gnralement
17
/756/ : microcristal,NOM microscopiste,NOM microscopique,ADJ microphyte,NOM
microbiologique,ADJ microscopie,NOM micrococcus,NOM microchirurgical,ADJ
microchirurgie,NOM microbiologiste,NOM microzoaire,NOM microflore,NOM
microbicide,ADJ micromtre,NOM microformes,NOM microdissection,NOM
microlithe,NOM micrologique,ADJ microscopiquement,FUNC micromtriquement,FUNC
amicrobien,ADJ micrographie,NOM microlite,NOM microfaune,NOM microtome,NOM
micrologie,NOM micromtrie,NOM microfossile,NOM microscope,NOM
microstructure,NOM inframicroscopique,ADJ micromanipulation,NOM microbien,ADJ
microbiologie,NOM micrographique,ADJ microbicide,NOM microbisme,NOM
microbiologiste,ADJ monomicrobien,ADJ micromanipulateur,NOM micrographe,NOM
microorganisme,NOM ultramicroscope,NOM microbique,ADJ microcoque,NOM
microbe,NOM ultramicroscopie,NOM micromtrique,ADJ

86
Smme du mot sable
numro item
0
/2507/ : silicifi,ADJ silicotique,ADJ silicoformique,ADJ silicocyanhydrique,ADJ
silicose,NOM silicocalcium,NOM silicium,NOM silicat,ADJ silicate,NOM silici,ADJ
siliconage,NOM silicique,ADJ silicatiser,VERBE silicone,NOM silicos,NOM
silicocalcaire,ADJ silicater,VERBE silicomanganse,NOM silicose,NOM
silicomthane,NOM silicos,ADJ silicatage,NOM silicole,ADJ silicatisation,NOM
silicogel,NOM siliceux,ADJ trisilicique,ADJ siliconer,VERBE silicicoleou,ADJ
silicon,ADJ silicochloroforme,NOM silicification,NOM silice,NOM silicatation,NOM
siliciure,NOM
1 concrtion
2
/751/ : meubl,ADJ meuble,NOM dmeubl,ADJ ameubler,VERBE meuble,ADJ
meubl,NOM meublable,ADJ immeuble,ADJ ameublir,VERBE meublement,NOM
remeubler,VERBE meublier,NOM ameublissement,NOM meublant,ADJ
remeublement,NOM dmeublement,NOM ameubli,ADJ ameublement,NOM
meublage,NOM meubler,VERBE immeuble,NOM dmeubler,VERBE
3
/533/ : transformer,VERBE formaliserse,VERBE fondant,ADJ profonde,NOM
formaliste,ADJ profond,NOM profondeur,NOM noformation,NOM formolage,NOM
formuler,VERBE refondage,NOM prforme,NOM cofondatrice,NOM fortiori,FUNC
forte,ADV fonder,VERBE biforme,ADJ reforming,NOM rformette,NOM
prformant,ADJ fusionisme,NOM fondamentaliste,ADJ dform,ADJ formalis,ADJ
prform,ADJ formaliser,VERBE fusionner,VERBE forme,NOM forte,ADJ
formulaire,NOM efforcement,NOM informatique,ADJ fondage,NOM formateur,NOM
conformer,VERBE fuser,VERBE formulique,ADJ fondre,VERBE dformable,ADJ
formulation,NOM prformage,NOM fondement,NOM fonderie,NOM informatrice,NOM
format,NOM dformer,VERBE informaticien,NOM formateur,ADJ fondateur,NOM
rformer,VERBE approfondi,ADJ approfondisseur,NOM fonde,NOM
fondamentalit,NOM rformisme,NOM fusionnement,NOM rformiste,NOM
dformation,NOM formeur,NOM formier,NOM formolateur,NOM surinformation,NOM
priinformatique,NOM dformateur,ADJ fondu,NOM fusionniste,ADJ
informatisation,NOM rformiste,ADJ inform,NOM transformation,NOM rform,NOM
cofondateur,NOM conforme,ADJ formellement,ADV informit,NOM formolisation,NOM
formol,NOM formiate,NOM informatif,ADJ informaticienne,NOM
tlinformatique,NOM dformant,ADJ informationnel,ADJ confusionnisme,NOM
effondrer,VERBE parfondre,VERBE information,NOM prformation,NOM rform,ADJ
rforme,NOM informel,ADJ inform,ADJ fusionnage,NOM approfondir,VERBE
refonte,NOM informatiser,VERBE infond,ADJ informant,ADJ refusion,NOM
confondre,VERBE formant,NOM refondre,VERBE info,NOM fond,ADJ
rformation,NOM rformateur,NOM formage,NOM approfondissant,ADJ
formatrice,NOM mforme,NOM informateur,NOM formant,ADJ rformatrice,NOM
formol,ADJ effondrement,NOM formique,ADJ formalisable,ADJ reformage,NOM
formaliste,NOM approfondissement,NOM rforme,NOM informer,VERBE
conformateur,NOM formulable,ADJ fortiori a,FUNC fondamentaliste,NOM
reformation,NOM fondue,NOM fusion,NOM reformulation,NOM confusion,NOM
fondatrice,NOM informulable,ADJ formalit,NOM fondamental,ADJ fond,NOM
formoler,VERBE effondrilles,NOM efforcer,VERBE fondoir,NOM profond,ADJ
irrformable,ADJ effort,NOM formalisant,ADJ fortement,ADV informatis,ADJ fort,ADJ
formalisme,NOM prformer,VERBE irrformabilit,NOM fondamentalement,ADV
reformuler,VERBE reformer,VERBE formel,ADJ superforme,NOM fonte,NOM
informul,ADJ fusage,NOM infondre,VERBE uniformment,ADV former,VERBE
87
rformateur,ADJ conformation,NOM indformabilit,NOM fondeur,NOM
informatique,NOM fond,NOM formatif,ADJ rformage,NOM fondant,NOM
formation,NOM fondation,NOM formalisation,NOM fondu,ADJ fusionnisme,NOM
indformable,ADJ formule,NOM profondment,ADV informateur,ADJ
conformment,ADV informe,ADJ
4 /8812/ : vastit,NOM vaste,ADJ vastitude,NOM
5 tendue
6 pulvrulent
7
/233/ : accordement,NOM solidien,ADJ accolade,NOM incomplet,NOM couple,NOM
accordable,ADJ inaccord,NOM solide,ADJ pulsionnel,ADJ structuraliste,NOM
cordonnage,NOM accourci,NOM courson,NOM solidement,ADV complice,ADJ
solidit,NOM cordonnet,NOM malcommode,ADJ restructurer,VERBE recomposable,ADJ
accommodement,NOM constitution,NOM cordeler,VERBE reconstructeur,ADJ
mercerie,NOM recordage,NOM compltement,NOM accommodat,NOM cordier,ADJ
structuration,NOM corder,VERBE compulsion,NOM accouplage,NOM
raccompagnement,NOM restructuration,NOM anticonstitutionnel,ADJ
mercurochrome,NOM commode,ADJ accommodation,NOM corderie,NOM
raccorder,VERBE mercure,NOM court-circuitage,NOM cord,ADJ structuralisme,NOM
reconstituant,ADJ commercer,VERBE accord,NOM infrastructure,NOM coursonne,NOM
commerce,NOM mercantilisme,NOM dcordage,NOM incommode,ADJ courtaud,NOM
complice,NOM surcompos,ADJ reconstituable,ADJ accordailles,NOM
complter,VERBE accourcissement,NOM inconstitutionnel,ADJ cordelle,NOM
inaccompli,ADJ compagnon,NOM cordier,NOM compagne,NOM accommodant,ADJ
cordon,NOM accoler,VERBE reconstituer,VERBE consolider,VERBE
reconstruire,VERBE surcomposer,VERBE inaccompli,NOM accoupler,VERBE
mercantilisation,NOM dcordement,NOM mercantiliste,ADJ constituer,VERBE
composition,NOM mercier,NOM accorder,VERBE accompli,ADJ dcoupler,VERBE
accoupl,ADJ structuralement,FUNC pulsion,NOM accomplissement,NOM
accordant,ADJ accommodateur,ADJ accompagnateur,NOM mercuriel,ADJ
incomplte,NOM cordage,NOM structurellement,ADV cordophone,NOM cordire,NOM
compulser,VERBE incomplet,ADJ accolement,NOM accommodeuse,NOM accourci,ADJ
incommodit,NOM dcoupler,NOM encordage,NOM accompagner,VERBE
cordelier,NOM astructurel,ADJ inconfort,NOM inconvnient,NOM
incommodment,ADV reconstructeur,NOM composer,VERBE reconstructrice,NOM
confortement,NOM courtauder,VERBE cordel,ADJ compltion,NOM
inconstitutionnellement,ADV recompltement,NOM dcouple,NOM accordeur,NOM
mercantiliser,VERBE accourcie,NOM accommodante,NOM couplage,NOM
structure,NOM accommodant,NOM accolader,VERBE cordonn,ADJ structurant,ADJ
recomposer,VERBE ultrastructure,NOM cordelette,NOM accolure,NOM complet,ADJ
compulsation,NOM monocorde,ADJ accordoir,NOM accommoder,VERBE compos,ADJ
accordage,NOM accordant,NOM inaccordable,ADJ encorder,VERBE
inaccommodable,ADJ structurable,ADJ accommodage,NOM dcorder,VERBE
incompltement,ADV incompltude,NOM accolage,NOM monocorde,NOM
rtropulsion,NOM raccompagnade,NOM commodit,NOM accouplement,NOM
courtaude,NOM reconstitution,NOM consolidement,NOM solidifier,VERBE
mercanti,NOM cordeau,NOM court,ADJ courson,ADJ structuraliste,ADJ raccord,NOM
cordelire,NOM structurer,VERBE coupl,ADJ encordement,NOM accompagnateur,ADJ
surstructure,NOM accompagnement,NOM cordonner,VERBE accomplir,VERBE
accort,ADJ structurel,ADJ consolidation,NOM raccordage,NOM confort,NOM
accommodatif,ADJ inconstitutionnalit,NOM mercureux,ADJ recomplter,VERBE
anticonstitutionnellement,ADV consolid,ADJ mercantiliste,NOM courtement,ADV
dconstruction,NOM accomplisseur,NOM couplement,NOM construire,VERBE
pulser,VERBE reconstruction,NOM accommodeur,NOM accordance,NOM
88
accommodable,ADJ mercire,NOM dcoupl,ADJ accolerie,NOM complicit,NOM
coupleur,NOM construction,NOM accourcir,VERBE mercantile,ADJ corde,NOM
courtilire,NOM recorder,VERBE accompagnant,ADJ dcouplage,NOM
conforter,VERBE courtcircuiter,VERBE solidification,NOM corde,NOM
compltement,ADV dcouplement,NOM structur,ADJ commercial,ADJ
accompagnatrice,NOM courtaud,ADJ dconstruire,VERBE prcompltement,NOM
pulseur,NOM paracommercial,ADJ raccordement,NOM raccompagner,VERBE
recomposition,NOM structural,ADJ coupler,VERBE surcomposition,NOM
8
/4298/ : fragmentairement,ADV fragmentarit,NOM fragmentaire,ADJ fragment,NOM
fragmentarisme,NOM fragmenter,VERBE fragment,ADJ fragmentier,NOM
fragmentation,NOM
9 sdimentaire
10 /2621/ : coule,NOM couleur,NOM
11 mail
12
/5364/ : inutilit,NOM inutiliser,VERBE inutilement,ADV utilitariste,NOM
utilit,NOM rutiliser,VERBE utilitairement,FUNC utilisatrice,NOM utilisateur,NOM
inutile,ADJ utilitariste,ADJ utilitarisme,NOM utilitaire,ADJ utilisable,ADJ
inutilisable,ADJ utile,NOM utilisation,NOM utilisateur,ADJ inutilis,ADJ utiliser,VERBE
utilement,ADV inutilisation,NOM rutilisation,NOM utile,ADJ
13
/61/ : parallliseur,NOM antiparasite,NOM dpareill,ADJ apparatre,VERBE
parer,VERBE repassage,NOM parascve,NOM passepied,NOM reparatre,VERBE
comparatre,VERBE prparage,NOM pareuse,NOM passerelle,NOM appareil,NOM
impassable,ADJ apparition,NOM disparatre,VERBE antiparasite,ADJ passante,NOM
apparaux,NOM passavant,NOM repasser,VERBE apparat,NOM repasseur,NOM
passifier,VERBE pareur,NOM appareilleur,NOM passure,NOM paresthsie,NOM
dpasser,VERBE apparution,NOM passerine,NOM passager,VERBE parasite,NOM
passegrand,ADJ passisme,NOM passification,NOM repasseuse,NOM parader,VERBE
antiparasitaire,NOM dparer,VERBE dpassant,NOM surpasser,VERBE paratre,VERBE
passagre,NOM parage,NOM surpassement,NOM pareil,ADJ insurpass,ADJ
passoire,NOM dpassante,NOM appareiller,VERBE passe,NOM passeur,NOM
passation,NOM passiste,ADJ passade,NOM imprparation,NOM apparent,NOM
antiparasitaire,ADJ passegrande,ADJ passement,NOM passriformes,NOM repasse,NOM
passager,NOM prparer,VERBE rapparatre,VERBE imprpar,ADJ
appareillement,NOM apparoir,VERBE passablement,ADV appareill,ADJ
reparution,NOM passager,ADJ pass,NOM comparoir,VERBE prparation,NOM
indpassable,ADJ paradigme,NOM inapparent,ADJ passementer,VERBE parade,NOM
passage,NOM dpassement,NOM parution,NOM indpass,ADJ appareillage,NOM
insurpassable,ADJ rapparition,NOM apparaissance,NOM apparence,NOM passe,NOM
passant,NOM pas,NOM disparition,NOM passiste,NOM passette,NOM apparent,ADJ
pass,ADJ prparatif,NOM dpassant,ADJ impasse,NOM passereau,NOM
passeport,NOM parement,NOM passer,VERBE apparemment,ADV passant,ADJ
apparente,NOM comparution,NOM passable,ADJ
14 dsertique
15
/778/ : amortissable,ADJ amorti,ADJ amortissage,NOM amortie,NOM amorti,NOM
amortir,VERBE mortier,NOM amortissement,NOM
16
/1054/ : petite,NOM petitement,ADV rapetisser,VERBE rapetissage,NOM
petitette,ADJ rapetissement,NOM petitesse,NOM petiot,ADJ petiote,NOM petiot,NOM
petit,ADJ apetisser,VERBE petitounet,ADJ apetissement,NOM petit,NOM
17
/3021/ : nombr,ADJ dnombrement,NOM indnombrable,ADJ nombrant,ADJ
dnombrable,ADJ dnombrer,VERBE nombrage,NOM innombrable,ADJ nombreux,ADJ
nombreusement,FUNC innombrablement,ADV nombrer,VERBE numratif,ADJ
89
nombrable,ADJ nombre,NOM innombrabilit,NOM numration,NOM
18
/2401/ : claironnement,NOM clairet,ADJ clairire,NOM clair,ADJ clairvoyance,NOM
inclairvoyance,NOM clair,NOM clairvoyant,ADJ clairon,NOM claire,NOM
claironne,NOM inclairvoyant,ADJ claironnant,ADJ clairement,ADV claironner,VERBE
clairette,NOM clairsem,ADJ clairet,NOM clairsemer,VERBE claironn,ADJ
19
/1364/ : noircissage,NOM noirtre,ADJ noirot,NOM noircisseur,NOM
noircissement,NOM noiraud,ADJ noireau,NOM noire,NOM noircissant,ADJ noir,ADJ
noirien,NOM noirouffe,ADJ noirement,FUNC noirceur,NOM noircisseur,ADJ
noircisseuse,NOM noircir,VERBE noircissure,NOM noir,NOM noirin,NOM
20
/3707/ : sablonnire,NOM sablonner,VERBE sablerie,NOM sablonneux,ADJ
sabler,VERBE ensablage,NOM ensablement,NOM sablage,NOM ensabler,VERBE
sable,NOM sableux,ADJ sablonnier,NOM sablier,NOM sablon,NOM sableur,NOM
sabl,ADJ ensabl,ADJ sablire,NOM sableuse,NOM
21 dsagrgation
22
/2169/ : cavicole,NOM concavit,NOM cavit,NOM cavicole,ADJ supercavitant,ADJ
cavitaire,ADJ cavitation,NOM
23
/8754/ : urinement,NOM uriner,VERBE urinaire,ADJ urinifre,ADJ urinal,NOM
urine,NOM urination,NOM urineux,ADJ urinage,NOM urinoir,NOM
24
/291/ : survenir,VERBE aventurer,VERBE survenue,NOM revendicateur,NOM
aventureux,NOM aventureuse,NOM revertier,NOM aventure,NOM revenant,NOM
advenant,ADJ aventurier,ADJ aventureusement,ADV avenir,VERBE survenance,NOM
advenir,VERBE prvenir,VERBE aventurire,NOM revenue,NOM revendicatif,ADJ
aventurier,NOM revenu,ADJ souvenirse,VERBE venue,NOM revenant,ADJ
aventureux,ADJ avnement,NOM aventur,ADJ revendicateur,ADJ souvenance,NOM
avenir,NOM souvenir,NOM souvenir,VERBE prvention,NOM revendiquer,VERBE
msavenant,ADJ revendicatrice,NOM parvenir,VERBE revendication,NOM
revendicant,ADJ revenu,NOM revenante,NOM provenir,VERBE aventurisme,NOM
advnement,NOM revenir,VERBE venir,VERBE
25
/3081/ : rochasse,NOM rocher,NOM rocheux,ADJ drochage,NOM drocher,VERBE
roche,NOM enrochement,NOM drochement,NOM enrocher,VERBE
26
/996/ : dnaturant,NOM nature,NOM naturalisme,NOM antinaturel,ADJ
supernaturalisme,NOM dnaturalisation,NOM dnatur,ADJ extranaturel,ADJ
naturel,NOM antinaturalisme,NOM supernaturel,ADJ naturant,ADJ naturalis,NOM
naturaliser,VERBE naturellement,ADV naturaliste,ADJ surnaturel,ADJ naturiste,ADJ
dnaturement,NOM naturel,ADJ dnaturation,NOM natur,ADJ supernaturaliste,ADJ
connaturel,ADJ dnaturer,VERBE dnaturant,ADJ naturalis,ADJ naturalise,NOM
naturalit,NOM surnature,NOM naturalisation,NOM naturaliste,NOM
dnaturaliser,VERBE naturisme,NOM naturelle,NOM
27
/107/ : agrainage,NOM grainetier,NOM grainetire,NOM agrainer,VERBE grain,ADJ
graine,NOM grainier,NOM grain,NOM agrain,NOM grainire,NOM graineterie,NOM
grainasse,NOM
28
/79/ : hmiorganisme,NOM organopathie,NOM inorganisation,NOM
organiser,VERBE organicienne,NOM organe,NOM organosol,NOM rorganiser,VERBE
organogense,NOM inorganique,ADJ organiquement,ADV rorganisatrice,NOM
organotaxie,NOM organisateur,NOM organicit,NOM organisation,NOM
organostannique,ADJ organogel,NOM anorganique,ADJ orgasme,NOM orgastique,ADJ
organognse,NOM rorganisateur,NOM organisatrice,NOM inorganis,ADJ
organomtallique,ADJ hyperorganique,NOM rorganisation,NOM organisationnel,ADJ
organicisme,NOM organisable,ADJ organisme,NOM rorganisateur,ADJ
organismique,ADJ organicien,ADJ inorganisable,ADJ organique,ADJ organogne,ADJ
90
organographie,NOM organothrapie,NOM organodynamisme,NOM organisant,ADJ
organicien,NOM hyperorganisme,NOM organiciste,ADJ organis,ADJ
29 notamment
30 /9235/ : confection,NOM confectionnement,NOM confectionner,VERBE
31 beige
32
/2546/ : substance,NOM consubstantiel,ADJ insubstance,NOM insubstantiel,ADJ
consubstantialit,NOM insubstantialit,NOM transsubstantiation,NOM substantiel,ADJ
transsubstantier,VERBE
33
/3268/ : diversifier,VERBE divers,ADJ diversification,NOM diversit,NOM
diversement,ADV

91
Smme du mot clat
numro item
0
/3687/ : illumin,NOM enluminage,NOM lumineux,ADJ luminifre,ADJ
luminescent,ADJ enlumineuse,NOM illuminatrice,NOM luministe,ADJ luministe,NOM
illuminer,VERBE illumin,ADJ illuminant,ADJ lumire,NOM luminariste,NOM
illumine,NOM enluminure,NOM luminance,NOM illuminateur,NOM illumination,NOM
illuministe,ADJ lumineusement,ADV lumination,NOM luminosit,NOM
enluminer,VERBE luminaire,NOM superluminique,ADJ illuministe,NOM
illuminisme,NOM illuminateur,ADJ luminescence,NOM illumineur,NOM
enlumineur,NOM
1 bruyant
2
/524/ : munitionnaire,NOM munition,NOM munitionner,VERBE dmuni,ADJ
dmunition,NOM munir,VERBE dmunir,VERBE
3
/4974/ : manifestation,NOM monomanie,NOM immaniable,ADJ manichen,ADJ
remaniable,ADJ manifestant,NOM manifestement,ADV manieuse,NOM manifeste,ADJ
hypomanie,NOM manipulateur,NOM maniriste,ADJ manipulatrice,NOM
maniaque,NOM manifestable,ADJ manirer,VERBE maniement,NOM manirisme,NOM
manipuler,VERBE manire,NOM manichen,NOM maniriste,NOM maniaque,ADJ
manichenne,NOM manieur,NOM manie,NOM manir,ADJ maniriser,VERBE
manipulation,NOM maniaquement,FUNC tlmanipulateur,NOM manichisme,NOM
maniage,NOM manipulable,ADJ maniaquerie,NOM manier,VERBE remaniement,NOM
manifestante,NOM mani,UNDEF manifester,VERBE remanier,VERBE
4 intensit
5 rflchir
6 violent
7
/322/ : affinitaire,ADJ affinant,ADJ affin,NOM affineur,NOM affinostat,NOM
affilier,VERBE affiliation,NOM affine,NOM affiner,VERBE affineuse,NOM
affine,NOM affinoir,NOM affinement,NOM affinerie,NOM finesse,NOM affin,ADJ
confinement,NOM affinitaire,NOM affineur,ADJ affin,ADJ confinage,NOM
affination,NOM affinit,NOM confiner,VERBE superfinement,FUNC affin,NOM
affinage,NOM
8
/2585/ : intrus,NOM incorporellement,FUNC injecteur,ADJ corporit,NOM
rinjecter,VERBE introduire,VERBE corporisation,NOM rintroduire,VERBE
corporatiste,NOM surcorps,NOM intgrer,VERBE intgralisme,NOM intgration,NOM
corpusculaire,ADJ intruse,NOM incorporable,ADJ introductrice,NOM incorporer,VERBE
introniser,VERBE intgral,ADJ corporellement,ADV rincorporer,VERBE
rintroduction,NOM incorporel,ADJ corporatisme,NOM corpulence,NOM
corporatiste,ADJ corporiser,VERBE incorporation,NOM intgrabilit,NOM
injecteur,NOM rintgration,NOM intgratif,ADJ rintgrer,VERBE corporification,NOM
intgrationniste,NOM rinjection,NOM incorporant,ADJ intgrateur,NOM
rintgrable,ADJ incorporalit,NOM introducteur,NOM corporatif,ADJ corporel,ADJ
intrusion,NOM introductoire,ADJ inject,ADJ intgr,ADJ intromission,NOM
corporation,NOM rintgrande,NOM injectable,ADJ corporativement,ADV
incorporit,NOM intgrationniste,ADJ corporifier,VERBE corps,NOM
rincorporation,NOM corporence,NOM intgralement,ADV introduction,NOM
corporalit,NOM intronisation,NOM intgrale,NOM corpuscule,NOM intgrable,ADJ
corpulent,ADJ injection,NOM injecter,VERBE intrusif,ADJ
9 /6302/ : naissant,ADJ naistre,null natre,VERBE renaissant,ADJ renatre,VERBE
92
naissance,NOM renaissance,NOM
10 /8619/ : tonnerre,NOM tonnant,ADJ tonner,VERBE
11 dtach
12 /8645/ : touffe,NOM touffer se,FUNC touffer,FUNC touffette,NOM touffu,ADJ
13
/4298/ : fragmentairement,ADV fragmentarit,NOM fragmentaire,ADJ fragment,NOM
fragmentarisme,NOM fragmenter,VERBE fragment,ADJ fragmentier,NOM
fragmentation,NOM
14 surtout
15
/6427/ : renouvelante,NOM nouveau,ADJ renouvelant,ADJ nouveaut,NOM
renouveau,NOM nouvel,ADJ renouvelant,NOM nouvellet,NOM renouveler,VERBE
renouvellement,NOM renouvel,ADJ renouvelable,ADJ
16
/1862/ : brise,NOM brisis,NOM brisement,NOM bris,ADJ brisable,ADJ
brisure,NOM dbris,NOM brisant,NOM bris,NOM briser,VERBE brisant,ADJ
brisage,NOM briseur,NOM imbrisable,ADJ brisoir,NOM
17 esprit
18 caractre
19 source
20 clatement
21 ton
22 capacit
23
/818/ : analyticit,NOM analytique,NOM analogue,NOM analogique,ADJ
analyste,NOM analogicit,NOM analytique,ADJ analogiquement,ADV analogue,ADJ
inanalysablement,FUNC inanalys,ADJ inanalysable,ADJ analyse,NOM analogiste,NOM
analogie,NOM analyseur,NOM analysable,ADJ analyser,VERBE analytiquement,ADV
24 dchirement
25 mrite
26 vivacit
27
/1101/ : preneur,NOM entr'ouvrir,VERBE reproductibilit,NOM dcomposant,ADJ
reprocheur,ADJ productif,ADJ composant,ADJ reprsent,ADJ produire,VERBE
improduit,ADJ incomprhensiblement,ADV entrouvrir,VERBE reproductivit,NOM
mcomprendre,VERBE production,NOM rentr,NOM entrance,NOM
reprsentation,NOM surprise,NOM apprhendement,NOM emprisonn,ADJ
autoreproducteur,ADJ rentrayeur,NOM rentrant,NOM reprisage,NOM
mcomprhension,NOM reproductif,ADJ incomprhensible,ADJ apprsentation,NOM
prisonnier,NOM comprhension,NOM entr'ouvrement,NOM reproduire,VERBE
plexus,NOM reproductrice,NOM pris,ADJ sentimentaliste,NOM sentimentalit,NOM
surproduction,NOM entrouverture,NOM entreprise,NOM indcompos,ADJ dprise,NOM
reprographique,ADJ senti,NOM incomplexe,ADJ sentimentalisation,NOM
irreprsentable,ADJ rentrante,NOM incomprhensif,ADJ reproche,NOM
prisonnire,NOM rentrayeuse,NOM prsent,ADJ prison,NOM reprsente,NOM
prise,NOM reprsenter,VERBE prsenter,VERBE repriser,VERBE incompris,ADJ
dcomposer,VERBE reprise,NOM reprocher,VERBE prsence,NOM procs,NOM
comprhensible,ADJ reprsentante,NOM preneuse,NOM reproductivement,ADV
entrer,VERBE reprisable,ADJ rentrant,ADJ reprsentativit,NOM reprographier,VERBE
prendre,VERBE rentrage,NOM indcomposable,ADJ coproduction,NOM
dprendre,VERBE repriseur,ADJ reprochable,ADJ reprendre,VERBE imprenable,ADJ
composante,NOM prsentation,NOM reproductible,ADJ improductivement,FUNC
repriseuse,NOM coproduire,VERBE improductif,ADJ preneur,ADJ producteur,NOM
93
rprhension,NOM prhension,NOM reprsentable,ADJ senti,ADJ entrant,NOM
comprendre,VERBE reproduction,NOM rentrure,NOM entreprendre,VERBE
incomprhensibilit,NOM apprhension,NOM sentimentaliser,VERBE produit,ADJ
surproduit,NOM improductivit,NOM sentiment,NOM complexe,ADJ reprsent,NOM
reprsentatif,ADJ sentimental,ADJ prisonnier,ADJ produit,NOM reproducteur,ADJ
intercomprhension,NOM sentimentalisme,NOM entre,NOM rentre,NOM
sentir,VERBE emprisonner,VERBE dissentiment,NOM surproduire,VERBE
apprhender,VERBE rentrer,VERBE rentr,ADJ surreprsentation,NOM
apprsenter,VERBE entrant,ADJ prsent,NOM composant,NOM
reprsentativement,FUNC reproducteur,NOM incomprhension,NOM
dcomposition,NOM entrante,NOM entrepreneur,NOM emprisonnement,NOM
surprendre,VERBE apprhend,ADJ reprsentant,NOM reprographie,NOM
dcomposable,ADJ
28
/36/ : interposition,NOM interjecter,VERBE abraction,NOM soulignage,NOM
intercalage,NOM intersecter,VERBE port,NOM psychodramatique,ADJ
inintelligibilit,NOM lignage,NOM aligneur,NOM transportable,ADJ psychotrope,NOM
interruptif,ADJ imposeur,NOM interstice,NOM positionner,VERBE mdiatisation,NOM
ractiver,VERBE psychomtrique,ADJ positivement,ADV psychopathologique,ADJ
interfoliage,NOM proposition,NOM terminologie,NOM tendanciellement,FUNC
dfini,ADJ dcidment,ADV terminateur,ADJ psychanalyser,VERBE abrupt,ADJ
portire,NOM ventriculostomie,NOM tldtection,NOM inintelligent,ADJ
transport,NOM pensionnement,NOM indispensable,ADJ entendement,NOM
importable,ADJ tenter,VERBE intempestivement,ADV portement,NOM
portefeuille,NOM possessif,ADJ possibiliser,VERBE interfromtrique,ADJ
psychologue,ADJ intelligiblement,ADV aroport,NOM psycholinguistique,NOM
activation,NOM rapport,NOM surpousse,NOM ractivation,NOM intense,ADJ
pensionn,NOM abrupt,NOM actif,ADJ abragir,VERBE exposante,NOM exigible,ADJ
ligne,NOM intellectualit,NOM inactivation,NOM rtroactivement,ADV
psychiatrique,ADJ mdiateur,NOM interruptrice,NOM portatif,NOM souligner,VERBE
ractionnaire,ADJ terminaison,NOM dposement,NOM interloquer,VERBE poseur,ADJ
psychonvrotique,ADJ reposer,VERBE exporter,VERBE pensionnat,NOM lignager,NOM
interpolateur,ADJ indterminisme,NOM intelligemment,ADV portioncule,NOM
inentendu,ADJ porte,NOM psychophysiologiste,NOM hypotenseur,ADJ intensif,NOM
enligner,VERBE dposition,NOM repose,NOM approchement,NOM
prdtermination,NOM actioniste,NOM sectionnement,NOM tendu,ADJ
surcompens,ADJ psychanalyste,NOM psych,NOM interlign,ADJ
psychopdagogique,ADJ indfiniment,ADV rtroagissant,ADJ reporteur,NOM
intransportable,ADJ surtension,NOM psychothrapie,NOM hypertendu,ADJ
effranger,VERBE dterminabilit,NOM repossession,NOM pousse,NOM pension,NOM
possibilit,NOM ventriculite,NOM dpouillement,NOM tendue,NOM actinique,ADJ
psychographique,ADJ rapporteur,ADJ psychotrope,ADJ possessivit,NOM
intermdiate,NOM transporter,VERBE interpolation,NOM atermoyeur,NOM
repoussement,NOM psychologiste,ADJ psychisme,NOM align,ADJ
positionnement,NOM interventionnisme,NOM comporter,VERBE impossibilit,NOM
possessoire,NOM tente,NOM indispos,ADJ surdtermination,NOM emporter,VERBE
terminologique,ADJ psycholepsie,NOM pensionner,VERBE importer,VERBE
psychognse,NOM malintention,NOM imposant,ADJ psychologisation,NOM
dterministe,NOM interaction,NOM rcompensant,ADJ tentatif,ADJ activeur,NOM
alignement,NOM transposer,VERBE indisposition,NOM indfini,NOM dpotoir,NOM
terminateur,NOM apprciateur,NOM msinterprtation,NOM terminisme,NOM
interfromtrie,NOM poussement,NOM psycholeptique,ADJ remporter,VERBE
porteuse,NOM terminal,NOM suractif,ADJ rtroactes,NOM agissement,NOM
indterminabilit,NOM mdiat,ADJ portager,VERBE intermission,NOM
approchage,NOM indterminment,FUNC ragir,VERBE inapprciation,NOM
94
psychosomatique,ADJ exacteur,NOM transigeance,NOM tendu,NOM dcider,VERBE
ininterprt,ADJ intensif,ADJ tensionnement,NOM exposant,NOM intervenir,VERBE
poussette,NOM intellectualisation,NOM aligne,NOM prdterminer,VERBE
hyperactivit,NOM approximatif,NOM entendre,VERBE interpsychologie,NOM
indterministe,ADJ exportatrice,NOM tentement,NOM tentelette,NOM
inapprochable,ADJ interpolateur,NOM interventionniste,ADJ intelligence,NOM
inapprci,ADJ compensation,NOM suractivation,NOM actionn,ADJ intello,NOM
inapprciablement,FUNC pensionn,ADJ mdiumnit,NOM interprtatif,ADJ
apprciation,NOM psychanalys,ADJ psycholeptique,NOM portulan,NOM
rapporter,VERBE psychanalys,NOM interface,NOM inactiver,VERBE indfinie,NOM
repoussant,ADJ intellectuel,ADJ proportionner,VERBE malintentionn,ADJ
repose,NOM psychopdagogue,NOM rcompense,NOM mdiatisable,ADJ
psychothrapeute,NOM porteur,ADJ interminable,ADJ dtermin,NOM
approximer,VERBE abruptement,ADV impossible,NOM ractivit,NOM activisme,NOM
session,NOM dterministe,ADJ imposition,NOM psychognique,ADJ tendanciel,ADJ
racteur,NOM distension,NOM interfrer,VERBE franger,VERBE apprciatif,ADJ
portefeuilliste,NOM apporteur,NOM pensionnaire,NOM portire,ADJ tendage,NOM
rompeur,ADJ indfinitude,NOM intentionnaliser,VERBE psycholinguistique,ADJ
portantine,NOM lignerolle,NOM intelligentiel,ADJ portefaix,NOM ligne,NOM
positiviste,NOM exposer,VERBE compenser,VERBE actiniquement,ADV porteur,NOM
ininterprtable,ADJ tentatrice,NOM possessionnel,ADJ ractivement,FUNC
intelligentsia,NOM psychologique,ADJ rcompenseur,NOM entendeur,NOM
intensifier,VERBE porterie,NOM psychogense,NOM intenter,VERBE dtendeur,NOM
intensification,NOM compossibilit,NOM dispenser,VERBE port,NOM
prexponentiel,ADJ psychosomaticien,NOM psychique,ADJ psychopharmacologie,NOM
activateur,ADJ interpolatrice,NOM possdante,NOM suractiver,VERBE dpositoire,NOM
intensivement,ADV prhypertendu,ADJ psychodiagnostic,NOM imposance,NOM
intercder,VERBE psychiatre,NOM port,ADJ rapportage,NOM psychotique,ADJ
psychanalytique,ADJ positionniste,NOM indfinissable,ADJ psychophysiologique,ADJ
psychosomaticienne,NOM rompeuse,NOM antipsychiatrie,NOM rimposition,NOM
poussage,NOM psychosexuel,ADJ prdterminant,ADJ sectionneur,NOM
interprtante,NOM psychomtricien,NOM interprtable,ADJ dpens,NOM ractif,NOM
actif,NOM lignard,NOM intervenant,NOM portion,NOM interlocutoire,ADJ
reporter,NOM apprciable,ADJ psychologie,NOM impossiblement,FUNC
activement,ADV proche,ADJ intercepteur,NOM intercepter,VERBE tlreporter,NOM
prdterminisme,NOM msinterprter,VERBE tensionner,VERBE supraventriculaire,ADJ
rapporteuse,NOM prhypertendue,NOM psychographie,NOM actionnariat,NOM
interruption,NOM exportation,NOM terminologue,NOM intelligible,ADJ
interminablement,ADV interagir,VERBE interprtation,NOM rompement,NOM
interpoler,VERBE psychothrapique,ADJ indfini,ADJ rupturer,VERBE dposer,VERBE
psychotique,NOM exponentiellement,ADV intermin,ADJ interlignage,NOM
dterminable,ADJ mdiateur,ADJ hypertension,NOM approcher,VERBE exiger,VERBE
important,ADJ intempestivit,NOM imposer,VERBE dtenteur,NOM frangette,NOM
indterminer,VERBE intermdine,NOM apprci,ADJ inexigible,ADJ ractrice,NOM
prcieux,NOM rexporter,VERBE tendret,NOM terme,NOM repousser,VERBE
indcis,ADJ intentionnalit,NOM apprciatrice,NOM intensificateur,NOM
dterminant,ADJ pouss,ADJ pensionne,NOM dpost,NOM frange,NOM
intermdiarit,NOM acter,VERBE intentionaliser,VERBE psychoneurologue,NOM
disruptif,ADJ report,NOM portemanteau,NOM pousseuse,NOM rtroaction,NOM
psychosocial,ADJ mtapsychologie,NOM psychologiste,NOM inactif,ADJ
interligneur,NOM tende de tranche,NOM reporter,VERBE transigement,NOM
prpsychose,NOM inexigibilit,NOM actionnel,ADJ atermoiement,NOM
tlreportage,NOM exportateur,NOM tension,NOM rapporteur,NOM activit,NOM
exigence,NOM pousseur,NOM transaction,NOM distendre,VERBE inintelligence,NOM
95
possdant,ADJ portier,NOM entestement,null psychomoteur,ADJ psychodrame,NOM
intercaler,VERBE reposoir,NOM interjectif,ADJ lignomtre,NOM superposition,NOM
intensment,ADV interligne,NOM enlignement,NOM surcompenser,VERBE
intellectualisant,ADJ intermittemment,FUNC apposition,NOM positiver,VERBE
interlinaire,ADJ ractif,ADJ psychanalyse,NOM pousse,NOM rexportation,NOM
apporteuse,NOM termin,ADJ ventriculoscopie,NOM dterminant,NOM exportateur,ADJ
coaction,NOM intercalement,NOM intentionalit,NOM portelet,NOM
psychoprophylaxie,NOM poussoir,NOM frangre,NOM psychasthnie,NOM porte,ADJ
hypotension,NOM hypotensif,ADJ psychogne,ADJ polypsychisme,NOM
apposement,NOM superposable,ADJ impossible,ADJ dcision,NOM interfolier,VERBE
intelligent,ADJ interfromtre,NOM psychiatrise,NOM hypertensif,ADJ entente,NOM
interfrentiel,ADJ interpos,ADJ psychogrontologue,NOM portoir,NOM
interjectionnel,ADJ impos,ADJ psychognse,NOM rtroagir,VERBE
transposition,NOM indtermin,NOM intentionniste,NOM ligner,VERBE
psychasthnique,ADJ abracteur,NOM disposition,NOM psychose,NOM
dtermination,NOM dfinisseur,NOM psychopdagogie,NOM ventriculogramme,NOM
pose,NOM terminer,VERBE intermdiat,NOM repouss,ADJ rtrospectivement,ADV
activer,VERBE intermittent,ADJ impositionnaire,NOM intercesseur,NOM
intentionnellement,ADV poseuse,NOM reposition,NOM tensioactif,ADJ
psychobiologie,NOM tendre,VERBE tentative,NOM tensiomtre,NOM
ventriculomtrie,NOM effrangement,NOM rupture,NOM action,NOM
psychomotricit,NOM dposante,NOM psychognie,NOM lignerole,NOM
ractimtre,NOM portant,NOM dterminante,NOM hypertendu,NOM
psychonvros,NOM portionnette,NOM intello,ADJ tensionnage,NOM porte,NOM
psychiatrisation,NOM malentendu,NOM raligner,VERBE transportation,NOM
mdiatrice,NOM msentente,NOM interprte,NOM interminis,FUNC
interrompre,VERBE approximatif,ADJ psychiatris,NOM approche,NOM
dcompensation,NOM dterminer,VERBE exponentiel,ADJ psychopolynvrite,NOM
possiblement,FUNC intellectualiste,ADJ psychologue,NOM rtroactif,ADJ
intellection,NOM ventriculaire,ADJ dpt,NOM psychomoral,ADJ terminal,ADJ
transporter,NOM interligner,VERBE interstitiel,ADJ repos,NOM dpost,null
interprtariat,NOM posemtre,NOM intentionner,VERBE indcision,NOM
indfinit,NOM posage,NOM proposer,VERBE interrgne,NOM indterminable,ADJ
interfrence,NOM inaction,NOM expos,ADJ psychologiquement,ADV intermde,NOM
possibiliste,NOM ventriculographie,NOM intercession,NOM rentendre,VERBE
psychologiser,VERBE reportage,NOM activiste,NOM rexposer,VERBE mdium,NOM
lignette,NOM ractionnel,ADJ psychogramme,NOM intercalaire,NOM interposer,VERBE
dpositaire,NOM approximativement,ADV activiste,ADJ frang,ADJ dfinir,VERBE
possd,ADJ biracteur,NOM psychomtrie,NOM interruptible,ADJ apprcier,VERBE
dposant,NOM intellectuellement,ADV proportionnement,NOM prcieuse,NOM
interception,NOM surdterminer,VERBE positivation,NOM dpouiller,VERBE
actionnaire,NOM repoussage,NOM psychiatrie,NOM approch,ADJ mdiation,NOM
poussade,NOM ininterrompu,ADJ portoire,NOM inintelligible,ADJ mdiatement,ADV
acte,NOM intentionniste,ADJ intelligentzia,NOM export,NOM rapportable,ADJ
importation,NOM tensiorcepteur,NOM possesseur,NOM rompre,VERBE
psychanalyse,NOM rapprocher,VERBE positif,ADJ intellectuel,NOM agir,VERBE
intermdiat,ADJ dispositif,NOM impost,null dterminisme,NOM portable,ADJ
pousser,VERBE tenderie,NOM interprter,VERBE surintensit,NOM rimposer,VERBE
tendresse,NOM apport,NOM intellect,NOM reposement,NOM entendu,ADJ exigeant,ADJ
emportement,NOM indfinissablement,FUNC surexposition,NOM dpose,NOM
dfinissable,ADJ portail,NOM interraction,NOM dispensation,NOM
dcompenser,VERBE terminatif,ADJ intercalation,NOM intellectuelle,NOM
possible,NOM intention,NOM interfrange,NOM apprciabilit,NOM positif,NOM
section,NOM sectionnaire,NOM intervenant,ADJ dfinition,NOM rompu,ADJ
96
intervention,NOM repousseur,NOM positivisme,NOM surexposer,VERBE
parapsychologie,NOM inactinique,ADJ exponentielle,NOM interrupteur,ADJ
positionnellement,FUNC tensoriel,ADJ intentement,NOM exposition,NOM
mdiatiser,VERBE hypotenseur,NOM surimposer,VERBE hypertendue,NOM
mdiumnique,ADJ apporter,VERBE intermdiaire,ADJ intellectualiser,VERBE
poussif,ADJ ractance,NOM portuaire,ADJ reportement,NOM repos,ADJ poser,NOM
frangeuse,NOM psychomtricienne,NOM intermdiaire,NOM raction,NOM
indisponibilit,NOM intentionnel,ADJ dtermin,ADJ inactifs,NOM portal,ADJ
intensit,NOM mdioligne,ADJ importance,NOM interfrent,ADJ approchant,ADJ
suraction,NOM indterministe,NOM arotransport,NOM interjeter,VERBE
ininterruption,NOM disposer,VERBE portique,NOM intercalaire,ADJ dtendu,ADJ
active,NOM portant,ADJ transiger,VERBE actinisme,NOM portatif,ADJ
intervallaire,ADJ approchable,ADJ portionnaire,NOM rapport,NOM repossder,VERBE
ventricule,NOM dtension,NOM tentateur,NOM prportionn,ADJ prdisposition,NOM
soulignement,NOM psychonvrose,NOM superposer,VERBE intellectualiste,NOM
apposer,VERBE prcieux,ADJ tendancieusement,ADV interfacial,ADJ coactif,ADJ
rapprochant,ADJ interrupteur,NOM psychopathologie,NOM dterminatif,ADJ
possibilisation,NOM sectionner,VERBE indispensabilit,NOM possibiliste,ADJ
possession,NOM poseur,NOM dpouilleur,NOM possessionn,ADJ tendancieux,ADJ
indispensable,NOM dcisoire,ADJ disponible,ADJ possdant,NOM poser,VERBE
dcisif,ADJ poussoter,VERBE tenseur,NOM terminage,NOM approximation,NOM
rexport,NOM psychagogique,ADJ portage,NOM prdisposer,VERBE possible,ADJ
intentionn,ADJ import,NOM prdetermination,NOM indtermination,NOM
activateur,NOM intersection,NOM tentation,NOM interfaage,NOM intermezzo,NOM
surinterprtation,NOM psychologisme,NOM inapprciable,ADJ indisponible,ADJ
imposable,ADJ rompeur,NOM prdterminant,NOM psycholinguiste,NOM emport,NOM
rapprochement,NOM rapport,ADJ interjection,NOM intelligibilit,NOM reposant,ADJ
racteur,ADJ tendance,NOM intensive,NOM surcompensation,NOM psychiquement,ADV
repouss,NOM psychonvrose,NOM intermittence,NOM acticit,NOM mdiatisant,ADJ
position,NOM intellectualisme,NOM suractivit,NOM tensioactivit,NOM
interprtant,NOM positionnel,ADJ positionneur,NOM possder,VERBE possdable,ADJ
psychosociologue,NOM tensioactif,NOM exigibilit,NOM apprciateur,ADJ
redfinir,VERBE intersession,NOM dcid,ADJ repousse,NOM indisposer,VERBE
rtropoussette,NOM intellectif,ADJ psychiatriser,VERBE positivit,NOM
redfinition,NOM interventionniste,NOM positiviste,ADJ atermoyer,VERBE
dpouillage,NOM psychophysiologie,NOM aligner,VERBE psychagogie,NOM
triracteur,NOM rapproch,NOM dtendre,VERBE repoussoir,NOM
psychosociologie,NOM dpossession,NOM rexposition,NOM surimposition,NOM
actionnement,NOM intempestif,ADJ inintelligiblement,ADV dpossder,VERBE
transport,ADJ dtente,NOM inactivit,NOM intentionnalisation,NOM indtermin,ADJ
superstructure,NOM rcompenser,VERBE ralignement,NOM portabilit,NOM
exaction,NOM apprciablement,ADV tentateur,ADJ tendeur,NOM intervalle,NOM
actionner,VERBE porter,VERBE comportement,NOM
29
/1651/ : donnant,ADJ donnable,ADJ ddoublure,NOM dorage,NOM donation,NOM
codonataire,ADJ double,NOM surdorer,VERBE bidonne,NOM codonateur,NOM
doublure,NOM donne,NOM double,ADJ redoubler,VERBE surdorure,NOM
redonder,VERBE redonner,VERBE doublement,NOM ddoublage,NOM doublier,NOM
donneuse,NOM doubl,NOM redorer,VERBE donataire,NOM redondance,NOM
donneur,NOM doublet,NOM redoublage,NOM doublage,NOM redorure,NOM
redondant,ADJ redoublement,NOM redoublante,NOM doubler,VERBE doublon,NOM
redorage,NOM donner,VERBE dorure,NOM doubleur,NOM dorer,VERBE doubl,ADJ
doubleuse,NOM donateur,NOM ddoublement,NOM double,NOM doublement,ADV
redoublant,NOM donatrice,NOM doreuse,NOM ddoubler,VERBE doreur,NOM
codonataire,NOM don,NOM redoubl,ADJ
97
30 tat
31
/7339/ : querelle,NOM querelleuse,NOM querelleur,NOM querelleur,ADJ
quereller,VERBE
32
/1886/ : bruire,VERBE bruissant,ADJ bruiter,VERBE bruit,NOM
bruissaillement,NOM bruisser,VERBE bruitage,NOM bruissailler,VERBE
bruissement,NOM bruiteur,NOM
33
/4550/ : glorifier,VERBE glorifiable,ADJ glorieux,ADJ glorifiant,ADJ
glorieusement,ADV glorificateur,NOM glorieuset,NOM glorificateur,ADJ
glorificatrice,NOM glorification,NOM
34
/309/ : faillibilit,NOM refaonnement,NOM dfaitisme,NOM redfaire,VERBE
dfaitiste,ADJ fabrique,NOM affaireux,ADJ fabricatrice,NOM prfabriqu,ADJ
mfaire,VERBE refait,NOM fabrication,NOM refaiseuse,NOM dfaitiste,NOM
factieuse,NOM mfait,NOM faillir,VERBE dfaillance,NOM faonnerie,NOM
facturer,VERBE fautivement,ADV dfaillement,NOM faillite,NOM faonnier,NOM
dfaonner,VERBE falloir,VERBE dfaillir,VERBE fabricant,NOM affaire,NOM
refaiseur,NOM faillie,NOM prfabriqu,NOM affairiste,NOM fabricateur,NOM
dfait,ADJ fait,NOM faillible,ADJ factionnaire,NOM facturation,NOM
prfabrication,NOM refaire,VERBE rfection,NOM refaonner,VERBE
prfabriquer,VERBE fauter,VERBE parfaire,VERBE surfacturer,VERBE
refaonnage,NOM facture,NOM faction,NOM dfaillant,ADJ fabriquer,VERBE
faute,NOM failli,NOM faonnier,ADJ faon,NOM faire,NOM refabriquer,VERBE
factieux,NOM faonnage,NOM faire,VERBE malfaonn,ADJ dfaite,NOM
fabricante,NOM faonnire,NOM fabricien,NOM rfectionner,VERBE faonner,VERBE
failli,ADJ fautif,ADJ factionnaire,ADJ dfaire,VERBE refabrication,NOM dfaut,NOM
refaonneur,NOM surfacturation,NOM factieux,ADJ faonnement,NOM
35 lumire
36
/7912/ : scandaleusement,ADV scandaliser,VERBE scandaleux,ADJ scandale,NOM
scandalisation,NOM scandalis,ADJ
37
/1000/ : parlure,NOM parlement,NOM parler,VERBE parlerie,NOM
antiparlementaire,NOM reparler,VERBE parler,NOM parlementaire,ADJ parlage,NOM
antiparlementaire,ADJ parole,NOM antiparlementarisme,NOM dparler,VERBE
prparole,NOM
38
/1856/ : brillantiner,VERBE brillante,NOM brillement,NOM brillance,NOM
brillamment,ADV brillant,NOM briller,VERBE brillantage,NOM brillant,ADJ
brillantine,NOM brillanter,VERBE brillant,ADJ brillotter,VERBE brilloter,VERBE
brillant,NOM
39
/371/ : draciner,VERBE enracin,ADJ raciner,VERBE racinienne,NOM
racinement,NOM enracinement,NOM dracinage,NOM racinage,NOM enraciner,VERBE
racine,NOM dracineur,NOM racinien,NOM indracinablement,FUNC indracinable,ADJ
racin,ADJ racinaire,ADJ racinien,ADJ dracinement,NOM
40
/52/ : aboyant,ADJ aboi,NOM aboyer,VERBE aboyeuse,NOM aboyeur,ADJ
aboyant,NOM aboyante,NOM aboyeur,NOM aboiement,NOM
41 /6477/ : obtenir,VERBE obtenable,ADJ obtention,NOM
42
/7610/ : tapecu,NOM tape,NOM tapeur,NOM tapette,NOM retapeuse,NOM
retaper,VERBE tapager,VERBE retapeur,NOM tapageusement,FUNC retape,NOM
tapement,NOM tapeuse,NOM tapecul,NOM retapage,NOM taper,VERBE tapage,NOM
tapageur,ADJ
43
/304/ : planidre,ADJ planitude,NOM planificateur,ADJ plan,ADJ replant,NOM
plantaire,ADJ planiste,NOM plant,NOM implantateur,NOM implant,NOM
planchiage,NOM planit,NOM planimtre,NOM implanteur,NOM planeur,NOM
98
complanter,VERBE plantain,NOM planant,ADJ planipennes,NOM complantage,NOM
plantigrades,NOM planimtrie,NOM plantier,NOM implantable,ADJ monoplan,NOM
planteur,NOM plantation,NOM plantigrade,NOM aplani,ADJ plantule,NOM biplan,ADJ
planifier,VERBE plante,NOM planoir,NOM planigraphe,NOM planning,NOM
planton,NOM planchiste,NOM planit,NOM planchier,VERBE planificatrice,NOM
dplanter,VERBE planche,NOM dplantoir,NOM complantation,NOM planisme,NOM
planimtrique,ADJ plan,ADJ planchette,NOM coplanaire,ADJ plantagines,NOM
aplanissement,NOM implantation,NOM dplantage,NOM plantoir,NOM
planification,NOM planter,VERBE implanter,VERBE plantaginaces,NOM planage,NOM
planipenne,ADJ plane,NOM aroplane,NOM planisphre,NOM planon,NOM
plan,NOM plan,NOM planteuse,NOM rimplantation,NOM plant,NOM
planificateur,NOM planement,NOM aplanisseuse,NOM triplan,ADJ dplantation,NOM
plancher,NOM plantage,NOM aplanisseur,NOM plantaison,NOM aplanir,VERBE
diplanthre,NOM planerie,NOM plantigrade,ADJ rimplanter,VERBE planer,VERBE
planeur,ADJ planure,NOM complant,NOM planipenne,NOM planigramme,NOM
planipennes,ADJ
44
/5375/ : viol,NOM inviolablement,ADV inviolabilit,NOM violer,VERBE
violation,NOM violateur,NOM violemment,ADV violenter,VERBE violeuse,NOM
violence,NOM violeur,NOM inviolable,ADJ violatrice,NOM violement,NOM
violable,ADJ inviol,ADJ
45
/4051/ : exploser,VERBE explosif,ADJ explosible,ADJ inexplosible,ADJ
explosion,NOM

99
Smme du mot or
numro item
0
/61/ : parallliseur,NOM antiparasite,NOM dpareill,ADJ apparatre,VERBE
parer,VERBE repassage,NOM parascve,NOM passepied,NOM reparatre,VERBE
comparatre,VERBE prparage,NOM pareuse,NOM passerelle,NOM appareil,NOM
impassable,ADJ apparition,NOM disparatre,VERBE antiparasite,ADJ passante,NOM
apparaux,NOM passavant,NOM repasser,VERBE apparat,NOM repasseur,NOM
passifier,VERBE pareur,NOM appareilleur,NOM passure,NOM paresthsie,NOM
dpasser,VERBE apparution,NOM passerine,NOM passager,VERBE parasite,NOM
passegrand,ADJ passisme,NOM passification,NOM repasseuse,NOM parader,VERBE
antiparasitaire,NOM dparer,VERBE dpassant,NOM surpasser,VERBE paratre,VERBE
passagre,NOM parage,NOM surpassement,NOM pareil,ADJ insurpass,ADJ
passoire,NOM dpassante,NOM appareiller,VERBE passe,NOM passeur,NOM
passation,NOM passiste,ADJ passade,NOM imprparation,NOM apparent,NOM
antiparasitaire,ADJ passegrande,ADJ passement,NOM passriformes,NOM repasse,NOM
passager,NOM prparer,VERBE rapparatre,VERBE imprpar,ADJ
appareillement,NOM apparoir,VERBE passablement,ADV appareill,ADJ
reparution,NOM passager,ADJ pass,NOM comparoir,VERBE prparation,NOM
indpassable,ADJ paradigme,NOM inapparent,ADJ passementer,VERBE parade,NOM
passage,NOM dpassement,NOM parution,NOM indpass,ADJ appareillage,NOM
insurpassable,ADJ rapparition,NOM apparaissance,NOM apparence,NOM passe,NOM
passant,NOM pas,NOM disparition,NOM passiste,NOM passette,NOM apparent,ADJ
pass,ADJ prparatif,NOM dpassant,ADJ impasse,NOM passereau,NOM
passeport,NOM parement,NOM passer,VERBE apparemment,ADV passant,ADJ
apparente,NOM comparution,NOM passable,ADJ
1 reconnatre
2 montaire
3 /7500/ : reflet,NOM refltement,NOM reflter,VERBE
4 clat
5 /7424/ : rarement,ADV rare,ADJ
6
/1093/ : rappeleur,NOM rappel,ADJ appelant,ADJ appeleur,ADJ appellatif,ADJ
appellation,NOM appel,NOM rappeler,VERBE appeler,VERBE rappeleuse,NOM
rappelable,ADJ rappel,NOM appel,NOM appeler,NOM appele,NOM appelante,NOM
rappel,NOM appel,ADJ appelable,ADJ appelant,NOM appeau,NOM
7 caractre
8 mallable
9
/385/ : feuilletis,NOM feuillet,NOM feuilletonisation,NOM feuilleter,VERBE
feuillantine,NOM effeuillaison,NOM feuiller,VERBE feuilletage,NOM feuillette,NOM
feuille,NOM enfeuiller,VERBE feuilleteur,NOM feuillet,NOM dfeuillaison,NOM
effeuilleuse,NOM dfeuillage,NOM effeuilles,NOM feuill,NOM effeuilleur,NOM
feuillage,NOM feuilleton,NOM feuillagiste,NOM feuillaison,NOM
feuilletonniser,VERBE feuillet,ADJ effeuiller,VERBE feuilleux,ADJ feuillardier,NOM
feuillu,ADJ feuille,NOM feuilloler,VERBE effeuillement,NOM dfeuillement,NOM
dfeuiller,VERBE feuillard,NOM effeuillage,NOM prfeuille,NOM feuill,ADJ
feuillade,NOM feuilletement,NOM feuilliste,NOM feuillag,ADJ feuilletoniser,VERBE
feuilletoniste,NOM
10 ppite
11 inaltrable
12 gnralement
100
13 fil
14 natif
15 non
16
/3703/ : enrichissement,NOM richard,NOM richissime,ADJ enrichir,VERBE
enrichissant,ADJ richarde,NOM richement,ADV enrichi,ADJ richesse,NOM riche,ADJ
17 panouissement
18 mou
19 priode
20 reprsenter
21
/2399/ : civilisation,NOM incivilit,NOM civilisable,ADJ civilis,ADJ civil,NOM
civilit,NOM incivil,ADJ civiliser,VERBE incivilisable,ADJ incivilisation,NOM
incivilis,ADJ civilement,ADV civilisateur,ADJ civil,ADJ incivilement,FUNC
22
/679/ : alli,ADJ superalliage,NOM inalliable,ADJ alli,NOM rallye,NOM
allier,VERBE interalli,ADJ msalliance,NOM rallier,VERBE allie,NOM alliage,NOM
alliable,ADJ ralliable,ADJ msallier,VERBE ralliement,NOM alliance,NOM allianc,ADJ
23 duret
24
/3036/ : repenti,ADJ dpeindre,VERBE repeindre,VERBE repeint,NOM
empeinturlurer,VERBE peintresse,NOM peinture,NOM peinturlurer,VERBE
repenti,NOM peindre,VERBE peint,ADJ peinturlureur,NOM peinturage,NOM
peinturlurage,NOM repentie,NOM repentant,NOM repentante,NOM peinturlureuse,NOM
peinturer,VERBE peintre,NOM repeinture,NOM peinturier,NOM peinturlure,NOM
peintureur,NOM repentir,VERBE repentant,ADJ repentir,NOM peintriot,NOM
peinte,ADJ
25 art
26
/126/ : chausson,NOM chaud,NOM chauffer,VERBE rchauffoir,NOM
chaudire,NOM prchauffer,VERBE dchaussoir,NOM surchauffe,NOM
chaudronne,NOM chaudronnire,NOM prchauffe,NOM chaudronnier,NOM
rechaussement,NOM changisme,NOM chaussette,NOM changeur,NOM
changeable,ADJ chausser,VERBE rchauffeur,NOM cochangiste,NOM
chausseterie,NOM rchauffement,NOM dchaussement,NOM chaud,ADJ chaudron,NOM
chauffeur,NOM chaudronnerie,NOM chaude,NOM surchauffement,NOM changiste,ADJ
chaussure,NOM chauffoir,NOM rchauffer,VERBE chaufferette,NOM
prchauffage,NOM chaudement,ADV rchauff,ADJ chauffement,NOM change,NOM
inchangeable,ADJ dchauss,ADJ chaussonnier,NOM changer,VERBE
rechausser,VERBE surchauffage,NOM rchauff,NOM rchauffage,NOM chauff,ADJ
rechaussage,NOM dchaussage,NOM changiste,NOM chauffant,ADJ chaudronn,ADJ
chauffage,NOM achaudi,ADJ chaufferie,NOM changement,NOM surchauffer,VERBE
rchaud,NOM chaussant,ADJ chauffe,NOM changeuse,NOM chaussage,NOM
chausseur,NOM dchausser,VERBE chaussetterie,NOM chauffeuse,NOM
27
/3715/ : ensoleill,ADJ soleillage,NOM solarimtre,NOM soleille,NOM
soleiller,VERBE insolation,NOM solaire,ADJ soleilleux,ADJ soleil,NOM soleillade,NOM
insolateur,NOM ensoleillement,NOM solariser,VERBE solarigraphe,NOM
insoler,VERBE ensoleiller,VERBE ensoleillage,NOM soleill,ADJ solarisation,NOM
parasoleil,NOM
28
/1430/ : imprvoyance,NOM improvisateur,ADJ entrevoir,VERBE revuiste,NOM
improvisade,NOM entrevision,NOM avoir,VERBE imprvue,NOM reviseur,NOM
visionneur,NOM impromptu,NOM prvision,NOM improviser,VERBE revisible,ADJ
revoir,VERBE avoine,NOM voir,VERBE vue,NOM imprvoyant,ADJ revoyure,NOM
ravoir,VERBE prvoyance,NOM improviste,FUNC prvoir,VERBE improviste l',FUNC
101
improvisateur,NOM revisable,ADJ voirie,NOM revision,NOM rvision,NOM
vision,NOM rviser,VERBE visionnaire,ADJ visionnement,NOM impromptu,ADJ
imprvu,NOM prvisible,ADJ visibilit,NOM revue,NOM imprvisibilit,NOM
improvisant,ADJ imprvu,ADJ avoiner,VERBE imprvisible,ADJ visible,NOM
voir,NOM improvisement,NOM improvisation,NOM avoin,ADJ imprvision,NOM
visionnarisme,NOM visionner,VERBE visionnaire,NOM imprvoyable,ADJ
improvisatrice,NOM imprvisiblement,FUNC visionnage,NOM reviser,VERBE
29 luxe
30
/5034/ : imitatif,ADJ imitateur,NOM imitateur,ADJ inimitabilit,NOM inimitable,ADJ
inimit,ADJ imitable,ADJ imiter,VERBE imitation,NOM imitabilit,NOM
imitatrice,NOM inimitablement,FUNC
31
/5364/ : inutilit,NOM inutiliser,VERBE inutilement,ADV utilitariste,NOM
utilit,NOM rutiliser,VERBE utilitairement,FUNC utilisatrice,NOM utilisateur,NOM
inutile,ADJ utilitariste,ADJ utilitarisme,NOM utilitaire,ADJ utilisable,ADJ
inutilisable,ADJ utile,NOM utilisation,NOM utilisateur,ADJ inutilis,ADJ utiliser,VERBE
utilement,ADV inutilisation,NOM rutilisation,NOM utile,ADJ
32
/4004/ : exceptionnellement,ADV excellentissime,ADJ except,ADJ excellence,NOM
exception,NOM prexcellence,NOM exceptionnel,ADJ exceptionnel,NOM
excepter,VERBE excellent,ADJ excellemment,ADV exceller,VERBE
33 compos
34
/3021/ : nombr,ADJ dnombrement,NOM indnombrable,ADJ nombrant,ADJ
dnombrable,ADJ dnombrer,VERBE nombrage,NOM innombrable,ADJ nombreux,ADJ
nombreusement,FUNC innombrablement,ADV nombrer,VERBE numratif,ADJ
nombrable,ADJ nombre,NOM innombrabilit,NOM numration,NOM
35
/352/ : jauniot,ADJ jaunissure,NOM jaunisse,NOM jaunet,ADJ jaunissement,NOM
jaunasse,ADJ jaunissant,ADJ jaune,NOM jaune,ADJ jaunissage,NOM jaunir,VERBE
jaunet,NOM jauntre,ADJ
36 mtal
37
/1067/ : platybasie,NOM plate,NOM platymrie,NOM plate,NOM
aplatissement,NOM aplatisseur,NOM platinides,NOM platiner,VERBE platerie,NOM
platichlorhydrique,NOM platycphale,ADJ platine,NOM platoammine,NOM
platinose,NOM platymre,ADJ platin,ADJ aplati,ADJ plat,ADJ platinotypie,NOM
platichlorure,NOM aplatissoir,NOM platycnmie,NOM plathelminthes,NOM
aplatissant,ADJ platination,NOM platinite,NOM platinode,NOM plateau,NOM
aplatir,VERBE platiniser,VERBE platinure,NOM platycphale,NOM aplatissoire,NOM
platiammine,NOM platinifre,NOM platitude,NOM platiniridium,NOM platineux,ADJ
platire,NOM aplatissage,NOM plat,NOM platinage,NOM aplat,NOM platymre,NOM
platycphalie,NOM platinique,ADJ
38 clart
39
/2539/ : densimtrique,ADJ densimtre,NOM densifier,VERBE dense,ADJ
condens,ADJ densification,NOM condenser,VERBE densment,ADV densit,NOM
surdensit,NOM densimtrie,NOM condensation,NOM
40
/36/ : interposition,NOM interjecter,VERBE abraction,NOM soulignage,NOM
intercalage,NOM intersecter,VERBE port,NOM psychodramatique,ADJ
inintelligibilit,NOM lignage,NOM aligneur,NOM transportable,ADJ psychotrope,NOM
interruptif,ADJ imposeur,NOM interstice,NOM positionner,VERBE mdiatisation,NOM
ractiver,VERBE psychomtrique,ADJ positivement,ADV psychopathologique,ADJ
interfoliage,NOM proposition,NOM terminologie,NOM tendanciellement,FUNC
dfini,ADJ dcidment,ADV terminateur,ADJ psychanalyser,VERBE abrupt,ADJ
portire,NOM ventriculostomie,NOM tldtection,NOM inintelligent,ADJ
102
transport,NOM pensionnement,NOM indispensable,ADJ entendement,NOM
importable,ADJ tenter,VERBE intempestivement,ADV portement,NOM
portefeuille,NOM possessif,ADJ possibiliser,VERBE interfromtrique,ADJ
psychologue,ADJ intelligiblement,ADV aroport,NOM psycholinguistique,NOM
activation,NOM rapport,NOM surpousse,NOM ractivation,NOM intense,ADJ
pensionn,NOM abrupt,NOM actif,ADJ abragir,VERBE exposante,NOM exigible,ADJ
ligne,NOM intellectualit,NOM inactivation,NOM rtroactivement,ADV
psychiatrique,ADJ mdiateur,NOM interruptrice,NOM portatif,NOM souligner,VERBE
ractionnaire,ADJ terminaison,NOM dposement,NOM interloquer,VERBE poseur,ADJ
psychonvrotique,ADJ reposer,VERBE exporter,VERBE pensionnat,NOM lignager,NOM
interpolateur,ADJ indterminisme,NOM intelligemment,ADV portioncule,NOM
inentendu,ADJ porte,NOM psychophysiologiste,NOM hypotenseur,ADJ intensif,NOM
enligner,VERBE dposition,NOM repose,NOM approchement,NOM
prdtermination,NOM actioniste,NOM sectionnement,NOM tendu,ADJ
surcompens,ADJ psychanalyste,NOM psych,NOM interlign,ADJ
psychopdagogique,ADJ indfiniment,ADV rtroagissant,ADJ reporteur,NOM
intransportable,ADJ surtension,NOM psychothrapie,NOM hypertendu,ADJ
effranger,VERBE dterminabilit,NOM repossession,NOM pousse,NOM pension,NOM
possibilit,NOM ventriculite,NOM dpouillement,NOM tendue,NOM actinique,ADJ
psychographique,ADJ rapporteur,ADJ psychotrope,ADJ possessivit,NOM
intermdiate,NOM transporter,VERBE interpolation,NOM atermoyeur,NOM
repoussement,NOM psychologiste,ADJ psychisme,NOM align,ADJ
positionnement,NOM interventionnisme,NOM comporter,VERBE impossibilit,NOM
possessoire,NOM tente,NOM indispos,ADJ surdtermination,NOM emporter,VERBE
terminologique,ADJ psycholepsie,NOM pensionner,VERBE importer,VERBE
psychognse,NOM malintention,NOM imposant,ADJ psychologisation,NOM
dterministe,NOM interaction,NOM rcompensant,ADJ tentatif,ADJ activeur,NOM
alignement,NOM transposer,VERBE indisposition,NOM indfini,NOM dpotoir,NOM
terminateur,NOM apprciateur,NOM msinterprtation,NOM terminisme,NOM
interfromtrie,NOM poussement,NOM psycholeptique,ADJ remporter,VERBE
porteuse,NOM terminal,NOM suractif,ADJ rtroactes,NOM agissement,NOM
indterminabilit,NOM mdiat,ADJ portager,VERBE intermission,NOM
approchage,NOM indterminment,FUNC ragir,VERBE inapprciation,NOM
psychosomatique,ADJ exacteur,NOM transigeance,NOM tendu,NOM dcider,VERBE
ininterprt,ADJ intensif,ADJ tensionnement,NOM exposant,NOM intervenir,VERBE
poussette,NOM intellectualisation,NOM aligne,NOM prdterminer,VERBE
hyperactivit,NOM approximatif,NOM entendre,VERBE interpsychologie,NOM
indterministe,ADJ exportatrice,NOM tentement,NOM tentelette,NOM
inapprochable,ADJ interpolateur,NOM interventionniste,ADJ intelligence,NOM
inapprci,ADJ compensation,NOM suractivation,NOM actionn,ADJ intello,NOM
inapprciablement,FUNC pensionn,ADJ mdiumnit,NOM interprtatif,ADJ
apprciation,NOM psychanalys,ADJ psycholeptique,NOM portulan,NOM
rapporter,VERBE psychanalys,NOM interface,NOM inactiver,VERBE indfinie,NOM
repoussant,ADJ intellectuel,ADJ proportionner,VERBE malintentionn,ADJ
repose,NOM psychopdagogue,NOM rcompense,NOM mdiatisable,ADJ
psychothrapeute,NOM porteur,ADJ interminable,ADJ dtermin,NOM
approximer,VERBE abruptement,ADV impossible,NOM ractivit,NOM activisme,NOM
session,NOM dterministe,ADJ imposition,NOM psychognique,ADJ tendanciel,ADJ
racteur,NOM distension,NOM interfrer,VERBE franger,VERBE apprciatif,ADJ
portefeuilliste,NOM apporteur,NOM pensionnaire,NOM portire,ADJ tendage,NOM
rompeur,ADJ indfinitude,NOM intentionnaliser,VERBE psycholinguistique,ADJ
portantine,NOM lignerolle,NOM intelligentiel,ADJ portefaix,NOM ligne,NOM
positiviste,NOM exposer,VERBE compenser,VERBE actiniquement,ADV porteur,NOM
ininterprtable,ADJ tentatrice,NOM possessionnel,ADJ ractivement,FUNC
103
intelligentsia,NOM psychologique,ADJ rcompenseur,NOM entendeur,NOM
intensifier,VERBE porterie,NOM psychogense,NOM intenter,VERBE dtendeur,NOM
intensification,NOM compossibilit,NOM dispenser,VERBE port,NOM
prexponentiel,ADJ psychosomaticien,NOM psychique,ADJ psychopharmacologie,NOM
activateur,ADJ interpolatrice,NOM possdante,NOM suractiver,VERBE dpositoire,NOM
intensivement,ADV prhypertendu,ADJ psychodiagnostic,NOM imposance,NOM
intercder,VERBE psychiatre,NOM port,ADJ rapportage,NOM psychotique,ADJ
psychanalytique,ADJ positionniste,NOM indfinissable,ADJ psychophysiologique,ADJ
psychosomaticienne,NOM rompeuse,NOM antipsychiatrie,NOM rimposition,NOM
poussage,NOM psychosexuel,ADJ prdterminant,ADJ sectionneur,NOM
interprtante,NOM psychomtricien,NOM interprtable,ADJ dpens,NOM ractif,NOM
actif,NOM lignard,NOM intervenant,NOM portion,NOM interlocutoire,ADJ
reporter,NOM apprciable,ADJ psychologie,NOM impossiblement,FUNC
activement,ADV proche,ADJ intercepteur,NOM intercepter,VERBE tlreporter,NOM
prdterminisme,NOM msinterprter,VERBE tensionner,VERBE supraventriculaire,ADJ
rapporteuse,NOM prhypertendue,NOM psychographie,NOM actionnariat,NOM
interruption,NOM exportation,NOM terminologue,NOM intelligible,ADJ
interminablement,ADV interagir,VERBE interprtation,NOM rompement,NOM
interpoler,VERBE psychothrapique,ADJ indfini,ADJ rupturer,VERBE dposer,VERBE
psychotique,NOM exponentiellement,ADV intermin,ADJ interlignage,NOM
dterminable,ADJ mdiateur,ADJ hypertension,NOM approcher,VERBE exiger,VERBE
important,ADJ intempestivit,NOM imposer,VERBE dtenteur,NOM frangette,NOM
indterminer,VERBE intermdine,NOM apprci,ADJ inexigible,ADJ ractrice,NOM
prcieux,NOM rexporter,VERBE tendret,NOM terme,NOM repousser,VERBE
indcis,ADJ intentionnalit,NOM apprciatrice,NOM intensificateur,NOM
dterminant,ADJ pouss,ADJ pensionne,NOM dpost,NOM frange,NOM
intermdiarit,NOM acter,VERBE intentionaliser,VERBE psychoneurologue,NOM
disruptif,ADJ report,NOM portemanteau,NOM pousseuse,NOM rtroaction,NOM
psychosocial,ADJ mtapsychologie,NOM psychologiste,NOM inactif,ADJ
interligneur,NOM tende de tranche,NOM reporter,VERBE transigement,NOM
prpsychose,NOM inexigibilit,NOM actionnel,ADJ atermoiement,NOM
tlreportage,NOM exportateur,NOM tension,NOM rapporteur,NOM activit,NOM
exigence,NOM pousseur,NOM transaction,NOM distendre,VERBE inintelligence,NOM
possdant,ADJ portier,NOM entestement,null psychomoteur,ADJ psychodrame,NOM
intercaler,VERBE reposoir,NOM interjectif,ADJ lignomtre,NOM superposition,NOM
intensment,ADV interligne,NOM enlignement,NOM surcompenser,VERBE
intellectualisant,ADJ intermittemment,FUNC apposition,NOM positiver,VERBE
interlinaire,ADJ ractif,ADJ psychanalyse,NOM pousse,NOM rexportation,NOM
apporteuse,NOM termin,ADJ ventriculoscopie,NOM dterminant,NOM exportateur,ADJ
coaction,NOM intercalement,NOM intentionalit,NOM portelet,NOM
psychoprophylaxie,NOM poussoir,NOM frangre,NOM psychasthnie,NOM porte,ADJ
hypotension,NOM hypotensif,ADJ psychogne,ADJ polypsychisme,NOM
apposement,NOM superposable,ADJ impossible,ADJ dcision,NOM interfolier,VERBE
intelligent,ADJ interfromtre,NOM psychiatrise,NOM hypertensif,ADJ entente,NOM
interfrentiel,ADJ interpos,ADJ psychogrontologue,NOM portoir,NOM
interjectionnel,ADJ impos,ADJ psychognse,NOM rtroagir,VERBE
transposition,NOM indtermin,NOM intentionniste,NOM ligner,VERBE
psychasthnique,ADJ abracteur,NOM disposition,NOM psychose,NOM
dtermination,NOM dfinisseur,NOM psychopdagogie,NOM ventriculogramme,NOM
pose,NOM terminer,VERBE intermdiat,NOM repouss,ADJ rtrospectivement,ADV
activer,VERBE intermittent,ADJ impositionnaire,NOM intercesseur,NOM
intentionnellement,ADV poseuse,NOM reposition,NOM tensioactif,ADJ
psychobiologie,NOM tendre,VERBE tentative,NOM tensiomtre,NOM
ventriculomtrie,NOM effrangement,NOM rupture,NOM action,NOM
104
psychomotricit,NOM dposante,NOM psychognie,NOM lignerole,NOM
ractimtre,NOM portant,NOM dterminante,NOM hypertendu,NOM
psychonvros,NOM portionnette,NOM intello,ADJ tensionnage,NOM porte,NOM
psychiatrisation,NOM malentendu,NOM raligner,VERBE transportation,NOM
mdiatrice,NOM msentente,NOM interprte,NOM interminis,FUNC
interrompre,VERBE approximatif,ADJ psychiatris,NOM approche,NOM
dcompensation,NOM dterminer,VERBE exponentiel,ADJ psychopolynvrite,NOM
possiblement,FUNC intellectualiste,ADJ psychologue,NOM rtroactif,ADJ
intellection,NOM ventriculaire,ADJ dpt,NOM psychomoral,ADJ terminal,ADJ
transporter,NOM interligner,VERBE interstitiel,ADJ repos,NOM dpost,null
interprtariat,NOM posemtre,NOM intentionner,VERBE indcision,NOM
indfinit,NOM posage,NOM proposer,VERBE interrgne,NOM indterminable,ADJ
interfrence,NOM inaction,NOM expos,ADJ psychologiquement,ADV intermde,NOM
possibiliste,NOM ventriculographie,NOM intercession,NOM rentendre,VERBE
psychologiser,VERBE reportage,NOM activiste,NOM rexposer,VERBE mdium,NOM
lignette,NOM ractionnel,ADJ psychogramme,NOM intercalaire,NOM interposer,VERBE
dpositaire,NOM approximativement,ADV activiste,ADJ frang,ADJ dfinir,VERBE
possd,ADJ biracteur,NOM psychomtrie,NOM interruptible,ADJ apprcier,VERBE
dposant,NOM intellectuellement,ADV proportionnement,NOM prcieuse,NOM
interception,NOM surdterminer,VERBE positivation,NOM dpouiller,VERBE
actionnaire,NOM repoussage,NOM psychiatrie,NOM approch,ADJ mdiation,NOM
poussade,NOM ininterrompu,ADJ portoire,NOM inintelligible,ADJ mdiatement,ADV
acte,NOM intentionniste,ADJ intelligentzia,NOM export,NOM rapportable,ADJ
importation,NOM tensiorcepteur,NOM possesseur,NOM rompre,VERBE
psychanalyse,NOM rapprocher,VERBE positif,ADJ intellectuel,NOM agir,VERBE
intermdiat,ADJ dispositif,NOM impost,null dterminisme,NOM portable,ADJ
pousser,VERBE tenderie,NOM interprter,VERBE surintensit,NOM rimposer,VERBE
tendresse,NOM apport,NOM intellect,NOM reposement,NOM entendu,ADJ exigeant,ADJ
emportement,NOM indfinissablement,FUNC surexposition,NOM dpose,NOM
dfinissable,ADJ portail,NOM interraction,NOM dispensation,NOM
dcompenser,VERBE terminatif,ADJ intercalation,NOM intellectuelle,NOM
possible,NOM intention,NOM interfrange,NOM apprciabilit,NOM positif,NOM
section,NOM sectionnaire,NOM intervenant,ADJ dfinition,NOM rompu,ADJ
intervention,NOM repousseur,NOM positivisme,NOM surexposer,VERBE
parapsychologie,NOM inactinique,ADJ exponentielle,NOM interrupteur,ADJ
positionnellement,FUNC tensoriel,ADJ intentement,NOM exposition,NOM
mdiatiser,VERBE hypotenseur,NOM surimposer,VERBE hypertendue,NOM
mdiumnique,ADJ apporter,VERBE intermdiaire,ADJ intellectualiser,VERBE
poussif,ADJ ractance,NOM portuaire,ADJ reportement,NOM repos,ADJ poser,NOM
frangeuse,NOM psychomtricienne,NOM intermdiaire,NOM raction,NOM
indisponibilit,NOM intentionnel,ADJ dtermin,ADJ inactifs,NOM portal,ADJ
intensit,NOM mdioligne,ADJ importance,NOM interfrent,ADJ approchant,ADJ
suraction,NOM indterministe,NOM arotransport,NOM interjeter,VERBE
ininterruption,NOM disposer,VERBE portique,NOM intercalaire,ADJ dtendu,ADJ
active,NOM portant,ADJ transiger,VERBE actinisme,NOM portatif,ADJ
intervallaire,ADJ approchable,ADJ portionnaire,NOM rapport,NOM repossder,VERBE
ventricule,NOM dtension,NOM tentateur,NOM prportionn,ADJ prdisposition,NOM
soulignement,NOM psychonvrose,NOM superposer,VERBE intellectualiste,NOM
apposer,VERBE prcieux,ADJ tendancieusement,ADV interfacial,ADJ coactif,ADJ
rapprochant,ADJ interrupteur,NOM psychopathologie,NOM dterminatif,ADJ
possibilisation,NOM sectionner,VERBE indispensabilit,NOM possibiliste,ADJ
possession,NOM poseur,NOM dpouilleur,NOM possessionn,ADJ tendancieux,ADJ
indispensable,NOM dcisoire,ADJ disponible,ADJ possdant,NOM poser,VERBE
dcisif,ADJ poussoter,VERBE tenseur,NOM terminage,NOM approximation,NOM
105
rexport,NOM psychagogique,ADJ portage,NOM prdisposer,VERBE possible,ADJ
intentionn,ADJ import,NOM prdetermination,NOM indtermination,NOM
activateur,NOM intersection,NOM tentation,NOM interfaage,NOM intermezzo,NOM
surinterprtation,NOM psychologisme,NOM inapprciable,ADJ indisponible,ADJ
imposable,ADJ rompeur,NOM prdterminant,NOM psycholinguiste,NOM emport,NOM
rapprochement,NOM rapport,ADJ interjection,NOM intelligibilit,NOM reposant,ADJ
racteur,ADJ tendance,NOM intensive,NOM surcompensation,NOM psychiquement,ADV
repouss,NOM psychonvrose,NOM intermittence,NOM acticit,NOM mdiatisant,ADJ
position,NOM intellectualisme,NOM suractivit,NOM tensioactivit,NOM
interprtant,NOM positionnel,ADJ positionneur,NOM possder,VERBE possdable,ADJ
psychosociologue,NOM tensioactif,NOM exigibilit,NOM apprciateur,ADJ
redfinir,VERBE intersession,NOM dcid,ADJ repousse,NOM indisposer,VERBE
rtropoussette,NOM intellectif,ADJ psychiatriser,VERBE positivit,NOM
redfinition,NOM interventionniste,NOM positiviste,ADJ atermoyer,VERBE
dpouillage,NOM psychophysiologie,NOM aligner,VERBE psychagogie,NOM
triracteur,NOM rapproch,NOM dtendre,VERBE repoussoir,NOM
psychosociologie,NOM dpossession,NOM rexposition,NOM surimposition,NOM
actionnement,NOM intempestif,ADJ inintelligiblement,ADV dpossder,VERBE
transport,ADJ dtente,NOM inactivit,NOM intentionnalisation,NOM indtermin,ADJ
superstructure,NOM rcompenser,VERBE ralignement,NOM portabilit,NOM
exaction,NOM apprciablement,ADV tentateur,ADJ tendeur,NOM intervalle,NOM
actionner,VERBE porter,VERBE comportement,NOM
41 /6056/ : merveillosit,NOM merveilleusement,ADV merveilleux,ADJ
42
/355/ : tisseuse,NOM dtisser,VERBE tissulaire,ADJ tissu,NOM tisserande,NOM
tissutier,NOM dtissage,NOM tissage,NOM tissure,NOM tiss,ADJ tisser,VERBE
tissu,ADJ tisseur,NOM tisserin,NOM intiss,NOM tisseranderie,NOM tisserand,NOM
43 confrer
44
/309/ : faillibilit,NOM refaonnement,NOM dfaitisme,NOM redfaire,VERBE
dfaitiste,ADJ fabrique,NOM affaireux,ADJ fabricatrice,NOM prfabriqu,ADJ
mfaire,VERBE refait,NOM fabrication,NOM refaiseuse,NOM dfaitiste,NOM
factieuse,NOM mfait,NOM faillir,VERBE dfaillance,NOM faonnerie,NOM
facturer,VERBE fautivement,ADV dfaillement,NOM faillite,NOM faonnier,NOM
dfaonner,VERBE falloir,VERBE dfaillir,VERBE fabricant,NOM affaire,NOM
refaiseur,NOM faillie,NOM prfabriqu,NOM affairiste,NOM fabricateur,NOM
dfait,ADJ fait,NOM faillible,ADJ factionnaire,NOM facturation,NOM
prfabrication,NOM refaire,VERBE rfection,NOM refaonner,VERBE
prfabriquer,VERBE fauter,VERBE parfaire,VERBE surfacturer,VERBE
refaonnage,NOM facture,NOM faction,NOM dfaillant,ADJ fabriquer,VERBE
faute,NOM failli,NOM faonnier,ADJ faon,NOM faire,NOM refabriquer,VERBE
factieux,NOM faonnage,NOM faire,VERBE malfaonn,ADJ dfaite,NOM
fabricante,NOM faonnire,NOM fabricien,NOM rfectionner,VERBE faonner,VERBE
failli,ADJ fautif,ADJ factionnaire,ADJ dfaire,VERBE refabrication,NOM dfaut,NOM
refaonneur,NOM surfacturation,NOM factieux,ADJ faonnement,NOM
45 lumire
46 /1276/ : autrement,ADV autrefois,ADV autre,FUNC autre,ADJ
47 dcoration
48
/6186/ : monnaie,NOM monnayage,NOM monnayer,VERBE monnayeur,NOM
monneron,NOM monnay,ADJ monnayable,ADJ
49
/2482/ : entretenu,ADJ entreteneuse,NOM entretenage,NOM rtentrice,NOM
entretenir,VERBE soutien,NOM soutnement,NOM rtentionnaire,ADJ codtenu,NOM
entretnement,NOM rtenteur,ADJ retenir,VERBE dtenir,VERBE soutenance,NOM
106
codtenue,NOM contenir,VERBE soutenir,VERBE rtention,NOM dtention,NOM
rtenteur,NOM rtentionniste,NOM entreteneur,NOM retenu,ADJ dtenu,NOM
contention,NOM tenir,VERBE rtentionnel,ADJ entretien,NOM retenue,NOM
rtentionnaire,NOM tenue,NOM
50 or
51
/117/ : certificateur,NOM acertainer,VERBE certifi,ADJ certainement,ADV
certifier,VERBE certain,ADJ certificat,NOM certification,NOM
52 /7062/ : plus ou moins,ADV plus de,ADV plus,ADV plusieurs,FUNC
53 talon
54
/2728/ : cuivrerie,NOM cuivr,ADJ cuivrique,ADJ cuivrer,VERBE cuivreux,ADJ
cuivre,NOM cuivrage,NOM
55 majorit
56 prcieux
57 mail
58 /3833/ : soie,NOM soierie,NOM
59 /7043/ : pleine,ADJ plein,ADJ pleine,FUNC pleine,NOM
60
/401/ : proportion,NOM disproportionnement,NOM propritaire,NOM
disproportion,NOM propret,NOM disproportionner,VERBE expropriatrice,NOM
appropriable,ADJ appropriatif,ADJ appropriage,NOM propre,ADJ apprendre,VERBE
appris,NOM expropriation,NOM exproprier,VERBE rapprendre,VERBE apprentie,NOM
copropritaire,NOM coproprit,NOM malpropret,NOM appropri,ADJ
rapprentissage,NOM proprit,NOM disproportionn,ADJ expropriateur,NOM
apprentissage,NOM proportionn,ADJ propre,NOM approprier,VERBE apprenti,NOM
apprise,NOM malappris,NOM appropriement,NOM appropriation,NOM appris,ADJ
malpropre,ADJ expropriateur,ADJ
61
/1101/ : preneur,NOM entr'ouvrir,VERBE reproductibilit,NOM dcomposant,ADJ
reprocheur,ADJ productif,ADJ composant,ADJ reprsent,ADJ produire,VERBE
improduit,ADJ incomprhensiblement,ADV entrouvrir,VERBE reproductivit,NOM
mcomprendre,VERBE production,NOM rentr,NOM entrance,NOM
reprsentation,NOM surprise,NOM apprhendement,NOM emprisonn,ADJ
autoreproducteur,ADJ rentrayeur,NOM rentrant,NOM reprisage,NOM
mcomprhension,NOM reproductif,ADJ incomprhensible,ADJ apprsentation,NOM
prisonnier,NOM comprhension,NOM entr'ouvrement,NOM reproduire,VERBE
plexus,NOM reproductrice,NOM pris,ADJ sentimentaliste,NOM sentimentalit,NOM
surproduction,NOM entrouverture,NOM entreprise,NOM indcompos,ADJ dprise,NOM
reprographique,ADJ senti,NOM incomplexe,ADJ sentimentalisation,NOM
irreprsentable,ADJ rentrante,NOM incomprhensif,ADJ reproche,NOM
prisonnire,NOM rentrayeuse,NOM prsent,ADJ prison,NOM reprsente,NOM
prise,NOM reprsenter,VERBE prsenter,VERBE repriser,VERBE incompris,ADJ
dcomposer,VERBE reprise,NOM reprocher,VERBE prsence,NOM procs,NOM
comprhensible,ADJ reprsentante,NOM preneuse,NOM reproductivement,ADV
entrer,VERBE reprisable,ADJ rentrant,ADJ reprsentativit,NOM reprographier,VERBE
prendre,VERBE rentrage,NOM indcomposable,ADJ coproduction,NOM
dprendre,VERBE repriseur,ADJ reprochable,ADJ reprendre,VERBE imprenable,ADJ
composante,NOM prsentation,NOM reproductible,ADJ improductivement,FUNC
repriseuse,NOM coproduire,VERBE improductif,ADJ preneur,ADJ producteur,NOM
rprhension,NOM prhension,NOM reprsentable,ADJ senti,ADJ entrant,NOM
comprendre,VERBE reproduction,NOM rentrure,NOM entreprendre,VERBE
incomprhensibilit,NOM apprhension,NOM sentimentaliser,VERBE produit,ADJ
surproduit,NOM improductivit,NOM sentiment,NOM complexe,ADJ reprsent,NOM
107
reprsentatif,ADJ sentimental,ADJ prisonnier,ADJ produit,NOM reproducteur,ADJ
intercomprhension,NOM sentimentalisme,NOM entre,NOM rentre,NOM
sentir,VERBE emprisonner,VERBE dissentiment,NOM surproduire,VERBE
apprhender,VERBE rentrer,VERBE rentr,ADJ surreprsentation,NOM
apprsenter,VERBE entrant,ADJ prsent,NOM composant,NOM
reprsentativement,FUNC reproducteur,NOM incomprhension,NOM
dcomposition,NOM entrante,NOM entrepreneur,NOM emprisonnement,NOM
surprendre,VERBE apprhend,ADJ reprsentant,NOM reprographie,NOM
dcomposable,ADJ
62
/2909/ : galon,NOM galonn,ADJ dgalonner,VERBE galonnage,NOM
galonner,VERBE
63 trs
64 voquer
65 eau
66
/1856/ : brillantiner,VERBE brillante,NOM brillement,NOM brillance,NOM
brillamment,ADV brillant,NOM briller,VERBE brillantage,NOM brillant,ADJ
brillantine,NOM brillanter,VERBE brillant,ADJ brillotter,VERBE brilloter,VERBE
brillant,NOM
67
/4275/ : infortun,ADJ fortuit,NOM infortune,NOM fortuitement,ADV fortun,ADJ
fortuit,ADJ fortune,NOM
68 air
69
/967/ : atomiser,VERBE atomiste,ADJ atomiste,NOM atomique,ADJ
polyatomique,ADJ atomis,ADJ atomisation,NOM interatomique,ADJ atomistique,ADJ
diatomique,ADJ triatomique,ADJ antiatomique,ADJ atomiquement,ADV atome,NOM
atomiseur,NOM atomicit,NOM monoatomique,ADJ subatomique,ADJ atomisme,NOM
atomistique,NOM atomicien,NOM
70 prparation
71
/208/ : dcolletage,NOM couvert,ADJ dcoratrice,NOM dcouverte,NOM
dcollet,NOM dcorateur,NOM dcoration,NOM recouverture,NOM dcouvert,ADJ
dcouvreur,NOM couvrement,NOM dcouvrir,VERBE couvrant,ADJ recouvrer,VERBE
dcorativement,ADV redcouverte,NOM dcor,ADJ adcoratif,ADJ couvrure,NOM
dcolleteur,NOM recouvrir,VERBE dcolleteuse,NOM recouvrable,ADJ dcollet,ADJ
dcorer,VERBE couverture,NOM recouvrement,NOM dcouverture,NOM
collerette,NOM couvert,NOM dcolleter,VERBE couverte,NOM couvrir,VERBE
dcouvert,NOM dcor,NOM couvrante,NOM collet,NOM recouvrance,NOM
couvercle,NOM dcors,NOM dcorum,NOM recouvrage,NOM redcouvrir,VERBE
dcouvrement,NOM couvraine,NOM dcoratif,ADJ
72 prsenter
73
/4149/ : nickeline,NOM nickeler,VERBE nickelage,NOM nickelifre,ADJ
nickelure,NOM nickel,NOM nickel,ADJ
74
/533/ : transformer,VERBE formaliserse,VERBE fondant,ADJ profonde,NOM
formaliste,ADJ profond,NOM profondeur,NOM noformation,NOM formolage,NOM
formuler,VERBE refondage,NOM prforme,NOM cofondatrice,NOM fortiori,FUNC
forte,ADV fonder,VERBE biforme,ADJ reforming,NOM rformette,NOM
prformant,ADJ fusionisme,NOM fondamentaliste,ADJ dform,ADJ formalis,ADJ
prform,ADJ formaliser,VERBE fusionner,VERBE forme,NOM forte,ADJ
formulaire,NOM efforcement,NOM informatique,ADJ fondage,NOM formateur,NOM
conformer,VERBE fuser,VERBE formulique,ADJ fondre,VERBE dformable,ADJ
formulation,NOM prformage,NOM fondement,NOM fonderie,NOM informatrice,NOM
format,NOM dformer,VERBE informaticien,NOM formateur,ADJ fondateur,NOM
108
rformer,VERBE approfondi,ADJ approfondisseur,NOM fonde,NOM
fondamentalit,NOM rformisme,NOM fusionnement,NOM rformiste,NOM
dformation,NOM formeur,NOM formier,NOM formolateur,NOM surinformation,NOM
priinformatique,NOM dformateur,ADJ fondu,NOM fusionniste,ADJ
informatisation,NOM rformiste,ADJ inform,NOM transformation,NOM rform,NOM
cofondateur,NOM conforme,ADJ formellement,ADV informit,NOM formolisation,NOM
formol,NOM formiate,NOM informatif,ADJ informaticienne,NOM
tlinformatique,NOM dformant,ADJ informationnel,ADJ confusionnisme,NOM
effondrer,VERBE parfondre,VERBE information,NOM prformation,NOM rform,ADJ
rforme,NOM informel,ADJ inform,ADJ fusionnage,NOM approfondir,VERBE
refonte,NOM informatiser,VERBE infond,ADJ informant,ADJ refusion,NOM
confondre,VERBE formant,NOM refondre,VERBE info,NOM fond,ADJ
rformation,NOM rformateur,NOM formage,NOM approfondissant,ADJ
formatrice,NOM mforme,NOM informateur,NOM formant,ADJ rformatrice,NOM
formol,ADJ effondrement,NOM formique,ADJ formalisable,ADJ reformage,NOM
formaliste,NOM approfondissement,NOM rforme,NOM informer,VERBE
conformateur,NOM formulable,ADJ fortiori a,FUNC fondamentaliste,NOM
reformation,NOM fondue,NOM fusion,NOM reformulation,NOM confusion,NOM
fondatrice,NOM informulable,ADJ formalit,NOM fondamental,ADJ fond,NOM
formoler,VERBE effondrilles,NOM efforcer,VERBE fondoir,NOM profond,ADJ
irrformable,ADJ effort,NOM formalisant,ADJ fortement,ADV informatis,ADJ fort,ADJ
formalisme,NOM prformer,VERBE irrformabilit,NOM fondamentalement,ADV
reformuler,VERBE reformer,VERBE formel,ADJ superforme,NOM fonte,NOM
informul,ADJ fusage,NOM infondre,VERBE uniformment,ADV former,VERBE
rformateur,ADJ conformation,NOM indformabilit,NOM fondeur,NOM
informatique,NOM fond,NOM formatif,ADJ rformage,NOM fondant,NOM
formation,NOM fondation,NOM formalisation,NOM fondu,ADJ fusionnisme,NOM
indformable,ADJ formule,NOM profondment,ADV informateur,ADJ
conformment,ADV informe,ADJ
75 considrer
76
/6458/ : objectit,NOM objectivation,NOM objectivable,ADJ objet,NOM
objectif,NOM objectiver,VERBE objectif,ADJ objectal,ADJ tlobjectif,NOM
77 /2621/ : coule,NOM couleur,NOM
78
/2329/ : chosette,NOM chosification,NOM chosisme,NOM chosifier,VERBE
chose,NOM chosifier,VERBE chosmer,VERBE
79 ductile
80
/432/ : grandirostre,ADJ grandissime,ADJ grande,ADJ grandette,ADJ grandeur,NOM
grandissant,ADJ agrandissement,NOM grand,ADJ grandir,VERBE agrandissant,ADJ
grandissement,NOM grandelet,ADJ grands,NOM grandiose,ADJ grandesse,NOM
grandi,ADJ supergrand,NOM agrandir,VERBE agrandisseur,NOM grandiosement,FUNC
grandirostre,NOM grandement,ADV
81
/2644/ : invariance,NOM varit,NOM variol,ADJ varital,ADJ covariant,ADJ
covariation,NOM variable,ADJ covariante,NOM invariable,ADJ variance,NOM
variomtre,NOM variolique,ADJ varioleux,ADJ varier,VERBE variationnel,ADJ
variabilit,NOM invariablement,ADV varioleuse,NOM variolode,NOM variable,NOM
invariant,ADJ vari,ADJ invariant,NOM variole,NOM covariant,NOM variolisation,NOM
varia,NOM varioleux,NOM variation,NOM invariabilit,NOM variocoupleur,NOM
covariance,NOM monovariant,ADJ
82
/3030/ : rempailleur,NOM empailleuse,NOM empaillage,NOM rempaillage,NOM
empaill,ADJ paill,NOM pailletage,NOM paille,NOM dpaillage,NOM
empailler,VERBE paillet,NOM paillassonner,VERBE rempailler,VERBE paillade,NOM
paillassine,NOM pailler,NOM empaille,NOM pailletement,NOM pailleux,ADJ
109
paillotte,NOM pailleteur,NOM empaillement,NOM paillre,NOM pailleter,VERBE
pailleur,NOM paillasse,NOM paillote,NOM empaill,NOM paillassonnage,NOM
paillis,NOM pailleuse,NOM rempailleuse,NOM paillot,NOM paillet,ADJ paillat,NOM
empailleur,NOM paillet,NOM paillon,NOM paillage,NOM paillasson,NOM
pailler,VERBE dpailler,VERBE paill,ADJ paillasserie,NOM paillette,NOM
83
/803/ : argentomtrie,NOM argenteur,NOM argentable,ADJ argentomtre,NOM
argentine,NOM argenteuse,NOM argentan,NOM argentopyrite,NOM argentiste,NOM
argentobismuthite,NOM argenter,VERBE argent,ADJ argentage,NOM argentique,ADJ
argentier,NOM argentophile,ADJ argentement,NOM argenton,NOM argent,NOM
argenteux,ADJ argentojarosite,NOM argentin,ADJ argenterie,NOM argenture,NOM
argentifre,ADJ argentation,NOM
84
/321/ : filatrice,NOM fileuse,NOM dfilage,NOM affiler,VERBE filature,NOM
filateur,NOM filer,VERBE filage,NOM dfiler,VERBE affiloire,NOM filet,ADJ
dfil,NOM filement,NOM fileter,VERBE affile,NOM filetage,NOM filet,NOM
affileuse,NOM parfiler,VERBE dfil,ADJ affiloir,NOM fileur,NOM parfilage,NOM
monofilament,NOM file,NOM affilage,NOM dfilement,NOM affileur,NOM affile
d',FUNC entrefilet,NOM filerie,NOM filaturer,VERBE dfilade,NOM affil,ADJ
85
/3264/ : solutionner,VERBE rsorbable,ADJ rsorber,VERBE solucamphre,NOM
rsoudre,VERBE solutionnaire,NOM insoluble,ADJ rsolvant,ADJ solutionnement,NOM
rsolue,NOM irrsolution,NOM solubiliser,VERBE rsolvante,NOM dissoudre,VERBE
solutionniste,NOM solutionniste,ADJ insolubilisation,NOM indissolubilit,NOM
insolubilit,NOM dissolution,NOM rsolu,NOM solut,NOM rsolutif,ADJ rsolu,ADJ
rsorption,NOM rsolutoire,ADJ solubilisation,NOM indissoluble,ADJ rsoluble,ADJ
rsolubilit,NOM rsolution,NOM solution,NOM insolubiliser,VERBE irrsolu,ADJ
soluble,ADJ solubilit,NOM
86 tat
87 /5788/ : lune,NOM luneux,ADJ
88
/138/ : acidosique,ADJ acidimtrie,NOM acidimtrique,ADJ acidimtre,NOM
aciduler,VERBE acide,ADJ acidifier,VERBE acidification,NOM acidage,NOM
acidifiant,ADJ acidose,NOM acide,NOM acidifre,ADJ acidifiable,ADJ acidulation,NOM
acidule,ADJ acidit,NOM monoacide,ADJ acidogne,ADJ peracide,NOM acidul,ADJ
acidifi,ADJ acidode,ADJ
89
/1870/ : brodeur,NOM brodage,NOM surbroder,VERBE broder,VERBE
rebroder,VERBE broderie,NOM brod,ADJ brodequin,NOM surbrodage,NOM
brodeuse,NOM
90 /854/ : surpuissance,NOM puissance,NOM puissamment,ADV puissant,ADJ
110
A3) Cotextes du corpus de contes
1er cotexte : nacre (1289 familles de traits smantiques)
Non loin de Smyrne, sous les hauts platanes, l o le marchand pousse ses chameaux chargs de
marchandises qui lvent firement leurs longs cous et foulent maladroitement la terre sacre, j'ai vu
une haie de rosiers en fleurs. Des pigeons sauvages volaient entre les branches des hauts arbres et leurs
ailes scintillaient dans les rayons de soleil comme si elles taient nacres.
2e cotexte : nacre et sable (1329 familles de traits smantiques)
C'tait un petit lac limpide qui ressemblait un diamant vert enchss dans un anneau de fleurs, et
o se jouaient des poissons de toutes les nuances de l'orange et de la cornaline, des carpes de Chine
couleur d'ambre, des cygnes blancs et noirs, des sarcelles exotiques vtues de pierreries, et, au fond de
l'eau, des coquillages de nacre et de pourpre, des salamandres aux vives couleurs et aux panaches
dentels, enfin tout un monde de merveilles vivantes glissant et plongeant sur un lit de sable argent,
o poussaient des herbes fines, plus fleuries et plus jolies les unes que les autres.
3e cotexte : sable (1119 familles de traits smantiques)
- Un plat trs ncessaire ta pauvre petite existence, rpondit-elle ; je fais du granit, c'est--dire
qu'avec la poussire je fais la plus dure et la plus rsistante des pierres. Il faut bien cela, pour enfermer
le Cocyte et le Phlgthon. J e fais aussi des mlanges varis des mmes lments. Voici ce qu'on t'a
montr sous des noms barbares, les gneiss, les quartzites, les talcschistes, les micaschistes, etc. De tout
cela, qui provient de mes poussires, je ferai plus tard d'autres poussires avec des lments nouveaux,
et ce seront alors des ardoises, des sables et des grs. J e suis habile et patiente, je pulvrise sans cesse
pour ragglomrer. La base de tout gteau n'est-elle pas la farine ? Quant prsent, j'emprisonne mes
fourneaux en leur mnageant toutefois quelques soupiraux ncessaires pour qu'ils ne fassent pas tout
clater. Nous irons voir plus haut ce qui se passe. Si tu es fatigue, tu peux faire un somme, car il me
faut un peu de temps pour cet ouvrage.
4e cotexte : sable (510 familles de traits smantiques)
Aprs avoir march assez longtemps sur le sable, il se baissa et crivit ces vers avec une canne qu'il
tenait dans sa main :
5e cotexte : pollen (559 familles de traits smantiques)
De la maison du gouverneur indigne, o la mre et le faux enfant avaient couch, un bourjane
apporta triomphalement dans une soubika les djections du petit. Raketaka avait fabriqu des ordures
denfant avec de la patate cuite colore par du pollen de citrouille. Sauf lodeur, ctait sy
mprendre.
6e cotexte : rose (739 familles de traits smantiques)
Des buissons de roses de toutes nuances et de tous parfums se miraient dans l'eau, ainsi que le ft
des colonnes et les belles statues de marbre de Paros places sous les arcades. Au milieu du bassin
jaillissait en mille fuses de diamants et de perles un jet d'eau qui retombait dans de colossales vasques
de nacre.
7e cotexte : rose (1123 familles de traits smantiques)
Une chelle, dont je ne pouvais apercevoir ni la base ni le fate, se prsentait en effet devant nous.
J e suivis la fe et me trouvai avec elle dans les tnbres, mais je m'aperus alors qu'elle tait toute
lumineuse et rayonnait comme un flambeau. J e vis donc des dpts normes d'une pte rose, des
111
blocs d'un cristal blanchtre et des lames immenses d'une matire vitreuse noire et brillante que la fe
se mit craser sous ses doigts ; puis elle pila le cristal en petits morceaux et mla le tout avec la pte
rose, qu'elle porta sur ce qu'il lui plaisait d'appeler un feu doux.
8e cotexte : rose (500 familles de traits smantiques)
Dans tous les chants d'Orient on parle de l'amour du rossignol pour la rose. Dans les nuits
silencieuses, le troubadour ail chante sa srnade la fleur suave.
9e cotexte : rose (568 familles de traits smantiques)
Il cueillit la rose, l'insra dans son livre et l'emporta ainsi sur un autre continent, dans son pays
lointain. La rose fana de chagrin et demeura aplatie dans le livre. Lorsque le chanteur revint chez lui,
il ouvrit le livre et dit : Voici une rose de la tombe d'Homre.
10e cotexte : clat et or (660 familles de traits smantiques)
L-dessus, elle s'loigna en poussant un grand clat de rire, et il me sembla la voir se dissoudre et
s'lever en grande trane d'or, rougi par le soleil couchant
11e cotexte : clat (435 familles de traits smantiques)
Des bruits formidables, des sifflements aigus, des explosions, des clats de tonnerre remplissaient
cette caverne de nuages noirs o je me sentais enferme.
12e cotexte : fer (602 familles de traits smantiques)
La princesse poussa un cri terrible en apercevant le nain mais ses plaintes ne servirent qu' aigrir ce
petit monstre : avec deux mots de son grimoire, il fit paratre deux gants qui chargrent le roi de
chanes et de fers.
13e cotexte : fer (1654 familles de traits smantiques)
Le lendemain matin, Margot sortit remplir le seau, le suspendit dans la chemine et alluma le feu.
"Nous allons dabord faire du pain" dit la vieille, "jai dj chauff le four et ptri la pte." Elle poussa
la pauvre Margot vers le four duquel les flammes dj sortaient. "Penche toi et vois si cest
suffisament chaud afin que nous puissions y enfourner le pain." Puis lorsque Margot fut assez proche,
elle voulut ouvrir le four pour la faire rtir dedans et ensuite la dvorer. Mais Margot devinant ses
intentions dit : "J e ne sais pas comment faire pour entrer dedans !" "Oie stupide," dit la vieille, "la
porte est assez grande, ne vois-tu pas que mme moi je peux y passer" affirma-t-elle en rampant et en
passant la tte dans le four. Alors Margot lui donna un bon coup si bien quelle bascula dedans puis
elle referma la porte en fer et tira le verrou. "Hou ! hou !" hurla-t-elle horriblement ; Margot partit en
courant tandis que lhorrible sorcire brlait abominablement.
112
A4) Comparaison de transformations mathmatiques : exemple
dclat dans le cotexte n10
Transformation Matrice
matrice des cooccurrences sans
transformation

mthode adapte de LSA, projection sur 50
dimensions

mthode adapte de LSA, projection sur 25
dimensions

mthode adapte de LSA projection sur 10
dimensions

mthode adapte de LSA, projection sur 5
dimensions

113
tf-idf

tf-idf puis mthode adapte de LSA,
projection sur 50 dimensions

tf-idf puis mthode adapte de LSA,
projection sur 25 dimensions

tf-idf puis mthode adapte de LSA,
projection sur 10 dimensions

tf-idf puis mthode adapte de LSA,
projection sur 5 dimensions

114
tf-idf puis mthode adapte de LSA,
projection sur 50 dimensions, puis calcul de
la matrice des cosinus (pas de produit de la
matrice doccurrences par sa transpose)

matrice des cosinus

Calcul des cooccurrences par produit de la
matrice doccurrences par sa transpose, puis
application de la mthode adapte du

Application de la mthode adapte du puis
calcul des cooccurrences par produit de la
matrice doccurrences par sa transpose

115
A5) Comparaison de cotextes : indicateurs de valeurs centrales et
de dispersion du mot sable
Moyenne de sable dans les contextes 2, 3 et 4 (cooccurrences
simples)
0
2000
4000
6000
8000
10000
12000
14000
02468
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
i ndi ce du trai t
m
o
y
e
n
n
e
contexte 2
contexte 3
contexte 4

Mdiane de sable dans les contextes 2, 3 et 4 (cooccurrences
simples)
0
1000
2000
3000
4000
5000
6000
7000
02468
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
Indi ce du trai t
M

d
i
a
n
contexte 2
contexte 3
contexte 4

116
Permier quartile de sable dans les contextes 2, 3 et 4
(cooccurrences simples)
0
500
1000
1500
2000
02468
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
Indi ce du trai t
P
r
e
m
i
e
r

q
u
a
r
t
i
l
e
contexte 2
contexte 3
contexte 4

Troisime quartile de sable dans les contextes 2,3 et 4
(cooccurrences simples)
0
2000
4000
6000
8000
10000
12000
14000
16000
02468
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
Indi ce du trai t
T
r
o
i
s
i

m
e

q
u
a
r
t
i
l
e
contexte 2
contexte 3
contexte 4

Ecart-type de sable dans les contextes 2, 3 et 4 (cooccurrences
simples)
0
5000
10000
15000
20000
02468
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
Indi ce du trai t

c
a
r
t
-
t
y
p
e
contexte 2
contexte 3
contexte 4

117
Moyenne de sable dans les contextes 2, 3 et 4
0
50
100
150
200
250
300
0 2 4 6 8
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
Indi ce du trai t
M
o
y
e
n
n
e
contexte 2
contexte 3
contexte 4

Mdiane de sable dans les contextes 2,3 et 4 (transformation tf-
idf)
0
50
100
150
200
250
300
0 2 4 6 8
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
i ndi ce du trai t
m

d
i
a
n
e
contexte 2
contexte 3
contexte 4

Premier quartile de sable dans les contextes 2,3 et 4
(transformation tf-idf)
0
50
100
150
200
250
0 2 4 6 8
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
Indi ce du trai t
p
r
e
m
i
e
r

q
u
a
r
t
i
l
e
contexte 2
contexte 3
contexte 4

118
Troisime quartile de sable dans les contextes 2, 3 et 4
(transformation tf-idf)
0
50
100
150
200
250
300
350
0 2 4 6 8
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
i ondi ce du trai t
T
r
o
i
s
i

m
a

q
u
a
r
t
i
l
e
contexte 2
contexte 3
contexte 4


Ecart-type de sable dans les contextes 2,3 et 4 (transformation
tf-idf)
0
20
40
60
80
100
120
0 2 4 6 8
1
0
1
2
1
4
1
6
1
8
2
0
2
2
2
4
2
6
2
8
3
0
3
2
Indi ce du trai t

c
a
r
t
-
t
y
p
e
contexte 2
contexte 3
contexte 4
119
A6) Moyennes de traits smantiques de rose relatives au trait
/glise/

Traits smantiques de rose slectionns :

/vivre/, /beaut/, /cur/, /parfum/, /amour/, /couleur/, /glise/, /instrument/, /rouge/

Regroupements morphologiques : familles des traits smantiques slectionns
numro item
0
/3191/ : vivre,NOM survie,NOM survivre,VERBE vitaliste,NOM dvitalisation,NOM revitaliser,VERBE
dvitalis,ADJ dvitaliser,VERBE vitaliste,ADJ vital,ADJ vivres,NOM vitalit,NOM revitalisation,NOM
vivre,VERBE survivance,NOM vitalisme,NOM vivrier,NOM vivrier,ADJ vie,NOM revivre,VERBE
revitalisant,ADJ
2 beaut
4 cur
28 parfum
52
/779/ : namourement,NOM enamour,ADJ amoureuse,NOM amoureux,ADJ enamourer,VERBE
enamourement,NOM namourer,VERBE amoureusement,ADV amoureux,NOM amourach,ADJ amour,NOM
88 /2621/ : coule,NOM couleur,NOM
89 glise
91
/612/ : installer,VERBE instillateur,NOM rinstallation,NOM instrumental,ADJ instrumentalit,NOM
instrument,NOM instrumentalisation,NOM instrumentation,NOM installeur,NOM instrumentiste,NOM
instrumentalisme,NOM instrumentaliste,ADJ instrumenter,VERBE installateur,NOM instrumentaliste,NOM
instrumentaire,ADJ installeur,ADJ instillation,NOM instrumentalement,ADV installation,NOM
instrumentateur,NOM instrumentaliser,VERBE instiller,VERBE rinstaller,VERBE
100
/3083/ : rouge,NOM rougeoyer,VERBE rougeot,NOM infrarouge,ADJ rougeaud,NOM rougi,ADJ rougetre,ADJ
rougissant,ADJ rougeur,NOM rougeole,NOM rougeoiement,NOM rougeoleuse,NOM rouget,NOM
rougeoleux,NOM rouge,ADJ infrarouge,NOM rougeaud,ADJ rougeot,ADJ rougetre,NOM rougeoyant,ADJ
rougir,VERBE rougissement,NOM enrougir,VERBE rougeoleux,ADJ drougir,VERBE


Analyse linguistique : activation de traits smantiques de rose


Cotexte 6 Cotexte 7 Cotexte 8 Cotexte 9
amour 1
beaut 1 1
cur 1
couleur 1 1
glise
instrument 1
parfum 1
rouge 1
vivre 1 1

1: activation

Rsultats dexpriences :

120
Moyenne de /rouge/ relative /glise/ dans les contextes 6, 7, 8
et 9
1,35
1,4
1,45
1,5
1,55
1,6
1,65
contexte (par i ndi ces croi ssants)
m
o
y
e
n
n
e



Moyenne du trait /instrument/ relativement /glise/ dans les
contextes 6, 7, 8 et 9
1,64
1,66
1,68
1,7
1,72
1,74
1,76
contexte (par i ndi ce croi ssant)
m
o
y
e
n
n
e

r
e
l
a
t
i
v
e


Moyenne du trait /couleur/ relativement /glise/ dans les
contextes 6, 7, 8 et 9
1,7
1,705
1,71
1,715
1,72
1,725
1,73
1,735
1,74
contexte (par i ndi ce croi ssant)
m
o
y
e
n
n
e

r
e
l
a
t
i
v
e

121

Moyenne du trait /amour/ relativement /glise/ dans les
contextes 6, 7, 8 et 9
1,52
1,54
1,56
1,58
1,6
1,62
1,64
contexte (par i ndi ce croi ssant)
m
o
y
e
n
n
e

r
e
l
a
t
i
v
e


Moyenne du trait /parfum/ relativement /glise/ dans les
contextes 6, 7, 8 et 9
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
contexte (par i ndi ce croi ssant)
m
o
y
e
n
n
e

r
e
l
a
t
i
v
e


Moyenne du trait /coeur/ relativement /glise/ dans les
contextes 6, 7, 8 et 9
1,06
1,07
1,08
1,09
1,1
1,11
contexte (par i ndi ce croi ssant)
m
o
y
e
n
n
e

r
e
l
a
t
i
v
e
Srie1

122

Moyenne de /beaut/ relative /glise/ dans les contextes 6, 7, 8
et 9
1,18
1,2
1,22
1,24
1,26
1,28
contexte (par i ndi ce croi ssant)
m
o
y
e
n
n
e

r
e
l
a
t
i
v
e


Moyenne de /vivre/ dans les contextes 6, 7, 8 et 9
125
130
135
140
145
150
0 200 400 600 800 1000 1200
tai l l e du contexte
m
o
y
e
n
n
e

Вам также может понравиться