Fiche de Révision - Analyse de Corpus

Analyse de corpus
I / Le recours au corpus en linguistique

1. Principes et mthodes de la linguistique de corpus
Les sens du mot corpus
Lacception du mot corpus est plus large que celle quon considre dans ce cours : recueil de
pices, de documents concernant une mme discipline ou ensemble fini dnoncs rels
runis en vue de ltude dun phnomne linguistique.
Corpus : collection de textes au format lectronique relevant de tous les genres et de tous les
domaines possibles fournissant des donnes qui permettent ltude dune langue ou dune
varit langagire travers lobservation grande chelle de ses usages langagiers rels
(attests et diversifis).
- Ncessairement disponible au format lectronique, afin de pouvoir tre analys laide
doutils informatiques.
- Fait de donnes attestes, pour observer le langage tel quil est utilis vritablement
- Constitu selon un objectif dtude particulier, en rpondant des principes
mthodologiques qui doivent tre prcisment dfinis
Les corpus sont trs varis, mais ils permettent tous ltude des usages rels dune langue et le
traitement par ordinateur des donnes quils contiennent.
Plusieurs faons de faire de la linguistique ?
Les faits linguistiques peuvent tre dgags de plusieurs manires : la linguistique de corpus
(corpus linguistic) ou lapproche introspective, qui sappuie sur lintuition linguistique des
locuteurs comptents (armchair linguistic).
Chaque faon de travailler a ses inconvnients :
- Le linguistique qui travaille sur corpus a potentiellement normment de donnes sa
disposition, mais tout nest pas intressant et il peut manquer des donnes prcieuses :
o Un corpus nest jamais exhaustif : les paramtres de ltude doivent tre
considrs et prciss rigoureusement. (rsultats considrs comme temporaires)
o Un corpus ne fournit jamais de contre-exemples
o Les donnes quon retrouve dans un corpus sont parfois contestables : les hapax
- Celui qui travaille en recourant son intuition est confront au problme de la fiabilit
des donnes quil utilise :
o Le jugement rflexif nest pas toujours fiable
o Chaque locuteur a une comptence limite
Chaque faon de travailler a ses avantages :
- Les corpus donnent accs des donnes nombreuses, objectives et diversifies, une
vision intressante sur la langue, impossible prdire dune autre manire
- Aucun corpus ne donne accs seul tous les faits langagiers. Lintuition peut donc tre
trs utile comme complment dinformation.
Le linguiste sintresse ce qui se dit/scrit lorsque cest rvlateur dusages rguliers (critre
quantitatif/de frquence fondamental).
Les deux approches sont donc complmentaires. Le travail sur corpus doit tre complt
danalyses faisant appel au jugement linguistique rflexif.
Adeline Moog 2015/2016
2. Apports des corpus en linguistique

Diversit des types dutilisation des corpus
Le travail sur corpus est une tradition ancienne en linguistique. Il existe des secteurs de lanalyse
linguistique dans lesquels le recours aux corpus est une pratique courante voire invitable :
- Acquisition du langage, car on ne peut pas interroger les jeunes enfants sur leur pratique
- Etude descriptive et comparative des langues
- En linguistique diachronique : tude des tats de langue dont le linguiste nest pas
locuteur
- En sociolinguistique, surtout des recueils de donnes orales
Ce qui a chang dsormais, cest la nature des corpus et la faon de travailler les donnes :
grands volumes de donnes lectroniques, secteurs dexploitation diversifis.
Des corpus pour lapprentissage des langues

-
Fournir aux chercheurs des donnes relatives aux difficults dapprentissage des
apprenants grce la collecte de leurs productions langagires et la comparaison
avec les productions manant de locuteurs natifs
Ex : projet Elicorp, recherches sur le franais parl et les savoir-faire communicationnels
des locuteurs natifs (interrogations totales ou partielles), et conception de manuels
dapprentissage focaliss sur les difficults rencontres par les apprenants (tude du
passif).
Fournir directement aux apprenants des donnes leur permettant de progresser de
faon autonome et raisonne dans leurs apprentissages en tant confronts
directement avec des productions langagires attestes et varies et en observant les
structures en contexte.
Outil privilgi dexploration des corpus : le concordancier, qui affiche en contexte
toutes les occurrences dune forme pivot.
Des corpus pour la conception douvrages de rfrence : dictionnaires et

grammaires
Les grammairiens et lexicographes ont toujours eu recours des ensembles de textes pour
recueillir des attestations pour illustrer leurs descriptions. Dsormais, on met le corpus au cur
de la confection des dictionnaires et grammaires.
Dictionnaires
- Slection de la nomenclature du dictionnaire : quels mots vedette slectionner, quels
nouveaux mots ajouter, quels mots supprimer ? On parle de corpus-based lexicography.
(Ex : les dictionnaires Cobuild sont bass sur le Collins corpus)
- Dtermination des diffrents emplois de chaque mot : nologie de sens
- Choix des exemples les plus reprsentatifs illustrant les emplois
Le Trsor de la Langue Franaise (CNRS) est le dictionnaire le plus complet du franais (100 000
mots vedette). Il recourt un large fonds documentaire comme source dattestations et
support de la description lexicographique : cration de la base textuelle Frantext.
Ex : Etude de 2001 sur la constitution dun dictionnaire dapprentissage du franais, le DAFLES.
But des chercheurs : objectiviser la procdure de saisie de la nomenclature en utilisant un
corpus pour examiner le dcalage entre les mots du corpus et ceux du dictionnaire
dapprentissage. Mise en vidence de lacunes dans le dictionnaire et de mots peu utiliss
dans le langage courant toutefois prsent dans le dictionnaire.
Il est toutefois important dutiliser ce critre de frquence avec beaucoup de prcaution : des
mots usuels peuvent tre rares dans le corpus considr. Le corpus constitue un biais, une
image spcifique, partielle du lexique. Il est important de bien le constituer.
Grammaires
- Prcision du type de discours dans lequel les structures grammaticales dcrites sont
privilgies, pour que lapprenant utilise ces structures bon escient.
Ex : la grammaire Longman (Biber et al. 1999) se base sur un corpus de textes crits et de
transcriptions de conversations orales. Elle donne des informations aux lecteurs sur les pattern of
use, cest--dire les schmas ou tendances dusage : ce qui est dit/crit typiquement vs. ce qui
est dit/crit rarement, et comment ces usages se rpartissent selon le genre des textes.
(Subordonnes interrogatives, formes contractes)
Des corpus pour lanalyse des discours politiques
La lexicomtrie est ltude statistique du vocabulaire, science qui tudie la rpartition de

vocabulaire dans le discours, mthodologie nouvelle danalyse de corpus lectroniques mise
en place par les chercheurs du laboratoire Lexicomtrie et textes politiques de lENS Lyon.
Etude chronologique du discours syndical (Salem, 1993)
Le corpus de textes de congrs syndicaux rdigs entre 1973 et 1988 (corpus chronologique)
permet de dgager des volutions dans lutilisation du lexique.
Exemple dobservation : le terme salaris se substitue au terme travailleurs . La frquence
relative dcroit pour travailleurs alors que cest linverse pour salaris . Ltude des
contextes dapparition des deux formes permet de confirmer que lune se substitue lautre.
Lauteur de ltude prcise que cette conclusion doit toutefois tre nuance : les deux formes
conservent des caractristiques propres (lexpression travailleurs immigrs perdure)
Etude du vocabulaire prsidentiel : le cas de Franois Mitterrand (Labb, 1990)
Corpus dinterventions radio-tlvises de FM pendant son premier septennat (1981 1988) : 68
interventions, 305 124 mots, peu prs 40h de diffusion.
Observations bases sur la frquence des mots :
- les 20 substantifs les plus frquents chez FM sont banals, on les retrouve dans tous les
discours politiques franais, et presque tous se retrouvent dans le vocabulaire frquent
de Chirac ou De Gaulle.
- prsence de verbes dsignant la pense plutt que laction, dficit de verbes exprimant
la connaissance, utilisation importante des modalits pouvoir, vouloir, devoir.
Observations bases sur les contextes dutilisation des mots :
- le pronom personnel je (banal dans le discours oral) est fortement associ aux verbes
de parole, de pense, de volont (croire, dire, penser, souhaiter, esprer, vouloir) mais
pas aux verbes marquant la possibilit ou la ncessit (pouvoir, falloir, permettre, exister).
- la prsence forte de la modalit vouloir est commune Mitterrand et Chirac alors
que les discours de Giscard sont plutt marqus par la modalit savoir .
Ces analyses fournissent le point de dpart dinterprtations que peuvent ensuite raliser les
experts du discours politique.
Richesse lexicale des discours politiques (Vronis, 2007)
Lindice le plus simple pour valuer la richesse lexicale dun texte consiste faire le rapport
entre le nombre total doccurrences du texte tudi et le nombre de formes (mots diffrents).
Problme : cet indice est inutilisable pour comparer directement deux textes de taille
diffrente. Cette technique est plus intressante si lon dispose dun nombre important de
textes. On reporte lindice de chaque discours sur un graphique et on obtient une tendance
globale.
Vronis a fait ce travail sur les discours des 4 grands candidats de la prsidentielle de 2007.
Cette richesse lexicale (aucun jugement de valeur ni de comprhensibilit) donne une
information trs globale sur la tendance des personnalits politiques manipuler un
vocabulaire plus ou moins vari.
3. Conclusion
Intrt de recourir aux corpus quand on travaille sur le langage : travailler sur des donnes
attestes, nombreuses et diversifies.
Le choix du corpus est crucial. On ne travaille pas sur les corpus bruts, sur les donnes nues,
mais le corpus est enrichi par lajout dinformations concernant les formes quil contient. Les
tudes sur corpus tirent parti dun ensemble doutils dexploration des corpus et de comptage.
II / Prsentation de quelques corpus

1. Varit des corpus
Il existe des corpus de toutes sortes. Chaque chercheur peut constituer son propre corpus pour
ltude quil cherche mener. Certains corpus sont cependant constitus de manier rendre
possible un ensemble dtudes varies et tre partags par plusieurs chercheurs.
Les corpus de rfrence sont construits de manire constituer un chantillon reprsentatif de
la langue tudie. Ils sont thoriquement censs prendre en compte toutes les varits
langagires envisageables (aucune varit langagire ne doit tre surreprsente par rapport
une autre), et le corpus doit tre un grand corpus. Il doit galement se prter des types de
recherche varis. Cet objectif de reprsentativit est un idal. Les rsultats obtenus partir de
ces corpus permettent alors de tirer les conclusions valables pour la langue en gnral.
Les corpus spcialiss sont constitus pour mener bien une tude spcifique. Il se restreint
une situation de communication (Ex : les dialogues autour du jeu chez le jeune enfant), un
domaine (Ex : la biothique), un type de locuteurs (Ex : les jeunes originaires du sud-ouest)
2. Le British National Corpus : un corpus de rfrence pour langlais

Constitution du corpus
Corpus monolingue conu dans les annes 90 pour fournir un chantillon reprsentatif de la
varit des usages de langlais britannique contemporain. Pour garantir lquilibre entre les
varits langagires reprsentes, chacune bnficie du mme volume de donnes. Ce
corpus est compos de 4124 textes soit au total 100 millions de mots.
Constitution selon une mthodologie rigoureuse : partie crite et partie orale, intgration des
types de discours auxquels le locuteur est le plus souvent confront, que ce soit en production
ou en rception (crits : informatifs et fictionnels, domaines et supports varis ; oral : diversit
dmographique, des contextes sociaux)
Travail considrable et coteux de recueil et de transcription de la partie orale : 4 ans de travail
au totale pour constituer le British National Corpus. Certains choix sont en partie arbitraires, et
on peut les mettre en doute (reprsentativit notamment). Ce corpus nen est pas moins
extrmement riche et utile pour les tudes menes sur langlais.
Annotation du corpus
Ce corpus a t enrichi dannotations relevant de diffrents niveaux de description :

- Le texte est segment : tours de parole (balise u, pour utterance, indiquant lidentifiant
de la personne qui parle), phrases (balise s pour sentence, numrotes)
- Le texte est tiquet : balises ouvrantes et fermantes (mot balis entre <w> et </w>).
Lensemble des codes grammaticaux utiliss est appel jeu dtiquettes
Ex : <w c5="AJ0" hw="pregnant">pregnant</w> selon c5, pregnant est un adjectif
Dautres balises permettent dintroduire des informations complmentaires
paralinguistiques, extralinguistiques, relatives des problmes de transcription
Ex : <vocal descr="laugh"/>, <pause/>
Cette annotation permet de :
- Documenter le corpus avec des informations importantes pour son utilisation. Le partage
des ressources peut tre fait sans perdre les informations qui caractrisent le corpus.
- Enrichir les possibilits de recherche sur le corpus : non seulement sur les formes de
surface mais galement sur des informations relatives ces formes (lemmes et
catgories)
Utilisation du corpus
Le British National Corpus est divis en 7 parties/genres : spoken, fiction, magazine, newspaper,
non-acad, academic, misc.
- Le programme LIST donne accs la frquence totale du mot que lon veut examiner
dans le corpus, son nombre doccurrences.
- Le programme CHART permet dafficher le graphique de rpartition des formes dans
chaque partie du corpus, accompagne de sa frquence et de sa frquence relative (x
par million)
- KWIC signifie KeyWord In Context. Ce programme montre les concordances de la
forme :
o Coloriage des formes voisines de la forme pivot (une couleur pour chaque
catgorie grammaticale, pour faciliter la lecture et le classement des contextes)
o Tri selon le contexte gauche ou droit pour dcouvrir les contextes qui se rptent
et donc les patrons (pattern)
Ex : , rather ou rather indique que rather apparat rgulirement dans une
incise, aprs une virgule ou un tiret.
La dcouverte de ces motifs rguliers, de ces squences de formes qui se
rptent, permet didentifier les contextes typiques de la forme pivot. Ces patrons
peuvent tre plus ou moins abstraits, plus ou moins gnraux : squence de deux
formes particulires (Ex : rather think), ou squence mlant catgorie
grammaticale et forme (Ex : [pronom personnel] d rather).
- COMPARE permet de comparer deux formes en examinant les mots qui apparaissent le
plus souvent dans leur contexte respectif = les collocations auxquelles elles prennent
part.
La fentre est la taille du contexte que lon examine (Ex : [nn*] 0 1 = noms, 0 mot
gauche, 1 mot droite)
Rsultats : frquence relative des deux formes et informations sur une srie de noms qui
apparaissent dans le contexte (droit ici) de la forme considre (frquence, score)
On obtient ainsi quelques informations concernant lusage du mot tudi.
Outre la recherche de forme exacte, on peut galement demander des informations sur :
- Un [lemme] (not entre crochets)
Une catgorie grammaticale (part of speech POS, selon une liste des codes
grammaticaux, entre crochets galement)
Des caractres spciaux permettant de faire des recherches plus tendues ex : *
Des squences de mots
Une combinaison de ces possibilits
3. Le cas de la base Frantext

Pourquoi Frantext nest pas un corpus de rfrence
Frantext a t conue dans les annes 60 pour servir de fonds documentaire lors de la cration
du dictionnaire du Trsor de la langue franaise (TLF). Les choix de constitution de la base
Frantext ont t conditionns par deux aspects :
- Les contraintes techniques, et surtout la difficult disposer facilement de textes
numriss. La transcription de textes oraux na pas t considr comme ralisable
- Une certaine ide du franais que le TLF est cens dcrire. Il reste marqu par la tradition
dune langue littraire . Les textes littraires forment donc initialement 80 de la base, et
ce ratio a peu volu depuis.
On est donc trs loin de lambition de reprsentativit et dquilibre illustre par le BNC.
Frantext nest donc pas un corpus de rfrence du franais.
Caractristiques actuelles
Cette collection de textes numriss continue dvoluer au gr des ajouts de textes. Elle est
actuellement principalement utilise pour des recherches littraires, stylistiques et linguistiques.
Frantext est accessible via une interface dinterrogation, par abonnement.
Cest une grande base de donnes textuelles du franais : plus de 285 millions de mots, 4746
textes. Les romans restent trs majoritaires. La prsence de nombreux essais garantit que la
base nest pas entirement constitue dcrits fictionnels.
Pourquoi Frantext est nanmoins utile pour ltude du franais

En labsence de corpus plus complet, plus diversifi, et plus facile daccs, Frantext est devenu
un corpus trs utilis par les chercheurs qui tudient la langue franaise et peuvent ainsi
bnficier dun ensemble de fonctionnalits de recherche :
- Slection du corpus, selon les critres auteur, priode, genre
- Recherche simple dans les textes : contextes dapparition dune forme ou dune
squence de formes. Mais Frantext ne fournit pas de concordances. La visualisation
propose ne facilite de fait pas lanalyse des rsultats. Les contextes sont classs par
ordre chronologique (croissant et dcroissant), ou selon lordre alphabtique des
auteurs. Ces rsultats sont donc dune utilisation beaucoup moins facile que les
concordances : difficile de synthtiser les informations des extraits sans avoir les lire
successivement, ce qui est impossible compte tenu du nombre doccurrences.
- Recherche de cooccurrences : passages dans lesquels 2 ou 3 formes apparaissent
simultanment, pas ncessairement de manire contigu.
- Etude du voisinage : recherche dassociations lexicales frquentes dun mot pivot, dans
lesprit des collocations vues dans le British National Corpus.
- Frantext tiquet : une large partie du corpus est accessible sous une forme tiquete,
comme le BNC. On peut donc faire des recherches sur les formes mais aussi sur les
catgories grammaticales.
Inconvnients : Frantext ne fournit pas la liste, mais les contextes qui contiennent
lexpression recherche. Le corpus ne fournit la frquence des squences quau prix

dun dpouillement fastidieux des contextes.
Cration de listes de mots ou de grammaires
Frantext a plusieurs dfauts (pas quilibr, pas aussi diversifi quon le souhaiterait, modes de
visualisation des rsultats peu exploitables) mais cest un corpus trs utilis pour ltude du
franais, bien document, rgulirement aliment. Les linguistes lutilisent trs couramment
pour rechercher des attestations des faits quils tudient.
4. Quelques autres exemples de corpus pour ltude du franais

Corpus spcialiss
Trois exemples :
- Certains chercheurs tudient les nouvelles formes de communication crite, les
nographies (graphies phontisantes, rductions graphiques) et identifient les
particularits morpholexicales (troncations, anglicismes). Un corpus de 75000 SMS a
ainsi t constitu luniversit de Louvain grce au projet Faites don de vos sms la
science (Fairon et al, 2007)
- Le corpus PFC (Phonologie du franais contemporain) a pour objectif de constituer un
grand corpus oral pour le franais. Particulirement utilis par les linguistes qui travaillent
en phonologie ou en syntaxe de loral, il constitue galement une ressource prcieuse
pour les enseignants du franais.
- Le corpus Scientext est un corpus dcrits scientifiques constitu pour faciliter ltude de
ces types de textes et mieux comprendre comment slabore le savoir scientifique dans
diffrentes disciplines et dans diffrentes langues.
Le web comme corpus

Aujourdhui, les tudes sur le langage peuvent bnficier de lexistence dune ressource
ingalable du point de vue du volume et de la diversit des textes qui la composent : le web.
Il sagit toutefois dun corpus problmatique : ce nest pas un corpus spcialis car il ne rpond
pas un objectif de recherche pralable et ne contient pas des types de textes particuliers et
bien identifis. Il ne sagit pas non plus dun corpus de rfrence, qui rpondrait aux exigences
prcises dans la dfinition de ce terme : on nen connat pas la nature exacte et il est
compos de donnes mouvantes et impossibles circonscrire. On y trouve peu prs
nimporte quoi et en particulier des textes rdigs dans des circonstances mal dfinies, dont il
est trs difficile de retracer la source. Tout est runi pour mettre en danger le caractre
scientifique dune recherche qui sappuierait sur le web pour tudier le langage.
Nanmoins, on ne peut qutre sduit par la masse de donnes qui sy trouvent, et il est
invitable que les linguistes cherchent aujourdhui lexplorer et lexploiter.
Certains outils proposs sur le web sont nanmoins intressants, comme par exemple Books
Ngram Viewer qui propose une visualisation de lvolution des occurrences dune forme sur
une priode de 2 sicles, travers lexploration du gigantesque corpus douvrages dont
dispose Google.
Un petit corpus vise pdagogique : le corpus 18
Le corpus 18 est un corpus diversifi, compos de diffrents types de textes de manire

pouvoir comparer les caractristiques de genres de textes diffrents. Il est compos de souscorpus (articles de presse, articles scientifiques, critiques de film, discours politiques)
5. Conclusion
Un linguiste est susceptible de travailler sur des types de corpus trs varis, que ce soit des
corpus de rfrence ou des corpus spcialiss. La distinction entre ces deux types de corpus
est importante mais nanmoins difficile appliquer tant la constitution dun corpus de
rfrence est une entreprise complexe et rare.
Linterface du BNC, corpus de rfrence de langlais, est exemplaire et permet une exploration
intressante grce des fonctionnalits essentielles : concordances, tude des rpartitions des
formes dans les sous-corpus, tude des collocations. On retrouve des possibilits, mais moins
abouties, avec le corpus Frantext.
Trs souvent, on prouve la ncessit de confectionner son propre corpus, et dutiliser des outils
adapts (et non plus des interfaces ddis des corpus particuliers).
III / Des outils pour lexploration et

lanalyse des corpus
Antconc est un logiciel gratuit, trs complet et facile utiliser, qui permet de travailler sur
nimporte quel corpus. On peut donc utiliser Antconc sur nos propres textes.
1. Notions de base pour lanalyse du corpus

Examiner les concordances pour reprer les rgularits
Les concordances offrent un moyen dobserver sous forme synthtique les contextes
dapparition dun mot dans un corpus. Elles permettent de dgager les rgularits de ces
contextes, de manire identifier les patrons lexicaux et grammaticaux associs au mot. Le tri
dune concordance permet de rassembler les contextes similaires pour faciliter le reprage de
ces schmas rguliers.
Le reprage de ces patrons lexicaux et grammaticaux permet danalyser le comportement du
mot en contexte. Cest une tape essentielle dans la description lexicographique de ce mot,
pour dterminer les units phrasologiques dans lesquelles il apparat.
Etudier le fonctionnement contextuel dun mot, cest tre capable de recenser les structures
dans lesquelles il apparat de faon privilgie.
Lexamen minutieux et systmatique de concordances permet de mettre au jour ces patrons.
Plus le mot est frquent, plus cet examen est difficile mener.
Observer et analyser des frquences lexicales
Ltude de la frquence des mots dans un corpus est au cur de toutes les tudes ralises en
linguistique de corpus.
Distinction former/occurrence
Une distinction fondamentale est faite entre les formes (diffrents mots qui constituent le
vocabulaire du corpus) et les occurrences (diverses apparitions de ces mots dans le corpus).
Lopposition forme/occurrence se traduit en anglais par type/token.
- La phase de segmentation/tokenisation du texte est dterminante : quels sont les
caractres dlimiteurs dun mot ? Aucun caractre ne remplit de faon univoque la
fonction de dlimiteur de mot.
A quelle forme rattacher une occurrence donne ? Tient-on compte de la distinction

majuscules/minuscules ?
Taille et vocabulaire dun texte

On peut tudier la taille du texte (le nombre doccurrences du texte) et le vocabulaire du texte
(le nombre de formes du texte)
Ex : le corpus 18 contient 41904 formes et 823 866 occurrences.
La table de frquences dun texte/corpus prsente le nombre doccurrences de chaque forme
prsente dans le texte/corpus. Elle peut tre ordonne dans lordre lexicomtrique (de faon
dcroissante) ou dans lordre lexicographique (ordre alphabtique).
Rpartition des frquences lexicales
Les mots les plus frquents dans le corpus 18 sont des mots grammaticaux. Les 10 mots les plus
frquents couvrent eux seuls plus de 20% des occurrences de ce corpus. Les mots pleins ont
une frquence beaucoup moins importante.
Le rang du mot est sa position dans la liste ordonne de faon lexicomtrique.
Les mots de faible frquence sont extrmement nombreux : dans le corpus 18, plus de 18 000
mots napparaissent quune fois dans le corpus. Ils sont appels des hapax.
Cette rpartition nest pas propre au corpus choisi. Elle est vraie pour tous les textes, quels que
soient leur genre et leur langue.
Une loi, dite loi de Zipf, postule que la frquence dun mot est inversement proportionnelle
son rang dans lordre lexicomtrique : le produit de la frquence (F) par le rang (R) a tendance
tre constant. F(1) x R(1) = F(2) x R(2)
Frquence absolue, frquence relative
La frquence absolue dun mot est son nombre doccurrences dans tout le corpus.
La frquence relative sobtient en divisant cette frquence par la taille du corpus. On exprime
ce chiffre en pourcentage ou une frquence relative 10 000 mots (meilleure lisibilit).
Identifier des associations lexicales
La frquence ne donne des informations que sur les mots isols. La faon dont les mots
sassocient entre eux est une dimension essentielle du fonctionnement lexical. Cest le
contexte qui nous renseigne sur le fonctionnement dun mot : Rupert Firth : you shall know a
word by the company it keeps
Le travail sur corpus offre la possibilit de quantifier les associations entre mots, de mesurer la
force du lien qui unit les mots dans un corpus. Cest la collocation, la force dassociation que
lon peut observer entre plusieurs mots dans un corpus.
On utilise plusieurs fonctionnalits pour dterminer la collocation : la concordance, le module
voisinage de Frantext (nombre dapparitions conjointes des deux mots dans un contexte
donn) et le module compare du BNC (voisinage, score de collocation)
On a besoin de deux informations pour juger de la force dassociation entre deux mots :
- Avec quelle frquence les mots apparaissent ensemble (pas forcment cte cte).
On doit donc dterminer le contexte dapparition que lon veut considrer.
- Cette frquence doit tre compare avec les frquences des formes considres
part, car si les deux formes sont frquentes, il nest pas tonnant de les trouver ensemble.
Si elles sont rares, et apparaissent ensemble dans une grande proportion de leurs
emplois, cest quelles ont tendance sattirer, fonctionner ensemble.
Mesure statistique utilise dans Antconc : la mesure dinformation mutuelle, cest--dire le
rapport entre la probabilit de cooccurrence des deux mots P(x,y) et le produit de la
probabilit doccurrence de chaque mot P(x) et P(y).
Ex : MI(monde, entier) = 2,8 alors que MI(monde, est) = 0,13. La squence monde entier est
donc bien plus remarquable que la squence monde est .
2. Utilisation dun outil danalyse de texte : Antconc
Antconc permet de raliser des concordances, de calculer des frquences lexicales et

didentifier des associations entre mots.
Chargement du corpus et visualisation des textes
Pour pouvoir dmarrer le travail danalyse dun corpus, il faut pralablement charger le ou les
fichiers quil contient, au format texte (.txt).
Concordances
Pour visualiser une concordance : onglet Concordance, saisie de la squence recherche

dans lencadr Search term et clic sur Start.
Pour chaque ligne de la concordance est mentionn droite le nom du fichier dont elle est
issue. En cliquant sur une concordance, on peut examiner le contexte plus large.
Fonctionnalits volues offertes :
- Effectuer des tris (KWIC sort) : gauche ou droite
- Faire des recherches sur des squences de plusieurs mots
- Faire des recherches sur des segments de mots : lastrisque remplace une suite
quelconque de caractres. Cest ce quon appelle la troncature.
- Tenir compte de la casse.
- Utiliser des listes de mots : clic sur Advanced, coher Used search terms from the list
below et saisir la liste.
- Utiliser des expressions rgulires (regexp) et faire des recherches contextuelles
(advanced options)
- Le module Concordance Plot (graphique de concordance) permet de visualiser la
rpartition dune forme dans le corpus. Homogne, rgulire
Table de frquences : Word List
Antconc calcule la table de frquences des mots du texte lorsquon clique sur longlet Word
List. On peut parler galement dindex lexical.
La table de frquence est prcde dinformations globales : nombre total de formes, nombre
total doccurrences.
Le rsultat est affich dans lordre lexicomtrique, mais on peut changer cette prsentation
pour lordre lexicographique, et inverser lordre.
Il peut tre utile dignorer la casse en cochant treat all data as lowercase
Cooccurrences 1 : agrgats (Clusters/Ngrams)
Le module Cluster/Ngrams est lun des moyens dobserver les cooccurrences des mots (les
formes avec lesquelles un mot donn sassocie de faon privilgie). Il extrait les squences de
formes qui se rptent dans le corpus. On peut parler dagrgats ou de segments rpts.
Un n-gramme est une squence de n formes conscutives (bigrammes, trigrammes)

Le module Clusters/Ngrams permet de gnrer lensemble des n-grammes du corpus, ou ceux
qui concernent une forme donne (cocher N-grams dans la rubrique Search Term)
Paramtres : taille (cluster size), frquence minimale (min. freq.), range (min. range, nombre de
sous-corpus o la forme apparat). Rsultats tri par frquence, selon une mesure de probabilit
(transitional probability).
Les n-grammes les plus frquents sont souvent composs de mots grammaticaux, mais on
trouve aussi quelques squences constitues de mots pleins (mots composs).
On peut galement obtenir les n-grammes pour une forme donne (ex : petit dans petit ami,
petit petit, petit peu plus)
Cooccurrences 2 : collocations (Collocates)
Le module Collocates fournit la liste des formes qui sassocient avec une forme donne le plus
frquemment dans le corpus considr, mais sans contrainte de contigut. On obtient les
formes qui apparaissent dans une fentre de recherche de notre choix (ex : 4 mots avant, 4
mots aprs)
Saisir le terme dans Search Term, indiquer la fentre de recherche (Windows pan), indiquer le
critre de tri et la frquence minimale considre pour calculer les collocations (ex : 4).
Note : il faut auparavant avoir gnr la Word List (les frquences dapparition des mots dans
tout le corpus). Le programme a galement besoin de linformation mutuelle, qui peut tre
modifie dans Tool Preferences.
Le tableau obtenu indique les collocats ordonns par ordre dcroissant dassociation (mesure
Stat) ainsi que leur frquence dassociation (gauche et droite)
Ces collocats fournissent des informations intressantes sur lusage du mot dans le corpus. On
peut interprter un peu plus finement les rsultats en analysant de plus prs leurs contextes
dapparition.
3. Apprendre voir des fonctionnements linguistiques dans un corpus

travers un exemple
Cas de lutilisation de lon au lieu de on . Quest-ce qui conditionne le choix de lon ?

La dfinition du petit Robert donne peu dinformations : tournure qui tend disparatre,
rserve lcrit, qui sert viter une certaine discordance (hiatus ou cacophonie)
Grce au corpus, on aimerait savoir quelle est limportance quantitative de cette tournure
(systmatique lcrit, ou marginal ?), si on la trouve dans tous les genres de textes crits et sil
est possible de prciser les environnements qui conditionnent son utilisation, de manire
mieux comprendre la nature de cette cacophonie .
Analyse :
- Observation des frquences :
o on apparat 4028 fois, aussi bien dans on que dans lon . En choisissant
une recherche sensible la casse, On apparat 638 fois, et on 3390 fois.
o lon tant une squence de deux tokens, spars par le dlimiteur apostrophe,
il faut utiliser le module concordances et noter le nombre de lignes trouves : 372
occurrences. Il ny a aucune occurrence de Lon , ce qui nous permet de
dduire que cette squence napparat pas en dbut de phrase.
La proportion dutilisation de lon est donc de 9% des occurrences de on sur

lensemble du corpus
Rpartition par type de textes : tournure propre lcrit ?
Nb tokens
Nb occurrences on+On
Nb occurrences lon
proportion
Oral
121 884
1395
3
0,2%
Ecrit
1 425 473
2084
277
13,3%
La proportion de 9% cache une diffrence demploi entre oral et crit : loral, la

tournure est presque inexistante. On peut ensuite affiner ltude de la rpartition
de lon par type de textes en observant les sous-corpus de lcrit
individuellement. On constate une trs forte disparit selon les sous-corpus. Deux
sous-corpus se dmarquent : le compte-rendu mdical (19 occ. de on mais
aucune occ. de lon ), le discours politique (34% des on sont des lon )
Lutilisation de lon nest pas le fait de lcrit en gnral, mais de certains types
dcrits. Il est notable que le discours politique soit crit pour tre prononc, le
rdacteur est donc probablement plus sensible aux effets phonologiques quil
peut contrler.
Environnement dapparition de lon : quelle est linfluence du contexte sur lutilisation
de lune ou lautre forme ?
On examine donc les concordances de lon et on , lcrit. On les trie gauche,
pour tudier linfluence du mot prcdent. On peut aussi rechercher les collocats de la
squence lon (fentre 1 mot gauche)
Rsultats : lon est souvent prcd de et , lorsque , o , que , si (90%)

Les contextes et, o et si illustrent bien des cas dhiatus que ladjonction du l permet
dviter. Les cas de que et lorsque semblent correspondre au cas de cacophonie voqu par
le dictionnaire, pour viter les formes peu lgantes quon et lorsquon .
Ces hypothses doivent tre corrobores en comparant la rpartition de ces trois contextes
avec ceux que lon trouve dans le cas de on : les proportions sont bien moindres : 25% des
emplois de on , contre 90% des emplois de lon .
Ces observations corroborent donc lhypothse du Petit Robert, et permettent de la prciser en
recensant les environnements prcis qui conditionnent lutilisation de la formule lon .
IV / Diversit des corpus : mthodes

danalyse
1. Une opration de choix raisonn
Selon Habert (2001), le corpus est une collection de donnes langagires qui sont
slectionnes et organises selon des critres linguistiques et extra-linguistiques explicites pour
servir dchantillon demplois dtermins dune langue .
Il est indispensable de maitriser ces critres de choix, afin de savoir sur quelle varit de langue
on travaille et quels textes solliciter pour mener bien tel ou tel type dtude.
Objectif : tre sensibilis la question de la diversit des textes, familiaris avec certaines
typologies dfinies dans la littrature et sinitier aux mthodes permettant dtablir les
caractristiques linguistiques dun texte ou dun ensemble de textes. Cest--dire apprendre

caractriser la variation linguistique, perceptible tous les niveaux danalyse (vocabulaire,
structures syntaxiques, plan discursif diffrent) On sait de quelle catgorie relve un texte,
mais on est incapable dnoncer les critres qui nous ont amens ce choix.
Deux manires daborder la caractrisation des types de textes :
- Typologie externe : classer les textes daprs leurs caractristiques dnonciation, de
production (Ex : oral, crit, interaction ou pas, objectif communicatif)
- Typologie interne : fonde sur les caractristiques linguistiques des textes, les spcificits
du matriau langagier, mis en vidence grce des outils danalyse de corpus.
Premire illustration : comparaison entre le dialogue et lcrit scientifique
On peut difficilement imaginer deux extraits plus dissemblables. Ils sopposent selon les deux
dimensions :
- Externes, pragmatiques, lies aux situations de communication :
o le dialogue de film a t crit pour produire limpression dune production orale
spontane en temps rel. Objectifs dexpression de sentiments, de points de vue,
dvocation de faits personnels. Forte interaction entre les interlocuteurs qui
contribuent lavancement du discours.
o Larticle scientifique est une production crite dont lobjectif est de vhiculer des
informations. Pas dinteraction, pas dauto-rfrence (pas de je ), pas
dadresse un interlocuteur.
- Internes, les caractristiques linguistiques :
o Le dialogue est caractris par des phrases courtes, incompltes, qui prennent
lappui sur le contexte (pronoms personnels je et vous , dictiques).
Lexpression des sentiments se fait au moyen dinterjections et par lutilisation dun
vocabulaire marqu par la subjectivit (compliqu, mchant, idiot, je men
doute)
o Larticle scientifique consiste en un paragraphe unique, o domine la prsence
de groupes nominaux souvent complexes (expansions adjectivales et
prpositionnelles). Structure syntaxique des phrases galement complexe
(plusieurs propositions, verbe avec plusieurs complments). Des tournures
impersonnelles sont utilises.
Deuxime illustration : comparaison entre le rsum de film et la critique de film

Deux textes a priori moins loigns car ils partagent la mme thmatique, mais les objectifs
sont diffrents : le premier rsume le film, le deuxime en propose une apprciation.
Troisime comparaison : article scientifique / compte-rendu mdical

Deux textes produits par des experts (scientifique ou mdecin) destination de spcialistes (de
la mme communaut scientifique, quipe mdicale).
Les ressemblances sont trs fortes entre les deux types de textes : importance du vocabulaire
nominal, prsence de termes techniques (formations dites savantes), de chiffres.
Les diffrences sont plus difficiles percevoir : une comparaison de donnes plus tendues,
avec des outils permettant de comparer de faon systmatique les vocabulaires des deux
types de textes, savre ncessaire pour faire merger les marques linguistiques qui
permettraient de diffrencier les deux types de textes.
2. Typologie externe : critres usuels
Deux critres sont couramment utiliss pour caractriser les textes au premier abord : le
domaine et le genre.
Le domaine
Cette notion semble simple. Il sagit de la thmatique dont relve le texte : mdecine,
littrature, actualits De quoi parle le texte ? Pour recourir ce critre, il faut une
classification exhaustive et stable, une typologie qui ferait rfrence.
Or un tel recensement savre impossible. Il volue avec le temps et ne fait pas consensus.
On peut se rfrer larborescence des portails thmatiques de lencyclopdie en ligne
Wikipedia, chacune des thmatiques se dclinant ensuite en sous-thmatiques.
Le genre
Le genre renvoie une autre manire de classer les textes. Selon Pry-Woodley (2007), le genre
dsigne les catgories intuitives selon lesquelles les usagers de la langue reconnaissent,
interprtent, produisent des documents
Les usagers de la langue classifient spontanment leurs productions discursives. De quel type
de texte sagit-il ?
Les textes dun mme genre partagent les mmes buts communicationnels (informer, distraire,
convaincre, vendre, conserver une trace) et certains paramtres nonciatifs (le public vis, le
canal employ, les conditions de production)
Cest un mode de classement usuel des textes, que toute personne familire du type de texte
en question est capable de raliser.
Grille de caractrisation externe des textes
La notion de genre regroupe un ensemble de critres relatifs la situation dnonciation du

texte : ce sont les paramtres situationnels ou nonciatifs.
Liste de Douglas Biber (1993) :
- Canal : crit, parl, crit pour tre lu
- Format : publi, non publi
- Cadre : institutionnel, autre cadre public, priv-interpersonnel
- Destinataire : pluralit (non compt, pluriel, individuel, soi-mme), prsence (prsent,
absent), interaction (aucune, peu, beaucoup), connaissances partages (gnrales,
spcialises, personnelles)
- Destinateur : variation dmographique (sexe, ge, profession), statut (individu,
institution dont lidentit est connue)
- Factualit : informatif-factuel, imaginaire, intermdiaire
- Objectifs : persuader, amuser, difier, informer, expliquer, donner des consignes
Cette grille fournit donc des lments de caractrisation immdiats qui peuvent tre utiles pour
une premire analyse du corpus sur lequel on travaille.
3. Typologie linguistique
Ces lments ne concernent pas les caractristiques linguistiques des textes, mais seulement
leurs caractristiques situationnelles et communicationnelles. Deuxime type de classement
possible, en fonction cette fois des spcificits linguistiques : lexique, syntaxe, discours les
diffrents genres de textes ne mobilisent pas les mmes ressources langagires.
Des mesures simples pour caractriser les textes

La richesse lexicale
Comparaison des textes du point de vue de la diversit de leur vocabulaire. Ce critre permet
dopposer des textes dont le vocabulaire est trs redondant des textes dont le vocabulaire
est trs vari.
On calcule donc le nombre de formes diffrentes qui apparaissent dans le texte, et on le
ramne la taille du texte (nombre doccurrences) : on obtient le type-token ratio, cest--dire
le rapport formes-occurrences. On obtient un indice du taux de redondance du texte.
La comparaison est en ralit problmatique, la taille des textes considrs tant un paramtre
dcisif. Il faut donc considrer ce critre avec beaucoup de prcaution.
Note : les adjectifs riche et pauvre ne renvoient aucun jugement de valeur sur la qualit des
textes, mais simplement un vocabulaire plus ou moins diversifi, dpendant de plusieurs
facteurs (planification et rvision du discours, domaine trs spcialis ou vaste champ dexp.)
La densit lexicale
Cest la proportion relative des mots pleins par rapport aux mots grammaticaux : D = P/T, o P
est le nombre de mots pleins, et T le nombre total de mots.
Cette mesure ne peut pas sappliquer des corpus bruts. Elle ncessite un tiquetage des
textes.
La diffrence de densit lexicale noppose pas principalement loral de lcrit, mais seulement
les diffrents genres lintrieur de loral (avec ou sans interaction)
Des critres linguistiques pour diffrencier les textes

Plusieurs typologies sont bien tablies en linguistique :
- La typologie de Roman Jakobson, base sur les fonctions communicatives et opposant
les types textuels rfrentiels, expressifs, conatifs
- La typologie des actes de discours, tablie par John Searle : actes directifs,
reprsentatifs, promissifs
- La typologie de Jean-Michel Adam qui comprend les types narratif, descriptif, explicatif,
argumentatif, conversationnel.
- La typologie nonciative des textes : classer ceux-ci daprs la varit des situations
dnonciation dans lesquelles ils sinsrent (discours centr sur le locuteur et lallocutaire,
discours explicite vs implicite)
Typologie nonciative les marques linguistiques associes
Principales traces linguistiques de la prsence du locuteur au sein de son nonc :

- Les units de nature dictique : pronoms personnels 1 et 2, dterminants et pronoms
dmonstratifs, indications de lieu et de temps
- Les temps du verbe : pass compos, prsent et futur (rcit : pass simple)
- Les modalits : celles qui concernent le degr de vrit, de possibilit, de ncessit de
ce qui est nonc, mais aussi celles qui concernent la dimension affective, le jugement
du locuteur. C. Kerbrat-Orecchioni a appel ces marques des axiologiques positifs et
ngatifs. Les valuations sans jugement de valeur sont des valuatifs.
- Les marques de largumentation : connecteurs et modificateurs argumentatifs
4. Lutilisation des spcificits lexicales pour comparer deux corpus

Spcificits lexicales : module Keyword List
Cest le dernier module du logiciel Antconc, il nous permet ici de comparer des corpus entre
eux. Plus prcisment, il compare les occurrences des formes prsentes dans un corpus cible
(celui sur lequel on travaille) celles que lon trouve dans un corpus utilis comme rfrence.
Rsultat : la liste des formes qui apparaissent de faon remarquable dans le corpus cible, cest-dire nettement plus frquemment que dans le corpus de rfrence.
Comment faire ? Charger le corpus cible, indiquer quel corpus est utilis comme rfrence. La
mesure statistique utilise sappelle le log-likelihood, mesure recommande pour ce type de
comparaison. On peut changer certaines valeurs : le seuil, les formes ngatives, utiliser une liste
de mots la place des fichiers de donnes pour tablir les donnes de rfrence.
Les formes saffichent, tries par keyness. On peut cliquer sur chacune et accder sa
concordance dans le corpus cible.
Le corpus cible peut tre un vrai corpus de rfrence, de type BNC, ou des donnes de tout
type (Ex dans le cours : un sous-corpus et le corpus 18, deux sous-corpus particuliers)
Comparer un sous-corpus au corpus 18

Comparaison du corpus des discours politiques lensemble du corpus 18.
Observations :
- Prsence de marques de la premire personne du pluriel (dt., pron.)
- Prsence de deux formes verbales au futur (sera, seront). Le nom avenir confirme que
le discours se projette dans le futur
- Prsence de noms relevant de la thmatique politique
- Prsence des noms messieurs et mesdames, utiliss par lorateur pour sadresser son
audience
Certains lments nous renseignent sur la thmatique du discours, dautres sur le genre.
Important : ces listes de formes hors contexte doivent toujours tre interprtes avec beaucoup
de prcaution, en vrifiant le plus souvent possible les contextes dapparition de formes pour
ne pas se tromper.
Comparer deux sous-corpus

Comparaison des corpus des rsums et des critiques de films : mme domaine, mais genres
diffrents.
-
Rsum : les 50 formes les plus spcifiques comportent des noms dsignant des individus
(relations familiales particulirement), des pronoms de 3 personne, des dterminants
possessifs de 3 personne, des verbes au prsent (expriment les penses et actes des
personnages), des prpositions et des conjonctions
Critiques : les 50 formes les plus spcifiques comportent des noms relevant de la
thmatique du cinma, les pronoms nous/on, des marques de la ngation, des
dterminants dmonstratifs, des adverbes (dictiques), des conjonctions de
coordination et de subordination et des formes du verbe tre.
Premires hypothses : en se reportant la typologie nonciative, on peut dgager une

opposition entre les caractristiques dun texte narratif (rsums) et celles dun texte impliqu
et argumentatif (critiques), comprenant de nombreuses marques de lnonciation.
5. Typologie inductive
Limites des classifications de textes des typologies linguistiques existantes : les catgories restent
trs gnrales et ne permettent pas dapprocher finement la spcificit dun corpus particulier.
Elles se focalisent sur certaines dimensions des discours, par exemple la dimension nonciative,
qui nest pas le seul critre permettant de comparer et caractriser le discours. Elles ne
fournissent pas toujours de listes dindices prcis permettant de reconnatre de faon objective
et fiable chaque type de texte.
Autre dmarche : faire merger des textes eux-mmes les caractristiques linguistiques qui font
leur spcificit et vont permettre de les classer, construire les classifications partir de
lobservation de ces marques linguistiques.
Cette approche inductive a t mise en uvre par Douglas Biber. Elle est dite inductive car
elle part des donnes pour dgager des rgularits, des principes dorganisation.
Prsentation de la dmarche de Biber (1995)
Objectif : reprer les marques linguistiques associes aux diffrents types de textes produits
dans des situations dnonciation particulires.
Principe : la faon dont ces marques linguistiques se rpartissent dans les textes permet de
dterminer une typologie de textes.
Dfinition dun ensemble de marques linguistiques, avec des annotations et observation de leur
rpartition par des mthodes statistiques.
Etude mene sur 4 langues volontairement trs loignes : anglais, somalien, coren, une
langue de latoll Nukulaelae.
Dtermination des traits linguistiques de ltude
67 traits rpartis en 16 catgories (marques de temps et daspect, adverbes de temps et de
lieu, questions). Ces traits sont dtermins partir de travaux antrieurs.
Marquage des traits dans le corpus
Tous ces traits sont marqus dans le corpus, de faon automatique ou manuelle
Traitement statistique du corpus
Pour mettre en vidence les traits qui ont tendance apparatre ensemble dans les textes, ou
sexclure/sviter. A ces regroupements de traits sont associs des regroupements de textes.
Interprtation des rsultats
Observation de ces regroupements pour comprendre quels types de textes ils correspondent
Rsultats de lexprience de Biber (1995)
Mise en vidence de 6 regroupement principaux (constellations de traits), dont 4 sont

interprtables en termes de typologie des textes et quon appelle des dimensions principales
de classement des textes :
- Dimension 1 : textes impliqus vs informationnels
o Impliqus : verbes privs, subordonnes avec effacement de that, formes
contractes, verbes au prsent, 2 personne, dmonstratifs, subordonnes de
cause
o Informationnels : noms, mots longs, adjectifs attributs, prpositions, adverbes de
lieu, adjectifs pithtes
- Dimension 2 : textes narratifs vs non-narratifs
Dimension 3 : textes labors vs en situation

Dimension 4 : textes argumentatifs
Mise en vidence dune dimension principale dopposition entre les textes, qui rejoint
largement la typologie dordre nonciatif, lintrt double :
- Mise au jour dindices linguistiques supplmentaires, associs soit au ple impliqu, soit
au ple informatif quil a mis en vidence
- Liste consquente de traits qui permettent de guider lanalyse quon peut faire des
spcificits linguistiques des textes.
A noter, certains traits pertinents pour langlais ne le sont pas pour le franais.
Exemple : tude des spcificits du sous-corpus doral

Comparaison du sous-corpus doral au reste du corpus 18. Quels traits peut-on reprer ?
-
Marques de temps et daspect : formes verbales au pass nombreuses

Pronoms : 1ere personne, 2e personne du singulier, pronom on
Questions : rien de net, quand et quoi, mais les emplois sont varis
Subordination : conjonction causale parce que
Spcificits lexicales : mots grammaticaux, de petite taille
Classes lexicales : connecteurs, adverbes dattnuation, damplification ou demphase,
particule de discours, dmonstratifs
Classe de verbes spcialises : sais , qui relve de la classe des verbes privs
Formes rduites et structures non normatives : a , absence du ne expltif
Ngation : forme pas
Lutilisation des traits de Biber permet dordonner de faon plus pertinente les donnes, mais
tous les faits ne sont pas caractrisables via cette grille. On peut relever dautres lments : la
prsence dadverbes de dialogues oui et ouais , la prsence de ladverbe vrai (dans
lexpression cest vrai que presque systmatiquement)
Conclusion : on retrouve une partie des traits caractristiques des textes impliqus. De fait, les
entretiens et exposs ont bien les caractristiques de cette catgorie de discours.
- Mots de discours, formes non normatives : oral spontan
- Adverbes de dialogue, prsence du vous : dimension interactive
- Pronoms de 1ere personne, lments de modalisation : prsence du locuteur trs
marque
6. Conclusion
Prsentation dun ensemble de notions permettant de comparer les textes et de les classer :
classement externe, situationnel, et classement linguistique, qui peut tre bas sur diffrentes
mthodes danalyse : mthodes statistiques plus ou moins rudimentaires, critres issus des
typologies linguistiques existantes, reprage des marques linguistiques spcifiques dun
texte/discours laide doutils danalyse statistique (Biber et al, et un niveau plus modeste,
nous avec le module Keyword List dAntconc)

Fiche de Révision - Analyse de Corpus

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Fiche de Révision - Analyse de Corpus

Загружено:

Авторское право:

Доступные форматы

Analyse de corpus

I / Le recours au corpus en linguistique

Plusieurs faons de faire de la linguistique ?

2. Apports des corpus en linguistique

Des corpus pour lapprentissage des langues

Des corpus pour la conception douvrages de rfrence : dictionnaires et

Des corpus pour lanalyse des discours politiques

La lexicomtrie est ltude statistique du vocabulaire, science qui tudie la rpartition de

II / Prsentation de quelques corpus

2. Le British National Corpus : un corpus de rfrence pour langlais

Ce corpus a t enrichi dannotations relevant de diffrents niveaux de description :

3. Le cas de la base Frantext

Pourquoi Frantext est nanmoins utile pour ltude du franais

Adeline Moog 2015/2016

lexpression recherche. Le corpus ne fournit la frquence des squences quau prix

4. Quelques autres exemples de corpus pour ltude du franais

Le web comme corpus

Un petit corpus vise pdagogique : le corpus 18

Le corpus 18 est un corpus diversifi, compos de diffrents types de textes de manire

Adeline Moog 2015/2016

III / Des outils pour lexploration et

1. Notions de base pour lanalyse du corpus

Observer et analyser des frquences lexicales

Adeline Moog 2015/2016

A quelle forme rattacher une occurrence donne ? Tient-on compte de la distinction

Taille et vocabulaire dun texte

Identifier des associations lexicales

Adeline Moog 2015/2016

2. Utilisation dun outil danalyse de texte : Antconc

Antconc permet de raliser des concordances, de calculer des frquences lexicales et

Chargement du corpus et visualisation des textes

Pour visualiser une concordance : onglet Concordance, saisie de la squence recherche

Table de frquences : Word List

Cooccurrences 1 : agrgats (Clusters/Ngrams)

Adeline Moog 2015/2016

Un n-gramme est une squence de n formes conscutives (bigrammes, trigrammes)

Cooccurrences 2 : collocations (Collocates)

3. Apprendre voir des fonctionnements linguistiques dans un corpus

Cas de lutilisation de lon au lieu de on . Quest-ce qui conditionne le choix de lon ?

Adeline Moog 2015/2016

La proportion dutilisation de lon est donc de 9% des occurrences de on sur

La proportion de 9% cache une diffrence demploi entre oral et crit : loral, la

Rsultats : lon est souvent prcd de et , lorsque , o , que , si (90%)

IV / Diversit des corpus : mthodes

caractristiques linguistiques dun texte ou dun ensemble de textes. Cest--dire apprendre

Premire illustration : comparaison entre le dialogue et lcrit scientifique

Deuxime illustration : comparaison entre le rsum de film et la critique de film

Troisime comparaison : article scientifique / compte-rendu mdical

Adeline Moog 2015/2016

2. Typologie externe : critres usuels

Grille de caractrisation externe des textes

La notion de genre regroupe un ensemble de critres relatifs la situation dnonciation du

Adeline Moog 2015/2016

Des mesures simples pour caractriser les textes

Des critres linguistiques pour diffrencier les textes

Typologie nonciative les marques linguistiques associes

Principales traces linguistiques de la prsence du locuteur au sein de son nonc :

Adeline Moog 2015/2016

4. Lutilisation des spcificits lexicales pour comparer deux corpus

Comparer un sous-corpus au corpus 18

Comparer deux sous-corpus

Premires hypothses : en se reportant la typologie nonciative, on peut dgager une

Adeline Moog 2015/2016