Вы находитесь на странице: 1из 10

Copyright Luc Fayard 2005

page 1/10

Comment nous lisons Pour ceux que a intresse, voici un petit rsum de mon cours de Dauphine Matriser son information sur la partie lecture. Savoir comment on lit permet ensuite de mieux comprendre comment il faut crire pour tre lu et compris. Je reviendrai plus tard sur cette partie criture. La plupart des informations que je traite ici viennent des enseignements des coles de journalisme, notamment le CFPJ Paris et lESJ Lille. Le lecteur parcourt un journal selon diffrents niveaux de lecture. Il consacre en moyenne 15 20 minutes la lecture dun quotidien. Sachant quil peut lire 12 000 mots lheure, il va donc en lire effectivement 3 000 4 000 mots, soit moins de 10% de la surface du quotidien. Appliquez cette rgle au contenu des blogs et vous dsesprez immdiatement tous les auteurs ! Alors, restons positifs et concrets !

a) Les trois niveaux de mmoire


La mmoire de travail Cest celle qui est dabord mise en uvre dans le processus de lecture. Elle a une capacit maximale daffichage de 7 10 mots qui sont comme autant de spots de lil et qui peuvent tre retenus pendant plusieurs secondes. Le processus de lecture se fait par crtage : on sarrte sur des groupes de syllabes, ceux qui sont ncessaires pour identifier le mot et on en oublie dautres qui sont comme devines, induites. La mmoire cognitive Cest la premire sorte de mmoire profonde, une sorte de zone de stockage de mots (au sens de la thorie du langage cest--dire le couple signifiant/signifi, on voit un mot et on sait ce quil veut dire) ; la mmoire de travail fait constamment appel la mmoire profonde pour identifier les mots connus. La mmoire affective Cest la deuxime sorte de mmoire profonde, plus complexe ; elle est couple la mmoire cognitive et fonctionne un niveau inconscient, elle produit des images mentales qui rattachent le mot, le couple signifiant/signifi, lhistoire personnelle du lecteur.

b) Le parcours de lil
Loeil npelle pas, il parcourt un article par saccades : il divise inconsciemment la ligne en groupe denviron 10 lettres et passe dun groupe lautre. Cest donc un mouvement de type : fixation, dplacement, fixation etc., jusqu la fin de la ligne et le retour la ligne suivante. La fixation dure de seconde tandis que le dplacement se fait en 1/40e de seconde. Globalement lunit de lecture est donc le mot : lacte de lecture est un dcodage intellectuel de signes perus par lil pour en dgager la comprhension des mots et du texte. On peut justifier cette thse avec les travaux de Noam Chomsky1 pour qui comprendre une phrase revient en reconstruite la structure syntaxique : plus la phrase est longue, donc complique, plus il sera difficile den reconstruire larborescence grammaticale. Cest une thorie qui na jamais t vraiment prouv mais elle est pleine de bon sens ! Le nombre magique de 7, plus ou moins deux La capacit de mmorisation est value 7 lments (lettre ou chiffre) en moyenne, avec une correction possible de plus ou moins deux. Cest ce que les linguistes comme G. A. Miller2 appellent lempan visuel (ou mnsique) : lempan au dpart cest le mot qui dsigne
1

CHOMSKY Noam, Rflexions sur le langage, Flammarion Poche, 1997; 283 pages, prix Fnac 6,84 . ; Le Langage et la Pense, Payot Poche, 1990; 144 pages. 2 MILLER G.A., The magical number seven, Psychological Review 63, 81-94 ; cit in

Copyright Luc Fayard 2005

page 2/10

la largeur de votre main ouverte, entre les extrmits du petit doigt et du pouce puis ce mot a t rcupr par les linguistes avec la notion dempan visuel, cest--dire le nombre de caractres que lil peut lire en une seule fixation et qui est donc en moyenne de 7 caractres. videmment, cet empan varie selon le lecteur : un lecteur qui aurait un empan de 12 mots est cens retenir 85% dune phrase de 14 mots , 70% dune phrase de 17 mots et 50% dune phrase de 24 mots. Enfin, pour relativiser tous ces travaux, retenons que retenir et mmoriser, cela ne veut pas dire forcment comprendre ! Le processus dagrgation ou chunking Il est logiquement difficile de mmoriser une suite de 10 items comme 0 1 4 4 2 5 3 2 3 0. Mais si on groupe ces items, ce quon appelle le processus dagrgation (chunking en anglais) on diminue le nombre ditems et on retient plus facilement surtout quand on connat le contexte, en loccurrence un numro de tlphone : 01 44 25 32 30 (cest celui de mon bureau). Le processus de mmorisation repose tout simplement sur le groupement de linformation et pour une quantit dinformations de base gale, le nombre de ces paquets (chunks) influe directement sur la capacit de rtention. Une technique amricaine moderne dcriture, le principe de la pyramide de Barbara Minto3, sappuie sur ce processus de regroupement par niveaux. Il est frappant de constater que ces rgles de base des processus de mmorisation ont t appliqus par BT pour ses numros de tlphone qui sont groups par 3 ou 4 numros, aprs des tudes pousses menes par lun des meilleurs spcialistes mondiaux des processus mnsiques4. Mais ils ont t apparemment ignors par France Tlcom Quoiquil en soit, lhypothse de linfluence de la longueur des phrases est en accord avec la thorie du discours de W. Kintsch5, largement rpandue aujourdhui, selon laquelle le lecteur commence par laborer une microstructure en transposant le texte lu sous forme de micropropositions. On va toujours dans le sens de la simplification. Reste un problme de taille : si chaque fois quon veut se livre une interprtation, on a besoin de lEncyclopedia Universalis pour tre sr quon ne passe pas ct dune information utile la comprhension du problme, cela risque de ne pas tre trs pratique. Il va donc falloir choisir, slectionner les infos dont on a besoin : cest ce quon appelle le principe de pertinence6.

c) La loi de leffort minimum


Il y a un texte de Dan Sperber et Deirdre Wilson qui lexplique trs bien : Quest-ce que la pertinence ? Le traitement de linformation par les tres humains leur demande un certain effort mental et produit en eux un certain effet cognitif. Leffort demand est un certain effort dattention, de mmoire et de raisonnement. Leffet produit consiste en LABASSE Bertrand, La lisibilit rdactionnelle, Communication & langages n121, 1999 ; www.univ-lyon1.fr/spr/GEV/READIBILITY.html . 3 MINTO Barbara, The Pyramid Principle, Prentice Hall Financial Times, London, 2002 (premire edition en 1987) 4 BADDELEY A. D., Working memory, New York: Oxford University Press, 1986; cit in LABASSE Bertrand, Une dynamique de linsignifiance, Enssib, 2002. 5 KINTSCH W., Comprehension ; a paradigm for cognition, Cambridge University Press , 1997 ; cit in LABASSE Bertrand, La lisibilit rdactionnelle, Communication & langages n121, 1999 ; www.univ-lyon1.fr/spr/GEV/READIBILITY.html . 6 SPERBER Dan et WILSON Deirdre, La pertinence : communication et cognition, Minuit, 1989 ; cit in Le langage, Ed. Sc. Humaines, voir bibliographie.

Copyright Luc Fayard 2005

page 3/10

une certaine modification de croyances de lindividu : laddition de nouvelles croyances, llimination de croyances antrieures ou simplement un affaiblissement ou un renforcement de croyances antrieures. Ils en dduisent deux rgles : - plus leffet cognitif produit par linformation sur le destinataire est grand, plus elle sera pertinente pour lui ; - plus linformation lui demande un effort de traitement, moins elle sera pertinente. Il faut sappuyez sur ce principe slectif qui est quasi-inconscient au niveau du langage pour en dduire une dmarche plus organise dans le traitement dinformations. Retenez aussi de toute cette thorie que dans un change il y a toujours une double intention: transmettre un message et convaincre son interlocuteur, ce qui nest pas du tout la mme chose. Cette double fonction existe toujours mme dans un rapport qui se voudrait purement informatif: je vous informe dun fait mais la faon dont je vous le dis prsuppose votre comprhension, je vous attribue donc implicitement des connaissances, des croyances et mme des tats mentaux ncessaires une bonne interprtation de mon nonc. La pertinence dune information dpend de son contexte et ce contexte est en quelque sorte fabriqu par linterprte, le destinataire, le lecteur, il est choisi par lui dans le sens qui lui donnera le maximum de comprhension cest--dire le maximum dinformation pour le moindre effort. Do les possibilits de malentendu et de manipulation. Enfin, tout ce processus de comprhension implique des modles mentaux, qui sont en fait des reprsentations du monde, des analogies au monde, des reprsentations images. Le modle mental, selon Philip N. Johnson-Laird7, cest la faon naturelle dont lesprit humain construit la ralit, en conoit des alternatives et vrifie des hypothses, lorsquil est engag dans un processus de simulation de modles. Cest une autre diffrence fondamentale entre communication et langage : la communication est une transmission de modles tandis que le langage est le moyen de cette transmission. Pour les psychologues, la structure du modle est similaire ltat de chose reprsent, avec des lments et des relations. Dans la hirarchie de ces modles, on part de simples images mentales figuratives centres sur le point de vue particulier de lobservateur jusqu des modles abstraits avec des relations entre units conceptuelles. Enfin, le modle peut aussi tre hypothtique, construit la demande, si on a vraiment envie de comprendre !

d) Nous sommes tous des deductive satisfacers


Dans la thorie moderne de linformation, avant quon parle de communication (au sens ou on parle dun directeur de la communication), il y a dj cette ide dune adaptation au contexte et au destinataire. Cest lintroduction dun humanisme qui nexistait pas auparavant parce que la thorie de base a servi linformatique: traduire des donnes en 0 et en 1, a peut se faire sans sentiment. Aujourdhui les croyances reviennent en force, ce qui peut parfois fausser le raisonnement ou le simplifier. On sarrte ds quon croit avoir compris, on est tous un peu flemmard. Cest ce que dit en tout cas Philip N. Johnson-Laird : Les sujets qui parviennent une conclusion putative qui concide avec leurs croyances auront tendance arrter de rechercher des modles alternatifs qui pourraient rfuter leur conclusion, les gens sont des deductive satisfacers .

JOHNSON-LAIRD Philip N., La thorie des modles mentaux, in EHRLICH M.-F., TARDIEU HH., CAVAZZA M. (sous la dir. de), Les modles mentaux, approche cognitive des reprsentations, Masson, 1992.

Copyright Luc Fayard 2005

page 4/10

e) Des mots courts


Donc, le lecteur lit et mmorise dautant mieux que le mot est court et contient moins de syllabes. Plus le mot est long, plus lil sera oblig de faire un grand nombre de fixations. Ces fixations ne servent pas identifier les caractres mais permettre ds que possible laccs lexical, cest--dire quon va piocher dans notre dictionnaire, notre lexique mental et on va en ressortir le mot le plus plausible mais aussi le plus connu de nous: cest pourquoi on aura tendance dans un premier temps lire lectrique , quon utilise souvent, plutt que le mot crit et qui est en fait clectique, quon utilise moins. Si jamais la pioche est mauvaise, il faudra revenir en arrire (ce quon appelle la rgression oculaire) et l le taux de lecture risque de fortement diminuer car cest une manuvre complique quon na pas envie de faire. Ces enseignements ont notamment t confirms par les travaux de deux spcialistes des signes, Pierce et Miller : ils nous expliquent que la lecture rapide est limite par deux facteurs : - la capacit maximale du systme de perception humain quils valuent, en reprenant les calculs de la thorie de Shannon 45 bits par seconde8 ; et cest l quon se sent un peu faible par rapport aux machines : un disque dur dordinateur, a typiquement un taux de transfert de donnes de 30 millions de bits par seconde ; on est nettement moins rapide, nestce pas ! - la capacit de la mmoire court terme : cest la mmoire qui va servir la mmoire de travail mais qui travaille beaucoup plus vite, de lordre du centime de secondes. Certains auteurs estiment cette capacit de 10 20 mots, selon la qualit du lecteur. On pourrait symboliser la mmorisation des mots en fonction du nombre de syllabes par ce type de courbe.
100%

Score de mmorisation

5 et + Nombre de syllabes

Vous pouvez vous amuser trs facilement calculer la longueur moyenne de vos mots dans un de vos textes, avec la fonction Outils/Statistiques de Word qui vous calcule le nombre de mots et de caractres (sans compter les espaces). Par exemple, dans ce texte, Word compte 13 974 caractres (sans les espaces) et 4 927 mots, ce qui donne un mot dune longueur moyenne de 4,87 caractres.

cit in ESCARPIT Robert, Lcrit et la communication, PUF Coll. Que sais-je ?, 1984.

Copyright Luc Fayard 2005

page 5/10

Quelques exemples clbres de nombre de mots diffrents utiliss par de grands auteurs (exemples anciens tirs des manuels de journalisme, je nai pas eu le courage de les mettre jour !) - Charles De Gaulle : 6 009 (ensemble de ses discours) - Franoise Giroud : 2 990 mots (sur 50 ditoriaux de LExpress) - Jean Ferniot : 2 460 (23 chroniques RTL) - Jean Racine : 1 800 mots (ensemble de ses tragdies) - Charles Trnet : 1 200 (ensemble des chansons) - Georges Simenon : 800 (tous les Maigret) Nombre de mots compris par les lecteurs On estime quun lecteur comprend et matrise en moyenne : - 600 800 mots en fin dtudes primaires (cible : lecteur du Parisien); - 1 500 mots au niveau du bac ; - 3 000 3 500 mots un niveau dtudes suprieures (cible : lecteur du Monde). Par rapport ces chiffres, on connat et reconnat 4 5 fois plus de mots mais nous nen connaissons quun sens approximatif et nous ne les utilisons pas. Rappelons que le Petit Robert contient 50 000 mots et que le thsaurus de la langue franaise en contient environ 150 000 mots, sans les jargons spcialiss, plus de 200 000 avec eux.

f) La phrase
Les expriences de mmorisation de diffrents types de phrase sont sans quivoque. Si on tente de faire mmoriser deux phrases construites chacune en deux parties, mais lune est simple et courte (12 mots : 6 + 6), lautre trs longue, avec des incises (rajout dans la phrase, sorte de parenthse comme dans Un soir, ten souvient-il, nous voguions en silence Lamartine, cest que je viens de faire, une incise), le rsultat est sans appel : - pour la phrase courte, le taux de mmorisation de la 1re partie de la phrase atteint les 100% et celui de la deuxime partie nen est pas loin ; - pour la deuxime phrase, on obtient les scores suivants ; 50% de mmorisation pour la 1re partie et seulement 10% pour la seconde, soit 30% au total. Cela nous donne le tableau suivant Tableau de mmorisation de la phrase en fonction de son nombre de mots Nombre de mots par phrase 12 13 17 24 40 Message entier retenu 100% 90% 70% 50% 30% Premire moiti retenue 100% 95% 90% 70% 50% Deuxime moiti retenue 100% 85% 50% 30% 10%

On en dduit quelques rgles simples : - la mmorisation est une fonction dcroissante quasi-linaire du nombre de mots dans la phrase ; - la premire partie de la phrase est mieux retenue que la seconde ; - les meilleurs scores de mmorisation se situent autour de 12 mots. On comprend mieux en lisant ces chiffres pourquoi lcriture journalistique privilgie les mots courts et les phrases courtes : cest tout simplement une rgle defficacit de lecture. Et pourquoi on enseigne que le sujet, le message essentiel de la phrase doit se situer au dbut : il a plus de chance dtre retenu et donc compris.

Copyright Luc Fayard 2005

page 6/10

g) Les critres de lisibilit


Il existe de nombreux travaux sur ce sujet, avec des tas dindices plus ou moins scientifiques. Une analyse de Bertrand Labasse9 : En premire analyse, ces indices reposent sur une rgle de bon sens : le plus court est le mieux. On a, par exemple, ironis sur le clbre dbut de la "Recherche du temps perdu" ("Longtemps, je me suis couch de bonne heure...") qui annoncerait le caractre soporifique des phrases proustiennes. De fait, Proust est rput difficile lire : dans les premires pages de la "Recherche" figure une priode de prs de 500 mots. La longueur moyenne de ses phrases est de 38 mots contre 20 pour Gide et 13 pour les livres de la collection Harlequin (dixit Richaudeau, 1988, 1992). Il n'est donc pas surprenant que la formule de lisibilit de Flesch - celle qu'exploitent en gnral les programmes informatiques - crdite Proust d'un score... ngatif (-10), contre 30 Saint-Exupry et 60 aux bandes dessines Tintin et Spirou (De Landsheere,1982). Voici, dans tous les travaux sur le sujet, les critres les plus cits10 : Au niveau du vocabulaire - prsence ou absence des mots utiliss dans une liste de rfrence, un vocabulaire de base variant de 500 7 000 mots suivant le contexte ; - nombre de mots diffrents pour 1 000 mots conscutifs ; - nombre de mots plusieurs syllabes ; - nombre de mots de plus de 3 syllabes ; - nombre de lettres par mots ; - nombre moyen de syllabes pour 100 mots ; - nombre de mots dune seule syllabe : - nombre de mots de plus de 6 lettres - pourcentage de mots concrets ; - nombre de mots dont la signification est modifie par un adjectif ou un adverbe ; - nombre de lettres, voyelles et consonnes ; - nombre moyen de substantifs, dadjectifs, de verbes auxiliaire. Au niveau de la phrase - nombre moyen de mots par phrase ; - longueur des phrases les plus longues ; - nombre de phrases structure simple ; - pouvoir sparateur des signes de ponctuation ; - degr de prvisibilit des structures de la phrase. Au niveau de lintrt humain - nombre de mots sensoriels : - nombre de pronoms personnels ; - nombre de mots personnels ; - nombre de rfrences personnelles ; - nombre de phrases personnelles.

h) Quelques formules de calcul de lisibilit


A partir de cette liste de paramtres, de nombreux chercheurs ont cr des formules pour mesurer le degr de lisibilit dun texte. Cest bien sr un exercice prilleux. Ces formules ne prennent pas en compte le sens rel du texte. Faites une liste de mots courts et de phrases
9

LABASSE Bertrand, La lisibilit rdactionnelle, Communication & langages n121, 1999 ; www.univ-lyon1.fr/spr/GEV/READIBILITY.html 10 Cit in HERVOUET Loc, Ecrire pour son lecteur, ESJ Lille, Coll. J comme journalisme, 1979.

Copyright Luc Fayard 2005

page 7/10

courtes sans aucun sens : le texte aura une trs bonne note une fois pass dans ces diffrentes moulinettes. Malgr ces rserves, cela peut tre utile de les connatre. Le fox index de Gunning Ou la cote de brouillard en franais. Gunning est un consultant de presse amricain ; sa formule = nombre moyen de mots par phrase + pourcentage de mots de trois syllabes et plus, le tout multipli par 0,4 (un coefficient cr lpoque pour que le nombre obtenu corresponde une chelle ducative amricaine). Son chelle de valeur : 16 et + : Livres universitaires 12 et + : Commence tre difficile pour le grand public 10 : Score moyen des journaux amricains 9: Readers Digest 6: Bandes dessines En franais, il faudra tre moins svre car les mots anglais sont plus courts et le taux de redondance de langlais est infrieur celui du franais. On peut prendre par exemple des mots de 4 syllabes et plus au lieu de 3. Si japplique la formule une petite partie de mon texte de cours, jobtiens une trs bonne note de 8,3, je suis donc aussi clair que le Readers Digest ! Certains chercheurs (comme Gilbert de Landsheere, directeur du laboratoire de pdagogie exprimentale de lUniversit de Lige) conseillent de ne compter que les mots de 4 syllabes et plus en franais, pour tenir compte de la diffrence avec langlais. Lindice de Flesh (Reading Ease Level) Encore un consultant amricain, Rudolph Flesh. Ctait la formule la plus utilise avant larrive des ordinateurs et elle lest reste depuis, intgre dans de nombreux logiciels, comme Word de Microsoft. Sa formule a lavantage de la simplicit et elle peut tre calcule par programme : 206,835 (1,015 x nombre moyen de mots par phrase) (84,6 x nombre moyen de syllabes par mots) Le score varie de 0 (trs difficile) 100 (trs facile). 100-90 Trs facile 90-80 Facile 80-70 Assez facile 70-60 Moyen 60-50 Assez difficile 50-30 Assez difficile 30-0 Trs difficile Le Readers Digest fait 65 et les bandes dessines 90. Mais cest surtout une formule pour les textes anglophones. Rsultat : mon support de cours obtient 38, ce qui apparemment nest pas trs bon. Aux Etats-unis, nous dit-on, ces indices de lisibilit sont devenus une contrainte lgale dans les documents administratifs. Certaines formules ont t institues en normes lgales d'intelligibilit dans plus de la moiti des tats amricains : l'article 38a/699a de la lgislation du Connecticut stipule par exemple que les polices d'assurance doivent obtenir un score minimal de 45 au test de Flesch. Elles sont galement utilises dans les hpitaux, pour contrler la clart des formulaires de consentement clair que doivent signer les patients avant une opration. (information tire de Bertrand Labasse, non vrifie).

Copyright Luc Fayard 2005

page 8/10

Pourtant, il y a quatre obstacles : - toutes ces formules ne sont quapproximatives sur le strict plan scientifique de la linguistique et de la phonologie ; le calcul de mots de Word se fait par exemple selon un chercheur11 avec une approximation de 10%, ce qui est norme ; - elles ne sont quun comptage statistique et ne peuvent en aucun cas tmoigner de lintrt vritable du texte ; - la formule de Flesh peut se traduire par des nombres plusieurs dcimales : on ne voit pas trs bien lutilit pratique dune telle prcision, ce qui aurait tendance invalider son caractre scientifique ; - elles auraient tendance mesurer plutt le conformisme et la redondance puisque plus un texte est redondant, sans originalit, sans construction particulire, plus il serait facile lire, alors que, dans la ralit, on risque vite de sen dsintresser.

i) Au fait, comprendre un texte, quest-ce que cest ?


Au-del des formules diverses de comptage et de lisibilit, la vraie question est de savoir si lon peut mesurer la comprhension dun texte. On sait que comprendre un texte, cest se construire une reprsentation, laborer un modle mental de ce qui est dcrit. Illustration de Bertrand Labasse qui compare deux noncs ayant exactement la mme structure syntaxique, syllabique et le mme nombre de lettres : Le vagabond prend les gteaux poss sur la fentre. Le lamaneur voit le vraquier mouill dans la darse. Ces deux phrases auraient le mme score aux indices de lisibilit. Pourtant on comprend vite la premire, on imagine la scne, on suppose que le vagabond a faim, que ce ne sont pas ses gteaux et quil les vole pour les manger. Imaginez la diffrence de sens si lon avait mis ptissier la place de vagabond . Bref, il y a plein dinformations absentes que lon remplace par des hypothses et le texte est lu et compris vite. Alors que dans la deuxime phrase, on va buter sur des mots peu connus, il faut tre docker ou marin pour la comprendre : lamaneur=pilote charg de lentre-sortie des bateaux dans les ports ; vraquier=navire transportant des produits en vrac ; darse=bassin abrit du port. Le problme cest quun mot peut tre connu, par exemple parce quil va tre rpt par les mdias, sans pour autant quon sache exactement ce quil veut dire : on va nous parler la tl de anticyclone mais tout le monde ne saura pas ce que cest et il y aura sans doute des contresens. Enfin, noublions pas le contexte qui aide comprendre: le mot bout peut dire fin mais aussi cordage si on parle marine (auquel il se prononce boutte). Bertrand Labasse propose une arborescence pour dfinir ce quil appelle lintelligibilit dun texte, qui prendrait en compte un certain nombre de paramtres :

11

LABASSE Bertrand, La lisibilit rdactionnelle, www.univlyon1.fr/spr/GEV/READABILITY.html

Copyright Luc Fayard 2005

page 9/10

Cest une grille qui nest pas termine mais elle a le mrite de lister toutes les gradations de comportements que lon peut avoir devant un texte. On part des difficults de bas niveau (lisibilit graphique) pour aller jusquaux concepts, jusquaux niveaux qui dpendent essentiellement des connaissances et de limplication du lecteur et qui vont finalement construire le sens. Le niveau le plus bas inclut le choix des polices et des tailles de caractres. Peuvent sy ajouter des lments de maquette qui faciliteront ou compliqueront la lecture. Le second registre de difficult, celui de lacquisition du contenu par le lecteur est sans doute celui ou sapplique le mieux les formules de calcul de lisibilits que nous avons vues tout lheure. Par exemple, il est admis que le score lindice de Flesh rend assez bien compte du temps de lecture mais pas de ce qui est rellement retenu du texte. Mais cela peut quand mme tre un argument pour retenir ou acqurir des lecteurs : ainsi, on la vu, un lecteur de quotidien ne lit pas tout, loin de l ; or, selon un cacul fait J. Doul, cit par Bertrand Labasse si le journal diminuait un tant soit peu sa longueur moyenne de mots, par exemple en la ramenant de 4,8 4 caractres, le lecteur pourrait parcourir 20% de texte en plus temps gal, ce qui donne davantage de chances de le sduire !

j) Et quelques mystres pour finir


La linguistique obit peut-tre des lois qui nous dpassent et de nombreux chercheurs ont trouv des choses trs tonnantes dans les textes : le linguiste amricain Georges Kingsley Zipf a dissqu le vocabulaire de James Joyce dans Ulysse : pour ceux qui lont lu, ce nest pas une mince affaire ! Je dirai que Joyce est le mlange dtonant dun Shakespeare moderne (il cre des mots tout comme lui, par exemple le mot quark qui a t choisi ensuite par les astrophysiciens pour dsigner une particule lmentaire), de Proust pour la finesse des sens exprims et de Cline pour la violence et la libert de ton. Donc Zipf a trouv que le 10e mot de Joyce dans Ulysse y revenait 2653 fois, le 100e 256 fois, le 1 000e 25 fois et le 10 000e 2 fois12. Ce serait carrment une loi : la constance du produit de la frquence dutilisation du mot par son rang dans le texte. La loi serait valable galement dans la langue franaise, selon Pierre Guiraud, cit par Loc Hervouet13. Zipf explique cela en imaginant que lauteur quel quil soit balance en permanence quand il crit entre la loi du moindre effort poussant employer les

12

Cit in HERVOUET Loc, Ecrire pour son lecteur, ESJ Lille, Coll. J comme journalisme, 1979. 13 Cit in HERVOUET Loc, Ecrire pour son lecteur, ESJ Lille, Coll. J comme journalisme, 1979.

Copyright Luc Fayard 2005

page 10/10

mots les plus usuels et laspiration loriginalit le poussant chercher les mots les plus prcis possibles. Plus pratiquement, la formule de Zipf sapplique en fait tout corpus de texte, pourvu quil soit un peu long et la rgle est simple : si on classe les mots dun texte en fonction de leur frquence dutilisation, on constate que le 100e mot de la liste sera employ environ 100 fois moins souvent que le premier, le 1000e mot sera employ 1000 fois moins que le premier, etc. Autrement dit le produit de la frquence du mot par son rang est constant. Selon l'tude mene par le professeur Jean Baudot14 en 1992 sur la frquence des mots de la langue franaise, le tiers d'un texte n'est compos que de 15 mots diffrents, ou encore, la moiti que de 47! C'est dire encore toute l'importance de la couverture lexicale des mots courants. Mais, inversement, dans un long texte, il y a beaucoup de mots faible occurrence : toujours selon Jean Baudot, les trois quarts des mots du vocabulaire d'un texte d'environ un million de mots n'ont pas plus de 12 occurrences dans le texte et ne reprsentent que 5% des occurrences du texte15. Cest le corpus mis au point par Baudot qui confirme notamment que les mots les plus utiliss dans la langue (et donc les mieux compris) sont les mots les plus courts : les 34 mots les plus utiliss ont une longueur moyenne de 2,8 lettres tandis que ceux situs autour de la 12 000e position comptent en moyenne plus de 8 caractres. Labasse lui suggre de sintresser au ratio : nombre de mots diffrents/nombre total de mots, ce quil appelle le taux de redondance lexicale, ou type token ratio . Lide est quun mot est plus facilement activ (lu, compris) si ce mot a dj t rencontr dans le texte. Les textes pour enfants nhsiteront pas ainsi rpter quasiment des groupes entiers de mots dune phrase une autre. Fin du cours sur la lecture ! La suite, lcriture, cest pour bientt

14

BAUDOT Jean, Frquences d'utilisation des mots en franais crit contemporain, Montral, P.U.M., 1992. 15 www.osil.ch/eval/node29.html

Вам также может понравиться