Академический Документы
Профессиональный Документы
Культура Документы
1 INTRODUCTION
tal sur une priode de deux ans (2007-2009), le projet de mise au point d'une base de donnes lexicale multifonctionnelle est un projet men par l'Universit Cheikh Anta Diop de Dakar (UCAD) au Sngal en collaboration avec le centre de recherche en linguistique applique Termisti de la Haute cole de Bruxelles (Belgique) et avec le soutien de l'Agence Universitaire de la Francophonie (AUF). Ce projet, aujourd'hui mi-parcours, a pour objectif principal de constituer une base de donnes lexicale multifonctionnelle pour la langue wolof, en d'autres termes, de collecter, numriser et standardiser un matriel lexical qui pourra tre exploit une double fin : d'une part, fournir aux chercheurs et aux spcialistes du wolof un corpus lexical rexploitable des fins d'enrichissement du matriel constitu dans le cadre du projet, ou rutilisable pour des applications de l'ingnierie linguistique ; d'autre part, fournir le support d'un dictionnaire destination des populations wolophones monolingues ou bilingues. Structuration et format des donnes ont t penss en premier lieu pour que le produit final puisse servir au double usage de corpus lexical et de dictionnaire (tantt l'usage exclusif de l'une ou l'autre de ces fonctions, tantt l'usage conjoint des deux fonctions) et, en second lieu, pour offrir in fine la possibilit d'une exploitation des donnes sur diffrents supports (site web, cdrom, publication imprime, etc.). La dcision de proposer un dictionnaire wolof sous format lectronique et intgrant une dimension bilingue dcoule du constat que les dictionnaires, monolingues ou bilingues, pour cette langue sont non seulement peu nombreux, mais aussi et surtout que l'accs ces trsors par la population wolophone est handicap par divers obstacles en termes de publics viss, de cot et de disponibilit. En raison de son format lectronique, ce dictionnaire, pourra tre librement tendu, exploitable sur divers mdias et rutilis par la suite par d'autres quipes. Quant la dimension bilingue du projet, elle se manifeste au travers de l'association, pour chaque entre lexicale wolof, d'une proposition d'quivalente
Pour faire rfrence cet article : van Campenhoudt Marc, Diagne Anna Marie, Muraille Paul & Thierno Ciss Mame, Mise au point d'une base de donnes lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-franais , revue lectronique Texte et corpus, n3 / aot 2008, Actes des Journes http://web.univde la linguistique de Corpus 2007, p. 163-170 (disponible sur ubs.fr/corpus/jlc5/ACTES/ACTES_JLC07_thiernocisse_diagne_campenhoudt_muraille.pdf)
163
en langue franaise (accompagne d'indications supplmentaires voques plus loin). De par sa dure et les ressources mises en oeuvre, le projet ne prtend pas l'exhaustivit : il entend plutt fournir un modle conceptuel et un canevas technique simples, ouverts et facilement rutilisables pour la production de bases de donnes et de dictionnaires gnraux ou spcialiss, tant en wolof que dans d'autres langues qui n'ont gure pu profiter jusqu' prsent des avances de l'informatique. Remercions enfin Ndeye Fatou Thiaw, Elhadj Diye, Dame Ndao et Nol Biagui, doctorants l'UCAD, pour leur regard critique et leur contribution essentielle toutes les tapes du projet depuis son lancement.
2 CONTEXTE DU PROJET
Comme d'autres langues africaines, le wolof n'a gure bnfici jusqu' prsent des avantages dcoulant des avances de l'informatique depuis la fin des annes 1990, en matire d'universalisation du traitement (Unicode) et d'change (XML) des donnes textuelles. Or cette langue est non seulement la premire langue vernaculaire du Sngal (et une de celles de la Gambie et de la Mauritanie), mais est aussi une importante langue vhiculaire entre Sngalais (du moins en termes de corpus par contraste avec le franais qui occupe, lui, la premire place en termes de status selon R. Chaudenson (1991)). Le franais tant langue officielle et d'enseignement au Sngal ( ce jour, il n'existe pas d'enseignement dans les langues nationales en dehors de classes d'exprimentation au niveau de l'enseignement lmentaire), son apprentissage effectif ncessite le dveloppement d'outils didactiques qui prennent en considration le substrat linguistique des apprenants, et permettent d'offrir une passerelle vers les langues locales. Dans cette optique, le dictionnaire a t labor pour tenter de rpondre aux besoins lexicographiques de la didactique du franais des wolophones dans l'ducation primaire. ce niveau d'enseignement, les enseignants ont en effet besoin d'outils facilitant l'apprentissage de l'orthographe et de la signification des mots en wolof (partie unilingue) d'une part, et d'outils facilitant l'apprentissage du franais partir de la langue maternelle des apprenants d'autre part (partie bilingue). Le dictionnaire intgre ainsi les mots les plus frquents du wolof tels que recenss dans Diouf, Calvet et Dia (1971). Il a galement pour vocation de faciliter les changes interculturels du fait qu'il peut tre intgr dans une stratgie de didactique du wolof des francophones. La disponibilit des donnes lexicologiques sous forme lectronique, en conformit avec les standards Unicode et XML, est une condition indispensable non seulement pour leur exploitation long terme par les chercheurs au Sngal et ailleurs, mais aussi pour leur rutilisation et leur intgration dans des applications d'ingnierie linguistique telles qu'un vrificateur orthographique. La forme de stockage des donnes et leur mode de diffusion pallient, en outre, les inconvnients du support papier en termes de cot, de disponibilit et de diffusion.
164
Le logiciel Toolbox de SIL International peut tre tlcharg librement l'adresse suivante http://www.sil.org/computing/toolbox/. 2 WordSmith Tools, logiciel conu par Mike Scott de lUniversit de Liverpool, est commercialis par Oxford University Press. 3 Praat est un gratuiciel conu par Paul Boersma et David Weenink de l'Institut des sciences de la phontique de l'Universit d'Amsterdam, tlchargeable l'adresse http://www.fon.hum.uva.nl/praat/
165
quelque 115 000 formes (tokens). L'indexation du corpus laide de WordSmith a permis disoler quelque 14 700 formes uniques. Comme il n'existe pas, notre connaissance, de lemmatiseur pour la langue wolof, ces 14 700 formes ont t importes dans la base de donnes Toolbox o l'opration de rduction lemmatique est opre manuellement, mesure que les transcripteurs dpouillent les formes importes pour pouvoir procder la description lexicographique conforme au schma descriptif des donnes lexicographiques tabli pour notre base.
166
167
Notons enfin que le modle comporte cinq champs d'administration de la base de donnes qui permettent de suivre l'tat d'achvement de chaque fiche, l'identit du gestionnaire de la fiche, les ventuels commentaires sur le contenu de la fiche et, enfin, la date de dernire modification de la fiche (un champ dont la valeur est gre de manire automatique par Toolbox). Du point de vue de la mthode de travail, les transcripteurs qui ont prpar le corpus textuel et les autres sources d'entres lexicales de la base sont aussi les personnes qui compltent chaque fiche. Aucun n'est charg de complter la totalit des fiches mais chacun est charg, selon ses comptences spcifiques, de complter des champs dtermins par lots alphabtiques de fiches. Le travail des transcripteurs est valid et coordonn par une personne, et des runions intervalles rguliers permettent l'quipe du projet de dcider d'orientations communes dans la rsolution des problmes rencontrs en cours de rdaction des fiches. Ainsi, alors qu' l'origine le modle comprenait un champ Auteur dsignant lauteur dune fiche complte, celui-ci a t abandonn au profit d'une gestion de la rotation des lots de fiches entre transcripteurs, ainsi qu'entre eux et le coordinateur pour l'avancement du projet. Cette gestion prsente le double avantage d'un remplissage de certains champs selon un fil logique prdtermin (ex. le champ dfinition wolof est toujours complt avant le champ traduction franaise ) et la possibilit de retours plus frquents sur le contenu de champs dj complts.
168 Texte et Corpus, n3 / aot 2008
169
5 CONCLUSIONS
Sur le plan de la linguistique de corpus, le projet na certes pas pour vocation dinnover en matire de recherche ou de mthode, mais bien doffrir une premire application, faisant appel, dans une modeste mesure, aux apports de la linguistique de corpus pour une langue qui, pour de multiples raisons, na gure pu profiter jusqu prsent des applications de lingnierie linguistique en gnral et de la linguistique de corpus en particulier. Nous le faisons au dpart dun matriel limit et dune application exemplative qui, pour modestes quils soient et indpendamment des limites exposes dans cet article, nen sont pas moins concrets, exploitables et rutilisables. Outre lapplication de type dictionnaire que les utilisateurs pourront consulter en ligne et hors ligne leurs propres fins, pour des usages aussi divers que l'ducation de base et l'enseignement en gnral, la rdaction, la traduction et toute autre activit en relation avec l'apprentissage ou la pratique crite du wolof, le projet fournit aux chercheurs un premier corpus lexical wolof informatis quils ont toute libert denrichir et augmenter par la constitution et lexploitation de corpus textuels plus larges ou plus spcialiss. Ils ont ainsi la possibilit de satisfaire, par exemple, le besoin de lexiques bilingues spcifiques dans des domaines tels que la mdecine ou l'agriculture, ou dintgrer le contenu de dictionnaires aujourd'hui uniquement disponibles sur papier qui, quand ils ne sont pas puiss, sont publis dans les pays du Nord et, le plus souvent, sont trop coteux et absents des rayons des librairies du Sud. Indpendamment des divers usages que des chercheurs pourraient faire du matriel, le projet intgre, de par sa conception mme, la possibilit dtre tendu des applications qui dbordent le champ lexical et qui sont couramment utilises aujourd'hui dans d'autres langues en environnement d'apprentissage ou dcriture sur ordinateur tels les exerciseurs, les vrificateurs orthographiques ou syntaxiques, etc. Enfin, nous terminerons en soulignant le fait que la dmarche et lapplication dcrites pour le wolof dans cet article peuvent tre utilement rutilises par les spcialistes dautres langues qui, linstar du wolof, figurent parmi les parents pauvres de linformatisation du traitement des langues et des outils mis au point dans ce cadre. Cest en crant de premiers corpus informatiss aussi imparfaits soient-ils dans des formats ouverts et standards que lon offrira ces langues la possibilit dexploiter leur tour les outils et mthodes labors par la linguistique de corpus.
6 RFRENCES
Chaudenson R. et al. (1991). La francophonie : reprsentations, ralits, perspectives, Aix-enProvence : Institut d'Etudes croles et francophones Diop A., Calvet M. & Dia O.B.K. (1971). Les cent et les quinze cents mots les plus frquents de la langue wolof, Dakar : Centre de linguistique applique de Dakar (CLAD). Diouf J.-L. (2003). Dictionnaire wolof-franais et franais-wolof, Paris : Khartala Fal A., Santos R. & Doneux J. L. (1990). Dictionnaire wolof-franais suivi d'un index franaiswolof, Paris : Khartala Mbodj C. & Diolo A. (1998). Terminologie linguistique et grammaticale wolof = Turalinu lmmial rofoo-gi-baat ci wolof, Dakar / Nouakchott : Centre de linguistique applique de Dakar (CLAD) / Institut des langues nationales de Nouakchott (ILN)
170