Академический Документы
Профессиональный Документы
Культура Документы
Interaction multimodale
Jean Caelen
CLIPS-IMAG
Jean.Caelen@imag.fr
1. Interaction homme-machine
Le terme communication homme-machine semble abusif : la machine nest pas un tre
social, na pas dintention ni de culture. Elle ne peut pas agir non plus sur le monde rel
(on ne peut pas lui dire : peux-tu fermer la porte sil te plat ? ). Elle na de prise que
sur son propre monde. Le terme interaction homme-machine est plus adquat.
La machine procure des outils pour raliser une tche, elle rend perceptible des objets
virtuels, etc. Elle se prsente donc comme un interacteur. Elle fournit un espace de travail,
des outils et des mthodes. Mais pour tout cela elle doit tre adapte sa tche et/ou
sadapter des tches nouvelles, adopter un comportement comprhensible , se
montrer conviviale , etc. Mais le paradoxe est vident : elle doit tre quelque peu sociale
pour collaborer efficacement avec un utilisateur autour des tches de plus en plus
complexes qui lui sont confies.
L'interaction homme-machine se situe dans une relation oprateur-tche o la machine
un rle collaboratif [Falzon, 92]. Pour cela elle doit avoir des capacits qui lui permettent
de comprendre les processus actionnels et dialogiques, c'est--dire elle doit possder :
la connaissance de loprateur,
la connaissance du domaine de la tche,
des reprsentations delle-mme (pour sadapter),
les rgles de lintervention pdagogique (aides, guides, exemples),
les rgles du dialogue (principes de ngociation, de coopration, de ractivit, etc.),
des rgles de comportement "social",
et bien sr tous les processus infrentiels mettant en uvre ces connaissances. Ceci peut
se reprsenter schmatiquement par un modle (fig. 1), dans lequel la machine, partant
des actes produits par son interlocuteur humain, tente de les comprendre en les replaant
dans un cadre actionnel et dialogique (pseudo-social) pour gnrer des rponses sous
1
forme dactions aprs avoir planifi ses rponses en fonction des contraintes
interactionnelles.
Processus
Plan, situation
et mondes
Comprhension
POUVOIR
CROIRE
Schma
Connaissances
SAVOIR
Acte de langage
Attitude
Planification
Comptence
Modle de l'usager
DEVOIR
Modle
Production
Gnration
Performance
FAIRE
Action
Fig. 1 : les processus infrentiels que doit possder la machine. Un acte de langage est interprt en regard
de la situation, essentiellement le plan daction, but de la communication avec la machine. Cet acte est
ensuite projet dans un modle par rapport auquel il est dfini en comprhension pour finalement
provoquer une action selon les performances de la machine manifestes dans une composante de
gnration.
Acte de langage = est un acte multimodal rpondant la dfinition dacte de langage cest-dire ayant trois composantes, locutoire, illocutoire et perlocutoire,
Schma = plan partiel induit des actes de langage analyss sous langle de la comptence
linguistique et du contexte actionnel (plan, situation et mondes),
Modle = squence de scripts planifis et slectionns en fonction des connaissances sur
lusager et des rgles dialogiques,
Action = rponse de la machine (ventuellement multimodale) en terme de changement dtat
dans la situation et dans les connaissances.
Modle de
la tche
APPLICATION
Scnarios
Modes
d'interaction
PAROLE
Modle de
l'usager
GESTION DU DIALOGUE
Historique
du dialogue
GESTION EVENEMENTS
MULTI-MODAUX
Historique
des vts
SERVEUR
VISION
Fig. 2 : Architecture gnrale d'un systme d'interaction multimodal (cas parole + geste + vision).
- accus de rception,
- interrogation, demande d'aide
- dtection des incohrences de la demande et formulation d'une rponse
cooprative pour maintenir un dialogue constructif
Thomas propose de classer les utilisateurs en quatre groupes sur les deux paramtres =
connaissance de l'informatique x connaissance du domaine. La production verbale se
dgrade avec la charge de travail ou la concentration sur l'objectif.
Aspects linguistiques
Taille du vocabulaire : Par exemple, le langage de commande d'un diteur graphique ne
s'lve qu' 189 mots (Hauptman et Green, 1983). Dans la plupart des applications on
peut donc se contenter d'un nombre de mots assez rduit. Cependant il ne faut pas
confondre ceci avec le nombre de mots stocker dans le lexique du modle de
reconnaissance puisqu'il faut ici toutes les formes lexicales utiles (formes conjugues,
formes accordes, expressions, etc.)
Critres de choix du vocabulaire-noyau : La frquence des mots, leur banalit et leur
occurrence dans des expressions diffrentes. Le vocabulaire comporte toujours des mots
rares et spcifiques.
La syntaxe : souvent la forme imprative ou impersonnelle, la syntaxe peut tre restreinte
(par ex. 14 rgles pour Hendler et Michaelis, 1975), en phrases courtes comportant peu de
rfrences pronominales ou elliptiques, de mtaphores et de mtonymies. Par contre les
groupes nominaux peuvent tre riches (le petit livre rouge sur la table de gauche).
La smantique : est surtout caractrise par la monosmie lexicale. La smantique est
oriente par les objectifs.
La comprhension oprative
Est limite au contexte de l'application. Elle ncessite un filtrage de certaines parties du
discours (sans analyse syntaxique) puis une analyse syntaxique approfondie des parties
slectionnes. La comprhension est dominance smantique avec une stratgie
descendante. Luzzati, dans DIALORS, ne modlise pas la syntaxe (on remplit seulement
les attributs de schmas voqus par des mots dclencheurs en parcourant la forme de
surface de l'nonc). Cependant on atteint vite les limites du systme par cette technique.
Il faut donc une stratgie plus complexe dans laquelle analyse globale et analyse de dtail
se compltent.
Les scripts
Sont actuellement parmi les sujets de recherche, comme voie d'amlioration possible des
mcanismes de comprhension. Un script est un plan de schmas qui est voqu ds que
des conditions particulires sur la situation sont runies.
4. Le dialogue multimodal
On fera la distinction entre multimdia et multimodalit. Le premier dsigne les supports
ou les vhicules de l'information le deuxime la substance de l'information :
mdia : microphone, cran, clavier, souris, camra, etc.
modalit : parole, vision, criture, geste, etc.
Complmentarit et coopration des mdia
L'interaction homme-machine doit s'appuyer sur une ergonomie d'harmonisation des
moyens de communication que sont cran, clavier, souris, voix, image, etc. Par exemple,
considrons la commande "dplacer la fentre active vers la gauche" : deux cas se prsentent
(a) soit il s'agit de dplacer une fentre sur une position prcise un moyen de pointage
comme la souris est alors indispensable (b) soit il s'agit simplement de dgager un
espace invisible et le positionnement prcis de la fentre dplacer n'est plus ncessaire,
auquel cas un ordre oral est plus efficace puisqu'on continue travailler "mains
occupes". Cet exemple montre qu'il n'y a pas quivalence entre une action "souris" et
une action "voix" mais qu'elles se compltent en entrant dans des champs d'action et
d'utilisation spcifiques. C'est encore plus vrai lorsque l'on dit "pousse la fentre ici" en
dsignant la position voulue par la souris.
De manire gnrale, il vaut mieux entrer des donnes --nombres, noms (de fichiers
par ex.)-- au clavier (pour des raisons de fiabilit et de taille de vocabulaire), les
oprations de mouvements fins --rglage de taille de fentre, dplacements, pointage,
etc.-- la souris et ne garder pour la communication orale que des commandes de niveau
lev, par exemple "ouvrir un fichier sur le lecteur interne " quivalente une longue
squence de "clics" sur les menus.
Dans le cas de la rponse orale pour des messages d'aide, de demande de
confirmation ou de renseignements complmentaires, etc. le problme est exactement
symtrique : certains messages sont mieux capts par l'oral que par le texte crit
(messages d'alerte notamment, commentaires, aides).
Le modle de dialogue
Littralement le "dialogue" sous-tend un fonctionnement de type conversation c'est--dire
une intervention alterne entre l'homme et la machine (et de ce fait, souvent guide par la
machine). Dans une interface multimodale, o les objets sont "vus" l'cran il est
prfrable de gnraliser pour le dialogue la notion de boucle d'attente sur vnements
qui donne l'impression l'utilisateur qu'il agit en "matre" sur l'univers de l'application,
(comme dans le cas de menus). Dans le concept de "manipulation directe" on agit
directement sur le modle d'univers prsent par le systme (du ct ergonomique le
dialogue parait moins abstrait car l'utilisateur n'a pas besoin de mmoriser tout le
vocabulaire utile la communication). L'univers est un "univers smantique" dans lequel
le dialogue devient un ensemble de sous dialogues entre l'utilisateur et les divers objets
de l'univers. Ces objets peuvent tre dcrits avec des formalismes centrs-objets.
Le dialogue sous-tend cependant des parties "diriges par la machine" dans les phases
7
suivantes :
phase d'introduction, la machine pose des questions pour cerner le type d'usager qui
veut utiliser l'interface. A l'aide de critres de comptence multiples comme comptence
en informatique, habituation aux interfaces, comptence dans le domaine trait par
l'application, etc., la machine se fait une "ide" de l'utilisateur (logique des croyances),
phase d'aide intelligente et personnalise,
phase d'entre d'informations complmentaires demandes par la machine pour
excuter correctement une tche,
phase de traitement des erreurs ou des ambiguts,
phase de conclusion pour sauvegarder et grer des fichiers, voire prparer la future
sance interactive, etc.
La fig. 4 montre un script gnral de dialogue possible.
Entre
Phase d'introduction
Etat courant
Rception des vnements
Analyse et interprtation
si incohrent alors modification ou abandon
si incomplet ou ambig alors explicitation
si invalide alors explication
si valid alors excution
si demande aide alors aide
Prdiction actions suivantes
selon type utilisateur proposition aide
Analyse du comportement de l'utilisateur
remise jour du modle utilisateur
Phase de conclusion
Sortie
puisqu'il concerne surtout l'interface. Par contre pour le second, chaque application ayant
son vocabulaire et sa syntaxe propres, une mise en uvre devient obligatoire.
On peut dresser une typologie des applications :
A) Manipulation d'objets d'un univers (logiciel de dessin, CAO, etc.) : ici il n'y a pas
de but long terme mais une srie de tches de dtail excuter : la machine ne peut
percevoir qu'une certaine intention court terme de l'utilisateur et doit contrler a
posteriori les "manoeuvres" effectues. La prdiction est faible dans le dialogue, les
guides ne peuvent tre que de vagues suggestions. Le dialogue est dirig par les objets.
B) Tches planifies (calcul, saisie, visualisation, etc.) : beaucoup de logiciels
fonctionnent sur le principe suivant : pour atteindre un rsultat les tches doivent tre
ordonnances. Le dialogue est alors dirig par la tche : faire A1 puis A2, si A2 choue
alors faire A3 puis refaire A2, sinon faire A4, etc. Les intentions de l'utilisateur sont
claires, il doit atteindre un rsultat l'aide d'une mthode dcompose en tapes en un
minimum de temps. Le dialogue doit viser clarifier le cheminement de l'utilisateur dans
le ddale des possibilits offertes par le logiciel et lui donner les moyens d'y parvenir :
saisie des paramtres convenables, choix des mthodes les plus efficaces, planification
correcte des tapes, etc.
C) Consultation et renseignement (bases de donnes, services, etc.) : ici l'utilisateur
ne sait pas trop ce qu'il cherche, ni comment l'obtenir. Il a des difficults formaliser sa
dmarche. La machine doit alors faire de grands efforts de comprhension, le dialogue
doit tre dirig par le but.
Gnralement, dans un dialogue de manipulation d'objets, le langage utilis est opratif:
le vocabulaire est limit, la syntaxe peut tre nglige (style abrg) et la comprhension
peut tre dirige par des schmas. Le premier mot de la phrase (souvent un verbe) sert de
dclencheur un schma et les mots suivants permettent d'orienter la particularisation.
Certains incidents de communication peuvent tre mis en relation avec le caractre
inapropri du premier mot qui peut orienter sur un schma incorrect. C'est le cas par
exemple, quand le mot dclencheur n'est pas en tte du message ou quand ce mot est
polysmique. Ces problmes doivent donc tre pris en compte dans le modle de la
tche.
Dans un dialogue d'interrogation de bases de donnes les phnomnes linguistiques sont
beaucoup plus complexes. A travers la forme de surface de la demande il faut souvent
dtecter l'intention de l'utilisateur.
L'aide intelligente
Il faut fournir pour l'intgration du dialogue des outils inspirs de l'EIAO (situation o la
machine est la plus cooprante) pour lesquels les aides fournies sont de type explication,
exemples, guidage, etc. Ces aides sont actives automatiquement (ou la suite de
demandes de l'utilisateur) par des dmons attachs aux scripts de dialogue. Ces dmons
analysent la frquence des retours arrire, des ttonnements, des hsitations, des
incohrences de l'usager au cours de l'utilisation de l'interface. Selon le type de dmon
9
activ, et d'aprs le modle attach l'usager, une aide personnalise pourra tre
propose.
Utilisateur
Prsentation
Dialogue
Application
Editeur
signal
Interface
appli.
voix
graphique
texte
11
Scripts
syntaxe
Introduction
Corps
Conclusion
P
GV
GN
V
GN GP
Mvt etc.
Contrle
Prsentation
Abstraction
Base d'objets
fich
cur
sona
pale
etc.
Rseau d'actions
Base de tches
Historique
ouvrir
dilater
couper
coller
couter
etc.
fichier: a.sig
fentre:3
fichier: a.ech
SYNCH(a.sig)
etc
Fig. 6 : Les agents de plus haut niveau pour la composante orale dans une architecture
PAC.
Les vues sont les diverses formes de prsentation des objets (voix, graphiques, etc.) et
sont dcrites comme des objets qui permettent d'instancier les nuds correspondant aux
donnes de l'application (le comment et le quoi).
Les plans de prsentation sont des procdures qui permettent de prsenter une instance.
Ces plans doivent tre interprts (ils sont crits en P-code sur Mac et Sun qui l'intgre
dans leur DPU: Display Processor to Draw)
Le feedback est une notion trs importante en dialogue. Il existe trois niveaux dans la
porte d'une rponse
lexical: rponse de bas niveau: ex. on clique dans un bouton il passe en vido inverse
(sans analyse de l'action correspondante)
syntaxique: l'action est-elle compatible avec les prcdentes ? ex. on teint les menus
non activables un moment donn
smantique: l'action est-elle totalement dfinie et a-t-elle un sens ? ex. on tente de
faire un zoom sur une section de sonagramme trop courte.
C'est cette notion de feedback smantique qui amne intgrer davantage l'UIMS
dans l'application
12
Le undo est une deuxime notion importante: rcuprer les mauvaises commandes ce qui
oblige faire des back up frquents. Il faut dfinir ces points de back up dans le dialogue
pour arriver un systme tolrant aux erreurs de commande. Il y a deux techniques: on
mmorise l'tat avant la commande ou on calcule, lorsque c'est possible, la commande
inverse.
Technique: la base d'objets peut tre dcrite par une grammaire d'attributs et compile
pour obtenir le graphe de dpendance des attributs, objets, actions, etc. A la suite de cela
l'algorithme de Reps permet de faire une analyse syntactico-smantique incrmentale des
objets.
Indpendance entre IHM et dialogue ?
On peut distinguer deux types d'interaction homme-machine, l'une uniquement au
niveau de l'interface et/ou du systme (navigation dans des menus, commandes systme,
etc.), l'autre au niveau de l'application (commandes, interrogations sur les objets mmes
de l'application). Les architectures peuvent diffrer grandement entre ces deux types
d'interaction.
(a) Dialogue au niveau de l'interface (ex. "Journal")
Niveau O : quivalence clavier-voix : le menu est droul il s'agit de choisir une
rubrique visible. Pour la navigation par la voix, noncer un digit est prfrable noncer
le mot de commande de la rubrique choisie car il n'y a pas d'apprentissage linguistique ni
acoustique et pas de charge mnmonique pour l'utilisateur. Un fichier de ressources
dfinissant les dpendances entre les rubriques suffit pour lier le lexique de digits aux
rubriques. Cela ne ncessite pas de vritable gestion de dialogue.
Niveau O+ : navigation sans contrainte : dans le cas prcdent le droulement des
menus est arborescent. On peut envisager, par la voix, de crer des commandes multiples
(choix de plusieurs rubriques comme "ouvrir un nouveau fichier et coller") ou de
naviguer dans les menus dans un ordre quelconque et sans visibilit ou de crer des
abrgs vocaux. Il y a ici complmentarit entre clavier, voix et souris. Une gestion de
dialogue type peut tre faite, valable pour toutes les applications menus puisque
seule l'interface est concerne dont il faut simplement adapter le lexique et la syntaxe.
Dans les deux cas les messages vocaux de sortie sont en nombre limit et fixes
ventuellement certains blancs peuvent tre complts par des variables ils peuvent
tre stocks en parole compresse.
Supposons que l'interface de l'application se prsente sous forme de menus comme
celui-ci (type MacIntosh) (Fig. 7) :
13
Nouveau
2
etc...
Fichier
Ouvrir
Ouvrir
Fermer
%N
%O
3
%W
Sauvegarder
Chemin
etc...
Drive
interne
externe
OK
Annuler
14
M(1)
M(1,1)
F(1,1)
OK-Annule
M(1,2)
F(1,2)
OK-Annule
M(1,3)
F(1,3)
OK-Annule
F(2)
OK-Annule
M(3,1)
F(3,1)
OK-Annule
M(3,2)
F(3,2)
OK-Annule
M(3,3)
F(3,3)
OK-Annule
M(0)
M(2)
M(3)
o M(i,j,k) dsigne un menu et F(i,j,k) le formulaire associ. En gnral M(0) est la racine
abstraite (point d'entre-sortie de l'application), M(i) est la barre de menu fixe et M(i,j,k)
un menu de profondeur 3 (il n'y a pas plus de trois niveaux d'imbrication pour des
raisons d'ergonomie).
M(0) : char 'Racine'
M(1) : char 'Fichier'
M(1,1) : char 'Nouveau'
clavier : %N
parole : "Ouvrir un nouveau fichier"
M(1,2) : char 'Ouvrir'
clavier : %O
parole : "Ouvrir" DET "fichier"
M(1,3) : char 'Fermer'
clavier : %W
parole : "Fermer" DET($Def) "fichier"
M(1,4) : char 'Sauvegarder'
clavier : %S
parole : "Sauver"|$Syn DET($Def) "fichier"
M(1,5) : etc.
M(2) : etc.
F(1,2) : sorte-de Formulaire
$Chemin = char(20)
$Drive = [interne, externe]
Validation = [OK, Annuler]
avec la notation "Sauver"|$Syn DET($Def) "fichier" signifiant : verbe "sauver" ou un
synonyme suivi d'un dterminant dfini et du nom "fichier".
15
8. Interaction multimodale
Une interface homme-machine (IHM) multimodale dispose de plusieurs modes dentre
et de sortie. Ces modes correspondent certaines des modalits sensorielles et motrices
de lhumain. Les problmes qui distinguent les interfaces multimodales des interfaces
classiques naissent de :
La gestion des modes aux niveaux [Bourguet et al., 92]
des vnements (chronologie, synchronie)
des informations (units, actes)
et du contexte interactionnel
La fusion / fission des informations au niveaux
morphosyntaxique
smantique et/ou pragmatique (rsolution de la corfrence)
actionnel (intgration de la multimodalit au niveau de la couche interaction /
dialogue)
Lchange des informations avec les autres modules de linterface et le noyau
fonctionnel de lapplication.
A chaque mode, est associ un modle de reprsentation des informations quil vhicule.
Ce modle dpend de la granularit des vnements de bas niveau sur laquelle il est
construit. Ainsi pour un geste le systme dlivre des vecteurs de coordonnes de
points dans le temps alors que pour la parole ce sont des chanes de caractres
correspondant des mots ou des phrases reconnues ou bien du son chantillonn. Les
frquences dchantillonnage de ces donnes sont diffrentes dun mdia lautre. Les
problmes qui se posent dans une interface multimodale sont donc :
(a)
(b)
(c)
(d)
(e)
16
Le cheminement des informations passe par une mise en forme, une reprsentation
abstraite, une fusion et enfin une transmission la couche dialogue [Taylor, 89] qui se
trouve de fait pos au niveau le plus haut.
fP dP fP
dP
Parole
Geste
A
Dfinition dune information : une information est une unit signifiante, mais qui ne
prend pas la mme signification pour lusager et pour la machine. Cest,
une unit smiotique pour lusager,
une unit rfrentielle pour la machine.
17
P a r o le
G e s te
dP
U1 U3
U5
fP
dP
U6
fP
U2 U4
Il est clair quil existe des relations smantiques entre les units et des relations
temporelles entre les vnements.
4.1.2. Le contexte interactionnel
Dfinition du contexte interactionnel : le contexte interactionnel est le triplet {usage des
modes, dpendance des informations, animation}. Le premier attribut dnote lusage (de
facto les capacits du systme) squentiel ou parallle des modes, le second
lindpendance des informations vhicules sur les mdias et le troisime la dynamique
du monde cest--dire les actions effet continu et les actions effet instantan. Nous ne
nous intresserons quaux deux premiers attributs qui dfinissent quatre contextes
interactionnels : exclusif, concurrent, altern et synergique {Caelen, 91], [Coutaz, 92].
Le contexte Concurrent
Il se dfinit par :
usage des modes : sans contraintes temporelle (paralllisme possible)
dpendance smantique : pas de corfrence intermodale entre les units,
L{uij(k), uij(l)} = pour ii.
Proprits : Lanaphore est mal rsolue lorsque la rfrence est porte par un autre mode,
la dixis ne peut tre rsolue.
Le contexte Altern
Il se dfinit par :
usage des modes : Dbuti(k) > Fini(k-1) avec ii
dpendance smantique : pas de contraintes corfrentielles
Proprits : Lanaphore est bien rsolu lorsque la rfrence est porte par un autre mode,
la dixis peut tre rsolue. Lusage altern des modes entrane une lourdeur qui pnalise
la coordination perceptive/motrice de lusager.
Le contexte Synergique
Il se dfinit par :
usage des modes : aucune contrainte
18
|
|
|
|
|
date : (eij(k))
n-ordre : j
19
lpaisseur du prsent : intervalle de temps dfini par la dure de tous les actes
synchrones un instant donn. Cette paisseur est variable au cours du temps.
Cas particuliers :
dans un systme altern il ny a pas dunits ni dactes synchrones,
dans un systme concurrent la gestion des modes seffectue comme dans un systme
synergique mais il ny a pas de niveau de fusion dinformations.
Le contexte interactionnel (dans un systme dynamique)
Un systme est dit dynamique sil est capable de grer diffrents contextes
interactionnels. Le contexte interactionnel a t dcrit ci-dessus. Cest le triplet Co =
{usage des modes, dpendance des informations, temporalit}
usage des modes : il est dtermin par la boucle action/perception et les
contraintes mcaniques du systme
ex. Mettre(Objet, Lieu)
mets a ici < dg(a) < dg(ici) => altern
(mets a ici dg(a)) < dg(ici) => synergique(p+)
(mets a dg(a)) < (ici dg(ici)) => synergique
20
par tapes
Comment ?
autour dune structure commune
et dun mode dominant
grammaire dunification (langagire bien forme)
sans mode dominant
grammaire multimodale
par une thorie de laction
sans structure commune
O ?
centralise dans le contrleur de dialogue
de manire rpartie et progressive
Avec quelle logique ?
Critres de fusion
de proximit temporelle (rgles sensori-motrices)
de cohrence structurale et/ou de compltude smantique
disotopie smantique
fonction du contexte dinteraction
fonction des performances de lusager [Valot et al., 91]
de logique actionnelle ou intentionnelle [Cohen, 78, 79], [Searle, 83]
etc.
Il est clair que le rle du module de fusion est de rendre linterprtation (a) aussi
indpendante que possible des contextes dans un premier temps et (b) de permettre une
rsolution progressive des rfrences pour lever les ambiguts dans un deuxime temps.
Accessoirement un tel niveau de fusion permet galement dajouter de nouveaux modes
sans avoir modifier le contrleur de dialogue en profondeur.
Ces deux contraintes nous conduisent alors proposer une fusion progressive des
informations partant des niveaux morphosyntaxiques pour aboutir au niveau smantique
selon le schma suivant (fig. 4) :
22
Pragmatique
du 3me degr
Locutoire
Illocutoire
Perlocutoire
Action
Rfrents
Focus
Topos
Smantique
Signes
Pragmatique des
1er et 2me degrs
Marqueurs
Indexicaux
Structures
Phmes
Syntaxe
Morphologie
Contexte
discursif
Contexte
interactionnel
Rgles syntaxiques
Lexique
Morphosyntaxe
Units smiotiques
Fig. 4 : Les niveaux de fusion
Dans ce schma la fusion sopre partir des units collectes dans lpaisseur du prsent
et fournit des structures de reprsentation abstraites (CMR = common meaning
representation) dbarrasses des composantes modales. Ces structures sont
communiques au contrleur de dialogue. Dtaillons chaque tape de la fusion.
Analyse morphosyntaxique modale
Une analyse morphosyntaxique de chaque acte modal est faite sur lpaisseur du
prsent. On obtient pour chaque mode une reprsentation adapte qui dcrit la structure
des constituants et la structure fonctionnelle.
Analyse pragmatique des 1er et 2me degrs
A ce niveau une analyse des indexicaux et des marqueurs pragmatiques par liage
intermodal est opre. Elle permet de relier les lments rfrentiels libres dun mode aux
lments rfrents des autres modes et de lier les actes entre eux.
Raisonnement smantique (spatio-temporel)
Ce raisonnement aboutit la construction dune CMR (Common Meaning
Representation) par instanciation de schmas (daction et dobjet). Ces mcanismes
ressortissent de mcanismes complexes dinterprtation smantique du langage naturel
[Sabah, 88]. Ils mettent en uvre des bases de connaissance des actions et des objets ainsi
que des rgles dinfrence pour instancier ces schmas sur la situation courante. Leur
degr de gnralit font leur relative indpendance des domaines dapplications.
23
"pression"
"plus deux"
Dsignation
icne temprature
Temps
Exemple 2
"pression"
Dsignation
icne temprature
"plus deux"
Temps
24
Considrons le contexte d'application d'une usine chimique. Dans l'exemple 9 de la fig. Erreur !
Signet non dfini., l'utilisateur demande au systme de lui communiquer la valeur de la pression,
en prononant le mot "pression". La valeur de la pression est alors communique travers le
synthtiseur de parole. Puis l'utilisateur dcide d'augmenter la temprature. Disposant sur son cran
tactile, d'une icne temprature (sous forme d'un thermomtre par exemple), il dsigne cette icne
tout en prononant les mots "plus deux". Le systme augmente alors la valeur de la temprature de
2 units. Dans l'exemple 2, l'utilisateur prononce d'abord les mots "pression plus deux", ce qui a
pour effet d'augmenter la pression de 2 units, puis il dsigne l'icne de temprature. Le systme
lui communique alors la valeur de la temprature par l'intermdiaire de la synthse de parole.
Finalement dans l'exemple 1 la temprature a t augmente de 2 units alors que dans l'exemple 2
c'est la pression qui l'a t bien que la squence des vnements soit la mme dans les deux cas.
Exemple 1
"dbut slection"
Dsignation
caractre
"fin slection"
"gras"
"efface"
Dsignation
caractre
Dsignation
caractre
Exemple 2
"dbut slection"
Dsignation
caractre
"fin slection"
"gras"
Dsignation
caractre
"efface"
Dsignation
caractre
25
informations afin de pouvoir dtecter les proximits temporelles entre les vnements. Il est par
consquent, indispensable que ces vnements soient caractriss par leurs dates de dbut et de fin
de production. Ceci permet de les classer selon leur ordre chronologique rel et de mesurer les
distances temporelles entre eux. Ce type de distance constitue un des critre de fusion des
informations. Malheureusement, de nombreux systmes d'exploitation ne permettent pas d'obtenir
une datation prcise des vnements. Il est alors souvent ncessaire de les contourner, et d'effectuer
soi-mme une datation approximative un bas niveau de programmation.
La proximit temporelle
Pour dfinir concrtement la notion de proximit temporelle, il faut tudier les diffrents cas de
succession de deux messages dans le temps. Allen [5] en a propos 13 (fig. 11).
Simultant parfaite
Prcdence / Succession
Prcdence / Succession, immdiate
Recouvrement total
Recouvrement total la fin
26
MEDIAS
MEDIAS
M2
M1
M2
D
M1
TEMPS
TEMPS
MEDIAS
MEDIAS
M2
M2
M1
M1
TEMPS
MEDIAS
TEMPS
MEDIAS
M2
M2
M1
M1
TEMPS
TEMPS
1Mme
pour les tre humains, il peut tre difficile de comprendre le sens d'une phrase dont l'ordre des mots a t
modifi.
27
Utilisateur
Systme de
reconnaissance
vocale
Souris
Systme
multimodal
Clic
"ferme"
Reconnaissance
Production de
l'vnement "ferme"
Acquisition
Production de
l'vnement CLIC
Rception de
l'vnement CLIC
Rception de
l'vnement "ferme"
Temps
28
l'utilisateur prononce le mot "ferme". La fentre pointe du regard est alors ferme. Le problme
pos par les corfrences passives concerne la sauvegarde des tats des priphriques. Pour
illustrer ce problme considrons l'exemple suivant dans lequel l'utilisateur dispose, d'un
oculomtre et d'un systme de reconnaissance vocale. Pour fermer une fentre, il prononce
"ferme" et pointe simultanment du regard la fentre dsire (fig. 14).
3.
Reconnaissance
Acquisition
Interprtation
"ferme"
multi
modal
dialo
gue
multi
modal
dialo
gue
multi
modal
dialo
gue
multi
modal
dialo
gue
Temps
Direction du regard
29
Etat des priphriques : il est galement ncessaire de disposer d'une information permettant de
connatre les divers tats possible du priphrique. Par exemple pour un systme de reconnaissance
de parole, on peut numrer les tats suivants :
en attente
en acquisition (l'utilisateur commence parler)
en acquisition et reconnaissance (le systme commence la reconnaissance avant mme que
l'utilisateur ait fini de parler)
en reconnaissance (l'utilisateur fini de parler mais la reconnaissance n'est pas encore termine)
Ces tats permettront de savoir si un vnement E est en cours de production sur un priphrique
donn P, auquel cas une ventuelle interprtation d'un autre vnement E' issu d'un autre
priphrique P' plus rapide que P pourrait tre mise en attente jusqu' dlivrance de l'vnement E.
L'vnement E peut en effet, influer sur l'interprtation de l'vnement E'.
5.2. Stratgies d'intgration
La stratgie d'intgration peut tre prcoce ou diffre par rapport la question smantique. Elle
peut aussi tre progressive et s'effectuer tout au long des diffrents niveaux d'abstraction fournis
par l'architecture choisie. Dans la liste qui suit, nous donnons diverses stratgies et leurs
argumentations :
Le modle du creuset, prsent par Laurence Nigay [Nigay, 94] pour l'application MATIS,
adopte une stratgie de fusion prcoce selon les critres temps, complmentarit et contexte
du dialogue. Ce choix implique de dfaire parfois certaines fusions mais reste efficace dans
le cas gnral.
L'intgration base de rgles, dveloppe dans LIMSI-DRAW par Yacine Bellik et Daniel
Teil [Bellik, 95], propose une stratgie retarde. Spare en deux fusions menes en
parallle (fusion locale et fusion globale) la production de l'nonc ne sera faite qu'au
niveau du contrleur de dialogue. Les critres utiliss diffrent en fonction de la fusion
utilise. On peut citer la complmentarit logique, la compatibilit des types et la proximit
temporelle. Tous les vnements arrivant au contrleur de dialogue sont alors typs, dats
et ont une forme commune.
Le modle conceptuel de Jean-Claude Martin et Daniel Broule [Martin, 95] est le seul
proposer une intgration distribue sur les niveaux d'abstraction conscutifs suivant un
critre temporel. La fusion se fait au meilleur moment aprs l'activation d'un rseau
connexionniste.
Nous avons dtermin une stratgie d'intgration qui n'est pas guide par les modalits fusionner,
mais par les lments combiner pour crer une commande. En effet linteraction multimodale est
souvent de nature actionnelle (plus quinformationnelle). Il est donc intressant de dfinir une
logique de laction sur laquelle lutilisateur interagit avec la machine. Nous prsentons donc le
modle VA : Verbe-Actants, o le verbe dnomme le type daction et o les actants dont les
attributs de laction (qui, quoi, quand, o, comment, etc.). Il s'agit d'un processus de fusion
prcoce o, ds rceptions des signaux, il y a tentative de combinaison sur des entits dpourvues
de type au niveau de l'agent d'interprtation. Les critres d'intgration, mme s'ils ne sont pas
explicitement recherchs dans l'algorithme afin de gagner du temps, sont la proximit temporelle et
la compltude structurelle.
Il n'y a pas dans cette approche de modalit dominante puisque trs tt dans le processus les entits
30
servant l'interprtation perdent leurs origines et leurs types. En revanche, s'il y a un lment
dominant dans ce modle, c'est le verbe. D'o le problme d'extraction du verbe. S'il est inexistant
au niveau du mode gestuel puisque la dsignation d'un bouton ou la reconnaissance d'un geste de
commande n'amne pas d'importants problmes de reconnaissance, il est trs prsent au niveau du
langage naturel.
9. Conclusion
Une interface met en relation les niveaux de structuration des connaissances (signes) de
mondes rfrentiels possibles avec les niveaux dabstraction pour larchitecture de
linterface. Le passage entre ces niveaux (reprsentations, concepts, symboles) se fait par
un double processus : sur laxe syntagmatique (combinaison des signes, sur laxe
horizontal du temps) par le dialogue , sur laxe paradigmatique (combinaison des
signes sur laxe vertical) par le contrle . Linteraction se manifeste par une relation
plus directe sur le systme matriel, cest--dire que la combinatoire syntagmatique est
plus courte porte et la profondeur des mondes moins grande que dans le cas du
dialogue. Notons galement quune interface met en relation plusieurs milieux, celui de
lhomme, celui de la machine et celui dans lequel tous deux sont plongs, leur
environnement.
Le concepteur dinterfaces doit prendre en compte lusager dans ses dimensions
cognitive mais ici aussi sensorielle et motrice. Cela donne clairement deux niveaux de
traitement : (a) un niveau bas pour la gestion des modes et la fusion/fission des
informations et (b) un niveau haut pour la gestion de linteraction travers des couches
sophistiques de dialogue.
Nous navons pas examin dans ce cours tous les aspects de la multimodalit. Avec la
conception, lvaluation est une tape fondamentale dans llaboration dune application
en vraie grandeur [Coutaz, 90], [Scapin, 86]. On saperoit ce niveau de limportance
des erreurs de comprhension et du problme de leur rparation [Siroux et al., 89]. Ces
erreurs sont non seulement dues aux faiblesses des modules de reconnaissance mais aussi
aux phnomnes danticipation motrice/concurrence vs. retard/hsitation, aux conflits
inter-modaux, aux inattendus.
Bibliographie
[Austin, 62] AUSTIN J.L., How to do things with words. Oxford U. P., 1962
[Barthet, 88] BARTHET M.F., Logiciels interactifs et ergonomie. Modles et mthodes de conception.
Dunor-Informatique, Bordas, Paris, 1988
[Bastide, 91] BASTIDE R., PALANQUE P., "Modlisation de l'interface d'un logiciel de groupe par Objets
Coopratifs", document de travail IHM'91 p 1-10.
[Bisson et al., 92] BISSON P., NOGIER J.F., Interaction homme-machine multimodale : le systme
31
[Cohen, 78] COHEN Ph.R., On knowing what to say : Planning speech acts. Ph.D. Thesis, Technical Report
n118, Department of Computer Science, University of Toronto, January 1978.
32
[Cohen et al., 79] COHEN Ph.R. et PERRAULT C.R., Elements of a Plan-Based Theory of Speech Acts.
Cognitive Science 3, pp. 177-212, 1979.
[Decouchant et al., 88] D. DECOUCHANT, A.DUDA, A.FREYSSINET, M.RIVEILL, X.ROUSSET de PINA,
R.SCIOVILLE, G.VANDOME, "GUIDE: an implementation of the Comandos object-oriented architecture on
Unix", Proceedings of EUUG Autumn Conference (Lisbon), p 181-193, October 1988.
[Falzon, 90] FALZON P., Ergonomie Cognitive du Dialogue. PUG, Grenoble, 1990
[Faure, 93] FAURE C., Communication crite, concepts et perspectives. Journe du GDR-PRC
Communication Homme-Machine, Montpellier, paraitre, 1993
[Hcan et al. 75] HECAN H., JEANNEROD M., Du contrle moteur lorganisation du geste. Masson d.,
Paris, 1975.
[Hutchins, 85] HUTCHINS E.L., HOLLA J.D., NORMAN D.A., Direct Manipulation Interfaces. HCI,
Lawrence Erlbaum Ass. Publ., 1(4), 1985, p. 311-339.
[Gaiffe et al., 91] GAIFFE B., PIERREL J.M., ROMARY L., Reference in amultimodal dialogue : towards a
unified processing. EUROSPEECH91, 2nd Euopean Conference on Speech Communication and
Technology, Genova, Italy, 1991
[Gourdol, 90] GOURDOL A., Voice Paint, rapport de DEA, Grenoble, 1991
[Grice, 75] GRICE H.P., Logic and conversation. in Syntax and Semantic, 3: Speech Acts, P. Cole and J. L.
Morgan (Eds), New York Academic Press, pp. 41-58, 1975.
[Fillmore, C.J.] FILLMORE C.J., The Case For Case. Bach E. and Harms R. eds, Universals in Linguistic
Theory, Holt, Rinehart and Wiston, pp 1-90, New York, 1968.
[Morel, 88] MOREL M.A., Analyse linguistique dun corpus de dialogues homme-machine. Publications de
la Sorbonne Nouvelle, Tomes I et II, Paris , 1988
[Morel, 89] MOREL M.A., Analyse linguistique d'un corpus, Deuxime corpus: Centre d'Information et
d'orientation de l'universit de Paris V. Paris: Publications de la Sorbonne Nouvelle, 331 p., 1989.
[Pankoke, 89] PANKOKEe-BABATZ U., "Computer based Group Communication, the AMIGO Activity
Model", Ellis Horwood, 1989.
[Reynier, 90] REYNIER E., Analyseurs linguistiques pour la comprhension de la parole. Thse INPG,
Grenoble, 1990
[Rubine, 91] RUBINE D., The automatic recognition of gesture, PhD thesis, School of computer Science,
Carnegie Mellon University, CMU-CS-91-202, 1991.
[Scapin, 86] SCAPIN D.L., Guide ergonomique de conception des interfaces homme-machine, Rapport
Technique INRIA no 77, Octobre 1986
[Taylor et al., 89] TAYLOR M.M., NEEL F., BOUHUIS D.G., The Structure of Multimodal Dialogue. Elsevier
Science Publishers B.V., North-Holland, 1989
[Sabah, 88] SABAH G., L'intelligence artificielle et le langage. 2 tomes. Herms ed., 1988 et 1989.
33
34
Annexe
Un exemple : dialogue dans l'diteur ICPdraw
ICPdraw est une application de dessin (type MacDraw) dans lequel la
communication homme-machine est multimodale. L'utilisateur dispose d'une
palette d'outils graphiques et de menus de fonctions. Il peut aussi activer ces
fonctions par la parole ou l'criture.
Menu --------------------------
Visualisation
Fig. 5 : Exemple d'cran pour l'application ICPdraw. Il est compos de trois fentres, la premire,
dcoupe en zones et dfinissant l'espace de travail graphique, clavier-souris, la deuxime pour
visualiser les vnements multimodaux et pour indiquer l'utilisateur le moment o il peut
intervenir, la troisime pour visualiser les rsultats de la comprhension de la parole.
Le langage de manipulation
Le langage oral de manipulation (dessin, dplacement, coloriage, etc.) des
objets gomtriques de ICPdraw est dfini de la manire suivante :
la structure logique de la commande est :
Verbe(<arg1><arg2>...<argn>)
Verbe reprsente une tche lmentaire ou une succession de tches effectuer. C'est trs
souvent le verbe de la phrase
argi sont des arguments de la fonction Verbe. Ils sont de type GN ou GP, le Nom du GN est en
gnral un objet de l'application et Adjectif un attribut de cet objet lorsque Nom et Adj sont dans le
mme GN.
35
GN
GN
c-structure
GP
V
Dt Nom
Prp Nom Adj-q
Contrle Ind Obj_graph
Prop Coloris
()
SUJ
dessine un
V
cercle
COD
de
couleur noire
f-structure
CN
Fig. 6 : En supposant la phrase correctement comprise les analyseurs linguistiques du module Parole
dlivrent la c-structure (ou arbre des catgories syntaxico-smantiques) et la f-structure (relations
fonctionnelles comme sujet=SUJ, COD=complment d'objet direct, CN=complment de nom) de la
phrase P.
36
37
Objet ICPdraw
Obj_par
Obj_inf
concret
signal
mot
phrase
abstrait
commande
fichier
rpertoire
Obj_graph
contrle
contenant
curseur
souris
couleur
palette
fentre
lieu
courbe
graphique
objet gomtrique
contenu
Obj_gestion
pointage
menu
38
etc.
(b) la base des tches
Les tches peuvent tre vues comme des procdures activables par le verbe de
la commande et dont les actants sont les arguments de la commande : c'est
typiquement une formulation casuelle. Dans cette perspective la syntaxe des
schmas des tches est la suivante :
____________________________________________________
mthode: sorte_de 'classe'
a-attributs
objet (quoi)
bnficiaire ( qui)
agent (qui fait)
patient (qui subit)
manire (comment)
temps (quand)
cause (pourquoi)
lieu (o)
quantit (combien)
but (pour)
condition (si)
concession (malgr)
restriction (sauf)
destination (vers), etc.
s-liens smantiques
c-contraintes
____________________________________________________
39
Mthodes
contrle
gestion
cran
mouvement
dessin
etc.
40