Interaction Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale
Interaction multimodale
Jean Caelen
CLIPS-IMAG
Jean.Caelen@imag.fr
1. Interaction homme-machine
Le terme communication homme-machine semble abusif : la machine nest pas un tre
social, na pas dintention ni de culture. Elle ne peut pas agir non plus sur le monde rel
(on ne peut pas lui dire : peux-tu fermer la porte sil te plat ? ). Elle na de prise que
sur son propre monde. Le terme interaction homme-machine est plus adquat.
La machine procure des outils pour raliser une tche, elle rend perceptible des objets
virtuels, etc. Elle se prsente donc comme un interacteur. Elle fournit un espace de travail,
des outils et des mthodes. Mais pour tout cela elle doit tre adapte sa tche et/ou
sadapter des tches nouvelles, adopter un comportement comprhensible , se
montrer conviviale , etc. Mais le paradoxe est vident : elle doit tre quelque peu sociale
pour collaborer efficacement avec un utilisateur autour des tches de plus en plus
complexes qui lui sont confies.
L'interaction homme-machine se situe dans une relation oprateur-tche o la machine
un rle collaboratif [Falzon, 92]. Pour cela elle doit avoir des capacits qui lui permettent
de comprendre les processus actionnels et dialogiques, c'est--dire elle doit possder :
la connaissance de loprateur,
la connaissance du domaine de la tche,
des reprsentations delle-mme (pour sadapter),
les rgles de lintervention pdagogique (aides, guides, exemples),
les rgles du dialogue (principes de ngociation, de coopration, de ractivit, etc.),
des rgles de comportement "social",
et bien sr tous les processus infrentiels mettant en uvre ces connaissances. Ceci peut
se reprsenter schmatiquement par un modle (fig. 1), dans lequel la machine, partant
des actes produits par son interlocuteur humain, tente de les comprendre en les replaant
dans un cadre actionnel et dialogique (pseudo-social) pour gnrer des rponses sous
1
forme dactions aprs avoir planifi ses rponses en fonction des contraintes
interactionnelles.
Processus
Plan, situation
et mondes
Comprhension
POUVOIR
CROIRE
Schma
Connaissances
SAVOIR
Acte de langage
Attitude
Planification
Comptence
Modle de l'usager
DEVOIR
Modle
Production
Gnration
Performance
FAIRE
Action
Fig. 1 : les processus infrentiels que doit possder la machine. Un acte de langage est interprt en regard
de la situation, essentiellement le plan daction, but de la communication avec la machine. Cet acte est
ensuite projet dans un modle par rapport auquel il est dfini en comprhension pour finalement
provoquer une action selon les performances de la machine manifestes dans une composante de
gnration.
Acte de langage = est un acte multimodal rpondant la dfinition dacte de langage cest-dire ayant trois composantes, locutoire, illocutoire et perlocutoire,
Schma = plan partiel induit des actes de langage analyss sous langle de la comptence
linguistique et du contexte actionnel (plan, situation et mondes),
Modle = squence de scripts planifis et slectionns en fonction des connaissances sur
lusager et des rgles dialogiques,
Action = rponse de la machine (ventuellement multimodale) en terme de changement dtat
dans la situation et dans les connaissances.
2. Interaction et interface : composants

Un systme d'interaction homme-machine utilise des connaissances que l'on peut classer
de la manire suivante :
2.1. Connaissances statiques
2.1.1. modle de langage naturel
- composante reconnaissance: lexique, syntaxe, smantique,
- composante gnration: -idemCes connaissances dpendent de l'application envisage. Cependant il y a dans le lexique, une
partie invariante, ce sont les mots-outils (articles, conjonctions, prpositions, etc.)
2.1.2. modle de la tche

- composante pragmatique: description des objets et de leurs relations
relativement l'application. On emploie gnralement des structures objets.
- buts et sous-buts: chemins d'accs aux donnes et aux fonctions et la typologie
des tches. On emploie ici aussi des structures objets pour dfinir les tches et des graphes de
dpendance pour dcrire l'ordonnancement des tches de l'application
2.1.3. modle du dialogue
description des diverses situations de dialogue par des scripts ou des scnarios
2.2. Connaissances dynamiques
2.2.1. modle de l'utilisateur
- droits d'accs au systme, privilges, etc.
- connaissances de la machine sur l'utilisateur. On utilise souvent la logique des
croyances dans le cadre de la thorie des intentions.
2.2.2. univers de la tche
- base de faits ou de travail, historique des tches et des objets de l'univers. Cette
base peut tre tenue jour par l'application elle-mme.
2.2.3. historique du dialogue
- court terme
- long terme.
C'est donc un systme bas connaissances en frontal avec l'application (Fig. 2).
Modle de
la tche
APPLICATION
Scnarios
Modes
d'interaction
PAROLE
Modle de
l'usager
GESTION DU DIALOGUE
Historique
du dialogue
GESTION EVENEMENTS
MULTI-MODAUX
Historique
des vts
SERVEUR
VISION
Fig. 2 : Architecture gnrale d'un systme d'interaction multimodal (cas parole + geste + vision).
Les fonctions de la composante d'interaction sont :

1. gestion du canal de communication
- traitement du dbut de l'change, de la fin, des relances
- mises en attente, reprises du dialogue
2. interprtation contextuelle
- ce module doit compenser certaines limites de la reconnaissance de la parole ou
visuelle et en particulier doit raisonner propos des
+ messages non reconnus ou inintelligibles
+ messages incomplets
+ messages ambigus
- les contraintes pragmatiques doivent tre mises en jeu la fois pour contraindre la
comprhension (en proposition) et pour se focaliser sur la bonne interprtation
(vrification d'hypothses sur l'univers de l'application relativement la tche en cours)
3. gestion de l'interaction
- contestation, confirmation, reformulation
4
- accus de rception,
- interrogation, demande d'aide
- dtection des incohrences de la demande et formulation d'une rponse
cooprative pour maintenir un dialogue constructif
3. Ergonomie cognitive de l'interaction

La finalit des tudes portant sur l'interaction homme-machine est la conception
d'interfaces adaptes l'activit des utilisateurs. Ce qui apparat gnralement
l'utilisateur au niveau de l'interface est le reflet de la structure des donnes et des tches
en machine. Celui-ci a, en effet, une activit organise soit par sa formation, son
exprience de la tche, la pratique, son savoir-faire et les objectifs qu'il doit atteindre :
dans une certaine mesure son activit est planifie, il a une intention de dpart qu'il
rorganise en fonction des contraintes de la machine.
Le comportement : modle de Rasmussen
Ce modle dcompose l'activit en trois types de comportement :
- le comportement fond sur des habilets (la conduite de vhicules par ex.),
- le comportement fond sur des rgles (apprises, acquises par l'exprience, etc.)
pour des situations connues,
- le comportement fond sur la connaissance ou raisonnement devant une situation
inconnue.
L'ergonomie cognitive a pour domaine l'ensemble des activits mentales de sujets
engags dans une tche qui correspondent donc aux niveaux 2 et 3 du modle ci-dessus
qui seules, sont verbalisables par l'utilisateur lui-mme.
Les langages d'interaction en langue naturelle restreinte
La conception d'un dialecte driv de la langue naturelle (plutt qu'un sous-langage ou
qu'un langage formel) est la meilleure solution :
- pour faciliter l'apprentissage des entits et des oprations par l'utilisateur,
- au niveau de la machine car le lexique est bien dfini et la syntaxe limite.
Dans les langages opratifs homme-homme il n'y a pratiquement pas de syntaxe le
vocabulaire est limit mais trs spcialis. Ce langage est trs li la nature de
l'application.
Devant une machine les utilisateurs "s'adaptent" en rendant leurs noncs plus clairs :
moins d'ellipses et d'anaphores, syntaxe plus souvent correcte (mme si on ne leur
demande pas). Pour la prosodie on a pu se rendre compte d'un phnomne analogue
[Caelen-Haumont, 79].
5
Thomas propose de classer les utilisateurs en quatre groupes sur les deux paramtres =
connaissance de l'informatique x connaissance du domaine. La production verbale se
dgrade avec la charge de travail ou la concentration sur l'objectif.
Aspects linguistiques
Taille du vocabulaire : Par exemple, le langage de commande d'un diteur graphique ne
s'lve qu' 189 mots (Hauptman et Green, 1983). Dans la plupart des applications on
peut donc se contenter d'un nombre de mots assez rduit. Cependant il ne faut pas
confondre ceci avec le nombre de mots stocker dans le lexique du modle de
reconnaissance puisqu'il faut ici toutes les formes lexicales utiles (formes conjugues,
formes accordes, expressions, etc.)
Critres de choix du vocabulaire-noyau : La frquence des mots, leur banalit et leur
occurrence dans des expressions diffrentes. Le vocabulaire comporte toujours des mots
rares et spcifiques.
La syntaxe : souvent la forme imprative ou impersonnelle, la syntaxe peut tre restreinte
(par ex. 14 rgles pour Hendler et Michaelis, 1975), en phrases courtes comportant peu de
rfrences pronominales ou elliptiques, de mtaphores et de mtonymies. Par contre les
groupes nominaux peuvent tre riches (le petit livre rouge sur la table de gauche).
La smantique : est surtout caractrise par la monosmie lexicale. La smantique est
oriente par les objectifs.
La comprhension oprative
Est limite au contexte de l'application. Elle ncessite un filtrage de certaines parties du
discours (sans analyse syntaxique) puis une analyse syntaxique approfondie des parties
slectionnes. La comprhension est dominance smantique avec une stratgie
descendante. Luzzati, dans DIALORS, ne modlise pas la syntaxe (on remplit seulement
les attributs de schmas voqus par des mots dclencheurs en parcourant la forme de
surface de l'nonc). Cependant on atteint vite les limites du systme par cette technique.
Il faut donc une stratgie plus complexe dans laquelle analyse globale et analyse de dtail
se compltent.
Les scripts
Sont actuellement parmi les sujets de recherche, comme voie d'amlioration possible des
mcanismes de comprhension. Un script est un plan de schmas qui est voqu ds que
des conditions particulires sur la situation sont runies.
4. Le dialogue multimodal
On fera la distinction entre multimdia et multimodalit. Le premier dsigne les supports
ou les vhicules de l'information le deuxime la substance de l'information :
mdia : microphone, cran, clavier, souris, camra, etc.
modalit : parole, vision, criture, geste, etc.
Complmentarit et coopration des mdia
L'interaction homme-machine doit s'appuyer sur une ergonomie d'harmonisation des
moyens de communication que sont cran, clavier, souris, voix, image, etc. Par exemple,
considrons la commande "dplacer la fentre active vers la gauche" : deux cas se prsentent
(a) soit il s'agit de dplacer une fentre sur une position prcise un moyen de pointage
comme la souris est alors indispensable (b) soit il s'agit simplement de dgager un
espace invisible et le positionnement prcis de la fentre dplacer n'est plus ncessaire,
auquel cas un ordre oral est plus efficace puisqu'on continue travailler "mains
occupes". Cet exemple montre qu'il n'y a pas quivalence entre une action "souris" et
une action "voix" mais qu'elles se compltent en entrant dans des champs d'action et
d'utilisation spcifiques. C'est encore plus vrai lorsque l'on dit "pousse la fentre ici" en
dsignant la position voulue par la souris.
De manire gnrale, il vaut mieux entrer des donnes --nombres, noms (de fichiers
par ex.)-- au clavier (pour des raisons de fiabilit et de taille de vocabulaire), les
oprations de mouvements fins --rglage de taille de fentre, dplacements, pointage,
etc.-- la souris et ne garder pour la communication orale que des commandes de niveau
lev, par exemple "ouvrir un fichier sur le lecteur interne " quivalente une longue
squence de "clics" sur les menus.
Dans le cas de la rponse orale pour des messages d'aide, de demande de
confirmation ou de renseignements complmentaires, etc. le problme est exactement
symtrique : certains messages sont mieux capts par l'oral que par le texte crit
(messages d'alerte notamment, commentaires, aides).
Le modle de dialogue
Littralement le "dialogue" sous-tend un fonctionnement de type conversation c'est--dire
une intervention alterne entre l'homme et la machine (et de ce fait, souvent guide par la
machine). Dans une interface multimodale, o les objets sont "vus" l'cran il est
prfrable de gnraliser pour le dialogue la notion de boucle d'attente sur vnements
qui donne l'impression l'utilisateur qu'il agit en "matre" sur l'univers de l'application,
(comme dans le cas de menus). Dans le concept de "manipulation directe" on agit
directement sur le modle d'univers prsent par le systme (du ct ergonomique le
dialogue parait moins abstrait car l'utilisateur n'a pas besoin de mmoriser tout le
vocabulaire utile la communication). L'univers est un "univers smantique" dans lequel
le dialogue devient un ensemble de sous dialogues entre l'utilisateur et les divers objets
de l'univers. Ces objets peuvent tre dcrits avec des formalismes centrs-objets.
Le dialogue sous-tend cependant des parties "diriges par la machine" dans les phases
7
suivantes :
phase d'introduction, la machine pose des questions pour cerner le type d'usager qui
veut utiliser l'interface. A l'aide de critres de comptence multiples comme comptence
en informatique, habituation aux interfaces, comptence dans le domaine trait par
l'application, etc., la machine se fait une "ide" de l'utilisateur (logique des croyances),
phase d'aide intelligente et personnalise,
phase d'entre d'informations complmentaires demandes par la machine pour
excuter correctement une tche,
phase de traitement des erreurs ou des ambiguts,
phase de conclusion pour sauvegarder et grer des fichiers, voire prparer la future
sance interactive, etc.
La fig. 4 montre un script gnral de dialogue possible.
Entre
Phase d'introduction
Etat courant
Rception des vnements
Analyse et interprtation
si incohrent alors modification ou abandon
si incomplet ou ambig alors explicitation
si invalide alors explication
si valid alors excution
si demande aide alors aide
Prdiction actions suivantes
selon type utilisateur proposition aide
Analyse du comportement de l'utilisateur
remise jour du modle utilisateur
Phase de conclusion
Sortie
Fig. 4 : un script de dialogue gnral dans lequel les phases d'introduction et de

conclusion sont diriges par la machine, tandis que l'tat courant est dirig par
l'utilisateur et un script de dialogue particulier pour tenter d'excuter une tche.
Les niveaux de langages
On peut distinguer deux niveaux de langage lis l'un (L1) au systme d'exploitation
et/ou au gestionnaire graphique (ouverture de fichiers, dplacements de fentres,
navigation dans les menus, etc.) c'est--dire l'interface homme-machine et l'autre (L2)
l'application. Le premier de ces niveaux reste relativement indpendant de l'application
8
puisqu'il concerne surtout l'interface. Par contre pour le second, chaque application ayant
son vocabulaire et sa syntaxe propres, une mise en uvre devient obligatoire.
On peut dresser une typologie des applications :
A) Manipulation d'objets d'un univers (logiciel de dessin, CAO, etc.) : ici il n'y a pas
de but long terme mais une srie de tches de dtail excuter : la machine ne peut
percevoir qu'une certaine intention court terme de l'utilisateur et doit contrler a
posteriori les "manoeuvres" effectues. La prdiction est faible dans le dialogue, les
guides ne peuvent tre que de vagues suggestions. Le dialogue est dirig par les objets.
B) Tches planifies (calcul, saisie, visualisation, etc.) : beaucoup de logiciels
fonctionnent sur le principe suivant : pour atteindre un rsultat les tches doivent tre
ordonnances. Le dialogue est alors dirig par la tche : faire A1 puis A2, si A2 choue
alors faire A3 puis refaire A2, sinon faire A4, etc. Les intentions de l'utilisateur sont
claires, il doit atteindre un rsultat l'aide d'une mthode dcompose en tapes en un
minimum de temps. Le dialogue doit viser clarifier le cheminement de l'utilisateur dans
le ddale des possibilits offertes par le logiciel et lui donner les moyens d'y parvenir :
saisie des paramtres convenables, choix des mthodes les plus efficaces, planification
correcte des tapes, etc.
C) Consultation et renseignement (bases de donnes, services, etc.) : ici l'utilisateur
ne sait pas trop ce qu'il cherche, ni comment l'obtenir. Il a des difficults formaliser sa
dmarche. La machine doit alors faire de grands efforts de comprhension, le dialogue
doit tre dirig par le but.
Gnralement, dans un dialogue de manipulation d'objets, le langage utilis est opratif:
le vocabulaire est limit, la syntaxe peut tre nglige (style abrg) et la comprhension
peut tre dirige par des schmas. Le premier mot de la phrase (souvent un verbe) sert de
dclencheur un schma et les mots suivants permettent d'orienter la particularisation.
Certains incidents de communication peuvent tre mis en relation avec le caractre
inapropri du premier mot qui peut orienter sur un schma incorrect. C'est le cas par
exemple, quand le mot dclencheur n'est pas en tte du message ou quand ce mot est
polysmique. Ces problmes doivent donc tre pris en compte dans le modle de la
tche.
Dans un dialogue d'interrogation de bases de donnes les phnomnes linguistiques sont
beaucoup plus complexes. A travers la forme de surface de la demande il faut souvent
dtecter l'intention de l'utilisateur.
L'aide intelligente
Il faut fournir pour l'intgration du dialogue des outils inspirs de l'EIAO (situation o la
machine est la plus cooprante) pour lesquels les aides fournies sont de type explication,
exemples, guidage, etc. Ces aides sont actives automatiquement (ou la suite de
demandes de l'utilisateur) par des dmons attachs aux scripts de dialogue. Ces dmons
analysent la frquence des retours arrire, des ttonnements, des hsitations, des
incohrences de l'usager au cours de l'utilisation de l'interface. Selon le type de dmon
9
activ, et d'aprs le modle attach l'usager, une aide personnalise pourra tre
propose.
5. L'interface homme-machine (IHM)

Le dialogue doit tre intgr dans l'Interface homme-machine mais ne peut tre
compltement dsolidaris de l'application. Une certaine duplication des informations
entre l'application et le dialogue doit mme tre envisage.
Le modle adopt devra contenir au moins pour la parole :
- une base des objets de l'univers (lexique) avec leurs attributs smantiques propres
(ux) l'application(s),
- une base de tches associe la liste des verbes correspondants et leurs relations
de dpendance,
- un historique des actions excutes pour rsoudre le problme des anaphores et des
ellipses au cours du dialogue,
- une mmoire partage avec le logiciel de reconnaissance et de synthse de la
parole,
- un moteur d'infrences propre rsoudre certains problmes de raisonnement lis
au traitement du langage naturel. Il est vident qu'il s'agit ici de dvelopper (ou d'utiliser)
un module de comprhension de la parole adapt aux applications envisages. Il doit
permettre en particulier de gnrer des phrases varies partir d'un lexique afin de
synthtiser des messages qui ne soient pas trop rcurrents dans le temps (pour viter le
phnomne de lassitude de l'auditeur),
- un "speech manager" pour grer les vnements parole de bas niveau.
Le modle Seeheim
Ce modle est de type srie (Fig. 5). Son UIMS (User Interface Management System)
se dcompose en trois parties :
UIMS
Utilisateur
Prsentation
Dialogue
Application
Editeur
signal
Interface
appli.
voix
graphique
texte
Fig. 5 : Le modle d'UIMS Seeheim

Prsentation:
Graphique : boutons, icnes, ascenseurs, flches
10
Sonore : parole, motifs musicaux

Donnes d'entre : clics souris et mouvements, textes, parole
Rponse (feedback) : vido inverse, action demande, message vocal,
contrle lexical
Dialogue:
reconnat les requtes, les prpare pour l'interface de l'application, connat l'tat de la
situation
contrle syntaxique
Interface de l'application:
pont entre l'application et les autres interfaces,
contrle smantique
Le modle centr-objet, le modle PAC
PAC = Prsentation Abstraction Contrle [J. Coutaz]
C'est un modle orient objet dans lequel les fonctions dcrites dans le modle
Seeheim sont moins distinctes et donc dans lequel les fonctions syntaxiques et
smantiques sont mieux intgres. On y distingue aussi trois parties:
Prsentation : contrle syntaxique vis--vis de l'utilisateur
Abstraction : fonctions ou attributs fonctionnels sur les objets
Contrle : gestion des liens entre Prsentation et Abstraction
Prsentation:
graphique: boutons, icnes, ascenseurs, flches
sonore: parole, motifs musicaux
donnes d'entre: clics souris et mouvements, textes, parole
rponse (feedback): vido inverse, action demande, message vocal, reprsentation
syntaxico-smantique lie l'application
Contrle:
reconnat les requtes, les prpare pour l'interface de l'application, connat l'tat de la
situation
Abstraction:
connaissances syntaxico-smantiques lies au modle abstrait reprsent par des
schmas (d'objets et de tches)
11

lexique
Scripts
syntaxe
Introduction
Corps
Conclusion
P
GV
GN
V
GN GP
Mvt etc.
Contrle
Prsentation
Abstraction
Base d'objets
fich
cur
sona
pale
etc.
Rseau d'actions
Base de tches
Historique
ouvrir
dilater
couper
coller
couter
etc.
fichier: a.sig
fentre:3
fichier: a.ech
SYNCH(a.sig)
etc
Fig. 6 : Les agents de plus haut niveau pour la composante orale dans une architecture
PAC.
Les vues sont les diverses formes de prsentation des objets (voix, graphiques, etc.) et
sont dcrites comme des objets qui permettent d'instancier les nuds correspondant aux
donnes de l'application (le comment et le quoi).
Les plans de prsentation sont des procdures qui permettent de prsenter une instance.
Ces plans doivent tre interprts (ils sont crits en P-code sur Mac et Sun qui l'intgre
dans leur DPU: Display Processor to Draw)
Le feedback est une notion trs importante en dialogue. Il existe trois niveaux dans la
porte d'une rponse
lexical: rponse de bas niveau: ex. on clique dans un bouton il passe en vido inverse
(sans analyse de l'action correspondante)
syntaxique: l'action est-elle compatible avec les prcdentes ? ex. on teint les menus
non activables un moment donn
smantique: l'action est-elle totalement dfinie et a-t-elle un sens ? ex. on tente de
faire un zoom sur une section de sonagramme trop courte.
C'est cette notion de feedback smantique qui amne intgrer davantage l'UIMS
dans l'application
12
Le undo est une deuxime notion importante: rcuprer les mauvaises commandes ce qui
oblige faire des back up frquents. Il faut dfinir ces points de back up dans le dialogue
pour arriver un systme tolrant aux erreurs de commande. Il y a deux techniques: on
mmorise l'tat avant la commande ou on calcule, lorsque c'est possible, la commande
inverse.
Technique: la base d'objets peut tre dcrite par une grammaire d'attributs et compile
pour obtenir le graphe de dpendance des attributs, objets, actions, etc. A la suite de cela
l'algorithme de Reps permet de faire une analyse syntactico-smantique incrmentale des
objets.
Indpendance entre IHM et dialogue ?
On peut distinguer deux types d'interaction homme-machine, l'une uniquement au
niveau de l'interface et/ou du systme (navigation dans des menus, commandes systme,
etc.), l'autre au niveau de l'application (commandes, interrogations sur les objets mmes
de l'application). Les architectures peuvent diffrer grandement entre ces deux types
d'interaction.
(a) Dialogue au niveau de l'interface (ex. "Journal")
Niveau O : quivalence clavier-voix : le menu est droul il s'agit de choisir une
rubrique visible. Pour la navigation par la voix, noncer un digit est prfrable noncer
le mot de commande de la rubrique choisie car il n'y a pas d'apprentissage linguistique ni
acoustique et pas de charge mnmonique pour l'utilisateur. Un fichier de ressources
dfinissant les dpendances entre les rubriques suffit pour lier le lexique de digits aux
rubriques. Cela ne ncessite pas de vritable gestion de dialogue.
Niveau O+ : navigation sans contrainte : dans le cas prcdent le droulement des
menus est arborescent. On peut envisager, par la voix, de crer des commandes multiples
(choix de plusieurs rubriques comme "ouvrir un nouveau fichier et coller") ou de
naviguer dans les menus dans un ordre quelconque et sans visibilit ou de crer des
abrgs vocaux. Il y a ici complmentarit entre clavier, voix et souris. Une gestion de
dialogue type peut tre faite, valable pour toutes les applications menus puisque
seule l'interface est concerne dont il faut simplement adapter le lexique et la syntaxe.
Dans les deux cas les messages vocaux de sortie sont en nombre limit et fixes
ventuellement certains blancs peuvent tre complts par des variables ils peuvent
tre stocks en parole compresse.
Supposons que l'interface de l'application se prsente sous forme de menus comme
celui-ci (type MacIntosh) (Fig. 7) :
13
Nouveau
2
etc...
Fichier
Ouvrir
Ouvrir
Fermer
%N
%O
3
%W
Sauvegarder
Chemin
etc...
Drive
interne
externe
OK
Annuler
Fig. 7 : Rsultat d'affichage de menus (1=barre fixe, 2=menu droulant) et formulaire

(3) pour lequel il reste encore entrer l'information "chemin" puis valider la commande.
Cet affichage rsulte indiffremment d'une succession d'vnements tels que :
(a) exclusivement souris = k(fichier)+k(ouvrir)+k(Drive=interne) ou
(b) exclusivement parole = "ouvrir un fichier sur le drive interne" ou
(c) de toute autre combinaison comme
k(fichier)+"ouvrir"+ k(Drive=interne)
%O + "Drive interne" etc.
avec les conventions d'criture k(x) clic sur le menu x, "y" ordre entr par la voix et %z
abrviation clavier.
A la suite de cet affichage d'autres paramtres restent dfinir comme CHEMIN
(puis OK ou ANNULER), dont la valeur peut son tour, tre entre au clavier ou
prononce voire pele (dconseill cependant). Plus gnralement la structure des
menus est arborescente et les feuilles sont relies des formulaires (ventuellement
vides). Ainsi les nuds reprsentent l'action ou la suite d'actions effectuer c'est le
verbe dans le cas de la parole mais aussi l'objet sur lequel porte l'action le GN une
modalit de l'action les circonstants ou mme une mta-action. Les formulaires
reprsentent les arguments des fonctions associes aux actions ce sont les GN, GP,
etc choisis en liste ferme ou en liste ouverte. On a donc la structure formelle suivante :
14
M(1)
M(1,1)
F(1,1)
OK-Annule
M(1,2)
F(1,2)
OK-Annule
M(1,3)
F(1,3)
OK-Annule
F(2)
OK-Annule
M(3,1)
F(3,1)
OK-Annule
M(3,2)
F(3,2)
OK-Annule
M(3,3)
F(3,3)
OK-Annule
M(0)
M(2)
M(3)
o M(i,j,k) dsigne un menu et F(i,j,k) le formulaire associ. En gnral M(0) est la racine
abstraite (point d'entre-sortie de l'application), M(i) est la barre de menu fixe et M(i,j,k)
un menu de profondeur 3 (il n'y a pas plus de trois niveaux d'imbrication pour des
raisons d'ergonomie).
M(0) : char 'Racine'
M(1) : char 'Fichier'
M(1,1) : char 'Nouveau'
clavier : %N
parole : "Ouvrir un nouveau fichier"
M(1,2) : char 'Ouvrir'
clavier : %O
parole : "Ouvrir" DET "fichier"
M(1,3) : char 'Fermer'
clavier : %W
parole : "Fermer" DET($Def) "fichier"
M(1,4) : char 'Sauvegarder'
clavier : %S
parole : "Sauver"|$Syn DET($Def) "fichier"
M(1,5) : etc.
M(2) : etc.
F(1,2) : sorte-de Formulaire
$Chemin = char(20)
$Drive = [interne, externe]
Validation = [OK, Annuler]
avec la notation "Sauver"|$Syn DET($Def) "fichier" signifiant : verbe "sauver" ou un
synonyme suivi d'un dterminant dfini et du nom "fichier".
15
Niveau 1 : Dialogue au niveau de l'application (ex. ICPdraw)

Si l'on veut dtacher la gestion du dialogue de l'application et l'insrer dans
l'interface il faut que les objets de l'application soient connus et correctement reprsents
dans le module de gestion de dialogue. Cela entraine une certaine duplication des
informations.
8. Interaction multimodale
Une interface homme-machine (IHM) multimodale dispose de plusieurs modes dentre
et de sortie. Ces modes correspondent certaines des modalits sensorielles et motrices
de lhumain. Les problmes qui distinguent les interfaces multimodales des interfaces
classiques naissent de :
La gestion des modes aux niveaux [Bourguet et al., 92]
des vnements (chronologie, synchronie)
des informations (units, actes)
et du contexte interactionnel
La fusion / fission des informations au niveaux
morphosyntaxique
smantique et/ou pragmatique (rsolution de la corfrence)
actionnel (intgration de la multimodalit au niveau de la couche interaction /
dialogue)
Lchange des informations avec les autres modules de linterface et le noyau
fonctionnel de lapplication.
A chaque mode, est associ un modle de reprsentation des informations quil vhicule.
Ce modle dpend de la granularit des vnements de bas niveau sur laquelle il est
construit. Ainsi pour un geste le systme dlivre des vecteurs de coordonnes de
points dans le temps alors que pour la parole ce sont des chanes de caractres
correspondant des mots ou des phrases reconnues ou bien du son chantillonn. Les
frquences dchantillonnage de ces donnes sont diffrentes dun mdia lautre. Les
problmes qui se posent dans une interface multimodale sont donc :
(a)
(b)
(c)
(d)
(e)
lacquisition des signaux fournis par lusager,

leur reconnaissance automatique,
la comprhension des signes quils vhiculent,
leur interprtation corfrentielle,
la construction dun message actionnel multimodal.
16
Le cheminement des informations passe par une mise en forme, une reprsentation
abstraite, une fusion et enfin une transmission la couche dialogue [Taylor, 89] qui se
trouve de fait pos au niveau le plus haut.
8.1. La gestion des modes

La gestion des modes est une opration qui consiste :
capter les vnements en provenance des serveurs de mdias (inversement mettre
pour les sorties),
construire les structures vnementielles et informationnelles,
grer le contexte interactionnel, en fonction du type dinformation et des
connaissances transmises par les niveaux adjacents (module de fusion, module de
dialogue par exemple),
maintenir un historique pour ce contexte,
mettre profit les connaissances sur lusager au niveau sensori-moteur (temps de
raction, prfrences modales, etc.).
Pour avancer clairement dans la problmatique prsente ci-dessus, il est important de
bien distinguer les vnements (qui refltent lorganisation physique des actes) des
informations (ou units qui les composent).
4.1.1. Evnements, informations
Dfinition dun vnement : un vnement est un dbut, ou une fin dun signal externe
la machine : il signale un changement perceptible sur un mdia. Cette dfinition est
centre sur la machine et non sur lutilisateur, plus prcisment sur les canaux dentresortie que nous appelons mdias.
fP dP fP
dP
Parole
Geste
A
Dfinition dune information : une information est une unit signifiante, mais qui ne
prend pas la mme signification pour lusager et pour la machine. Cest,
une unit smiotique pour lusager,
une unit rfrentielle pour la machine.
17
P a r o le
G e s te
dP
U1 U3
U5
fP
dP
U6
fP
U2 U4
Il est clair quil existe des relations smantiques entre les units et des relations
temporelles entre les vnements.
4.1.2. Le contexte interactionnel
Dfinition du contexte interactionnel : le contexte interactionnel est le triplet {usage des
modes, dpendance des informations, animation}. Le premier attribut dnote lusage (de
facto les capacits du systme) squentiel ou parallle des modes, le second
lindpendance des informations vhicules sur les mdias et le troisime la dynamique
du monde cest--dire les actions effet continu et les actions effet instantan. Nous ne
nous intresserons quaux deux premiers attributs qui dfinissent quatre contextes
interactionnels : exclusif, concurrent, altern et synergique {Caelen, 91], [Coutaz, 92].
Le contexte Concurrent
Il se dfinit par :
usage des modes : sans contraintes temporelle (paralllisme possible)
dpendance smantique : pas de corfrence intermodale entre les units,
L{uij(k), uij(l)} = pour ii.
Proprits : Lanaphore est mal rsolue lorsque la rfrence est porte par un autre mode,
la dixis ne peut tre rsolue.
Le contexte Altern
Il se dfinit par :
usage des modes : Dbuti(k) > Fini(k-1) avec ii
dpendance smantique : pas de contraintes corfrentielles
Proprits : Lanaphore est bien rsolu lorsque la rfrence est porte par un autre mode,
la dixis peut tre rsolue. Lusage altern des modes entrane une lourdeur qui pnalise
la coordination perceptive/motrice de lusager.
Le contexte Synergique
Il se dfinit par :
usage des modes : aucune contrainte
18
dpendance smantique : pas de contraintes corfrentielles

Proprits : Lanaphore est bien rsolue lorsque la rfrence est porte par un autre
mode, la dixis galement. Lusage synergique semble tre la meilleure solution si lon
sait rsoudre les problmes corfrentiels intermodaux, cest galement le plus
conomique au niveau sensori-moteur. Mais elle pose problme pour traiter les
anticipations ou les retards.
4.1.3. Formalisation
Si nous considrons un systme multimodal le plus gnral possible, il ny a pas lieu de le
considrer entirement centralis ; supposons au contraire quil utilise des ressources
dlocalises [Decouchant et al., 89], appeles serveurs de mdias. Ces serveurs ont par
exemple des cartes de reconnaissance ou de synthse de la parole ou ne sont que des
logiciels de reconnaissance de geste sans hardware particulier en dehors dune souris. Le
systme multimodal devient alors lui-mme un serveur sans mdia. Il peut tre son
tour distribu. Ses fonctions sont de grer les modes, vnements et services, et de
fusionner les informations jusqu un certain niveau pour les transmettre un module de
dialogue ou un collecticiel ou tout autre application.
Au niveau formel continuant maintenir une claire distinction entre vnements et
informations, nous dfinissons :
Les structures vnementielles
soit i(k) = ime acte en mode k reu (mis) par le systme multimodal de (vers)
un ensemble de serveurs {}, on pose :
vnement-de-acte : attach- i(k)
|
|
|
|
|
type : ei(k) = {di(k), fi(k)}

mode : k
date : (ei(k))
n-ordre : i
provenance / destination : {}
soit uij(k) = jme unit contenue dans i(k), on pose :

vnement-dunit : attach- uij(k)
|
type : eij(k) = {duij(k), fuij(k)}
|
acte : i(k)
|
|
date : (eij(k))
n-ordre : j
Les relations vnementielles

chronologique (), monomodale
19
eij-p(k) eij(k) ssi p1, (eij-p(k)) (eij(k))

synchronique (), multimodale
kk, eij(k) eij(k) ssi eij(k) [duij(k), fuij(k)] ou eij(k) [duij(k), fuij(k)]
avec,
eij(k) [duij(k), fuij(k)] ssi (duij(k)) (eij(k)) (fuij(k))
ces relations sont aussi applicables aux vnements dactes.
Proprits : () est une relation dordre partiel, () est une relation dquivalence
units (actes) synchrones
deux units (actes) sont synchrones sils possdent deux vnements synchrones
kk, uij(k) uij(k) ssi eij(k) eij(k) -id- pour les actes
la dure de deux units (actes) synchrones est :
(uij(k) uij(k)) = max[(eij(k)),(eij(k))]-min[(eij(k)),(eij(k))] -id- pour les actes
Les deux dfinitions du prsent
le prsent instantan : dure de lunit la plus courte un instant donn
lpaisseur du prsent : intervalle de temps dfini par la dure de tous les actes
synchrones un instant donn. Cette paisseur est variable au cours du temps.
Cas particuliers :
dans un systme altern il ny a pas dunits ni dactes synchrones,
dans un systme concurrent la gestion des modes seffectue comme dans un systme
synergique mais il ny a pas de niveau de fusion dinformations.
Le contexte interactionnel (dans un systme dynamique)
Un systme est dit dynamique sil est capable de grer diffrents contextes
interactionnels. Le contexte interactionnel a t dcrit ci-dessus. Cest le triplet Co =
{usage des modes, dpendance des informations, temporalit}
usage des modes : il est dtermin par la boucle action/perception et les
contraintes mcaniques du systme
ex. Mettre(Objet, Lieu)
mets a ici < dg(a) < dg(ici) => altern
(mets a ici dg(a)) < dg(ici) => synergique(p+)
(mets a dg(a)) < (ici dg(ici)) => synergique
20
mets < (a dg(a)) < (ici dg(ici)) => synergique(g+)

avec,
= acte de parole
dg = acte de dsignation gestuelle
p+ = dominance du mode parole
g+ = dominance du mode gestuel
dans le dernier cas le geste rythme la parole et la dtermine temporellement. Les
vnements sont synchrones et les informations dpendantes ; on en dduit que le
contexte interactionnel est synergique dominance gestuelle.
dpendance smantique : elle est dtermine par les relations
smantiques/pragmatiques entre les units
ex. dg(triangle) dplace le cercle => concurrent
les deux actes sont synchrones et indpendants car lobjet dsign triangle ne corfre pas
avec lobjet cercle de lacte de parole. On en dduit le contexte interactionnel
concurrent.
Ces quelques exemples montrent que le contexte interactionnel se dduit de
dorganisation et du contenu mme des actes. Cela fait quil ne peut tre dtermin que
de manire infrentielle.
8.2. Fusion/fission des informations

Le problme central dans une interface homme-machine multimodale se situe dans la
fusion (en entre) et la fission (en sortie) des informations intermodales. Plac au-dessus
de la gestion des modes, le module qui traite de la fusion (resp. fission) fait le lien avec le
module qui traite du dialogue (voir 3).
Cerner les fonctions et les limites dun module de fusion est chose dlicate, car sa
spcificit peut tre conteste [Gaiffe et al., 91] : on pourrait en attribuer tous les rles au
contrleur de dialogue qui analyserait les informations prleves au bas niveau et se
chargerait de la fusion des informations dans un processus englobant [Wilson et al., 91].
Quelles sont les raisons qui plaident en faveur dun tel module distinct et spcifique pour
les IHM multimodales ?
La discussion gnrale de cette question est vaste ; elle devrait porter sur les points
suivants :
Stratgies de fusion
Quand ?
au plus tt (prcoce)
au plus tard (diffr)
21
par tapes
Comment ?
autour dune structure commune
et dun mode dominant
grammaire dunification (langagire bien forme)
sans mode dominant
grammaire multimodale
par une thorie de laction
sans structure commune
O ?
centralise dans le contrleur de dialogue
de manire rpartie et progressive
Avec quelle logique ?
Critres de fusion
de proximit temporelle (rgles sensori-motrices)
de cohrence structurale et/ou de compltude smantique
disotopie smantique
fonction du contexte dinteraction
fonction des performances de lusager [Valot et al., 91]
de logique actionnelle ou intentionnelle [Cohen, 78, 79], [Searle, 83]
etc.
Il est clair que le rle du module de fusion est de rendre linterprtation (a) aussi
indpendante que possible des contextes dans un premier temps et (b) de permettre une
rsolution progressive des rfrences pour lever les ambiguts dans un deuxime temps.
Accessoirement un tel niveau de fusion permet galement dajouter de nouveaux modes
sans avoir modifier le contrleur de dialogue en profondeur.
Ces deux contraintes nous conduisent alors proposer une fusion progressive des
informations partant des niveaux morphosyntaxiques pour aboutir au niveau smantique
selon le schma suivant (fig. 4) :
22
Pragmatique
du 3me degr
Locutoire
Illocutoire
Perlocutoire
Action
CMR (Common Meaning Representation)
Rfrents
Focus
Topos
Smantique
Signes
Pragmatique des
1er et 2me degrs
Marqueurs
Indexicaux
Structures
Phmes
Syntaxe
Morphologie
Contexte
discursif
Contexte
interactionnel
Rgles syntaxiques
Lexique
Morphosyntaxe
Units smiotiques
Fig. 4 : Les niveaux de fusion
Dans ce schma la fusion sopre partir des units collectes dans lpaisseur du prsent
et fournit des structures de reprsentation abstraites (CMR = common meaning
representation) dbarrasses des composantes modales. Ces structures sont
communiques au contrleur de dialogue. Dtaillons chaque tape de la fusion.
Analyse morphosyntaxique modale
Une analyse morphosyntaxique de chaque acte modal est faite sur lpaisseur du
prsent. On obtient pour chaque mode une reprsentation adapte qui dcrit la structure
des constituants et la structure fonctionnelle.
Analyse pragmatique des 1er et 2me degrs
A ce niveau une analyse des indexicaux et des marqueurs pragmatiques par liage
intermodal est opre. Elle permet de relier les lments rfrentiels libres dun mode aux
lments rfrents des autres modes et de lier les actes entre eux.
Raisonnement smantique (spatio-temporel)
Ce raisonnement aboutit la construction dune CMR (Common Meaning
Representation) par instanciation de schmas (daction et dobjet). Ces mcanismes
ressortissent de mcanismes complexes dinterprtation smantique du langage naturel
[Sabah, 88]. Ils mettent en uvre des bases de connaissance des actions et des objets ainsi
que des rgles dinfrence pour instancier ces schmas sur la situation courante. Leur
degr de gnralit font leur relative indpendance des domaines dapplications.
23
5. Syntaxe multimodale des noncs : le ct systme

Avec le problme de la syntaxe multimodale, vient le problme de la fusion des modalits : quel
niveau d'abstraction faire cooprer au mieux les informations issues des diffrents canaux de
communication ? Si des approches prconisent la fusion tardive pour grer les ambiguts ou dater
les vnements, nous avons pour notre part choisi d'effectuer la fusion extrmement tt dans le
processus d'interprtation.
5.1. Critres d'intgration
Un critre d'interaction dfinit les conditions pour fusionner les informations provenant de
plusieurs modalits. Nous prsentons ici ceux qui ont t identifis lors des travaux de la
communaut des Interfaces Homme-Machine [IHM92] :
La proximit temporelle: sert mettre en correspondance des vnements issus de
modalits diffrentes mais produits en des instants trs proches.
La complmentarit logique (ou structurelle) des vnements permet dans certains cas de
fusionner, au sein d'une mme commande, des vnements distants temporellement.
La compltude d'une structure de donnes d'intgration peut constituer une condition de
passage entre niveaux d'abstraction.
Les contextes (historique et modle de la tche) de dialogue et l'historique d'interaction
interviennent dans la rsolution des corfrences, des anaphores, des ellipses et des
dictiques.
L'incompatibilit des modalits pargne au processus des tentatives d'intgration de
modalits ne pouvant tre utilises simultanment.
Beaucoup de travaux ont port sur le temps . Le temps revt une grande importance dans les
interfaces multimodales, car il devient lui-mme porteur d'information, et influe sur l'interprtation
des noncs. Les fig. 9 et 10 montrent qu' une mme squence d'actions de l'utilisateur, peuvent
correspondre deux interprtations diffrentes, selon la distribution temporelle prcise des
vnements correspondants et en particulier la proximit temporelle de ceux-ci.
Exemple 1
"pression"
"plus deux"
Dsignation
icne temprature
Temps
Exemple 2
"pression"
Dsignation
icne temprature
"plus deux"
Temps
Figure 9. Importance du temps dans les interfaces multimodales
24
Considrons le contexte d'application d'une usine chimique. Dans l'exemple 9 de la fig. Erreur !
Signet non dfini., l'utilisateur demande au systme de lui communiquer la valeur de la pression,
en prononant le mot "pression". La valeur de la pression est alors communique travers le
synthtiseur de parole. Puis l'utilisateur dcide d'augmenter la temprature. Disposant sur son cran
tactile, d'une icne temprature (sous forme d'un thermomtre par exemple), il dsigne cette icne
tout en prononant les mots "plus deux". Le systme augmente alors la valeur de la temprature de
2 units. Dans l'exemple 2, l'utilisateur prononce d'abord les mots "pression plus deux", ce qui a
pour effet d'augmenter la pression de 2 units, puis il dsigne l'icne de temprature. Le systme
lui communique alors la valeur de la temprature par l'intermdiaire de la synthse de parole.
Finalement dans l'exemple 1 la temprature a t augmente de 2 units alors que dans l'exemple 2
c'est la pression qui l'a t bien que la squence des vnements soit la mme dans les deux cas.
Exemple 1
"dbut slection"
Dsignation
caractre
"fin slection"
"gras"
"efface"
Dsignation
caractre
Dsignation
caractre
Exemple 2
"dbut slection"
Dsignation
caractre
"fin slection"
"gras"
Dsignation
caractre
"efface"
Dsignation
caractre
Figure 10. Importance du temps dans les interfaces multimodales

Un autre cas illustrant l'importance du facteur temporel et que nous avons rencontr dans
MEDITOR [4] est donn dans la fig. 10. Dans le premier exemple l'utilisateur dsigne un premier
caractre en prononant la phrase "dbut slection". Puis il dsigne un second caractre en
prononant la phrase "fin slection". Le texte compris entre les deux caractres est alors
slectionn. Il prononce ensuite le mot "gras" ce qui a pour effet d'affecter l'attribut gras la
slection courante. Il dsigne ensuite un autre caractre et prononce le mot "efface". Seul le
caractre dsign est alors effac. Dans le second exemple, la troisime dsignation est effectue
juste aprs la prononciation du mot gras. Cette proximit temporelle permet l'utilisateur
d'indiquer au systme que l'attribut gras doit tre affect au caractre qu'il vient juste de dsigner et
non la slection courante (qui reste toujours valide). Le mot "efface" n'tant accompagn
d'aucune dsignation, il est par consquent appliqu la slection courante. Finalement dans
l'exemple 1 la slection est passe en gras et le caractre a t effac, alors que dans l'exemple 2
c'est l'inverse qui se produit bien que la squence des vnements soit exactement la mme dans
les deux cas.
On voit travers ces exemples que la squence seule ne suffit pas interprter correctement les
noncs multimodaux. Il est ncessaire de connatre la distribution temporelle prcise des
25
informations afin de pouvoir dtecter les proximits temporelles entre les vnements. Il est par
consquent, indispensable que ces vnements soient caractriss par leurs dates de dbut et de fin
de production. Ceci permet de les classer selon leur ordre chronologique rel et de mesurer les
distances temporelles entre eux. Ce type de distance constitue un des critre de fusion des
informations. Malheureusement, de nombreux systmes d'exploitation ne permettent pas d'obtenir
une datation prcise des vnements. Il est alors souvent ncessaire de les contourner, et d'effectuer
soi-mme une datation approximative un bas niveau de programmation.
La proximit temporelle
Pour dfinir concrtement la notion de proximit temporelle, il faut tudier les diffrents cas de
succession de deux messages dans le temps. Allen [5] en a propos 13 (fig. 11).
Simultant parfaite
Prcdence / Succession
Prcdence / Succession, immdiate
Recouvrement total
Recouvrement total la fin
Recouvrement total au dbut

Recouvrement partiel
Figure 11. Les treize relations temporelles d'Allen

Ces relations nous semblent importantes dans le cas de la multimodalit en sortie ou dans les
applications multimdia [6]. Elles permettent de spcifier prcisment la manire dont les
informations de sortie doivent tre synchronises dans le temps. Cependant, en entre, nous
pensons qu'il n'est pas ncessaire d'en distinguer autant. Les cas que nous avons distingus dans
nos ralisations et qui sont prsents dans la fig. 12 nous ont t suffisants.
26
MEDIAS
MEDIAS
M2
M1
M2
D
M1
TEMPS
TEMPS
MEDIAS
MEDIAS
M2
M2
M1
M1
TEMPS
MEDIAS
TEMPS
MEDIAS
M2
M2
M1
M1
TEMPS
TEMPS
Figure 12. Succession temporelle de deux messages

Dans les cas 2 (recouvrement partiel) et 3 (recouvrement total), il est logique de dire que les deux
messages sont temporellement proches. Dans le cas 1 (pas d'intersection), la distance temporelle
sparant la date de fin de production du premier message et la date de dbut de production du
second est mesure puis compare un seuil dtermin exprimentalement, ou fix selon les
prfrences de l'utilisateur.
Temps de rponse des mdias d'interaction

Pour pouvoir interprter correctement les noncs de l'utilisateur, il est ncessaire de traiter les
informations selon leur ordre chronologique rel1. Or la diffrence entre les temps de rponse des
diffrents mdias peut tre trs importante. Ceci implique que le systme reoit en gnral un flot
d'informations dans un ordre qui ne correspond pas au vritable ordre produit par l'utilisateur
(fig. 13). Ceci peut conduire une interprtation errone des noncs.
1Mme
pour les tre humains, il peut tre difficile de comprendre le sens d'une phrase dont l'ordre des mots a t
modifi.
27
Utilisateur
Systme de
reconnaissance
vocale
Souris
Systme
multimodal
Clic
"ferme"
Reconnaissance
Production de
l'vnement "ferme"
Acquisition
Production de
l'vnement CLIC
Rception de
l'vnement CLIC
Rception de
l'vnement "ferme"
Temps
Figure 13. Problme du temps de rponse des mdias

Un message peut donner lieu diffrentes interprtations selon qu'il ait t produit de manire
isole (dans le temps) ou au contraire, en simultanit avec d'autres messages. Par exemple, la
dsignation d'une fentre peut signifier, lorsqu'elle n'est accompagne d'aucun ordre vocal, "mettre
en avant-plan la fentre dsigne". Par contre, si cette dsignation est accompagne de l'ordre
vocal "ferme", l'interprtation sera diffrente. Or, si l'utilisateur prononce le mot "ferme" et dsigne
tout de suite aprs une fentre, on peut alors constater que l'vnement correspondant au clic est
produit avant l'vnement correspondant au mot prononc, car le systme de reconnaissance de
parole met beaucoup plus de temps reconnatre un mot que le driver souris dtecter les
coordonnes de pointage. La solution ce problme consiste tout d'abord dater les messages
(date de dbut et date de fin) et maintenir une file des vnements trie par ordre chronologique.
Ensuite, il convient de ne traiter un vnement, qu'aprs avoir interrog tous les priphriques pour
s'assurer qu'aucun autre vnement n'est en cours de production. De cette faon on peut tre sr
que le prochain vnement qui sera produit aura une date de dbut de production postrieure
celle de l'vnement en cours de traitement. Concernant les systmes de reconnaissance vocale,
tester si un message est en cours de production, signifie tester si l'utilisateur est en train de parler
ou si la reconnaissance d'un mot est en cours. Malheureusement cette possibilit n'est pas toujours
offerte par les systmes de reconnaissance.
Corfrences actives et corfrences passives

Nos travaux nous ont amens distinguer deux types de corfrence :
1. les corfrences actives : correspondent la production de deux informations travers deux
modalits, telles que l'interprtation et la comprhension complte et sans ambigut d'une des
informations ne peuvent se faire sans l'autre. Par exemple, l'utilisateur prononce le mot "ferme"
et clique en mme temps sur la barre de titre d'une fentre.
2. les corfrences passives : correspondent la production d'une information travers une
modalit, telle que l'interprtation et la comprhension complte et sans ambigut de cette
information ne peuvent se faire sans connaissance de l'tat d'une autre modalit. Par exemple,
28
l'utilisateur prononce le mot "ferme". La fentre pointe du regard est alors ferme. Le problme
pos par les corfrences passives concerne la sauvegarde des tats des priphriques. Pour
illustrer ce problme considrons l'exemple suivant dans lequel l'utilisateur dispose, d'un
oculomtre et d'un systme de reconnaissance vocale. Pour fermer une fentre, il prononce
"ferme" et pointe simultanment du regard la fentre dsire (fig. 14).
3.
Reconnaissance
Acquisition
Interprtation
"ferme"
multi
modal
dialo
gue
multi
modal
dialo
gue
multi
modal
dialo
gue
multi
modal
dialo
gue
Temps
Direction du regard
Figure 14. Problme des corfrences passives

L'analyse de cette manipulation du point de vue du systme, indique que le systme de
reconnaissance vocale met un certain temps acqurir et reconnatre le mot prononc, et le
systme multimodal un certain temps l'interprter. Aussi courts que soient ces temps, il est trs
probable, une fois la commande interprte, que la direction du regard ait chang. Il faut donc
retrouver la direction du regard un instant pass, compris entre l'instant de dbut de
prononciation du mot "ferme" et l'instant de fin de prononciation. L'tat de oculomtre cet instant
pass permettra de retrouver la direction du regard. La solution ce problme consiste donc
associer chaque priphrique changement d'tat frquent (oculomtre, souris,...) un historique
permettant le stockage des tats rcents ainsi que leurs dates.
Recommandations aux constructeurs de priphriques

Nous rsumons dans ce paragraphe les principales informations que les constructeurs de
priphriques et les concepteurs de systmes d'exploitation doivent veiller fournir afin de
permettre une intgration cooprative et une exploitation multimodale des moyens de
communication entre l'homme et la machine :
Datation prcise des vnements : tout structure d'vnement doit comporter une date de dbut de
production et une date de fin de production (ou bien une date de dbut et une dure). Cette datation
doit tre prcise au 1/10me de seconde prs.
Historique des vnements : pour les priphriques pouvant changer d'tat rapidement (oculomtre,
souris, stylet, etc.) il est recommand de disposer d'un historique des tats antrieurs d'une dure de
3 ou 4 secondes et un intervalle minimal de 1/10me de seconde.
29
Etat des priphriques : il est galement ncessaire de disposer d'une information permettant de
connatre les divers tats possible du priphrique. Par exemple pour un systme de reconnaissance
de parole, on peut numrer les tats suivants :
en attente
en acquisition (l'utilisateur commence parler)
en acquisition et reconnaissance (le systme commence la reconnaissance avant mme que
l'utilisateur ait fini de parler)
en reconnaissance (l'utilisateur fini de parler mais la reconnaissance n'est pas encore termine)
Ces tats permettront de savoir si un vnement E est en cours de production sur un priphrique
donn P, auquel cas une ventuelle interprtation d'un autre vnement E' issu d'un autre
priphrique P' plus rapide que P pourrait tre mise en attente jusqu' dlivrance de l'vnement E.
L'vnement E peut en effet, influer sur l'interprtation de l'vnement E'.
5.2. Stratgies d'intgration
La stratgie d'intgration peut tre prcoce ou diffre par rapport la question smantique. Elle
peut aussi tre progressive et s'effectuer tout au long des diffrents niveaux d'abstraction fournis
par l'architecture choisie. Dans la liste qui suit, nous donnons diverses stratgies et leurs
argumentations :
Le modle du creuset, prsent par Laurence Nigay [Nigay, 94] pour l'application MATIS,
adopte une stratgie de fusion prcoce selon les critres temps, complmentarit et contexte
du dialogue. Ce choix implique de dfaire parfois certaines fusions mais reste efficace dans
le cas gnral.
L'intgration base de rgles, dveloppe dans LIMSI-DRAW par Yacine Bellik et Daniel
Teil [Bellik, 95], propose une stratgie retarde. Spare en deux fusions menes en
parallle (fusion locale et fusion globale) la production de l'nonc ne sera faite qu'au
niveau du contrleur de dialogue. Les critres utiliss diffrent en fonction de la fusion
utilise. On peut citer la complmentarit logique, la compatibilit des types et la proximit
temporelle. Tous les vnements arrivant au contrleur de dialogue sont alors typs, dats
et ont une forme commune.
Le modle conceptuel de Jean-Claude Martin et Daniel Broule [Martin, 95] est le seul
proposer une intgration distribue sur les niveaux d'abstraction conscutifs suivant un
critre temporel. La fusion se fait au meilleur moment aprs l'activation d'un rseau
connexionniste.
Nous avons dtermin une stratgie d'intgration qui n'est pas guide par les modalits fusionner,
mais par les lments combiner pour crer une commande. En effet linteraction multimodale est
souvent de nature actionnelle (plus quinformationnelle). Il est donc intressant de dfinir une
logique de laction sur laquelle lutilisateur interagit avec la machine. Nous prsentons donc le
modle VA : Verbe-Actants, o le verbe dnomme le type daction et o les actants dont les
attributs de laction (qui, quoi, quand, o, comment, etc.). Il s'agit d'un processus de fusion
prcoce o, ds rceptions des signaux, il y a tentative de combinaison sur des entits dpourvues
de type au niveau de l'agent d'interprtation. Les critres d'intgration, mme s'ils ne sont pas
explicitement recherchs dans l'algorithme afin de gagner du temps, sont la proximit temporelle et
la compltude structurelle.
Il n'y a pas dans cette approche de modalit dominante puisque trs tt dans le processus les entits
30
servant l'interprtation perdent leurs origines et leurs types. En revanche, s'il y a un lment
dominant dans ce modle, c'est le verbe. D'o le problme d'extraction du verbe. S'il est inexistant
au niveau du mode gestuel puisque la dsignation d'un bouton ou la reconnaissance d'un geste de
commande n'amne pas d'importants problmes de reconnaissance, il est trs prsent au niveau du
langage naturel.
9. Conclusion
Une interface met en relation les niveaux de structuration des connaissances (signes) de
mondes rfrentiels possibles avec les niveaux dabstraction pour larchitecture de
linterface. Le passage entre ces niveaux (reprsentations, concepts, symboles) se fait par
un double processus : sur laxe syntagmatique (combinaison des signes, sur laxe
horizontal du temps) par le dialogue , sur laxe paradigmatique (combinaison des
signes sur laxe vertical) par le contrle . Linteraction se manifeste par une relation
plus directe sur le systme matriel, cest--dire que la combinatoire syntagmatique est
plus courte porte et la profondeur des mondes moins grande que dans le cas du
dialogue. Notons galement quune interface met en relation plusieurs milieux, celui de
lhomme, celui de la machine et celui dans lequel tous deux sont plongs, leur
environnement.
Le concepteur dinterfaces doit prendre en compte lusager dans ses dimensions
cognitive mais ici aussi sensorielle et motrice. Cela donne clairement deux niveaux de
traitement : (a) un niveau bas pour la gestion des modes et la fusion/fission des
informations et (b) un niveau haut pour la gestion de linteraction travers des couches
sophistiques de dialogue.
Nous navons pas examin dans ce cours tous les aspects de la multimodalit. Avec la
conception, lvaluation est une tape fondamentale dans llaboration dune application
en vraie grandeur [Coutaz, 90], [Scapin, 86]. On saperoit ce niveau de limportance
des erreurs de comprhension et du problme de leur rparation [Siroux et al., 89]. Ces
erreurs sont non seulement dues aux faiblesses des modules de reconnaissance mais aussi
aux phnomnes danticipation motrice/concurrence vs. retard/hsitation, aux conflits
inter-modaux, aux inattendus.
Bibliographie
[Austin, 62] AUSTIN J.L., How to do things with words. Oxford U. P., 1962
[Barthet, 88] BARTHET M.F., Logiciels interactifs et ergonomie. Modles et mthodes de conception.
Dunor-Informatique, Bordas, Paris, 1988
[Bastide, 91] BASTIDE R., PALANQUE P., "Modlisation de l'interface d'un logiciel de groupe par Objets
Coopratifs", document de travail IHM'91 p 1-10.
[Bisson et al., 92] BISSON P., NOGIER J.F., Interaction homme-machine multimodale : le systme
31

MELODIA. Actes ERGO.IA92, Biarritz, p. 69-90, 1992
[Bourguet et al., 92] BOURGUET M.L. & CAELEN J., "Interfaces Homme-Machine Multimodales: Gestion
des Evnements et Reprsentation des Informations", ERGO-IA92 proceedings, Biarritz, 1992.
[Bourguet, 92] BOURGUET M.L., Conception et ralisation dune interface de dialogue personne-machine
multimodale. Thse INPG, Grenoble, 1992
[Buxton, 93] BUXTON B., HCI and the inadequacies of direct manipulation systems. SIGCHI Bulletin, Vol.
25, n1, p. 21-22, 1993
{Brandetti, 88] BRANDETTI M., D'ORTA P., FERRETTI M., SCARCI S., 1988, "Experiments on the usage of
a voice activated text editor", Proc. Speech '88, 1305-1310.
[Brooks, 88] BROOKS F.P., Grasping reality trough illusion : interactive graphics serving science. 5th Conf.
on Comp. and Human Interaction, CHI88, 1988.
{Caelen 91] CAELEN J., Interaction multimodale dans ICPdraw : exprience et perspectives. Ecole de
printemps PRC communication homme-machine, Ecole Centrale de Lyon, 1991.
[Caelen, 92a] CAELEN J., GARCIN P., WRETO J., REYNIER E., Interaction multimodale autour de
lapplication ICPdraw. Bulletin de la Communication Parle n2, p. 141-151.
[Caelen, 92b] CAELEN J., COURAZ J., Interaction homme-machine multimodale : quelques problmes.
Bulletin de la communication parle n2, p. 125-140.
[Caelen-Haumont, 91] Stratgie des locuteurs en rponse des consignes de lecture dun texte: analyse des
interactions entre modles syntaxiques, smantiques, pragmatiques et paramtres prosodiques. Thse de
doctorat dtat, vol. I et II, Aix-en-Provence, 1991
[Cadoz, 92] CADOZ Cl., Le geste canal de communication homme-machine. La communication
instrumentale. Actes des Entretiens de Lyon, CNRS, 1992.
[Collectif, 91] IHM91, groupe de travail interfaces multimodales, Dourdan, dc. 1991
[Collectif, 92] IHM92, groupe de travail interfaces multimodales, Paris, dc. 1992
[Condom, J.M., 92] CONDOM J.M., Un systme de dialogue multimodal pour la communication avec un
robot manipulateur. Thse Universit P. Sabatier, Toulouse 1992.
[Coutaz et al., 90] COUTAZ J. et CAELEN J., PRC communication homme-machine : Opration de
Recherche Concerte interface homme-machine multimodale. Juin 1990.
[Coutaz, 87] COUTAZ J., PAC: an Implementation Model for Dialog Design, Proceedings of the
Interact'87 conference, Stuttgart, H-J. Bullinger, B. Shackel ed., North Holland, september 1987, pp. 431-436.
[Coutaz, 90] COUTAZ J., Interface homme-ordinateur : conception et ralisation. Dunod d., Paris, 1990.
[Coutaz, 92] COUTAZ J., Multimedia and Multimodal User Interfaces: A Taxonomy for Software
Engineering Research Issues, St Petersburg HCI Workshop, August, 1992.
[Cohen, 78] COHEN Ph.R., On knowing what to say : Planning speech acts. Ph.D. Thesis, Technical Report
n118, Department of Computer Science, University of Toronto, January 1978.
32
[Cohen et al., 79] COHEN Ph.R. et PERRAULT C.R., Elements of a Plan-Based Theory of Speech Acts.
Cognitive Science 3, pp. 177-212, 1979.
[Decouchant et al., 88] D. DECOUCHANT, A.DUDA, A.FREYSSINET, M.RIVEILL, X.ROUSSET de PINA,
R.SCIOVILLE, G.VANDOME, "GUIDE: an implementation of the Comandos object-oriented architecture on
Unix", Proceedings of EUUG Autumn Conference (Lisbon), p 181-193, October 1988.
[Falzon, 90] FALZON P., Ergonomie Cognitive du Dialogue. PUG, Grenoble, 1990
[Faure, 93] FAURE C., Communication crite, concepts et perspectives. Journe du GDR-PRC
Communication Homme-Machine, Montpellier, paraitre, 1993
[Hcan et al. 75] HECAN H., JEANNEROD M., Du contrle moteur lorganisation du geste. Masson d.,
Paris, 1975.
[Hutchins, 85] HUTCHINS E.L., HOLLA J.D., NORMAN D.A., Direct Manipulation Interfaces. HCI,
Lawrence Erlbaum Ass. Publ., 1(4), 1985, p. 311-339.
[Gaiffe et al., 91] GAIFFE B., PIERREL J.M., ROMARY L., Reference in amultimodal dialogue : towards a
unified processing. EUROSPEECH91, 2nd Euopean Conference on Speech Communication and
Technology, Genova, Italy, 1991
[Gourdol, 90] GOURDOL A., Voice Paint, rapport de DEA, Grenoble, 1991
[Grice, 75] GRICE H.P., Logic and conversation. in Syntax and Semantic, 3: Speech Acts, P. Cole and J. L.
Morgan (Eds), New York Academic Press, pp. 41-58, 1975.
[Fillmore, C.J.] FILLMORE C.J., The Case For Case. Bach E. and Harms R. eds, Universals in Linguistic
Theory, Holt, Rinehart and Wiston, pp 1-90, New York, 1968.
[Morel, 88] MOREL M.A., Analyse linguistique dun corpus de dialogues homme-machine. Publications de
la Sorbonne Nouvelle, Tomes I et II, Paris , 1988
[Morel, 89] MOREL M.A., Analyse linguistique d'un corpus, Deuxime corpus: Centre d'Information et
d'orientation de l'universit de Paris V. Paris: Publications de la Sorbonne Nouvelle, 331 p., 1989.
[Pankoke, 89] PANKOKEe-BABATZ U., "Computer based Group Communication, the AMIGO Activity
Model", Ellis Horwood, 1989.
[Reynier, 90] REYNIER E., Analyseurs linguistiques pour la comprhension de la parole. Thse INPG,
Grenoble, 1990
[Rubine, 91] RUBINE D., The automatic recognition of gesture, PhD thesis, School of computer Science,
Carnegie Mellon University, CMU-CS-91-202, 1991.
[Scapin, 86] SCAPIN D.L., Guide ergonomique de conception des interfaces homme-machine, Rapport
Technique INRIA no 77, Octobre 1986
[Taylor et al., 89] TAYLOR M.M., NEEL F., BOUHUIS D.G., The Structure of Multimodal Dialogue. Elsevier
Science Publishers B.V., North-Holland, 1989
[Sabah, 88] SABAH G., L'intelligence artificielle et le langage. 2 tomes. Herms ed., 1988 et 1989.
33

[Searle, 69] SEARLE J.R., Speech Acts. Cambridge U. P., 1969
[Searle, 83] SEARLE J.R., Intentionality. Cambridge U. P., 1983.
[Siroux et al., 89] SIROUX J., GILLOUX M., GUYOMARD M., SORIN C., Le dialogue homme-machine en
langue naturelle : un dfi ? Annales des tlcommunications, 44, n1-2, 1989.
[Stefik et al.,87] STEFIK M., BOBROW D., FOSTER S., TATAR D., "WYSIWIS: Early experiences with multiuser interfaces" ACM trans. office information system, Vol.5, n2, April 1987, p 147-167.
[Turk, 91] TURK M. and PENTLAND A., Eigenfaces for recognition, Journal of Cognitive Neuroscience,
Vol. 3, No. 1, pp. 71-86, 1991.
[Valot et al., 91] VALOT C., AMALBERTI R., Description et analyse de lactivit de loprateur. Ecole IHMM, Ecole Centrale, Lyon avril 1991
[Vernant, 92] VERNANT D., Modles projectifs et structure actionnelle du dialogue. in Recherches sur la
philosophie et le langage, Du Dialogue, Vrin d., 1992.
[Wilson, 91] WILSON M.D., An architecture for multimodal dialogue, Workshop ESCA, Venaco, 1991
34
Annexe
Un exemple : dialogue dans l'diteur ICPdraw
ICPdraw est une application de dessin (type MacDraw) dans lequel la
communication homme-machine est multimodale. L'utilisateur dispose d'une
palette d'outils graphiques et de menus de fonctions. Il peut aussi activer ces
fonctions par la parole ou l'criture.
Menu --------------------------
palette d'outils graphiques
Visualisation
Zone de dessin utilsable
Zone de dialogue "criture" -----------
Hypothses de phrases reconnues par la voix
Fig. 5 : Exemple d'cran pour l'application ICPdraw. Il est compos de trois fentres, la premire,
dcoupe en zones et dfinissant l'espace de travail graphique, clavier-souris, la deuxime pour
visualiser les vnements multimodaux et pour indiquer l'utilisateur le moment o il peut
intervenir, la troisime pour visualiser les rsultats de la comprhension de la parole.
Le langage de manipulation
Le langage oral de manipulation (dessin, dplacement, coloriage, etc.) des
objets gomtriques de ICPdraw est dfini de la manire suivante :
la structure logique de la commande est :
Verbe(<arg1><arg2>...<argn>)
Verbe reprsente une tche lmentaire ou une succession de tches effectuer. C'est trs
souvent le verbe de la phrase
argi sont des arguments de la fonction Verbe. Ils sont de type GN ou GP, le Nom du GN est en
gnral un objet de l'application et Adjectif un attribut de cet objet lorsque Nom et Adj sont dans le
mme GN.
Les mots-outils sont facultatifs dans un tel langage
35
Ex: "dessine un cercle de couleur noire": (un=quelconque) (1)

"dtruis le cercle": (le=celui dont il vient d'tre question)
"dessine un cercle noir": autre forme de (1)
"dessine cercle noir": forme abrge de (1) sans article
On ne s'intresse pas dans la suite au module "Parole" On suppose que ce
module dispose d'analyseurs linguistiques capables de fournir la structure des
constituants (c-structure) et la structure fonctionnelle (f-structure) de la commande
nonce par la voix. Par exemple pour la phrase "dessine un cercle de couleur
noire" cela donne (Fig. 6) :
P
GV
GN
GN
c-structure
GP
V
Dt Nom
Prp Nom Adj-q
Contrle Ind Obj_graph
Prop Coloris
()
SUJ
dessine un
V
cercle
COD
de
couleur noire
f-structure
CN
Fig. 6 : En supposant la phrase correctement comprise les analyseurs linguistiques du module Parole
dlivrent la c-structure (ou arbre des catgories syntaxico-smantiques) et la f-structure (relations
fonctionnelles comme sujet=SUJ, COD=complment d'objet direct, CN=complment de nom) de la
phrase P.
Cette analyse ne suffit pas en gnral, il faut encore interprter cette

commande dans le contexte de l'application. Pour cela on utilise gnralement des
grammaires de cas pour retrouver la forme logique V(). Ces grammaires de cas
sont mises en uvre travers des bases de connaissance et un analyseur.
L'analyseur gre lui-mme son propre historique pour rsoudre les problmes
d'ellipse et d'anaphore au cours du dialogue.
Le contrleur du dialogue peut vrifier si une action est excutable (toutes les
conditions sont requises, tous les arguments sont valus) ou prdire une action. Ce
contrleur se prsente donc comme un ATN ou un GPS, ou un planificateur.
Pour l'exemple ci-dessus il faudra obtenir le schma d'action :
dessiner : sorte_de 'dessin'
a-attributs
objet (quoi) = cercle.5
destinataire ( qui) = ?
agent (qui) = 'systme'
36

manire (comment) = ?
temps (quand) = 'immdiat'
cause (pourquoi) = ?
lieu (o) = ?
quantit (combien) = 1
but (pour) = ?
condition (si) ='nant'
concession (malgr) = 'nant'
restriction (sauf) = 'nant'
destination (vers) = ?
et instancier le nouvel objet :

cercle.5 : sorte_de 'obj_graph'
a-forme = cercle
a-taille = ?
a-couleur_fond = noir
a-contour = ?
De manire gnrale l'analyseur devra disposer d'une base d'objets et d'une

base de tches ainsi que de mcanismes de remplissage des slots. Ce mcanisme ne
sera pas dtaill ici.
(a) la base d'objets
Dfinition des objets :
____________________________________________________
Objet: sorte_de 'classe'
a-attributs (caractristiques et contraintes)
m-mthodes (liste des mthodes attaches l'objet)
s-liens smantiques
c-contraintes (ou restrictions sur attributs des classes pres)
____________________________________________________
37
Objet ICPdraw
Obj_par
Obj_inf
concret
signal
mot
phrase
abstrait
commande
fichier
rpertoire
Obj_graph
contrle
contenant
curseur
souris
couleur
palette
fentre
lieu
courbe
graphique
objet gomtrique
contenu
Obj_gestion
pointage
menu
Fig. 7 : Structuration de quelques objets d'ICPdraw

Obj_inf: sorte_de 'obj ICPdraw'
a-nom: char(32)
a-date: jour/mois/anne
a-propritaire: char(20)
a-taille: entier [octets]
a-privilge {public, priv}
fichier: sorte_de 'obj_inf'
m-{ouvrir, fermer, sauver, dupliquer, renommer, imprimer, lister }
s-CONTIENT('donnes$type')
s-EST_CONTENU('rpertoire')
c-taille > 0
rpertoire: sorte_de 'obj_inf'
a-niveau: entier
m-{ouvrir, fermer, sauver, examiner, renommer, imprimer, lister}
s-CONTIENT('fichier')
parole_compresse: sorte_de 'fichier'
a-type: {amplitude, frquence, indice}
a-entte:
titre: char(80)
Nb_ch: entier > 0
Nb_bits: entier (1,32)
38

Fe: entier [Hz]
a-taille_enreg: entier
m-{couter, sauver}
s-SYNCHRONE($type, 'temps')
etc.
(b) la base des tches
Les tches peuvent tre vues comme des procdures activables par le verbe de
la commande et dont les actants sont les arguments de la commande : c'est
typiquement une formulation casuelle. Dans cette perspective la syntaxe des
schmas des tches est la suivante :
____________________________________________________
mthode: sorte_de 'classe'
a-attributs
objet (quoi)
bnficiaire ( qui)
agent (qui fait)
patient (qui subit)
manire (comment)
temps (quand)
cause (pourquoi)
lieu (o)
quantit (combien)
but (pour)
condition (si)
concession (malgr)
restriction (sauf)
destination (vers), etc.
s-liens smantiques
c-contraintes
____________________________________________________
39
Mthodes
contrle
gestion
quitter, arrter, excuter, activer

dsactiver, couter, acqurir, annuler
refaire, dfaire
outils
ouvrir, fermer, renommer, sauver

examiner, lister, revenir, drouler
dtruire, imprimer, choisir
cran
positionner, avancer, reculer, afficher

synchroniser, zoomer, empiler, effacer
redessiner, supprimer
mouvement
dtruire, dplacer, dilater, rduire, cacher

dsactiver, synchroniser, modifier, zoomer
empiler, insrer
dessin
dessiner, lisser, colorier, paissir,

foncer, claircir, tracer, effacer, crire
entourer, slectionner, grouper
action_contrle: sorte_de 'mthode'

quitter: sorte_de 'action_contrle'
quoi: 'application'
quand: 'immdiat'
vers: 'systme'
couter: sorte_de 'action_contrle'
quoi: 'signal'
comment: 'mode_interruption'
quand: APRES('slection')
o: 'fentre_signal'
combien: $Nb
si: Dure_slecte > 0 ET etc.
vers: codage_analogique
ouvrir: sorte_de 'action_gestion_outils'
quoi: $COD OU Historique
quand: 'immdiat'
combien: 1
si: EXISTE($COD(a-nom))
etc.
40

Interaction Multimodale

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Interaction Multimodale

Загружено:

Авторское право:

Доступные форматы

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

2. Interaction et interface : composants

Jean Caelen, Dialogue en LN et IHM Multimodale

2.1.2. modle de la tche

Jean Caelen, Dialogue en LN et IHM Multimodale

Les fonctions de la composante d'interaction sont :

Jean Caelen, Dialogue en LN et IHM Multimodale

3. Ergonomie cognitive de l'interaction

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

Fig. 4 : un script de dialogue gnral dans lequel les phases d'introduction et de

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

5. L'interface homme-machine (IHM)

Fig. 5 : Le modle d'UIMS Seeheim

Jean Caelen, Dialogue en LN et IHM Multimodale

Sonore : parole, motifs musicaux

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

Fig. 7 : Rsultat d'affichage de menus (1=barre fixe, 2=menu droulant) et formulaire

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

Niveau 1 : Dialogue au niveau de l'application (ex. ICPdraw)

lacquisition des signaux fournis par lusager,

Jean Caelen, Dialogue en LN et IHM Multimodale

8.1. La gestion des modes

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

dpendance smantique : pas de contraintes corfrentielles

type : ei(k) = {di(k), fi(k)}

soit uij(k) = jme unit contenue dans i(k), on pose :

Les relations vnementielles

Jean Caelen, Dialogue en LN et IHM Multimodale

eij-p(k) eij(k) ssi p1, (eij-p(k)) (eij(k))

le prsent instantan : dure de lunit la plus courte un instant donn

Jean Caelen, Dialogue en LN et IHM Multimodale

mets < (a dg(a)) < (ici dg(ici)) => synergique(g+)

8.2. Fusion/fission des informations

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

CMR (Common Meaning Representation)

Jean Caelen, Dialogue en LN et IHM Multimodale

5. Syntaxe multimodale des noncs : le ct systme

Figure 9. Importance du temps dans les interfaces multimodales

Jean Caelen, Dialogue en LN et IHM Multimodale

Figure 10. Importance du temps dans les interfaces multimodales

Jean Caelen, Dialogue en LN et IHM Multimodale

Recouvrement total au dbut

Figure 11. Les treize relations temporelles d'Allen

Jean Caelen, Dialogue en LN et IHM Multimodale

Figure 12. Succession temporelle de deux messages

Temps de rponse des mdias d'interaction

Jean Caelen, Dialogue en LN et IHM Multimodale

Figure 13. Problme du temps de rponse des mdias

Corfrences actives et corfrences passives

Jean Caelen, Dialogue en LN et IHM Multimodale

Figure 14. Problme des corfrences passives

Recommandations aux constructeurs de priphriques

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale

Jean Caelen, Dialogue en LN et IHM Multimodale