II. INTERFACES

_{La machine conduit l'homme à se spécialiser dans
l'humain... Jean Fourastié}

II.1. Introduction

Avant l'apparition des interfaces graphiques, l'interaction entre l'homme et la machine était proche du niveau zéro: claviers rudimentaires, cartes perforées et attentes interminables étaient le lot de tout informaticien. Les interfaces graphiques sont nées dans les années 60 à l'université de Stanford (au SRI, alors rattaché à l'université) avec des recherches sur les partitions d'écran, ancêtres des fenêtres, et sur l'utilisation de la souris. Ces recherches se sont poursuivies dans les années 70 au fameux PARC (Palo Alto Research Center) de Xerox et ont été popularisées en 1983 puis 1984 par les sorties respectives de Lisa et du Macintosh d'Apple. Depuis, les interfaces de type WIMP (Windows, Icons, Menus and Pointer) se sont multipliées : Windows, X-Window, NextStep... Elles s'appuient sur des concepts tels que la manipulation directe, les métaphores et les interacteurs qui prennent en compte les fonctions sensori-motrices de l'homme.

Nous nous intéressons ici aux perspectives d'évolutions des interfaces graphiques utilisant de nouveaux styles d'interaction comme des modalités originales, des métaphores nouvelles voire des immersions dans des mondes virtuels.

Après un survol des matériels disponibles aujourd'hui, nous ferons un tour d'horizon des média et des modalités utilisables afin de construire des interfaces multimodales orientées vers la conception graphique. Nous définirons un cadre aussi bien ergonomique que syntaxique pour le dialogue qu'il faudra mettre en oeuvre pour de telles applications. Enfin, avant de conclure, nous évoquerons les différentes façons de présenter les données aux utilisateurs et les solutions que nous avons adoptées.

II.2. Matériels

L'informatique visant un public de plus en plus large, son évolution se fait en accordant une importance croissante à l'utilisateur et donc en augmentant les efforts de conception en interfaces Homme-Machine. Le désir de faciliter le travail avec la machine passe par la définition d'interfaces qui proposent des métaphores de situations plus familières à l'utilisateur : "feuilleter" à l'écran les "pages" fenêtres, remplir, vider, détruire des dossiers. Le rapprochement avec l'univers familier extra-informatique s'accentue lorsqu'il s'agit de permettre des interactions Homme-Machine utilisant les modes de communication les plus naturels à l'homme. Aujourd'hui, des stylos, des caméras et autres microphones sont proposés pour "bavarder" plus librement avec les machines. Il n'est pas difficile d'imaginer une machine multimédia (avec caméra, scanner, papier électronique, gants numériques, microphone, écran, imprimante, haut-parleur, etc...), capable de récupérer et de simuler certains faits et gestes de l'utilisateur, qui serait plus à même de comprendre les données lues en entrée et de fournir à l'utilisateur, via une partie de ses média une réponse adaptée. Une telle machine devient ainsi multimodale [COUT91].

Dans sa définition idéale, un système informatique multimodal est capable de communiquer avec ses utilisateurs en respectant les codes établis de la communication humaine. Nous donnons une liste sommaire des divers modes de communication qui sont le plus couramment envisagés dans les interfaces Homme-Machine en réception ou en émission pour l'homme et leurs pendants informatiques, même si certains n'en sont encore qu'à leurs balbuciements (quelques-uns sont détaillés en Annexes: X.2. Les matériels pour la multimodalité).

II.2.1. Réception

Cette partie pourrait se résumer à l'énumération de nos cinq sens. Mais chacun d'eux peut être sensible à des stimuli divers.

Les sens        Les stimuli          Les équivalents informatiques    

La vue          Images               Caméra                             
                Ecritures            Scanner                            
                Geste                Papier électronique                
                                     Gant numérique                     

L'ouïe          Parole               Microphone                         
                Bruit                                                   

Le toucher      Température          Sonde thermique                    
                Texture                                                 

L'odorat        Odeur                Détecteur d'odeur [SUND92]         

Le goût         Saveur               Détecteur de goût [TEIL92]

Les "sens" des ordinateurs étant souvent déficients, il leur est indispensable d'utiliser toutes les informations disponibles pour comprendre un message en associant plusieurs dispositifs physiques. Par exemple, la lecture sur les lèvres dans le projet AMIBE du GDR-PRC "CHM" [MONT94] ou à Carnegie Mellon [VO93], vise à améliorer la reconnaissance de la parole. L'ordinateur tire ici le plus grand profit de la multimodalité.

II.2.2. Emission

Nous énumérons les principaux moyens dont l'homme dispose pour interagir avec son environnement. Nous tentons aussi de faire un rapprochement avec le monde informatique.

Les parties du       Les signaux émis       Les équivalents informatiques  
    corps                                                               

Les mains            Ecriture               Ecran                          
                     Image                  Imprimante                     
                     Geste                  Générateur braille             
                     Bruit                  Robot                          

Les cordes vocales   Parole                 Haut-parleur                   
                     Bruit                  Casque audio                   

Autres               Geste                  Combinaison avec retour        
                     Bruit, Saveur, Odeur,  d'effort                       
                     Texture, Température,  Chauffage                      
                     etc...

Nous sommes bien obligés de constater que les moyens d'expressions des ordinateurs sont encore très limités. Pour nos applications, nous devrons certainement nous contenter des voies classiques pour véhiculer les images et les sons (écran et haut-parleur).

II.3. Media, Modes & Modalités

Il n'y a pas d'union sacrée de la communauté scientifique autour des définitions des termes Média, Modes et Modalités. Nous donnons dans le glossaire (X.4. Glossaire) nos propres définitions auxquelles le lecteur pourra se référer pour comprendre le sens que nous donnons à chacun de ces mots et nous l'invitons à lire NIGA94 ou BELL92.

Du paragraphe précédent nous déduisons que l'ouïe et la vue qui priment dans la communication avec notre environnement. Le mode de communication le plus naturel, le plus spontané, est certainement la parole. Celle-ci est souvent accompagnée de gestes pour l'appuyer ou la compléter. Toutefois ces gestes peuvent se suffire à eux-mêmes dans un dialogue, par la position d'une main (agiter une main pour dire "Au revoir") ou l'expression d'un visage. L'écriture est aussi un mode important de communication, tout comme les dessins ou les images. Enfin, l'environnement sonore de l'homme nous incite à considérer les sons comme des éléments significatifs (l'interjection "plouf!" par exemple nous donne une très bonne indication de ce qu'il vient de se passer).

Dans les lignes qui suivent, nous allons détailler les modalités relatives aux deux sens principaux, l'ouïe et la vue. Pour chacune de ces modalités, nous essaierons de décrire leurs pouvoirs et leurs limites.

II.3.1. Les modalités liées à l'ouïe

II.3.1.1. La parole

II.3.1.1.1. La machine reçoit

Dispositif physique associé: Microphone.

Comme nous l'avons vu, la parole est le mode de communication le plus naturel pour l'homme. Il suffit de relier le microphone à un système de reconnaissance vocale pour que la machine reconnaisse des éléments du lexique. Une analyse linguistique permettra à l'ordinateur de réellement comprendre l'utilisateur.

L'utilisation de la parole dans une interface Homme-Machine peut avoir de gros avantages:

Pendant qu'elle parle, la personne peut recevoir des informations visuelles, plus généralement la parole peut-être simultanée à une autre activité périphérique [MOUN90].
Elle permet de communiquer loin d'une machine (via un téléphone par exemple).
La parole peut servir à la confirmation (d'un message écrit par exemple).
Cette modalité est particulièrement adaptée aux commandes du type : « mets ça là », « calcule », « passe à l'autre fenêtre », « repeints en rouge », etc... Elle peut (doit) être utilisée facilement avec les autres modalités du système. C'est ainsi qu'il faut différencier les commandes vocales qui se suffisent à elles-mêmes (« Efface tout », « Arrêt », « Mets le carré en haut à gauche sous le triangle en bas à droite », etc...) et celles qui demandent la collaboration d'une autre modalité (« mets le cercle ici », « détruits ça », etc...) servant le plus souvent à compléter une commande (désigner un objet ou un lieu).

Mais elle présente aussi des inconvénients:

La capacités des systèmes de reconnaissance actuels oblige à se contenter de vocabulaires limités et de grammaires très contraintes [PIER88].
« Ca fait du bruit... ». Ce qui n'est guère agréable dans une salle commune de travail [RHYN87].

II.3.1.1.2. La machine émet

Dispositifs physiques associés: Haut-Parleur, Casque audio.

L'émission de la voix se fait par synthèse vocale. Les données textuelles sont transformées en données vocales. Cette technique est particulièrement utile pour les non-voyants, les communications téléphoniques (renseignements automatiques) ou encore pour ne pas surcharger un écran par des informations qui peuvent n'être que contextuelles.

A part le bruit qu'occasionne un tel système, nous donnerons comme inconvénient la mauvaise qualité des voix restituées, souvent trop synthétiques, d'où la difficulté à les comprendre ou à les supporter.

II.3.1.2. Le son

II.3.1.2.1. La machine reçoit

Dispositif physique associé: Microphone.

L'émission de bruits par l'utilisateur à l'attention de sa machine peut ne pas sembler primordiale. Toutefois il y existe des cas, tout à fait spécifiques, où l'étude de ces sons est vraiment très utile (certains handicapés ne peuvent communiquer avec leur entourage que par des sons inarticulés).

II.3.1.2.2. La machine émet

Dispositif physique associé: Haut-Parleur, Casque audio.

L'utilisation de sons dans une interface Homme-Machine s'avère souvent très utile. En effet, les sons peuvent prévenir d'un événement spécifique (arrivée d'un courrier électronique) ou peuvent fournir des informations meilleures que les informations graphiques (l'icône heurte la poubelle avec un « gling », signifiant que l'on est dessus, on lâche l'icône, il y a un « crash », signifiant que l'objet représenté par l'icône est détruit). Une interface de ce type a été développée et testée dans les bureaux d'Apple. Au bout de quelque temps d'exploitation, les utilisateurs se sont majoritairement prononcés en faveur du produit [MOUN90].

L'utilisation d'un casque permet de tirer profit de la stéréo, en particulier pour la localisation d'un son. Ce type de technique est déjà très utilisée dans les mondes virtuels immergés.

Comme pour la parole, on pourra reprocher le bruit que peut produire une interface conventionnelle, mais le piège essentiel à éviter sera de surprendre ou de distraire l'utilisateur par des sons un peu trop originaux, au lieu de mettre en valeur des événements réellement significatifs.

II.3.2. Les modalités liées à la vue

II.3.2.1. Les langages écrits

II.3.2.1.1. La machine reçoit

Dispositifs physiques associés: Scanner, Papier Electronique, Clavier.

C'est la reconnaissance de l'écrit qui est ici mise en lumière. Cette partie ne comprend pas seulement la reconnaissance des caractères alphabétiques, cursifs ou non, liés ou non, mais aussi la reconnaissance et l'interprétation de dessins, schémas, de symboles (mathématiques, chimiques, etc...) ou de signes typographiques.

La première idée qui vient à l'esprit lorsque l'on parle de reconnaissance de l'écrit est idéale : reconnaissance de l'écriture cursive liée. Il est possible de procéder par étape pour atteindre cet idéal et s'intéresser à la reconnaissance d'un document imprimé (scanner et O.C.R. (Optic Character Recognition)) ou à la reconnaissance de l'écriture manuscrite non liée, caractère par caractère, minuscule ou majuscule, ou encore à la saisie sur clavier virtuel, complétées éventuellement par une analyse linguistique. En ce qui concerne l'écriture cursive liée, il faudra certainement attendre encore avant de trouver un système fiable de reconnaissance automatique (Annexes: X.2.3.).

Ainsi, cette modalité est, comme la parole, très adaptée pour donner des ordres à la machine, ou un complément d'information (des paramètres par exemple). L'entrée de données utiles au dialogue (couleurs, positions relatives) est aussi envisageable par cette modalité car il est possible de ne pas imposer une reconnaissance systématique des signaux reçus, et donc un vocabulaire, comme dans la parole, le système gardant en mémoire le graphisme sans le reconnaître.

Les problèmes diffèrent en fonction des média:

Le clavier demande un apprentissage.
La saisie de l'écriture manuscrite est 2 à 5 fois plus lente que la saisie au clavier pour entrer du texte [RHYN87].
L'emploi d'un scanner est une technique assez lourde et les meilleurs O.C.R. n'affichent encore que des taux de fiabilité de l'ordre de 95% en fonction de la qualité du document et du type de caractères.

Nous classons aussi dans les langages écrits les symboles, les schémas, les plans, les dessins, etc... En plus d'une reconnaissance par analogie, on peut être confronté à un langage visuel avec son vocabulaire et ses conventions qui ne sont pas autant formalisés que ceux des langues écrites. Ce genre de symbolique peut cependant se révéler très utile dans certaines circonstances:

Le fléchage d'un itinéraire sur un plan est certainement plus simple et naturel qu'une longue explication écrite ou parlée.
Actuellement, des produits utilisant des langages visuels sont développés pour l'aide à la programmation (Aïda Masaï ou Ilog Views d'Ilog, voir aussi [LECO95] et [WITT95]), à la compréhension de logiciels, etc...

Plutôt que des problèmes géométriques, ce sont surtout des problèmes associés à la signification des tracés qui apparaissent ici.

II.3.2.1.2. La machine émet

Dispositifs physiques associés: Ecran, Imprimante, Générateur Braille.

En plus de messages à l'écran ou des sorties d'un texte sur imprimante, il est possible d'avoir des réponses visuelles d'une nature différente, sachant que parfois un dessin vaut mieux qu'un long discours. Les « réflexes » qui seront présentés dans nos applications sont issus de cette réflexion, une analogie pouvant déjà être faite avec les effets sonores décrits au chapitre II.3.1.2.2. Ce même argument motive l'important développement des langages visuels (aide à la programmation, consultation de bases de données, etc...) [LARS86].

II.3.2.2. Le geste

II.3.2.2.1. La machine reçoit

Il faut, dans cette partie, distinguer deux styles de gestes: ceux en deux et ceux en trois dimensions. Dans les deux cas, le geste fait partie de la communication humaine. Un simple geste peut être l'équivalent de la frappe de nombreuses de touches (comme une macro); il permet la concision. De plus, les gestes sont souvent communs à un groupe de personnes ayant un même pôle d'intérêt. Ils sont donc très spécifiques et relativement non ambigus [CADO92], [RUBI90].

Le geste 2D: dispositifs physiques associés: Papier Electronique.

Le papier électronique va enregistrer la trace du geste et éventuellement sa vitesse. On pourra distinguer deux types de commandes gestuelles [MORR90]:

Les emblèmes: le geste a un sens particulier, capable d'être transformé en mots (exemple : flèches de déplacement de parties de texte pour un copier-coller).
Les illustrations: tout ce qui est désignation, emphase (exemple : souligner un mot).

Le geste est souvent associé à une autre source d'information (en général la langue naturelle, écrite ou parlée). Mais il n'en est pas toujours ainsi comme le montre ce traitement de textes développé par Microsoft sous Windows for pen, qui permet à l'utilisateur de barrer des mots, d'en insérer, etc...

Les partisans des interfaces gestuelles ont mis en avant un avantage, leur silence [RHYN87]. Le côté négatif vient certainement d'une non codification universelle du geste, ce qui génère des ambiguïtés (mais y a-t-il un codage universel pour quelque chose?).

Le geste 3D: dispositifs physiques associés: Gant Numérique, Caméra.

En ce qui concerne les avantages, on peut reprendre en bloc tous les arguments développés dans les gestes 2D, avec en plus la possibilité de récupérer des mimiques de l'utilisateur et sa position dans l'espace [FELS93].

On peut imaginer d'agiter la main pour dire "au revoir" à son ordinateur, afin qu'il s'éteigne en fin de journée [KURT90].

Pour donner ici un exemple de geste ambigu, il nous suffit de penser au geste que fait un américain pour montrer 2: il tend le pouce, l'index et le majeur, ce qui pour un français signifie 3...

II.3.2.2.2. La machine émet

Dispositifs physiques associés: ?.

L'émission de gestes par un poste de travail semble bien compromise. En fait cette partie implique une notion de mobilité qui n'est propre qu'aux êtres vivants ou aux robots. Si notre station de travail était un assistant robotisé auquel nous avons rêvé plus haut, nous pourrions nous attendre à ce qu'il nous fasse un geste pour nous saluer ou nous renseigner.

II.3.2.3. Les images

II.3.2.3.1. La machine reçoit

Dispositif physique associé: Caméra.

Toute une partie de l'analyse des images est très liée, elle aussi, à la robotique. Nous allons inclure dans cette partie tout ce qui concerne l'interprétation du monde 3D, appréciation de distances, etc... Il existe aussi les applications médicales, militaires ou géographiques. L'utilisation de ces techniques sur un poste de travail semble encore un peu utopique bien que l'on ait vu des caméras pour l'aide à la reconnaissance de la parole et que certaines soient spécifiquement conçues pour reconnaître des gestes du corps [ISHI93].

II.3.2.3.2. La machine émet

Dispositif physique associé: Ecran.

L'image que nous envoie l'ordinateur n'est souvent qu'une représentation métaphorique de son univers à travers des symboles du nôtre: les fichiers sont représentés par des icônes, la destruction d'un fichier se fait grâce à une poubelle, etc... Le sablier qui se met à tourner quand l'ordinateur « réfléchit » est pour nous une référence évidente à ce qu'il est en train de se passer. On rejoint par certaines métaphores le signifiant d'un langage, c'est ici que l'on risque d'avoir une collision avec les langages visuels évoqués dans la partie II.3.2.1 Les langages écrits: on peut considérer les icônes comme des signes d'une écriture machine.

II.4. Nos choix

Notre objectif est de construire une interface multimodale pour l'aide à la conception de documents graphiques. Parmi tous les matériels et toutes les façons de communiquer avec une machine que nous avons rencontrés, il nous a fallu faire un ou plusieurs choix. C'est ce que nous présenterons maintenant.

Nous avons décidé de nous intéresser tout particulièrement aux données écrites, dessinées ou plus généralement à celles issues d'un stylo (Figure 1). En effet, ce médium peut supporter plusieurs modalités: écriture, dessin et gestes. Dans le futur, les ordinateurs à stylo offriront des possibilités dans un environnement complexe qui ne seront pas disponibles sur les ordinateurs conventionnels. Déjà ils sont proposés comme front ends pour les langages visuels [CITR93] et sont intégrés dans des systèmes existants comme la synthèse d'image 3D, les bases de données multimedia [LARS86], ouvrant ainsi de grandes perspectives à l'interaction basée sur le stylo. Nous avons dit à plusieurs reprises que la parole était un élément essentiel de la communication humaine. Un microphone couplé à un reconnaisseur vocal est donc indispensable à notre système multimodal. Le clavier sera optionnel pour saisir des données textuelles. En sortie, nous utiliserons les très classiques écran et haut-parleur, à ceci près que l'écran correspond à la surface sensible du stylo et simule donc presque parfaitement le papier.

Nous avons donc basé nos applications sur des ordinateurs à stylo, nouveau type de matériels apparus à la fin de l'année 1990 sur le marché de la micro-informatique. Le Dynabook d'Alan Kay, conçu en 1968 dans les laboratoires de Rank Xerox [KAY90], est l'ancêtre de ces machines. L'avantage est que la surface sensible, sur laquelle l'utilisateur dessine, est aussi l'écran, d'où les noms de "papier électronique" ou "d'ardoise magique" que l'on rencontre pour désigner ces machines. Sans entrer dans les détails techniques (ce que nous faisons en Annexes: X.1. Les ordinateurs à stylo [CARR91], [ICHB92]) nous donnons ici la liste des machines sur lesquelles nous avons le plus travaillé, toutes compatibles IBM PC. Il faut dire que le fameux Newton d'Apple, très attendu à l'époque de notre choix, n'était toujours pas disponible.

GRIDPAD de GRID (abandonné) [GRID90]
NotePad 3130 de NCR (puissance limitée, grande surface de travail) [NCR91]
DTR-1 de DAUPHIN (petite surface de travail, puissant, bonne connectique) [DAUP94]

Nous utilisons ces ordinateurs à stylo sous MS-DOS ou sous Microsoft Windows, avec des extensions PEN fournies pour ces machines. Dans tous les cas nous avons utilisé la reconnaissance de l'écriture qui était à notre disposition (PenOS, Microsoft Windows for pen et CIC Windows for pen). Les systèmes de reconnaissance de dessins et de gestes ont été développés spécifiquement pour nos applications et sont décrits plus loin dans ce document.

Si on associe au médium microphone la modalité parole, on doit reconnaître cette dernière. Là aussi, nous avons eu l'occasion de tester et d'utiliser plusieurs produits dont nous parlons en annexe (X.2. Les matériels pour la multimodalité). Finalement, nous utilisons des solutions qui font intervenir des machines distantes afin de garder le maximum de ressources pour les processus de l'application locale, les coûts de traitement de la parole étant très élevés.

DATAVOX de VECSYS [VECS93] est une carte de reconnaissance pour P.C. dont nous récupérons les résultats via le port série sur un NotePad NCR (Figure 2).
CORONA est le système logiciel de reconnaissance vocale du SRI International, qui tourne sous UNIX sur SUN et dont on récupère les résultats par une liaison ethernet sur le DTR-1 de DAUPHIN (Figure 3).

Les maquettes sous MS-DOS on été développées en BORLAND C++. Sous Microsoft Windows nous avons utilisé BORLAND C++, Microsoft Visual BASIC et tout récemment DELPHI de BORLAND; ces deux derniers langages étant très pratiques pour le développement et le prototypage rapide d'applications.

II.5. Dialogue

Le dialogue repose sur des dispositifs d'entrées et de sortie qui, de par leurs spécificités techniques, vont influer sur le dialogue. Ainsi, on n'obtiendra pas les mêmes résultats en entrée avec des périphériques discrets ou continus, et en sortie avec une machine classique ou multimedia. De même, on utilisera des méthodes différentes pour mettre en oeuvre un dialogue Homme-Machine ou quand la machine sera au centre d'un dialogue multi-personnel (collecticiel, travail coopératif). Mais dans tous les cas, un des enjeux du dialogue est la réponse des systèmes en temps réel: on n'accepte guère de trop longs silences de la part de nos interlocuteurs, on l'accepte encore moins d'une machine.

La structure du dialogue parlé de tous les jours n'est pas aisée à cerner [PIER88], mais si on y ajoute une communication non-verbale [HOWE91], des disputes naissent quant à l'essence même du dialogue [FEYE87], [McNE85], [McNE87]. Sans entrer dans cette bataille de psychologues, il est évident que, dans le type de communication que nous avons choisi, les gestes ont une grande importance [EKMA69], [EKMA72], [WOLF87]. Prendre en compte cette partie du dialogue dans la communication Homme-Machine en plus du traitement de la langue naturelle [BINO90] améliore la qualité de l'interaction. Avec les moyens dont nous disposons, nous mettons donc en oeuvre des interfaces supportant un dialogue multimodal [HANN92], [WEIM92].

Bien qu'idéalement génériques, les interfaces que nous proposons s'appliquent à un domaine, la conception graphique, qui implique l'utilisation d'un stylo. Les modalités qui en découlent ne sont certainement pas adaptées à tous les types de communication, nous pensons en particulier aux applications devant fonctionner en situations d'urgence. Nous basons donc nos interfaces sur l'oral, l'écrit et les gestes.

II.5.1. Ergonomie

L'ergonomie étudie les caractéristiques anthropométriques et physiologiques des utilisateurs, leurs relation avec l'espace de travail et les paramètres de l'environnement. Il est des points intéressants que nous ne ferons qu'évoquer ici puisque se situant à un niveau assez général [BROW89]:

Arrangement des afficheurs et des contrôles.
Etude de la fatigue et de la santé.
Etude du mobilier et de l'éclairage.
Etude de la température, du bruit environnant.
Etudes pour les handicapés.

Nous nous focalisons pour notre part sur l'ergonomie des dialogues dans des applications multimodales. On développe pour ce type d'applications des interfaces anthropomorphiques [FALZ91], [SUTC88] qui permettent de choisir parmi les signaux de la communication humaine ceux qu'il sera possible d'exploiter au mieux dans la communication Homme-Machine.

Pour les utilisateurs déjà déformés par l'informatique, il n'y a pas de problème pour comprendre la signification d'un bouton ou d'un menu, pas de problème non plus pour rentrer dans un monde métaphorique. Mais si l'on veut que la machine soit utilisée par tous, plus comme un assistant que comme un outils, où l'utilisateur n'envoie pas seulement des commandes que la machine exécute (relation maître/esclave) mais où un vrai dialogue peut s'instaurer et des réflexions, de part et d'autre, être menées, alors il faut introduire dans le dialogue Homme/Machine des éléments de dialogue familier [BOY88]. La barrière Homme/Machine existera toujours, on ne parlera jamais à une machine comme à un être humain, mais on peut croire que pour des tâches bien précises il est possible de communiquer, de rapidement se faire comprendre et de collaborer avec une machine en utilisant les mots et les gestes de tous les jours, peut-être un peu simplifiés, comme on le fait avec de jeunes enfants. Cette dernière remarque permet de flatter notre ego et d'être bien certain que l'on reste supérieur à la machine.

Nous donnons maintenant quelques principes de base que nous avons utilisés ou sur lesquels nous avons réfléchi lors de l'élaboration de nos maquettes:

Dans le cas d'un dialogue comportant des gestes, il faut déterminer quels sont ceux qui sont les plus utilisés et quelles facilités ont les utilisateurs de se rappeler un geste plutôt qu'un autre.
L'utilisation de la parole, outre le bruit engendré, est source d'ambiguïté: le message parlé est-il destiné à l'application ou à une personne se trouvant dans l'environnement? Quand une personne entre en conversasion avec une autre au sein d'un groupe, elle se tourne vers elle, et ce signal visuel indique la personne cible. La solution préconisée par les contrôleurs aériens est la commutation d'un bouton lorsqu'ils communiquent avec un avion. Cette situation est la plus proche de la nôtre. Faut-il une interface à micro ouvert ou non? Une solution intermédiaire est actuellement envisagée. Le niveau sonore peut être discriminant, l'utilisateur chuchotant une commande destinée à la machine et parlant normalement à l'intention des autres interlocuteurs.
En ce qui concerne les sorties de messages textuels courts, souvent contextuels, il vaut peut-être mieux envisager la synthèse vocale, qui est souvent plus agréable, mais qui ne laisse pas de trace visible.

Il existe toutefois des écueils à éviter. Un trop grand nombre de possibilités pour les modes pourrait nuire à la convivialité d'une interface. Si l'utilisateur passe plus de temps à choisir son mode pour rentrer sa commande, qu'à rentrer la commande elle-même, la multimodalité devient un échec puisqu'elle pose un nouveau problème. De même en sortie, si la machine multiplie les modes et ne respecte pas certaines conventions, l'utilisateur sera vite perdu. Il faut donc travailler sur ces aspects de présentation.

L'observation de l'utilisation d'une application par un sujet novice montre qu'il passe par trois étapes: la période initiale de prise en main, la période d'amélioration des performances et une période de stagnation. Le développement d'interfaces anthropomorphiques vise à réduire les deux premières périodes afin d'arriver à la stagnation où l'utilisateur sait comment arriver à son but, même si ce n'est pas de façon efficace du point de vue de la machine. La création d'interfaces multifacettes, assez malléables pour s'adapter à l'utilisateur, est un concept à approfondir: en plus de l'adaptation facile de l'utilisateur à des moyens de communication familiers, l'interface a le moyen de s'adapter à l'utilisateur. Pour cela, la machine se construit un modèle de celui-ci qui évolue au cours de l'interaction, au fur et à mesure de ses progrès. Nous avons créé un prototype, Kohounix (Figure 4), construisant un modèle simple et évolutif de l'utilisateur d'un système Unix multimodal, Munix, développé par Pierre Lefèbvre [LEFE94]. Ce prototype met en jeux un réseau de neurones fournissant en temps réel et en permanence, à chaque interaction, le niveau d'expertise Unix probable de l'utilisateur [JULI93a].

II.5.2. Syntaxe multimodale des énoncés

Avec le problème de la syntaxe multimodale, vient le problème de la fusion des modalités: à quel niveau d'abstraction faire coopérer au mieux les informations issues des différents canaux de communication? Si des approches préconisent la fusion tardive pour gérer les ambiguïtés ou dater les événements, nous avons pour notre part choisi d'effectuer la fusion extrêmement tôt dans le processus d'interprétation.

II.5.2.1. Critères d'intégration

Un critère d'interaction définit les conditions pour fusionner les informations provenant de plusieurs modalités. Nous présentons ici ceux qui ont été identifiés lors des travaux de la communauté des Interfaces Homme-Machine [IHM92]:

La proximité temporelle: sert à mettre en correspondance des événements issus de modalités différentes mais produits en des instants très proches.
La complémentarité logique (ou structurelle) des événements permet dans certains cas de fusionner, au sein d'une même commande, des événements distants temporellement.
La complétude d'une structure de données d'intégration peut constituer une condition de passage entre niveaux d'abstraction.
Les contextes (historique et modèle de la tâche) de dialogue et l'historique d'interaction interviennent dans la résolution des coréférences, des anaphores, des ellipses et des deïctiques.
L'incompatibilité des modalités épargne au processus des tentatives d'intégration de modalités ne pouvant être utilisées simultanément.

II.5.2.2. Stratégies d'intégration

La stratégie d'intégration peut être précoce ou différée. Elle peut aussi être progressive et s'effectuer tout au long des différents niveaux d'abstraction fournis par l'architecture choisie. Dans la liste qui suit, nous donnons diverses stratégies et leurs argumentations:

Le modèle du creuset, présenté par Laurence Nigay [NIGA94] pour l'application MATIS, adopte une stratégie de fusion précoce selon les critères temps, complémentarité et contexte du dialogue. Ce choix implique de défaire parfois certaines fusions mais reste efficace dans le cas général.
L'intégration à base de règles, développée dans LIMSI-DRAW par Yacine Bellik et Daniel Teil [BELL95], propose une stratégie retardée. Séparée en deux fusions menées en parallèle (fusion locale et fusion globale) la production de l'énoncé ne sera faite qu'au niveau du contrôleur de dialogue. Les critères utilisés diffèrent en fonction de la fusion utilisée. On peut citer la complémentarité logique, la compatibilité des types et la proximité temporelle. Tous les événements arrivant au contrôleur de dialogue sont alors typés, datés et ont une forme commune.
Le modèle conceptuel de Jean-Claude Martin et Daniel Béroule [MART95] est le seul à proposer une intégration distribuée sur les niveaux d'abstraction consécutifs suivant un critère temporel. La fusion se fait au meilleur moment après l'activation d'un réseau connexionniste.

II.5.2.3. Notre approche

Nous avons déterminé une stratégie d'intégration qui n'est pas guidée par les modalités à fusionner, mais par les éléments à combiner pour créer une commande. Nous présentons donc le modèle VOV : Verbe Objet Variable, où la Variable peut être un Attribut ou un Lieu. Verbe et Variable sont singuliers dans ce triplet; Objet peut être pluriel. C'est en fait le modèle VO*V. Nous détaillons le processus dans la partie architecture (chapitre III.3. Architecture de TAPAGE). Toutefois, nous dirons ici qu'il s'agit bien d'un processus de fusion précoce où, dès réceptions des signaux, il y a tentative de combinaison sur des entités dépourvues de type au niveau de l'agent d'interprétation. Les critères d'intégration, même s'ils ne sont pas explicitement recherchés dans l'algorithme afin de gagner du temps, sont la proximité temporelle et la complétude structurelle.

Il n'y a pas dans cette approche de modalité dominante puisque très tôt dans le processus les entités servant à l'interprétation perdent leurs origines et leurs types. En revanche, s'il y a un élément dominant dans le modèle VO*V, c'est le verbe. D'où le problème d'extraction du verbe. S'il est inexistant au niveau du mode gestuel puisque la désignation d'un bouton ou la reconnaissance d'un geste de commande n'amène pas d'importants problèmes de reconnaissance, il est très présent au niveau du langage naturel. Nous avons adopté, en fonction des capacités du reconnaisseur de la parole, différentes méthodes pratiques:

Au SRI International, le système de reconnaissance de la parole Corona, couplé à un excellent analyseur syntaxique nous donne des résultats aussi sûrs qu'avec le stylo.
Avec le système DATAVOX de Vecsys, nous avons par contre eu recours à un subterfuge pour améliorer les chances de reconnaissance d'un verbe parmi le reste d'une phrase.

Détaillons les astuces qui nous permettent de transformer un système de reconnaissance de mots connectés en système de mots ciblés (word spotting) pour du langage naturel. Le vocabulaire de notre application est constitué d'une soixantaine de mots codés. Les synonymes Déplace et Bouge sont respectivement codés par m1 et m2. La machine en charge de la reconnaissance vocale communique avec l'ordinateur maître via le port série.

La première astuce consiste à créer un système d'étiquetage, le système de reconnaissance demandant des mots tous différents pour le vocabulaire. On code donc les synonymes avec une séquence commençant par la même lettre, lors de la reconnaissance, le code est envoyé sur le port série et l'application ne traite qu'un caractère à la réception. D'où le gain de temps de traitement (un seul octet mais aussi un seul test pour tous les synonymes).
La seconde astuce est de créer un code poubelle (« y. » en l'occurence) où l'on mettra tous les mots parasites (non commandes) mais qui reviennent souvent dans l'interaction . L'inconvénient de cette méthode survient lors de l'apprentissage, quand le mot « m1 » apparaît il faut dire « Déplace », et quand c'est « m2 », il faut dire « Bouge », ceci disparaitra avec la possibilité donnée à certains reconnaisseurs d'effectivement coder les mots reconnus.

On a vu que le modèle adopté dans nos applications est très simple. Il permet toutefois une grande souplesse dans le type de phrases de commandes acceptées. Il est en effet possible de donner les éléments pour former une commande valide dans un ordre indifférent. Ainsi, pour la fameuse commande « mets ça là », il est aussi possible de dire « ça, mets le ici » ou encore « ici, tu mets ça ». Dans les toutes premières versions de notre prototype, la structure était rigide, et n'acceptait que les commandes du type « VOV » dans cet ordre. Nous avons ensuite donné la possibilité de remplir chacune des cases du modèle dans un ordre indifférent, en attendant d'avoir une commande complète. Une fois placés, les éléments était immuables, seuls les objets étaient encore déselectionnables. Nous avons ensuite élaboré une version où le verbe pouvait être changé en cours de commande en écrasant le précédent. L'apport de la souplesse a aussi amené des problèmes de gestion de commandes incomplètes et de dialogue multifil: il est courant qu'un utilisateur abandonne une tâche pour en commencer une autre sans logique apparente.

Imaginons l'énoncé suivant: « mets ça... ça efface le » avec chaque « ça » accompagné de la désignation d'un objet où l'utilisateur change d'intention en cours de commande, abandonnant le déplacement d'un objet pour en effacer un autre qui doit le gêner. Quelle que soit la version implémentée de notre modèle, il est mis en défaut sur cet exemple. En effet dans le cas où l'on attend une commande complète, les deux objets seront déplacés après que la machine ait demandé à l'utilisateur l'endroit du déplacement, et dans le cas où c'est le dernier verbe qui écrase le précédent, il y aura effacement des deux objets sélectionnés. Si la version implémentée comporte la possibilité d'annuler la dernière action, en situation de création incrémentale ce genre de désagrément n'a que des effets limités, mais on doit avouer que notre modèle n'est pas capable de gérer ce genre de problème à la source.

C'est à partir de ces problèmes que nous avons réfléchi à la capacité informante des modalités en fonction des éléments à fournir et que nous avons décidé d'inciter, au cours de l'interaction, l'utilisateur à se servir d'une modalité plutôt que d'une autre (par l'utilisation de menus contextuels par exemple) et finalement de rigidifier un peu le dialogue. La capacité informante d'une modalité est le mélange de la rapidité et facilité d'utilisation de cette modalité, sa précision, sa concision (en terme d'économie dans le dialogue) et sa possibilité d'offrir des synonymes (Figure 5). Ainsi un lieu pointé est bien mieux perçu que sa description orale, mais pour les verbes la parole apporte la possibilité d'utiliser des synonymes.

Nous utilisons dans nos applications la mutlimodalité synergique, qui est considérée comme la plus performante parmis les différents types de multimodalités [COUT91], [BELL92]:

Multimodalité exclusive: pour ce type de multimodalité, une seule modalité est accessible excluant les autres et la production des différentes requêtes doit être séquentielle. Par exemple, l'utilisateur peut détruire un objet puis commander une action au système. La première action est réalisée à l'aide d'un geste au stylo. Puis la seconde est produite à la voix.
Multimodalité alternée: il s'agit ici de pouvoir produire des requêtes avec l'utilisation possible de plusieurs modalités l'une après l'autre. Donc, contrairement au mode précédent, il est possible de réaliser une requête en utilisant deux modalités mais alternativement. Citons par exemple, le cas où un utilisateur désire dupliquer un objet. La requête est tout d'abord prononcée vocalement: « copie », puis le système demande le lieu de copie qui sera fourni au sylo. Dans ce cas, la modalité vocale, puis la modalité gestuelle permettent de réaliser la requête.
Multimodalité synergique: dans ce type de multimodalité, il est possible d'utiliser plusieurs modalités dans une requête simultanément. Citons par exemple la requête suivante: « Déplace ça ici » dite oralement alors que l'utilisateur désigne en même temps avec le stylo le lieu de déplacement.

Il est un autre type de dialogue, dont nous n'avons pas encore parlé puisque nous ne l'utilisons pas dans nos applications, c'est le mode parallèle. Il permet à l'utilisateur d'établir avec la machine un vrai dialogue multifil. c'est à dire qu'il a la possibilité de lancer plusieurs commandes à la fois. On comprend que cette possibilité entraîne des problèmes énormes de gestion de dialogue et d'ambiguïtés. Même si nous pensons que l'utilisateur peut se perdre face à de telles interfaces, elles existent, ainsi le système VoiceFinder sur Macintosh permet par exemple de vider la corbeille et de sélectionner en même temps un fichier avec la souris. Dans ce genre de dialogue, nous trouvons différents types de multimodalité:

Multimodalité parallèle exclusive: plusieurs requêtes peuvent être réalisées en parallèle. Néanmoins, une requête ne peut être constituée que par une modalité, et à un instant donné, une seule modalité peut être active.
Multimodalité parallèle simultanée: il est possible ici de produire des requêtes en parallèle. De plus, l'usage des modalités peut être simultané.
Multimodalité parallèle alternée: à un instant donné, pendant la production de requêtes en parallèle, une seule modalité peut être accessible.
Multimodalité parallèle synergique: plusieurs requêtes peuvent être réalisées en parallèle et plusieurs modalités sont accessibles en même temps.

II.6. Présentation

Comme le faisait remarquer le philosophe José Ortega y Gasset dès 1925 dans un de ses essais, « La metáfora es sin duda una de la potencialidades más fructuosas del hombre. Su eficacia tiende hacia lo mágico y parece una herramienta de creación que Dios olvidó en Su criatura cuando la creó ». La puissance des métaphores se retrouve à bien des niveaux d'une application informatique. Nous allons les découvrir au niveau de l'interface, mais, comme nous le verrons plus loin, elles sont aussi présentes au niveau de l'architecture et des agents qui réalisent la structure même du noyau fonctionnel.

II.6.1. De la métaphore à la réalité virtuelle

Les pionniers de la métaphore du bureau sont, sans aucun doute, Xerox et Apple qui ont déversé sur nos écrans de d'ordinateurs des icônes en forme de poubelles ou d'imprimantes pour éveiller en nous quelques associations d'idées. L'évolution vers les interfaces virtuelles paraît toute naturelle surtout grâce aux moyens techniques dont nous disposons aujourd'hui, le degré de rendu de réalisme est en principe illimité (Figure 6a, b, c, d).

Nous présentons un exemple d'évolution d'une interface utilisant la métaphore du bureau (Figure 7a), à un environnement d'immersion dans la réalité virtuelle. Le Monde y paraît de plus en plus réel, mais le fait qu'il soit dessiné laisse comprendre à l'utilisateur qu'il faut y chercher des clefs. Le choix des objets pour les rendre métaphoriques est important. Nous avons constaté lors de démonstrations en France et aux Etats-Unis que l'horloge choisie dans nos applications (Figure 7 b, c et d) n'évoquait pratiquement jamais le calendrier chez les utilisateurs. Pourtant ce choix était expressément formulé par les clients coréens pour qui a été développée cette interface. La différence culturelle est un élément supplémentaire à prendre en compte lors du design d'une interface. Pour choisir un objet, il faut chercher l'idée qui émerge dès que l'utilisateur potentiel le voit, tout en pensant que le décor général peut changer la symbolique de cet objet en fournissant un contexte d'interprétation. Ainsi dans le musée (Figure 7 b), que vient faire le dossier? C'est un élément perturbateur, on ne voit pas ce qu'il fait là. D'où le choix des décors de bureaux. Lors de la création d'un décor, on a vu qu'un résumé de la réalité est souvent suffisant. Nous devons de plus garder à l'esprit que l'ajout de détails inopportuns rend plus difficile l'accès à l'information essentielle [BEST94].

On peut toutefois se demander pourquoi on essai de dupliquer la complexité du monde réel car malgré tout, nos copies ont toujours l'air fades à côté des vraies choses, il doit y manquer la vie. Les mondes virtuels devraient faire mieux, ils devraient stimuler notre imagination, plutôt que de répéter le Monde [HEIM93]. Un monde virtuel n'a pas besoin d'être trop réel, il doit même être un peu moins que réel, quelque chose comme un résumé qui stimule nos pouvoirs d'imagination et de visualisation. En poussant à l'extrême ce raisonnement, certains proposent des mondes virtuels très différents de la réalité mais qui doivent stimuler notre imagination. C'est le cas de la nouvelle interface 3D du système de fichier proposé par Xerox, qui, disons le, ne nous a guère convaincu.

On ne peut parler de réalité virtuelle sans penser à se projeter dans ce monde. L'évolution des matériels proposés va dans ce sens. Ainsi, l'étude du geste 3D a pris ces derniers temps une importance considérable avec le développement des mondes virtuels. Il y a en particulier des périphériques tout à fait intéressants qui ont été développés (X.2.5. Les périphériques exotiques) comme des gants numériques (l'ancêtre est le DataGlove), qui permettent de récupérer les gestes et la position de la main d'un utilisateur dans l'espace. Une extension de ce type de périphérique existe, elle se présente sous la forme d'une combinaison sensitive qui comporte des capteurs sur l'ensemble du corps. Le problème évident qui se pose avec de tels équipements est qu'il n'est pas trop agréable de les porter. Nous avons vu précédemment qu'il existe une autre façon de reconnaître des gestes 3D, évitant ces inconvénients, en utilisant une caméra braquée sur l'opérateur. Dans tous les cas la reconnaissance de gestes n'en est encore qu'à ses balbutiements. Si certains algorithmes permettent la reconnaissance des gestes "statiques" (exemple : reconnaître un chiffre à partir des positions des doigts de la main), l'apport de la dimension temps pose un très gros problème pour reconnaître les gestes dynamiques.

II.6.2. De la réalité virtuelle à la réalité augmentée

Les contraintes d'harnachement de la réalité virtuelle immergée (casque, gants ou combinaisons) n'empêchent pas de voir naître des projets d'espaces de travail virtuels assez convaincants. Ainsi celui, opérationnel, proposé par la NASA (Figure 8). Mais bien vite ces projets évoluent vers une immersion sans harnachement et propose un environnement de réalité augmentée.

Il en est ainsi de la proposition faite au Rank Xerox EuroParc [MACK93], qui n'est encore qu'une simulation mais toutes les compétences techniques requises à la réalisation de ce projet semblent réunies, et bureau de l'an 2010 rêvé par Bruce Tognazzini de chez Sun [TOGN94].

La définition officielle de la réalité augmentée, ou améliorée est la suivante: discipline qui consiste à superposer des objets virtuels aux objets réels afin d'ajouter une information supplémentaire utile pour la tâche considérée.

Nous irons plus loin en disant que la réalité augmentée est plus forte que la réalité virtuelle et que les métaphores à cause de ses capacités computationnelles transparentes. La réalité virtuelle est une métaphore augmentée, une métaphore de meilleure qualité, dans laquelle on peut se plonger. La réalité augmentée est une réalité virtuelle de meilleure qualité, aidée par la réalité.

On n'a pas besoin de rêver à la réalité augmentée comme Bruce Tognazzini, elle est déjà présente, ne serait ce que dans ses concepts dans des applications 2D (Figure 9), nous donnons ici un exemple pour chacune des deux idées que nous venons de dégager:

Dans les différentes versions de l'interface de PAVE (Pen And Voice Environment, notre environement générique, décrit en V.5. PAVE), il y a confusion entre les objets réels (les chars par exemple) et leurs représentations sur une carte mouvante dans laquelle il est possible naviguer. C'est la réalité (la position des chars repérée par GPS) qui donne à la représentation virtuelle sa dimension augmentée.
Dans l'application TAPAGE (Notre prototype multimodal pour l'édition de TAbleaux par la PArole et le GEste, V.2. TAPAGE) c'est la situation papier-stylo où l'utilisateur exprime rapidement ses idées sous forme visuelle qui est recrée. Les ordinateurs à stylo ouvrent de nouvelles perspectives pour les protocoles d'interaction utilisateur-machine. L'interaction directe au stylo évite l'apprentissage de langages ou de logiciels graphiques mais surtout libère l'utilisateur qui n'a plus à recourir à un outil d'expression intermédiaire qui rompt l'intégration naturelle de la gestuelle graphique et de la pensée. Le succès de ce type d'interaction implique que la saisie directe sur papier électronique soit augmentée de procédures de traitements qui interprètent la version encre, c'est-à-dire le brouillon produit au stylo, et reconstruisent une version « idéale » du document. La réalité de la production d'un dessin à l'aide du stylo est ici augmentée par des capacités computationnelles transparentes.

II.7. Conclusion

Lors de la conception de nos interfaces, après le choix des modalités et du matériel que nous allions utiliser, nous nous sommes intéressés à l'ergonomie des interfaces. Nous avons retiré de ses études divers éléments originaux que nous avons intégré à nos interfaces:

Possibilité d'agir sur l'environnement par diverses modalités, c'est-à-dire laisser le choix à l'utilisateur. Pour cela, nous avons utiliser des menus et des boutons « parlés », dont le titre peut être prononcé par l'utilisateur pour accéder à la commande.
Gestion multimodale de la cohérence du dialogue: si une commande est incomplète, l'application demande les éléments dont elle a besoin. La façon d'effectuer cette demande change en fonction de la modalité utilisée en entrée, ainsi, lorsque c'est un lieu qui fait défaut, « où dois-je mettre ca » est prononcé si la commande a été donnée vocalement, mais c'est une boite de dialogue contenant le même texte qui est affichée si l'interaction était uniquement gestuelle.
Définition de menus contextuels, les boutons ou menus accessibles changent en fonction du contexte de l'application. Une déclinaison de cette fonctionnalité a été implantée pour des fenêtres dites « pop-up »: si la commande « colorie ca » est incomplète et qu'il manque la couleur, c'est la fenêtre contenant la palette qui apparaît.
Réactivité des objets impliqués dans une commande: afin de fournir à tout moment l'état précis de l'application, nous avons défini des réflexes qui changent l'aspect de ces objets en cours de commande (mise en pointillés ou changement de couleur en fonction de l'application). Cette fonctionnalité s'inscrit dans un soucis général de fournir de bons feedbacks à l'utilisateur.
Réduction des ambiguïtés: en fonction des applications, nous proposons différentes façons de présenter les données. Ainsi dans TAPAGE, il y a une fenêtre pour chaque modalité attachée au stylo. Ce choix nous permet de réduire les ambiguïtés tant en entrée (il n'est pas la peine de faire tourner en parallèle les trois reconnaisseurs, dessins, gestes et écriture) qu'en sortie, ou l'utilisateur connaît le statut de chacune des fenêtres. Les inconvénients engendrés par ce choix sont bien minces puisque si l'utilisateur écrit par exemple dans la fenêtre de dessin, il aura immédiatement sur son écran le feedback lui montrant son erreur. Il aura alors le loisir, grâce à la facilité d'utilisation de l'interface incrémentale, de corriger son erreur, voire d'appeler la commande « défait » si celle-ci existe dans son application.

Tout au long de cette étude, nous avons aussi acquis la certitude que la communauté des interfaces doit s'intéresser de près aux jeux vidéos car il y fourmillent des tonnes d'idées qui peuvent être très utiles tant à la façon de présenter les données qu'aux modes d'interactions proposés.