L'Alchimiste - David Teniers, le jeune
Je ne sais ce que c'est que vouloir sans faire... Alain
Tout au long de notre étude, afin de donner à celle-ci des bases de réflexions nouvelles et fondées, nous nous sommes attachés à réaliser des prototypes d'interfaces multimodales. Ces prototypes sont construits à partir des solutions ou des modèles que nous avons préférés parmi celles et ceux que nous avons rencontrés ou élaborés au cours de nos recherches. Ils tentent d'approcher le produit final du mieux possible sans implémenter vraiment le produit. Parfois le prototype parait si réel qu'il bluffe les spectateurs... et même les créateurs!
Nous décrirons donc ci-dessous cinq réalisations, toutes basées sur un ordinateur à stylo augmenté d'un système de reconnaissance de la parole, en respectant l'ordre chronologique de leurs créations. Tout d'abord TAPAGE, un éditeur de tableaux par la parole et le geste. Puis DERAPAGE qui se veut une généralisation du précédent à des dessins géométriques. La troisième description sera plus succincte puisque nous ne sommes responsables que de la seule interface du programme O.A.A. (Open Agent Architecture) qui s'inscrit dans un projet beaucoup plus vaste que nous avons eu l'occasion de décrire par ailleurs. Nous découvrirons ensuite le dernier né des prototypes monoutilisateur, PAVE (Pen And Voice Environment), grâce auquel nous tentons de montrer la généricité des interfaces voix et stylo. Enfin nous montrerons les premiers développements d'une version collaborative de PAVE.
TAPAGE est un éditeur de tableaux. L'utilisateur dessine à l'aide d'un stylo un tableau brouillon sur la surface de dessin. Le tableau est remis en forme dans un temps n'excédant pas la seconde. L'utilisateur a alors la possibilité de corriger les erreurs dans le tableau, qu'elles soient dues à l'interprétation, à l'utilisateur ou à un changement de l'intention de ce dernier. Ces corrections peuvent se faire à l'aide de gestes, par des commandes vocales ou par une combinaison synergique de ces deux modalités. TAPAGE présente donc une interface multimodale en entrée, mais aussi en sortie puisque l'utilisateur peut être interpelé par différentes modalités. Le remplissage du tableau est possible en écrivant ou en parlant directement dans les cellules. Enfin, pour montrer l'intégration aisée de TAPAGE au monde existant de la bureautique, l'utilisateur peut, une fois son tableau fini, l'envoyer dans un tableur pour bénéficier de fonctions d'édition plus performantes.
Deux versions de TAPAGE ont vu le jour. La première sous MS-DOS, la seconde sous Microsoft Windows. Nous donnons ici pour chacune des versions les solutions et les résultats obtenus.
DOS
Nous avons développé un environnement de type WIMP (Windows, Icons, Menus and Pointer) spécifique à notre application (Figure 50).
Microsoft Windows
Nous avons utilisé l'environnement fourni par Windows qui rend aisé la définition d'agrandissements/rétrécissements des images et les déplacements sur l'aire de dessin par des barres de défilement. Ceci permet d'avoir une surface de dessin virtuelle beaucoup plus grande. Le multifenêtrage est un plus, ce qui facilite les choix contextuels que l'utilisateur est amené à faire (Figure 51 - Vidéo).
Plate-forme matérielle: NCR/DATAVOX.
Utilisateur: Dessine un tableau dans la seule fenêtre accessible, dite de dessin, puis prononce «Idéalise»
Machine: Ouvre la fenêtre de correction et y dessine le tableau reconnu en moins d'une seconde.
U: Sélectionne un groupe de lignes en les entourant d'un geste dans le fenêtre de correction (l'encre est rouge).
M: Fournit un retour visuel à l'utilisateur en mettant les objets sélectionnés en pointillés lors de l'effacement de l'encre rouge.
U: Dit «Efface ces objets».
M: Efface les objets sélectionnés en mettant à jour la structure entière du tableau si besoin est.
U: Dessine une nouvelle ligne dans la fenêtre de dessin (encre noire). Puis revient dans la fenêtre de correction.
M: A mis à jour le dessin en y ajoutant la ligne nouvellement dessinée.
U: Dit «Déplace ça» en désignant une ligne.
M: Enfonce le bouton «Mets», redessine la ligne en pointillés et attend. Au bout de 3 secondes, elle dit: «Où dois-je mettre ça?» en affichant le même message à l'écran (suivant les versions il est possible de voir alors la machine se comporter différemment. Il est possible de n'avoir que le message écrit si l'ordre a été donné par le stylo ou que le message parlé si l'ordre a été vocal).
U: Désigne une destination.
M: Désenfonce le bouton «Mets» et effectue les changements demandés.
U: Dessine une flèche à partir de l'un des traits.
M: Déplace ce trait après avoir d'une façon pratiquement imperceptible mis le trait en pointillés, enfoncé le bouton «Mets» et désenfoncé ce même bouton.
U: Dit «Ecris».
M: Ferme toutes les fenêtres pour ouvrir la fenêtre écriture où le tableau est dessiné.
U: Ecrit dans une case.
M: Remplace l'écriture manuscrite par ce que le reconnaisseur a compris. En fonction de la version du reconnaisseur utilisée, la fin de saisie est explicitement signalée (PenOS) ou la reconnaissance se fait au fur et a mesure (Windows).
U: Appuie sur le bouton «Excel».
M: Ouvre le célèbre tableur et y envoie les données du tableau et sa structure à l'aide de macros.
FIN.
L'interface de DERAPAGE a exactement les même possibilités que celle de TAPAGE. Cette identité a permis de montrer qu'il était facile de porter cette interface sur des noyaux fonctionnels différents. DERAPAGE est conçu pour reconnaître des dessins et des diagrammes en réseaux avec les figures suivantes: cercles, ellipses, carrés, rectangles, triangles.
Seule la version de l'interface la plus élaborée, sous Windows, a été portée (Figure 52)
O.A.A. est une architecture logicielle à base d'agents (Chapitre III.2.2.2). Par extension et par abus, nous avons donné son nom à l'application utilisant cette architecture. Le nom correct devrait être "Secrétaire Electronique". En effet, l'objectif de cette application est de fournir à un cadre d'entreprise sur un ordinateur portable tous les renseignements et les services dont il peut avoir besoin. La portabilité et la somme d'informations devant être disponibles impliquent l'intégration de techniques de communication sans fil. Le choix d'un PDA (Personal Digital Assistant) doué de reconnaissance de la parole a été fait pour améliorer l'interaction. Les services accessibles depuis cette station de travail portable et intelligente sont aussi variés que le courrier électronique, la consultation de bases de données ou encore l'envoi de messages téléphoniques. L'interface doit prévoir d'accueillir de nouveaux services, l'architecture à base d'agents n'étant pas figée. Ecrite en Visual Basic, cette interface a, comme nous l'avons dit précédemment, connu de nombreux changements avant de prendre la forme d'une pièce pour projeter l'utilisateur dans un monde qu'il connaît (Figure 53 - Vidéo).
Plate-forme matérielle: DAUPHIN/NUANCE.
Utilisateur: Se connecte en tant que Luc Julia
Machine: Affiche dans une zone appelée bulletin board les informations relatives à l'utilisateur et déclare être prête (Figure 53).
U: Demande à consulter son agenda en appuyant son stylo sur l'horloge du décor.
M: Ouvre une représentation du CalendTool Unix qui fournit les informations demandées.
U: Ecrit dans la case correspondante un rendez-vous (de 14h à 14h30 dans la salle de réunion). Celui-ci se prolongeant, il fait glisser le texte qui vient d'être reconnu dans la case suivante. Puis ferme le calendrier.
M: Reconnaît l'écriture et stocke les informations aux heures désignées. Puis reste en attente d'un nouvel ordre.
U: Appuie sur le microphone et dit «Si je reçois un message sur la sécurité pendant mon absence, fais le moi parvenir par téléphone».
M: Reconnaît la parole, installe une gâchette sur l'agent mail qui devra se déclencher dès que le mot sécurité sera repéré dans les messages qui vont arriver.
U: Ouvre l'agent de communication en appuyant sur le téléphone du décor. Sélectionne l'option «par mail» et écrit Adam Cheyer dans l'emplacement réservé au destinataire du message. Appuie sur le microphone et dit «Adam, je serai dans 20 minutes dans la salle de réunion». Envoie le message.
M: Reconnaît la parole, envoie le texte reconnu à l'agent mail qui envoie le mail à cheyer@ai.sri.com, l'adresse qu'a renvoyée l'agent base de données pour le nom Adam Cheyer.
U: Se déconnecte.
(Nous sommes maintenant dans la salle de réunion, il est 14h36)
M: Reçoit un mail pour julia@ai.sri.com concernant la sécurité. La gâchette sur l'agent mail se déclenche. L'agent TTS (Text To Speech) traduit le texte en un fichier audio. L'agent calendrier localise Luc Julia en salle de réunion. L'agent base de données fournit le numéro de téléphone de la salle de réunion. L'agent téléphone compose le numéro.
(Le téléphone sonne, quelqu'un décroche, une voix synthétique demande Luc Julia, il compose son mot de passe sur le clavier téléphonique)
M: Vérifie si le mot de passe correspond avec celui récupéré par l'agent base de données. Si c'est le cas, il joue le fichier audio du message concernant la sécurité.
FIN.
PAVE est une interface générique pour des systèmes de navigation supportant la voix et le stylo. L'architecture utilisée est MMAAR. Nous avons défini plusieurs applications à vocation mobile pour démontrer son efficacité et son adaptabilité. Les tâches abordées sont donc multiples mais ont toutes un point commun, la navigation sur une carte géographique donnée. L'utilisateur se projette dans ce monde pour agir sur les éléments présents, les manipuler ou les observer. Nous présentons ici trois applications, une de recherche d'appartements, une militaire et une de tourisme.
Cette application immobilière (Figures 54a , 54b - Vidéo) est née alors que nous assistions aux expériences de magicien d'Oz menées par Sharon Oviatt au SRI International. Nous avons réalisé que nous étions capables de simuler les réactions du magicien par un vrai système et donc de remplacer l'ensemble du dispositif de simulation par un vrai système interactif... L'application choisie par Sharon Oviatt était bien sûr idéale pour observer les réactions des utilisateurs face à un système voix et stylo. L'utilisateur est mis en présence d'une carte de Nevada City, plus grande que l'écran, où il peut se déplacer et qu'il peut interroger en écrivant dessus ou en parlant à la machine. Le but est de rechercher parmi les maisons disponibles à Nevada City celle qui correspond le mieux aux désirs de l'utilisateur. Une base de données des maisons mais aussi des informations sur la ville sont accessibles. Les requêtes du type «Montre moi toutes les maisons de plus de 3 chambres qui sont à moins d'un kilomètre de l'hôpital» sont possibles et toutes les contraintes données par l'utilisateur viendront s'ajouter pour trouver la maison idéale.
Dans la simulation militaire ci-dessous (Figure 55), chaque bataillon est équipé d'un système GPS qui envoie ses données à un agent qui informe l'application des positions courantes en temps réel. Le possesseur du terminal centralisateur, le commandant en chef du dispositif, a la possibilité d'avoir des informations textuelles ou visuelles en provenance de chacune de ses unités.
Des caméras embarquées, délivrant leurs données via une autoroute de l'information, permettent d'obtenir des images du champs de bataille. Il a la possibilité de passer des ordres à ses subordonnés par la voix: «Bataillon 3, faites route vers l'Est». Ou par geste en faisant une flèche vers l'Est sur le bataillon concerné. Les ordres étant interprétés, ils sont fournis par un moyen disponible à l'autre bout de la chaîne.
La troisième application que nous proposons est une visite de San Francisco. Semblable au démonstrateur «Multimedia Travel Agency» développée par CAP GEMINI SOGETI qui permet de découvrir Paris (Figure 56).
Ce prototype est basé sur une carte (Figure 57 - Vidéo) où l'utilisateur peut se promener dans la ville et choisir des éléments dynamiques [CHEY95]. Ces choix peuvent donner lieu à l'affichage d'une image, le visionnage d'un film sur les attractions locales ou encore une connexion automatique à Mosaic pour avoir des programmes de cinéma ou réserver une chambre d'hôtel par exemple. Les bases de données distantes connectées peuvent contenir une multitude d'informations car elles ne sont pas figées.
Ces trois dernières applications ont une même base matérielle et logicielle:
Dans ces applications, la discrimination des données produites par le stylo est faite automatiquement et non par choix d'un contexte. Ceci est réalisable par la mise en compétition des deux algorithmes de reconnaissance lors d'une production écrite.
Cette application est en cours de réalisation et n'est pas encore fonctionnelle. Son but est de faire partager le même document, par exemple une carte, à plusieurs utilisateurs. Ils vont pouvoir travailler dessus, d'une manière collaborative. On étend ici la notion d'agents à des agents humains distants qui travaillent sur le même document, sur le même contexte. Il y aura ainsi partage d'un ou plusieurs documents entre les utilisateurs. Les agents informatiques ayant le même rôle d'assistants que dans la version monoutilisateur. Une originalité de ce projet est qu'il est multilangue. Il sera possible de travailler indifféremment en anglais ou en japonais, ce qui implique aussi qu'il peut y avoir collaboration entre deux individus parlant des langues différentes.
La différence essentielle avec PAVE (Figure 58), au niveau de l'interface, est la possibilité d'avoir plusieurs documents accessibles facilement. Nous rejoignons ainsi la philosophie multivue, en fonction du contexte, qui avait été adoptée dans TAPAGE.
Un des objectifs de ce nouveau démonstrateur est d'améliorer la qualité du dialogue en guidant plus, grâce à des pictogrammes, l'utilisateur. Souvent celui-ci ne sait pas ce qu'il peut faire ou dire face à son application. Les nouveaux boutons proposés, qui changent en fonction du contexte, doivent aider l'utilisateur à comprendre ce qu'il peut demander.
Nous avons créé des écrans, des animations, des démonstrations interactives qui montrent comment le produit devraient se comporter devant un utilisateur. Mais aussi des prototypes assez élaborés pour permettre à de vrais utilisateurs de les utiliser. Ceci nous a permis d'étudier leurs comportements face à de tels systèmes. C'est une partie de l'évaluation.
![]() |
![]() |