VI. EVALUATIONS

_{Je suis plus sûr de mon jugement que de mes yeux...
Denis Diderot}

VI.1. Comment mener une évaluation

L'évaluation se fait à différents niveaux de la conception de l'interface. Idéalement, on devrait suivre les étapes suivantes:

Tests papier. On se met à la place de l'utilisateur: que voit-il? Que fait-il? Que doit-il connaître? On peut aussi utiliser le modèle de Norman qui propose de réfléchir sur les termes suivants: intention - sélection - action - perception - interprétention - évaluation [NORM86].
Expérimentation par prototypage, vérification d'hypothèses sur des maquettes. Il est possible de créer des maquettes avec des fonctionnalités limitées, des simulations, etc... Les prototypes peuvent évoluer cycliquement vers le produit final. Ce sont ces maquettes qui mettent en évidence des difficultés ou des erreurs ergonomiques (Figure 59) [MEIN91].
Tests de déverminage. Les bugs détectés sont corrigés.
Tests d'acceptabilité, enquêtes, interviews. Ils se font sur un échantillon significatif d'utilisateurs: on détermine leur temps de réponse, les durées d'accomplissement des tâches, les erreurs et leurs fréquences.

Certaines de ces méthodes sont coûteuses: elles doivent être adaptées aux objectifs du produit réalisé. Dans notre cas, nous nous sommes heurté à la complexité de l'analyse, la lourdeur des protocoles expérimentaux, le choix des échantillons d'expérimentation et le temps de dépouillement des résultats.

VI.1.1. Magiciens d'Oz

Nous avons eu la possibilité d'assister et de participer au projet d'évaluation de la multimodalité par Sharon Oviatt [OVIA94]. Pour mener à bien ses expériences, elle a réalisé une manipulation du type magicien d'Oz (Figure 60).

Les sujets sont mis en présence d'un système, qu'ils croient réel, où la majorité des actions sont en fait effectuées par un "magicien" caché. On filme tous les faits et gestes, toutes les réactions du sujet pour les commenter et les analyser ensuite. Au cours de l'interaction, le magicien peut introduire aléatoirement des petites erreurs de dialogue afin de modérer l'enthousiasme du sujet. A la fin de l'expérience, une entrevue est menée par le responsable de l'expérimentation afin d'obtenir encore des indications de l'utilisateur ou de déterminer si celui-ci s'est aperçu de la supercherie, et à quel moment. L'analyse des résultats est alors faite, les vidéos dépouillées, découpées en sections pour en faire ressortir les éléments intéressants (Figure 61).

Les résultats seront fournis par Sharon Oviatt au cours de l'année 1995, nous pouvons toutefois dévoiler que les première constatations abondaient dans le sens des observations faites à l'ICP Grenoble ou au LIMSI: la multimodalité voix-stylo est dominante dans le dialogue. Les résultats à l'ICP et au LIMSI ont été obtenus sur des écrans tactiles, matériels proches des ordinateurs à stylo puisqu'ils permettent eux aussi la manipulation directe d'objets à l'écran.

VI.1.2. Experimentations

De multiples expérimentations sont réalisées pour observer les sujets, sans forcément mettre en œuvre la technique coûteuse du Magicien d'Oz. Nous parlerons par exemple de l'expérience menée par Claudie Faure afin d'observer l'utilisation des interfaces faisant intervenir le stylo [FAUR95]. Un prototype, basé sur la première interface de TAPAGE, a été spécialement conçu pour cette évaluation. L'utilisateur, qui est filmé tout au long de l'expérience, se voit remettre des instructions décrivant la tâche et les interactions possibles. La tâche (déplacer des lignes) n'est pas le but pricipal de l'expérimentation, cependant le moyen d'y arriver a fourni des éléments très interessants quant au comportement des utilisateurs face à ce genre d'interface. Par exemple, même si le geste d'effacement n'est pas bien reconnu, le sujet va toujours persister dans l'utilisation de cette modalité alors qu'il a à sa disposition un menu pour effectuer cette action.

VI.2. Les évaluations réalisées

Nous avons envisagé plusieurs types d'évaluations. Certaines ont été menées jusqu'au bout, d'autres sont des propositions encore dans nos cartons que nous espérons pouvoir réaliser bientôt.

VI.2.1. Evaluations de TAPAGE

VI.2.1.1. Les protocoles

Deux protocoles ont été mis au point pour réaliser l'évaluation de TAPAGE. Une seule des deux expériences a été menées à son terme, la première.

VI.2.1.1.1. La première expérience

Nous donnons ici le texte qui était remis à chaque sujet avant le début de l'expérience.

Dans le test qui va suivre, vous avez à votre disposition un ordinateur avec lequel on ne peut communiquer qu'à l'aide d'un stylo. Le travail qui vous est demandé, est de recopier les sept tableaux de la page suivante, sans toutefois avoir à les remplir. Pour effectuer cette opération vous pouvez vous déplacer dans les menus proposés par l'application (en "appuyant" sur les boutons avec le stylo) et en particulier, utiliser les fonctions "Dessine" pour dessiner ou ajouter des traits, "Efface" pour en supprimer un ou encore "Mets" pour en déplacer, ces deux dernières fonctions se trouvant dans le sous-menu "Corrige". Lorsque vous êtes dans le sous-menu "Dessine", vous avez la possibilité d'appuyer à tout moment sur le bouton "Idéalise" afin de voir comment l'ordinateur a compris votre dessin. Les actions de correction ("Mets", "Efface", etc...) impliquent une sélection des objets, vous avez donc à votre disposition les différents types de sélection suivant :

           Pointages            Sélection partielle       Sélection multiple

Il faut remarquer que la sélection multiple est aussi possible par pointages successifs et que la désélection s'effectue par pointage. A cause des erreurs de parallaxe, un type de pointage étendu est disponible, il suffit de passer sur la ligne à sélectionner en faisant un petit trait.

Pour commencer un nouveau tableau, il suffit d'appuyer sur le bouton "Sors" du menu principal puis le bouton "Nouveau".

Pendant toute la durée de l'expérience, toutes vos paroles seront enregistrées. Nous vous demandons donc de dire ce que vous faîtes, pensez ou de décrire ce qu'il se passe sur votre écran durant la session de travail.

Voici les sept tableaux à recopier :

Tableau 1 Tableau 2 Tableau 3 Tableau 4 Tableau 5 Tableau 6 Tableau 7

VI.2.1.1.2. La seconde expérience

Si l'évaluation des performances du logiciel doit être faite sur l'ensemble de celui-ci, on peut toutefois considérer chacun de ses modules pour y cerner les problèmes rencontrés lors d'une session normale de travail.

Des tests de fiabilité de la parole, avec détermination des taux de reconnaissance peuvent être menés. Nous aurions pu utiliser les résultats fournis par le constructeur de la carte, mais aucun pourcentage n'est disponible. En conséquence, nous proposons notre propre évaluation du reconnaisseur de parole en deux parties:

Prononciation de 5 ou 6 mots du vocabulaire de l'application en mots isolés par N individus. Ceci doit nous donner un pourcentage de réussite. Le problème est que le système utilisé est monolocuteur: il faut donc, avant chaque test, faire un apprentissage pour chaque sujet. Cet apprentissage peut être long (à peu près une heure pour un vocabulaire de plus de 60 mots comme celui de TAPAGE).

Prononciation de phrases entières dans lesquelles on trouve des commandes de TAPAGE. Pour cela, on récupère des phrases qui ont été prononcées lors des utilisations de TAPAGE et on demande juste au sujet de les lire. On extrait alors un pourcentage de reconnaissance des commandes de l'application. On profitera de l'apprentissage précédent; les sujets seront les mêmes que précédemment.

De ces tests, nous pourrons tirer un chiffre qui sera le reflet de la fiabilité du système de reconnaissance de la parole dans nos conditions d'utilisation. Toutefois, nous devrons considérer le biais introduit par le faible vocabulaire utilisé. Le problème étant celui des mots semblables, l'introduction de deux mots semblables dans le vocabulaire des 5 ou 6 mots pourrait sans doute réduire ce biais. Il faudrait, dans un premier temps, déterminer ces mots semblables en repérant ceux qui sont le plus souvent confondus.

Comme pour la parole, nous aurions dû bénéficier de pourcentages de réussite pour le reconnaisseur d'écriture. Ce n'est pourtant pas le cas et les seuls chiffres dont nous disposons paraîssent très fantaisistes (99% de succès annoncé dans la presse spécialisée). Nous proposons donc ces trois petits tests pour avoir une idée de la qualité de nos reconnaisseurs: pour chaque expérience nous mesurons le temps et le pourcentage de réussite:

Dans une grande fenêtre, on cache le retour du système de reconnaissance. La personne testée doit écrire 5 mots ou phrases avec des blancs, des tirets, etc...
Dans la même fenêtre, la même personne effectue la même chose avec le retour du reconnaisseur visible.
Enfin, toujours la même chose, mais avec en plus la possibilité de corriger: on lui apprend rapidement les fonctions d'édition.

Nous attendons de cette petite expérience des pourcentages nets de succès mais aussi de voir comment l'utilisateur est influencé par le retour et s'il perd beaucoup de temps dans les corrections ou à attendre les interprétations (entre chaque mot? chaque lettre?).

Enfin, afin de tester les modules propres à l'application, nous avons développé une version étendue de TAPAGE, qui est spécifiquement dédiée aux tests. Dans cette version, le module de remise en forme des tableaux fournit les résultats de chaque opération élémentaire le constituant. Cette progression pas à pas dans les entrailles de TAPAGE permet au superviseur de repérer les erreurs à leur source.

Nous décidons d'effectuer la même batterie de tests sur les trois types d'utilisateurs suivants :

Totalement novices, ne connaissant rien à TAPAGE.
Ayant reçu une documentation du logiciel.
Ayant assisté à une démonstration de TAPAGE.

Leur tâche consistera à réaliser les créations ou modifications concernant les trois tableaux suivants :

Recopier ce tableau
Créer un tableau permettant d'avoir les nom, prénom, numéros de téléphone au bureau et personnel de 5 personnes.
Modifier le tableau dessiné à l'écran sur écran, pour parvenir à un modèle donné.

Les résultats de ces évaluations nous permettront certainement d'apporter de petites modifications au module de remise en forme (changement des seuils par exemple). Pour ce qui concerne la phase de correction, cette évaluation va nous permettre d'étudier le comportement des utilisateurs dans cette phase, de plus le superviseur extraira de l'expérience leurs desiderata.

VI.2.1.1.3. D'autres idées

Un petit test amusant est venu compléter cette évaluation. Nous avons demandé à 3 novices de créer la structure du plus simple des 7 tableaux demandés sur un tableur très populaire et très répandu sur le marché (Excel de Microsoft). Malgré la souplesse du logiciel, aucun n'a réussi à construire ce tableau... Citer [APTE93a].

VI.2.1.2. Les résultats

Nous donnons donc les résultats de la première évaluation, portant sur la recopie de 7 tableaux à structures plus ou moins complexes. Nous avons réuni 7 utilisateurs (on trouvera en Annexes: X.3. Les détails de l'évaluation). Le module de reconnaissance de parole demandant un long apprentissage, nous avons préféré nous passer de cette fonctionnalité pour, dans un premier temps, tester préferentiellement le module de remise en forme et des éléments de l'interface : les retours visuels, les commandes gestuelles, l'utilisation des menus et les opérations de correction. En revanche, il a été demandé aux usagers de commenter leurs faits et gestes et les réactions de TAPAGE. Ceci afin de les enregistrer pour une étude ultérieure de la bande, mais aussi pour juger de la facilité pour un utilisateur à parler seul devant une machine pendant son travail. Pour chacun des tableaux, l'utilisateur était chronométré, dans chacune des phases de la conception incrémentale : production (dessin) et correction.

Les erreurs constatées dans les tableaux, amenant l'utilisateur à se servir du module correction, sont dues à la mauvaise recopie du tableau modèle par l'utilisateur, à la mauvaise qualité de la production : l'intention du dessinateur n'est pas clairement exprimée par le dessin, ou à des erreurs d'interprétation par le système. Lors de la création, les novices se servent beaucoup de l'option d'idéalisation qui leur est fournie afin de voir (pratiquement à chaque trait, s'ils le veulent) ce que l'ordinateur a compris. On constate que lorsque l'utilisateur est entraîné dans une spirale d'erreurs d'interprétation, ce qui arrive quand les traits sont trop proches par exemple, il finit par abandonner la conception du tableau pour recommencer totalement, pas forcément en utilisant la commande "nouveau", mais aussi en sélectionnant tous les traits et en les effaçant. Il commence alors son nouveau tableau en parlant de "stratégie" pour s'adapter aux comportements de l'outil. Lors de la correction, nous avons remarqué l'utilisation très personnelle de certaines fonctions : le "mets ça là" se voit par exemple décomposé en une sélection d'objet, la commande "mets" et le retraçage du trait à déplacer à l'endroit choisi. Ceci n'avait pas été prévu dans le protocole, mais le fait de retracer le trait fournit la position et l'effet voulu est obtenu. Lors de cette même correction, nous avons constaté de gros problèmes de parallaxe pour la sélection des traits. Certains utilisateurs ont envie de parler afin de parvenir plus rapidement au but, d'autres ne disent pas un mot malgré nos recommandations en début de session.

Nous donnons dans le tableau ci-dessous les grandes lignes des résultats obtenus :

            Création     Création   Correction   Correction    Abandons   
              Min.         Max.        Min.         Max.                  

 Tableau       8"          25"          0"          25"           0       
    1                                                                     

 Tableau      12"          42"          0"          22"           0       
    2                                                                     

 Tableau      26"         1'08"         0"          30"           1       
    3                                                                     

 Tableau      20"         1'15"         0"         1'00"          2       
    4                                                                     

 Tableau      15"         1'00"         0"         1'00"          0       
    5                                                                     

 Tableau      22"         1'16"         0"         1'00"          1       
    6                                                                     

 Tableau      36"         1'59"         0"         3'25"          0       
    7

La longue correction constatée au tableau 7 provient d'une grosse erreur de structure du créateur du tableau dès le départ, la modification a été réussie après de longs moments de comparaisons entre le modèle papier et la version fournie par TAPAGE : il n'est pas facile de recopier un tableau (erreurs classiques des poteaux et des intervalles...). Hormis cette exception, le temps moyen de recopie d'un tableau se situe à moins d'une minute : 57" exactement sur l'ensemble des tests. Enfin, on constate que le module de correction n'a été utilisé qu'a 15 reprises.

Dans diverses autres petites expériences informelles et dans une ébauche de la seconde, voilà ce que nous avons constaté.

Nous présentons tout d'abord un exemple de tableau recopié, et rempli (Figures 62a et 62b) et un tableau créé à partir de sa description (Figures 63a et 63b).

En fonction des modules, nous constatons que les erreurs d'interprétation proviennent toujours du même type de comportement.

Module REMISE en FORME:
- Tracés multiples du même trait (aller-retour).
- Diagonales.
- Coins trop "arrondis".
Module ECRITURE:
- Pas de sélection de la case cible ou oubli d'ouverture d'une fenêtre d'édition (clavier ou écriture) dans la version DOS de TAPAGE.

VI.2.2. Evaluation de DERAPAGE

VI.2.2.1. Le protocole

L'évaluation que nous avons mené dans le cadre du projet DERAPAGE ne vise pas à donner un résultat sur la multimodalité comme dans TAPAGE mais à quantifier la qualité de l 'algorithme de reconnaissance. Ainsi, nous avons créé un outil spécifique à cette évaluation: EVAL (Figure 64). Ce programme invite l'utilisateur à dessiner une figure choisie aléatoirement parmi les cinq présentes dans DERAPAGE (cercle, carré, rectangle, triangle ou losange) et ceci à 20 reprises. Ces figures sont choisies aléatoirement par EVAL. La distinction faite entre rectangle et carré nous permettra de quantifier la différence qu'impose l'utilisateur lors de la production de ces figures. Pour éviter les éléments pertubateurs de l'interface, la voix est utilisée par EVAL pour piloter l'interaction. Les instructions sont données à chaque étape d'une façon claire. A la fin de l'expérience, les résultats sont fournis par figure et globalement.

VI.2.2.2. Les résultats

Pour chaque utilisateur, une fois les vingt figures dessinées, un tableau détaillé des résultats apparaît (Figure 65). En plus du taux global de reconnaissance, ce tableau donne le taux de succès pour chaque type de figure, ce qui permettra de focaliser les recherches sur une des figures s'il s'avère qu'un type est particulièrement défaillant.

Nous donnons ici les résultats en pourcentage obtenus par 20 utilisateurs à qui on avait demandé de considérer l'ordinateur à stylo comme une feuille de papier:

         Rectangles    Losanges    Triangles     Cercles       TOTAL     

1           100          100           85          100           95      

2           100          100          100          100          100      

3           100           33           66           75           75      

4           100           66          100          100           95      

5            83          100           70          100           80      

6           100          100          100          100          100      

7            66          100           20          100           75      

8           100          100          100          100          100      

9           100          100           62          100           84      

10          100           85          100           66           85      

11           80          100          100           90           90      

12          100           80          100           75           90      

13           71          100           66          100           85      

14          100           75           66          100           85      

15          100           66           85           75           85      

16          100          100          100          100          100      

17          100          100          100          100          100      

18          100           66          100          100           95      

19          100           25           66           66           70      

20          100           66          100          100           95      

TOTAL        95          83,1         84,3         92,4         89,2

Le taux global de reconnaissance est de près de 90%, ce qui, dans un système interactif en temps réel de ce type semble suffisant, l'utilisateur n'ayant que rarement plus de cinq ou six figures à réaliser. Nous utiliserons toutefois ces résultats pour tenter d'améliorer la reconnaissance des losanges et des triangles. Nous constatons que ce sont les figures comportant des diagonales qui posent problème.

VI.3. Des perspectives pour l'évaluation

Tous les types d'expériences sont bons pour faire avancer la recherche sur le comportement de l'homme face à la machine. Nous pensons toutefois que l'utilisation de maquettes, qui sont de « vrais systèmes », est une bonne chose, car ils permettent d'éviter des biais que l'expérience simulée peuvent engendrer à l'insu de l'expérimentateur.