Méthodes pour évaluer l’utilisabilité d’un site Web : les échelles d’utilisabilité
Alors que toute la population est désormais hyperconnectée, l’expérience utilisateur (UX Design) est essentielle. L’évaluation de l’utilisabilité de votre site Web n’est donc pas une option, mais bien une nécessité. Toutefois, les professionnels peuvent rencontrer des difficultés lors du choix des méthodes et outils nécessaires pour réaliser ces évaluations de manière efficace. Entre méthodes d’inspection, tests utilisateurs et questionnaires de satisfaction, il est effectivement crucial de savoir quand et comment les utiliser.
Dans cet article, nous allons nous pencher sur l’importance des échelles d’utilisabilité, comme le System Usability Scale (SUS), pour offrir une dimension quantitative à vos analyses. Nous aborderons aussi les différentes méthodes disponibles, l’adaptation des outils en fonction de vos cibles, et l’intégration de ces échelles tout au long du cycle de conception de votre site Web.
Les méthodes pour évaluer l’utilisabilité et l’expérience utilisateur d’une interface
Selon la norme ISO 9241-11 (2018), l’utilisabilité est la capacité d’une interface à être facilement utilisée par une personne pour réaliser une tâche définie. De son côté, l’expérience utilisateur est un concept plus large, puisqu’elle représente la qualité du vécu de l’utilisateur dans des environnements numériques ou physiques. L’utilisabilité représente donc, en quelque sorte, l’aspect pragmatique de l’expérience utilisateur.
Pour évaluer l’utilisabilité ou l’expérience utilisateur des sites Web et applications, vous pouvez utiliser trois grands types de méthodes :
- les méthodes d’inspection ;
- les tests utilisateurs ;
- les questionnaires de satisfaction.
Dans la littérature scientifique, on distingue deux approches : l’approche analytique et l’approche empirique.
D’une part, l’approche analytique regroupe les méthodes d’inspection qui évaluent les caractéristiques du système. Les interfaces sont ici étudiées selon un ensemble de règles, recommandations et principes, afin de contrôler leur conformité à certains critères et de détecter les problèmes qu’elles peuvent poser. Il peut s’agir par exemple d’un audit ergonomique.
D’autre part, l’approche empirique englobe les tests utilisateurs et les questionnaires de satisfaction. Les évaluations empiriques, qui nécessitent l’existence du système réel ou d’un prototype (simulation du système) et la présence d’utilisateurs, consistent à collecter des données sur les comportements et les perceptions des utilisateurs finaux, pendant ou après l’utilisation d’un système. Cette évaluation empirique des perceptions de l’utilisateur final est le plus souvent réalisée dans le cadre d’un test d’utilisabilité, qui demande à l’utilisateur de manipuler le système pendant une période définie et peut inclure des techniques de verbalisation à voix haute. Généralement, les perceptions de l’utilisateur sont aussi recueillies par le biais d’échelles remplies après les tests d’utilisabilité pour compléter les informations et avoir des données quantitatives.
Le cas des questionnaires de satisfaction : échelles UX et échelles d’utilisabilité
Les questionnaires de satisfaction peuvent se mesurer via des échelles UX et des échelles d’utilisabilité. Voyons quelles options privilégier et à quel moment.
Privilégiez une échelle psychométrique
Pour mesurer des concepts tels que l’utilisabilité ou l’expérience utilisateur de manière objective et standardisée, vous devez privilégier un instrument psychométrique. Ces outils scientifiques permettent en effet d’évaluer des concepts latents, comme les différences individuelles, à l’aide d’indicateurs mesurables.
Par exemple, l’évaluation de la perception de l’utilisabilité d’une interface par une personne est évaluée à travers des questionnaires qui comportent des items spécifiques, souvent quantifiés sur une échelle de Likert. Cette dernière correspond à un système de notation sémantique, qui est utilisé dans les sondages pour mesurer et évaluer les perceptions, attitudes et opinions. Pour chaque affirmation, le répondant doit utiliser le système de notation suivant pour répondre :
- Tout à fait d’accord ;
- Plutôt d’accord ;
- Plutôt pas d’accord ;
- Pas du tout d’accord.
Un instrument psychométrique se distingue par trois caractéristiques essentielles.
- La standardisation : Celle-ci signifie que l’on fait passer le questionnaire aux participants dans les mêmes conditions et que leurs réponses sont aussi analysées de la même façon. En fonction du score obtenu, l’interprétation sera la même entre les personnes, ce qui permet de savoir si un système est perçu comme bon, excellent, acceptable ou mauvais.
- L’objectivité de la mesure : Ici, les résultats ne dépendent pas d’évaluations subjectives. Effectivement, différents évaluateurs doivent obtenir des résultats similaires en administrant le même test à la même personne.
- Les propriétés psychométriques : Celles-ci correspondent à la qualité de la mesure en termes de précision (fidélité, sensibilité et spécificité) et de validité. Un questionnaire est dit fidèle si, utilisé dans les mêmes conditions avec des groupes similaires ou le même groupe, il produit des résultats constants. Il est jugé sensible et spécifique s’il permet de détecter correctement, dans une population ciblée, les personnes qui perçoivent une mauvaise utilisabilité du système de celles qui perçoivent une bonne utilisabilité. Enfin, cela va de soi, un questionnaire est dit valide s’il mesure correctement ce qu’il est sensé mesuré, ici l’utilisabilité ou l’expérience utilisateur.
Opter pour une échelle psychométrique assure donc une évaluation fiable et scientifiquement validée, essentielle pour des décisions éclairées et justes dans votre pratique professionnelle.
Attention, si vous souhaitez évaluer votre site Web ou application auprès d’une population francophone, veillez à ce que l’échelle soit validée en version française.
Optez pour une échelle adaptée à vos cibles
En fonction des caractéristiques personnelles de vos cibles, vous ne choisirez pas le même outil de mesure. Par exemple, vous adapterez l’outil selon la langue adoptée par vos utilisateurs, ou selon qu’il s’agit d’enfants ou d’adultes.
> Quelle langue utilisent vos cibles ?
Il existe plusieurs échelles de mesure validées pour évaluer soit l’expérience utilisateur, soit l’utilisabilité. La majorité de ces échelles sont initialement en anglais, mais des chercheurs ont travaillé à les traduire et les valider dans d’autres langues.
Par exemple, l’échelle System Usability Scale (SUS), conçue par Brooke (1996), est reconnue scientifiquement pour mesurer l’utilisabilité. Elle a été traduite et validée en indonésien (Sharfina & Santoso, 2016), portugais (Martins et al., 2015), slovène (Blažica & Lewis, 2015), persan (Dianat et al., 2014), allemand (Lohmann & Schäffer, 2013) et récemment en français (Guillaume Gronier, 2021).
Comme nous l’avons vu précédemment, si votre population cible est francophone, il est essentiel de choisir des échelles validées en français pour garantir la fiabilité et la pertinence de vos évaluations.
Pour mesurer l’utilisabilité, vous pouvez utiliser des échelles telles que le F-SUS (Gronier, 2021), le Design-oriented evaluation of perceived usability - DEEP (Gronier, Lazure & Dussouet, 2023), ou le F-CSUQ (Gronier, 2022).
Quant à l’expérience utilisateur, des échelles comme l’AttrakDiff (Lallemand et al., 2015) ou le meCUE (Lallemand & Koenig, 2017) sont recommandées.
> Quel âge ont vos cibles ?
Vous vous en doutez, il est primordial de choisir des outils de mesure adaptés à votre public cible, qu’il s’agisse d’adultes ou d’enfants. Si les échelles mentionnées précédemment sont conçues pour les adultes, d’autres outils existent pour les enfants.
Si vos cibles sont des enfants qui savent lire, vous pouvez utiliser le K-Uses (Baraudon, Lanfranchi Bastien & Fleck, 2021). Pour les plus jeunes, privilégiez des méthodes comme les Problem Identification Picture Cards (Barendregt et al., 2008), adaptés pour les 5-6 ans, ou le Funtoolkit (Read et al., 2002) pour les 5-10 ans. Les méthodes comme Laddering (Zaman et Abeele, 2010) sont également adaptées aux 5-7 ans, et This or That (Zaman, 2009) convient aux enfants en âge préscolaire.
Bien sûr, d’autres échelles existent pour mesurer des aspects spécifiques, comme le niveau de compétence perçu avec la Thumbs-Up Scale (TUS) ou la fréquence d’utilisation avec la Frequency of Use Scale - FUS (Kano, Horton et Read, 2010).
Dans tous les cas, identifiez correctement votre cible avant de choisir votre instrument de mesure et de vérifier l’adéquation de votre questionnaire.
À quel moment utiliser l’échelle dans la conception ?
Contrairement aux tests utilisateurs qui permettent d’identifier des problèmes spécifiques, les échelles UX et d’utilisabilité visent à évaluer l’utilisabilité ou l’expérience utilisateur globale ou ses critères. Elle complète très bien les tests utilisateurs en y donnant une dimension quantitative.
En intégrant des échelles d’UX et d’utilisabilité tout au long du cycle de vie de la conception et du développement de votre site Web, vous garantissez une expérience utilisateur optimale, augmentez la satisfaction des utilisateurs, et améliorez la performance globale de votre site.
Exemple de méthode pour calculer et interpréter un score d’une échelle d’utilisabilité : le SUS
Le SUS est une échelle unidimensionnelle qui permet d’évaluer l’utilisabilité de systèmes interactifs à travers 10 items. Chaque item est noté en 5 points sur une échelle de Likert (de Pas du tout d’accord à Tout à fait d’accord).
Tableau de Guillaume Gronier
Mode de calcul du score du SUS
Le score global du SUS est obtenu en tenant compte des items inversés (items pairs : 2, 4, 6, 8 et 10) et se situe entre 0 et 100. Voici les étapes de calcul :
- Items impairs (1, 3, 5, 7 et 9) : soustrayez 1 au score coché par l’utilisateur.
- Items pairs (2, 4, 6, 8 et 10) : calculez 5 moins le score coché par l’utilisateur.
- Total : additionnez les 10 nouveaux scores recalculés et multipliez le total par 2,5.
Signification du score du SUS
Pour interpréter les scores du SUS, des chercheurs (Bangor, Kortum et Miller, 2009) ont associé des adjectifs qualitatifs aux scores, ce qui facilite la communication des résultats aux équipes de projet. Ces derniers englobent :
- Pire qu’on puisse imaginer ;
- Horrible ;
- Mauvaise ;
- Acceptable ;
- Bonne ;
- Excellente ;
- Meilleure qu’on puisse imaginer.
Ces adjectifs permettent de déterminer, en fonction du score obtenu, si un système est perçu comme bon, excellent, acceptable ou mauvais. C’est une interprétation qualitative essentielle pour comprendre et améliorer l’utilisabilité des systèmes interactifs, comme le prouve l’image ci-dessous.
Schéma de Guillaume Gronier
Ce qu’il faut en conclure...
En conclusion, l’évaluation de l’utilisabilité et de l’expérience utilisateur (UX) d’un site Web garantit la satisfaction des utilisateurs et l’efficacité de l’interface. En combinant les méthodes d’inspection analytique et les évaluations empiriques, les professionnels peuvent obtenir une vue d’ensemble précise des forces et faiblesses de leur site.
L’utilisation d’échelles psychométriques, telles que le SUS, offre des avantages considérables en termes de fiabilité et d’objectivité des mesures. En choisissant des instruments adaptés à leurs cibles et aux concepts à évaluer, les professionnels de l’UX peuvent mener des évaluations rigoureuses et scientifiquement fondées. Autant dire que cela facilite la prise de décisions éclairées et justes lorsqu’il s’agit d’améliorer continuellement la conception et la performance d’un site Web.
Dans tous les cas, vous pouvez compter sur les experts Adimeo pour vous conseiller sur le meilleur outil à privilégier en fonction de votre projet. Contactez-nous !
Crédit photo : AmnajKhetsamtip