Les sources d'erreurs

Lors de la réalisation d'un sondage, il arrive fréquemment que l'on ne se fie qu'à l'erreur statistique. Or, les sources d'erreurs sont multiples. Cette série d'articles vous présente les différents endroits où vous devez faire preuve de prudence.

Lorsqu'on doit faire une cueillette de données, la plupart des gens auront le réflexe de réaliser une étude quantitative. La logique de ce choix est : ce sera bien plus précis. En effet, on aura une évaluation de la précision statistique des résultats. Tout semblera donc parfait. Or, les choses ne sont pas si simples.

Tout d'abord, l'erreur statistique ne mesure que l'erreur de source statistique. C'est-à-dire, l'erreur qui provient de la proportion de gens choisis et du nombre de gens choisis. C'est tout ! Rien d'autre n'entre dans le calcul de cette erreur. Ainsi, c'est parfois avec un faux sentiment de confiance que des gens croient faire une étude précise.

De nombreuses autres sources d'erreurs peuvent se présenter. Dans un article précédent : Les enjeux reliés à l'évaluation d'une marge d'erreur, j'avais effectué un survol de certaines de ces erreurs. Leur point commun est qu'elles sont reliées à des choses qui sont non-quantifiables. À ce moment, elles semblent devenir invisibles. En fait, la seule chose qui puisse les rendre visibles, c'est la minutie que prendra le chercheur à polir chaque petit détail de sa démarche et ainsi, arriver à localiser et neutraliser les sources d'erreurs. Voici la liste des endroits où il est nécessaire de regarder :

Les biais reliés au chercheur. En distribuant un questionnaire, il arrive parfois que l'attitude du chercheur puisse donner au répondant des indices sur le genre de réponse qui est désiré. C'est un peu comme si le chercheur influençait le répondant dans le sens de ce qu'il désire lire ou entendre. On comprendra que cet effet peut se produire particulièrement dans le cas d'une entrevue. À ce moment, c'est l'ensemble des attitudes verbales et gestuelles qui fait partie de la relation chercheur-répondant. Dans le cas d'un questionnaire, la phase de prise de contact comporte aussi le risque d'influencer le répondant. En effet, on tente parfois de présenter le questionnaire de manière à stimuler l'intérêt du répondant et faire grimper le taux de réponse. En voulant intéresser les répondants, on risque de lui dire un peu trop précisément ce qu'on cherche.

Les biais reliés au répondant. Toute personne qui répond à un sondage aura tendance à donner une image positive d'elle-même. C'est le bon vieux réflexe, plus ou moins conscient, de la bonne réponse. Et cette bonne réponse, elle est souvent dirigée dans le sens de ce qui est socialement désirable ou acceptable. Ce biais peut, en partie, se contrôler en clarifiant le plus possible les mesures de confidentialité des résultats. J'utilise l'expression "en partie" car il existera toujours certains cas où ce réflexe sera très fort, voire incontournable. On comprendra qu'un questionnaire qui traite d'un sujet sensible (socialement ou autrement) sera plus à risque d'engendrer chez le répondant le réflexe de la réponse socialement désirable.

Paradoxalement, un problème similaire est aussi possible si le répondant considère que le sujet est trop trivial. À ce moment, il ne fera peut-être pas l'effort d'y répondre sérieusement. Un exemple d'une situation de ce genre est exposé dans l'article : Conserver son objectivité.

Les biais reliés au non-répondant ou à l'indécis. Cette erreur se produit au moment de l'analyse. Plusieurs pensent que les gens qui ne répondent pas, ou ceux qui sont indécis, n'ont pas de caractéristiques précises. On croit donc pouvoir les ignorer, faire comme s'ils n'existaient pas. Il n'y a rien de plus faux ! Ce sujet avait déjà été abordé en détail dans l'article Les indécis . Ces gens qui ne répondent pas, ont souvent des caractéristiques précises. Pour identifier ces gens, on peut tenter de comparer les caractéristiques des gens qui ne répondent pas à certaines questions avec les caractéristiques des gens qui ont répondu à l'ensemble du questionnaire. C'est ainsi qu'on se rendra parfois compte que certains groupes (âge, salaire, sexe, scolarité ou autre) ont tendance à répondre d'une manière différente.

Pour ce qui est des gens qui ne répondent pas au questionnaire, il est plus difficile de les localiser. Ils se confondent avec une autre source d'erreur qui est reliée à l'échantillon. En effet, il n'y a pas vraiment de moyen de distinguer les personnes qui ne sont pas dans nos résultats car elles ne veulent pas répondre, des personnes qui ne sont pas dans nos résultats parce qu'elles ne sont pas dans l'échantillon.

La question des biais reliés à l'échantillon ainsi que divers autres problèmes seront abordés dans la seconde partie de cette chronique.

Comme nous avons vu dans l'article précédent, la marge d'erreur d'un sondage ne réside pas que dans la seule erreur statistique. Souvent, les erreurs non-statistiques sont bien plus importantes. Le résultat est bien simple, en calculant la marge d'erreur statistique, on peut facilement avoir un faux sentiment de sécurité. Les causes d'erreurs que nous avons abordées précédemment étaient :

Les biais reliés à l'échantillon. Un échantillon doit représenter la population que vous désirez sonder, en plus petit. Mais atteindre cet objectif n'est pas facile. Un échantillon peut parfois comporter des défauts. Il est rare qu'un échantillon soit vraiment neutre. Dans un article précédent : L'annuaire du téléphone, j'abordais les distorsions pouvant être causées par ce genre de listes. Pour identifier les gens qui ne sont pas dans notre échantillon, on peut comparer les caractéristiques de nos répondants avec des données statistiques provenant d'autres sources fiables. C'est ainsi qu'on se rendra parfois compte que certains groupes (âge, salaire, sexe, scolarité) ne sont pas présents dans les bonnes proportions.

Malheureusement, il arrivera parfois que certaines personnes refuseront de répondre au questionnaire. Il est alors difficile de séparer les personnes qui ne répondent pas car elles ne font pas partie de l'échantillon, de celles qui ne répondent pas car elles ont totalement refusé de le faire.

Les biais reliés à la structure d'un questionnaire. La structure d'un questionnaire doit être pensée avec soin. Il peut arriver que cette structure suggère des réponses au répondant. Ce sujet a été abordé plus en détail dans un article intitulé Les enjeux reliés à l'évaluation pratique d'une marge d'erreur ? Ainsi, le questionnaire se comporte comme un cheminement que vous faites faire à votre répondant. Imaginons qu'au début, votre répondant est en présence de questions touchant les conséquences du problème "X". Puis, à la suite de ces questions, se trouve une question sur la gravité du problème "X". Il y a fort à parier que tout se passera comme si le répondant avait pris conscience de la gravité de "X". Le résultat de cette question s'en trouvera alors modifié, la proportion de répondants trouvant que "x" est grave augmentera.

Il y a aussi un autre facteur qui n'est pas directement relié à la structure du questionnaire mais plutôt au thème abordé. Des sujets qui semblent trop triviaux pour le répondant peuvent faire perdre son sérieux au questionnaire. Imaginons un sondage sur les nouveaux aménagements d'un établissements. Certaines caractéristiques de ces aménagements peuvent sembler superflues pour le client. À l'opposé, des sujets trop sensibles peuvent pousser le répondant à mentir. Imaginons une étude sur la consommation d'alcool ou encore la prostitution. Le répondant peut avoir tendance à répondre dans le sens de ce qui est socialement désirable. Ce sujet a déjà été abordé dans la chronique précédente au sous-titre les biais reliés au répondant.

Les biais reliés aux choix de réponses et à l'objectif de la question. Une bonne question peut-être rendue inadéquate par un mauvais choix de réponses. Ce biais avait déjà été abordé dans deux chroniques (La réaction des répondants et l'usage des échelles et Formulation des questions relatives à une fréquence d'utilisation) Bien que ce risque semble facile à éviter, il arrive que l'on voit des questionnaires qui semblent ne pas porter assez d'attention à ce facteur.

Prenons l'exemple d'un sondage où on tente d'évaluer l'importance de divers facteurs pour divers individus. C'est ce qui peut arriver dans une étude de marché où on veut identifier ce qui intéresse un consommateur-cible. Imaginons que ce soit le consommateur de "loisirs aquatiques" (ou quoi que ce soit d'autre). On retrouvera alors dans certaines de ces études, des choix de réponses présentés comme suit :

Or, il y a un problème avec ce choix. Il n'est pas adéquat. En quoi ? Ce sera le sujet de notre prochaine chronique.Vous aurez alors plus de détails sur les problèmes reliés à cette question. De plus, nous examinerons les problèmes reliés à la méthode de recherche.

Note : Les personnes qui croient avoir identifié le problème peuvent m'écrire afin de présenter leur point de vue.

Lors de la précédente chronique, j'abordais le problème de l'évaluation de l'importance des critères qui motivent un consommateur. À cet effet, il peut être pertinent de proposer au consommateur une échelle afin que l'on puisse connaître son niveau d'intérêt par rapport à tel ou tel motif d'achat. C'est souvent dans la formulation de cette échelle que peut se trouver une source d'erreurs. Dans notre exemple, l'échelle suivante était utilisée :

Jusque-là, il ne semble pas y avoir de problème puisque l'objectif est de déterminer l'importance de tel ou tel facteur. Mais, en y regardant de plus près, on voit poindre une difficulté qui peut avoir échappé au rédacteur du questionnaire. Imaginons un individu qui n'aime pas le critère #1. Que répondra-t-il ? Dans l'esprit du répondant, ce critère peut être un facteur très important à éviter. Or, le contexte suggére plutôt que l'expression très important doit avoir une connotation positive. Que fera notre répondant ? Il cochera probablement : pas important.

On constate alors que les répondants se trouvant dans la catégorie "Pas important" peuvent être :

De la même manière, les répondants se trouvant dans la catégorie "Très important" peuvent être :

On voit donc poindre un grave problème au sujet de la signification des réponses. L'erreur est grave au point d'entacher la crédibilité d'un sondage qui utiliserait sans précaution ce genre d'échelle.

On constate que la marge d'erreur est bien plus que la seule erreur statistique. À toutes les étapes d'une recherche (par sondage ou autrement), des biais et des erreurs peuvent se produire et ainsi entacher la qualité des résultats.

Un autre endroit où une source d'erreurs peut se manifester, réside dans le type de méthode de recherche utilisé. En effet, certaines méthodes peuvent laisser plus de place à l'arbitraire. C'est principalement le cas lorsque le sondeur est engagé dans une démarche d'entrevues. Cette méthode implique une interaction entre le chercheur et le répondant. Il y a alors une possibilité que les échanges sortent du cadre de recherche. Des indices peuvent être donnés. En raison de cette interaction, le chercheur peut être amené à poser certaines questions d'une manière différente. On génèrera alors un problème de comparabilité des réponses. La solution à ce problème réside dans le suivi d'un plan rigoureux d'entrevue. Ainsi, le chercheur est en mesure de repérer les éléments qui sortent inconsidérément du schéma prévu. Il est alors facile de déterminer si cet écart représente un risque ou encore l'occasion d'aborder un détail important.

Ce genre de risque peut se retrouver dans le cas de la réalisation d'un groupe de discussion. Dans ce cas, ce sont les enjeux reliés à l'animation qui peuvent nous entraîner vers des avenues problématiques.

Il est extrêmement difficile d'être exhaustif dans l'énumération des problèmes qui peuvent influencer la précision des résultats d'une étude. Dans le cadre de cette série, l'objectif était d'aiguiller le lecteur afin qu'il puisse avoir une idée des endroits où il est nécessaire de porter une attention particulière. Bien sûr, la recherche dans le domaine des faits humains sera toujours risquée.

De la série des trois précédentes chroniques, on peut tirer deux conclusions.

D'une part, on constate que l'erreur statistique n'est pas la seule. Même s'il n'est pas possible de calculer les erreurs autres que statistiques, elles sont néanmoins présentes.

D'autre part, ce sont les méthodes qualitatives qui présentent les plus grands risques en raison de l'interaction chercheur et répondant. Cependant, les études quantitatives ne sont pas libres de tout problème. Les enjeux de la structure d'un questionnaire sont suffisants pour faire dérailler les résultats d'une étude. Trop souvent, on ne se fiera qu'au calcul de l'erreur statistique en oubliant toute autre cause. Ainsi, on se croit en présence d'un sondage fiable alors que l'on est peut-être en pleine errance. Cette attitude arrivera habituellement lors d'une étude quantitative où la présence de résultats chiffrés nous donnera un faux sentiment de sécurité.

Prochaine mise à jour de cette chronique : le 4 octobre 2000.