L'échantillonnage

La création d'un échantillon fiable est essentielle à la réalisation d'un sondage. En effet, c'est à partir de l'échantillon que les répondants seront identifiés. Si notre échantillon est handicapé par un quelconque facteur, c'est la crédibilité de l'ensemble de la démarche qui sera mise en cause.

Lorsque vous choisissez une technique d'échantillonnage, il est utile de considérer l'objectif du sondage et la nature des données à mesurer.

Le responsable de ce site : Frédéric D'Astous

Accueil > Archive > Thème : L'échantillonnage

L'échantillonnage accidentel - Les sondeurs n'ont pas toujours sous la main des listes permettant de réaliser une sélection aléatoire des répondants. C'est là que l'échantillonnage accidentel peut être utile.

Les enjeux reliés à l'évaluation d'une marge d'erreur - L'obsession de la marge d'erreur est répandue chez tous ceux qui réalisent des sondages. Or, seules les probabilités statistiques peuvent être calculées. Et les autres ?

Pas de liste ? Utilisez l'échantillonnage en grappes - On a pas toujours une liste d'individus sous la main. Pour contourner cette difficulté, il peut être intéressant de sélectionner des groupes.

L'échantillonnage non-aléatoire - Il ne faut pas sous-estimer les avantages reliés aux techniques non-aléatoires. Voici en quoi elles peuvent aider le sondeur.

J'ai une question
Vous désirez faire un commentaire sur une chronique ou poser une question ? Utilisez ce lien pour joindre la "page des commentaires" de ce site.


L'échantillonnage non-aléatoire

Les stratégies visant la réalisation d'un échantillonnage non-aléatoire sont parfois désignées en utilisant l'expression "stratégies non-probabilistes". L'usage de ces termes fait référence au fait que l'on ne se base pas sur les lois du hasard pour créer notre liste de personnes à joindre. L'utilisation de ces stratégies est le fruit d'une orientation méthodologique totalement à l'opposé des stratégies aléatoires.

On peut décrire la base méthodologique des stratégies non-aléatoires de la manière suivante : c'est un peu comme si le chercheur partait du principe selon lequel un échantillonnage contient inévitablement un biais, si petit soit-il. Alors, plutôt que tenter d'éviter l'inévitable, le chercheur décidera de le contrôler en choisissant volontairement un biais particulier. Dans certaines circonstances, cette manière de voir est utile. Mais, adopter inconditionnellement cette approche est hasardeux. Si un biais est effectivement inévitable, il est rare qu'on ne puisse le contrôler en le réduisant à une taille contrôlable.

Mais, pour celui qui décide de procéder de cette manière, il importera de porter attention à certaines contraintes. Précisons que les méthodes non-aléatoires sont toujours le résultat d'un choix de la part du chercheur. Ces techniques sont à utiliser avec prudence. Mal contrôlées, elles sont susceptibles de déformer gravement les résultats.

La réussite dépendra impérativement de la précision de la méthodologie et des objectifs poursuivis par le sondeur. C'est à partir de là que le sondeur sera en mesure de décider s'il est logique d'utiliser ce type de méthode. Une circonstance où cela sera pertinent sera lorsque le chercheur désire joindre une clientèle précise dont les membres ont des liens entre eux. On utilisera alors le réseau formé des contacts propres à cette clientèle. L'existence de ce réseau sera même une aubaine pour le sondeur qui aura alors une plus grande facilité à recueillir son information. Cependant, il sera essentiel de se faire accréditer par ce réseau pour bénéficier de ses avantages. On voit, dès lors, le danger d'une recherche dont l'orientation ne plairait pas au réseau.

Il ne faut jamais oublier qu'un réseau effectue une forme de filtrage chez ses membres. Chaque groupe possède ses règles. Leur transgression provoque inévitablement une mise à distance de l'individu. Cette mise à distance sera d'autant plus grande si l'écart de conduite est perçu comme grave par les membres ou les élites du groupe. On aura donc un effet d'amplification de certaines attitudes au détriment de certaines autres.

Là où cette approche ne conviendra pas, c'est lorsqu'on tente de juger de certaines proportions. Par exemple, on peut imaginer les effets d'une technique de cette sorte pour mesurer les opinions politiques à l'intérieur d'un village. Notre recherche se transformerait en mini élection dans le village. On ne mesurerait plus les opinions présentes dans le village mais bien l'effet combiné des organisations politiques et des tendances d'opinions. Nos résultats ne signifieraient plus grand-chose. Par contre, si l'on tente de mettre en évidence les tendances dans le parti politique A ou le B, là on obtiendra des résultats utiles. On ne sera pas en mesure de juger de l'importance (en pourcentage) de chaque tendance, tout au plus sera-t-il possible de distinguer les tendances fréquentes de celles qui ne le sont pas.

Le choix d'une méthode à adopter est donc toujours lié à la nature des résultats qui sont attendus. Je vous souhaite une bonne recherche !

Votre conseiller : Frédéric D'Astous


L'échantillonnage accidentel

Les personnes qui font un sondage n'ont pas toujours sous la main des listes de noms permettant de réaliser une sélection aléatoire des répondants. Les sondeurs sont alors obligés d'utiliser des techniques qui font appel à des compromis. C'est là qu'entre en ligne de compte le jugement du sondeur pour éviter que les compromis ne mettent en péril la validité du travail.

L'échantillonnage accidentel fait justement partie de ces techniques à employer avec circonspection. En gros, la technique accidentelle consiste à se placer à un endroit donné et à questionner chaque première personne d'un nombre "x" de personnes rencontrées. Par exemple, un commerçant peut mettre en pratique cette méthode en questionnant le premier client de chaque série de 10 clients.

Ce qui semble rassurant dans cette procédure, c'est qu'on a tendance à considérer que les personnes (ou les clients de notre exemple) se présentent sans un ordre particulier. On a donc l'impression que le hasard est à l'oeuvre et qu'en conséquence : la procédure est totalement neutre et objective. Or, rien n'est plus faux. Le rythme de vie de nos sociétés est soumis à des cycles et des horaires. Dans la pratique cela signifie que, à certains moments, on rencontrera un type de clientèle qui sera inexistant à un autre moment.

On se pensera alors que le commerçant de notre exemple n'aura qu'à réaliser ses entrevues pendant toute une journée. Ainsi, les variations horaires seraient éliminées et on obtiendrait un portrait adéquat de l'ensemble de la clientèle de l'établissement. Mais encore là, la prudence est de mise. Certains types de clientèle vont varier en fonction du jour de la semaine alors que d'autres suivent de lentes variations saisonnières.

Dans la pratique que devra faire le sondeur ? Tout d'abord, il sera essentiel de vérifier à quel groupe de personnes le sondage s'adressera, puis de vérifier comment ce groupe se divise. Cela peut se faire en contactant les personnes qui interagissent avec les gens qu'on veut joindre. Ces informations ne nous donneront pas un portrait précis de la situation mais à tout le moins nous saurons quelles sont les principales caractéristiques à surveiller. Dans notre exemple, les vendeurs du commerce ont probablement remarqué la présence de certains types de clientèle à des moments particuliers. Cette information nous permettra de définir les moments où il faudra réaliser la démarche de sondage. Si les vendeurs n'ont pas noté de différence entre la clientèle de chacune des soirées de semaine, on réalisera une économie en ne sélectionnant qu'une seule soirée. Et on fera ainsi pour chacune des périodes qui semblent se distinguer.

Si on décide de s'arrêter là, on obtiendra un portrait de chacun des moments importants où il est possible de rencontrer un type ou un autre de la clientèle ciblée. Mais, il est possible que le commerçant de notre exemple cherche à obtenir des résultats pour l'ensemble de sa clientèle. Il lui faudra alors pondérer ses résultats pour tenir compte du pourcentage de clients qui correspond à chaque moment particulier de fréquentation de son établissement. Ainsi, si la clientèle du soir représente 30% de la fréquentation du commerce, on considérera que les résultats de nos entrevues d'une soirée représentent l'état de 30% de la clientèle. Et on procédera de cette manière pour l'ensemble de nos résultats (clientèle de fin de semaine, d'après-midi, de matinée, ...) Il est possible d'utiliser des logiciels statistiques (par exemple, du genre tableur) pour arriver à pondérer nos résultats.

Il reste une seule chose à régler et c'est la source des données servant à notre pondération. Dans notre exemple, il sera important d'utiliser le nombre de clients qui fréquentent le magasin. En effet, si notre commerçant utilise son chiffre d'affaire, il introduira une distorsion provenant de la taille des ventes individuelles , laquelle n'est probablement pas constante pour tous les types de clientèle. S'il utilise le nombre de ventes ce sera la même chose car certains types de clientèle sont plus difficiles que d'autres. En utilisant ce dernier indicateur, certaines portions de la clientèle seraient probablement sous-estimées au bénéfice de certaines autres.

Bon sondage.

Le responsable de ce site : Frédéric D'Astous.


Les enjeux reliés à l'évaluation pratique d'une marge d'erreur ?


S'il est une obsession uniformément répandue chez ceux qui réalisent des sondages, c'est bien celle de la marge d'erreur. Tout le monde veut savoir jusqu'à quel point les résultats de son sondage sont fiables ou non. Pour résoudre ce problème, la plupart se fieront aux probabilités statistiques. En effet, la science de la statistique nous donne de nombreuses formules pour calculer la probabilité de ceci ou de cela. En général, les résultats de ces calculs peuvent être fiables si le sondage est réalisé avec soin, et que l'on ne se trouve pas en présence d'un trop grand nombre de facteurs incontrôlés.

Là est l'enjeu majeur : les facteurs incontrôlés. L'objet de cette chronique est, précisément, de voir comment ces facteurs peuvent nuire à la précision d'un sondage. Ceci est fait dans l'idée d'arriver à "contrôler ces incontrôlables"! Qu'est-ce qu'un facteur incontrôlé ? C'est un petit détail qui semble trivial. Mais ce petit détail, telle la pelure de banane proverbiale, est susceptible de causer un tort immense à la démarche de sondage.

En premier lieu, abordons la question de la base de calcul. Pour certains, le simple fait de connaître le nombre de gens contactés (l'échantillon) et de faire une comparaison avec le nombre de ceux qui auraient pu l'être (la population) est suffisant pour faire un calcul. Et il est vrai, qu'à partir de ces informations, vous pouvez utiliser une formule ou encore consulter un tableau. Or, tous ces beaux calculs sont inutiles si votre échantillon n'a pas été choisi de manière probabiliste.

Pourquoi ? Tout simplement parce que l'erreur statistique n'est pas la seule. Les méthodes non-probabilistes sont susceptibles de causer des distorsions importantes. Dans un échantillon non-probabiliste, il y aura souvent certains types de répondants qui seront ignorés. D'autres types seront suréchantillonnés. Ces distorsions se répercuteront sur les résultats du sondage.

En plus, le simple fait de réaliser un échantillonnage probabiliste n'est pas suffisant. Un échantillon probabiliste se fait souvent à partir d'une liste. Or, une liste de noms est loin d'être neutre. Par exemple, un cas aussi simple que l'annuaire du téléphone peut causer des problèmes. En effet, les gens qui déménagent fréquemment n'y sont pas inclus fidèlement. Les numéros confidentiels n'y apparaissent pas. C'est ce qui cause des distorsions.

Une conclusion s'impose, on oublie souvent qu'il n'y a pas que l'erreur statistique à considérer. On sous-estime fréquemment les distorsions qui proviennent soit de la constitution de l'échantillon, ou soit d'autres facteurs. Le problème de ces distorsions ? Elles ne sont pas calculables ! C'est un peu comme si elles n'existaient pas. Comme si elles étaient invisibles. Or, elles sont bien présentes.

Une autre cause d'erreur réside dans la structure des questionnaires. Cette dernière peut avoir pour conséquence d'orienter le répondant. Imaginons un groupe de pressions qui utilise un questionnaire abordant la "peine de mort". Vers la fin de ce questionnaire, on pose une question du type "Êtes-vous pour ou contre la peine de mort ?" Or, cette question est précédée de plusieurs autres visant à identifier la taille des craintes du répondant au sujet de la criminalité. En raison de l'ordre des questions, il est probable que la proportion de personnes favorables à la peine de mort augmentera. La logique de l'ensemble risque de ressembler à : si vous croyez que le taux de criminalité est un grave problème, vous devriez être en faveur de la "peine de mort". Ceci peut se contrôler en portant une attention méticuleuse à l'ordre dans lequel les questions sont abordées. Il sera parfois utile d'insérer certaines questions à caractère neutre dans la séquence. Cela contribue à briser l'effet d'influence que peuvent avoir les questions, les unes sur les autres.

Il y a aussi la formulation des questions qui peut jouer un rôle. En reprenant la même problématique, si vous avez une question du genre "Êtes-vous pour la peine de mort ? Oui ou Non. Même si vous précisez l'alternative, oui ou non, dans votre choix de réponses, votre question est fautive. Vous demandez à votre répondant s'il est "pour". Vous lui suggérez implicitement de répondre "oui". Vous distorsionnez encore vos résultats.

Comment évaluer la marge d'erreur dans une situation où les risques d'erreurs peuvent provenir de partout ? Vous pouvez tenter de comparer vos résultats avec certaines données fiables. Imaginons que vous ayez accès à des données précises et que vous connaissiez la méthodologie. Vous devriez être capables de retrouver dans vos résultats, les mêmes proportions que dans l'étude que vous utilisez comme référence. C'est un peu comme si vous réalisiez un test pour savoir si vous êtes capables de mesurer une proportion déjà connue.

Cette méthode de comparaison ressemble un peu à un jeu de devinettes. Et vous ne serez jamais totalement certain que votre erreur sera uniforme, tout au long du sondage. Certains résultats peuvent être plus fiables que d'autres. Une comparaison peut être utile pourvu que vous connaissiez bien la fiabilité de la source des données servant à la comparaison. De plus, ces données doivent être applicables à votre cas. Par exemple, le calcul du taux de chômage est souvent le résultat d'une méthodologie particulière. Vous ne pouvez donc pas comparer ce taux avec le nombre de personnes qui indiquent, dans votre questionnaire, qu'elles n'ont pas d'emploi. De surcroît, le taux de chômage varie beaucoup d'une époque à l'autre. Ses variations sont parfois très rapides. Vous devrez alors vous assurer d'avoir des données qui sont encore valables au moment de votre étude.

Comme on le voit, simplement se fier à l'erreur statistique est insuffisant pour donner une image précise de la fiabilité d'un sondage. Il y a de nombreux autres types d'erreurs. Or, seulement quelques-unes ont été abordées ici. Et, ces autres sources d'erreurs ne se présentent pas au sondeur sous une forme qui permet d'en faire le calcul. C'est pourquoi, les seules pistes de solution résident dans la prudence méthodologique et puis, lorsque c'est possible, dans la comparaison avec des données déjà existantes.

Le responsable du site : Frédéric D'Astous


Pas de liste ? Utilisez l'échantillonnage en grappes

Idéalement, vous devez avoir une liste de noms pour réaliser un sondage. Une liste permet de faire un échantillonnage aléatoire qui respecte les lois de la statistique. De plus, c'est le respect des lois statistiques qui permet de faire des prédictions au sujet de la marge d'erreur du sondage.

Mais, ce n'est toujours pas possible. Alors, si nous désirons faire un échantillonnage aléatoire sans avoir aucune liste, il faudra utiliser la technique de l'échantillonnage en grappes. La particularité de cette technique, c'est qu'au lieu de choisir aléatoirement des individus on choisi aléatoirement des groupes. Cela peut être fait à partir d'une carte. Ainsi, chaque groupe est une unité géographique. Il reste alors à sélectionner aléatoirement certaines unités géographiques et rejoindre tous les résidents de chaque unité géographique choisie.

Il est possible d'utiliser cette technique à chaque fois qu'on est en mesure de joindre des groupes identifiables. Par exemple, si on désire faire une étude sur les étudiants d'une université, on n'a pas à obtenir la liste de tous les étudiants. On peut se contenter d'obtenir la liste des cours. Dès lors, on obtient un énorme avantage. En effet, les renseignements individuels sont considérés comme nominatifs. Dès lors, ils sont protégés par diverses lois nationales, territoriales ou d'état. Pour sa part, la liste des cours fait partie des informations publiques qui sont accessibles à tous. Tout le monde peut l'obtenir. Il reste donc au sondeur à faire des démarches auprès de chaque professeur pour obtenir l'autorisation de voir les étudiants dans les cours et tout est réglé.

On devrait donc obtenir un "joli" sondage probabiliste sans l'aide d'aucune liste de noms. En effet, on peut affirmer que les participants ont été choisis au hasard. Les règles statistiques s'appliquent donc. Mais, tout n'est pas parfait.

Comme on se doute, il doit y avoir certains inconvénients. À mon avis, l'inconvénient le plus important est relié au nombre des unités permettant de faire la sélection aléatoire. En effet, chaque unité peut avoir une tendance à réagir de manière uniforme. Lorsque des variations sont présentes, il est possible qu'elles se forment en suivant certains clivages particuliers qui ne représentent pas nécessairement les conditions du milieu. Cette tendance à la convergence des comportements dans les groupes est présente, peu importe la diversité de l'environnement global. Ainsi, on risque de passer à côté de certaines composantes du milieu à étudier. L'évaluation de ce risque est liée au nombre minimal de cas, pour appliquer les lois statistiques.

Certains évaluent que 30 cas individuels constituent un minimum pour considérer que les lois des probabilités s'appliquent. Mais, pour qu'une étude par grappes soit véritablement probabiliste, le gros bon sens nous conduit à penser qu'il faudra avoir plus que 30 personnes. Combien ? Si chaque groupe est parfaitement homogène, il nous faut théoriquement un plancher de 30 groupes. Si chaque groupe est totalement hétérogène, à partir du moment où l'on a 30 personnes, notre problème est réglé. La réalité est donc quelque part entre les deux et je doute qu'il y ait une manière indiscutable de calculer le nombre de cas nécessaires. C'est là où l'expérience du sondeur sera utile.

Dans la "vraie vie", disons qu'on devra se fier aux formules habituelles pour calculer les caractéristiques d'un tel sondage. Et on devra se fier à l'expérience du sondeur pour savoir si ces calculs peuvent correspondre à la réalité ...

Le responsable de ce site : Frédéric D'Astous.

 Retour au haut de la page



© 1998-2000 , Frédéric D'Astous , Tous droits réservés.

.Nedstat Counter.