Le sondage est un outil de mesure quantitative qui vise à donner une image juste d'un phénomène social inaccessible à la simple perception du chercheur qui souhaite l'appréhender. Cette tendance à représenter l'ensemble du réel s'accompagne d'une tendance inverse à l'appauvrissement du contenu. En sciences humaines il faut toujours choisir entre dire peu de choses imprécises sur tout le monde et en dire beaucoup de pertinentes sur très peu de gens ; le sondage relève très nettement du premier choix.
Pour appréhender la notion de sondage, nous pouvons distinguer quatre niveaux :
le choix des personnes interrogées
le choix des questions
l'aspect mathématique (c'est-à-dire les limites théoriques des sondages).
la présentation des résultats
Le choix des personnes interrogées
Pour pouvoir appliquer les règles du calcul des probabilités il faut que les personnes interrogées soient prises au hasard dans la population choisie, (ce n'est pas obligatoirement
tous les français - par exemple si on s'intéresse au port du soutien-gorge !). En pratique, on recours au concept du "modèle réduit" : on évalue à partir de différentes sources les proportions de chaque catégorie de population et on fabriquera un échantillon dans lequel les proportions seront les mêmes. Les catégories sont définies à partir de variables qu'on pense être en liaison étroite avec le problème étudié : âge, sexe, profession, lieu de résidence, ... Par exemple, on ne tiendra pas compte du fait qu'un individu fume ou non dans une enquête sur les loisirs, mais on le fera dans une enquête sur l'absentéisme.
Le choix des questions :
On entre ici dans le domaine de la psychologie. La majorité des sondages présentent les
questions de telle façon que la réponse soit assurée dans le bon sens. Le bon sens étant celui
de l'organisme qui achète l'enquête, bref, du client (parti politique, entreprise commerciale,...).
Un exemple de question biaisée : (Le 15 septembre 2006, sondage pour « Aujourd’hui en France ») :
L’Ifop introduit ainsi le questionnaire de l’étude qu’il a réalisée pour le Figaro et LCI :
“A propos de la récente agression de deux CRS à Corbeil-Essonnes et plus généralement au sujet de la délinquance, êtes-vous tout à fait d’accord, plutôt d’accord, plutôt pas d’accord ou pas d’accord du tout avec les affirmations suivantes ?”
Difficile, lorsqu’on vous apostrophe ainsi, de ne pas donner dans la surenchère répressive, sauf à se sentir d’une lâcheté coupable envers les deux CRS victimes d’agresseurs ignobles. Cette question fut tellement biaisée qu’un professionnel des sondages exprima son dégoût : «On est stupéfait, explique Pierre Weill, ancien président de la Sofres, à la lecture de l’enquête, de voir à quel point “les réponses sont dans la question” : au point qu’il est légitime de se demander si les résultats reflètent l’avis des sondés ou le pressentiment des sondeurs ! »
La multiplication des négations dans les questions les rendent pratiquement incompréhensibles. On peut se baser sur l'expérience suivante qui a été réalisée aux U.S.A. : Deux sondages furent réalisés dans des conditions identiques :
A la question : "Pensez-vous que les U.S.A. doivent AUTORISER les discours publics contre la démocratie ?" il y eut 21 % de oui 62% de non 17 % de sans opinion. A la question : "Pensez-vous que les U.S.A. doivent INTERDIRE les discours publics contre la démocratie 7" il y eut 39 % de non 46 % de oui 15 % de sans opinion.
L'écart est éloquent. On met également en évidence des divergences notables quand on intervertit l'ordre des questions, quand on effectue un sondage sur une question d'actualité brûlante ou au contraire sur un sujet qui n'est pas du souci quotidien du moment, quand on énonce ou non une partie de la réponse dans la question, quand on pose des questions ouvertes ou des questions fermées, ...
Aspects mathématiques :
Quelques points à peu près évidents intuitivement :
* La fréquence d'apparition d'un caractère dans un échantillon donne une idée sur cette fréquence dans la population mais seulement une idée imprécise.
* L'imprécision relative, rapportée à la taille de l'échantillon et généralement exprimée en pour cents, peut être considérée comme l'imprécision sur la fréquence vraie inconnue.
* Sauf erreur dans la constitution de l'échantillon, cette imprécision relative décroît en se rapprochant de zéro lorsque la taille de l'échantillon se rapproche de celle de la population.
* Si on veut tenter de la quantifier, on ne peut le faire en utilisant un seul nombre ; on est contraint de considérer la fréquence comme une variable aléatoire.
Dans ces conditions on peut déterminer des intervalles de confiance associés d'une part à une probabilité et d'autre part à la taille de l'échantillon.
La statistique considère le cas dans lequel les éléments de l'échantillon sont des variables aléatoires indépendantes, ce qui signifie en termes simples qu'un sondage sur un problème national ne peut se limiter à un seul quartier mais doit utiliser un tirage au sort pour constituer l'échantillon. Cette contrainte est souvent réalisée de manière satisfaisante lors de sondages à caractère technique.
Si on ajoute certaines conditions supplémentaires, échantillon pas trop petit, fréquence d'apparition ni très grande, ni très petite, on peut alors utiliser l'approximation de la loi normale. Dans ces conditions, les intervalles de confiance sont inversement proportionnels à la racine carrée de la taille de l'échantillon.
Dans le cas particulier qui correspond à la quasi-totalité des sondages préélectoraux, l'hypothèse des variables indépendantes conduit au résultat suivant : il y a 95 chances sur 100 pour qu'une enquête effectuée sur 1000 personnes donne un résultat à plus ou moins 3 % près, donc 5 chances sur 100 pour que le résultat soit hors de l'intervalle. Si on effectue une enquête sur 1600 personnes, au même niveau de confiance, on obtient 2,5 %.
La présentation des résultats :
Là également, la manipulation psychologique apparentée à celle de la publicité, est reine.
Même si la question posée est simple, neutre autant que faire se peut, la présentation peut être
biaisée. C'est en effet bien plus les commentateurs, les journalistes en l'occurrence, que les responsables des instituts de sondage qui sont à l'origine de la mauvaise présentation des résultats de sondage.
La faute la plus fréquente est la déformation des questions posées, alors que l'on devrait les citer in extenso, chaque mot comptant dans une question. Par exemple la question posée " Avez-vous déjà fréquenté un musée " : oui : 80%, peu devenir : " 80% des Français aiment les musées ", ce qui n'est pas du tout la même chose. Les questions à liste de modalités sont rarement bien commentées. Ainsi si je vous demande laquelle des couleurs vous préférez entre le jaune, le rouge ou le noir, c'est le rouge qui va arriver en tête de ces trois couleurs, mais cela ne permet en aucun de dire que c'est le rouge qui est la couleur préférée des Français car en fait c'est le bleu, mais cette couleur ne figurait pas dans les modalités de réponses. Ce type de raccourcis erroné est une erreur très fréquente notamment quand on pose la question du type" qu'est-ce qui vous semble important ou prioritaire sur tel ou tel sujet " D'un sondage à l'autre vous pourrez avoir des réponses totalement contradictoires, tout simplement selon l'intitulé de la question et le nombre des modalités. Il est plus facile pour le commentateur de dire que la priorité numéro un des Français c'est l'emploi, plutôt que de dire que c'est ce thème qui arrive en tête sur sept modalités de choix que sont la pollution, la sécurité, etc...L'oubli quasi systématique du taux de non-réponse est aussi une faute très souvent commise par les journalistes, alors que nous arrivons, pour certains types de questions indiscrètes (sur les revenus ou les opinions politiques par exemple) à des taux de refus dépassant les 20%..Dire que la violence a augmenté de 30% n'a aucun sens, si on ne précise pas quel type de violence, et durant quel laps de temps. Enfin, last but not least, l’oubli de la marge d’erreur pourtant seul indicateur de qualité quantifiable du sondage est aussi une faute grave !
Ci-dessous, une présentation d’où sont oubliés et le nombre de sondés, et la marge d’erreur du sondage. Un mois plus tard le NON l’emportait !
Un premier sondage pour le oui 30/04/2005
Un premier sondage depuis la mi-mars donne le oui en tête des intentions de vote avec 52%. Dans le camp du non, on pense que le mois de mai sera déterminant et on accuse les médias de partialité... L’analyse des chiffres. Le oui à la Constitution européenne l'emporterait avec 52% des votes le 29 mai, selon un sondage TNS-Sofres-Unilog pour RTL rendu public le 30 avril, le premier à pronostiquer une victoire