Comment faire mentir les statistiques ?

Coronavirus oblige, les statistiques sont devenues une part importante de la vie de toutes et tous. Mais là où les fake news et autres mensonges sont facilement identifiables comme fallacieux, les statistiques ont le don de faire paraître pour scientifiquement prouvées de fausses informations. C’est pourquoi nous avons pu voir de très nombreux exemples de biais et de statistiques utilisées à mauvais escient ces derniers mois ; et là où certaines erreurs sont réellement le fruit d’une mégarde, d’autres sont purement utilisées pour duper son lectorat (et parfois même son électorat).

Petite sélection de statistiques et graphiques trompeurs sur le coronavirus.

Comment la Californie a bien réagi face au coronavirus

Une des questions les plus importantes durant cette crise a été de comprendre quelles mesures étaient efficaces, et lesquelles ne l’étaient pas. Dans cet article de CNN, des statistiques sont utilisées pour corroborer le gros titre “What California is doing right in responding to the coronavirus pandemic”. En effet, le journaliste compare les statistiques de l’état de New York à ceux de Californie : alors que les deux états avaient le même nombre de cas en début de pandémie, New York en avait huit fois plus en avril, avec onze fois plus de mort. La seule façon d’expliquer cette divergence est donc que la Californie a mieux réagi et a pris des mesures plus efficaces que New York.

Ceci est un exemple typique de biais de sélection et de variables omises : on pense comparer deux éléments semblables, alors qu’ils ne le sont pas. En réalité, les deux états sont géographiquement opposés (3 fuseaux horaires de différence, ce n’est pas rien), leur densité de population n’est pas la même et leurs citoyens sont radicalement différents. Que se serait-il passé si les deux états avaient introduit exactement les mêmes mesures, exactement au même moment ? Peut être que la Californie s’en serait toujours mieux sortie que New York… ou peut-être que New York s’en serait mieux sorti. Il est impossible de le savoir. Le problème ici vient du fait que l’état de Californie n’a pas de bon contrefactuel : il n’y a pas d’état qui lui soit suffisamment similaire. Toute comparaison directe avec un autre état est donc impossible car on ne peut pas isoler l’effet des mesures sur le nombre de cas. On voit ici comment un raisonnement simpliste et très populaire peut donner un faux sens de sécurité au lecteur : les chiffres prouvent que la Californie a mieux agi, pourquoi penser autrement ? Je ne dis bien entendu pas que les mesures californiennes sont inefficaces, je dis simplement que ces chiffres ne permettent pas de le prouver, ou de le nier. Et le problème devient encore plus grave quand ces chiffres sont repris par les autorités pour justifier des politiques publiques.

Le confinement n’a fait qu’aggraver la situation

Ce deuxième exemple est tiré de la vidéo COVID19 : Ne vous faites pas manipuler de l’excellente chaîne Unbiased, et se base sur le graphique suivant :

Ce graphique semble nous indiquer que plus les mesures de confinement sont strictes (en rouge), plus le nombre de mort par million d’habitant est élevé (taille des barres). Pour preuve, la Suède, qui n’a presque pas confiné, a beaucoup moins de morts que la France, qui a imposé un confinement très fort. Donc les mesures de confinement ne sont pas efficaces, voir néfastes.

Encore une fois, ce raisonnement semble logique, mais il souffre en réalité d’un problème de causalité inverse. On essaie de démontrer que le confinement cause des morts (ou en tout cas, ne les diminue pas) alors que c’est l’inverse qui se produit : il y a du confinement parce que le taux de mortalité est élevé. Ce sont donc les pays les plus touchés qui ont mis les mesures les plus restrictives, tout simplement. En plus de cela, ce deuxième exemple souffre du même problème que le premier : des variables omises. Encore une fois, comparer ainsi la Suède et la France directement est impossible car ces pays sont tout simplement trop différents. Encore une fois, vous pouvez trouver une analyse plus poussée de ce cas dans la vidéo de Unbiased.

Nos prédictions affirment que…

Une autre facette importante des statistiques de la pandémie a été d’essayer de prédire l’évolution du virus. Par exemple, un modèle prédictif a été préparé par la Maison Blanche, fruit d’une intense collaboration entre l’équipe de Trump et de l’économiste Kevin Hassett. Selon eux, ce « modèle cubique », créé fin avril, montre une chute totale du nombre de mort aux Etats-Unis au mois de mai, pour arriver à zéro morts le 15 mai, selon le Washington Post. Nous savons aujourd’hui que ce modèle s’est complètement trompé.

Le journaliste Kevin Drum, dans cet article, s’est amusé à expliquer comment ce modèle peut être manipulé de façon très simple pour obtenir des résultats diamétralement opposés. En effet ce modèle de régression est très sensible à la date à partir de laquelle on observe les données ainsi qu’au type de régression utilisé. Par exemple en observant les données à partir du 22 mars, on obtient le graphique suivant :

Ce qui correspond bien aux dires de la Maison Blanche : le nombre de mort va s’arrêter d’ici mi-mai. Sauf qu’il s’agit ici d’une fonction quadratique, et non pas cubique : le graph est sensé remonter mais les données sont volontairement coupées afin de ne pas montrer de potentielle seconde vague. Mais que se passe-t-il si on continue le graphique après le 17 mai et que l’on inclut les données prédites à la régression ?

On obtient maintenant un résultat très différent : même si la courbe s’aplatit et diminue quelque peu, le nombre continue d’augmenter après. Il suffit donc de quelques légers ajustements de forme fonctionnelle pour interpréter les mêmes données de deux façons complètement opposées.

Conclusion

Les statistiques, qu’elles soient descriptives ou prédictives, sont un outil formidable. Elles permettent de comprendre une situation et de calibrer ses interventions. Malheureusement, elles peuvent également donner un faux sens de sécurité et de validation scientifique à des affirmations pourtant fausses.

Dans certains cas, la tromperie n’est pas volontaire. Quelqu’un voit un graphique semblant prouver ses opinions, et le partage immédiatement sur ses réseaux sociaux préférés. Il n’y a ici pas d’intention foncièrement mauvaise, seulement de l’imprudence. C’est quand des journalistes font la même erreur que la situation devient plus grave, le public attendant de leur part un minimum de vérification et d’exactitude dans les données présentées. Mais le paroxysme du mensonge statistique survient quand des politiciens ou des gouvernements mentent pour justifier une intervention publique.

Les mathématiques ne mentent jamais, mais l’interprétation qu’on en fait et les hypothèses sous-jacentes peuvent être parfois trompeuses, que ce soit involontairement ou dans le but de tromper.

HEConomist

Sources

  • Source photo: Kevin Chang, Daily Pilot
  • Source théorique: James Stock et Mark Watson (2007), Introduction to Econometrics, 2nd edition
  • COVID19 : Ne vous faites pas manipuler, Unbiased (lien)
  • Lying With Statistics, COVID-19 Edition, Kevin Drum (lien)