Franck Ramus et Ghislaine Labouret

Version intégrale d’un article paru dans Cerveau & Psycho n°100, Juin 2018.

Le documentaire « Demain, tous crétins ? », diffusé le 11 novembre 2017 sur Arte, a employé les grands moyens pour faire paniquer la population française : l’intelligence (mesurée par les scores de quotient intellectuel, QI) serait en train de décroître dramatiquement, et les causes en seraient différents facteurs environnementaux, en particulier les perturbateurs endocriniens. Dans cet article, nous réévaluons les données présentées à l’appui de l’hypothèse selon laquelle les scores de QI seraient en train de baisser.

Le contexte de ce débat est celui de l’effet Flynn, à savoir le fait que dans tous les pays où des batteries de tests de QI ont été étalonnées depuis plusieurs décennies, on observe une croissance des scores équivalente à 3 points de QI par décennie, et ce tout au long du 20ème siècle. Autrement dit, en l’espace d’un siècle, la distribution des scores de QI de la population a progressé de deux écarts-types, c’est-à-dire de 30 points de QI (construit par convention avec une moyenne de 100 et un écart-type de 15 points dans une population donnée). Tout un ensemble de causes semble avoir conspiré pour engendrer une telle hausse: amélioration de l’alimentation (et notamment décrue de la malnutrition), amélioration de la santé (et notamment diminution drastique de l’exposition à des facteurs de risques prénataux, des souffrances à la naissance, et d’un certain nombre de maladies infantiles affectant le développement du cerveau), généralisation de la scolarisation et élévation de la sophistication de l’éducation, augmentation globale de l’information…

Depuis quelques années, une poignée de chercheurs s’alarment de ce que, non seulement les scores de QI ne progresseraient plus, mais ils commenceraient même à régresser. Edward Dutton (longuement interrogé dans le documentaire) et Richard Lynn sont le fer de lance de ce discours catastrophiste, qui invoque tantôt les effets de la malbouffe, de la dégradation de l’environnement, du dysgénisme (sélection des variants génétiques associés à une faible intelligence) ou encore de l’immigration1,2. Pourtant, un examen rigoureux de l’ensemble des données internationales portant sur l’évolution des scores de QI ne vient pas à l’appui de ce discours.

Un constat très partial

La première remarque importante à faire est que le constat de Dutton et Lynn ne s’appuie que sur les études menées dans un nombre limité de pays, notamment plusieurs pays scandinaves, ainsi que la France. Si l’on regarde les données de l’ensemble des pays du monde, on observe que les scores montent dans certains pays, stagnent dans d’autres, et diminuent seulement dans une minorité d’entre eux, ou dans une minorité d’études au sein de chaque pays.3,4 Par exemple, les scores de QI continuent globalement à progresser aux Etats-Unis, alors que ce pays semble a priori plus concerné que bien des pays européens par la malbouffe, l’exposition aux pesticides et aux perturbateurs endocriniens, et est tout autant concerné par l’immigration. Pourquoi ces facteurs ne produiraient-ils pas le même effet aux Etats-Unis qu’en Finlande ou en France ? Mystère.

Si l’on examine les données disponibles sur l’ensemble des pays, le constat est beaucoup moins alarmiste : une méta-analyse de 271 études dans 31 pays sur plus d’un siècle suggère simplement un plafonnement sur les 30 dernières années : les gains de QI diminuent avec le temps, sans pour autant devenir nuls à ce jour (Figure 1).

Figure 1. Tendance des différents indices de QI de 1909 à 2013 à travers tous les pays et toutes les études (méta-analyse de Pietschnig & Voracek, 2015)4.

Un deuxième point troublant est que, même dans les pays qui semblent montrer une baisse des scores de QI, ce phénomène est loin d’être univoque. Par exemple, en Finlande, la baisse mesurée entre 1997 et 2009 ne concernait que les tests numériques et verbaux, alors que le raisonnement logique présentait seulement une stagnation. De même, en Norvège sur la période 1993-2002, on a observé une légère baisse en capacités verbales et en arithmétique, compensée par une hausse en raisonnement abstrait. Si les facteurs à l’œuvre dans la supposée baisse des scores de QI étaient aussi généraux que les perturbateurs endocriniens ou la nutrition, ils devraient avoir un effet sur l’ensemble des capacités cognitives, plutôt que sur certaines et pas d’autres. D’autres facteurs peuvent entrainer des baisses de scores aux tests, comme le vieillissement des énoncés ou des modifications des programmes scolaires. Une baisse temporaire, du même ordre que celle observée récemment, s’est déjà produite dans les années 1970 en Norvège, en lien avec une modification du programme de mathématiques. Moins habitués aux exercices proposés, les jeunes adultes obtenaient des scores inférieurs, sans que cela ne traduise une baisse de leur intelligence.

La France en déclin ?

Examinons maintenant le déclin supposé des scores de QI en France. À chaque nouvelle édition française des échelles de Wechsler (la batterie de tests de QI la plus utilisée dans le monde), l’éditeur fournit les résultats d’une comparaison avec la version précédente, sur un petit groupe de participants. Cette comparaison a toujours pointé dans le sens d’une amélioration, sauf pour la standardisation, en 2010, de l’échelle pour adultes WAIS-IV. C’est sur ce seul résultat, mesuré sur un groupe de 79 personnes, que se basent l’étude de Dutton et Lynn5 et le documentaire « Demain, tous crétins ? » pour suggérer qu’une baisse du QI serait à l’œuvre en France. Une telle conclusion, à partir d’une seule mesure sur un petit groupe non représentatif, est largement exagérée, compte tenu des erreurs possibles de mesure des scores.

De plus, si des facteurs environnementaux nouveaux entravaient le développement cérébral et intellectuel des enfants, on s’attendrait à observer une baisse des scores de QI en premier lieu chez les enfants, avant que cette baisse ne se propage à toutes les classes d’âge au fur et à mesure que ceux-ci grandissent. Curieusement, l’étude de Dutton et Lynn ne rapporte que la tendance des scores des adultes français, et s’abstient de rapporter la tendance des scores des enfants, alors qu’elle est tout aussi disponible. L’examen des manuels des différentes éditions des batteries WISC pour enfants permet de comprendre pourquoi : elle montre que la tendance est toujours à la hausse, contrairement à l’hypothèse de Dutton et Lynn !

La Figure 2 montre les évolutions successives des scores de QI observées en France à l’occasion des nouvelles versions des tests, pour adultes (WAIS) et pour enfants (WISC) ainsi que l’incertitude des mesures liées aux faibles effectifs des groupes utilisés.

Figure 2. Evolution cumulée du QI depuis 1968 à chaque nouvelle édition d’une échelle de Wechsler (sources : manuels des tests). Les barres d’erreur représentent l’intervalle de confiance à 95% de la mesure, c’est-à-dire un intervalle qui a 95% de chances de contenir la valeur vraie compte-tenu de l’imprécision liée au faible nombre de participants. Les données des adultes et des jeunes sont superposées pour permettre une comparaison des vitesses d’évolution, mais ne sont pas comparables entre elles.

Enfin, il est important de souligner que la méthode choisie par Dutton et Lynn, basée sur les données de standardisation des échelles de Wechsler, souffre d’importantes limites et n’est pas considérée comme fournissant une estimation fiable de l’effet Flynn6. Par ailleurs, une limite méthodologique d’ordre de passation des batteries WISC-IV et V empêche d’interpréter la dernière tendance observée chez les enfants français (cf. Annexe). La seule chose qui soit sûre, c’est que compte tenu du faible effectif et de l’erreur de mesure, aucune tendance observée ne permet de tirer des conclusions à l’échelle de la population française.

Au final, que cela soit en Finlande, en France ou dans d’autres pays, les résultats avancés à l’appui d’une baisse des scores de QI ne sont pas du tout convaincants, et le détail de ces résultats est incompatible avec les facteurs présentés comme étant les causes d’une baisse du QI. Si l’on prend en compte l’ensemble des données internationales, aucune baisse n’est détectable, mais il semble néanmoins possible d’affirmer que les scores de QI progressent plus lentement qu’auparavant, et sont peut-être en train de se stabiliser et d’atteindre un plafond.

Les arbres ne montent pas jusqu’au ciel

Pourquoi un tel plafonnement ? Il est possible que l’on approche tout simplement des limites intrinsèques à l’espèce humaine. Après tout, comment pourrait-on croire que les capacités cognitives puissent croître à l’infini ? Les capacités cognitives de notre espèce sont limitées par le nombre de neurones que nous possédons, qui est limité par la capacité de la boîte crânienne, qui est elle-même limitée par les dimensions du bassin des femmes. À génome et à nombre de neurones constant, l’amélioration considérable de l’environnement des humains au cours du 20ème siècle a permis à nos capacités cognitives d’atteindre de nouveaux sommets. Néanmoins, il est fort possible que l’on atteigne actuellement des niveaux de santé, de nutrition et d’éducation optimaux pour l’intelligence humaine, tels qu’il n’y aurait plus de marge de progression, ni génétique, ni environnementale… à moins peut-être d’une révolution éducative que nous n’imaginons même pas, et qui nous ferait franchir un nouveau palier. Possibilité qu’on ne peut exclure a priori.

Si les scores de QI sont réellement en train de plafonner, alors il est parfaitement normal que des erreurs de mesure et autres fluctuations statistiques donnent lieu à des diminutions apparentes, à certains moments, dans certains pays, sur certains tests et certaines populations. De telles observations restent néanmoins compatibles avec une augmentation globale continue mais toujours plus faible et difficile à quantifier de manière fiable.

Notons pour terminer que cet effet de plafonnement n’est pas spécifique au QI, mais s’observe dans bien d’autres domaines comme la stature7, la longévité, et les performances sportives8, qui ont suivi la même progression que les scores de QI au cours du 20ème siècle, et qui semblent maintenant aussi se stabiliser. Dans ces domaines, personne ne s’alarme de ce plafonnement, ni des diminutions occasionnelles dans certains pays, qui sont interprétées comme des fluctuations statistiques normales et non comme une conséquence d’un environnement délétère. L’interprétation généralement acceptée est que l’on touche aux limites de la physiologie humaine, dans l’environnement physique qui est le nôtre.

Il y a donc toutes les raisons de tirer les mêmes conclusions pour l’intelligence humaine. Dans 10 ou 20 ans, nous aurons un peu plus de recul pour apprécier, mettre en perspective et interpréter les quelques diminutions de scores observées dans certains pays. En attendant, il n’y a absolument pas lieu d’affoler les populations de manière inconsidérée.

PS: une suite à cet article est publiée ici.

Références

  1. Dutton, E., van der Linden, D. & Lynn, R. The negative Flynn Effect: A systematic literature review. Intelligence 59, 163–169 (2016).
  2. Woodley of Menie, M. A., Peñaherrera-Aguirre, M., Fernandes, H. B. F. & Figueredo, A.-J. What Causes the Anti-Flynn Effect? A Data Synthesis and Analysis of Predictors. Evol. Behav. Sci. (2017). doi:10.1037/ebs0000106
  3. Flynn, J. R. & Shayer, M. IQ decline and Piaget: Does the rot start at the top? Intelligence 66, 112–121 (2018).
  4. Pietschnig, J. & Voracek, M. One Century of Global IQ Gains: A Formal Meta-Analysis of the Flynn Effect (1909–2013). Perspect. Psychol. Sci. 10, 282–306 (2015).
  5. Dutton, E. & Lynn, R. A negative Flynn Effect in France, 1999 to 2008–9. Intelligence 51, 67–70 (2015).
  6. Weiss, L. G., Gregoire, J. & Zhu, J. Flaws in Flynn Effect Research With the Wechsler Scales. J. Psychoeduc. Assess. 34, 411–420 (2016).
  7. NCD Risk Factor Collaboration (NCD-RisC). A century of trends in adult human height. eLife 5, e13410 (2016).
  8. Marck, A. et al. Are We Reaching the Limits of Homo sapiens? Front. Physiol. 8, (2017).
  9. Grégoire, J. Devenons-nous plus intelligents ? J. Psychol. 38–42 (2006). doi:10.3917/jdp.234.0038
  10. Williams, R. L. Overview of the Flynn effect. Intelligence 41, 753–764 (2013).
  11. Trahan, L. H., Stuebing, K. K., Fletcher, J. M. & Hiscock, M. The Flynn effect: a meta-analysis. Psychol. Bull. 140, 1332–1360 (2014).

Annexe technique

L’effet Flynn peut être mis en évidence en comparant les scores obtenus, à un même test d’aptitudes cognitives, par des générations successives. C’est ce que permettent parfois les tests administrés aux conscrits, donc à de larges cohortes de jeunes d’âge voisin au moment de la passation. Ainsi, en France entre 1949 et 1974 le gain sur un test de raisonnement logique (matrices de Raven) a été en moyenne équivalent à 1 point de QI par an, tandis que le gain sur des tests verbal et numérique était trois fois moindre9. La validité de ces données est toutefois limitée par le fait que les chiffres de 1974 sont issus d’un échantillon représentatif de 200 jeunes hommes, et non sur une cohorte complète. Le documentaire « Demains, tous crétins ? » indique que « depuis 20 ans, le QI a baissé de 2 points par décennie en Finlande », résultat basé sur les données des conscrits, rapportées par les chercheurs Edward Dutton et Richard Lynn. Cette baisse a en fait été mesurée entre 1997 et 2009, et concernait les tests numériques et verbaux, le raisonnement logique présentant seulement un arrêt de sa hausse. Sur une période voisine (1993-2002), la tendance était moins nette en Norvège, avec une légère baisse en verbal et en arithmétique, compensée par une hausse en raisonnement. Dans ce pays, une baisse de la même ampleur des scores sur le test numérique s’était produite dans les années 1970, attribuable à un changement de programme dans l’enseignement des mathématiques durant cette période, avec un focus sur l’algèbre au détriment de l’arithmétique. L’annulation de ce nouveau programme scolaire s’était accompagnée d’un rattrapage à la hausse du score en arithmétique. Cet épisode montre que ce type de scores est sensible à des facteurs simples et volatiles, comme l’évolution du contenu de l’enseignement. La différence observée ne concerne alors pas l’intelligence générale, mais quelques compétences spécifiques.

Une autre façon d’évaluer l’évolution de l’intelligence consiste à comparer les scores obtenus par un groupe de personnes sur deux versions successives d’un test, comme les échelles d’intelligence de Wechsler, mesures de référence du QI. Au moment de sa conception, chaque version est standardisée pour que le score moyen d’un échantillon représentatif de la population soit de 100. En faisant passer à la fois la nouvelle et l’ancienne version du test à un groupe de personnes, on a souvent constaté que leur score était supérieur de quelques points avec l’ancienne version. Autrement dit, leurs performances sont légèrement supérieures à celles de la population qui a permis d’établir les normes de l’ancien test. Si le groupe est représentatif de la population actuelle, on peut être tenté d’en conclure que le niveau de la population dans son ensemble s’est amélioré. Cependant, le groupe en question est généralement de taille trop faible pour autoriser une telle généralisation. De plus, comme la comparaison est faite globalement, pour tous les niveaux intellectuels et pour de larges tranches d’âge, on ne sait alors pas si l’amélioration concerne tout le monde au même degré. Elle pourrait résulter d’une meilleure prise en charge des difficultés d’apprentissage, comme d’une amélioration de la santé des ainés entraînant un recul du déclin cognitif lié à l’âge. Certains chercheurs ont par exemple suggéré que l’amélioration concernait surtout les niveaux d’intelligence les plus bas, et moins les performances élevées, mais cette observation n’est pas générale10,11.

Au-delà des problèmes de taille d’échantillon, conclure à l’évolution du niveau d’intelligence à partir de la comparaison de versions différentes d’un test pose problème. En effet, la mise à jour des échelles de Wechsler s’accompagne d’un changement des exercices composant le test, si bien que les deux versions ne mesurent pas exactement la même chose. Certains changements résultent des progrès de la recherche sur les aptitudes cognitives en jeu dans les activités intellectuelles, qui ont permis d’identifier progressivement les aptitudes les plus importantes, qui se voient accorder plus de poids dans le calcul du QI. D’autres visent à adapter le contenu des exercices à l’évolution de la culture, des connaissances et des compétences moyennes de la population du moment. Dans le cas de la WAIS-IV, on constate que la moindre performance des sujets français sur l’ancienne version est essentiellement concentrée sur les exercices consistant à définir des mots de vocabulaire ou à répondre à des questions de culture générale. Or, le contenu de ces exercices a été remis à jour à l’occasion de la WAIS-IV, avec des questions portant sur des sujets plus d’actualité.

Afin de comparer l’évolution de la même mesure au fil des générations, il est nécessaire, comme dans le cas des conscrits, de faire passer exactement le même test à des groupes représentatifs de la population, à périodes successives. C’est ce qu’ont fait Laurence Weiss et collègues6, à partir des données américaines de l’échelle pour enfants, le WISC-IV. Ils ont comparé les scores obtenus par un groupe représentatif de 126 jeunes en 2013 à ceux obtenus par un groupe apparié en 2002. Ils constatent un maintien de la hausse du QI sur cette période, avec 0.31 points de QI par an. Alors qu’en comparant ce test à sa dernière version, le WISC-V, on obtenait une hausse de seulement 0.14 points de QI par an, qui suggérait un net ralentissement de l’effet Flynn (0.33 points par an auparavant), résultat qui s’avère donc trompeur.

En France, la comparaison entre WISC-IV et WISC-V semble au premier abord indiquer également une poursuite de la hausse sur la période 2004-2015, de l’ordre de 0.13 points par an. Cependant, l’étude présente un biais car tous les participants ont passé la version récente avant la version ancienne. Or, la passation d’un test cause un effet d’apprentissage qui résulte en de meilleurs scores sur le second test passé, ici la version ancienne. Lors des éditions précédentes, l’ordre de passation était contrebalancé entre les participants, ce qui permettait de neutraliser en grande partie ce biais. Pour la WISC-V française, cela n’a pas été le cas, et on ne peut donc pas attribuer la hausse observée à une amélioration du QI.

Au final, comparer les versions successives des échelles de Wechsler n’est pas une méthode valide pour tirer des conclusions sur l’évolution de l’intelligence à l’échelle de la population d’un pays, ni pour déterminer les causes de cette évolution.