Ce texte est la traduction française de la transcription de la présentation que j’ai faite le 22 avril 2024 à la séance « Quand les sciences sociales rencontrent la génomique » du séminaire « Les sciences sociales en question : grandes controverses épistémologiques et méthodologiques » à Sciences Po Paris. J’y ai inséré des images de mes diapos. La transcription intégrale (en anglais) du séminaire est disponible ici.

Commençons par ce que j’appelle le résultat le plus important de la sociologie de l’éducation, à savoir l’influence du statut socioéconomique de la famille sur la réussite scolaire des enfants. Je montre ici un résultat particulier, qui provient des études PISA menées par l’OCDE, mais en principe, toute étude qui recueille des informations à la fois sur le contexte familial et sur les résultats scolaires trouve cette relation. La corrélation est d’environ 0,3-0,4, et c’est probablement le résultat le mieux répliqué en sociologie de l’éducation.

Ce résultat est largement interprété comme reflétant un effet causal de l’environnement fourni par les parents sur les résultats scolaires de leurs enfants. Bien sûr, c’est une interprétation très plausible et personne ne la conteste vraiment. Cependant, j’aimerais attirer votre attention sur le fait qu’il ne s’agit que d’une corrélation. Si vous êtes un spécialiste des sciences sociales qui s’inquiète de la distinction entre causalité et corrélation, vous avez intérêt à être un peu prudent. En particulier, si vous êtes attentif à la différence entre causalité et corrélation, vous devriez vous soucier des facteurs de confusion. Je suis sûr que c’est le cas dans vos propres études.

Il y a là une corrélation entre certaines caractéristiques des parents et certaines caractéristiques de leurs enfants. Le problème est qu’il existe un facteur de confusion majeur: le génome. En effet, les parents ont un génome qui influence leur propre devenir, et la moitié de ce génome est transmis à leurs enfants, où il peut produire des effets similaires, ce qui entraîne une similitude entre les caractéristiques des parents et celles des enfants, indépendamment de l’environnement. Cela implique un deuxième chemin de causalité potentiel entre les caractéristiques parentales et les caractéristiques des enfants. Cette corrélation peut effectivement refléter une causalité environnementale, mais pas seulement. Si nous ne prenons pas en compte le chemin causal génétique, nous ne pouvons pas savoir si une causalité environnementale est prouvée.

C’est donc la première mise en garde que je souhaite soulever : en sciences sociales, nous passons parfois de la corrélation à la causalité sans tenir compte des facteurs génétiques. Un tel saut n’est pas toujours légitime.

En termes de résultats scolaires, je vais surtout parler du niveau d’études : c’est le résultat final du parcours scolaire, le diplôme le plus élevé que les gens obtiennent. C’est très simple à mesurer. Mais bien sûr, vous pouvez aussi le remplacer par toute autre mesure du niveau d’études ou de la performance scolaire. N’importe quelle note à un examen ou à un test fera l’affaire, les mêmes résultats sont généralement valables pour toutes les mesures éducatives.

Le niveau d’études d’un enfant est évidemment influencé par ses propres caractéristiques individuelles telles que ses capacités cognitives, sa motivation, son comportement, ses efforts, etc. Si l’on regarde un peu en amont, quelles sont les causes des caractéristiques de cet enfant ? Il existe deux catégories de causes : les gènes et l’environnement.

Donc, en principe, si vous avez échantillonné toutes les causes ultimes possibles dans le génome de l’enfant et dans son environnement, vous disposez de toutes les causes potentielles de ses traits cognitifs et comportementaux et, en fin de compte, de son niveau d’études.

Si vous regardez maintenant l’environnement de l’enfant, vous savez qu’il est façonné dans une large mesure par les parents et qu’il est influencé en particulier par le niveau d’éducation et les ressources parentales. Nous combinons généralement ces deux mesures (parfois avec la catégorie professionnelle) en une variable que nous appelons le statut socioéconomique. Il est bien connu que le statut socioéconomique façonne l’environnement de l’enfant et qu’il a une influence sur son niveau d’études. Comme je l’ai dit, la taille de la corrélation se situe entre 0,3 et 0,5.

Un peu plus en amont, le statut socio-économique des parents a été influencé par leurs propres capacités cognitives, et ces capacités ont elles-mêmes été influencées par leur environnement et par leurs gènes. Ces derniers ont été transmis à leurs enfants. C’est le deuxième chemin causal. Ainsi, chaque fois que vous mesurez cette corrélation entre le statut socio-économique et le niveau d’études, elle peut être médiée par la voie environnementale, mais elle peut aussi refléter le chemin causal alternatif, par les gènes des parents qui influencent à la fois le statut socio-économique des parents et les gènes de l’enfant et donc ses capacités cognitives et son niveau d’éducation.

Il s’avère que certaines études génomiques ont suggéré que ce chemin alternatif représentait environ 50 % de la corrélation entre le statut socio-économique et le niveau d’éducation. Cela ne remet pas en cause l’idée d’une causalité par l’environnement familial, elle existe bel et bien, mais elle peut être surestimée par la corrélation brute. Si l’on tient compte correctement de la transmission génétique, on obtient une estimation révisée de la voie environnementale, réduite de moitié environ. Étant donné que la médiation génétique représente environ la moitié de l’effet, il est très important d’en tenir compte.

J’ai dévoilé un des principaux résultats, mais je suis parfaitement conscient que vous n’êtes pas obligé de me croire sur parole. Vous êtes en droit de demander des données avant de me croire, et le temps est très court, donc je ne vais pas pouvoir vous montrer toutes les données pertinentes, mais je vais me référer aux principales sources de données et vous montrer quelques éléments, avec des indications pour ceux qui veulent aller plus loin.

Pourquoi faut-il croire que la génétique influence la performance scolaire et le niveau d’études ? Il existe trois sources principales de preuves.

Le premier type de données probantes est celui des études familiales. Les plus connues sont les études sur les jumeaux, qui existent depuis près d’un siècle, mais aussi les études d’adoption, et il existe également d’autres types de modèles utilisant des données familiales. Le deuxième type d’études est celui des mutations génétiques, et le troisième type est celui des études génomiques. Je vais illustrer chacune d’elles.

Premièrement, les études familiales. Comme vous le savez, il existe des jumeaux monozygotes, qui sont génétiquement identiques, et des jumeaux dizygotes, qui ne sont génétiquement similaires qu’à 50 %. Ces barres montrent les corrélations des scores à divers tests ou questionnaires au sein de paires de jumeaux : les jumeaux monozygotes en noir et les paires dizygotes en barres hachurées.

Comme vous pouvez le constater, les barres noires sont toujours plus hautes que les barres hachurées, ce qui signifie que les jumeaux identiques sont toujours plus semblables que les jumeaux dizygotes. Cela est généralement interprété comme une preuve d’influences génétiques et est utilisé pour calculer ce que nous appelons l’héritabilité.

Il faut noter que certains de ces traits sont pertinents pour les résultats scolaires, comme l’intelligence générale, le raisonnement verbal, la mémoire. Il y a aussi la réussite scolaire à l’adolescence, donc cela doit être une note à un examen au lycée. Il y a même les centres d’intérêts professionnels.

Ce graphique vous montre le même résultat que dans toutes les études sur les jumeaux, à savoir que tout ce que vous pouvez mesurer chez un individu semble être héritable dans une certaine mesure, y compris les scores cognitifs et scolaires.

Je sais que les études sur les jumeaux ont été fortement critiquées, on peut y revenir si vous le souhaitez, mais il est important de savoir qu’elles ne sont pas isolées. D’abord, elles ont été très bien répliquées. Ensuite, elles sont complétées par des études d’adoption qui ont des hypothèses et des méthodes différentes mais qui donnent des résultats très similaires.

Maintenant, toutes ces études familiales nous permettent de quantifier l’héritabilité, c’est-à-dire qu’il y a des influences génétiques, mais c’est très vague. Une fois que vous savez qu’il y a des gènes impliqués, vous aimeriez savoir : lesquels et comment fonctionnent-ils ?

Notre compréhension initiale des gènes s’appuyait en grande partie sur des études sur les mutations génétiques. Cela remonte à l’identification de la cause génétique du syndrome de Down, causé par une copie supplémentaire du chromosome 21.

Bien qu’il s’agisse d’un exemple clair de mutation génétique, de nombreuses autres mutations moins spectaculaires ont été découvertes depuis. Actuellement, nous connaissons plus de 1 000 gènes, sur un total d’environ 25 000, dont les mutations peuvent entraîner une forme de déficience intellectuelle.

Il est important de noter que ces mutations ne se limitent pas à provoquer des déficiences intellectuelles. Elles peuvent également entraîner d’autres troubles, comme des troubles du langage et de la lecture. Ces mutations sont toutefois assez rares, affectant environ 1 % de la population.

Il est intéressant de noter que bon nombre de ces gènes ont été découverts dans ce que l’on appelle des familles multiplexes. Dans ces familles, plusieurs membres de générations différentes sont touchés par un trouble particulier. Les hommes sont représentés par des carrés, les femmes par des cercles et les personnes atteintes du trouble sont indiquées en noir.

Prenons par exemple cette famille où la grand-mère souffrait d’un trouble du langage. Quatre de ses cinq enfants et environ 50 % de ses petits-enfants souffrent également de ce trouble du langage. De même, dans une famille française que j’ai étudiée, le grand-père souffrait de dyslexie, un trouble de la lecture, et huit de ses 11 enfants et environ 50 % de ses petits-enfants souffrent également de dyslexie.

En étudiant le génome de ces familles multiplexes, nous pouvons, avec un peu de chance, trouver une mutation qui peut être associée de manière fiable à la transmission du trouble. Cette méthode a été utilisée pour découvrir de nombreux gènes associés à des traits cognitifs. Il convient toutefois de noter que cela ne s’applique qu’à une petite fraction des personnes atteintes de troubles du langage ou de dyslexie. La plupart d’entre elles ne sont porteuses d’aucune mutation identifiable (pour l’instant).

Enfin, il va sans dire que les personnes atteintes de déficiences intellectuelles, de troubles du langage ou de troubles de la lecture sont souvent confrontées à des difficultés dans le cadre scolaire. Globalement, tous ces gènes contribuent aux variations du niveau de scolarité.

Si les mutations rares ont fait l’objet de nombreuses recherches en génétique, il est important de prendre en compte la population dans son ensemble. Plus précisément, nous devons nous demander si des variations plus fréquentes dans le génome pourraient expliquer les variations plus fréquentes dans les résultats scolaires chez les personnes qui ne présentent pas de troubles évidents ni de mutations délétères.

Pour répondre à cette question, nous nous tournons vers l’analyse du génome entier. Je vais illustrer cela avec une étude d’association pangénomique (GWAS) tirée d’un article de 2022. Dans un GWAS, des échantillons d’ADN sont prélevés auprès des participants, généralement via des échantillons de salive ou de sang. Dans l’étude à laquelle je fais référence, ils ont inclus un nombre impressionnant de 3 000 000 de participants. Ce résultat a été obtenu en fusionnant des études génétiques précédentes, quels que soient leur objectif initial. La plupart des études génétiques sont menées pour étudier la génétique du cancer, du diabète, des troubles psychiatriques, etc., et la plupart des participants sont également interrogés sur leur diplôme le plus élevé. En réutilisant et en regroupant ces données provenant de toutes les sources de données possibles dans le monde entier, ils ont réussi à mener une étude sur la génétique du niveau d’études avec 3 000 000 de participants.

Le génome est examiné sur environ 500 000 à 1 000 000 de sites. Il s’agit de polymorphismes nucléotidiques (SNP), des sites de l’ADN où l’on peut trouver l’un des quatre nucléotides : ACGT. L’association de chacun de ces SNP avec le phénotype est testée statistiquement. Pour chacun de ces SNP, nous savons s’il est statistiquement associé au phénotype et nous connaissons la taille de l’effet.

Étant donné la difficulté de gérer 1 000 000 de variables, les chercheurs calculent des scores polygéniques (PGS, GPS ou PRS). Un score polygénique résume toutes les informations sur tous ces polymorphismes d’ADN. Pour chaque site, la taille de l’effet de ce SNP sur le résultat est calculée. Par exemple, ici, avoir un C au lieu d’un A modifie le niveau d’éducation de -0,02 écart type, et ainsi de suite pour chaque site.

Les résultats GWAS de chaque personne sont pris en compte et si elle a une copie de C ici, son score est incrémenté de -0,02. Si elle a deux copies de G là et que la taille de l’effet de G est de +0,01, alors son score est augmenté de 0,02, et ainsi de suite. Au final, vous additionnez les effets de tous les SNP et vous obtenez le score polygénique, qui quantifie la prédisposition génétique globale de l’individu pour ce phénotype.

En général, le score polygénique prédit beaucoup moins de variance que tous les SNP du génome, mais on peut néanmoins prédire une quantité significative de variance, comme 5 % de la variance, ou 10 % de la variance, voire plus si on a de la chance. Dans cette étude, ils ont obtenu un score polygénique qui expliquait entre 12 et 16 % de la variance du niveau d’études, ce qui est considérable.

Pour illustrer ce type d’effet, prenons la prévalence du redoublement. Les élèves qui ont les 10 % de scores polygéniques les plus bas ont environ 30 % de risque de redoubler une classe, tandis que ceux qui se situent dans les 10 % de scores polygéniques les plus élevés ont environ 5 % de risque de redoubler une classe.

Connaître votre score polygénique ne détermine pas vraiment votre niveau d’éducation, ce n’est pas une très bonne prédiction individuelle. Mais si vous faites la moyenne sur les déciles de la population, vous pouvez voir à quel point l’effet est important. De même, si vous regardez le pourcentage de ceux qui finissent le lycée, il est d’environ 70 % dans le premier décile et de plus de 90 % dans le 10e décile. Si vous regardez le pourcentage de ceux qui obtiennent un diplôme de l’enseignement supérieur, il est d’environ 5 % dans le premier décile et de 60 % dans le 10e décile. Les scores polygéniques expliquent donc une partie des résultats scolaires.

Certains pourraient soutenir qu’un score polygénique expliquant seulement 12 % de la variance est négligeable. Cependant, lorsqu’on le compare à la variance expliquée par des variables sociales bien connues, telles que le niveau d’éducation de la mère et du père, qui expliquent chacun 15 % de la variance, ou le revenu du ménage, qui explique environ 7 % de la variance, il est clair que votre score polygénique, qu’il explique 10 %, 12 % ou 16 %, est du même ordre. Par conséquent, il doit être pris aussi au sérieux que toute variable sociale jugée importante.

Voici une étude qui examine l’impact combiné du revenu du père et du score polygénique du niveau d’étude sur l’obtention d’un diplôme universitaire. Les données sont représentées sur un graphique avec deux échelles sur l’axe des x : les quatre quartiles du revenu du père et les quatre quartiles du score polygénique. Comme prévu, un revenu paternel plus élevé est corrélé à un taux plus élevé d’obtention d’un diplôme universitaire. Cependant, au sein de chaque quartile de revenu, l’effet des différents scores polygéniques est également visible.

Cela montre les effets additifs du revenu du père et du score polygénique. Cela souligne qu’il n’y a pas de conflit entre les effets génétiques et sociaux. Si vous mesurez et analysez les deux, vous pouvez voir que les deux sont présents et contribuent conjointement au résultat.

Cette nouvelle étude explore les applications potentielles de ces résultats. L’une de ces applications est le sujet d’actualité de l’impact de l’exposition aux écrans sur le développement cognitif de l’enfant. L’hypothèse dominante est que l’exposition aux écrans affecte négativement le développement cognitif et la réussite scolaire. De nombreuses études soutiennent cette hypothèse, montrant une corrélation négative entre l’exposition aux écrans et ces variables.

D’autres hypothèses existent cependant. L’une d’elles est que les enfants dotés de certaines capacités cognitives seraient plus ou moins attirés par les appareils numériques, ce qui impliquerait une causalité inverse. Une autre hypothèse est que cette corrélation soit expliquée par des facteurs de confusion, comme le statut socioéconomique. Les différences d’exposition aux écrans pourraient être attribuées aux différences d’environnement familial et à leurs effets sur le temps passé par l’enfant devant un écran.

Si ces facteurs de confusion ne sont pas pris en compte, la corrélation entre l’exposition aux écrans et les capacités cognitives pourrait être mal interprétée. La plupart des sociologues savent que, pour interpréter correctement les données, il est important de contrôler le statut socioéconomique et les facteurs connexes. Mais ce ne sont pas les seuls facteurs de confusion possibles. Les enfants fortement exposés aux écrans peuvent également être génétiquement différents de ceux qui y sont moins exposés. Il serait donc prudent de contrôler la transmission génétique.

Malheureusement, la plupart des études ne le font pas. Cependant, une étude réalisée par des chercheurs suédois le fait. Ils ont utilisé la cohorte ABCD d’adolescents américains et ont mesuré trois types d’exposition aux écrans : regarder des vidéos, interagir sur les réseaux sociaux et jouer. Ils ont également recueilli des résultats cognitifs et éducatifs ainsi que des données génétiques.

Leurs résultats reproduisent la corrélation négative habituelle entre l’exposition aux écrans et les capacités cognitives. Cependant, ils ont également constaté que le statut socioéconomique et le score polygénique des capacités cognitives étaient corrélés négativement avec l’exposition aux écrans. Cela suggère que les deux variables devraient être ajustées dans tout modèle causal.

Dans leur étude, ils ont construit un modèle causal pour prédire les effets de différentes mesures du temps passé devant un écran sur les changements de scores d’intelligence entre deux temps. Après avoir ajusté le statut socio-économique et le score polygénique cognitif, ils ont découvert que derrière la corrélation initialement négative se cachait un effet légèrement positif ! (NB: cette étude est maintenant expliquée plus en détail dans un article dédié)

Il ne s’agit là que d’une étude et elle doit être répliquée. Elle nous rappelle toutefois l’importance de tenir compte des variables confondantes, notamment génétiques. Ne pas le faire pourrait conduire à des conclusions erronées. Ce n’est qu’un exemple de la manière dont ces résultats peuvent être appliqués, et il existe de nombreuses autres applications potentielles à envisager.

Permettez-moi de vous donner un autre exemple hypothétique, dans lequel vous voudriez comparer les effets de la scolarisation dans des écoles privées ou alternatives comme Montessori et dans des écoles publiques classiques. Bien sûr, les élèves des deux types d’écoles peuvent différer considérablement dans diverses mesures de performance scolaire, mais vous savez bien qu’il peut y avoir des facteurs de confusion. Il ne serait pas approprié d’estimer les effets de l’enseignement privé sans d’abord contrôler le statut socio-économique.

Là encore, dans une telle situation, il faut également tenir compte des facteurs génétiques confondants. Les enfants qui fréquentent les écoles publiques et privées peuvent avoir des prédispositions génétiques différentes, ce qui pourrait influencer leurs résultats scolaires.

Même dans le cadre d’une recherche interventionnelle, comme un essai contrôlé randomisé (ECR), il peut être important de s’assurer que les deux groupes comparés ne diffèrent pas significativement en termes de statut socioéconomique ou de prédispositions génétiques. Ces facteurs pourraient avoir un impact sur les résultats de l’ECR.

Il peut également y avoir des interactions au sens statistique. Par exemple, si le statut socioéconomique et les scores polygéniques peuvent avoir des effets additifs, ce n’est pas toujours le cas. De nombreuses interventions éducatives et sociales semblent fonctionner en moyenne, mais leurs résultats varient. Tous les élèves ne répondent pas aux mêmes interventions pédagogiques, ou encore on sait bien que tous les élèves dyslexiques ne répondent pas bien à la remédiation orthophonique.

Une hypothèse est que les prédispositions génétiques des individus pourraient expliquer pourquoi ils réagissent différemment à certains facteurs environnementaux ou interventions. Il pourrait donc être utile d’utiliser des scores polygéniques pour comprendre pourquoi les individus réagissent différemment à ces interventions.

En conclusion, il n’y a pas d’opposition ni de contradiction entre facteurs sociaux et facteurs génétiques. Le génome est un facteur de confusion majeur des influences sociales, et il est important d’en tenir compte dans toute étude observant des corrélations entre parents et enfants, ainsi que dans les études comparant des groupes. Il est possible de contrôler la transmission génétique dans les études sur les facteurs sociaux avec des données et une méthodologie appropriées. En outre, le génome peut également interagir avec les facteurs sociaux, ce qui élargit la portée et la complexité des modèles causaux que nous devrions prendre en compte.

Avec la baisse du coût du génotypage et la disponibilité croissante de bases de données contenant des données sur les enfants ou les adultes, y compris des données génétiques avec des résultats sociaux et éducatifs, il devient de plus en plus possible de répondre aux questions avec des contrôles génétiques appropriés. Même si vous ne collectez pas vous-même ces données, vous pourrez peut-être trouver la bonne base de données pour répondre de manière fiable à votre question.

Références

Je réalise tardivement que, contrairement à mes habitudes, ce texte manque de références. C’est parce qu’il s’agit de la transcription d’un exposé oral, les références étaient sur les diapos. Pour faciliter les recherches, je colle ci-dessous les références citées. Si vous avez des questions sur quel résultat justifie quelle affirmation, n’hésitez pas à demander des précisions en commentaire.

Galaburda, A. M., LoTurco, J., Ramus, F., Fitch, R. H., & Rosen, G. D. (2006). From genes to behavior in developmental dyslexia. Nature Neuroscience, 9(10), Article 10. https://doi.org/10.1038/nn1772

Krapohl, E., Hannigan, L. J., Pingault, J.-B., Patel, H., Kadeva, N., Curtis, C., Breen, G., Newhouse, S. J., Eley, T. C., O’Reilly, P. F., & Plomin, R. (2017). Widespread covariation of early environmental exposures and trait-associated polygenic variation. Proceedings of the National Academy of Sciences, 114(44), 11727–11732.

Lai, C. S., Fisher, S. E., Hurst, J. A., Vargha-Khadem, F., & Monaco, A. P. (2001). A forkhead-domain gene is mutated in a severe speech and language disorder. Nature, 413, 519–523.

Lee, J. J., Wedow, R., Okbay, A., Kong, E., Maghzian, O., Zacher, M., Nguyen-Viet, T. A., Bowers, P., Sidorenko, J., Linnér, R. K., Fontana, M. A., Kundu, T., Lee, C., Li, H., Li, R., Royer, R., Timshel, P. N., Walters, R. K., Willoughby, E. A., … Cesarini, D. (2018). Gene discovery and polygenic prediction from a genome-wide association study of educational attainment in 1.1 million individuals. Nature Genetics, 50(8), 1112–1121. https://doi.org/10.1038/s41588-018-0147-3

OECD. (2023). PISA 2022 Results (Volume I): The State of Learning and Equity in Education. Organisation for Economic Co-operation and Development. https://www.oecd-ilibrary.org/education/pisa-2022-results-volume-i_53f23881-en

Okbay, A., Wu, Y., Wang, N., Jayashankar, H., Bennett, M., Nehzati, S. M., Sidorenko, J., Kweon, H., Goldman, G., Gjorgjieva, T., Jiang, Y., Hicks, B., Tian, C., Hinds, D. A., Ahlskog, R., Magnusson, P. K. E., Oskarsson, S., Hayward, C., Campbell, A., … Young, A. I. (2022). Polygenic prediction of educational attainment within and between families from genome-wide association analyses in 3 million individuals. Nature Genetics, 54(4), Article 4. https://doi.org/10.1038/s41588-022-01016-z

Papageorge, N. W., & Thom, K. (2020). Genes, Education, and Labor Market Outcomes : Evidence from the Health and Retirement Study. Journal of the European Economic Association, 18(3), 1351‑1399.

Plomin, R., Owen, M. J., & McGuffin, P. (1994). The genetic basis of complex human behaviors. Science, 264(5166), 1733-1739.

Sauce, B., Liebherr, M., Judd, N., & Klingberg, T. (2022). The impact of digital media on children’s intelligence while controlling for genetic differences in cognition and socioeconomic background. Scientific Reports, 12(1), Article 1. https://doi.org/10.1038/s41598-022-11341-2

Teasdale, T. W., & Owen, D. R. (1981). Social class correlations among separately adopted siblings and unrelated individuals adopted together. Behavior Genetics, 11(6), 577–588.

Trzaskowski, M., . . . Plomin, R. (2014). Genetic influence on family socioeconomic status and children’s intelligence. Intelligence, 42, 83-88.

Von Stumm, S., Smith‐Woolley, E., Ayorech, Z., McMillan, A., Rimfeld, K., Dale, P. S., & Plomin, R. (2020). Predicting educational achievement from genomic measures and socioeconomic status. Developmental Science, 23(3), 1–8. https://doi.org/10.1111/desc.12925