Beaucoup d’enseignants se posent la question légitime de savoir quelle méthode pédagogique est la plus efficace pour atteindre un but donné. Par exemple, parmi toutes les méthodes d’enseignement de la lecture, y en a-t-il certaines qui, mieux (ou plus rapidement) que les autres, permettent aux élèves de reconnaître les mots de manière précise, rapide et fluide, de manière à améliorer leur compréhension et leur plaisir en lecture ? La seule manière de le savoir est d’expérimenter différentes méthodes.

Bien souvent, des enseignants (ou des chercheurs en éducation) essayent une méthode sur des élèves, et se font un avis sur l’efficacité de la méthode en se basant sur les effets observés sur les élèves. Cette démarche est tout à fait naturelle. Elle est le point de départ de toutes les recherches en éducation. Néanmoins, elle ne fournit qu’un niveau de preuve limité. Cette affirmation d’un niveau de preuve limité n’est pas toujours bien perçue ni bien comprise. Il est donc important de la justifier. Cet article[1] va expliquer précisément pourquoi ce niveau de preuve est considéré comme limité.

A l’inverse, de nombreux chercheurs en éducation argumentent que la meilleure méthode pour déterminer l’efficacité d’une pratique pédagogique est l’essai randomisé contrôlé. A nouveau, cette affirmation n’est pas toujours bien perçue, elle est même souvent contestée. Il est donc important de la justifier, ce que va également faire cet article.

Notre argument est que les deux points ci-dessus sont étroitement reliés : c’est pour pallier les limites des observations informelles des effets des pratiques sur les élèves que les différents ingrédients méthodologiques de l’essai randomisé contrôlé ont été assemblés.

« On voit bien que ça marche »

Pour bien comprendre les limites de l’observation informelle, il est utile de faire un détour par l’histoire de la médecine. Rappelons-nous la saignée, cette pratique consistant à vider le patient d’une partie de son sang, utilisée depuis la Grèce antique pour traiter une très grande variété de maux. Bien évidemment, la saignée n’a jamais rien soigné[2] : elle avait pour effet objectif de détériorer l’état des patients, parfois jusqu’à la mort[3]. Pourtant, cette pratique, adoptée par la médecine occidentale, n’a été sérieusement remise en cause qu’au début du 19ème siècle. Les médecins l’ont pratiquée, chacun sur des centaines de patients, en ont observé les effets sur leurs patients, et « ils ont bien vu que ça marchait ». Malgré l’effet objectivement négatif de cette pratique sur la santé des patients, ils sont restés convaincus qu’elle avait un effet positif. Tellement convaincus qu’ils ont transmis cette pratique à la génération suivante, et ainsi de suite pendant 2000 ans.

La saignée. Photographie d’un tableau au musée de Saint Denis, Jnjoffin, Wikimedia.

Comment un tel aveuglement est-il possible ? De toute évidence, la simple observation des patients par les médecins ne leur suffit pas à avoir une évaluation objective de l’évolution de leur état de santé.

Vous pensez peut-être que les médecins d’antan avaient une bien piètre formation, et que les médecins du 21ème siècle, forts de 10 années de formation scientifique pointue, ne pourraient jamais être victimes d’un tel aveuglement. Et pourtant, on en voit encore des exemples tous les jours. Par exemple, au 21ème siècle, de nombreux médecins donnent encore à leurs patients des remèdes homéopathiques (ou pratiquent bien d’autres pseudo-médecines), et ont l’impression que ça fait du bien à leurs patients, alors même qu’ils n’ont aucune efficacité objective[4]. En 2020, au cours de la pandémie de COVID-19, on a vu des professeurs de médecine réputés être parmi les meilleurs médecins et chercheurs de leur spécialité, tester tel médicament sur leurs patients, et « ils ont bien vu que ça marchait ». Pourtant, toutes les évaluations rigoureuses conduites en France et ailleurs dans le monde ont montré que ça ne marchait pas[5]. Tels les médecins d’antan pratiquant la saignée, ces médecins de 2020 se sont leurrés en évaluant l’effet d’un traitement sur leurs patients avec une méthodologie à faible niveau de preuve.

De ce point de vue, les enseignants ne sont pas supérieurs aux médecins. Pour exactement les mêmes raisons, lorsqu’ils observent les effets de leurs pratiques pédagogiques sur leurs élèves, et « qu’ils voient bien que ça marche », ils courent un grand risque de se leurrer.

Biais cognitifs et limites de l’observation

Mais pour quelles raisons ? Quel est le problème fondamental de ce genre de méthodes observationnelles ? Il y a en fait de nombreux problèmes, qui découlent principalement du fait que le cerveau humain n’a pas été sélectionné pour déterminer de manière infaillible des liens de cause à effet. Au contraire, nos capacités d’observation et de raisonnement sont limitées. Nous détectons facilement des corrélations, et nous en déduisons souvent des liens de cause à effet, mais le plus souvent nous nous trompons. Tous les êtres humains sont concernés, médecins et enseignants compris.

Premièrement, les observations informelles sont biaisées par les attentes des médecins, de telle sorte que lorsqu’ils sont convaincus de l’efficacité d’un traitement, ils ont tendance à en surestimer les bénéfices observés et à en ignorer les effets délétères. Deuxièmement, quand bien même les médecins se donnent les moyens d’évaluer objectivement l’état de leurs patients, ils n’ont aucune possibilité de déterminer si l’évolution de leur état est due au traitement prescrit ou à d’autres facteurs. En effet, dans la plupart des maladies, l’état des patients s’améliore spontanément avec le temps, sans que cela ait quoi que ce soit à voir avec le traitement.

De même, les observations des progrès des élèves par les enseignants (et même par les chercheurs au fond de la classe) sont biaisées par leurs attentes et leurs croyances. Quand bien même ils évaluent objectivement les progrès des élèves, ils sont dans l’incapacité de déterminer si leur intervention est bien la cause de ces progrès. De fait, au cours de toute intervention pédagogique, le temps passe, l’enfant accumule des expériences, se développe, et en se développant ses capacités cognitives augmentent et ses apprentissages progressent. La conclusion, c’est que s’ils ne s’appuient que sur leurs propres observations informelles de leurs patients ou de leurs élèves, les médecins et les enseignants courent un grand risque de se leurrer sur l’effet de leurs traitements et de leurs pratiques pédagogiques.

Les médecins, les enseignants, comme tous les êtres humains, sont soumis à des biais cognitifs bien connus, qui altèrent leur capacité à évaluer leurs propres pratiques : observations subjectives influencées par les attentes, estimation incorrecte des probabilités, biais de confirmation, mémoire sélective, non prise en compte de l’évolution spontanée, etc. Il y a également des problèmes plus épineux, comme l’impossibilité de savoir ce qui se serait passé si l’on avait procédé autrement. C’est précisément pour cette raison que l’on a mis au point des protocoles permettant d’évaluer objectivement l’effet des traitements en déjouant les multiples sources de leurres. C’est cette approche qui a pris le nom de médecine fondée sur des preuves, qui est aujourd’hui le standard incontournable de toute la médecine. L’éducation fondée sur des preuves est l’application des mêmes principes à l’éducation, pour les mêmes raisons.

Le point épistémologique plus général qu’illustre les exemples de la saignée, de l’homéopathie ou des traitements pour la COVID-19 est qu’il ne suffit pas, pour prouver une hypothèse sur l’efficacité d’un traitement ou d’une méthode, de trouver des observations qui semblent compatibles avec elle (« les élèves ont progressé »). Encore faut-il parvenir à montrer que des hypothèses alternatives  (« les élèves ont progressé pour d’autres raisons que ma super méthode ») n’expliquent pas aussi bien ou mieux les observations. Autrement dit, il ne faut pas juste chercher à recueillir des données qui sont compatibles avec l’hypothèse. On peut toujours en trouver, pour tous les traitements et toutes les méthodes, puisqu’avec le temps les patients et les élèves progressent en moyenne. Il faut imaginer d’autres hypothèses, expliciter les prédictions respectives des différentes hypothèses en concurrence, et collecter des données qui permettent de tester ces prédictions là où elles diffèrent, et qui par conséquent permettent de départager les différentes hypothèses. C’est l’essence même de la démarche scientifique.

Prendre en compte les hypothèses alternatives

Explicitons cette démarche avec un cas d’école. Imaginons un enseignant qui invente une nouvelle pratique pédagogique (Méthode A) qui vise à améliorer une certaine Compétence cible ou une autre caractéristique bien définie. L’enseignant l’essaie sur ses élèves, constate que ses élèves semblent bien progresser, et en déduit donc que cette méthode marche. Comme les médecins qui pratiquaient la saignée et qui voyaient bien que ça soignait, il court un grand risque de se leurrer. Reformulons cette situation de manière scientifique, c’est-à-dire sous forme d’hypothèse, sans préjuger du résultat.

·        Hypothèse 1 : la méthode A a causé les progrès des élèves. Cette hypothèse prédit qu’à la suite de la Méthode A, les élèves auront progressé. Mais nous allons voir que cette prédiction est insuffisante.

En effet, si l’on veut s’assurer que cette Hypothèse 1 est correcte, alors il faut parvenir à rejeter plusieurs hypothèses alternatives, qui pourraient expliquer les mêmes observations.

  • Hypothèse 2 : Les élèves n’ont en fait pas progressé (ou pas autant que l’enseignant ne le croit).
    En effet, si l’enseignant n’a pas mesuré objectivement les progrès des élèves dans la Compétence cible, il peut parfaitement se leurrer quant à leurs progrès (à cause des mêmes biais cognitifs qui faisaient que les médecins qui pratiquaient la saignée croyaient que l’état de leurs patients s’améliorait). Cette hypothèse prédit que si on mesure objectivement les progrès des élèves (par des tests), on constatera qu’ils n’ont pas progressé.
  • Hypothèse 3 : Les progrès des élèves sont sans lien causal avec la méthode A.
    Par exemple, les progrès des élèves pourraient juste correspondre à leur développement cognitif spontané pendant la période d’observation, ou à des apprentissages faits en dehors de la classe indépendamment de la Méthode A. Cette hypothèse prédit que si l’on refait l’expérience sur une même durée avec un autre groupe d’élèves sans la Méthode A, ils progresseront autant qu’avec la Méthode A.
  • Hypothèse 4 (dans le cas où l’on a comparé deux groupes d’élèves A et B): Les élèves du groupe A ont progressé plus que le groupe B (ou sont meilleurs à la fin), simplement parce qu’ils étaient différents au départ.
    Peut-être étaient-ils déjà meilleurs dans la Compétence cible, ou avaient-ils plus de marge de progression, ou de capacité à progresser.
  • Hypothèse 5 : Les progrès des élèves sont dus au fait qu’ils faisaient l’objet d’une expérience, plutôt qu’à la Méthode A.
    Par exemple, le seul fait que l’enseignant emploie une méthode pédagogique nouvelle, inhabituelle, rompant la routine, est susceptible d’avoir engendré un regain d’attention et des progrès chez les élèves. Il se pourrait aussi que l’enseignant, plein d’enthousiasme pour la Méthode A, ait communiqué cet enthousiasme aux élèves, engendrant ainsi des progrès. Dans un cas comme dans l’autre, ces progrès peuvent être intéressants, mais ils ne sont pas dus à la Méthode A en tant que telle. Si l’on veut évaluer l’efficacité de la Méthode A, il faut s’assurer que les progrès ne sont pas seulement dus à un tel effet, parfois appelé effet Hawthorne, et similaire à l’effet placebo en médecine. Pour cela, il faut arriver à rejeter les prédictions de l’Hypothèse 5. Ces prédictions sont que, si l’on refait l’expérience avec un autre groupe d’élèves et une autre méthode nouvelle, inhabituelle, pour laquelle l’enseignant est enthousiaste, les progrès seront identiques à ceux observés avec la Méthode A.

Ne pas prendre en compte ces hypothèses alternatives, c’est prendre le risque de se leurrer. Toute recherche qui produit des données compatibles avec l’Hypothèse 1 de l’efficacité de la Méthode A, sans prendre le soin de tester ces hypothèses alternatives et de montrer qu’elles ne peuvent pas expliquer aussi bien les données, ne peut en fait rigoureusement pas conclure que l’Hypothèse 1 est confirmée. Cela n’implique pas qu’elle soit inutile : les nouvelles pratiques sont souvent inventées à partir des intuitions et des essais informels des enseignants. Mais ces derniers ne peuvent pas constituer une preuve. Ils doivent être suivies d’une recherche plus rigoureuse pour pouvoir aboutir à un début de preuve.

L’essai randomisé contrôlé

Voyons maintenant comment tester les prédictions de ces hypothèses alternatives et donc départager les différentes hypothèses.

Hypothèse alternative

Méthodologie

Hypothèse 2 : Les progrès ne sont qu’apparents: en réalité, les élèves n’ont pas progressé

Mesurer objectivement le niveau des élèves dans la Compétence cible avant l’intervention pédagogique, et après.

Idéalement, les tests devraient être administrés par une personne différente de l’enseignant ou du chercheur à l’origine de l’hypothèse, et qui ignore à quelle méthode les élèves ont été exposé, afin d’éviter des biais de mesure liés aux attentes et aux croyances de l’observateur.

Hypothèse 3 : Les progrès des élèves sont sans lien causal avec la méthode A.

Comparer un groupe d’élèves (A) qui reçoit la Méthode A, et un groupe témoin (B) qui ne la reçoit pas. Si le groupe A progresse significativement plus que le groupe B (comparaison statistique), alors on peut en conclure que la Méthode A est plus efficace que ce à quoi ont été exposés les élèves du groupe B.

Hypothèse 4 : Les élèves des deux groupes étaient différents au début de l’expérimentation, c’est pour cela qu’ils sont différents à la fin.

S’assurer que les groupes d’élèves qui sont comparés ne diffèrent pas avant le début de l’expérimentation, ni dans la Compétence cible, ni dans tout autre caractéristique (sociale, cognitive) qui pourrait influencer la capacité à progresser dans cette compétence.

Il est donc utile de mesurer ces Compétences et caractéristiques avant le début de l’expérience, et de les comparer entre les deux groupes. Néanmoins, comme il est en pratique impossible de mesurer toutes les caractéristiques pouvant potentiellement avoir un effet, la meilleure méthode est :

  • De répartir les élèves entre les deux groupes de manière aléatoire (par tirage au sort).
  • De tester des groupes d’élèves avec de grands effectifs.

Ces deux conditions permettent d’assurer que les deux groupes auront très peu de risque de différer sur quelque caractéristique que ce soit en moyenne.

Si les groupes comparés ont des enseignants différents, alors les remarques ci-dessus devraient aussi s’appliquer aux enseignants.

Hypothèse 5 : Les progrès des élèves sont dus au fait qu’ils faisaient l’objet d’une expérience, plutôt qu’à la Méthode A.

S’assurer que le groupe B n’est pas juste soumis à l’enseignement habituel sans changement. Il doit lui aussi être soumis à une intervention, administrée par un enseignant enthousiaste, mais il doit s’agir d’une intervention qui n’est pas censée améliorer la compétence cible.

Par exemple : si la Méthode A concerne l’enseignement de la lecture, la méthode B peut :

  • Être une autre méthode de lecture. Si le groupe A progresse plus que le groupe B, on pourra alors en conclure que l’efficacité de la Méthode A sur l’apprentissage de la lecture est supérieure à celle de la Méthode B.
  • Porter sur un autre apprentissage (par exemple les mathématiques). Ainsi, le groupe témoin fait partie d’une intervention, peut en tirer un bénéfice potentiel, mais pas sur la lecture. Si le groupe A progresse plus que le groupe B en lecture, on pourra alors en conclure que la Méthode A est une méthode plus efficace que l’enseignement de la lecture reçu par le groupe B, et qu’il ne s’agit pas simplement d’un effet Hawthorne.

L’ensemble de ces ingrédients constitue la méthodologie de ce qu’on appelle l’essai randomisé[6] contrôlé.

Si l’on constate que le Groupe A progresse significativement plus que le Groupe B, et que l’on a bien adopté toutes les méthodes listées dans le tableau, alors on pourra conclure que les Hypothèses alternatives 2, 3, 4 et 5 sont peu plausibles, et par conséquent que l’hypothèse la plus plausible pour expliquer les données est l’Hypothèse 1 : non seulement les élèves progressent avec la Méthode A, mais il semble bien qu’il y ait un lien causal entre l’usage de la Méthode et les progrès des élèves.

Cette liste de méthodes peut sembler très longue, très lourde et très coûteuse à mettre en œuvre. C’est parfaitement vrai. L’essai randomisé contrôlé n’est pas à la portée d’un enseignant qui souhaite tester une nouvelle idée, ni même à la portée d’un établissement. Un appui méthodologique de la part de chercheurs est nécessaire, ainsi que des moyens et une organisation particulière permettant de mettre en place l’intervention témoin et le tirage aléatoire. Faire un essai randomisé contrôlé est compliqué, même pour les chercheurs. Si on pouvait atteindre le même niveau de preuve plus simplement, on le ferait. Mais on ne peut pas.

En effet, chaque ingrédient méthodologique mentionné ci-dessus est justifié soit par la nécessité de contrôler des biais dont la réalité est démontrée, soit par la nécessité de tester rigoureusement l’hypothèse considérée contre des hypothèses alternatives (dont il est également démontré qu’elles sont justes dans certains cas). Dès que l’on omet l’un de ces ingrédients méthodologiques, on échoue à rejeter l’une des hypothèses alternatives, et alors on ne peut pas rigoureusement conclure que l’Hypothèse 1 est correcte. On a peut-être obtenu des résultats compatibles avec l’Hypothèse 1, mais on ne l’a pas prouvée.

Pour revenir aux deux questions que nous avons soulevées en introduction :

  • Pourquoi l’observation informelle par l’enseignant (ou un chercheur) des effets de sa pratique sur les progrès de ses élèves est-elle une méthode qui a un niveau de preuve limité ? Parce que l’hypothèse selon laquelle les progrès des élèves ont été causés par la pratique de l’enseignant n’est qu’une hypothèse parmi d’autres. Pour prouver que cette hypothèse est juste, il faut arriver à montrer que les hypothèses alternatives qui pourraient expliquer les mêmes observations sont fausses.
  • Pourquoi l’essai randomisé contrôlé est-il considéré comme la méthode d’expérimentation ayant le plus haut niveau de preuve ? Parce qu’il incorpore dans sa méthodologie tous les ingrédients permettant de tester et éventuellement de rejeter les hypothèses alternatives.

La hiérarchie des niveaux de preuve

L’essai randomisé contrôlé constitue donc le niveau de preuve le plus élevé. C’est ce vers quoi l’on doit tendre. Mais bien entendu, ce n’est pas un standard que l’on peut exiger des enseignants, ni même de tous les chercheurs. Il est de plus matériellement impossible de tester toutes les idées des enseignants de cette manière. Il est donc normal qu’il existe tout un continuum de méthodes, de plus en plus sophistiquées, incorporant de plus en plus d’ingrédients méthodologiques permettant de rejeter des hypothèses alternatives, et participant progressivement à la construction d’une preuve d’efficacité:

  1. Il est tout à fait normal qu’un enseignant ayant une nouvelle idée souhaite la tester avec ses élèves. Il doit juste être conscient que ses observations informelles ne fourniront pas de preuve. Elles alimenteront simplement son intuition sur l’efficacité de la méthode.[7]
  2. Si les observations informelles d’un enseignant suggèrent qu’il est sur une bonne piste, alors la prochaine étape serait de tenter une véritable expérimentation. Pas un véritable essai randomisé contrôlé à grande échelle, mais une expérience à petite échelle (quelques classes), avec a minima des mesures objectives des compétences cibles avant et après intervention, et autant que possible un groupe contrôle. Le niveau de preuve obtenu sera plus élevé que pour les observations informelles, mais certaines hypothèses alternatives ne seront pas rejetées, et donc on ne pourra pas conclure définitivement.
  3. Une fois qu’une ou plusieurs expériences ont fourni suffisamment d’éléments à l’appui d’une méthode, alors il peut être légitime de chercher à obtenir le niveau de preuve le plus élevé, en menant un essai randomisé contrôlé. A ce stade, la collaboration entre enseignants et chercheurs est indispensable, de même qu’une échelle dépassant celle d’un seul établissement.
  4. Une fois qu’un ou plusieurs essais randomisés contrôlés ont été menés et se sont avérés concluants, une dernière étape peut être utile : le passage à grande échelle. En effet, déployer une nouvelle pratique pédagogique à grande échelle, auprès de nombreux enseignants qui ne sont pas tous nécessairement volontaires et motivés (contrairement à la plupart des expériences à petite échelle), comporte de nombreux défis supplémentaires et peut échouer pour bien des raisons. Néanmoins, ce n’est qu’à l’issue d’une telle étude de passage à l’échelle que l’on serait véritablement fondé à engager une réforme pédagogique au niveau national.

Il ne s’agit donc pas de dire qu’il n’y a point de salut en dehors de l’essai randomisé contrôlé, et que ce standard le plus élevé doit s’imposer à tous en toutes circonstances. Il y a de la place pour une diversité de méthodes. Néanmoins, il serait sain que chacun comprenne les limites des différentes méthodes, et lors de la discussion de résultats d’expérimentations, soit capable de situer chaque résultat dans la hiérarchie des niveaux de preuves. Les débats en éducation y gagneraient en qualité. Les recherches en éducation y gagneraient aussi. En situant chaque hypothèse pédagogique dans la hiérarchie, il apparaitrait mieux quelles étapes suivantes sont nécessaires afin de faire progresser le niveau de preuve, et donc d’apporter une réponse plus fiable aux questions qui sont posées.

La pyramide des preuves. Infographie de Stéphane Ponzi.

Au-delà de l’essai randomisé contrôlé

Une fois qu’une hypothèse a été testée par essai randomisé contrôlé, la messe est-elle définitivement dite ? Non, bien sûr. Un essai randomisé contrôlé n’est qu’une étude, et une étude a toujours des limites : l’effectif peut être limité, les mesures peuvent être de qualité limitée, la méthodologie peut avoir été imparfaitement suivie, les groupes peuvent avoir été différents au départ par hasard malgré le tirage au sort, etc. Il est fort possible qu’un nouvel essai randomisé contrôlé sorte la semaine suivante et affiche le résultat opposé. Cela se voit couramment. Le résultat d’une seule étude, même au plus haut niveau de preuve, n’est donc jamais une conclusion définitive. Ce n’est que par l’accumulation de multiples études que l’on peut déterminer si les résultats montrent une tendance fiable, malgré les inévitables contradictions. Les méta-analyses, qui synthétisent les résultats de multiples études, permettent de déterminer cette tendance de manière fiable, et définissent donc le sommet de la pyramide des preuves.

Un essai randomisé contrôlé n’est qu’une étude, et une étude donne toujours un résultat qui est valable sur la population et dans les conditions dans lesquelles elle a été menée. La généralisation à d’autres populations ou d’autres conditions peut être hasardeuse. Parfois, cette dépendance du résultat au contexte est brandie comme la preuve que ces études sont irrémédiablement biaisées ou inutiles. Ce n’est pas la bonne conclusion. Dans quelle mesure les résultats d’une étude sont généralisables à d’autres populations, d’autres pays, d’autres contextes éducatifs? C’est à nouveau une question scientifique, qui est parfaitement testable. Il suffit pour cela de reproduire de telles études à travers de multiples populations, pays, et contextes. Si les résultats sont invariablement les mêmes, c’est qu’ils étaient bien généralisables. S’ils varient en fonction de la population ou du contexte, alors c’est un résultat intéressant aussi. C’est d’ailleurs l’enjeu de nombreuses recherches en éducation que de comprendre dans quelle mesure certaines pratiques pédagogiques conviennent à tous les élèves, et dans quelle mesure elles conviennent à certains plus qu’à d’autres (et dans ce cas, que peut-on proposer de mieux à ces derniers?).

Par conséquent, le fait que le résultat d’un essai randomisé contrôlé (comme toute étude) soit nécessairement dépendant de la population et du contexte dans lequel il a été effectué ne peut pas être un argument générique contre les essais randomisés contrôlés. Au contraire, c’est une bonne raison pour en conduire plus, dans des populations et des contextes différents. Lorsqu’un certain nombres d’études ont été menées sur une même intervention pédagogique, à travers plusieurs populations ou contextes, les méta-analyses qui en synthétisent les résultats sont capables de déterminer rigoureusement dans quelle mesure les effets dépendent de la population et du contexte, et dans quelle mesure ils sont généraux.

Conclusions

Si l’on veut que la qualité de l’enseignement progresse, il faut que la qualité de la recherche en éducation progresse. Pour cela, il est absolument crucial que tous les enseignants et tous les chercheurs en éducation réalisent les limites des méthodes observationnelles qui « montrent bien que ça marche ». Il est véritablement difficile de prendre conscience qu’on peut être trompé par ses propres observations, qu’on peut avoir l’impression d’observer des progrès qui sont fictifs, ou qui ne sont pas dus à la pratique pédagogique expérimentée. C’est un grand exercice d’humilité pour tous, enseignants, chercheurs, technocrates et décideurs dans le domaine de l’éducation, qui ont tous des opinions sur de nombreux sujets, basées sur leurs observations.

Ce que nous avons montré ici, c’est finalement qu’obtenir des réponses fiables sur « ce qui marche en éducation » est difficile, extrêmement difficile. Beaucoup plus difficile que ne l’imaginent la plupart des gens, des enseignants, des décideurs et même des chercheurs en éducation. Une telle difficulté, qui devrait conduire à une très grande humilité, contraste de manière saisissante avec la facilité avec laquelle chacun s’autorise à donner son opinion sur ce qui marche.

Dans un débat rationnel sur les questions d’éducation, toute personne qui affirme que « telle pratique pédagogique marche » devrait être capable :

  1. De donner les sources sur lesquelles elle s’appuie : Quelle(s) étude(s) scientifique(s) ? Publiée(s) où ? A défaut, quel rapport ? Quelles observations ? Où peut-on en consulter les résultats pour se faire son propre avis ?
  2. De préciser la méthodologie qui a été utilisée.
  3. D’expliciter quelles hypothèses alternatives ont été rejetées, et comment.
  4. De situer le résultat dans la hiérarchie des niveaux de preuves.

Je rêve d’un monde où toutes les personnes qui assènent leur opinion sur des pratiques pédagogiques respecteraient ces quelques principes. A défaut, dans la mesure où il n’est pas question de restreindre la liberté d’expression, ces critères fournissent une grille d’évaluation que chacun peut appliquer aux affirmations qui sont émises quotidiennement dans le domaine de l’éducation, ou encore une liste de questions que l’on devrait systématiquement poser à tous ceux qui font de telles affirmations.


[1] Des extraits de cet article sont également inclus dans le rapport « La recherche translationnelle en éducation : Pourquoi et comment ? » publié en 2020 par le Conseil scientifique de l’éducation nationale.

[2] A part quelques maladies très particulières, comme l’hémochromatose.

[3] Lire par exemple le récit de la mort de George Washington dans l’article de Singh & Ernst (2011).

[5] A propos de l’efficacité des traitements pour la COVID-19, voir la synthèse de la Société française de pharmacologie et de thérapeutique.

[6] L’anglicisme « randomisé » fait référence au tirage aléatoire des élèves dans les deux groupes.

[7] Même à ce niveau, il y a moyen de faire mieux que des observations totalement informelles. Par exemple, le Collectif Profs-Chercheurs fournit un cadre qui permet aux enseignants de préciser leurs questions et de mener leurs observations de manière plus rigoureuse, de manière à renforcer ce premier niveau d’évaluation et à mieux identifier les pratiques prometteuses qui mériteraient d’être évaluées de manière expérimentale.