Au sujet du «p-value»

le 24 mai 2012 à 10:06
dtalbot

Dans cet article, je vais effectuer un bref résumé d’un essai intéressant sur lequel je suis tombé il y a quelque temps déjà. Cet essai se veut sévère envers une interprétation courante du «p-value» et suggère une manière alternative d’interpréter les tests statistiques. Il s’agit de l’article Final collapse of the Neyman-Pearson decision theoretic framework and rise of the neoFisherian de Stuart H. Hulbert et Celia M. Lombardi publié dans Annales Zoologici Fennici en 2009.

L’utilisation courante du «p-value»

Les auteurs dénoncent vivement une interprétation fréquente du «p-value», le fameux seuil observé des tests statistiques qu’on utilise si régulièrement. En particulier, les auteurs en ont contre le fait de fixer à l’avance un seuil à partir duquel on décidera que le résultat est «significatif» ou est «non significatif».

D’une part, ils argumentent que cette dichotomisation du résultat est inutile et contribue à une perte d’information. En effet, une pratique courante veut qu’on fixe un seuil alpha avant d’effectuer le test, généralement 5%. Si le seuil observé du test est inférieur à ce seuil alpha, on interprète le résultat comme significatif, alors que si le seuil observé est plus grand que ce seuil, on interprète le résultat comme non significatif. Pourtant, le niveau de preuve en faveur de l’hypothèse alternative est sensiblement le même lorsque le seuil observé est de 0.049 que lorsque le seuil observé est de 0.051. Alors pourquoi donner une interprétation diamétralement opposée à ces deux résultats?

D’autre part, cette pratique de dichotomisation amène couramment, selon eux, une mauvaise interprétation des résultats. Plusieurs interprètent effectivement, à tort, un résultat non significatif comme étant une preuve en faveur de l’hypothèse nulle. Pourtant, on est averti dès les premiers cours de bases en statistique qu’un résultat non significatif ne constitue pas une acceptation de l’hypothèse nulle, mais simplement un non-rejet de l’hypothèse nulle. La nuance est légère, mais importante. Le non-rejet de l’hypothèse devrait en fait être vu comme une remise à plus tard du jugement sur l’hypothèse testée. La dichotomisation facilite cependant l’interprétation erronée de l’acceptation de l’hypothèse nulle.

Une interprétation alternative

Les auteurs suggèrent alors une utilisation alternative du fameux «p-value». Dans l’approche suggérée, les chercheurs sont appelés à ne pas fixer à l’avance un seuil alpha et à rapporter les seuils observés exacts, (donc à éviter de simplement rapporter des résultats comme significatifs ou non-significatifs). Ils appellent par ailleurs à interpréter le «p-value» comme une valeur sur un continuum du niveau de preuve observé à partir des données pour une hypothèse donnée. On interprétera alors un seuil observé très faible comme étant une preuve forte en faveur de l’hypothèse alternative, un seuil observé modéré comme étant une preuve modérée en faveur de l’hypothèse et un seuil élevé comme une absence de preuve en faveur de l’hypothèse alternative. Les auteurs mettent cependant en garde contre l’interprétation d’une absence de preuve comme étant une preuve de l’absence d’effet.

Cette interprétation du seuil observé selon un continuum, sans fixer de seuil alpha préalablement, peut sembler subjective. Les auteurs mentionnent cependant qu’étant donné que les seuils exacts sont rapportés, le lecteur est libre d’effectuer une interprétation différente des résultats puisqu’il dispose de toute l’information nécessaire pour le faire.

L’hypothèse de recherche et l’hypothèse statistique

Les auteurs discutent également du fait que l’interprétation porte trop fortement sur les résultats des tests concernant l’hypothèse statistique et insuffisamment sur l’interprétation par rapport à l’hypothèse de recherche. Ils proposent ainsi de supplémenter de façon courante les résultats des tests statistiques par des intervalles de confiance, des tailles d’effets standardisées, des tests de puissance statistique et d’autres outils. Selon eux, l’ajout de cette information complémentaire permettrait, par exemple, de voir que dans certains cas, bien que le résultat d’un test statistique donne une preuve forte en faveur de l’hypothèse alternative, le niveau de preuve en faveur de l’hypothèse de recherche est faible puisque l’intervalle de confiance est concentré sur des petites valeurs proches de zéro et que la taille d’effet standardisée est petite.

À l’opposé, on pourrait constater un seuil observé élevé du test statistique et constater sur la courbe de puissance statistique qu’une taille d’effet énorme aurait été nécessaire pour obtenir un seuil observé faible. La courbe de puissance permet donc de constater qu’un jugement concernant cette hypothèse ne peut pas du tout être porté à l’aide des données.

En conclusion

En conclusion, les auteurs proposent plusieurs changements, somme toute mineurs, dans la pratique courante. Évidemment, il serait difficile d’adopter du jour au lendemain l’approche qu’ils proposent. Ces pratiques, sans être radicalement différentes des pratiques courantes, diffèrent des normes utilisées dans plusieurs domaines. Par contre, la lecture de leur texte amène une réflexion sur notre propre pratique en tant que statisticiens et peut nous mener à incorporer certains éléments. Par exemple, on peut facilement rapporter les seuils observés exacts et interpréter les seuils observés entre 0.05 et 0.10 comme étant une tendance à vérifier dans des études ultérieures.

Denis Talbot

Retour à la table des matières

FacebookTwitterGoogle+LinkedIn