Encore (et toujours?) la valeur-p!

le 12 mai 2014 à 17:54
dtalbot

Vous vous souvenez de cet article, paru dans Le Soleil et La Presse, qui essayait de vulgariser les conclusions de l’article scientifique de Johnson paru dans Proceedings of the National Academy of Sciences of the United States of America (PNAS), lequel suggérait de fortement réviser à la baisse le seuil critique utilisé en statistique? Je me souviens que mon Facebook a été inondé de partages de cet article. Bon, inondé est une exagération… mais disons que l’article a soulevé l’intérêt de mes amis dans le domaine de la recherche en général et de mes amis statisticiens en particulier. J’aimerais entamer une réflexion et si possible une discussion autour de la valeur-p.

Qu’est-ce que c’est exactement?

J’imagine que les membres de notre association n’ont pas vraiment besoin qu’on leur rappelle ce qu’est une valeur-p, mais juste au cas… Une valeur-p, ce n’est pas la probabilité que l’hypothèse nulle soit vraie ou la probabilité que l’hypothèse alternative soit fausse. En fait, ces deux quantités n’ont aucun sens d’un point de vue fréquentiste puisque les paramètres, sur lesquels portent les hypothèses statistiques, sont considérés comme des quantités fixes, bien qu’inconnues. Ce qui est considéré comme aléatoire en statistique fréquentiste, ce sont les données. La valeur-p est généralement définie comme la probabilité, si l’hypothèse nulle est vraie, d’observer un résultat aussi ou plus extrême que celui observé dans les données. Si la valeur-p est très faible, le résultat qu’on a observé est fortement improbable sous l’hypothèse nulle. La logique veut donc que si on obtient très peu de support en faveur de l’hypothèse nulle, on la décrète comme étant fausse et on accepte l’hypothèse alternative. Dans le cas contraire, on est dans une situation un peu floue. Ce n’est pas clair que si la valeur-p est élevée, c’est parce que l’hypothèse nulle obtient beaucoup de support de la part des données. Une valeur-p élevée peut aussi survenir parce que les données sont tout simplement peu informatives.

Le problème soulevé dans PNAS et la solution proposée

Dans l’article scientifique, que j’ai mis en référence, on soulève un problème bien réel et préoccupant : la non-reproductibilité des résultats d’études scientifiques. Évidemment, ce problème n’a pas une cause unique, mais bien des causes multiples qui passent de la planification des expériences scientifiques à leur analyse statistique. L’article publié dans PNAS semble attribuer la majeure partie du taux de non-reproductibilité à l’utilisation d’un seuil critique trop libéral. Il est proposé de réduire les seuils critiques usuels de 0.05 et de 0.01 à 0.005 et à 0.001 respectivement.

Afin de comprendre l’argumentaire de Johnson, il convient d’effectuer une brève introduction à (ou un bref rappel de) la statistique bayésienne. En statistique bayésienne, on considère grosso-modo les paramètres comme des variables aléatoires et les données comme des quantités fixes. On peut donc fixer une loi a priori aux paramètres, c’est-à-dire qu’on attribue à ces paramètres une distribution statistique basée sur les connaissances dont on dispose avant de conduire l’étude. À partir de ces lois a priori, on peut déterminer la probabilité a priori que l’hypothèse alternative soit vraie et la probabilité a priori que l’hypothèse nulle soit vraie ainsi que le rapport de ces deux quantités. En combinant les connaissances apportées par les données aux connaissances a priori, on peut déterminer le rapport a posteriori de la probabilité que l’hypothèse alternative soit vraie sur la probabilité que l’hypothèse nulle soit vraie.

Les conclusions d’un test d’hypothèses en statistique bayésienne se basent généralement sur le facteur de Bayes qui correspond au facteur d’augmentation du rapport a posteriori sur le rapport a priori des probabilités que l’hypothèse alternative soit vraie et que l’hypothèse nulle soit vraie. Le facteur de Bayes correspond donc d’une certaine manière au niveau de preuve contenu dans les données en faveur de l’hypothèse alternative. Bien qu’il n’y ait pas de consensus exact quant aux « valeurs critiques » pour le facteur de Bayes, des valeurs supérieures à 50 correspondent à des niveaux de preuves importants en faveur de l’hypothèse alternative et des valeurs supérieures à 150 correspondent à des niveaux de preuve très importants. (Notons qu’on pourrait argumenter que les lois a priori sont attribuées de façon un peu arbitraire. Il est ainsi commun de chercher à diminuer leur impact sur les conclusions. Dans ce cas, des lois a priori dites non-informatives peuvent être utilisées.)

L’argumentaire utilisé dans l’article du PNAS est basé sur une correspondance, pour certains tests statistiques simples, entre la valeur-p d’un test fréquentiste et le facteur de Bayes d’un test bayésien. Il se trouve que dans ces cas, un facteur de Bayes de 50 correspond à une valeur-p d’environ 0.005 et un facteur de Bayes de 150 correspond à une valeur-p d’environ 0.001.

Les problèmes avec la solution proposée dans l’article de PNAS

De l’aveu même de l’auteur de l’article paru dans PNAS, la solution implique des coûts supplémentaires pour effectuer des études. En effet, pour obtenir un même niveau de puissance, beaucoup plus de données devraient être récoltées. Il faut également mentionner que, pour des raisons logistiques ou éthiques, il est parfois impossible de récolter davantage de données.

Mon opinion sur le problème

À partir d’ici, j’énonce mon opinion personnelle sur le sujet qui n’implique ni l’ASSQ de façon générale, ni son conseil d’administration en particulier, ni les réviseurs du Convergence. Je crois que le problème énoncé dans PNAS est bien réel et mérite une attention particulière. Je suis convaincu que les statisticiens peuvent jouer un rôle afin de lutter contre ce problème. Cependant, je n’adhère pas à la solution proposée dans PNAS pour diverses raisons. D’une part, cette solution n’est pas toujours réaliste pour les raisons énoncées dans la section précédente. D’autre part, cette solution me semble trop rigide et ne tient pas suffisamment compte de la diversité des réalités des différents domaines d’application de la statistique. Voici donc mes quatre premières recommandations :

1. Rapporter les valeurs-p exactes;
2. Rapporter les intervalles de confiance;
3. Favoriser une interprétation des résultats basée sur les intervalles de confiance;
4. Combiner l’interprétation statistique des résultats et leur interprétation pratique.

Ces premières recommandations sont de plus en plus courantes dans la littérature scientifique. L’idée est de donner autant d’information que possible au lecteur pour lui permettre de bien interpréter les résultats. Les intervalles de confiance sont souvent considérés comme étant plus informatifs qu’une simple valeur-p parce qu’ils donnent un intervalle de « valeurs plausibles » pour les paramètres. Il faut également noter que la valeur estimée d’un paramètre peut être « statistiquement différente de 0 », sans être importante d’un point de vue pratique. Afin de ne pas donner de fausses impressions aux lecteurs, l’interprétation statistique des résultats devrait être combinée à une interprétation pratique.

Les quatre prochaines recommandations visent à reconnaître que les études n’ont pas toutes le même contexte et à donner une interprétation plus appropriée à la valeur-p selon le contexte :

5. Reconnaître la nature exploratoire ou confirmatoire des études;
6. Favoriser les tests choisis a priori pour les études confirmatoires;
7. Favoriser la correction des valeurs-p pour la multiplicité des tests dans les études confirmatoires;
8. Rapporter avec précision les différentes étapes effectuées dans l’analyse des données .

Dans une étude exploratoire, on cherche généralement à identifier des associations potentielles ou à identifier des facteurs de risque potentiels. On peut se permettre dans ce contexte d’explorer les données, d’effectuer de la sélection de variables ou de modèles basée sur les données ou d’effectuer plusieurs tests statistiques sans nécessairement corriger les seuils des tests. Par contre, il est important d’être conscient qu’en « partant à la pêche », on augmente la probabilité d’obtenir de faux positifs, c’est-à-dire des tests erronément « statistiquement significatifs ». On doit également être honnête dans la façon de rapporter les résultats pour que les lecteurs sachent que les conclusions obtenues sont préliminaires et auront besoin d’être confirmées ultérieurement.

Dans une étude confirmatoire, on cherche à confirmer des hypothèses précises, élaborées avant même que les données soient récoltées. Autrement dit, on ne choisit pas les hypothèses à vérifier en fonction des données observées. Afin d’obtenir les conclusions les plus solides possible, il convient de choisir les tests à effectuer et les modèles à utiliser sans se baser sur les données observées autant que possible. Si certains choix sont basés sur les données, les lecteurs doivent en être informés. Aussi, afin d’éviter une augmentation du niveau global de faux positifs, il peut convenir dans certaines circonstances d’effectuer une correction des valeurs-p pour la multiplicité des tests (par exemple, une correction de type Bonferroni); sans correction, si 20 tests statistiques sont effectués au niveau 5% alors que l’hypothèse nulle est vraie, en moyenne 1 test aura une valeur-p inférieure à 0.05 simplement par le fruit du hasard!

Votre opinion

C’est maintenant à votre tour de vous exprimer! Partagez votre opinion sur la recommandation de l’article de PNAS ainsi que sur les miennes, que vous soyez en accord ou non. Vous avez vos propres recommandations? Partagez-les également!

Denis Talbot, rédacteur en chef

Retour à la table des matières

FacebookTwitterGoogle+LinkedIn