2.3.3 P hacking

Les termes p hacking ou data dredging désignent l’adaptation de l’analyse statistique en cours de réalisation, en fonction des résultats qu’elle produit. Ces adaptations peuvent concerner aussi bien la méthode statistique (choix de la méthode, transformation de variables, choix des covariables d’ajustement, etc.) que le jeu de données (exclusion de patients, gestion des évènements intercurrents, restriction de l’analyse à une sous population, etc.). Ces adaptations sont d’autant plus faciles à effectuer que l’étude nécessite une analyse statistique complexe, comme avec les études observationnelles par exemple.

Avec cette pratique, il est ainsi possible d’orienter les résultats dans la direction souhaitée, tout du moins en termes de signification statistique (d’où le nom de p hacking ) [17 , 18] .

Il a ainsi été montré qu’avec un même jeu de données, confié à des équipes scientifiques différentes ayant des conceptions théoriques antithétiques, il était possible d’obtenir des résultats très différents et même opposés [19 , 20] . L’étude perd ainsi sa valeur scientifique (assurée par le fait que la réponse à la question posée est fournie uniquement par les données) pour devenir une simple opération à produire les résultats escomptés. Il ne s’agit plus d’un test loyal d’une hypothèse thérapeutique où seule la réalité pourra la réfuter ou la confirmer, mais d’une démarche de recherche active de la façon d’analyser des données afin d’obtenir un résultat le plus proche de la réponse voulue ! Un p-hacking reverse a aussi été mis en évidence où l’analyse statistique est construite pour ne pas donner de différence significative [21] .

Cette potentialité peut être aussi illustrée par le concept de vibration des effets [18] . Il s’agit de visualiser l’ampleur suivant laquelle « vibrent » les différents résultats (taille d’effet et p value) obtenus par toutes les possibilités d’analyse d’une même recherche d’association. Ces vibrations peuvent déboucher dans certains cas sur des effets Janus où des résultats opposés sont obtenus à partir du même jeu de données.

Dans la littérature ces aspects sont souvent introduits par l’aphorisme dû à Ronald Coase : « if you torture the data long enough, it will confess to anything » note n° ^⁵ . On parle aussi de data-dredging ou partie de pêche [22 , 23] .

La solution réside dans la conception a priori de l’analyse statistique, complètement indépendante des données et des résultats produits. Cela est obtenu par l’élaboration d’un plan d’analyse statistique (statistical analysis plan , SAP) en amont de la disponibilité des données. Ainsi aucune adaptation de la stratégie d’analyse ne peut s’effectuer au moment de sa réalisation (sans que cela soit détectable en comparant le plan d’analyse statistique et l’analyse effectivement réalisée).

En pratique il faut bien ici distinguer « stratégie » et « modalités ». Les caractéristiques des variables peuvent amener à modifier les modalités d’analyses dans le respect de la stratégie définie. Les possibilités d’adaptation ou les différents choix qui devront être fait au regard des caractéristiques des variables peuvent tout à fait être spécifié dans le PAS avant que les données ne soient rendues disponibles.

Cependant, pour les études réalisées a posteriori (on parle aussi d’études historiques) sur données secondaires, le SAP sera par définition élaboré alors que les données sont déjà disponibles. Pour donner la garantie de l’absence de tout p hacking (choix post hoc des variables d’ajustements, de la population d’analyse, des définitions des expositions et des critères de jugement), de publication sélective en fonction des résultats, de HARKing ou autre opération de data dredging, il est impératif que soit explicitement mentionné dans le protocole et le rapport de l’étude que l’analyse a été conçue indépendamment des données et des résultats produits [24] .

Pour lever ces réserves, ces études doivent donner la garantie qu’elles ont bien procédé à une validation prospective a priori sur des données historiques d’une hypothèse formulée a priori. L’enregistrement des protocoles et des plans d’analyses statistiques, l’utilisation d’algorithme standard de phénotype, la transparence et l’attestation explicite de l’absence de ces pratiques par les investigateurs sont des éléments permettant de lever ces réserves [24 , 25 , 26] .

L’initiative ENCePP et le ENCePP sceal avec dépôt préalable des protocoles d’études façon clinicaltrials.gov pourraient ici être mentionné comme exemple d’initiative permettant de vérifier la concordance entre la démarche finale et la conception initiale de l’étude.

[5] https://en.wikiquote.org/wiki/Ronald_Coase