6.3 Multiplicité et inflation du risque alpha global global

L’inflation du risque alpha gobal peut être illustrée de manière assez simple sans recours à aucune formule mathématique. Considérons un traitement sans aucun effet et imaginons que 100 essais randomisés versus placebo ont été réalisés. Sur ces 100 essais, on accepte donc de conclure à tort à l’intérêt du traitement dans cinq d’entre eux, mais pas plus ! (Risque alpha à 5%, on ne rentre pas dans la problématique du test bilatéral pour simplifier note n° 7 ). Imaginons aussi que 4 critères de jugement complètement différents sont analysés, et qu’il est possible de trouver un intérêt au traitement à partir du moment où un quelconque de ces 4 critères montre un effet du traitement statistiquement significatif à son niveau.

Parmi ces 100 essais réalisés, 5 d’entre eux auront un p<0.05 sur le 1 ^er critère de jugement et permettront de conclure à l’intérêt du traitement. L’examen du 2 ^ème critère aura lieu pour 95 essais (100-5). Parmi ces 95 essais, 5 auront un p<0.05 (5% de 95 ≈5) et permettront de conclure à l’intérêt du traitement. Cela laisse ≈90 essais qui sont négatifs sur le 1 ^er et le 2 ^ème critère. Parmi ces 90, ≈5 auront un p<0.05 sur le 3 ^ème critère et permettront de conclure à l’intérêt du traitement et finalement il restera ≈85 essais pour lesquels le 4 ^ème critère sera examiné et qui donneront ≈4 nouvelles occasions (5% de 85) de conclure à l’intérêt du traitement. Au total, globalement, il y aura eu 5+5+5+4=19 occasions de conclure à tort à l’intérêt d’un traitement qui en est dépourvu en réalité. Le risque alpha global est donc de 19/100 = 19% ce qui montre l’importance du processus d’inflation du risque alpha global lorsqu’une multiplicité (multiplicity ) des comparaisons statistiques est présente.

Maintenant, comment pourrait-on toujours continuer à envisager 4 critères pour déterminer l’intérêt du traitement sans que cela n’induise d’inflation du risque alpha global. Une solution simple est de ne retenir que les tests où le p est inférieur à 5%/4 = 1.25%. Cela conduira à donner lors du 1 ^er test que 1.25 occasion de conclure à l’intérêt du traitement, puis 1.25% * (100-1.25) ≈1.25 nouvelles occasions lors de l’examen du 2 ^ème test, puis encore 1.25 et 1.25 pour le 3 ^ème et 4 ^ème test. Au total il y aura 1.25+1.25+1.25+1.25 = 5 occasions de conclure à l’intérêt du traitement à tort, soit un risque alpha global de 5%.

Diviser le risque alpha global par le nombre de tests induit par la multiplicité (méthode de Bonferroni) permet ainsi d’éviter l’inflation tout en autorisant la multiplicité. Cependant pour cela la règle de décision change (p<0.0125) et la signification statistique n’est plus p<0.05.

Une autre façon d’éviter l’inflation est de limiter à 1 le nombre de test permettant de faire la conclusion recherchée (le 1 ^er dans notre exemple ci-dessus). C’est le principe du critère de jugement principal unique, mais dont l’usage a été progressivement abandonné depuis 2010.

[7] Dans les démonstrations par l’exemple données dans ce document, des approximations simplificatrices sont susceptibles d’être faites dans un but pédagogique. Toute la complexité mathématique du problème sous-jacent n’est pas abordée pour éviter de noyer le lecteur dans des détails inutiles pour la compréhension générale et l’appropriation des concepts (comme, entre autres, l’indépendance en probabilité des tests multiples, le risque alpha de l’hypothèse de supériorité qui n’est que de 2.5% et non pas 5%, etc.). Le lecteur ayant une expertise en statistique comprendra le pourquoi de ces simplifications compte tenu du public visé.