3 Finalité de la lecture critique d’un essai thérapeutique
5 Limites des autres types d’études pour l’évaluation de l’efficacité des traitements
6 Le contrôle du risque d’erreur statistique
6.1 Risque alpha (type I error rate )
6.2 Risque alpha global (overall type I error rate)
6.3 Multiplicité et inflation du risque alpha global global
6.4 Techniques de contrôle du risque alpha global gérant la multiplicité
6.4.2 Hiérarchisation (closed testing )
6.4.3 Combination des deux approches
6.5 Nouvelle politique de présentation des p value
6.6 Critères de jugement secondaires
6.6.1 Essai avec un critère de jugement principal unique
6.6.2 Essai gérant la multiplicité par un plan de contrôle du risque global
6.7 Les analyses en sous-groupes
6.7.3 Vérification de la généralisabilité du résultat
6.7.4 Interaction
6.8 L’analyse finale et les analyses intermédiaires
6.9.1 Signification statistique et pertinence clinique
7 Évaluation du risque de biais
8 Lecture critique et fraude scientifique
10 Évaluation de la pertinence clinique (clinical relevance)
11 Le cas des essais « négatifs »
Les analyses en sous-groupes testent fréquemment l’interaction, c’est-à-dire recherche si la taille de l’effet du traitement (le risque relatif, le hazard ratio, l’odds ratio ou la différence de moyenne) varie quantitativement entre les sous-groupes. Par exemple, un test d’interaction fait sur le sexe recherche si la taille de la taille de l’effet du traitement est différente entre les hommes et les femmes.
Interaction et hétérogénéité sont synonymes dans ce contexte.
Dans un essai de nombreux tests d’interaction sont réalisés, mais comme ils ne sont pas utilisés pour conclure à l’intérêt du traitement, cette multiplicité n’entraine pas d’inflation du risque alpha global de l’essai. Cette multiplicité conduit cependant à découvrir des interactions à tort qui n’existe pas en réalité. Il existe aussi un risque non négligeable de conclure tort à l’absence d’interaction (les tests d’interactions sont en général peu puissants).
Figure 7 – Exemple d’analyse en sous-groupes avec test d’interaction. Pour l’analyse en sous-groupe en fonction des antécédents d’insuffisance cardiaque, le p du test d’interaction est de 0.60, ne permettant pas de conclure qu’il existe une différence statistiquement significative entre l’effet du traitement chez les patients ayant un antécédent (HR=0.79) par rapport à l’effet chez les patients sans antécédents (HR=0.84). Compte tenu de l’incertitude entourant ces 2 estimations, il n’est pas possible de conclure que ces 2 hazard ratio (0.79 et 0.84) sont différents. [ 10.1056/NEJMoa1812389 ]

Utilisation erronée des sous-groupes pour conclure vis-à-vis de l’effet du traitement |
Analyse de la signification statistique (nominale) pour chaque sous-groupe, par exemple chez les hommes, chez les femmes |
Correspond au même objectif que l’essai, entraine donc une inflation du risque alpha global de conclure à tort à un quelconque intérêt du traitement |
Utilisation appropriée des sous-groupes pour rechercher si un facteur modifie la taille de l’effet du traitement (interaction) |
Comparer la taille de l’effet entre les sous-groupes (par exemple entre les hommes et les femmes pour explorer si le sexe est un facteur modifiant l’effet du traitement) |
Ne cherche pas à conclure à l’intérêt du traitement Résultat purement exploratoire, cognitif. Ne permettant pas de faire des conclusions sur l’intérêt du traitement, cette analyse n’entraine pas d’inflation du risque alpha global de l’essai |