3 Finalité de la lecture critique d’un essai thérapeutique
5 Limites des autres types d’études pour l’évaluation de l’efficacité des traitements
6 Le contrôle du risque d’erreur statistique
6.1 Risque alpha (type I error rate )
6.2 Risque alpha global (overall type I error rate)
6.3 Multiplicité et inflation du risque alpha global global
6.4 Techniques de contrôle du risque alpha global gérant la multiplicité
6.4.2 Hiérarchisation (closed testing )
6.4.3 Combination des deux approches
6.5 Nouvelle politique de présentation des p value
6.6 Critères de jugement secondaires
6.6.1 Essai avec un critère de jugement principal unique
6.6.2 Essai gérant la multiplicité par un plan de contrôle du risque global
6.7 Les analyses en sous-groupes
6.7.3 Vérification de la généralisabilité du résultat
6.8 L’analyse finale et les analyses intermédiaires
6.9.1 Signification statistique et pertinence clinique
7 Évaluation du risque de biais
8 Lecture critique et fraude scientifique
10 Évaluation de la pertinence clinique (clinical relevance)
11 Le cas des essais « négatifs »
Le moment de l’analyse d’un essai doit être parfaitement bien défini a priori pour éviter que l’essai soit poursuivi ou arrêté en fonction des résultats du moment.
Si le moment de l’analyse n’est pas préfixé, l’essai sera alors analysé a un moment arbitraire qui peut dépendre des résultats (des analyses sont répétées régulièrement jusqu’à ce que le résultat s’avère satisfaisant si cela arrive).
Cette analyse survient, après l’inclusion de tous les patients nécessaires, soit à une date de point prédéfini, soit lorsque la durée de suivi voulue (mortalité à 1an par exemple) a été atteinte pour tous les patients, soit, le plus souvent actuellement, lorsque le nombre d’évènements nécessaires a été atteint (tous groupes confondus).
« We estimated that 288 events would be required to detect a hazard ratio for death of 0.675 with an alpha level of 0.05” [ 10.1056/NEJMoa1412690 ]
Lors de cette analyse finale de l’essai, le bénéfice du traitement est recherché en comparant le critère de jugement entre les 2 groupes et la signification statistique de la différence observée est appréciée en calculant le p.
Parfois d’autres analyses sont réalisées avant cette analyse finale. Il s’agit des analyses intermédiaires (AI) qui sont en général au nombre d’une ou deux. Ces analyses ont aussi pour but de mettre en évidence le bénéfice du traitement (analyse d’efficacité) si les résultats le permettent et reposent donc sur une comparaison statistique des 2 groupes.
Si le bénéfice du traitement est démontré à une analyse intermédiaire, l’objectif de l’essai est atteint et il n’ait plus nécessaire de le poursuivre (pour cet objectif, mais parfois l’étude se poursuit pour répondre à un autre objectif, sur un autre co primary endpoint par exemple). On dit que l’essai a été arrêté prématurément pour démonstration anticipée de l’efficacité.
Cependant si une analyse intermédiaire ne permet pas de conclure au bénéfice du traitement, l’essai se poursuit jusqu’à la prochaine analyse intermédiaire ou jusqu’à l’analyse finale.
La réalisation des AI entraine une répétition potentielle des comparaisons statistiques cherchant à conclure au bénéfice du traitement. Il y a donc potentiellement une inflation du risque alpha global de l’essai.
Les AI sont donc réalisées à l’aide de méthode statistique adaptée (peu importe leur nom) qui ajuste le seuil de la signification statistique.
Pour pouvoir conclure à une analyse intermédiaire, il faut que le p (nominal) soit inférieur au seuil ajusté calculé par la méthode statistique (on dit alors que la frontière de la signification a été franchie). Le seuil ajusté est en général assez faible (0.0025 par exemple) et il est calculé en fonction du nombre d’évènements observé au moment de l’analyse. Il est rapporté dans la publication.
“At the data-cutoff date of April 17, 2014, the interim analysis was performed after 222 events had occurred. For the overall survival analysis, 100 patients (28%) in the combination-therapy group and 122 (35%) in the vemurafenib group had died (hazard ratio for death in the combination-therapy group, 0.69; 95% confidence interval [CI], 0.53 to 0.89; P=0.005) (Figure 1A). The prespecified stopping boundary (P<0.0214) was crossed, and the study was stopped for efficacy on July 14, 2014” [10.1056/NEJMoa1412690]
Si l’essai n’est pas arrêté lors des analyses intermédiaires et arrive à l’analyse finale, le seuil de la signification est aussi ajusté à la baisse pour prendre en compte le risque alpha « consommé » lors des analyses intermédiaires (répartition du risque alpha global entre les différentes analyses).
During the course of the trial, two interim analyses were conducted after 50% and 75%, respectively, of the target number of 1,400 participants had experienced a primary cardiovascular endpoint. To conserve alpha for the final analysis and to limit the possibility of a chance positive interim finding, each interim analysis followed the same closed testing procedure, with a one-sided significance level of 0.01% allotted to the first efficacy interim analysis, and a one sided significance level of 0.04% allotted to the second efficacy interim analysis, and thus a one-sided significance level of 2.45% retained for the final analysis. [10.1056/NEJMoa1707914 supplement]
Des spins de conclusion sont fréquemment observés quand l’analyse intermédiaire ne permet pas de conclure formellement, car le p nominal n’est pas inférieur au seuil ajusté, mais qu’il est cependant inférieur à 0.05.
“Although the difference in overall survival did not cross the prespecified superiority boundary (P<0.0096), continuous lenalidomide–dexamethasone reduced the risk of death, as compared with MPT (hazard ratio, 0.78; 95% CI, 0.64 to 0.96; P=0.02)” [ 10.1056/NEJMoa1402551 ]