3.1 Corrélation des effets

La validation d’un critère de substitution repose actuellement sur la méthode proposée par M Buyse [18] et ses développements ultérieurs [19, 20, 21].

Le principe général est de montrer qu’il existe une très forte corrélation entre les effets des traitements sur le critère de substitution candidat et le critère clinique. En complément, il doit aussi exister une corrélation entre les valeurs du critère de substitution candidat et les valeurs du critère clinique (il s’agit du lien épidémiologique classique de type facteur pronostique ou facteur de risque, appelé dans ce contexte « individual-level correlation ») habituellement obtenue par les analyse à l’échelle individuelle de cohortes ou d’essais.

Cette approche repose sur la méta-analyse des données agrégées des essais randomisés du domaine et présente l’avantage d’être facilement mise en œuvre (contrairement à d’autres approches nécessitant des données individuelles d’essais).

Chaque essai donne une valeur de l’effet du traitement étudié par rapport au contrôle sur les 2 critères sous la forme d’un risque relatif, d’un hazard ratio ou d’une différence de moyenne, suivant la nature du critère de jugement. Classiquement ces données sont représentées sur un graphique bivarié (Figure 1) avec en abscisse l’effet sur le critère de substitution candidat et en ordonnée celui sur le critère clinique. Pour les effets relatifs, une échelle log doit être utilisée. Chaque essai est représenté par un point dont la taille est proportionnelle à l’effectif de l’étude. La droite de régression linéaire est tracée et le coefficient de corrélation r (ou son carré r ² , noté aussi R2) est calculé (appelé dans ce contexte « trial-level correlation » ).

Figure 1 – Illustration de l’approche de validation d’un critère de substitution. Chaque essai de la méta-analyse est représenté par un point (exemple inventé). La magnitude de l’effet observé sur le critère de substitution est représentée en abscisse. Ici il s’agit de la différence inter-groupe de l’augmentation de la densité osseuse. L’ordonnée représente l’effet du traitement sur le critère clinique. Ici il s’agit du risque relatif de fracture (rapport de la fréquence des fractures entre les 2 groupes de l’essai).

En effet, s’il existe une forte corrélation, c’est-à-dire un nuage de point très peu dispersé autour de la droite de régression, il y aura peu d’incertitude sur l’effet sur le critère clinique pour un effet sur le critère intermédiaire donné.

À l’opposé, en cas de faible corrélation, la variabilité des points autour de la droite est importante. Ainsi pour une valeur donnée d’effet sur le critère intermédiaire, l’effet sur le critère clinique ne pourra pas être prédit avec certitude du fait de cette variabilité. Il s’agit d’une variabilité résiduelle, non expliquée par l’effet sur le critère intermédiaire. L’effet sur le critère clinique dépend alors d’autres choses que l’effet sur le critère intermédiaire. L’effet sur le critère intermédiaire n'explique pas à lui seul l’effet sur le critère clinique et ne peut donc pas être utilisé comme surrogate.

La validité du critère de substitution se juge sur la valeur de ce coefficient de corrélation, qui doit être supérieur à 0.8 pour le coefficient de corrélation r (ou 0.65 pour le coefficient de détermination R2)[22]. Plus récemment une contrainte supplémentaire a été introduite par l’IQWIG [23] en basant le raisonnement non pas sur la valeur du coefficient, mais sur la limite inférieure de son intervalle de confiance à 95%. Ainsi actuellement un critère de substitution ne sera formellement validé que si cette borne inférieure de r est supérieure à 0.85 (R2 > 0.72) .

La prise en considération de l’intervalle de confiance est fondamentale pour s’assurer que l’estimation de cette corrélation est suffisamment précise pour garantir qu’il existe bien une vraie corrélation importante entre les effets à travers les essais. Compte tenu des enjeux des surrogates, il convient d’apporter une démonstration, donc, comme pour la mise en évidence de l’effet du traitement dans un essai, il est nécessaire d’avoir un haut degré de certitude statistique, qui est apporté par un intervalle de confiance étroit, assurant que, même au pire, la corrélation est forte [24].

En cas de forte corrélation (idéalement r=1), la valeur de l’effet sur le critère clinique est proportionnelle à la valeur de l’effet sur le critère de substitution, mais le plus souvent avec un facteur d’atténuation (il est classique d’observer que les magnitudes des effets traitement sur les critères intermédiaires sont plus importantes que celle des effets traitement sur les critères cliniques). De ce fait il est possible qu’un nouveau traitement ait un petit effet sur le critère de substitution et que celui-ci soit insuffisant pour induire un effet sur le critère clinique. Dans ce cas le traitement serait adopté à tort. Cette problématique est solutionnée en utilisant le « Surrogate threshold effect » (Figure 2) qui est le seuil d’effet minimal sur le critère de substitution qu’il faut obtenir avec le nouveau traitement pour être assuré d’un effet non nul sur le critère clinique [25].

Figure 2 – Détermination du « Surrogate threshold effect » à partir de l’intervalle de prédiction. Le seuil correspond à l’abscisse de l’intersection de la borne péjorative de cet intervalle de prédiction avec la ligne horizontale de l’effet nul sur le critère clinique (ligne discontinue rouge). Ici cette valeur est de 1.6 (ligne verticale noire). Si l’effet sur le critère de substitution est inférieur à une différence intergroupe de 1.6%, il n’est pas garanti que l’effet sur le critère clinique soit en faveur d’une réduction de la fréquence des fractures. Cependant, lorsque l’effet sur la densité osseuse est supérieur à une différence intergroupe de 1.6% (en faveur du groupe traité), le risque relatif sur les fractures est assuré d’être inférieur à 1, donc en faveur d’une réduction de la fréquence des fractures (avec un degré de certitude de 95%).

Ce seuil est déterminé à l’aide de l’intervalle de prédiction de la droite de régression. Il correspond à la valeur de x pour laquelle la borne péjorative de l’intervalle de prédiction passe en dessous du trait horizontal correspond à l’absence d’effet traitement sur le critère clinique. C’est donc le plus petit d’effet traitement sur le critère de substitution qui commence à se traduire par un effet non nul sur le critère clinique.

Lorsque le critère de substitution est validé, il pourra être conclu qu’un nouveau traitement apporte un bénéfice sur le critère clinique qu’à la condition qu’il démontre un effet sur ce surrogate au moins aussi important en taille que le seuil précédemment identifié pour ce surrogate. Pour cela il faudra que la borne supérieure de l’intervalle de confiance à 95% de l’effet sur le surrogate soit inférieure à ce seuil (ou qu’un calcul adapté soit effectué pour prendre en compte les incertitudes statistiques).

Le concept de critère de substitution est souvent confondu par erreur avec d’autres concepts. Par exemple avec l’association entre 2 variables en termes de risques ou de pronostic. De même, la mise en évidence dans une cohorte de patients, tous traités avec le traitement d’intérêt, d’une association entre un critère intermédiaire et le critère clinique ne permet pas de valider un critère de substitution. Cette association montre seulement une valeur pronostique sous traitement du critère intermédiaire (qui peut exister indépendamment du traitement). Comme tous les patients sont traités, il est impossible d’évaluer l’association entre l’effet du traitement sur le critère intermédiaire et sur le critère clinique. Le changement avant-après du critère intermédiaire ne peut pas être utilisé non plus comme effet du traitement, car sujet à un phénomène de confusion lié entre autres à l’évolution naturelle de la maladie et à la régression à la moyenne.

L’obtention d’une démonstration rigoureuse qu’un critère intermédiaire est un réel critère de substitution est indispensable, car il existe de nombreux exemples de traitements efficaces sur un potentiel surrogate, mais pour lesquels aucun bénéfice clinique n’a été mis en évidence dans les essais randomisés sur les critères cliniques. Par exemple, en prévention cardiovasculaire, le LDL cholestérol ne peut pas être considéré comme un surrogate universel, car l’acide nicotinique, qui baisse le taux de LDL cholestérol, a échoué à mettre en évidence une réduction des évènements cardiovasculaires dans un essai incluant 25673 patients suivis 3.9 ans. De nombreux autres exemples de ce type existent dans tous les champs de la médecine [24, 25].

Exemple de démonstration d’un surrogate

La survie sans métastase (MFS) a été validée comme surrogate de de la survie globale (OS) dans le cancer de la prostate localisé [26]. Cette validation a été obtenue à partir des données de 28 essais randomisés regroupant plus de 28,000 sujets. Quatre candidats surrogates ont été explorés : disease free survival (DFS), time to disease recurrence (TDR), time to metastasis (TTM) et metastasis free survival (MFS).

Une corrélation entre la MFS et l’OS a été observée faisant que ce critère rempli cette première condition individual level correlation). Cette corrélation est documentée par le graphique ci-dessous où l’abscisse représente le taux de survie sans métastase mesurée à 5 ans (estimée par la courbe de Kaplan Meier de la MFS) et l’ordonné le taux de survie à 8 ans (estimée avec la courbe de Kaplan Meier de l’OS). Chaque bras des essais (code couleur) documente ces 2 valeurs (le nombre de points est le double de celui d’essai)

Une très bonne corrélation des effets est aussi observée. Le seuil est à 0.88 (abscisse du croisement de la borne supérieure de l’intervalle de prédiction de la droite de régression et le trait horizontal correspondant à un HR de 1 pour l’OS (absence d’effet sur l’OS). Cette corrélation est documentée par le graphique ci-dessous où l’abscisse représente le hazard ratio obtenu sur la MFS et l’ordonné celui correspondant à l’OS. Chaque point représente un essai (les hazard ratio quantifiant la différence entre groupe traité et groupe contrôle pour chaque essai).

Les résultats statistiques permettant de faire cette démonstration sont présentés dans le tableau suivant qui donne un bon exemple des résultats qui sont attendus dans ce type travaux :

La corrélation « individual level » (condition 1) est forte avec un R² de 0.83. La corrélation des effets « trial-level » (condition2) est aussi forte avec un R² de 0.92 (borne inférieure de l’intervalle de confiance à 0.81).

Exemple d’un échec de démonstration de la surrogacy

La réponse pathologique complète (pCR) est un facteur de risque de récidive dans le cancer du sein précoce.

Cependant il n’a pas été possible de démontrer qu’il s’agissait d’un surrogate dans le cadre du traitement néoadjuvant [63]. L’observation qu’un traitement impacte favorablement la pCR ne permet pas d’induire avec certitude qu’il impacte favorablement la récidive. Ultérieurement, une étude [27] utilisant la bonne méthode (graphique ci-dessous) de surrogacy entre pCR et survie.