4.2.1.1 Limites méthodologiques de l’approche exploratoire

Cette recherche de la valeur prédictive à postériori va se heurter à plusieurs problématiques méthodologiques qui limiteront fortement les résultats produits et l’éventuelle conclusion à la valeur prédictive du marqueur. Ces limites, impossibles à lever à travers une approche rétrospective, conduisent à la nécessité de faire une nouvelle étude prospective, spécialement conçue pour mettre en évidence la valeur prédictive du marqueur avec un design d’interaction (cf. section 4.2.3 ou exemple du gefitinib ci-dessous). Cette nouvelle étude permettra de confirmer ou d’infirmer avec solidité l’hypothèse éventuellement soulevée lors de l’analyse exploratoire rétrospective des données de l’essai pivot.

Les limites méthodologiques de la recherche de valeur prédictive d’un marqueur en rétrospectif sont les suivantes.

La problématique est identique à celle de toute démarche rétrospective (cf. livre blanc De la nécessité de la méthodologie dans l’évaluation des médicaments ) : possibilité de HARking où l’hypothèse a été générée à partir d’une analyse initiale non révélée des mêmes données qui serviront à la tester ; possibilité de p-hacking en choisissant en fonction des résultats obtenus le seuil de dichotomisation des valeurs du marqueur pour en faire un marqueur binaire, choix de la méthode d’analyse, du jeu de données, etc.

La recherche de la valeur prédictive va être effectuée à l’aide d’analyse de sous-groupe qui, par définition, n’étaient pas prévues au protocole et au plan d’analyse statique de l’essai pivot. Ainsi les problématiques de multiplicité des comparaisons, induisant inflation du risque alpha et beta, n’ont pas pu être prises en compte dans le plan de contrôle du risque alpha global de l’essai. La puissance n’a pas été assurée dans les sous-groupes ni au niveau de la recherche de l’interaction.

Par moment, il est aussi évoqué une problématique liée à l’absence de stratification de la randomisation sur ce marqueur. Ce point est encore discuté, mais il n’a pas de conséquence en termes de biais de sélection (une randomisation imprévisible garantit l’absence de biais de sélection sur tous les sous-groupes). En revanche des déséquilibres d’effectifs entre groupes de traitement peuvent survenir entre les sous-groupes limitant fortement la précision des estimations et la puissance des comparaisons. Mais même en cas de stratification, les sous-groupes ordinaires posent les mêmes problèmes précédents.

La pré-spécification au protocole des sous-groupes est souvent invoquée pour garantir la solidité de leurs résultats. Les pré-spécification n’empêche pas l’inflation des risques alpha et beta et ne solutionne donc en, rien la principale problématique des analyses en sous-groupes.

Toutes ces limitations font que ces analyses post hoc ne sont, au mieux, qu’exploratoires et exposent à un risque de fausse découverte important (cf. exemple du clopidogrel ci-dessous, section 4.2.1.2). On rejoint ici la question de toutes les analyses en sous-groupes qui semblaient prometteuses et qui n’ont pas pu être confirmées dans des essais prospectifs spécialement mis en place pour confirmer des résultats [59] .

Exemple du gefitinib

Le premier essai du gefitinib dans le cancer du poumon a inclus des patients « all comers » [18] . Son résultat a été concluant, mais un croisement précoce des courbes de survies de PFS pouvait faire imaginer la présence de deux sous-populations de patients, bénéficiant de manière inversée du traitement (bénéfice dans une et effet délétère dans l’autre). Simultanément était apparu qu’une mutation sur le récepteur EGFR pourrait conditionner l’efficacité de ce produit, et les analyses en sous-groupes suivant la présence ou non de cette mutation, déterminée de manière rétrospective, était compatibles avec cette hypothèse.

Comme l’ensemble de ces éléments ne reposaient que sur des analyses et hypothèses post-hoc, leur nature de fait exploratoire ne permettait pas de conclure et de restreindre l’utilisation du gefitinib aux patients EGFR muté. Pour confirmer cette hypothèse et démontrer le réel intérêt de ce produit, deux autres essais randomisés ont été entrepris [60 , 61] , n’incluant que ces patients cibles. Les résultats furent concluants, amenant à cibler le produit sur la mutation du récepteur EGFR.

De nombreux exemples illustrent la nécessité impérative de confirmer prospectivement les résultats des analyses en sous-groupes exploratoires.

Une phase 3 du reldesemtiv dans la SLA a été arrêtée précocement pour futilité lors de sa 2eme analyse intermédiaire note n° 14 . Cette étude avait pourtant été mise en place à la suite d’un résultat très prometteur sur une analyse en sous-groupe d’une précédente étude du produit. La reproductibilité des résultats des sous-groupes dans une étude subséquente est en général faible comme illustre cet exemple comme tant d’autres. [59 , 62] . Lorsqu’un essai de confirmation est entrepris, cela ne pose pas de problème (sauf pour le sponsor).

Un premier essai du solanezumab dans la maladie d’Alzheimer s’avère négatif [63] . Cependant un résultat « intéressant » est observé par une analyse en sous-groupe chez les patients ayant une forme légère de la maladie (https://alz-journals.onlinelibrary.wiley.com/doi/10.1016/j.jalz.2015.06.1893 ). Un nouvel essai est entrepris pour confirmer ce résultat et il s’avèrera lui aussi négatif [64] .

[14] https://www.globenewswire.com/news-release/2023/03/31/2638547/0/en/Cytokinetics-Announces-COURAGE-ALS-Met-Criteria-for-Futility-at-Second-Interim-Analysis.html