4.2.3.2 Avantages

L’avantage indéniable du design d’interaction est de répondre spécifiquement aux exigences méthodologiques de la démonstration de la valeur prédictive d’un marqueur. Il permet d’évaluer directement cette valeur prédictive grâce à un design qui correspond directement à la définition de la valeur prédictive.

Ce design permet d’effectuer toutes les démonstrations nécessaires pour établir qu’un candidat marqueur est un réel marqueur prédictif utilisable en pratique :

Existence d’une interaction statistiquement significative
Le traitement considéré apporte un bénéfice chez les patients marqueurs positifs
Il est possible de considérer que le traitement n’apporte pas de bénéfice chez les patients marqueurs négatifs (non-supériorité ou infériorité)

En étant prospectif, il garantit le respect de la démarche hypothético déductive vis-à-vis de l’hypothèse que le marqueur est un marqueur prédictif (modificateur d’effet du traitement). Il solutionne la problématique du p-hacking des approches rétrospectives. Ce design lève donc les limites inhérentes aux sous-groupes des essais pivots liées aux caractères post hoc et au non-contrôle des risques d’erreur statistiques (cf. section 4.2.1).

La robustesse méthodologique de ces essais d’interaction permet d’obtenir le plus haut niveau de preuve/crédibilité pour la recherche des marqueurs prédictifs. Grâce à cette robustesse, ces essais ont permis, dans un certain nombre de cas, de montrer la faiblesse des arguments basées sur les autres approches (« treatment only », sous-groupes exploratoires) et d’éviter ainsi la généralisation d’une pratique de personnalisation basées à tort sur des marqueurs sans valeur prédictive.

L’évaluation de la valeur prédictive de l’expression de la protéine ERCC1 (excision repair cross complementing group 1, ERCC1) sur la réponse au sel de platine fournit un exemple de l’intérêt des designs d’interaction par rapport aux approches rétrospectives.

À l’issue de ces études rétrospectives « treatment only » faisant suspecter que le polymorphisme de ERCC1 pourrait être un facteur de réponse au sel de platine (cf. exemple section 4.1.1), un essai randomisé d’interaction a été réalisé [53] :

« This trial had a marker-by-treatment interaction phase III design, with ERCC1 (8F1 antibody) status as a randomization stratification factor. Chemona¨ıve patients with NSCLC (stage IIIB and IV) were eligible. Patients with squamous histology were randomly assigned to cisplatin and gemcitabine or paclitaxel and gemcitabine; nonsquamous patients received cisplatin and pemetrexed or paclitaxel and pemetrexed. Primary end point was overall survival (OS). »

Aucune différence d’effet du traitement entre les strates ERCC1+ (sous figures) et ERCC1- (sous figures) n’a été montré avec une supériorité du traitement à base de sel de platine dans ces 2 strates.

Ces résultats ne permettent pas de conclure à une valeur prédictive de l’ERCC1. Un autre essai du même type (NCT00801736 ) non publié a obtenu le même résultat.

Dans un essai d’interaction les risques d’erreurs statistiques sont parfaitement maitrisés 1) par le calcul du nombre de sujets nécessaires qui portera sur chaque « strate » et sur la question de l’interaction et 2) par l’unicité de l’hypothèse testée (le marqueur considéré est-il prédictif du bénéfice du traitement considéré).

Même s’il existe plusieurs tests statistiques dans le design d’interaction (test d’interaction et tests de l’effet du traitement chez les Mq+ et Mq-) cela n’entraine pas de multiplicité en termes de risque alpha global. En effet le risque alpha de ce type d’essais est celui de conclure à tort à la valeur prédictive du marqueur du fait du hazard. Ces trois tests ne donnent pas trois occasions différentes de conclure à tort à cette valeur prédictive, car en fait il faut qu’il soit tous les trois simultanément concluant. Si le test d’interaction n’est pas significatif, les 2 autres tests ne permettront pas de « récupérer le coup », l’essai sera définitivement négatif et ne pourra apporter la preuve que le marqueur candidats est un marqueur prédictif par les 2 autres tests. En revanche, si plusieurs candidats marqueurs sont testés simulatément dans un même essai, apparait la problématique de la multiplicité, mais avec peu d’acuité, car la probabilité que sous l’hypothèse nulle généralisée, 3 tests soient significatifs (dont un en non-infériorité) est très peu probable