4.1 Limites liées à la nature rétrospective des études, HARKing, p hacking

La démonstration d’une très forte corrélation des effets n’est pas suffisante pour faire accepter un surrogate. Ces travaux d’évaluation de la surrogacy sont, par définition, rétrospectifs, et sont donc exposés à plusieurs problématiques dans la méthodologie de leur réalisation et peuvent avoir de nombreuses limites.

Les études de validation des surrogates sont avant tout des revues systématiques et des méta-analyses. Elles héritent des problématiques de ces techniques liées au caractère rétrospectif du travail induisant la possibilité de p hacking [32, 33] et de HARKing [34].

Les résultats de l’analyse de corrélation dépendent directement des études retenues pour effectuer cette recherche. Il est facile, du fait du caractère rétrospectif, de tester toutes les combinaisons possibles d’études et d’écrire ensuite le protocole et les critères de sélection des études. Compte tenu de la complexité de la littérature, de la multiplicité des études, ces manipulations de données sont difficiles à détecter. La fréquence de ces pratiques fait que l’on estime que seuls 20% des revues systématiques et méta-analyses publiées (quel que soit leur objectif, pas seulement celles destinées à évaluer un candidat surrogate) sont correctes méthodologiquement [35][36].

Il existe aussi une explosion combinatoire dans la façon dont peuvent être conduites les analyses de surrogacy en raison de la multiplicité des choix d’analyse possibles :

Choix du surrogate lui-même, c’est-à-dire de la variable explicative de la corrélation, avec souvent la possibilité de choisir entre plusieurs biomarqueurs (par exemple le cholestérol total, le LDL cholestérol ou le non HDL cholestérol pour la prévention cardiovasculaire ; la réponse objective, la réponse complète, la survie sans progression, la survie sans progression modifiée, le temps à progression en oncologie).
Choix dans le critère clinique et ses éventuelles multiples combinaisons dans des critères composites (par exemple décès de toutes causes, décès coronariens, décès cardiovasculaires, évènements coronariens mortels et non mortels en cardiologie).
Choix dans les métriques de ces deux variables : différence absolue ou différence relative par rapport à la baseline, pente d’un modèle pour mesure multiple pour les critères intermédiaires continus (comme le LDL) ; risque ratio, odds ratio, hazard ratio, différence des risques pour les événements cliniques. Pour les effets traitement relatifs sur les critères binaires se pose aussi le choix de la transformation logarithmique.
Choix des horizons temporels de mesure des effets sur les deux variables : par exemple effet sur le LDL à 1mois après la randomisation, 6 mois, 1 an ou moyenne sur la durée totale de l’essai ; effet sur le critère clinique à la fin de l’étude ou standardisé sur un suivi fixe et dans ce cas quel suivi (1 an, 3 ans, 5ans, etc.).
Choix du niveau de corrélation suffisant pour conclure à la surrogacy : 0.8, 0.90, etc., en termes de r ou r², en prenant l’estimation ponctuelle ou la borne inférieure de l’intervalle de confiance, etc.
Méthode statistique elle-même (moindre carré simple, REML, etc.), sans pondération ou avec pondération, dans ce dernier cas, par la taille des études ou l’inverse de la variance de l’un des effets traitements (candidat surrogate ou critère final).
Gestion des études avec des bras sans évènements (zero event) : exclusion, correction de la solution de continuité
Choix des études avec de nombreuses possibilités suivant les définitions retenues pour

les populations (prévention primaire ou secondaire pour la prévention cardiovasculaire ciblant le cholestérol par exemple),
les molécules (toutes les molécules ayant fait l’objet de RCT, que les molécules ayant montré un bénéfice clinique)
la méthodologie des essais : double aveugle ou ouvert, analyse en ITT ou en per protocole (peut être plus logique dans ce cadre d’analyse à vocation plus cognitive que décisionnelle), etc.

Ainsi, du fait de la nature rétrospective, rien n’empêche que de très nombreuses analyses soient réalisées avant d’obtenir l’analyse qui produit les résultats escomptés et qui sera finalement la seule présentée comme validation du surrogate.

En se basant sur ce qui a été observé de manière générale pour toutes les études rétrospectives (et en particulier les méta-analyses), il est raisonnable de conjecturer qu’il est possible d’obtenir dans ces travaux tous les résultats possibles en faveur ou en défaveur de la surrogacy. Ce point est d’ores et déjà illustré lorsque plusieurs travaux cherchant à établir la même surrogacy sont disponibles et donnent des résultats et des conclusions différents comme c’est le cas par exemple avec le cholestérol ou ses sous-fractions. [37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49].

Pour limiter un peu la flexibilité des analyses, des guidelines statistiques [50, 51] ont été élaborés et pré-spécifient un certain nombre de principes d’analyse comme l’utilisation d’effet traitement relatif, l’utilisation de l’odds ratio avec les critères binaires (pour ses propriétés de symétrie et de domaine de définition), avec une transformation logarithmique pour retrouver les hypothèses de la régression (variables variant de *** m:r *** à *** m:r *** , hétéroscédasticité). De même, le modèle linéaire s’impose en l’absence de justification biologique forte pour une autre forme de modèle, en raison du principe de parcimonie du rasoir d’Ockham.

Pour éviter ces travers et assurer une certaine crédibilité aux résultats produits, ces travaux doivent être réalisés suivant un protocole et un plan d’analyse statistique fixant a priori les choix possibles décrits ci-dessus et établis avant toute analyse exploratoire des données, enregistrés et accompagnés dans le rapport ou la publication d’une attestation que les résultats présentés sont conformes à l’analyse préétablie (ou une description des changements avec leur justification).

En particulier la recherche des essais participants à la recherche de la corrélation des effets doit être impérativement réalisée par une réelle revue systématique afin d’éviter toute sélection arbitraire des essais afin d’obtenir le résultat souhaité. La méthode de cette revue systématique doit être fixée au protocole et conforme à l’état de l’art (Cochrane Handbook par exemple). En particulier les critères de sélection des essais doivent être clairement énoncés à priori et justifiés. Une description des essais exclus avec la raison d’exclusion permettra de vérifier la rigueur de l’application de ces critères.

L’UE, dans le cadre du Join Clinical Assessment (JCA), a préciser ses attentes note n° 4 sur la validation des surrogates [52].

[4] HTA CG. Guidance on outcomes for joint clinical assessments. Localisation https://health.ec.europa.eu/publications/guidance-outcomes-joint-clinical-assessments_en