#M002 Appréciation de la plausibilité du biais de confusion résiduelle par l’analyse quantitative des biais dans les comparaisons externes des études monobras.

De quoi parle-t-on?

Addressing challenges with real-world synthetic control arms to demonstrate the comparative effectiveness of Pralsetinib in non-small cell lung cancer. Sanjay Popat et al. Nat Commun 2022; 13: 3500 https://doi.org/10.1038/s41467-022-30908-1

Pourquoi a-t-on choisi cet article ?

La récente publication de la comparaison externe du pralsetinib dans le cancer du poumon non à petite cellule RET-fusion positif donne l’occasion de revenir sur les comparaisons externes réalisées avec les essais monobras et la problématique du biais de confusion résiduelle. Cet article est un des premiers publiés utilisant des techniques d’évaluation quantitative des biais qui permettent d’apprécier, dans une certaine mesure, l’éventualité de ce biais de confusion résiduelle.

Ce qu’en pense la SFPT

A l’instar des études observationnelles, dans les des comparaisons externes, il est souvent impossible de juger de l’absence de biais de confusion résiduel à partir de description de la méthode d’analyse, car 1) la liste des facteurs de confusion potentiels n’a pas été établie de façon satisfaisante et 2) il existe presque toujours des facteurs identifiés non mesurés.
L’analyse quantitative de biais permet d’appréhender si le résultat obtenu peut être entièrement dû à la non prise en compte de facteurs de confusion. La méthode la plus courante est celle de l’E-value, qui détermine quelle doit être la force d’association et le niveau de déséquilibre entre le groupes des facteurs de confusions non pris en compte pour nullifier le résultat.
S’il est plausible que de tels facteurs n’ont été pris en compte, le résultat ne peut pas être considéré comme robuste et le bénéfice du traitement ne peut donc pas être considéré comme démontré par la comparaison indirecte.

Pour aller plus loin

Avec les études monobras une comparaison externe est indispensable pour apprécier l’effet propre du traitement évalué, c’est-à-dire ce qu’il cause par lui-même au niveau du critère de jugement (cf. LB dossier 12).
L’absence de groupe contrôle interne à l’étude (comme dans un essai contrôlé) nécessite, alors, d’aller chercher ce groupe contrôle à l’extérieur de l’étude (par exemple sous la forme d’une cohorte historique, d’un groupe contrôle synthétique, etc). Cependant, cette comparaison externe ne sera fiable que s’il est possible de prendre en compte toutes les différences existantes entre les 2 groupes comparés, au niveau des caractéristiques des patients et des autres covariables influençant le/les critères de jugement. En d’autres termes, s’il est possible de prendre en compte tous les facteurs de confusion affectant la comparaison, afin d’éviter complètement la possibilité d’un biais de confusion résiduel (il restera ensuite à envisager des autres biais (sélection, mesure, etc.) avant de conclure à la fiabilité des résultats).
En pratique, il s’avère quasiment impossible de juger si tous les facteurs de confusion potentiels ont bien été pris en compte. En effet, la justification du choix des covariables est en général très faible dans les études monobras et plus largement dans les études observationnelles. La liste de tous les déterminants du/des critères de jugement facteurs pronostiques, modificateurs… n’est pas rapportée, ne permettant pas de connaitre la liste des facteurs de confusion potentiels. Il s’en suit l’impossibilité de déterminer si tous les facteurs de confusion ont bien été pris en compte et si, ainsi, un biais de confusion résiduel est bien exclu .
C’est pour pallier cette impossibilité de faire un diagnostic d’absence de biais de confusion résiduel à partir de ce qui a été fait dans l’étude qu’ont été développées les techniques d’analyse quantitative des biais. Elles consistent à voir si le résultat de l’étude pourrait quantitativement être expliqué par des facteurs de confusion non pris en considération . Il s’agit soit des facteurs que l’on sait explicitement non pris en compte (ils ont été identifiés, mais ils n’ont pas été mesurés dans l’étude ou le groupe contrôle externe par exemple), soit de facteurs hypothétiques. Dans ce dernier cas, il s’agit de déterminer quel devraient être les caractéristiques numériques (cf. ci-dessous) d’un ou de plusieurs facteurs de confusion oubliés pour que cela invalide numériquement le résultat (on parle de nullification du résultat). Plusieurs méthodes existent, mais celle qui semble s’imposer actuellement est celle de l’E-value [4,5].
Deux paramètres rentrent en ligne de compte dans ce calcul : 1) la fréquence du facteur oublié (noté U) dans les 2 groupes ou, plus précisément, l’importance de la différence entre les deux groupes de cette fréquence (quantifiée par exemple par un risque ratio, noté RREU) et 2) la force de liaison de ce facteur avec le critère de jugement (noté D), c’est-à-dire de combien ce facteur multiplie la fréquence du critère de jugement (mesuré aussi par un risque ratio, noté RRUD).
L’approche de l’E-value donne les valeurs minimales de ces deux paramètres que devrait avoir un (ou plusieurs) facteur de confusion oublié pour nullifier (invalider) le résultat obtenu. Par exemple, si ces valeurs (RREU, RRUD) sont égales à (2, 2), il faudrait que le facteur oublié soit 2 fois plus fréquent dans le groupe traité que dans le groupe contrôle et qu’il multiplie par 2 la fréquence du critère de jugement. Si ces valeurs sont réalistes, la robustesse du résultat obtenu est remise en cause, car il n’est pas suffisamment important en taille pour ne pas pouvoir provenir uniquement du facteur de confusion non pris en compte. En revanche, si l’E-value est trop élevée pour être réaliste, le résultat est robuste, il ne peut pas être entièrement expliqué par une confusion résiduelle plausible. Le résultat permet de conclure à un effet non nul du traitement, même si la taille de l’effet peut être surestimée par le résultat produit (certaines méthodes permettent de corriger le résultat, mais nécessitent de faire des hypothèses numériques sur le ou les facteurs oubliés).
En réalité il n’y a pas qu’un seul couple de valeurs de (RREU, RRUD) qui nullifie le résultat, mais une infinité. Un facteur oublié, très lié au critère de jugement, peut fortement biaiser le résultat même si sa distribution est peu déséquilibrée entre les 2 groupes, et, à l’inverse, un faible déterminant du critère de jugement peut tout autant biaiser le résultat en cas d’une grande asymétrie de sa fréquence entre les 2 groupes. Il existe ainsi une frontière de nullification dans le plan des paramètres (RREU, RRUD) comme le représente la figure suivante (extraite de la référence[4]) :
002 1
L’analyse de la robustesse du résultat s’effectue alors de la même façon, mais en appréciant globalement la plausibilité de toutes les valeurs délimitées par cette frontière de nullification.
Pour prendre en compte l’incertitude statistique, ces calculs ne doivent pas être réalisés pour chercher à nullifier l’estimation ponctuelle, mais bien la borne péjorative de l’intervalle de confiance du résultat obtenu par la comparaison indirecte.

Dans la comparaison externe du pralsetinib au pembrolizumab, le hazard ratio sur la survie globale (OS) est HR=0.36 [0.21, 0.64]. La figure 2A reproduite ci-dessous donne les résultats de l’analyse quantitative de biais pour les facteurs de confusions non pris en compte :
002 2
Sur ce schéma apparait la limite de nullification de l’estimation ponctuelle (HR point estimate) à partir de la laquelle sont déterminée les zones de couleur qui représente la valeur du risque ratio corrigé du biais (ARR adjusted RR). Cependant figure aussi la limite de nullification de la borne péjorative (la plus proche de l’absence d’effet, ici la borne supérieure, upper 95% CI) qui est la limite sur laquelle se joue la perte de la signification statistique. Sont aussi représenté (les croix) les facteurs de confusions pris en compte, ces croix sont centrées sur le RR de leur association avec le critère de jugement (en ordonnée) et le RR de leur déséquilibre entre les 2 groupes en abscisse. La largeur et hauteur de croix représentent les intervalles de confiance. Cette information permet d’apprécier l’ordre de grandeur de l’association avec le critère de jugement et celui du déséquilibre des facteurs connus et mesurés afin d’aider à l’appréciation de la plausibilité de l’existence de facteur correspondant à la limite de nullification. Il faut cependant noter que ces valeurs sont celles trouvées dans le jeu de données analysé. Il serait préférable qu’il s’agisse, pour la force de liaison avec le critère de jugement, d’estimations provenant de la littérature (des études dédiées à l’estimation des facteurs pronostiques et des facteurs de risques). Pour le déséquilibre, il n’est pas non plus certain que le niveau de déséquilibre des facteurs mesurés soit similaire à celui des covariables non mesurées. On pourrait également rajouter sur ce schéma les estimations des facteurs de confusion connus mais non pris en compte dans l’analyse à partir des données de la littérature.
Il ne faut pas oublier non plus que le calcul de cette E-value ne permet pas de prendre en compte les facteurs de confusions non mesurés dans une étude et ne dédouane pas les auteurs d’une discussion approfondie sur les facteurs de confusions mesuré et non mesurés dans leur étude. La meilleure stratégie étant bien sûr de tout faire pour prendre en compte le maximum de facteurs de confusions dans le design et de l’analyse des données. De plus, il ne faut pas oublier que la taille d’effet de ces E-value représente un effet théorique combiné, non pas d’un seul, mais potentiellement de plusieurs dizaines de facteurs de confusion. Une autre approche intéressante est la calibration des résultats en fonction de contrôles positifs et négatifs qui n’est pas abordée dans cet article.
L’objectif de ce blog n’étant pas de faire une évaluation des produits, mais d’illustrer des aspects méthodologiques, nous laissons nos lecteurs se faire leur propre idée sur la robustesse de ces résultats !
Cette publication propose aussi d’autre analyses quantitatives de biais pour apprécier les conséquences des données manquantes, de la fréquence des métastases cérébrales, et d’une éventuelle mauvaise performance du comparateur dans ces données de vraie vie.
Au total, compte tenu de l’importance de la question du biais de confusion résiduel dans les comparaisons externes, l’analyse quantitative des biais apporte un point de repère indispensable pour l’interprétation des résultats. La robustesse d’un résultat vis-à-vis du biais de confusion ne doit cependant pas occulter les autres sources de biais qui doivent être aussi appréciées (éventuellement avec d’autres techniques de quantification des biais) avant de conclure à un intérêt non nul du traitement, la problématique de la surestimation de la taille de l’effet restant entière.

Références

1 Popat S, Liu SV, Scheuer N, et al. Addressing challenges with real-world synthetic control arms to demonstrate the comparative effectiveness of Pralsetinib in non-small cell lung cancer. Nat Commun 2022;13:3500. doi:10.1038/s41467-022-30908-1
2 Lash TL, Fox MP, MacLehose RF, et al. Good practices for quantitative bias analysis. Int J Epidemiol 2014;43:1969–85. doi:10.1093/ije/dyu149
3 Lash TL, Fox MP, Cooney D, et al. Quantitative Bias Analysis in Regulatory Settings. Am J Public Health 2016;106:1227–30. doi:10.2105/ajph.2016.303199
4 VanderWeele TJ, Ding P. Sensitivity Analysis in Observational Research: Introducing the E-Value. Ann Intern Med 2017;167:268. doi:10.7326/m16-2607
5 Haneuse S, VanderWeele TJ, Arterburn D. Using the E-Value to Assess the Potential Effect of Unmeasured Confounding in Observational Studies. Jama 2019;321:602. doi:10.1001/jama.2018.21554

pharmacoépidémiologie, études non randomisées, biais de confusion

Dernière mise à jour le 28 novembre 2022.

Menu principal

Menu blog de la méthodologie