2 TL ; DR - Guide d’évaluation des comparaisons à un groupe contrôle externe
3 Les études de comparaison externe, de quoi s’agit-il ?
5 Les problématiques méthodologiques soulevées par les comparaisons externes
6 Les comparaisons externes sont des études observationnelles
7 Position des agences de régulation et de HTA
8 De la nécessité d’avoir des preuves de l’intérêt cliniques des nouveaux traitements
9 Les sources de données utilisables
10 Les problématiques liées à l’aspect rétrospectif de ces études
12 Démarche hypothético déductive
13 L’inférence causale et les hypothèses sous-jacentes
15 Les techniques d’analyses statistiques
15.1 Les techniques basées sur l’appariement (matching )
15.2.2 Le calcul du score de propension
15.2.3 L’importance du chevauchement des distributions des scores de propension
15.3 L’appariement sur le score de propension
§ Limites de l’appariement sur le score de propension
15.4 Les méthodes de pondération
§ L’effective sample size (ESS)
§ Distribution des poids, hypothèse de positivité
15.4.2 Pondérations non basées sur le score de propension
15.5 La g computation (g formula)
15.6 Les méthodes doubles robustes
15.7 Les méthodes de régression
15.8 Les techniques d e maching learning (IA)
16 Le diagnostic d’absence de biais de confusion résiduel
18 Identifications des patients dans la source de données
21 Les outils d’évaluation du risque de biais
22 L’émulation d’un essai cible
23 Le benchmarking et les contrôles positifs
24 Analyses de sensibilité , analyses quantitatives du biais
26 Contrôle du risque alpha global
Les facteurs de confusion peuvent être pris en compte dans l’analyse par les classiques méthodes de régression multivariables comme la régression logistique, le modèle de Cox, etc.
Cette approche est puissante et flexible, permettant une modélisation fine des données. Le modèle comprend la variable traitement et des variables d’ajustement. Le but n’étant pas de chercher les déterminants indépendants du critère de jugement (utilisation habituelle de ces modèles en recherche clinique), seul a un intérêt le coefficient de la variable traitement. Les autres variables étant dans le modèle pour ajuster l’analyse et non pas pour documenter leur relation avec le critère de jugement.
Le score de propension peut aussi être utilisé dans une approche de régression comme unique covariable d’ajustement.
Avec leurs variantes pondérées, ces méthodes de régression sont l’instrument technique permettant de réaliser les méthodes de pondération (IPW, IPTW,) par exemple avec un Cox pondéré. Dans ce cas la régression en comporte qu’une seule variable explicative le traitement, les covariables intervenant par l’intermédiaire des poids attribués à chaque observations (cf. section 15.4)
Les méthodes de régression peuvent aussi être employées après un appariement pour ajuster sur des covariables qui reste déséquilibrée (SMD >0.10) ou sur toutes les variables incluses dans le score de propension [157] mais cette approche est encore discutée [158] . Une alternative serait de recourir à une méthode double-robuste.
Les covariables prédictives du critère de jugements sont à mettre dans le modèle surtout si elles sont facteur de confusion. Les variables prédictives non liées au traitement ne corrigeront pas du biais de confusion, mais permettront de gagner en précision. Par contre, les variables purement prédictives du traitement (et non liées au critère de jugement) ne doivent pas être introduites dans le modèle, comme les intermédiaires et les collisionneurs. Les règles de choix des variables pour le score de propension sont identiques à ces principes de modélisation (cf. section 15.2).
Il est déconseillé aussi de mettre toutes les variables pré-traitements disponibles avec le risque d’ajuster sur des collisionneurs ou des médiateurs. La réalisation d’un diagramme de causalité (DAG) permet d’éviter cette situation.
Il a été montré que la régression pouvait apporter un même contrôle de la confusion que les techniques basées sur le score de propension dans les études de cohorte à la condition d’un nombre suffisant d’événements pour pouvoir introduire la totalité des covariables nécessaire à ce contrôle (contrainte que n’a pas la modélisation du score de propension, le nombre de patients traités avec le traitement d’intérêts étant souvent bien plus grand que le nombre d’événements). Cependant la régression estime un effet conditionnel différent des effets traitement moyens (ATE, ATT, ATC) estimables par les approches basées sur le score de propension. Il s’agit d’un effet défini localement pour un niveau donné des covariables fixées, et non pas après intégration sur leur distribution. C’est un effet local (CATE), pas un effet moyen sur une population. Il s’agit d’un effet conditionnel qui n’est pas l’estimand causal final. Cette estimation fait une hypothèse supplémentaire qui est celle de la constance de l’effet à travers les valeurs des covariables. Les méthodes de type IPW ou g computation ne reposent pas sur cette hypothèse étant donné qu’elles estiment un effet marginal.
La correction du biais de confusion avec les approches de régression nécessite que le modèle soit bien spécifié, c’est-à-dire adapté aux données dans sa forme fonctionnelle (forme mathématique, interaction entre variables, etc.). En cas de mauvaise spécification du modèle, un biais de confusion peut perdurer même si tous les facteurs de confusion ont bien été pris en compte. L’utilisation de modèle flexible (comme les techniques de machine learning) permet de réduire le risque de modèle mal spécifié, mais augmente le risque de surdétermination (overfitting). La construction des modèles n’est pas un point trivial et nécessite une expertise appropriée.
Les techniques de régression sont mal adaptées aux situations où les événements sont rares, car cette situation limite le nombre de covariables pouvant être pris en compte. Une approche utilisant le score de propension peut alors permettre la prise en compte d’un plus grand nombre de facteurs de confusion si les deux groupes de traitement sont de tailles assez similaires.
Un désavantage de la régression par rapports à l’appariement ou la pondération par score de propension est de ne pas permettre une visualisation de la comparabilité des groupes obtenue. Il s’agit d’un désavantage uniquement en termes de présentation des résultats car le contrôle de la confusion est obtenu par un autre mécanisme calculatoire.
Les approches de régression ne mesurent pas le même effet traitement que les autres méthodes comme l’appariement, la pondération ou la g-computation .
Les méthodes de régression estiment typiquement un effet conditionnel (conditional average treatment effect ) tandis que les méthodes d’appariement, de pondération ou de g computation donne un effet marginal .
L’effet marginal dépend de la structure de la population, c’est un effet moyen dans la population (effet global). L’effet conditionnel est l’effet du traitement quand les autres covariables sont fixées (effet local dans des strates de patients tous identiques). L'effet conditionnel répond à "quel est l'effet pour des individus similaires ?", tandis que l'effet marginal correspond à "quel est l'effet au niveau de la population ?".
Les deux effets peuvent être différents suivants des données et les modèles utilisées.
Effet conditionnel |
Correspond à l’effet moyenné à travers des sous population présentant les même caractéristiques |
Effet marginal |
Effet moyen de la population (différence entre deux mondes hypothétiques où dans l’un tout le monde est traité et dans l’autre personnes n’est traités |
L’effet conditionnel est égal à l’effet marginal uniquement avec les modèles linéaires en l’absence d’interaction entre le traitement et des covariables. Avec les modèles non-linéaires (comme la régression logistique) les eux effets sont différent. Cette question est connexe à la discussion de la non collapsibilité des métriques utilisées pour mesurer la taille de l’effet (indices d’efficacité) et sort du cadre de ce document.