4 L’évaluation des marqueurs prédictifs
5 La personnalisation sur le risque de base
6.2.1 Modélisation de l’effet (treatment effect modelling )
6.2.2 Modèles basés sur le risque de base (Risk-based methods)
6.4 Utilisation de l’intelligence artificielle
6.4.1 Prédiction du pronostic sous traitement
6.4.2 Prédiction du bénéfice, modélisation de l’hétérogénéité des effets traitements
7 L’évaluation de l’utilité clinique par les essais de stratégie
Comme pour la modélisation de l’hétérogénéité des effets traitement avec les modèles standards (cf. section 5), il est possible d’utiliser les techniques d’IA pour prédire l’effet. Au-delà de la simple modélisation, d’autres approches cherchent à identifier les sous-groupes des patients bénéficiant du traitement, principalement en cherchant un seuil optimal pour chaque covariable pertinente. Les techniques les plus abouties [101] veillent à respecter plusieurs principes : contrôle ou évaluation du risque alpha au niveau de toute la stratégie de recherche des sous-groupes, prise en compte de l’incertitude à chaque étape de l’identification des sous-groupes, prévention de la surdétermination et des biais dans la sélection des covariables, s’assurer de la reproductibilité de l’identification des sous-groupes et veiller à la fiabilité des estimations de l’effet traitement dans les sous-groupes.
Pour prédire la réponse individuelle aux traitements de la sclérose en plaque, Falet et al. utilise une approche de machine learning [121] . Un modèle prédictif de l’évolution du score EDSS au cours du temps a été construit à partir des données cliniques et d’imagerie de 6 essais cliniques. L’effet traitement individualisé a été calculé par la différence entre la prédiction du modèle sans et avec traitement (cATE, conditionnal average treatment effect). Cette approche est proposée, non pas pour guider le choix du traitement pour des patients, mais pour sélectionner des patients « répondeurs » pour des essais cliniques de futures molécules (enrichissement des essais cliniques [122] ).
L’utilisation de l’IA pour ces modélisations n’est pas indispensable. Par exemple ce travail reproduit celui réalisé par Bovis et al. sur la même question et qui s’appuyait sur une modélisation basée sur la méthode conventionnelle du modèle de Cox [123] .
Bien qu’actuellement proposée uniquement pour la construction de phase 2 exploratoire, cette approche ouvre la voie au développement de nouvelles thérapeutiques ciblées pour lesquelles les essais de confirmation (phase 3) sélectionneront les patients, non pas sur la base d’une variant moélculaire, mais sur la prédiction d’un modèle. Une fois validées de cette façon, ces molécules devront être utilisées en pratique chez des sujets identifiés de la même manière, ce qui ouvrira un champ nouveau de problématiques à traiter dans l’évaluation (health technology assessment) de ces produits.
Oikonomou et al. [15] proposent un outil de prédiction du bénéfice cardiovasculaire individuel de la canagliflozine chez le diabétique de type 2 à partir des données de l’essai randomisé CANVAS (4327 patients). Cet outil est accessible en ligne sur le WEB (https://www.cards-lab.org/insight ). Contrairement à beaucoup d’autres propositions, l’effet du traitement au niveau individuel n’est pas déduit de la modélisation du critère de jugement avec et sans traitement, mais modélisé directement. Le critère de jugement étant les évènements cardiovasculaires (MACE) l’effet du traitement est appréhendé sous forme de hazard ratio. Le hazard ratio n’a pas d’existence au niveau individuel (contrairement à l’évolution temporelle de l’EDSS de l’exemple précédent). Son calcul nécessite impérativement un groupe de sujets traités et un groupe de sujets non traités. Pour toutefois déterminer un hazard ratio par patient l’approche suivante a été utilisée. Pour chaque patient sont déterminés les patients qui lui sont le plus similaires sur les caractéristiques de base retenues. À partir de ce groupe, il est possible de calculer le hazard ratio à l’aide d’un modèle de Cox classique. L’hypothèse est que parmi des sujets ayant les mêmes caractéristiques le hazard ratio est identique. Le hazard ratio obtenu à partir de groupe de patients est une estimation du hazard ratio individuel (à deux réserves près, ce calcul ne permet pas de faire une inférence causale et il faut que tous les modificateurs de l’effet soient pris en compte dans les caractéristiques envisagées). Les patients similaires à un patient donné sont déterminés parmi la population de l’étude en prenant les plus proches patients dans l’espace multidimensionnel des caractéristiques de bases considérées. Dans ce papier, 75 caractéristiques de base ont été considérées, créant ainsi un espace à 75 dimensions. Pour chaque patient, les 5% de ceux les plus proches de lui sont identifiés et utilisés pour calculer le hazard ratio considéré comme reflétant l’effet traitement individuel du patient. Ensuite ces hazard ratio individuel sont modélisés afin d’obtenir un outil prédictif de l’effet traitement individuel en fonction des caractéristiques des patients. Cette modélisation a été effectuée par un XBG afin d’obtenir un algorithme explicable. Ensuite un outil prédictif a été construit à partir des variables les plus fortement associées avec l’effet de la canagliflozine sur les événements cardiovasculaires.
Une validation externe de cet outil de prédiction a été effectuée avec les données de l’essai CANVAS-R (qui est un essai randomisé de la canagliflozine comparable à CANVAS, les résultats de ces 2 essais ont d’ailleurs été publiés après pooling). Cette validation externe a consisté à classer les patients de CANVAS R en 2 groupes de répondeurs (high et low responders) en fonction du HR prédit, les high responders étant défini par un hazard ratio prédit inférieur à 0.5 écart type (dans la distribution de tous les hazard ratio prédits). Les hazard ratio observés sont ensuite calculés pour chacun de ces 2 groupes de patients avec leur p-value d’interaction. Il est effectivement trouvé que l’effet de la cangliflozine versus placébo sur les MACE a été significativement plus important en moyenne chez les patients identifiés comme hautement répondeurs (high responders), avec un HR de 0.60, que chez les autres (low responders) où le HR est de 0.99, p d’interaction = 0.04. Cette validation en 2 catégories est assez rudimentaire, mais il faut noter que le hazard ratio individuel n’ayant pas de réalité il ne peut directement d’observer dans l’étude de validation externe. Il est donc impossible de valider les prédictions par rapport à l’observé patient par patient.
Malgré son élégance cette approche présente plusieurs limites. Elles reposent sur au moins 2 hypothèses fondamentales invérifiables : 1) l’homogénéité des hazard ratio individuels des plus proches voisins, qui implique que tous les modificateurs d’effet sont couverts par les caractéristiques de base prises en considération et 2) le modèle de prédiction est bien spécifié. Une autre limite est l’impossibilité de faire une validation externe directe des prédictions du hazard ratio individuel.
La dernière limite est celle de la validité du seuil de binarisation. Ce seuil a été défini d’après la distribution des hazard ratio individuel obtenu avec la population de CANVAS-R. Ce seuil est-il transposable à de futurs patients ne provenant pas de cette étude ? Pour une utilisation en pratique médicale quel est le seuil à utiliser ? Une option pourrait être de considérer simplement la valeur du hazard ratio et d’écarter le recours à la canagliflozine quand le hazard ratio prédit est égal ou supérieur à 1. Se pose alors la question du traitement de remplacement qui pourrait être une autre gliflozine (dapagliflozine ou empagliflozine), mais 1) il est possible de penser que toutes les molécules de la classe partagent les mêmes modificateurs d’effet et 2) dans ce cas le choix serait effectué sans se baser sur la prédiction de leur bénéfice (pas manque d’outil). Ce dernier point montre bien la faible utilité pratique pour l’instant de ces approches qui reste du domaine de la recherche et ne peuvent pas être considérés comme des aides à la décision opérationnelle. Les outils nécessaires à la décision en pratique nécessitent une prédiction du bénéfice de tous les traitements envisageables afin d’homogénéiser le principe du choix entre toutes ces molécules. Un outil prédisant le bénéfice que d’un traitement n’est acceptable que lorsqu’il n’existe pas d’alternative à ce traitement et que la question est finalement y-a-t-il un bénéfice à ajouter cette molécule au traitement de ce patient.
Finalement, il convient aussi de remarquer que la modélisation effectuée par cette approche pouvait être effectuée par un modèle de Cox avec intégration des modificateurs d’effet potentiels par des termes d’interaction traitement covariable. Comme le nombre final de variables retenues pour l’outil de prédiction a été de 15, l’instanciation d’un tel modèle avec autant de patients aurait été certainement réalisable sans grande difficulté. Dans ce cas de figure, l’avantage de recourir à l’IA et au machine learning n’est pas évident. Cependant lorsque la prédiction se base sur de l’imagerie [124] , l’IA avec le deep learning s’impose.
Le même groupe a utilisé la même méthodologie pour la prédiction du bénéfice de l’intensification du traitement antihypertenseur à partir des données de l’essai randomisé SPRINT [125] .