6.4.3 Validation

L‘IA n’apporte pas de solution magique à la question de la personnalisation des traitements ou de l’identification des marqueurs prédictifs, contrairement à ce qui pourrait laisser penser le buzz qui entoure cette approche actuellement [10] .

L’IA, avec le machine learning, offre simplement des techniques de classification et de prédiction un peu différentes des méthodes statistiques habituelles [120] . Mais rien dans l’IA ne fait disparaitre les problématiques de base (effet traitement individuel non observable, performance des prédictions dépendant entièrement de l’existence de réels déterminants du bénéfice et de leur capture dans les variables du jeu de données d’entrainement, modélisation du bénéfice absolu ou de l’effet relatif). Ces techniques sont donc utilisées pour construire des modèles de prédiction du cATE soit par la modélisation du risque ou directement de l’effet (cf. section 6.1).

Au niveau de la fiabilité des prédictions, là aussi rien de magique avec l’IA, et les performances prédictives des outils construits par ces approches doivent être validées de la même façon que ceux issus des techniques statistiques habituelles [126] . Après leur construction, ces outils doivent faire l’objet d’études de validation externe correctement conçues et réalisées. Ils ne pourront être déployés en pratique médicale courante que si ces études de validation externe confirment la généralisabilité de leur performance. Comme la validation externe de la performance de leur prédiction est limitée par l’impossibilité d’observer la vraie valeur de l’effet traitement individuel, la démonstration de leur utilité médicale produite par des essais de stratégie est indispensable compte tenu des enjeux sous-jacents (perte de chance possible).

Il convient d’être très vigilant sur ces aspects, car la méta-épidémiologie met en évidence une grande faiblesse de l’évaluation clinique des outils d’IA produits à l’heure actuelle. La validation externe est loin d’être systématique et la majorité des études de validation sont à haut risque de biais [127 , 128 , 129 , 130] . Au total, il est souvent impossible de conclure sur le réel niveau de performances des outils développés, ce qui bloque leur utilisation en pratique.