Le cancer tue plusieurs millions de personnes chaque année dans le monde. Cependant, certaines études [1] ont montré que la date de diagnostic du cancer a un impact important sur la probabilité de guérison de certains d’entre eux. En plus de chercher un traitement, il est également primordial de rendre efficace le diagnostic afin de repérer le cancer le plus tôt possible.
Depuis plusieurs années, de nombreux travaux sont menés pour inclure de l’intelligence artificielle dans le domaine médical notamment afin d’aider à l’accélération des diagnostics et de faciliter les décisions thérapeutiques. Cependant, l’intégration effective et opérationnelle de l’IA reste un challenge, notamment à cause de certains aspects de gestion et de qualité des données, d’infrastructures de calculs ou encore de validation des technologies d’IA. Concernant la validation, des problématiques sont souvent liées à l’aspect boîte noire de l’IA : comment valider un fonctionnement qui n’est pas explicité ? Ou comment la valider si aucune preuve n’est apportée concernant son bon fonctionnement, si ce n’est un taux de réussite obtenu grâce à des évaluations statistiques ? Saimple aspire justement à répondre à ces problématiques de validation en apportant notamment des métriques d’explicabilité et de robustesse.
Dans ce cas d’étude, nous allons nous intéresser au cancer le plus fréquent chez la femme : le cancer du sein. Avec l’aide d’éléments d’explicabilité des réseaux de neurones issus de Saimple, nous allons tenter de comprendre les cas où le modèle détecte un cancer là où en réalité il n’y en a pas (faux positifs) et où le modèle ne détecte pas un cancer alors qu’il y en a en un (faux négatifs). Ainsi nous pourrons voir à quel niveau un modèle est stable dans sa classification.
Ce cas d’étude utilise un jeu de données d’échographies mammaires du cancer du sein. Il contient trois classes : images normales, bénignes et malignes.
Le nombre de patientes est de 600 et le jeu de données est composé de 680 images :
La taille des images est en moyenne de 500x500 pixels. Chaque image est initialement associée à une autre image, qui est un masque qui permet de localiser la tumeur dans l’image initiale.
Figure 1: Images ne contenant pas de tumeur
Figure 2: Images contenant une tumeur bénigne
Figure 3: Images contenant une tumeur maligne
Pour ce cas d’étude, un modèle de réseau de neurones de type convolutionnel a été sélectionné. Il y a 3 sorties : benign notée 0, malign notée 1 et normal notée 2.
Ce modèle a été entraîné sur des données équilibrées et les images avec masque ont été retirées de l’entraînement puisque ces dernières pourraient biaiser l’entrainement. Le modèle obtient un score de précision de 98%.
Ensuite, le modèle est évalué avec des données de test résumées dans la matrice de confusion ci-dessous.
Figure 4: Matrice de confusion
La matrice de confusion permet de comparer les données réelles pour une variable cible (axe des ordonnées) à celles prédites par un modèle (axe des abscisses). Ainsi il est possible d’identifier le type d’erreur que le modèle commet.
Ici, le modèle a tendance à moins bien classer les images normales (64% de réussite) et à confondre, avec un taux non négligeable, une échographie contenant une tumeur bénigne avec une échographie sans aucune tumeur (25% d’images prédites comme normales qui étaient en réalité des tumeurs bénignes). Pour une échographie contenant une tumeur maligne, le modèle la classe assez souvent comme bénigne ou normal. Mais pour quelles raisons le modèle se trompe-t-il ?
Avant de poursuivre l’analyse pour répondre à cette question, il faut comprendre comment on différencie visuellement une tumeur bénigne d’une tumeur maligne.
Figure 5: Schéma comparatif entre deux types de tumeur
Une tumeur bénigne est une masse bien régulière contrairement à une tumeur maligne qui est irrégulière. L’échographie peut être un bon indicateur pour permettre de détecter une masse et différencier les deux types de tumeur.
La tumeur bénigne est un amas de cellules contrôlées car elles sont maintenues par une capsule circulaire empêchant sa propagation. Elles sont ainsi considérées comme non dangereuses.
La tumeur maligne est un amas de cellules cancéreuses qui est dangereux car il peut se développer dans n’importe quelle partie de l’organisme, les cellules cancéreuses se propagent ainsi de manière incontrôlée.
En utilisant Saimple, nous allons pouvoir poursuivre l’analyse afin d’examiner si le modèle a identifié les caractéristiques des deux types de tumeur pour classer les images.
Saimple permet d’obtenir deux types de résultats :
Figure 6.1: Échographie contenant une tumeur bénigne
Immédiatement, nous pouvons identifier la tumeur bénigne puisqu’une masse bien régulière est visible.
Le graphe de dominance, ci-dessous, indique que le modèle classe l’image dans la classe « benign » ; le modèle classifie donc correctement avec un score très élevé (proche de 1).
Figure 6.2: graphe de dominance
Mais est-ce que le modèle classe bien l’image pour les bonnes raisons ?
La relevance, ci-dessous, permet de visualiser les éléments de l’image qui ont servis à la décision. La relevance se situant à la bordure de la tumeur, on peut supposer que le modèle a bien classifié l’image pour de bonnes raisons c’est-à-dire en identifiant le contour de la tumeur.
Figure 6.3: Échographie contenant une tumeur bénigne avec la relevance
Dans cette première analyse, on remarque également une différence d’intensité de noir entre la tumeur et le reste du tissu. Il est alors possible de se demander si le modèle s’intéresse aux pixels plus sombres.
Figure 7.1: Échographie contenant une tumeur maligne
Sur l’image ci-dessus, la tumeur maligne est rapidement identifiable car elle se situe au centre de l’image.
Le graphe de dominance, ci-dessous, indique que le modèle classe l’image comme « malign » ; le modèle classifie donc correctement avec un score très élevé (proche de 1).
Figure7.2: graphe de dominance
L’image est bien classée mais d’après la relevance ci-dessous, le modèle s’est concentré sur les extrémités de l’image et le contour de la tumeur.
Figure 7.3: Échographie contenant une tumeur maligne avec la relevance
Ainsi, des interrogations se posent quant à la détection réalisée par le réseau de neurones. Peut-être que les éléments sur lesquels l’algorithme se base pour prendre ses décisions ne sont pas pertinents médicalement parlant. Il faut s’assurer que l’algorithme se base sur des éléments sur lesquels les médecins se baseraient eux-mêmes, pour être sûr de la validité du système et éviter au maximum les erreurs de classification.
Ainsi des analyses plus poussées sont nécessaires. En analysant plus précisément le jeu de données, on peut remarquer que certaines images incluent des biais, dont notamment du texte ou des éléments de mesure de la tumeur.
Figure 8.1: Échographie contenant une tumeur maligne avec du texte
Utilisons Saimple pour identifier si le modèle se sert des biais pour classer l’image.
Le graphe de dominance, comme précédemment, permet de vérifier si le modèle classe correctement l’image avec stabilité.
Figure 8.2: graphe de dominance
Le modèle classe correctement l’image mais la relevance, ci-dessous, indique que le modèle le fait pour de mauvaises raisons. Le contour de la tumeur n’est clairement pas utilisé pour classer l’image.
Figure 8.3: Échographie contenant une tumeur maligne et la relevance
La relevance permet d’émettre une hypothèse : le texte a permis au modèle de classer correctement l’image.
Pour poursuivre l’analyse, le texte est enlevé pour voir si le modèle classe toujours correctement l’image avec le même score de dominance. Grace à l’outil Saimple, il a été identifié que le modèle a pris en compte le biais dans sa classification. Ainsi, en retirant ce biais il est attendu que le modèle change sa classification. Une vérification est alors effectuée en prenant la même image sans le texte.
Figure 8.4: Échographie contenant une tumeur maligne sans le texte
La relevance, ci-dessous, montre que le contour de la tumeur n’a toujours pas été identifié par le modèle pour classer l’image.
Figure 8.5: Échographie contenant une tumeur maligne et la relevance
Le graphe de dominance indique que le modèle ne classe pas correctement l’image, et ce avec un score de certitude élevé.
Figure 8.6: graphe de dominance
Ainsi, en enlevant le texte, le modèle a changé sa classification et la relevance montre que le modèle n’a pas identifié la tumeur. Ceci indique que le modèle n’est pas robuste ; il faut donc retirer les biais contenus dans les images et ré-entrainer le modèle.
La détection de cancer est un enjeu important mais il est primordial de réduire les erreurs de diagnostic : les cas de faux positifs entrainant un traitement inutile ou les faux négatifs entrainant la non détection du cancer avec une probable évolution négative de ce dernier.
A travers ce cas d ‘étude, il a été mis en évidence qu’une bonne accuracy, c’est-à-dire supérieure à 0,8 lors de l’entrainement, n’implique pas forcément que le modèle a bien appris et pour de bonnes raisons. En effet, Saimple a pu identifier que le modèle se concentre sur des biais contenus dans l’image et, en enlevant ces biais, le modèle change de classification. Grâce à Saimple, il a donc été possible d’identifier un jeu de données biaisées. Mais il est également possible de suivre le réentrainement du réseau pour s’assurer que les biais soient réellement éliminés.
D’ailleurs concernant la validation des algorithmes, un autre élément peut être mis en avant. Effectivement, les vérifications logicielles sont très intéressantes mais il peut également y avoir besoin de doubler ces dernières. Dans le domaine de la médecine, une détection de cancer sur échographie n’est pas suffisante, les médecins doublent le diagnostic par une étude microscopique pour voir si une masse est cancéreuse. Dans une optique de gain de temps pour le médecin, il serait également possible d’effectuer cette seconde validation par une IA, et de faire intervenir uniquement le médecin en fin de boucle, pour confirmer le diagnostic avec les résultats des deux évaluations et donc de valider les prises de décisions. Ainsi, les algorithmes d’IA peuvent fonctionner en combinaison, mais ce fonctionnement peut rendre toujours plus difficile leur validation et leur acceptation. Les enjeux de sécurité sont critiques, c’est pourquoi Saimple vise à aider à valider les systèmes d’IA, en apportant des preuves concrètes de robustesse et d’explicabilité ; pour finalement permettre d’assister les médecins dans leur analyse en leur permettant d’avoir confiance en l’utilisation de l’IA.
Si vous êtes intéressés par Saimple et que voulez en savoir plus sur le use case ou encore si vous voulez avoir accès à un environnement démo de Saimple:
contactez nous : sales@numalis.com
[1] 450 | 6 septembre 2016 | BEH 26-27 ARTICLE // Article : DATE DE DIAGNOSTIC DE CANCER ET DATE D’EFFET D’AFFECTION DE LONGUE DURÉE POUR CANCER : QUELLE CONCORDANCE ? // DATE OF CANCER DIAGNOSIS AND DATE OF LONG TERM ILLNESS ONSET FOR CANCER: ANY CONCORDANCE? Yao Cyril Kudjawu1 (yao.kudjawu@santepubliquefrance.fr), Teddy Meunier 1, Pascale Grosclaude 2 , Karine Ligier 3 , Marc Colonna 4 , Patricia Delafosse 4 , Florence de Maria1, Gilles Chatellier 5 , Daniel Eilstein1
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6135136/
Image de la page par PublicDomainPicture de Pixabay