Publications

Prédiction de pneumonie

05 mai 2022

Ce cas d'utilisation met en lumière comment l’outil Saimple offre la possibilité aux professionnels de santé de comprendre l'origine de la décision clinique prise par l’intelligence artificielle.

Objectif

 

La pneumonie est une infection touchant une partie des poumons. Cette maladie est la principale cause de mortalité chez les enfants de moins de 5 ans d'après l'Organisation Mondiale de la Santé (OMS). En effet, environ 1,4 million d'enfants meurent d’une pneumonie chaque année.

Pour détecter cette maladie, les médecins effectuent un examen physique sur des patients présentant des symptômes. Ils pratiquent ensuite une radiographie thoracique et effectuent ainsi un diagnostic. Or, dans les pays du tiers monde, les outils nécessaires pour diagnostiquer cette maladie sont rares et les diagnostics sont donc souvent imprécis.

L'objectif de ce cas d'étude est donc d'aider les médecins à avoir un diagnostic plus rapidement et de façon plus précise. Aujourd'hui la collecte des données est standardisée mais les applications d'aide au diagnostic se font rares dans le domaine médical. L'intérêt est de développer un système automatisé à l'aide de l'intelligence artificielle, où Saimple, un outil développé par Numalis, permettrait aux professionnels de la santé de comprendre l'origine de la décision clinique du modèle.

Description du jeu de données

 

Ce cas d'étude utilise un jeu de données provenant d'une compétition Kaggle : https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia

Ce jeu de données contient environ 6000 images de radiographies thoraciques d'enfants de moins de 5 ans. Les images sont étiquetées selon deux classes "NORMAL" et "PNEUMONIA".
Il est à noter que dans une radiographie, la clarté correspond à la couleur noire et l'opacité, à la couleur blanche.

Il est important de rappeler qu'une pneumonie est détectée sur une radiographie thoracique lorsqu'une accumulation anormale de liquide dans les poumons est visible. Pour l'identifier, il faut chercher des zones d'opacité, plus précisément au niveau du parenchyme pulmonaire (tissu fonctionnel du poumon). Par exemple, sur les radiographies ci-dessous, celle de droite montre que de l'eau s'est accumulée dans l'un des poumons à l’inverse de celle de gauche.

 

 

Visualisation du jeu de données

 

 

 

 

 

Proportion des classes

Avant de commencer l'analyse, il est important de visualiser la proportion d'images de chaque classe et dans chaque jeu de données.

 

 

Les graphiques ci-dessus montrent que la classe "PNEUMONIA" est sur-représentée dans les jeux d'entrainement et de test. Cela semble cohérent puisque, en réalité, avant de réaliser une radiographie thoracique, le patient présente, la plupart du temps, des symptômes ce qui augmente la probabilité que le patient soit malade. Or, pour améliorer l'entrainement du modèle, il faut avoir un jeu d'entrainement équilibré, c'est-à-dire avoir le même nombre d'images pour chaque classe.

 

Data augmentation

Afin d’équilibrer le jeu de données, nous allons utiliser la data augmentation, qui est une technique efficace pour augmenter le nombre d'images dans la classe sous-représentée. Pour ce faire, plusieurs images de la classe sous-représentée sont sélectionnées et seront transformées pour créer de nouvelles images.

La transformation peut correspondre à :

·      Faire pivoter l'image de manière aléatoire,

·      Redimensionner à la verticale ou à l'horizontale,

·      Rogner l’image,

·      Zoomer,

·      Remplir des pixels (c’est-à-dire compléter les espaces manquants dans l’image redimensionnée).

Cependant, en réalité, les clichés doivent respecter des critères de qualité médicale :

·      Symétrie,

·      Pénétrance,

·      Centrage,

·      Inspiration profonde et dégagement des omoplates.

Ainsi, il est possible de déterminer que le pivotement de l'image n'est pas inclus dans la data augmentation.

Les quatres radiographies ci-dessous sont un exemple de data-augmentation. En effet, à partir d’une seule image, quatre nouvelles ont été générées en rognant et en remplissant les pixels des zones manquantes.


Explication du modèle

 

Pour ce cas d'étude, le modèle de prédiction est un réseau de neurones convolutif. Il s'agit d'un type particulier de réseau de neurones permettant de traiter les données d'images. La valeur de sortie de ce modèle est une probabilité d'appartenance à une classe ("NORMAL" ou "PNEUMONIA").