Les biais techniques de l'IA, une fatalité ?

Quel est l’impact des biais sur l’IA ? Un vaste question dont la réponse touche aussi bien des aspects techniques que sociétaux.

Alors que l’intelligence artificielle ne cesse de se développer et que la barrière à l’entrée du deep-learning n’a de cesse de s’abaisser, il reste encore des défis technologiques et sociétaux à relever. Les biais sont aujourd’hui un problème majeur concernant les données et l’IA.

C’est un sujet d’étude qui a marqué ces dernières années et qui a beaucoup fait parler de lui. Les plus grands industriels faisant de l’IA s’intéressent au sujet, notamment car leurs « ratés » ont parfois été causés par ces biais. Et ces ratés ont largement alimenté des débats éthiques plus ou moins justifiés. Nous allons ici essayer d’y voir plus clair concernant ces biais afin d’ensuite pouvoir comprendre comment les contrer.

L’importance d’une base d’entraînement non biaisée

Tout d’abord, il faut comprendre que les biais peuvent venir en grande partie des données. Le problème étant que les IA dérivent leur comportement des données qu’elles ont apprises. Des données biaisées provoquent donc nécessairement des comportement eux-mêmes biaisés. Les conséquences peuvent être importantes tant pour la performance du fonctionnement de l’algorithme, que pour l’impact que celui peut avoir, notamment du point de vue des considérations éthiques. Dans des domaines critiques, les conséquences peuvent être encore plus importantes. Il est donc aisé de percevoir la nécessité que nous avons de comprendre les biais et de les éviter¹.

Cependant, la difficulté est que les biais sont par principe compliqués à repérer. On peut même penser que dans certains cas il n’existe pas de forme sans biais de représentation et qu’ils sont donc inévitables. C’est pourquoi, sans en avoir conscience, des projets aux comportement biaisés ont pu voir le jour et faire parler d’eux.

Toutefois, avec la nécessaire prise de conscience au niveau des concepteurs et les solutions développées, les biais peuvent être managés. In fine leurs effets devraient diminuer dans les systèmes d’intelligence artificielle et permettre ainsi de renforcer la confiance des utilisateurs à l’égard de ces algorithmes.

Quels sont les différents types de biais auxquels l’IA peut être confrontée ?

Les biais peuvent être classés en deux catégories : les biais de traitement et les biais cognitifs². Les biais de traitement relèvent plus du côté technique, et ceux cognitif de l’humain. Parmis les biais techniques, nous pouvons avoir entre autres :

Les biais d’échantillonnage

Les biais d’échantillonnage sont des biais directement liés à la base d’apprentissage de l’algorithme. Cela peut concerner la surreprésentation ou la sous-représentation de certaines données. Ce qui a par exemple été le cas d’algorithmes de reconnaissance faciale qui n’avaient pas assez de photos de gens de couleur et qui avait donc plus de mal à les identifier.

Les biais de mesure

Les biais de mesure entrent en compte lors de la collecte des données. Ils sont liés à des changements qui peuvent intervenir au niveau des appareils de mesure. Par exemple lors de la prise de photos, si l’on change d’appareil.

Les biais de renforcement

Les biais de renforcement, plus complexes, ils sont liés au fonctionnement de l’algorithme. Ils peuvent intervenir lorsqu’une prise de décision impacte la prochaine décision. C’est le principe des recommandations sur internet.

Aux Etats-Unis, un système a été utilisé pour répartir les forces de l’ordre dans des quartiers considérés comme dangereux. Cependant, plus il y a de police sur les lieux et plus les infractions sont relevées et donc fatalement plus l’algorithme envoyait de policiers en pensant que le quartier était très dangereux. En fait, selon sa conception, un algorithme peut ainsi s’enfermer dans un cercle de décision qui se renforce peu à peu.

Les biais d’exclusion

Les biais d’exclusion interviennent lors du traitement des données. Il est possible de décider d’écarter certaines données car elles ne sont pas jugées pertinentes ou entraînent trop de problèmes de traitement. Cependant, supprimer des données fait perdre de l’information et peut impacter le fonctionnement de l’algorithme. Qui plus est, même si certaines données sont supprimées, ce n’est pas pour autant qu’elles ne sont pas utilisées.

Par exemple, si l’on supprime une information caractérisant le genre, l’algorithme peut la retrouver en s’appuyant sur d’autres données comme les prénoms et du coup encore la prendre en compte³.

Les biais cognitifs

Les biais cognitifs sont plus vastes et plus complexes à mesurer. Nous ne les détaillerons pas beaucoup dans cet article, ils sont liés à l’humain et aux sociétés dans lesquelles ils se trouvent. Ainsi, ces biais peuvent être liés au comportement humain.

Par exemple, si un recruteur faisait de la discrimination et que l’algorithme est entraîné afin de reproduire ses prises de décision, l’algorithme sera alors lui aussi discriminant. Cependant, ces biais peuvent aussi provenir de la société. Cela intervient en règle générale lors des étiquetages. Il est observable dans le monde de la médecine que les infirmières sont principalement des femmes et les docteurs des hommes. Ainsi, en 2013 un algorithme d’analyse du langage naturel de Google a assimilé que “doctor – man + woman = nurse”, dû à une inégalité déjà présente dans notre société⁴.

Comment détecter la présence d’un biais dans son jeu de données ?

Une fois que les biais ont été correctement identifiés, il faut encore savoir comment les contrer ou les éviter. Un premier pas évident est de connaître leur existence et leur essence afin d’en tenir compte lors du développement d’une IA.

Une prise de conscience générale est en cours sur la question des biais, dans la lignée de l’intérêt actuel concernant la caractérisation même de l’IA⁵. Les instances internationales se penchent sur la question afin d’entamer la démarche vers une IA dite “de confiance”. Les acteurs du secteur font de même et les instances de standardisation, comme le CEN CENELEC ou l’ISO, ouvrent la voie vers une standardisation de l’IA.

Outre la prise de conscience, des processus de vérification doivent s’imposer au niveau algorithmique. Il faut tester et évaluer les IA. Pour cela, il faut utiliser plusieurs bases de données, avec en plus de la base de données d’entraînement (training set), une base de données de validation (“validation set”) et une de test (“test set”). Durant ce travail de validation il est possible d’affiner le réglage des hyperparamètres des systèmes d’IA et de tester l’algorithme sur une base dont on s’est assuré qu’elle n’était pas biaisée⁶.

Des outils existent aussi pour aider à analyser les IA. Un des objectifs est d’expliquer leur comportement afin de pouvoir corriger si nécessaire ou anticiper un problème de fonctionnement. Il est ainsi possible de s’assurer de la pertinence de la prise de décision. Des bases de données publiques et vérifiées par un tiers de confiance (sans biais) pourraient aussi être une solution afin de pouvoir entraîner ou tester ses algorithmes dessus⁷.

Les biais représentent un aspect des IA que l’industrie et les institutions prennent de plus en plus en compte. Même si l’image de la “boîte noire” continue de coller à la peau de l’IA, il est quand même possible de travailler sur la validation de ce qu’on donne en entrée de cette boîte noire. En travaillant sur la mitigation des risques posées par les biais, l’industrie renforce la confiance en l’IA et permet de faire passer son intégration à la vitesse supérieure.