Les assistants vocaux sont-ils sur le point de devenir vos meilleurs interlocuteurs ?

Les assistants vocaux sont devenus en quelques années des objets de notre quotidien. Il est très probable qu’un assistant vocal soit de manière permanente en votre compagnie.

Et cela, que ce soit à travers les objets connectées tels que les enceintes connectées (Alexa d’ Amazon, Google Home) ou via votre smartphone disposant d’un assistant personnel à commande vocale (SIRI d’Apple, Cortana de Microsoft ou encore plus récemment l’Assistant Google Home) vous aidant avec vos tâches quotidiennes et appareils ménagers connectés. Ce déploiement à grande échelle des technologies de traitement du langage naturel est notamment dû au développement important des systèmes d’intelligence artificielle.

Qu’est ce que le traitement automatique du langage naturel (TALN) ?

Aujourd’hui les technologies de retranscriptions audio à l’écrit (Speech to Text) réalisées par un système d’IA offrent des performances très satisfaisantes et sont utilisées dans de nombreuses industries. Ainsi, par exemple, le personnel médical utilise ces outils de dictée vocale pour retranscrire leurs notes. Ces outils de retranscription automatique de la parole sont aussi utilisés quotidiennement par des milliers d’internautes effectuant des saisie vocale Google pour leurs recherches. Par ailleurs, Google a révélé que 20% des recherches sur Android Google App sont désormais vocales¹. Et la tendance est en essor.

Cependant, s’il est facile de traduire une suite de sons en une suite de mot, faire comprendre le sens d’une phrase à un système d’IA est un tout autre défi. Et sur ce point des travaux sont encore nécessaires. Pendant près de 50 ans, les chercheurs se sont attelés à construire des algorithmes informatiques capables de comprendre sémantiquement le langage humain en temps réel. Dans les années 2000, un bond de géant à été franchi grâce à l’utilisation des réseaux de neurones. Ces systèmes d’IA dis connexionnistes ont révolutionné le traitement du langage. Si le premier logiciel de dictée vocale a été lancé en 1997 par la société Dragon, il aura fallu attendre 2011, avec la sortie de l’application SIRI utilisant un Deep Neural Network (DNN), pour que le grand public puisse profiter des fonctionnalités de traitement automatique des langues en temps réel².

Il y a comprendre et comprendre

Pour comprendre il faut dans un premier temps distinguer le Traitement du Langage Naturel (TLN) et la Compréhension du Langage Naturel (CLN). Le TLN permet à une machine de comprendre grammaticalement ce que dit un Homme tandis que le CLN fournit une compréhension sémantique d’un échange conversationnel entre un Homme et une machine. La compréhension du sens des mots et de leur intention par une machine reste encore un défi pour les chercheurs. Les erreurs de reconnaissance et de traitement sémantique de texte sont encore nombreuses.

Par exemple, lorsqu’un individu écoute de la musique sur une enceinte Google Home et qu’il lui dicte l’ordre :“Ok Google, change !”, l’enceinte connectée au lieu de changer la musique, l’informera sur les bureaux de change à proximité de sa localisation. Dans cet exemple, le système d’IA de l’enceinte a su trouver chaque mot qui a été prononcé mais a échoué à les interpréter sémantiquement. Ainsi; comme nous avions pu en parler dans notre article “L’IA: de de la différence entre apprendre et généraliser”, l’IA n’est pas réellement intelligente puisqu’elle se contente d’obéir à des règles prédéfinies.

Qu’est ce qui rend le traitement du langage difficile ?

La compréhension sémantique du langage humain par une machine est très complexe et peut être influencée par de nombreux facteurs. En effet, que ce soit la structure grammaticale (parfois incorrecte), les répétitions de mots lors de moments d’hésitations ou dans le but de souligner son propos: les variations de structure de phrase sont presque sans fin. A cela, il faut ajouter que la signification d’une interaction peut varier selon le contexte et qu’ainsi, par exemple, le second degré ou l’ironie restent encore difficilement détectables et interprétables par des systèmes d’IA.

Qu’est ce que l’IA symboliques et connexionnistes ?

Les IA symboliques

Les premières méthodes de NLP reposaient sur une approche symbolique développée sous l’impulsion de Noam Chomsky à la fin des années 60³. L’IA symbolique s’est alors appuyée sur la logique, ou des ontologies pour modéliser la connaissance et réaliser des tâches de NLP⁴. Ainsi, la connaissance linguistique était codée manuellement sous la forme d’un algorithme regroupant un ensemble de règles grammaticales et de bases de données lexicales.

Les IA connexionnistes pour le NLP

A partir des années 1990, émerge une approche dite statistique dans l’univers de l’intelligence artificielle appliquée au NLP. Les technologies des systèmes d’IA connexionnistes font leur arrivée à travers l’apparition du Machine Learning comprenant les réseaux de neurones et les machines à vecteurs de support. L’IA connexionniste est un algorithme d’intelligence artificielle qui cherche à s’inspirer du vivant pour modéliser le comportement. Ainsi les systèmes d’IA employant des réseaux neuronaux convolutifs (RNC) s’inspirent schématiquement du fonctionnement du cerveau biologique pour le traitement des images⁵.

Les réseaux de neurones ont démontré leur capacité à passer à l’échelle sur des tâches de Speech to Text, par rapport aux modèles traditionnels d’apprentissage automatique comme les modèles cachés de Markov ou la régression logistique⁶. Cependant, les systèmes d’IA connexionnistes ont aussi leurs propres limites dans l’accomplissement de certaines tâches visant à sémantiquement comprendre et établir un échange conversationnel homme-machine⁷.

En effet, bien que plus performantes que les IA symboliques pour généraliser leur comportement en situation réelle. Elles ne permettent pas en outre de modéliser des raisonnements et de construire une compréhension du contexte auquel elles sont confrontées.

Vers une IA hybride pour améliorer la compréhension sémantique ?

Une interaction entre IA symbolique et IA connexionniste pourrait permettre d’effectuer de manière plus précise des tâches plus complexes touchant à la sémantique du traitement du langage naturel.
Le déploiement des IA connexionnistes a donné un souffle nouveau au traitement du langage.

Si l’IA symbolique est plus apte à modéliser le raisonnement, elle a des difficultés pour fonctionner dans un environnement réel avec des perturbations ou de l’incertitude du fait de son manque de robustesse. En effet, il est probablement impossible de caractériser manuellement un domaine d’emploi comprenant l’ensemble des situations auxquelles le système d’IA pourrait être confronté lors d’échanges conversationnels. Même si la longueur de chaque phrase est généralement courte, le nombre de textes possibles peut rapidement devenir trop large.

L’IA connexionniste pourrait alors venir compléter l’IA symbolique, en y apportant sa capacité à généraliser en condition réelle. En effet, l’IA connexionniste s’entraîne et apprend à généraliser à partir d’une vaste quantité de données qui illustre des situations réelles qu’elle aura à traiter. Ainsi pour réaliser des tâches de traitement automatique du langage naturel, les ingénieurs fournissent à leurs systèmes d’IA connexionnistes des données contenant des fichiers audio de conversations. Lorsque le système d’IA connexionniste est face à une situation devant laquelle il n’a jamais été confronté, il s’appuiera sur la situation la plus similaire qu’il connaît grâce à sa base d’entraînement pour extrapoler une réponse face à la situation méconnue.

Cependant aujourd’hui, l’IA connexionniste est confrontée à deux défis que l’IA symbolique peut relever. Premièrement, elle n’est pas en capacité de mobiliser un raisonnement contrairement à l’IA symbolique. Ensuite, l’IA connexionniste reste encore très complexe à caractériser, en effet, elle est capable d’aboutir à des résultats pertinents grâce à des modèles statistiques sans pour autant comprendre le concept symbolique de ces derniers.

En croisant ces deux approches, les chercheurs essayent de tirer parti du meilleur de ces deux types d’IA, en développant un système d’IA hybride construit autour d’un processus d’apprentissage contextuel. Ainsi le système pourrait être en capacité de généraliser en apprenant comment le modèle devrait être structuré en fonction de ce qu’il perçoit d’une situation réelle (IA connexionniste). Mais le système disposerait aussi de la capacité à mobiliser du raisonnement (l’IA symbolique) à partir de ce que le système a perçu dans le but de prendre la décision la plus adaptée à la situation⁸.