Inventer > L’intelligence artificielle de Google est capable de mieux lire sur les lèvres qu’un humain

Written by WeDemain• 24 novembre 2016• 14 h 49 min• Inventer

L’intelligence artificielle de Google est capable de mieux lire sur les lèvres qu’un humain

Des scientifiques de l’Université d’Oxford et de DeepMind, la filiale de Google dédiée à l’intelligence artificielle, ont développé une IA capable de convertir comme jamais les mouvements des lèvres en texte.

Le 24/11/2016 par WeDemain

Des scientifiques de l'Université d'Oxford et de DeepMind, la filiale de Google dédiée à l'intelligence artificielle, ont développé une IA capable de convertir comme jamais les mouvements des lèvres en texte.

L'intelligence artificielle de Google est capable de mieux lire sur les lèvres qu'un humain

Et si, demain, les machines savaient lire sur les lèvres des humains ? Si pour l’heure, ce sont surtout les malentendants qui s’entraînent à la lecture labiale, à base de cours par exemple, les multinationales de l’informatique y travaillent depuis longtemps.

Alors qu’un humain expérimenté dans la lecture labiale est capable de reconnaître une phrase dans 52,3 % des cas, des chercheurs de l’Université d’Oxford affirmaient début novembre que leur intelligence artificielle, elle, parvenait à une moyenne de 93 %. Son nom : LipNet, un logiciel qui arriverait presque, selon eux, à retranscrire la parole d’un interlocuteur en temps réel… Mais qui n’aurait été testé « que » sur des séquences pré-enregistrées, avec des volontaires prononçant des phrases très formelles.

Jeudi 24 novembre, un autre groupe de chercheurs de l’Université d’Oxford, qui travaille en partenariat avec le département IA (intelligence artificielle) de la filiale de Google DeepMind, a annoncé avoir réussi à créer un logiciel encore plus performant : le « logiciel de lecture labiale le plus précis du monde », selon le média de technologie en ligne The Verge .

118 000 phrases et 17 500 mots

Grâce à des milliers d’heures de séquences télévisées de la chaîne britannique BBC, les scientifiques ont créé un réseau artificiel de neurones capable de sous-titrer des vidéos avec une précision de 46,8 %. Un chiffre qui semble dérisoire… Sauf que devant les mêmes images, un professionnel de lecture labiale humain a, lui, seulement réussi à détecter le mot juste dans 12,4 % des cas. Le tout, rappelons-le, face à des images bien plus compliquées à décrypter que celles analysées par le programme LipNet.

En effet, le logiciel de DeepMind, baptisé Watch, Listen, Attend and Spell (Regarder, écouter, assister et épeler) a été confronté à des conversations « naturelles », issues de débats politiques non scénarisés pour l’occasion. Dans le détail, ce sont plus de 5 000 heures d’émissions télévisées de la BBC (dont Newsnight, Question Time, World Today) qui ont été utilisées pour développer le logiciel. Au total, 118 000 phrases différentes et 17 500 mots uniques constituent sa base de données. LipNet, lui, n’en compte que 51.

Des applications nombreuses

Selon les chercheurs du projet, les applications de ce logiciel sont nombreuses. Par exemple, il pourrait aider les personnes malentendantes à mieux comprendre les conversations. Mais aussi être utilisé pour sous-titrer des films muets, ou permettre de mieux contrôler des assistants de reconnaissance vocale tels que les programmes Siri d’Apple, Cortona (Microsofot), Google Assistant ou Alexa (Amazon)… en prononçant ses mots à une caméra. Voire en les chuchotant ou en les mimant, ce qui peut s’avérer pratique en public.

Mais ces prouesses technologiques soulèvent aussi de nouvelles questions éthiques. Qu’adviendrait-il si de tels logiciels de reconnaissance labiale étaient utilisés à des fins de surveillance ?

À LIRE AUSSI : Intelligence artificielle : deux ordinateurs ont communiqué dans une langue inconnue

A lire aussi :

Nos partenaires :

Les Napoleons : au-delà des sommets
Cette communauté de décideurs et d'acteurs du changement (innovation, environnement, social) organise, chaque année, deux sommets pour favoriser la collaboration et le partage d'idées novatrices. L'occasion aussi de proposer une plateforme pour les penseurs avant-gardistes et, ainsi, inspirer la transition.
« Plus de 1000 start-up françaises sont aujourd’hui des entreprises à impact »
DG de France Digitale, collectif de 2 000 start-up, Maya Noël est la marraine 2024 du Prix Entreprendre pour demain créé par la Fondation Sopra Steria- Institut de France et qui met en avant des start-up qui font sens. Le thème de cette édition ? "Une Tech responsable au service de l’environnement et de la solidarité."
OUI DEMAIN : « Avec le Web3, l’utilisateur reprend le contrôle de ses données »
Hélène Jacquinet, consultante blockchain & crypto, était l’invitée de la nouvelle masterclass OUI DEMAIN, animée par WE DEMAIN pour les étudiants du groupe OMNES Education. Avec pour thème : “Blockchain, cryptomonnaies, metaverse, Web3 : vers une nouvelle ère d'Internet ?”