Partager la publication "L’intelligence artificielle de Google est capable de mieux lire sur les lèvres qu’un humain"
Alors qu’un humain expérimenté dans la lecture labiale est capable de reconnaître une phrase dans 52,3 % des cas, des chercheurs de l’Université d’Oxford affirmaient début novembre que leur intelligence artificielle, elle, parvenait à une moyenne de 93 %. Son nom : LipNet, un logiciel qui arriverait presque, selon eux, à retranscrire la parole d’un interlocuteur en temps réel… Mais qui n’aurait été testé « que » sur des séquences pré-enregistrées, avec des volontaires prononçant des phrases très formelles.
Jeudi 24 novembre, un autre groupe de chercheurs de l’Université d’Oxford, qui travaille en partenariat avec le département IA (intelligence artificielle) de la filiale de Google DeepMind, a annoncé avoir réussi à créer un logiciel encore plus performant : le « logiciel de lecture labiale le plus précis du monde », selon le média de technologie en ligne The Verge .
118 000 phrases et 17 500 mots
En effet, le logiciel de DeepMind, baptisé Watch, Listen, Attend and Spell (Regarder, écouter, assister et épeler) a été confronté à des conversations « naturelles », issues de débats politiques non scénarisés pour l’occasion. Dans le détail, ce sont plus de 5 000 heures d’émissions télévisées de la BBC (dont Newsnight, Question Time, World Today) qui ont été utilisées pour développer le logiciel. Au total, 118 000 phrases différentes et 17 500 mots uniques constituent sa base de données. LipNet, lui, n’en compte que 51.
Des applications nombreuses
Mais ces prouesses technologiques soulèvent aussi de nouvelles questions éthiques. Qu’adviendrait-il si de tels logiciels de reconnaissance labiale étaient utilisés à des fins de surveillance ?