Inventer  > Big Science, le super traducteur plus inclusif et écolo que Google

Written by 17 h 13 min Inventer • One Comment

Big Science, le super traducteur plus inclusif et écolo que Google

Plus de 250 chercheurs s’unissent pour créer un modèle de langues open source plus inclusif et plus écolo que ceux Google ou Microsoft. C’est le projet Big Science.

Le 24/05/2021 par Sofia Colla
intelligence artificielle Big Science
Pour développer cette intelligence artificielle, les chercheurs vont s’appuyer sur le supercalculateur français Jean Zay. (Crédit : Photothèque CNRS/Cyril Frésillon)
Pour développer cette intelligence artificielle, les chercheurs vont s’appuyer sur le supercalculateur français Jean Zay. (Crédit : Photothèque CNRS/Cyril Frésillon)

Faire mieux que Google en matière de langues et de traduction : voilà l’immense défi du projet Big Science. Lancé le 28 avril 2021, ce projet est porté par plus de 250 chercheurs issus de laboratoires et d’entreprises d’une dizaine de pays. Notamment le CNRS, Renault, Ubisoft, Airbus, Facebook ou encore Orange. 

Précisément, l’objectif de Big Science est de développer ce qu’on appelle « un modèle de langues ». C’est à dire un programme qui maitrise la grammaire, la syntaxe, et dispose d’un vocabulaire énorme. Et ce dans huit langues. Parmi elles, le français, l’anglais ou diverses langues africaines. Une sorte de supertraducteur qui dépasserait les capacités des outils de Google. Mais aussi d’OpenIA, utilisé par Microsoft. Cet outil se veut également open source, plus neutre et plus écolo.

Big Science : une technologie française

Pour cela, les chercheurs s’appuient sur le supercalculateur français Jean Zay, installé à Orsay. Ce dernier dispose d’une puissance de calcul de 29 millions de milliards d’opérations par seconde. Mi-avril, le Genci (Grand équipement national de calcul intensif)) et l’Idris (Institut du développement et des ressources en informatique scientifique du CNRS) ont donné leur accord pour mettre à disposition 5 millions d’heures de calcul. C’est-à-dire environ un quart des capacités de Jean Zay. 

La machine permettrait de développer le langage, la grammaire, la syntaxe ou encore le vocabulaire de l’IA en un an. Celle-ci pourrait notamment être utilisée dans le domaine de la traduction, mais aussi pour des chatbots ou des jeux vidéo. 

De cette façon, le projet espère contrer la « mainmise » des géants de la tech sur ce type de technologies. Les fondateurs pointent notamment du doigt les problèmes éthiques que ce cette « mainmise » engendre. Ils citent par exemple « l’anglo-centrisme » de ces technologies, la non-représentativité des populations, ou encore la prédominance de stéréotypes de genre.

À lire aussi : 10 innovations qui pourraient révolutionner le monde de demain

Une intelligence artificielle plus inclusive

 BigScience se veut donc plus inclusif. Grâce notamment à un « corpus d’apprentissage mieux contrôlé, avec notamment la correction de différents biais de langue et de genre », précise Le Monde.

L’utilisation du système de Jean Zay permet également de répondre au problème de la forte consommation énergétique des supercaculateurs les plus utilisés et les plus puissants que sont Switch-C (Google) et GPT-3 (OpenIA). « Jean Zay est un champion de l’efficacité énergétique », souligne le CNRS. En effet, la machine française dispose d’une technologie de refroidissement à l’eau tiède. Les calories sont récupérées pour chauffer un bâtiment du CNRS et bientôt l’Université de Paris-Saclay. 

« L’initiative [BigScience, ndlr] est aussi une réaction au fait que les gros modèles développés par les entreprises du numérique se posent ces questions (écologiques ou éthiques, ndlr) a posteriori. Nous ferons d’abord la liste des questions, puis le modèle pour y répondre », explique Thomas Wolf, à l’initiative du projet et directeur scientifique de la start-up américaine HuggingFace (fournisseur open-source de technologies de traitement du langage naturel), au journal Le Monde

L’atelier de recherche devrait durer un an. Les premiers résultats, eux, sont attendus pour le mois de juillet. 

A lire aussi :