De nombreux outils sont développés pour le traitement automatique du langage naturel, mais ils sont généralement en anglais et doivent être reconfigurés pour chaque langue. Avec FlauBERT, des chercheurs du
LIG, du
LAMSADE et du
LLF proposent une version française de BERT, le dernier modèle de langue de Google.
À la croisée de la linguistique et de l'
informatique (L´informatique - contraction d´information et automatique - est le domaine...), le traitement
automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la...) du
langage naturel (Un langage naturel est une langue « normale » parlée par un être humain.) scrute la parole et les écrits pour différentes applications: saisie par la voix, traduction et correction automatiques,
recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue...) intelligente dans un corpus de textes ou sur
Internet (Internet est le réseau informatique mondial qui rend accessibles au public des services...)... Les mots sont alors transformés en objets
mathématiques (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide...) afin d'être utilisés par une
intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens...), en particulier par des réseaux de neurones.
Le traitement automatique du langage naturel a été chamboulé en 2018 par la publication de BERT, un modèle de langue proposé par Google. "
Avant, chaque mot était manipulé sous forme d'un vecteur unique, explique
Laurent Besacier, professeur à l'
université (Une université est un établissement d'enseignement supérieur dont l'objectif est la...) Grenoble Alpes.
Des modèles comme Word2vec décrivaient de façon unique des mots pourtant polysémiques, comme “avocat”."
À l'inverse, BERT adapte sa représentation vectorielle des mots en fonction du contexte et fait ainsi la différence selon que l'on parle d'un fruit ou d'un juriste. C'est d'ailleurs ainsi qu'il s'entraîne: le modèle prend une phrase et masque un ou plusieurs mots au hasard, qu'il tente ensuite de deviner. Ce principe le rend extrêmement performant, mais BERT a besoin d'être modifié pour chaque langue autre que l'anglais.
Googleplex: une des directions du siège social de Google
Des chercheurs du
Laboratoire d'informatique de Grenoble (LIG, CNRS/Univ. Grenoble Alpes), du
Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE, CNRS/Université Paris Dauphine-PSL) et du
Laboratoire de linguistique formelle (LLF, CNRS/Université Paris Diderot) ont donc développé FlauBERT, une version française de BERT.
"FlauBERT, appris selon un entraînement non supervisé, évite aux développeurs de partir de zéro lorsqu'ils développent de nouvelles tâches de traitement automatique du langage naturel: c'est le concept du préentraînement."
Ils l'ont entraîné à partir d'un corpus de 71 gigaoctets de textes dans la langue de Molière, composés de tout Wikipédia en français, de plusieurs années du journal le Monde, des ouvrages francophones du projet
Gutenberg (dont bien entendu du Flaubert) ou encore des transcriptions des débats du Parlement européen. "
Tout est précisément renseigné, insiste Laurent Besacier,
car les chercheurs ont besoin de savoir comment FlauBERT a appris afin de mieux s'en servir." Dans un même souci d'accessibilité,
son benchmark est librement disponible en ligne.
Pour la phase d'apprentissage, les chercheurs ont pu utiliser le supercalculateur
Jean Zay (Jean Zay est un homme politique français, né à Orléans (Loiret) le 6 août...), implanté par GENCI à l'
Institut (Un institut est une organisation permanente créée dans un certain but. C'est...) du développement et des ressources en informatique
scientifique (Un scientifique est une personne qui se consacre à l'étude d'une science ou des sciences et qui...) du CNRS (IDRIS). L'imposante machine, qui effectue jusqu'à 14 millions de milliards d'opérations en virgule flottante par
seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui...), était alors en cours de rodage et un appel à projets avait été lancé pour le tester. Comme l'explique
Alexandre Allauzen,
chercheur (Un chercheur (fem. chercheuse) désigne une personne dont le métier consiste à faire de la...) dans l'équipe MILES du LAMSADE et Professeur à l'ESPCI, "
il fallait sauter sur cette occasion unique de créer une ressource pour le français de cette envergure. Pour cela nous avons monté l'équipe FlauBERT pour exploiter cette puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) de calcul indispensable au projet mais qui nous était inaccessible et malheureusement réservée jusqu'ici au GAFAM. "
"
Nous avons échangé très efficacement pour signaler les bugs, tout en étant soutenus lorsque nous avons dû adapter nos algorithmes à Jean Zay", détaille
Didier Schwab, maître de conférences à l'université Grenoble Alpes et membre du LIG comme Laurent Besacier. Les chercheurs ont également mis au point FLUE, un banc de test qui permet d'évaluer les performances des systèmes automatiques de traitement du français.
"
FLUE teste la capacité des modèles à accomplir certaines tâches, comme la désambiguation de sens, la capacité à paraphraser ou l'analyse de sentiments d'un texte, c'est-à-dire savoir si une revue de produit est positive ou négative..." précise Didier Schwab. Les chercheurs espèrent à présent voir leur communauté se saisir de ces outils novateurs pour faire avancer le traitement automatique du langage naturel en français.
Références
Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab.
FlauBERT: Unsupervised Language Model Pre-training for French. 2019
https://arxiv.org/abs/1912.05372
https://github.com/getalp/Flaubert