Google: FlauBERT à la rescousse du traitement automatique du français

Publié par Adrien le 20/01/2020 à 08:00
Source: CNRS INS2I
4
Restez toujours informé: suivez-nous sur Google Actualités (icone ☆)

De nombreux outils sont développés pour le traitement automatique du langage naturel, mais ils sont généralement en anglais et doivent être reconfigurés pour chaque langue. Avec FlauBERT, des chercheurs du LIG, du LAMSADE et du LLF proposent une version française de BERT, le dernier modèle de langue de Google.

À la croisée de la linguistique et de l'informatique (L´informatique - contraction d´information et automatique - est le domaine...), le traitement automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la...) du langage naturel (Un langage naturel est une langue « normale » parlée par un être humain.) scrute la parole et les écrits pour différentes applications: saisie par la voix, traduction et correction automatiques, recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue...) intelligente dans un corpus de textes ou sur Internet (Internet est le réseau informatique mondial qui rend accessibles au public des services...)... Les mots sont alors transformés en objets mathématiques (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide...) afin d'être utilisés par une intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens...), en particulier par des réseaux de neurones.

Le traitement automatique du langage naturel a été chamboulé en 2018 par la publication de BERT, un modèle de langue proposé par Google. "Avant, chaque mot était manipulé sous forme d'un vecteur unique, explique Laurent Besacier, professeur à l'université (Une université est un établissement d'enseignement supérieur dont l'objectif est la...) Grenoble Alpes. Des modèles comme Word2vec décrivaient de façon unique des mots pourtant polysémiques, comme “avocat”."

À l'inverse, BERT adapte sa représentation vectorielle des mots en fonction du contexte et fait ainsi la différence selon que l'on parle d'un fruit ou d'un juriste. C'est d'ailleurs ainsi qu'il s'entraîne: le modèle prend une phrase et masque un ou plusieurs mots au hasard, qu'il tente ensuite de deviner. Ce principe le rend extrêmement performant, mais BERT a besoin d'être modifié pour chaque langue autre que l'anglais.


Googleplex: une des directions du siège social de Google

Des chercheurs du Laboratoire d'informatique de Grenoble (LIG, CNRS/Univ. Grenoble Alpes), du Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE, CNRS/Université Paris Dauphine-PSL) et du Laboratoire de linguistique formelle (LLF, CNRS/Université Paris Diderot) ont donc développé FlauBERT, une version française de BERT.

"FlauBERT, appris selon un entraînement non supervisé, évite aux développeurs de partir de zéro lorsqu'ils développent de nouvelles tâches de traitement automatique du langage naturel: c'est le concept du préentraînement."

Ils l'ont entraîné à partir d'un corpus de 71 gigaoctets de textes dans la langue de Molière, composés de tout Wikipédia en français, de plusieurs années du journal le Monde, des ouvrages francophones du projet Gutenberg (dont bien entendu du Flaubert) ou encore des transcriptions des débats du Parlement européen. "Tout est précisément renseigné, insiste Laurent Besacier, car les chercheurs ont besoin de savoir comment FlauBERT a appris afin de mieux s'en servir." Dans un même souci d'accessibilité, son benchmark est librement disponible en ligne.

Pour la phase d'apprentissage, les chercheurs ont pu utiliser le supercalculateur Jean Zay (Jean Zay est un homme politique français, né à Orléans (Loiret) le 6 août...), implanté par GENCI à l'Institut (Un institut est une organisation permanente créée dans un certain but. C'est...) du développement et des ressources en informatique scientifique (Un scientifique est une personne qui se consacre à l'étude d'une science ou des sciences et qui...) du CNRS (IDRIS). L'imposante machine, qui effectue jusqu'à 14 millions de milliards d'opérations en virgule flottante par seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui...), était alors en cours de rodage et un appel à projets avait été lancé pour le tester. Comme l'explique Alexandre Allauzen, chercheur (Un chercheur (fem. chercheuse) désigne une personne dont le métier consiste à faire de la...) dans l'équipe MILES du LAMSADE et Professeur à l'ESPCI, "il fallait sauter sur cette occasion unique de créer une ressource pour le français de cette envergure. Pour cela nous avons monté l'équipe FlauBERT pour exploiter cette puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) de calcul indispensable au projet mais qui nous était inaccessible et malheureusement réservée jusqu'ici au GAFAM. "

"Nous avons échangé très efficacement pour signaler les bugs, tout en étant soutenus lorsque nous avons dû adapter nos algorithmes à Jean Zay", détaille Didier Schwab, maître de conférences à l'université Grenoble Alpes et membre du LIG comme Laurent Besacier. Les chercheurs ont également mis au point FLUE, un banc de test qui permet d'évaluer les performances des systèmes automatiques de traitement du français.

"FLUE teste la capacité des modèles à accomplir certaines tâches, comme la désambiguation de sens, la capacité à paraphraser ou l'analyse de sentiments d'un texte, c'est-à-dire savoir si une revue de produit est positive ou négative..." précise Didier Schwab. Les chercheurs espèrent à présent voir leur communauté se saisir de ces outils novateurs pour faire avancer le traitement automatique du langage naturel en français.

Références

Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab. FlauBERT: Unsupervised Language Model Pre-training for French. 2019
https://arxiv.org/abs/1912.05372
https://github.com/getalp/Flaubert
Page générée en 0.176 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise