Google: FlauBERT à la rescousse du traitement automatique du français
Publié par Adrien le 20/01/2020 à 08:00
Source: CNRS INS2I
De nombreux outils sont développés pour le traitement automatique du langage naturel, mais ils sont généralement en anglais et doivent être reconfigurés pour chaque langue. Avec FlauBERT, des chercheurs du LIG, du LAMSADE et du LLF proposent une version française de BERT, le dernier modèle de langue de Google (Google, Inc. est une société fondée le 7 septembre 1998 dans la Silicon Valley en Californie par Larry Page et Sergey Brin, auteurs du moteur de recherche Google. Depuis 2001, Eric Schmidt...).

À la croisée (Croisée peut désigner :) de la linguistique et de l'informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement automatique de l'information par des machines telles que les...), le traitement automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la modélisation, de l'analyse, de la commande et, de la régulation des systèmes dynamiques. Elle a pour fondements théoriques...) du langage naturel (Un langage naturel est une langue « normale » parlée par un être humain.) scrute la parole (La parole, c'est du langage incarné. Autrement dit c'est l'acte d'un sujet. Si le langage renvoie à la notion de code, la parole renvoie à celle de corps. La parole est singulière et opère un acte de langage...) et les écrits pour différentes applications: saisie par la voix, traduction et correction automatiques, recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la...) intelligente dans un corpus de textes ou sur Internet (Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée et le World Wide Web, en...)... Les mots sont alors transformés en objets mathématiques (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide de raisonnements logiques sur des concepts tels que les nombres, les figures, les structures et les transformations. Les...) afin d'être utilisés par une intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à celles des...), en particulier par des réseaux de neurones.

Le traitement automatique du langage naturel a été chamboulé en 2018 par la publication de BERT, un modèle de langue proposé par Google. "Avant, chaque mot était manipulé sous forme d'un vecteur unique, explique Laurent Besacier, professeur à l'université (Une université est un établissement d'enseignement supérieur dont l'objectif est la production du savoir (recherche), sa conservation et sa transmission (études supérieures). Aux États-Unis, au moment...) Grenoble Alpes. Des modèles comme Word2vec décrivaient de façon unique des mots pourtant polysémiques, comme “avocat”."

À l'inverse (En mathématiques, l'inverse d'un élément x d'un ensemble muni d'une loi de composition interne · notée multiplicativement, est un élément y tel que x·y = y·x = 1, si 1 désigne...), BERT adapte sa représentation vectorielle des mots en fonction du contexte (Le contexte d'un évènement inclut les circonstances et conditions qui l'entourent; le contexte d'un mot, d'une phrase ou d'un texte inclut les mots qui l'entourent. Le concept de contexte issu traditionnellement de...) et fait ainsi la différence selon que l'on parle d'un fruit (En botanique, le fruit est l'organe végétal protégeant la graine. Caractéristique des Angiospermes, il succède à la fleur par transformation du pistil. La paroi de l'ovaire forme le péricarpe du...) ou d'un juriste. C'est d'ailleurs ainsi qu'il s'entraîne: le modèle prend une phrase et masque un ou plusieurs mots au hasard (Dans le langage ordinaire, le mot hasard est utilisé pour exprimer un manque efficient, sinon de causes, au moins d'une reconnaissance de cause à effet d'un...), qu'il tente ensuite de deviner. Ce principe le rend extrêmement performant, mais BERT a besoin (Les besoins se situent au niveau de l'interaction entre l'individu et l'environnement. Il est souvent fait un classement des besoins humains en trois grandes catégories : les besoins...) d'être modifié pour chaque langue autre que l'anglais.


Googleplex: une des directions du siège social de Google

Des chercheurs du Laboratoire d'informatique de Grenoble (LIG, CNRS/Univ. Grenoble Alpes), du Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE, CNRS/Université Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du bassin...) Dauphine-PSL) et du Laboratoire de linguistique formelle (LLF, CNRS/Université Paris Diderot) ont donc développé FlauBERT, une version française de BERT.

"FlauBERT, appris selon un entraînement non supervisé, évite aux développeurs de partir de zéro (Le chiffre zéro (de l’italien zero, dérivé de l’arabe sifr, d’abord transcrit zefiro en italien) est un symbole marquant une position vide dans l’écriture des nombres en notation...) lorsqu'ils développent de nouvelles tâches de traitement automatique du langage naturel: c'est le concept du préentraînement."

Ils l'ont entraîné à partir d'un corpus de 71 gigaoctets de textes dans la langue de Molière, composés de tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) Wikipédia (Wikipédia (prononcé /wi.ki.pe.dja/) est une encyclopédie, multilingue, universelle, librement diffusable, disponible sur le Web et écrite par les...) en français, de plusieurs années du journal le Monde (Le mot monde peut désigner :), des ouvrages francophones du projet (Un projet est un engagement irréversible de résultat incertain, non reproductible a priori à l’identique, nécessitant le concours et l’intégration d’une grande...) Gutenberg (dont bien entendu du Flaubert) ou encore des transcriptions des débats du Parlement européen. "Tout est précisément renseigné, insiste Laurent Besacier, car les chercheurs ont besoin de savoir comment FlauBERT a appris afin de mieux s'en servir." Dans un même souci d'accessibilité, son benchmark (Un benchmark, en anglais, est un point de référence servant à effectuer une mesure. Le terme vient du vocabulaire professionnel des géomètres, et désigne à l'origine un repère de...) est librement disponible en ligne.

Pour la phase (Le mot phase peut avoir plusieurs significations, il employé dans plusieurs domaines et principalement en physique :) d'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de valeurs culturelles, par...), les chercheurs ont pu utiliser le supercalculateur Jean Zay (Jean Zay est un homme politique français, né à Orléans (Loiret) le 6 août 1904 et mort assassiné par des miliciens à Molles (Allier) le 20 juin 1944. Il a été ministre de l'Éducation...), implanté par GENCI à l'Institut (Un institut est une organisation permanente créée dans un certain but. C'est habituellement une institution de recherche. Par exemple, le Perimeter Institute for Theoretical Physics est un tel institut.) du développement et des ressources en informatique scientifique (Un scientifique est une personne qui se consacre à l'étude d'une science ou des sciences et qui se consacre à l'étude d'un domaine avec la rigueur et les méthodes scientifiques.) du CNRS (Le Centre national de la recherche scientifique, plus connu sous son sigle CNRS, est le plus grand organisme de recherche scientifique public français (EPST).) (IDRIS). L'imposante machine, qui effectue jusqu'à 14 millions de milliards d'opérations en virgule flottante par seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui s'ajoute à quelque chose de nature identique. La seconde est une unité de mesure du temps. La seconde d'arc...), était alors en cours de rodage et un appel à projets avait été lancé pour le tester. Comme l'explique Alexandre Allauzen, chercheur (Un chercheur (fem. chercheuse) désigne une personne dont le métier consiste à faire de la recherche. Il est difficile de bien cerner le métier de chercheur tant les domaines de...) dans l'équipe MILES du LAMSADE et Professeur à l'ESPCI, "il fallait sauter sur cette occasion unique de créer une ressource pour le français de cette envergure. Pour cela nous avons monté l'équipe FlauBERT pour exploiter cette puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) de calcul indispensable au projet mais qui nous était inaccessible et malheureusement réservée jusqu'ici au GAFAM. "

"Nous avons échangé très efficacement pour signaler les bugs, tout en étant soutenus lorsque nous avons dû adapter nos algorithmes à Jean Zay", détaille Didier Schwab, maître de conférences à l'université Grenoble Alpes et membre du LIG comme Laurent Besacier. Les chercheurs ont également mis au point (Graphie) FLUE, un banc de test qui permet d'évaluer les performances des systèmes automatiques de traitement du français.

"FLUE teste la capacité des modèles à accomplir certaines tâches, comme la désambiguation de sens, la capacité à paraphraser ou l'analyse de sentiments d'un texte, c'est-à-dire savoir si une revue de produit est positive ou négative..." précise Didier Schwab. Les chercheurs espèrent à présent voir leur communauté se saisir de ces outils novateurs pour faire avancer le traitement automatique du langage naturel en français.

Références

Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab. FlauBERT: Unsupervised Language Model Pre-training for French. 2019
https://arxiv.org/abs/1912.05372
https://github.com/getalp/Flaubert
Page générée en 0.595 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique