[News] Google: FlauBERT à la rescousse du traitement automatique du français
Modérateur : Modérateurs
-
- Site Admin
- Messages : 34343
- Inscription : 02/06/2004 - 18:58:53
- Activité : Ingénieur
- Localisation : 78
[News] Google: FlauBERT à la rescousse du traitement automatique du français
De nombreux outils sont développés pour le traitement automatique du langage naturel, mais ils sont généralement en anglais et doivent être reconfigurés pour chaque langue. Avec FlauBERT, des chercheurs du LIG, du LAMSADE et du LLF proposent une version française de BERT, le dernier modèle de langue de Google.
À la croisée de la linguistique et de l’informatique, le traitement automatique du langage naturel scrute la parole et les écrits pour différentes applications: saisie par...
Re: [News] Google: FlauBERT à la rescousse du traitement automatique du français
Cet article voudrait promouvoir une technologie susceptible de protéger la langue française mais ses auteurs sont visiblement bien pollués par le franglais, en témoigne le mot "benchmark" qui, à ma connaissance, ne figure pas dans le Littré.(...) son benchmark est librement disponible en ligne.
A partir de là, on peut légitimement douter de la qualité de leur travail.

Re: [News] Google: FlauBERT à la rescousse du traitement automatique du français
cet article fait plaisir à lire 
j'avais rédigé un mémoire en 1995 sur la reconnaissance manuscrite/vocale et l'une des pistes que j'avais abordé pour améliorer la reconnaissance était de s'intéresser à la sémantique
En effet, scanner un document ou capter du son comporte toujours du bruit (qualité du doc, écriture manuscrite, bruits de fond pour le son, accents, etc), donc, on a qu'une probabilité d'avoir reconnu quelque chose. Déjà à l'époque, on comparait avec un dictionnaire pour vérifier l'existence de ce qui a été vérifié pour augmenter la certitude.
Mais parfois, il reste une incertitude pour plusieurs mots existants dans le dico (ex: classe ou chasse ?)
Et c'est là que la sémantique entre en jeu : selon le contexte dans lequel on utilise le mot (je vais à la... chasse, car je vais à la classe n'est pas correct sémantiquement parlant), la probabilité augmente pour l'une des solutions
il aura fallu une bonne vingtaine d'années pour voir concrètement cette solution
Et la dernière piste que j'avais évoqué, c'est étudier l'ensemble de la conversation/paragraphe/page/...
En effet, "je suis en classe" ou "je suis en chasse" sont tous les 2 sémantiquement corrects.
Mais en étudiant le contexte (si c'est de l'écrit, on regarde de quoi parle le texte/livre par ex, si c'est de l'oral, selon ce qui a été dit avant, voire même les informations que l'on possède sur la personne qui parle, tout à fait possible avec Google
), on va pouvoir choisir l'une des options avec un degré de certitude plus important 

j'avais rédigé un mémoire en 1995 sur la reconnaissance manuscrite/vocale et l'une des pistes que j'avais abordé pour améliorer la reconnaissance était de s'intéresser à la sémantique
En effet, scanner un document ou capter du son comporte toujours du bruit (qualité du doc, écriture manuscrite, bruits de fond pour le son, accents, etc), donc, on a qu'une probabilité d'avoir reconnu quelque chose. Déjà à l'époque, on comparait avec un dictionnaire pour vérifier l'existence de ce qui a été vérifié pour augmenter la certitude.
Mais parfois, il reste une incertitude pour plusieurs mots existants dans le dico (ex: classe ou chasse ?)
Et c'est là que la sémantique entre en jeu : selon le contexte dans lequel on utilise le mot (je vais à la... chasse, car je vais à la classe n'est pas correct sémantiquement parlant), la probabilité augmente pour l'une des solutions


Et la dernière piste que j'avais évoqué, c'est étudier l'ensemble de la conversation/paragraphe/page/...
En effet, "je suis en classe" ou "je suis en chasse" sont tous les 2 sémantiquement corrects.
Mais en étudiant le contexte (si c'est de l'écrit, on regarde de quoi parle le texte/livre par ex, si c'est de l'oral, selon ce qui a été dit avant, voire même les informations que l'on possède sur la personne qui parle, tout à fait possible avec Google


Re: [News] Google: FlauBERT à la rescousse du traitement automatique du français
où avez-vous lu que cette technonologie est susceptible de protéger la langue française ? en quoi la qualité d'un article sur la reconnaissance par une IA serait remis en cause par l'utilisation d'un mot anglais (pour que ce soit du franglais, il aurait fallu par ex conjuguer le mot, ex: "benchmarké") ?POB a écrit : ↑20/01/2020 - 10:49:43Cet article voudrait promouvoir une technologie susceptible de protéger la langue française mais ses auteurs sont visiblement bien pollués par le franglais, en témoigne le mot "benchmark" qui, à ma connaissance, ne figure pas dans le Littré.(...) son benchmark est librement disponible en ligne.
A partir de là, on peut légitimement douter de la qualité de leur travail.
![]()
Par ailleurs, sachez qu'une langue est vivante parce qu'elle évolue avec son peuple. L'académie française, c'est bien, mais ce n'est pas l'unique référence : si le peuple décide d'utiliser certains mots anglais sans filtre, parce que, par ex, cela comporte de sensibles différences sémantiques avec leur traduction académique, ce sera comme cela et pas autrement... jusqu'à ce qu'il entre dans le Littré

Enfin, ce mot anglais est utilisé dans un lien vers un site écrit entièrement en anglais... ceci expliquant cela

Je vous invite à suivre ce lien (d'autres existent évidemment) : https://www.courslangues.com/paris/cour ... aduisibles
Vous découvrirez pourquoi nous (même vous!


Re: [News] Google: FlauBERT à la rescousse du traitement automatique du français
Je déterre un peu le sujet mais je trouve qu'avec l'arrivée des LLM sur le marché du "grand public", Google est un peu à la ramasse. Gemini et Bard sont assez loin derrière Claude (Anthropic) et Mistral (cocorico c'est Français). Et je ne parle même pas d'Open AI... Globalement Google reste excellent sur la partie SEO (même si ça a tendance à changer, cf cet article plutôt bien fait). Qu'en pensez-vous ?