[News] Google: FlauBERT à la rescousse du traitement automatique du français

Message par **Adrien** » 20/01/2020 - 8:00:09

De nombreux outils sont développés pour le traitement automatique du langage naturel, mais ils sont généralement en anglais et doivent être reconfigurés pour chaque langue. Avec FlauBERT, des chercheurs du LIG, du LAMSADE et du LLF proposent une version française de BERT, le dernier modèle de langue de Google. À la croisée de la linguistique et de l’informatique, le traitement automatique du langage naturel scrute la parole et les écrits pour différentes applications: saisie par...

POB · Message par **POB** » 20/01/2020 - 10:49:43

(...) son benchmark est librement disponible en ligne.

Cet article voudrait promouvoir une technologie susceptible de protéger la langue française mais ses auteurs sont visiblement bien pollués par le franglais, en témoigne le mot "benchmark" qui, à ma connaissance, ne figure pas dans le Littré.
A partir de là, on peut légitimement douter de la qualité de leur travail.

eiffel · Message par **eiffel** » 21/01/2020 - 15:27:00

cet article fait plaisir à lire

j'avais rédigé un mémoire en 1995 sur la reconnaissance manuscrite/vocale et l'une des pistes que j'avais abordé pour améliorer la reconnaissance était de s'intéresser à la sémantique

En effet, scanner un document ou capter du son comporte toujours du bruit (qualité du doc, écriture manuscrite, bruits de fond pour le son, accents, etc), donc, on a qu'une probabilité d'avoir reconnu quelque chose. Déjà à l'époque, on comparait avec un dictionnaire pour vérifier l'existence de ce qui a été vérifié pour augmenter la certitude.

Mais parfois, il reste une incertitude pour plusieurs mots existants dans le dico (ex: classe ou chasse ?)

Et c'est là que la sémantique entre en jeu : selon le contexte dans lequel on utilise le mot (je vais à la... chasse, car je vais à la classe n'est pas correct sémantiquement parlant), la probabilité augmente pour l'une des solutions

il aura fallu une bonne vingtaine d'années pour voir concrètement cette solution

Et la dernière piste que j'avais évoqué, c'est étudier l'ensemble de la conversation/paragraphe/page/...

En effet, "je suis en classe" ou "je suis en chasse" sont tous les 2 sémantiquement corrects.

Mais en étudiant le contexte (si c'est de l'écrit, on regarde de quoi parle le texte/livre par ex, si c'est de l'oral, selon ce qui a été dit avant, voire même les informations que l'on possède sur la personne qui parle, tout à fait possible avec Google

), on va pouvoir choisir l'une des options avec un degré de certitude plus important

eiffel · Message par **eiffel** » 21/01/2020 - 15:45:11

POB a écrit : ↑
20/01/2020 - 10:49:43

(...) son benchmark est librement disponible en ligne.
Cet article voudrait promouvoir une technologie susceptible de protéger la langue française mais ses auteurs sont visiblement bien pollués par le franglais, en témoigne le mot "benchmark" qui, à ma connaissance, ne figure pas dans le Littré.
A partir de là, on peut légitimement douter de la qualité de leur travail.

où avez-vous lu que cette technonologie est susceptible de protéger la langue française ? en quoi la qualité d'un article sur la reconnaissance par une IA serait remis en cause par l'utilisation d'un mot anglais (pour que ce soit du franglais, il aurait fallu par ex conjuguer le mot, ex: "benchmarké") ?

Par ailleurs, sachez qu'une langue est vivante parce qu'elle évolue avec son peuple. L'académie française, c'est bien, mais ce n'est pas l'unique référence : si le peuple décide d'utiliser certains mots anglais sans filtre, parce que, par ex, cela comporte de sensibles différences sémantiques avec leur traduction académique, ce sera comme cela et pas autrement... jusqu'à ce qu'il entre dans le Littré

Enfin, ce mot anglais est utilisé dans un lien vers un site écrit entièrement en anglais... ceci expliquant cela

Je vous invite à suivre ce lien (d'autres existent évidemment) : https://www.courslangues.com/paris/cour ... aduisibles

Vous découvrirez pourquoi nous (même vous!

) utilisons le mot "kitsch"

sz0master · Message par **sz0master** » 19/03/2024 - 12:13:51

Je déterre un peu le sujet mais je trouve qu'avec l'arrivée des LLM sur le marché du "grand public", Google est un peu à la ramasse. Gemini et Bard sont assez loin derrière Claude (Anthropic) et Mistral (cocorico c'est Français). Et je ne parle même pas d'Open AI... Globalement Google reste excellent sur la partie SEO (même si ça a tendance à changer, cf cet article plutôt bien fait). Qu'en pensez-vous ?