Reconnaissance vocale - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Classification

Un système de reconnaissance vocale se classifie par un petit nombre de paramètres appelés modes de reconnaissance qui sont corrélés aux difficultés suivantes :

  • Variabilité inter et intra-locuteur : Les systèmes monolocuteurs (en anglais speaker dependant) effectuent un apprentissage in-situ des mots. Les systèmes multilocuteurs (en anglais speaker independant) sont capables de reconnaître un corpus fixe (50 mots environs) quel que soit le locuteur. Les systèmes monolocuteurs sont les plus répandus et tendent notamment à se généraliser grâce à la synthèse Text to speech qui évite la phase d'apprentissage.
  • Naturel du discours : Les systèmes peuvent travailler sur de la parole continue (en anglais continuous speech), des mots isolés (isolated word) ou encore des mots clefs (key spotting).
  • Taille du vocabulaire
  • Environnement

Les modèles

Un tel système s'appuie sur trois modèles principaux :

  • Modèle acoustique : ce modèle est capable, à partir du signal acoustique, plus précisément du résultat du traitement acoustique, de donner la probabilité que le signal corresponde à chacun des phonèmes possibles de la langue cible.
  • Modèle de prononciation : ce modèle donne pour chaque mot du vocabulaire la ou les prononciations possibles au niveau phonétique avec des probabilités associées.
  • Modèle de langage : ce modèle donne pour chaque suite de mots sa probabilité dans le langage cible.

La combinaison de ces trois modèles permet de calculer pour toute suite de mots la probabilité que le signal sonore lui corresponde. Effectuer la reconnaissance, souvent appelée décodage, consiste à trouver celle qui a la probabilité la plus élevée.

Performance

Les performances brutes d'un moteur de reconnaissance vocale sont souvent mesurées en taux d'erreur de mots (Word error rate). On peut, réciproquement, évaluer le taux de succès. Ce taux varie fortement selon la langue. L'espéranto a un taux d'erreur faible, par exemple. Voici quelques résultats en termes de taux d'erreur, pour le français :

  • Textes lus (BREF, système ancien) : 8-9 %
  • Émissions de radio (campagne ESTER) : 10,3 %
  • Conversations téléphoniques entre gens ne se connaissant pas : 33 %
  • Conversations téléphoniques entre gens se connaissant : 70 % et plus
Page générée en 0.026 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise