Transcription vocale - Quelle est la précision de la transcription vocale et comment l'améliorer ?

Plusieurs facteurs peuvent affecter la précision de la transcription. Pour plus d'informations, voir Améliorer la précision de la transcription. La transcription vocale native de Genesys Cloud offre un niveau de précision similaire à celui des autres fournisseurs de transcription.

Une fois que vous avez traité tous les facteurs susceptibles d'avoir un impact négatif sur la précision, vous pouvez utiliser la gestion du dictionnaire pour améliorer la précision.

La gestion des dictionnaires permet d'améliorer la reconnaissance des termes spécifiques à une entreprise ou à un domaine. Des marques, des mots ou des acronymes spécifiques sont transcrits en fonction des spécificités de l'organisation. Cette fonction permet aux clients d'ajouter des termes au dictionnaire, améliorant ainsi les chances de reconnaissance du service de transcription. Pour plus d'informations, voir Comprendre la gestion des dictionnaires.

La gestion des dictionnaires n'interfère pas avec le repérage des sujets. Le repérage des sujets prend en charge les dialectes de transcription de la voix maternelle. Pour plus d'informations, voir Langues prises en charge par Genesys Cloud .

Effectuez les opérations suivantes pour améliorer la précision du repérage des sujets.

  1. Ajouter le terme à les liste de phrases dans un neuf ou existant sujet.
  2. Vérifier les spécifique le sujet est ajouté à la liste des sujets du programme utilisé pour transcrire les interactions.
 Note: Les sujets reconnus grâce à la gestion du dictionnaire apparaissent idans la transcription lorsqu'ils sont visualisés dans la page Détails de l'interaction.

Les taux de précision de la transcription peuvent varier de manière significative avec h dans le centre de contact en fonction de la qualité audio, de la clarté de la parole et de la formation supplémentaire fournie par les sujets.

La précision de la transcription vocale est généralement mesurée par Word Error Rate (WER). Le WER identifie le nombre de mots incorrectement transcrits lors de la transcription vocale et divise ce nombre par le nombre de mots d'une transcription manuelle. 

Il existe trois types d'erreurs.

  • Insertion (JE): Lorsque des mots incorrects sont ajoutés à la transcription.
  • Effacement (D): Lorsque des mots ne sont pas détectés dans la transcription.
  • Substitution (S): Lorsque des mots sont remplacés par des mots non pertinents.

Ils sont additionnés et divisés par le nombre total de mots de la transcription manuelle (N). 

Le WER est ensuite calculé à l'aide de l'équation suivante :

Équation WER

Transcription manuelle : Aujourd'hui, il fait beau et ensoleillé.

Résultats potentiels de la transcription vocale : Le jeudi est un beau soleil.

Le résultat de la reconnaissance vocale comportait l'erreur suivante :

S = 1 ("Jeudi" au lieu de "Aujourd'hui")

D = 1 ("et" manquant)

I = 1 ("a" est ajouté)

N = 5 mots

Dans ce cas, le taux de réussite est de 60 %.

Dans les langues à base de caractères, un "taux d'erreur de caractère" est utilisé à la place du WER.

Pour plus d'informations, voir Améliorer la précision de la transcription, et Travailler avec une phrase.