LlamarPresupuesto
 

Reconnaissance vocale automatique

La reconnaissance vocale automatique, ou Automatic Speech Recognition (ASR), est une technologie qui permet de retranscrire à l’écrit les propos tenus à l’oral.

Ubiqus Spain utilise un domaine précis de l’ASR : le LVCSR (Large Vocabulary Continuous Speech Recognition), basé sur l’identification automatique de séquences audio très courtes. Cette technologie permet de produire une transcription d’excellente qualité, sous réserve d’un enregistrement audio de niveau correct.

L’état de l’art de l’ASR a grandement évolué ces dernières années et notre équipe R&D contribue sans relâche à cette évolution permanente.

Le processus se déroule en 4 étapes :

Reconnaissance-vocale-automatique

 

Détection de l’activité vocale

Tout d’abord, il est important d’identifier  quels éléments de l’enregistrement comportent du discours, afin de découper la bande son en segments.  La machine travaille ensuite sur chacun de ces segments.

Détection-de-l’activité-vocale

Diarization

Il faut ensuite identifier les différents locuteurs qui s’expriment sur chaque enregistrement, afin de les regrouper par segments en fonction du locuteur et pouvoir ainsi identifier les prises de parole. Pour cela, la machine utilise différents moteurs, qui ont chacun été alimentés par des données spécifiques (langues, voix). Elle est donc capable de différencier les subtilités d’une langue (comme les accents par exemple).  Notons qu’à ce stade, nous restons dans un traitement « mathématique » des données.

Diarization

Décodage

C’est à ce moment que la transcription proprement dite commence. Une liste des syllabes (phonèmes) possibles est établie pour chaque segment audio. Pour l’instant, aucune phrase complète n’a été écrite, uniquement une longue liste de possibilités, chacune avec un score.

Décodage

Rescoring

L’ordinateur choisit, parmi tous les phonèmes et les mots appris lors de son apprentissage initial, ceux qui sont les plus susceptibles de former la phrase la plus précise (un peu comme la manière dont un GPS identifie le meilleur itinéraire). C’est cette phrase qui est retranscrite dans le document.

Rescoring

Ce processus est appliqué sur chaque segment de l’enregistrement pour produire, in fine, la transcription complète.

À l’issue de ce processus automatisé, le document est relu par nos équipes, comme pour un document Ubiqus classique : outre la vérification du contenu en tant que tel, le relecteur s’assure également de la bonne attribution des prises de parole.