LlamarPresupuesto

Reconocimiento automático de voz

El reconocimiento automático de voz (ASR) es una tecnología que puede utilizarse para transcribir palabras habladas en texto escrito.

Ubiqus Spain utiliza una forma de ASR, el Large Vocabulary Continuous Speech Recognition (LVCSR), basado en la identificación automática de secuencias de audio muy cortas. Esta tecnología permite realizar una transcripción de alta calidad, siempre que se disponga de una grabación de audio de alta calidad.

El estado del arte del ASR ha evolucionado enormemente en los últimos años, y nuestro equipo de I+D está contribuyendo a su crecimiento permanente.

Reconocimiento-automático-de-voz

Detección de la actividad de la voz

En primer lugar, es importante identificar  cuándo se habla durante la grabación, para cortar la banda sonora en segmentos.  La máquina trabajará entonces con cada uno de estos segmentos.

Detección-de-la-actividad-de-la-voz

Texto gráfico:  Actividad de detección de la voz

¿Cuándo hay alguien hablando?

Discurso

Ruido

Un gran número de ejemplos

Diarización

A continuación, es importante identificar a los distintos hablantes de cada grabación, y agruparlos en segmentos según su identidad, resolviendo el problema de «¿quién habló cuándo?». Para ello, la máquina utiliza diferentes modelos que contienen datos específicos (idiomas, voz). De esa manera es capaz de diferenciar las sutilezas de un idioma (como los acentos).  Recordemos que en este punto, todavía estamos en el tratamiento «matemático» de los datos.

Diarización

Texto gráfico: Diarización

¿Quién habla cuándo?

Decodificación

Aquí es cuando comienza la transcripción real. Para ello, se establece una lista de posibles sílabas (fonemas) para cada segmento de audio. Por ahora, no se han generado frases completas, solo una larga lista de posibilidades, cada una con una puntuación (score).

Decodificación

Texto gráfico: Decodificación – Modelo acústico

¿Qué han dicho?

Nueva puntuación

El ordenador elige, de entre todos los fonemas y palabras aprendidas durante su entrenamiento inicial, los que tienen más probabilidades de construir la frase más precisa (algo parecido a cómo un GPS identifica la mejor ruta). Es esta frase la que se transcribe en el documento.

Nueva-puntuación

 

Texto gráfico:

Rescoring – Modelización del lenguaje

¿Qué tiene más sentido?

Es parecido a como un GPS identifica la mejor ruta para ir de A a B en el mapa de una ciudad.

Este proceso se aplica a cada segmento de la grabación para producir, finalmente, la transcripción completa.

Al término de este proceso automatizado, nuestros equipos vuelven a leer el documento. Como hacemos con todos los documentos en Ubiqus Spain: además de verificar el contenido en su conjunto, el revisor también se asegurará de que el discurso se ha transcrito correctamente.