LlamarPresupuesto

Reconocimiento automático de voz

Detección de la actividad de la voz

En primer lugar, es importante identificar  cuándo se habla durante la grabación, para cortar la banda sonora en segmentos.  La máquina trabajará entonces con cada uno de estos segmentos.


Detección-de-la-actividad-de-la-voz

Diarización

A continuación, es importante identificar a los distintos hablantes de cada grabación, y agruparlos en segmentos según su identidad, resolviendo el problema de «¿quién habló cuándo?». Para ello, la máquina utiliza diferentes modelos que contienen datos específicos (idiomas, voz). De esa manera es capaz de diferenciar las sutilezas de un idioma (como los acentos).  Recordemos que en este punto, todavía estamos en el tratamiento «matemático» de los datos.


Diarización

Decodificación

Aquí es cuando comienza la transcripción real. Para ello, se establece una lista de posibles sílabas (fonemas) para cada segmento de audio. Por ahora, no se han generado frases completas, solo una larga lista de posibilidades, cada una con una puntuación (score).


Decodificación

Nueva puntuación

El ordenador elige, de entre todos los fonemas y palabras aprendidas durante su entrenamiento inicial, los que tienen más probabilidades de construir la frase más precisa (algo parecido a cómo un GPS identifica la mejor ruta). Es esta frase la que se transcribe en el documento.


Nueva-puntuación

Es parecido a como un GPS identifica la mejor ruta para ir de A a B en el mapa de una ciudad.
Este proceso se aplica a cada segmento de la grabación para producir, finalmente, la transcripción completa.
Al término de este proceso automatizado, nuestros equipos vuelven a leer el documento. Como hacemos con todos los documentos en Ubiqus Spain: además de verificar el contenido en su conjunto, el revisor también se asegurará de que el discurso se ha transcrito correctamente.