Revolución IA

La Inteligencia Artificial está llamada a protagonizar la próxima Revolución tecnológica

Inicio Sobre Revolucionia Temas Para saber más Contacto

La precisión del reconocimiento automático del habla

Fernando P.    25/08/2017

Temas:  Aplicaciones    Divulgación

El reconocimiento automático del habla es un problema bastante antiguo, que se ha resistido a ser resuelto de forma razonable por la enorme dificultad que entraña.

Pero, en los últimos años, la aplicación de técnicas de Inteligencia Artificial basadas en clasificación mediante redes neuronales artificiales ha conseguido resultados bastante buenos.

En realidad, más que técnicas novedosas, lo que se ha aplicado es una combinación de ordenadores modernos con una potencia de cálculo enorme, que pueden simular redes neuronales inmensas, junto a conjuntos muy grandes de datos de entrada (conversaciones en este caso) que se han usado para construir los clasificadores.

Pero sigue siendo un problema en el que queda bastante por hacer.

La dificultad del problema de reconocimiento del habla
Básicamente, el problema de reconocimiento del habla consiste en transcribir a texto la señal sonora que recibimos de un interlocutor o transcribir la conversación entre dos interlocutores.

Sobre el papel, el reconocimiento del lenguaje hablado equivale a la resolución de dos problemas de clasificación encadenados:


El idioma Inglés es el idioma sobre el que más se ha trabajado el reconocimiento del habla. Este idioma tiene del orden de 40 o 50 fonemas distintos.
Interlocutores hablando
Así que, el primer paso de la clasificación debe consistir en trocear la señal sonora y asignar cada segmento sonoro a uno de los fonemas conocidos.

El reconocimiento de fonemas puede parecer un problema sencillo, pero hay que contar con que la voz de cada persona es diferente y la forma de expresar cada fonema puede cambiar bastante de una persona a otra y de una región a otra. No podemos confiar en que cada fonema aparecerá siempre como un sonido perfectamente definido, igual que si fuera la nota de un piano bien afinado.

Básicamente, en vez de 40 o 50 fonemas, hay un número tan elevado de sonidos posibles que resulta inabarcable. Nos encontramos con una situación de la que hemos tratado a la hora de construir clasificadores que se enfrentan a conjuntos de entrada inabarcables y deben aprender a generalizar para funcionar.

Suponiendo que hayamos resuelto el problema de los fonemas, el paso siguiente, que consiste en agrupar los fonemas en palabras no es menos difícil, porque hay muchísimas palabras, incluso pueden aparecer nombres propios que no habíamos oído nunca o expresiones inventadas.

Por si esta dificultad fuera poco, es casi seguro que vamos a heredar numerosos errores del paso previo de clasificación de fonemas y debemos tener cuidado con no realizar construcciones disparatadas desde el punto de vista gramatical o semántico.

El reconocimiento del habla por parte de los humanos
Los humanos tenemos estructuras en el cerebro muy bien adaptadas para el reconocimiento del habla y tenemos un entrenamiento exhaustivo que nos hace muy buenos en esta tarea, pero ...

¿ Cómo somos de buenos ?

Pues depende. Con voces que nos resultan familiares somos casi infalibles, tenemos la habilidad de mejorar mucho en las cosas que hacemos a menudo. Pero con voces o conversaciones tomadas al azar, un humano no es infalible y tiene un error del orden del 5%, es decir, falla una de cada 20 palabras.

El cerebro humano no está hecho para ser infalible, pero puede ser muy bueno en las tareas que realiza a menudo, funciona en base a entrenamiento intensivo. En el caso del reconocimiento del habla, nos pasamos toda nuestra vida oyendo conversaciones aquí y allá, unas veces nos interesan y nos esforzarmos en entender lo que dicen y otras veces no prestamos mucha atención.

Entrenamiento para reconocimiento automático del habla
Está claro cómo un cerebro humano consigue el entrenamiento exhaustivo necesario para reconocer bien el habla humana (al menos, lo que más nos interesa).

En el caso de los sistemas automáticos (computadores digitales), ya hemos visto que se aborda el problema construyendo clasificadores que aprenden a generalizar. Este tipo de clasificadores se construyen sin modelo previo, mediante un proceso iterativo de aprendizaje en el que se les van suministrando ejemplos de datos de entrada (sonidos o conversaciones en este caso) y se les refuerza o se les penaliza cuando aciertan o fallan al clasificar, respectivamente.

En este punto surge el problema de cómo elegir conversaciones de prueba de forma que tengamos algo que sea suficientemente representativo del idioma con el que estamos trabajando, dado que existe una variedad inmensa de pronunciaciones, ritmos o versiones para un idioma dado.

Pues la respuesta a esto viene de unos conjuntos de datos estándar (grabaciones de conversaciones en este caso) que recopila una organización denominada Linguistic Data Consortium.

Esta organización ha recopilado cantidades inmensas de grabaciones de conversaciones en muchos idiomas y con muchos tipos de interlocutores diferentes. Se trata de los conjuntos de datos que se usan para probar si un sistema de reconocimiento del habla funciona bien o no.

Naturalmente, estos conjuntos de datos tienen sus limitaciones y en la realidad siempre nos vamos a tropezar con un interlocutor al que no entiende casi nadie, pero son lo suficientemente generales como para forzar a los clasificadores a tener que generalizar mucho y a no aprender sólo los tonos de voz de las personas que hablan en estos datos de prueba.

Por otro lado, estos conjuntos de datos sirven como medida para evaluar unos sistemas de reconocimiento del habla contra otros, son como una piedra de toque para validar nuevos sistemas o mejoras a sistemas ya existentes.

Sistemas automáticos contra humanos
Usando los conjuntos de datos de prueba del Linguistic Data Consortium, es posible evaluar de forma neutra el rendimiento de humanos contra máquinas en el reconocimiento del habla. Ya sabemos que los humanos tienen entrenamiento extra para voces que les son familiares y eso les da mucha ventaja sobre los sistemas automáticos, pero con datos de prueba neutros desaparece esa ventaja.

Recientemente, la compañía Microsoft, que es una de las compañías que dedica grandes esfuerzos de investigación sobre mucho de lo que conocemos como Inteligencia Artificial, ha informado sobre mejoras a sus sistemas automáticos comerciales de reconocimiento del habla que los ponen a la par con profesionales humanos, quedando ambos en el entorno del 5% de error de transcripción, usando un conjunto de datos de prueba estándar del Linguistic Data Consortium.

Ciertamente, es un logro muy importante, que se ha conseguido en muy pocos años gracias a la disponibilidad de computadores de gran potencia y también de conjuntos de datos de prueba lo suficientemente buenos.

De todas formas, la velocidad que tiene un humano para adaptarse al lenguaje hablado de un interlocutor y ser capaz de llegar casi a error cero es algo que va a costar bastante de implementar en sistemas automáticos. Con gente que conocemos, los humanos usamos muchos indicios extra sobre lo que puede estar diciendo nuestro interlocutor, además de lo que oímos, y eso nos proporciona una ventaja decisiva.

Aún así, es muy interesante que el desarrollo de clasificadores muy potentes usando redes neuronales artificiales pueda hacer un trabajo tan bueno como el de un cerebro, si nos atenemos exclusivamente al estímulo sonoro.

De alguna manera, se ha demostrado que se pueden replicar en un computador aspectos aislados, pero muy importantes, de la percepción humana


Para saber más:

Noticia en un medio especializado sobre el anuncio de Microsoft relativo a la mejora de rendimiento de sus sistemas automáticos de reconocimiento del habla.

Sitio web del Linguistic Data Consortium en el que se encuentran los conjuntos de grabaciones que se utilizan para entrenar sistemas automáticos de reconocimiento del habla. Los conjuntos completos sólo están disponibles para socios, pero hay muestras disponibles para el público general.

Página de la Wikipedia sobre las distintas técnicas que existen para crear sistemas automáticos de reconocimiento del habla.



 

Inicio Powered by NetBSD
 
HTML5
 
En general, todo el contenido de este sitio web es original, salvo referencias o enlaces a otros sitios web y citas o reproducciones expresamente presentadas como tales.

No está permitida la reproducción ni la copia del contenido de este sitio web sin el permiso expreso de la propiedad del mismo.

Este sitio web no utiliza cookies ni ningún otro mecanismo para almacenar información en los navegadores de los visitantes ni para realizar seguimiento de los mismos.

2017,2018 Revolucionia.net
Sobre Revolucionia
Temas
Para saber más
Contacto