Revolución IA
La Inteligencia Artificial está llamada a protagonizar la próxima Revolución tecnológica
Inicio | Sobre Revolucionia | Temas | Para saber más | Contacto |
La precisión del reconocimiento automático del habla
Fernando P. 25/08/2017
Temas: Aplicaciones Divulgación
El reconocimiento automático del habla es un problema bastante antiguo, que se ha resistido
a ser resuelto de forma razonable por la enorme dificultad que entraña.
Pero, en los últimos años, la aplicación de técnicas de Inteligencia Artificial basadas en
clasificación mediante redes neuronales artificiales ha conseguido resultados bastante
buenos.
En realidad, más que técnicas novedosas, lo que se ha aplicado es una combinación de ordenadores
modernos con una potencia de cálculo enorme, que pueden simular redes neuronales inmensas,
junto a conjuntos muy grandes de
datos de entrada (conversaciones en este caso) que se han usado para construir los clasificadores.
Pero sigue siendo un problema en el que queda bastante por hacer.
La dificultad del problema de reconocimiento del habla
Básicamente, el problema de reconocimiento del habla consiste en transcribir a texto la señal
sonora que recibimos de un interlocutor o transcribir la conversación entre dos interlocutores.
Sobre el papel, el reconocimiento del lenguaje hablado equivale a la resolución de dos problemas
de clasificación encadenados:
El idioma Inglés es el idioma sobre el que más se ha trabajado el reconocimiento del habla. Este idioma tiene
del orden de 40 o 50 fonemas distintos.
Así que, el primer paso de la clasificación debe consistir en trocear la señal sonora y asignar cada segmento
sonoro a uno de los fonemas conocidos.
El reconocimiento de fonemas puede parecer un problema sencillo, pero hay que contar con que la voz
de cada persona es diferente y la forma de expresar cada fonema puede cambiar bastante de una persona a
otra y de una región a otra. No podemos confiar en que cada fonema aparecerá siempre como un sonido
perfectamente definido, igual que si fuera la nota de un piano bien afinado.
Básicamente, en vez de 40 o 50 fonemas, hay un número tan elevado de sonidos posibles
que resulta inabarcable. Nos encontramos
con una situación de la que hemos tratado a la hora de construir clasificadores que se enfrentan a conjuntos
de entrada inabarcables y deben
aprender a generalizar para funcionar.
Suponiendo que hayamos resuelto el problema de los fonemas, el paso siguiente, que consiste en agrupar
los fonemas en palabras no es menos difícil, porque hay muchísimas palabras, incluso pueden aparecer
nombres propios que no habíamos oído nunca o expresiones inventadas.
Por si esta dificultad fuera poco, es casi seguro que
vamos a heredar numerosos errores del paso previo de clasificación de fonemas y debemos tener cuidado
con no realizar construcciones disparatadas desde el punto de vista gramatical o semántico.
El reconocimiento del habla por parte de los humanos
Los humanos tenemos estructuras en el cerebro muy bien adaptadas para el reconocimiento del habla
y tenemos un entrenamiento exhaustivo que nos hace muy buenos en esta tarea, pero ...
¿ Cómo somos de buenos ?
Pues depende. Con voces que nos resultan familiares somos casi infalibles, tenemos la habilidad de
mejorar mucho en las cosas que hacemos a menudo. Pero con voces o conversaciones tomadas al azar,
un humano no es infalible y tiene un error del orden del 5%, es decir, falla una de cada 20 palabras.
El cerebro humano no está hecho para ser infalible, pero puede ser muy bueno en las tareas
que realiza a menudo, funciona en base a entrenamiento intensivo. En el caso del reconocimiento del
habla, nos pasamos toda nuestra vida oyendo conversaciones aquí y allá, unas veces nos interesan y nos
esforzarmos en entender lo que dicen y otras veces no prestamos mucha atención.
Entrenamiento para reconocimiento automático del habla
Está claro cómo un cerebro humano consigue el entrenamiento exhaustivo necesario para reconocer
bien el habla humana (al menos, lo que más nos interesa).
En el caso de los sistemas automáticos (computadores digitales), ya hemos visto que se aborda el problema
construyendo
clasificadores que aprenden a generalizar.
Este tipo de clasificadores se construyen sin
modelo previo, mediante un proceso
iterativo de aprendizaje en el que se les van suministrando ejemplos de datos de entrada (sonidos o conversaciones
en este caso) y se les refuerza o se les penaliza cuando aciertan o fallan al clasificar, respectivamente.
En este punto surge el problema de cómo elegir conversaciones de prueba de forma que tengamos algo que
sea suficientemente representativo del idioma con el que estamos trabajando, dado que existe una variedad
inmensa de pronunciaciones, ritmos o versiones para un idioma dado.
Pues la respuesta a esto viene de unos conjuntos de datos estándar (grabaciones de conversaciones en este caso)
que recopila una organización denominada
Linguistic Data Consortium.
Esta organización ha recopilado cantidades inmensas de grabaciones de conversaciones en muchos idiomas
y con muchos tipos de interlocutores diferentes. Se trata de los conjuntos de datos que se usan para
probar si un sistema de reconocimiento del habla funciona bien o no.
Naturalmente, estos conjuntos de datos
tienen sus limitaciones y en la realidad siempre nos vamos a tropezar con un interlocutor al que no entiende
casi nadie, pero son lo suficientemente generales como para forzar a los clasificadores a tener que
generalizar mucho y a no aprender sólo los tonos de voz de las personas que hablan en estos datos
de prueba.
Por otro lado, estos conjuntos de datos sirven como medida para evaluar unos sistemas de reconocimiento
del habla contra otros, son como una piedra de toque para validar nuevos sistemas o mejoras a sistemas
ya existentes.
Sistemas automáticos contra humanos
Usando los conjuntos de datos de prueba del
Linguistic Data Consortium, es posible evaluar de forma
neutra el rendimiento de humanos contra máquinas en el reconocimiento del habla. Ya sabemos que
los humanos tienen entrenamiento extra para voces que les son familiares y eso les da mucha ventaja
sobre los sistemas automáticos, pero con datos de prueba neutros desaparece esa ventaja.
Recientemente, la compañía Microsoft, que es una de las compañías que dedica grandes esfuerzos
de investigación sobre mucho de lo que conocemos como Inteligencia Artificial, ha informado sobre
mejoras a sus sistemas automáticos comerciales de reconocimiento del habla que los
ponen a la par con profesionales humanos, quedando ambos en el entorno
del 5% de error de transcripción, usando un conjunto de datos de prueba estándar del
Linguistic Data Consortium.
Ciertamente, es un logro muy importante, que se ha conseguido en muy pocos años gracias a la disponibilidad
de computadores de gran potencia y también de conjuntos de datos de prueba lo suficientemente buenos.
De todas formas, la velocidad que tiene un humano para adaptarse al lenguaje hablado de un interlocutor
y ser capaz de llegar casi a error cero es algo que va a costar bastante de implementar en
sistemas automáticos. Con gente que conocemos, los humanos usamos muchos indicios extra sobre lo que
puede estar diciendo nuestro interlocutor, además de lo que oímos, y eso nos proporciona una ventaja decisiva.
Aún así, es muy interesante que el desarrollo de clasificadores muy potentes usando redes neuronales
artificiales pueda hacer un trabajo tan bueno como el de un cerebro, si nos atenemos exclusivamente
al estímulo sonoro.
De alguna manera, se ha demostrado que se pueden replicar en un computador aspectos aislados, pero muy importantes, de la percepción humana
Para saber más:
Noticia en un medio especializado sobre el anuncio de Microsoft relativo a la mejora de rendimiento de sus sistemas automáticos de reconocimiento del habla.
Sitio web del Linguistic Data Consortium en el que se encuentran los conjuntos de grabaciones que se utilizan para entrenar sistemas automáticos de reconocimiento del habla. Los conjuntos completos sólo están disponibles para socios, pero hay muestras disponibles para el público general.
Página de la Wikipedia sobre las distintas técnicas que existen para crear sistemas automáticos de reconocimiento del habla.
Inicio |
![]() ![]() |
En general, todo el contenido de este sitio web es original, salvo referencias o enlaces a otros sitios web y citas o reproducciones expresamente presentadas como tales. No está permitida la reproducción ni la copia del contenido de este sitio web sin el permiso expreso de la propiedad del mismo. Este sitio web no utiliza cookies ni ningún otro mecanismo para almacenar información en los navegadores de los visitantes ni para realizar seguimiento de los mismos. 2017,2018 Revolucionia.net |
Sobre Revolucionia | ||
Temas | ||
Para saber más | ||
Contacto |