El nuevo sistema de reconocimiento de voz de Microsoft se iguala a las capacidades humanas
El sistema de inteligencia artificial podría utilizarse en los servicios de transcripción de voz a texto y mejorar las características de accesibilidad de Cortana.
Los investigadores de Microsoft han desarrollado un sistema de reconocimiento de voz basado en inteligencia artificial que recoge el habla con la misma precisión que un traductor humano profesional.
El nuevo sistema ha alcanzado el logro de una tasa de error de palabra de un 5,9%, por debajo del 6,3% arrojado hace un mes.
La tasa de error de palabra es el porcentaje de veces en una conversación que un sistema, en este caso una combinación de redes neuronales, escucha mal palabras (cambiando una por otra).
En una prueba hecha con profesionales, los humanos y los sistemas automatizados de Microsoft anotaron tasas de error del 5,9% y 11,3% en sus respectivos tests de datos, tal y como detalla la compañía en sus documentos de la investigación.
“La tasa de eliminación relativamente mayor podría reflejar un sesgo humano para evitar la salida de información incierta o las exigencias de productividad de un traductor profesional”, ha manifestado Microsoft.
“Aún así, alcanzar la paridad con un ser humano en esta prueba ha sido un logro histórico“, ha afirmado Xuedong Huang, jefe de investigación de Microsoft.
Los sistemas de reconocimiento de voz automatizados mejorados podrían utilizarse en los servicios de transcripción de voz a texto y mejorar las características de accesibilidad de Cortana, sobre todo, para las personas sordas.
Microsoft ha utilizado 2.000 horas de entrenamiento de datos para equipar sus redes neuronales. El objetivo es que combinando los datos con su kit de herramientas AI Computational Network Toolkit, que corre sobre servidores multiGPU basados en Linux, el sistema será capaz de reducir el tiempo de formación de meses a menos de tres semanas.
A pesar del hito, Microsoft admite que aún está lejos de lograr que el reconocimiento de voz funcione bien en situaciones de la vida real con un montón de ruido de fondo.