Google ya es capaz de autocompletar nuestra voz en las videollamadas

Las videollamadas está viviendo un auténtico ‘boom’ con el confinamiento al que nos hemos visto obligados por la crisis del COVID-19.

A falta del calor humano y la compañía de nuestros amigos y familiares, las videoconferencias nos permiten sentirnos más cerca de ellos, acercándonos a la experiencia que tendríamos en una charla cara a cara. Y también están jugando un papel muy importante para sustituir las reuniones de trabajo presenciales.

Sin embargo, al aumentar la frecuencia de uso de este recurso, nos estamos dando cuenta de que calidad de las videollamadas que ofrecen algunas plataformas quizá no ses tan satisfactoria como cabría esperar. En muchos casos, la conversación se ve jalonada por cortes y ese típico efecto metálico, que hace que nuestras palabras suenen como si fueran pronunciadas por un robot.

Pero estas de deficiencias tienen los días contados. Google ha anunciado recientemente el desarrollo de una tecnología basada en inteligencia artificial que permite mejorar la calidad de audio de las videollamadas a través de su aplicación Duo. Los dispositivos Pixel 4 ya incorporan este avance.

Dicho sistema, denominado WaveNetEQ, consiste en un modelo generativo basado en la tecnología WaveRNN de DeepMind que se entrena utilizando un gran conjunto de datos de voz. De esta manera, es capaz de crear de manera realista segmentos cortos de voz cuando se producen fallos en la transmisión de datos. Es decir, es como el autocompletado de texto del buscador de Google, pero con la voz.

¿Por qué se producen esos fallos? ¿Y cómo lo solventa esta nueva tecnología? Google explica que para transmitir una llamada a través de internet hay que fragmentar los datos de la misma en pequeños paquetes, que luego vuelven a ensamblar cuando llegan al receptor. Sin embargo, dichos paquetes frecuentemente llegan en el orden o en el momento incorrecto, e incluso algunos pueden llegar a perderse.

La compañía especifica que el 99% de las llamadas de Google Duo sufren pérdidas de paquetes, fluctuaciones excesivas o retrasos en la red. De esas llamadas, el 20% pierde más del 3% de la duración total del audio por problemas de red. Y el 10% de las llamadas llegar a perder más del 8%.

Para ocultar estos efectos de la pérdida de paquetes, habitualmente se usan métodos de procesamiento de señales, analizando el habla del usuario y produciendo una continuación suave. Esta solución funciona muy bien para pequeñas pérdidas, de 20 milisegundos o menos, pero no resuelve el problema si el número de paquetes ausente genera huecos de 60 milisegundos o más. En estos casos cuando el discurso se vuelve robótico y repetitivo.

La nueva tecnología de Google consiste en un modelo de red neuronal recurrente para la síntesis de voz que consta de dos partes, una red autorregresiva y una red de acondicionamiento. La red autorregresiva es responsable de la continuidad de la señal y proporciona la estructura a corto y medio plazo para la voz. Y la red de acondicionamiento influye en la red autorregresiva para producir audio consistente.

Además, este sistema incorpora la tecnología conversión de texto a voz, recibiendo la información de lo que se supone que debe decir y cómo decirlo. La red de acondicionamiento recibe esta información en forma de los fonemas que componen las palabras y características de prosodia -información que no es texto, como la entonación o el tono-, adelantándose para dirigir la red autorregresiva hacia las formas de onda correctas para que coincidan con lo que va a decir el usuario.

De esta forma, la inteligencia artificial es capaz de anticiparse para generar la voz e insertarla en el lugar donde se produce el fallo en la videollamada. Por ahora, sólo puede generar sílabas, aunque no palabras o frases completas.

David Ramos

Soy periodista freelance especializado en información económica, gestión empresarial y tecnología. Yo no elegí esta especialidad. Fue ella la que me escogió a mí.

Recent Posts

La inversión de las ‘telecos’ en IA crecerá casi un 70% en los próximos 4 años

El gasto de las ‘telecos’ en IA alcanzará los 22.900 millones de dólares anuales en…

1 día ago

El 65 % de las transacciones de comercio electrónico en España tiene como destino el extranjero

La facturación del eCommerce en nuestro país rebasó los 24.500 millones de euros durante el…

2 días ago

Vertiv: “La refrigeración líquida será un estándar en un futuro muy cercano”

El fabricante de infraestructuras críticas para centros de datos analiza el estado actual del sector…

2 días ago

El comercio electrónico ante una tormenta regulatoria: fiscalidad, accesibilidad y adaptación urgente

El e-commerce se enfrenta a cambios normativos clave en fiscalidad y accesibilidad que exigirán rápidas…

2 días ago

Un 44 % de los profesionales potencia su contenido en redes sociales con ayuda de la IA

A otro 36 % le gustaría hacer lo mismo, según datos de Hays, aunque todavía…

2 días ago

Nuevas tabletas Samsung Galaxy Tab S10 FE con funciones inteligentes

El lanzamiento de Samsung Electronics está compuesto por la tableta FE y el modelo FE+.

2 días ago