Google ya es capaz de autocompletar nuestra voz en las videollamadas

Las videollamadas está viviendo un auténtico ‘boom’ con el confinamiento al que nos hemos visto obligados por la crisis del COVID-19.

A falta del calor humano y la compañía de nuestros amigos y familiares, las videoconferencias nos permiten sentirnos más cerca de ellos, acercándonos a la experiencia que tendríamos en una charla cara a cara. Y también están jugando un papel muy importante para sustituir las reuniones de trabajo presenciales.

Sin embargo, al aumentar la frecuencia de uso de este recurso, nos estamos dando cuenta de que calidad de las videollamadas que ofrecen algunas plataformas quizá no ses tan satisfactoria como cabría esperar. En muchos casos, la conversación se ve jalonada por cortes y ese típico efecto metálico, que hace que nuestras palabras suenen como si fueran pronunciadas por un robot.

Pero estas de deficiencias tienen los días contados. Google ha anunciado recientemente el desarrollo de una tecnología basada en inteligencia artificial que permite mejorar la calidad de audio de las videollamadas a través de su aplicación Duo. Los dispositivos Pixel 4 ya incorporan este avance.

Dicho sistema, denominado WaveNetEQ, consiste en un modelo generativo basado en la tecnología WaveRNN de DeepMind que se entrena utilizando un gran conjunto de datos de voz. De esta manera, es capaz de crear de manera realista segmentos cortos de voz cuando se producen fallos en la transmisión de datos. Es decir, es como el autocompletado de texto del buscador de Google, pero con la voz.

¿Por qué se producen esos fallos? ¿Y cómo lo solventa esta nueva tecnología? Google explica que para transmitir una llamada a través de internet hay que fragmentar los datos de la misma en pequeños paquetes, que luego vuelven a ensamblar cuando llegan al receptor. Sin embargo, dichos paquetes frecuentemente llegan en el orden o en el momento incorrecto, e incluso algunos pueden llegar a perderse.

La compañía especifica que el 99% de las llamadas de Google Duo sufren pérdidas de paquetes, fluctuaciones excesivas o retrasos en la red. De esas llamadas, el 20% pierde más del 3% de la duración total del audio por problemas de red. Y el 10% de las llamadas llegar a perder más del 8%.

Para ocultar estos efectos de la pérdida de paquetes, habitualmente se usan métodos de procesamiento de señales, analizando el habla del usuario y produciendo una continuación suave. Esta solución funciona muy bien para pequeñas pérdidas, de 20 milisegundos o menos, pero no resuelve el problema si el número de paquetes ausente genera huecos de 60 milisegundos o más. En estos casos cuando el discurso se vuelve robótico y repetitivo.

La nueva tecnología de Google consiste en un modelo de red neuronal recurrente para la síntesis de voz que consta de dos partes, una red autorregresiva y una red de acondicionamiento. La red autorregresiva es responsable de la continuidad de la señal y proporciona la estructura a corto y medio plazo para la voz. Y la red de acondicionamiento influye en la red autorregresiva para producir audio consistente.

Además, este sistema incorpora la tecnología conversión de texto a voz, recibiendo la información de lo que se supone que debe decir y cómo decirlo. La red de acondicionamiento recibe esta información en forma de los fonemas que componen las palabras y características de prosodia -información que no es texto, como la entonación o el tono-, adelantándose para dirigir la red autorregresiva hacia las formas de onda correctas para que coincidan con lo que va a decir el usuario.

De esta forma, la inteligencia artificial es capaz de anticiparse para generar la voz e insertarla en el lugar donde se produce el fallo en la videollamada. Por ahora, sólo puede generar sílabas, aunque no palabras o frases completas.

David Ramos

Soy periodista freelance especializado en información económica, gestión empresarial y tecnología. Yo no elegí esta especialidad. Fue ella la que me escogió a mí.

Recent Posts

Los mensajes RCS, otra vía de acceso para ciberataques

Los mensajes RCS ofrecen muchas más posibilidades que los SMS, pero también abren la puerta…

2 días ago

Telefónica Empresas ayudará a Microsoft a expandir los Copilot+ PC por España

Acompañará a las empresas en sus procesos de equipamiento, desde la elección del hardware hasta…

3 días ago

IBM y Esade promueven el uso de la IA en los Consejos de Administración

Juntos, trabajarán en la formación y la actualización de habilidades para que los consejeros impulsen…

3 días ago

ASUS lanza un Mini PC con inteligencia artificial

Este dispositivo incluye entre sus especificaciones procesador Intel Core Ultra (Serie 2) y botón Copilot.

3 días ago

EasyVisa adquiere una participación mayoritaria en OTRS Group

Ya cuenta en su poder con más del 90 % de las acciones del proveedor…

3 días ago

SoftwareOne y Crayon acuerdan fusionarse

Los actuales consejeros delegados, Raphael Erb y Melissa Mulholland, se convertirán en co-CEOs de la…

3 días ago