Categories: Innovación

¿Qué es Google Duplex?

La manera en la que interactuamos con la tecnología está cambiando radicalmente a causa de la innovación mediante la voz. Un ejemplo de este cambio es el sistema Google Duplex, basado en inteligencia artificial, que crea nuevas experiencias de voz que ayudan a realizar tareas por teléfono como programar una cita, hacer una reserva, etc.

Con esta nueva mecánica, Google simplifica todavía más tareas como realizar llamadas telefónicas o enviar mensajes y ahí es donde entra en juego Duplex, que ofrece la oportunidad de gestionar estas tareas de manera sencilla.

Pero, ¿qué hay detrás de esta idea? ¿Cómo funciona Duplex?

Este servicio está integrado con el Asistente de Google y solamente tenemos que pedirle, mediante la voz, que haga una reserva en un determinado restaurante, por ejemplo, e introducir algunos parámetros como el número de personas, la fecha, la hora y el nombre de quien reserva. Una vez hecho esto, el Asistente de Google utilizará automáticamente Duplex para hacer una llamada telefónica a ese restaurante y reservar por ti; después te enviará una confirmación. Duplex imitará a un humano para que la conversación telefónica sea natural.

Este es el gran éxito de Duplex: la conversación de las llamadas telefónicas puede imitar a un humano con voces de personas reales e incluso añade interjecciones como ‘hum’ para que parezca más humano. Duplex también reproduce fielmente las cadencias de las conversaciones, como puede ser la latencia en las respuestas. Por ejemplo, si la persona dice «¿hola?», tiene que responder rápidamente, pero si dice una frase muy larga, debe tomarse un tiempo antes de responder para imitar el tiempo de reflexión.  Google ha conseguido con Duplex un sistema muy avanzado, aunque en algunos momentos hace alguna inflexión poco natural y robótica, pero son lo suficientemente pequeñas como para que nadie al otro lado del teléfono piense mucho en ello, si es que lo notan.

Aunque Duplex en las tareas básicas es muy preciso, también necesita mejoras, como gestionar fácilmente algunas declaraciones complejas o los problemas con el ruido de fondo o la calidad del sonido. Para estas situaciones en las que no puede completar su tarea, Google Duplex ha incorporado un mecanismo de seguridad para que un operador humano complete la tarea.

La tecnología que usa Duplex está basada en el procesamiento del lenguaje natural. Para ello, se necesita un traductor de voz a texto preciso con el que entender lo que le dice la persona al teléfono. A continuación, otro modelo tiene que interpretar el contexto del objetivo de la llamada telefónica y luego hay que crear una respuesta adecuada. Finalmente, un modelo de conversión de texto a voz traduce esta respuesta en una voz similar a la humana que la diga por teléfono. Estos pasos deben repetirse constantemente a lo largo de la llamada telefónica en tiempo real, por lo que los modelos deben ser precisos y rápidos.

Google Duplex utiliza una red neuronal recurrente combinada con la tecnología de reconocimiento automático del habla (RAH o, en inglés, ASR: automatic speech recognition) de Google, los parámetros de la conversación (por ejemplo: la hora deseada, los nombres) y un sistema de conversión de texto a voz (TTS: text-to-speech en inglés).

Ana Suárez

Recent Posts

SIA crea una Cátedra de Ciberinteligencia junto con la Universidad de Málaga

Girará en torno a tres temáticas: desinformación, contrainteligencia y credenciales expuestas.

11 horas ago

La optimización de productos digitales gana a la creación entre las prioridades empresariales

El 57 % de las compañías españolas está manteniendo este año su nivel de inversión…

13 horas ago

En España, el 22 % de las empresas industriales sufre problemas de red 2 o 3 veces al mes

Entre los problemas a los que se enfrentan las compañías con infraestructura distribuida geográficamente se…

15 horas ago

Así evolucionará la mensajería empresarial RCS durante los próximos años

Juniper Research prevé un incremento del 50 % en el tráfico de mensajes para 2025.

15 horas ago

Los envíos trimestrales de tabletas rozan los 40 millones de unidades

Aumentaron un 20,4 % durante los meses de julio, agosto y septiembre para llegar a…

17 horas ago

La conferencia Fal.Con llega por primera vez a Europa

CrowdStrike celebra este evento en Ámsterdam entre el 5 y el 7 de noviembre.

18 horas ago