Hacia una inteligencia artificial generativa multimodal

Gartner cree que las soluciones de IA generativa multimodal pasarán de representar un 1 % en 2023 a un 40 % en 2027.

Las soluciones de inteligencia artificial (IA) generativa serán cada vez más multimodales. Si en 2023 representaban un 1 %, para 2027 alcanzarán un 40 % del total de las soluciones de IA.

Ese es el pronóstico que maneja la consultora Gartner, que espera que esta tecnología, que abarca texto, imagen, audio y vídeo, tenga un impacto transformador sobre las aplicaciones empresariales.

La IA generativa multimodal mejorará la interacción con las personas y ofrecerá una oportunidad de diferenciación, con la incorporación de funcionalidades que de otro modo sería imposible.

“En el mundo real, las personas encuentran y comprenden la información a través de una combinación de diferentes modalidades, como audio, visual y sensorial”, comenta Erick Brethenoux, vicepresidente analista distinguido de Gartner.

“La inteligencia artificial generativa multimodal es importante porque los datos son típicamente multimodales”, señala.

“Cuando se combinan o ensamblan modelos de una sola modalidad para respaldar aplicaciones de IA generativa multimodales, a menudo se produce latencia y resultados menos precisos, lo que se traduce en una experiencia de menor calidad”, explica.

“A medida que el mercado de IA generativa evoluciona hacia modelos entrenados de forma nativa en más de una modalidad”, desarrolla Brethenoux, “esto ayuda a capturar relaciones entre diferentes flujos de datos y tiene el potencial de escalar los beneficios de la IA generativa en todo tipos de datos y aplicaciones”.

“También permite que la IA ayude a los humanos a realizar más tareas“, destaca este experto, “independientemente del entorno”.

Gartner cree que la IA multimodal, al igual que los grandes modelos de lenguaje de código abierto, dejará notar sus efectos en las compañías durante los próximos años.