Denodo: “Logical Data Fabric es una capa de acceso a datos que hace de puente entre el negocio y el almacenamiento”
Entrevistamos a Alberto Pan, CTO de Denodo y uno de los creadores junto con Angel Viña de la tecnología de virtualización de datos que ha convertido a esta empresa gallega en referente mundial.
En 1999, el profesor de la Universidad de A Coruña Ángel Viña comenzó un proyecto de investigación junto con algunos estudiantes y compañeros de investigación. Buscaban dar respuesta a un problema que por aquel entonces comenzaba a fraguarse en las empresas. ¿Cómo poder integrar y unificar los datos que se generan para liberar todo su poder?
Dicho proyecto desembocó en la creación de la tecnología de virtualización de datos que actualmente despunta a nivel internacional en forma de empresa, Denodo Technologies, una firma gallega que tiene actualmente sede en Silicon Valley.
Y una de esas personas que comenzó el proyecto junto con Viña es su CTO, Alberto Pan, a quien entrevistamos en las siguientes líneas con motivo del evento Denodo DataFest que se celebra estos días de forma virtual:
– El papel de los científicos de datos es cada vez más importante para las organizaciones, pero España no está a la cabeza en este aspecto y parece que no es fácil encontrar talento. ¿Qué es necesario mejorar a nivel docente y qué beneficios encontrarán las organizaciones cuando se consiga dicha mejora?
A nivel universitario están apareciendo los primeros grados de Ciencias de Datos. Por ejemplo, ha empezado uno recientemente en la Universidad de A Coruña. Esto es positivo y contribuirá a aumentar el número de profesionales formados.
Pero, siendo sinceros, no creo que la falta de formación universitaria sea el principal problema. En mi opinión el problema principal es que en España hay muchas menos organizaciones haciendo Ciencia de Datos que en otros países. En otros países no hay titulaciones específicas de ciencia de datos pero hay más profesionales porque se han ido formando poco a poco con experiencia en proyectos reales. Aunque hay muchas honrosas excepciones, en general la gran empresa española es bastante conservadora en tecnología y tarda bastante en adoptar las nuevas tendencias.
– Los niveles de adopción de tecnologías basadas en la gestión de la información también tienen que mejorar. Según estudios, 1 de cada 3 científicos de datos tiene problemas de tiempo para poder gestionar la información. ¿Qué consejos darías a las organizaciones para reducir este problema?
Efectivamente, diferentes estudios apuntan al mismo problema: los científicos de datos dedican aproximadamente el 80% de su tiempo a la preparación de los datos y sólo un 20% a las tareas dónde aportan más valor directo, como el entrenamiento o el despliegue de los modelos de Machine Learning.
Usar una tecnología como la virtualización de datos hace más rápido y sencillo exponer información a los científicos de datos en los formatos que ellos necesitan. Esta tecnología les proporciona varios beneficios directos como no tener que preocuparse de la integración de datos de varias fuentes o de la performance en el acceso a datos. Esto les permite dedicar más tiempo a las tareas en las que son realmente especialistas.
– Durante los días 2 y 3 de diciembre se celebrará el Denodo Data Fest, vuestro evento anual que en esta ocasión se celebrará de forma virtual. ¿Qué nos podrías adelantar de este congreso?, ¿qué se podrán encontrar los asistentes?
El Denodo DataFest creo que es un evento muy interesante para todos los interesados en gestión y analítica de datos. Además, es el evento de referencia a nivel internacional sobre Virtualización de Datos. Participan algunos de los principales analistas a nivel mundial en gestión de datos como Noel Yuhanna de Forrester o Philip Russom de TDWI. También agentes líderes en el sector de analítica como Tableau o Wipro y se expondrán en detalle varios casos de uso reales de analítica en empresas del sector financiero, de las telecomunicaciones, y bastantes otros. Todos ellos nos aportarán sus experiencias y qué beneficios les han traído a sus organizaciones la implementación de las tecnologías de virtualización de datos y la arquitectura de Logical Data Fabric.
Otra sesión que me parece especialmente interesante es la charla que mantendrán nuestro CEO Ángel Viña y Steve Young, quién además de haber ganado nada menos que 3 veces la Super Bowl como quarterback de los San Francisco 49ers, es el fundador del fondo de inversión HGGC, uno de los más exitosos del Silicon Valley. Hablarán del estado de las inversiones en Tecnología tras la aparición de la pandemia COVID.
– Tu ponencia durante el congreso se centrará en la plataforma Denodo 8.0, recién salida del horno. ¿En qué consisten esas capacidades avanzadas de virtualización de datos para mejorar la gestión de la información también en los Data Fabrics?
Hemos evolucionado el concepto de virtualización de datos hacia la arquitectura más general de Logical Data Fabric. Aumentamos aún más las capacidades de integración, gestión y entrega de datos que ya tenía la plataforma con recomendaciones inteligentes, mayor rendimiento y soporte PaaS.
Esta nueva versión de nuestra plataforma también acelera la integración de los datos en las arquitecturas híbridas y multicloud, automatiza aspectos de performance con inteligencia artificial y Machine Learning y mejora el rendimiento gracias a la aceleración inteligente de consultas.
– La integración de datos es otra de las asignaturas pendientes de muchas organizaciones. ¿Cómo ayuda Denodo 8.0 a solucionar estos problemas y qué puede suponer para las empresas en un mundo tan descentralizado como lo es el de la nube híbrida y multicloud?
La adopción de la nube es un hecho ya para muchas organizaciones. En nuestra tercera encuesta anual del uso de la nube ya apuntamos que más de las tres cuartas partes (78%) de todos los encuestados cuentan con algún tipo de carga de trabajo en la nube. Pero integrar los datos en la nube está suponiendo también un desafío, ya que un 43% de los encuestados sostuvo que es un problema. Esto se debe a que las migraciones de datos hacia la nube desde aplicaciones locales tienden a generar dificultades para los profesionales, ya que deben procurar hacerlas sin afectar al servicio y la operatividad del negocio de la organización.
La Virtualización de Datos contribuye a resolver estos problemas por dos razones: primero, proporciona una capa unificada para consultar y gestionar datos distribuidos en múltiples localizaciones, como ha hecho por ejemplo recientemente nuestro cliente BHP, una de las empresas de minería más grandes del mundo. Y segundo, porque proporciona una capa de abstracción entre los usuarios de datos y los sistemas IT. Es decir, pueden moverse datos o sistemas hacia la nube para abaratar costes sin afectar a los usuarios y aplicaciones de negocio.
– En este sentido, ¿en qué consiste vuestro acercamiento al Logical Data Fabric?
La arquitectura de Logical Data Fabric proporciona una capa común de acceso a datos que hace de puente entre el negocio y la infraestructura técnica de gestión y almacenamiento de datos. Utiliza virtualización de datos para crear modelos semánticos sobre los repositorios de datos, de forma que podemos ofrecer los datos a cada usuario de negocio en los formatos más adecuados para ellos, sin tener que replicar los datos cada vez. La idea es que en lugar de crear un ‘Data Mart’ físico cada vez que tenemos un nuevo caso de uso como en los métodos tradicionales, podemos crear “data marts virtuales”. Gartner ha estimado que el uso de esta aproximación disminuye en un 45% los costes de integración de datos de las organizaciones. Y en un estudio que realizamos en colaboración con la Universidad de Roma Tre de más de 170 proyectos de virtualización de datos, los beneficios observados fueron aún mayores.
Esta capa también proporciona un punto único en el que implementar políticas de calidad de datos y gobernanza. Muchas organizaciones usan herramientas de gobernanza para documentar glosarios y políticas de calidad de datos, pero tienen dificultades para implementarlas dónde realmente importan: en la entrega de datos a los usuarios y aplicaciones de negocio. La arquitectura de Logical Data Fabric permite hacer esto de manera mucho más ágil que las alternativas.
– Mirando a un futuro a medio plazo, ¿Cuál crees que será el siguiente gran salto que deberá dar la industria de TI para resolver las limitaciones existentes ante la explosión de los datos que manejan las organizaciones?
Con volúmenes de datos cada vez más grandes, menos homogéneos y más distribuidos, va a ser necesario automatizar lo más posible los procesos de gestión, gobernanza y entrega de datos al negocio. Para ello, creo que las tecnologías de inteligencia artificial y aprendizaje automático son clave.
De hecho, la arquitectura de ‘Logical Data Fabric’ juega un papel importante en esta tendencia. La posición privilegiada de esta capa en las arquitecturas de gestión de datos le permite recopilar mucha información sobre la actividad de acceso a datos de los usuarios y aplicaciones. Esta información puede usarse para alimentar procesos de Machine Learning e Inteligencia Artificial que automaticen diversas tareas de gestión de datos. Denodo usa ya esta idea para detectar automáticamente oportunidades de optimización de rendimiento y también para recomendar a los usuarios de negocios conjuntos de datos interesantes.
– Para finalizar, has escrito más de 25 artículos científicos en áreas como la virtualización de datos, la integración de datos o la automatización web. ¿Cuál de ellos te ha dejado más satisfecho y por qué?
Entre 2002 y 2004 publicamos varios artículos sobre las investigaciones que acabaron dando lugar a la tecnología de Denodo. Por ejemplo, hay un artículo muy corto y sencillo que publicamos en ‘Communications of the ACM’ que explica conceptos básicos que siguen siendo importantes hoy en virtualización de datos. Desde un punto de vista más técnico, seguramente escogería algún otro artículo sobre el trabajo que hicimos para usar Inteligencia Artificial para procesar automáticamente datos semi-estructurados en la web, pero son artículos muy técnicos y específicos.
Una cosa que me gustaría resaltar es que la literatura de investigación en la comunidad de gestión de datos es tremendamente rica. Muchos conceptos que hoy se perciben como novedosos en la industria, como los modelos no relacionales o las arquitecturas en streaming se estudiaron con mucho detalle a nivel teórico en artículos fantásticos de hace 20 o 30 años. El que quiera encontrar ideas o sencillamente no repetir errores tiene ahí una fuente de información estupenda.