Big data: Es la hora del CDO
Los datos pueden ser una fuente de riqueza importante para las empresas, siempre que se cuente con una estrategia con la que cuidar determinadas figuras y elementos.
La ingente cantidad de datos que generan las empresas es un activo que aprovechar a la hora de gestionar el negocio, una herramienta más de la estrategia corporativa que puede resultar definitoria a la hora de posicionarse en el mercado frente a la competencia. Lejos de limitarse a la recogida o al procesamiento de la información, los proyectos de big data abarcan varias capas y procesos. Para gestionarlo todo, y como prueba de la creciente importancia de un buen tratamiento en las empresas de los datos, ha surgido una figura clave: la del Chief Data Officer o CDO, el responsable de esta información.
El evento Big data: Es la hora del CDO ha profundizado sobre las claves para conseguir trabajar de forma eficiente con el big data, cómo emplear esta información en pequeñas y grandes empresas, qué retos supone y cuáles son los principales actores a la hora de enfrentarse a un proyecto de este tipo. En él han participado Pablo Boixeda, Big Data Presales y BDM de Cloudera, y José María Caro, Business Development Director de Beeva, con Mónica Valle, periodista especializada en TI, como moderadora.
Claves para sacar el máximo partido de los datos
Todas las empresas generan datos, y muchas una gran cantidad. Pero no todas saben aprovecharlos. Para esto, explica Pablo Boixeda, de Cloudera, “es importantísimo contar con una estrategia clara, decidir cómo vamos a sacar valor de los datos”. Explica el Big Data Presales y BDM que “para poder llegar a este objetivo, que cada una de las compañías es diferente, lo que hay que hacer primero es identificar cuáles son las fuentes de los datos”. Esto es distinto según el sector al que se dedique la empresa, como ejemplifica con dos casos: en un entorno industrial, seguramente procedan de las propias fábricas, mientras que en retail vendrán mayoritariamente de los clientes.
“Primero hay que ver una estrategia de cómo utilizo estos datos, cómo los recojo y dónde los pongo, qué tipo de tecnología utilizo para almacenar, procesar y servir esos datos”, razona. “Después tengo que identificar cuáles son los actores que me van a ayudar a clasificar esos datos, a identificar cuáles son relevantes, y después a quién los tengo que servir. Parte importante es también identificar la tecnología”.
Añade José María Caro que “uno de los retos a los que se enfrentan es conocer la calidad de los datos. Es decir, es muy importante para las empresas saber realmente con qué se cuenta para hacer determinados proyectos”. Para el Business Development Director de Beeva, “hoy en día hay muchas compañías que ayudan a realizar este tipo de estrategia, pero es muy importante conocer cómo están los datos que yo tengo”, ya que en muchas empresas ni siquiera está claro el estado de esta información o quién la tiene. “Es uno de los puntos que se tienen que tener en cuenta, porque es clave. Si no, muchas veces se produce una decepción a la hora de abordar los proyectos, cuando todo tecnológicamente lo tenemos muy atado, pero luego la calidad de los datos no es la correcta”.
Este es uno de los retos a los que se enfrenta el big data, pero como explica Boixeda, los retos son diversos, empezando por la parte del gobierno del dato, “clave desde el punto de vista de cómo se origina el dato y qué cambios va sufriendo ese dato. Y después hay una parte que es importantísima, que bajo mi punto de vista es el mayor reto de todos, que es el problema organizacional”.
“Tenemos que ver quién es el propietario de ese dato, lo que se conoce como data steward, que es la persona encargada de decir estas personas son las que me tienen que decir si esto es correcto o no es correcto, las fuentes de datos que tengo que utilizar son estas y estas y estas. Este, para mí, es un punto crítico”. Aún añade uno más: la seguridad.
Protegiendo y securizando los datos
Explica el Big Data Presales de Cloudera que “en la seguridad hay cuatro puntos principales que son claves a abordar”, que resume bajo cuatro claves: autenticación, autorización, auditoría y encriptación. “Lo primero que voy a hacer es identificar quién está haciendo cada una de estas partes, y que quien está haciendo esto sea realmente esta persona. Se puede dar, en entornos donde no haya seguridad puesta en marcha, que un actor, un usuario, un administrador de los sistemas, pueda suplantar a un usuario. Esto no queremos que ocurra”.
La segunda de las claves hace referencia a que “también queremos que haya una autorización de los datos, esto es, que los usuarios que accedan a los datos realmente tengan permisos de acceso a esos datos. Esto forma parte de la parte que es el gobierno y de cómo la estrategia hemos de servir los datos”. Sobre la necesidad de auditoría resalta que “otro punto importante es cómo audito lo que está ocurriendo dentro del repositorio de información”, esto es, “saber quién está accediendo a todos los puntos”. Algo que resulta crítico tanto por motivos regulatorios como por algo mucho más básico: “puede ser que alguien esté intentando acceder a información de cierta sensibilidad del negocio, y esa persona a lo mejor no merece la confianza que le estoy dado”.
“Hay un punto importante, más desde aspecto técnico, que es la parte de la encriptación, de cómo almaceno la información de forma encriptada, y después todas las subsiguientes capas”, explica, “porque como estamos hablando normalmente de sistemas distribuidos, la información viaja, y esa información que viaja tiene que estar encriptada”. Además, es importante “cómo custodio esa clave de encriptación. Yo tengo que gestionar esa información en unos servidores dedicados solamente para eso, y solo tiene acceso a esas claves de información una serie de personas dentro de la organización”.
José María Caro distingue, hablando sobre información cifrada, “dos tipos de proyectos de big data: unos son los que manejan información sensible, es decir, que pueden identificar a usuarios en base a la información que tenemos guardada; y otros, los que no manejan información sensible. Estamos hablando de proyectos”, explica, “que lo que hacen es optimizar la comunicación entre dos distintas partes de la organización. Esos datos no sufren tanta regulación como tienen los datos que se tratan de manera personal”. Destaca Caro que “es muy importante no solo el tema de los cifrados, sino que hay que tener en cuenta varias partes”. “Una importante es la comunicación, ya que nosotros podemos tener una base de datos totalmente encriptada, en la que nadie puede saber qué tipo de información tenemos guardada, pero si yo luego esa información la desencripto, la saco y la muestro por un protocolo http”, dice, “me puedo cargar toda la seguridad”.
Apunta Boixeda la importancia de “definir de forma funcional” la securización de datos. “Es decir, si en un repositorio yo tengo información de marketing, finanzas, stocks, fuentes de datos diferentes de la compañía, que yo quiero cruzar, yo tengo que definir qué usuarios de la compañía pertenecen al departamento, sincronizar la autorización y la autenticación que tengo en mi repositorio de datos con mi sistema de identificación de usuarios central”. “Hay que hacer un mapping funcional de cuáles son los privilegios que quiero dar a los diferentes usuarios o grupos de usuarios”, tras lo cual hay que “buscar una integración entre la capa de almacenamiento y procesamiento de la información con lo que es las capas de visualización”.
Open source en el despliegue de proyectos de big data
En el actual manejo de grandes datos cobran relevancia los estándares abiertos. “La estrategia de Beeva en los proyectos”, explica su Business Development Director, José María Caro, “es ir sobre todo al mundo open source, porque nosotros consideramos que es clave y creemos que es el motor de innovación de la tecnología, ya que toda la comunidad está ahí”, además de otras ventajas, como que se “comparte lo último de lo último que existe, te permite también sustituir unas piezas por otras sin perder la comunicación entre ellas, con piezas de open source, y te permite probar distintas tecnologías sin perder el contexto del proyecto”. En resumen, según Caro, “permite que tus proyectos estén a la vanguardia de todo lo que necesitas”. Esto se entiende, en su modelo de negocio, porque desde Beeva buscan “que el proyecto se adapte a la compañía”, frente a otros productos “que se venden como soluciones cerradas, que lo que hacen es transformar a la empresa y que se adapte al producto. Nosotros creemos que es mucho más importante que se adapte el producto a lo que necesita la empresa”.
En Cloudera, explica Pablo Boixeda, por su condición de distribución de Hadoop, “el open source es nativo. Básicamente vendemos soporte de una plataforma open source, en el que además añadimos una serie de capacidades enterprise. Pero todo lo que es almacenamiento y procesamiento de los datos siempre son proyectos open source. Creemos que el open source lleva a la innovación de una forma más acelerada. Esto es clave porque, teniendo en cuenta que los datos están dando unas capacidades estratégicas a las compañías, es importante siempre estar a la última y que estas ventajas competitivas sean, digamos, llevables a las compañías más tradicionales. El open source es clave”.
Destaca Boixeda la diferencia entre open source y open standards: “un proyecto puede ser open source pero no ser open standard. Un proyecto open standard no solo es open source, sino que además está adoptado por la comunidad”. Esto, dice, “tiene dos puntos. Uno, desde el punto de vista de adopción del mercado, aseguramos que la inversión que están realizando las compañías sobre nuestra tecnología es una inversión a largo plazo, es algo que se puede aprovechar y no se va a desechar en el medio-corto plazo”. Además “hacemos la inversión desde el punto de vista de la propia plataforma. Nosotros no somos la única distribución que da soporte sobre esto, con lo cual si alguien se cansa, puede irse a otro tipo de plataforma”.
El Chief Data Officer o CDO y los científicos de datos
Ante la necesidad de las empresas de sacar partido de ingentes cantidades de datos, se va perfilando una figura corporativa que cada vez cobra mayor importancia: el CDO o Chief Data Officer. José María Caro resume su papel: “debe ser el punto de unión entre los distintos departamentos de la compañía en cuanto a proyectos de big data se refiere”. Entre sus características principales destaca la necesidad de conocer bien la arquitectura y la gestión de los datos, además del modelo de trabajo de los científicos de datos. “Esta persona debe dirigir, al final, la inversión que está haciendo la compañía en este tipo de proyectos”. La importancia de su vínculo con la empresa es clave: “aparte de estar pegada a la parte de arquitectura, tiene que estar muy en contacto con la parte de dirección porque tiene que ser la persona que vele por el negocio de la compañía”.
Pablo Boixeda lo sintetiza en que, para él, el directivo responsable de los datos tiene que tener tres patas: la tecnológica, la de negocio y “una parte de governance de los datos, que es la parte más novedosa”, explica. “La parte del gobierno de datos es clave, con lo que implica de cómo almaceno los datos, orígenes, servirlos… Todo lo que hemos hablado de seguridad”. En relación a estas partes, explica Boixeda, se sitúa al CDO. “Hemos visto CDOs que cuelgan del director financiero, hemos visto CDOs que cuelgan del CEO, y hemos visto también CDOs que estaban dentro de la organización de tecnología propiamente dicha. Cada una de las organizaciones, dependiendo de lo estratégico que vean o de cómo casen los datos, lo acaban poniendo en un sitio diferente”, explica. Independientemente de su situación, “estas tres patas han de ser claras”, y la relación del CDO en el organigrama terminará dependiendo “de cada una de las organizaciones, de cómo estén organizadas de forma interna”.
Incide Caro en una labor del CDO que, dice, a veces pasa desapercibida: “controlar que cada persona acceda solo a la información que necesita. Es decir, huir de que todo el mundo tenga acceso a todo, porque al final eso hace que los proyectos se hagan más lentos, se hagan más costosos”. Para el Business Development Director de Beeva, “el CDO debe velar porque cada departamento acceda a lo que realmente necesita. Eso es clave”, resalta.
Sobre los científicos de datos, Caro los considera “otra figura clave en los proyectos, son los que velan porque un proyecto tenga éxito”. Caro explica que, como los CDO, los científicos de datos deben manejar tres patas: la tecnológica, con las últimas técnicas relacionadas con el proyecto en big data; el algoritmo de datos, debiendo conocer muy bien los datos, su manejo y tratamiento; y por último, “el conocimiento del dominio”, esto es, “la capacidad de negocio que tiene relacionado con la organización”. “Ese es, digamos, el unicornio que todas las compañías buscamos, y comprendemos que es muy difícil tener las tres”, de ahí que en Beeva, explica, prefieren una persona con los conocimientos tecnológicos, dado que en la parte de negocio se puede involucrar a los clientes.
Boixeda se muestra de acuerdo con estas tres características. “Tiene que tener calidades de diseño de datos, tiene que tener capacidades de matemáticas y estadística y tiene que tener capacidades de negocio, porque al final si está cruzando los datos y está calculando algo en base a unos datos tiene que saber eso qué impacto tiene”.
Abordaje de un proyecto de big data
A la hora de enfrentarse a un proyecto de este tipo, José María Caro distingue entre dos tipos de proyectos, según el conocimiento que tiene la compañía de sus datos: la que tiene muy claro el modelo, “sabe perfectamente la información que tiene, dónde la tiene guardada y dónde la tiene almacenada”, o las que desconocen parte o todo esto.
Para Caro, la clave con el primer tipo de modelos, y extrapolable al segundo, “es ir a un quick win rápido”, lo que se consigue con “un modelo o un pequeño proyecto” que se ajuste a la organización y lleve a este éxito. “Abordar un proyecto de big data desde un punto de vista amplio e ir a por todo es lo que muchas veces produce la decepción en los proyectos de big data. Se tarda en llegar, no obtienes resultados, y al final la alta dirección dice, ‘llevamos mucho tiempo invirtiendo, ¿dónde están los resultados?’. Necesitas encontrar ese quick win rápido, yo creo que ese es el punto primero al que has de enfrentarte”.
Para el establecimiento de ese modelo de éxito, el Business Development Director de Beeva apunta como elemento básico contar con un data lake, que reúna toda la información que todo el mundo necesita. “Es muy importante evitar silos”, explica, ya que dificultan la comunicación, y “tener ese data lake que al final homogeneice cómo están los datos en la compañía y todo el mundo pueda tener una fuente donde acceder a esos datos. Una vez establecido el modelo”, y con la ayuda del CDO, “te de la capacidad de que puedes encontrar ese quick win rápido que buscábamos en la primera parte del proyecto”.
Sobre su enfoque a la hora de enfrentar un proyecto, el Big Data Presales y BDM de Cloudera, Pablo Boixeda, explica: “nosotros decimos: ‘piensa grande, pero empieza pequeño’. Es importante que los proyectos se aborden de forma ágil”. Esto se traduce en “empezar con algo pequeño”, tratando de conseguir “un efecto bola de nieve, de forma que eso vaya creciendo y así te vayas acostumbrando a utilizar ese tipo de tecnologías, enriqueciendo tu data sheet”. “Es mejor empezar pequeñito, con expectativas un poco más modestas, y sacar un resultado pronto, el quick win”, incide, “y a partir de ahí ir creciendo. Una vez tienes ese quick win ya puedes empezar a enriquecer, con información de departamentos nuevos, de fuentes de datos nuevos, como open data o source media; y a partir de ahí es cuando ya, si creces, tienes un proyecto de big data a largo plazo”.
Las pymes y la gestión de datos
Los proyectos de big data no son exclusiva de las empresas de mayor tamaño. Las pymes también se pueden involucrar y, de hecho, un proyecto de este tipo puede suponer una variable importante. Así lo defiende José María Caro. “Es uno de los puntos diferenciadores que pueden llegar a conseguir al abordar este tipo de proyectos, que al final están muy enfocados a darle calidad a sus clientes, o darle calidad a los procesos internos que ellos tratan”. Para Beeva, “es clave el poder llegar a trabajar en la nube pública”, dada “la capacidad de aprovisionamiento que te dan este tipo de nubes con la capacidad de escalamiento que ofrecen, y el modelo de pago por uso”. “Con una inversión pequeña, se pueden llegar a tener quick wins rápido”, destaca, poniendo el foco en que “no hace falta comprar muchísima infraestructura para abordar este tipo de proyectos, no hace falta desembolsar una cantidad muy grande de dinero para probar si nosotros vamos a ser diferenciales”.
Para Pablo Boixeda, el big data aplicado a pymes “es un reto para ellas” en distintos aspectos, tanto desde cómo abordar las capacidades o a nivel de inversión en infraestructuras, en la que el cloud resulta especialmente útil, como en el tema organizacional, “porque a lo mejor no tienen ese músculo para crear un departamento nuevo, tener un científico de datos o generar grandes proyectos de big data, no porque no generen los datos, que los están generando, sino desde el punto de vista de personas, cómo van a abordar y cómo van a absorber este conocimiento”.
Implicaciones en proyectos de big data del RGPD
“Aquí hay que centrarse en los datos de carácter personal”, explica José María Caro, el Business Development Director de Beeva, “es muy importante que las compañías tengan almacenados los datos de forma y manera que una intrusión en una compañía no sea capaz de identificar de forma unívoca a un usuario”, dice. Para Caro, lo esencial es “centrarse mucho en el perfilado de usuario”. “Si al usuario se lo va a tratar de manera automatizada en base a eso, lo tiene que conocer, y la empresa le tiene que informar que lo va a tratar de manera automatizada. Y el usuario puede denegar ese tratamiento”.
Sobre la preparación de las empresas ante el RGPD, Pablo Boixeda apunta que aún “a día de hoy están planteándose, o están viendo, cómo el RGPD les va a afectar desde el punto de vista del gobierno de datos. Están más en la fase de entender la ley y ver qué es lo que tienen que hacer para poder aplicarla y cumplir la normativa”.
Vuelve José María Caro sobre uno de los puntos importantes relacionados con la ley, que “separa en quién controla los datos y quién accede a ellos”, habitualmente las compañías y los que ejecutan los proyectos de big data. “Para los controladores y dueños de los datos surge una figura”, explica, “que es también muy importante, que es la del Data Protection Officer, la persona que es encargada de la custodia de los datos, de conocer si los datos que identifican de forma unívoca a una persona están tratados de forma correcta, están tratados como tienen que estar, totalmente cifrados y que no se puedan identificar. Esa persona es clave, porque tiene que informar a todas las personas que accedan a esos datos, sea de fuera o de la propia compañía, de cómo tiene que hacer el acceso a la información y de cómo tiene que tratar ese tipo de datos. Y por supuesto si tiene que informar a los clientes sobre el uso de sus propios datos, esa persona tiene que ser la encargada”.
¿Es la hora del big data y del CDO?
El Business Development Director de Beeva, José María Caro, “es muy importante para generar valor en las compañías este tipo de proyectos”, para lo que se necesita “que se pierda un poco el miedo a adentrarse en ese tipo de proyectos”. “Por eso creemos que es muy importante empezar con los quick wins”, incide. “Se pueden sacar proyectos de muchísimo valor para una compañía con inversiones pequeñas”, posicionando “a una compañía en el top del mercado abordando bien un proyecto de big data”.
“Yo creo que la hora del big data era ayer”, resume Pablo Boixeda, Big Data Presales and BDM de Cloudera, “de hecho, animaría a las compañías que tienen miedo a hacer este pequeño salto al vacío”. Boixeda pone el foco en la evolución de las compañías orientadas al dato en la bolsa estadounidense: “son compañías más ágiles, toman decisiones de negocio basadas en el dato y son más acertadas. Entiendo perfectamente que es un reto organizacional, pero yo creo que el valor del dato está demostrado”, concluye.