Data Capital o cómo los datos son el nuevo oro de la década

A lo largo y ancho del planeta, las compañías, de cualquier tamaño y sector, comienzan a aprovechar el valor de los datos. Un valor que está llamado a convertirse en uno de los activos más importantes para cualquier organización en el siglo XXI, verdadero motor de su capacidad de negocio e innovación.

Ya se trate de un fabricante de automóviles, de una panadería tradicional en el centro de la ciudad o de una empresa de inversiones internacional, todas las empresas cuentan con distintos activos de los que obtener valor.

Un valor que podemos categorizar de muchas formas: inventario (ordenadores, maquinaria, herramientas…) personal, terrenos, edificios, clientes, fondos económicos…

El Data Capital o los datos que genera, almacena y gestiona una compañía empiezan a considerarse ya como algo similar a todos estos “activos” y cada vez son más las organizaciones que son conscientes de las oportunidades que este capital encierra.

¿Qué es el Data Capital?

Los activos de datos que tiene una organización pueden estar centrados en la propia relación de esa compañía con sus clientes que han dado permiso a la empresa para que utilice esa información en su negocio. Un proceso muy común en nuestros días, que se produce con tan solo suscribirnos a la lista de mails de una organización o consentir el uso de cookies al visitar su página web.

También podemos encontrar datos de valor en una empresa en aquellos no relacionados con las personas sino generados por sus propios equipos y máquinas de producción o de los procesos de negocio que realizan diariamente.

Incluso podemos encontrar datos de valor en la relación de una compañía con un tercero, por ejemplo, empresas de investigación y análisis de mercado. Una compañía podría encargar a esta tipo de empresas un estudio determinado sobre un segmento de mercado, por ejemplo, para después combinar los datos de sus clientes con los resultantes del estudio. Estaríamos aquí hablando de Data Capital en su sentido más amplio.

¿Son ya los datos el activo más importante de una empresa?

Los datos cada vez están cobrando mayor relevancia a medida que se consideran como un bien tangible. Así, el día que todas las organizaciones comprendan plenamente el poder de la información que poseen y cómo pueden utilizarla para mejorar o transformar su negocio, los datos se convertirán en un activo esencial para el mundo empresarial.

Entonces, la pregunta es: ¿cómo puede una empresa realmente extraer todo el valor que encierran sus datos y aprovecharlo?

La respuesta, una vez más, está en la ciencia. La ciencia de los datos se basa en distintos modelos matemáticos con los que es posible analizar la información e, incluso, predecir comportamientos futuros. Para ello, es necesario utilizar algoritmos con los que establecer una serie de parámetros que permitirán medir, evaluar y clasificar los datos introducidos en el sistema que, poco a poco, además será capaz de aprender por si mismo.

Los algoritmos pueden funcionar con muchos tipos distintos de datos. De ellos, encontramos dos grupos de datos temporales estratégicos en cualquier análisis: la información en tiempo real, generada por el propio proceso de análisis, con la que se alimenta de forma continua al sistema y al modelo de aprendizaje automático; y las entradas de información en tiempo no real que, generalmente, combinan datos históricos con información en tiempo real e, incluso, con datos externos al proceso, con los que aportar más valor. Este enfoque se denomina aprendizaje profundo o ”Deep Learning” y es complementario al aprendizaje automático. El resultado es generar información procesable y comprensible con la que predecir y mejorar las decisiones de una compañía.

Agricultura e industria 4.0

Para entender realmente el valor de la ciencia de datos trasladémonos al mundo real, analizando, por ejemplo, un caso concreto de la más moderna y disruptiva agricultura.

Es el caso de AeroFarms , compañía que ya está utilizando los datos como eje central de su negocio para poder, con el valor que le ofrecen, revolucionar y mejorar la tradicional forma de producción de alimentos. Gracias al Internet de las Cosas (IoT), sus especialistas en datos han desplegado un total de 130.000 sensores en toda la cadena de producción que les permiten obtener datos en todo momento de cada cosecha, monitorizando así su desarrollo y optimizando el proceso gracias al análisis predictivo de la información.

Los datos obtenidos por AeroFarms y su análisis le proporcionan a la compañía una valiosa información con la que pueden optimizar sus procesos, haciéndolos más ecológicos y económicos.

La compañía, gracias a este análisis de los datos, puede desafiar a las tradicionales estaciones, produciendo durante todo el año, estableciendo sus instalaciones más cerca de los centros de población y mejorando la trazabilidad de su producción.

AeroFarms ha logrado, anualmente, reducir en un 95% el uso de agua e incrementar 390 veces el rendimiento por metro cuadrado.

Si nos fijamos ahora en el sector industrial, otro perfecto ejemplo del valor de los datos lo encontramos en la empresa Otto Motors, que combina el aprendizaje automático y el IoT.

Esta compañía fabrica robots industriales para el transporte de material pesado. Estos robots autónomos están dotados de sensores IoT que ofrecen información de sus movimientos por el lugar de trabajo, permitiendo así un entorno laboral más eficiente y una mayor seguridad tanto para los trabajadores como para los robots.

En momentos determinados, pueden estar moviéndose por la instalación diez, veinte o treinta robots al mismo tiempo por lo que esta información es especialmente valiosa y mediante el aprendizaje automático, el propio sistema es capaz de optimar el rendimiento de las flotas.

Deep learning, las incógnitas desconocidas

Pero, ¿qué ocurre si escalamos esta misma situación? Si, por ejemplo, a una compañía como Otto Motors le planteasen la instalación de 100 robots en un cliente, un importante incremento en el volumen de información que estos autómatas generarían, que habría que recoger y analizar, así como de la complejidad de gestionar dicha flota. ¿Serían válidos los mismos algoritmos?

Una posible solución la encontramos en el Deep Learning o aprendizaje profundo.

Una opción que supondría poder introducir nuevos datos en el sistema como por ejemplo los relacionados con las condiciones ambientales de la fábrica: altitud, clima, temperatura, presión o humedad.

Y, con ello, también responder a nuevas preguntas: ¿Funcionan igual los robots cuando la temperatura del suelo de la fábrica aumenta 5 grados porque es un día caluroso de verano que en un gélido día de invierno? Si, con una flota más grande, la ruta óptima alrededor del almacén implica que los robots sólo hagan giros a la izquierda, ¿cómo afectará esto al desgaste de determinados componentes de su estructura situados en ese lado? ¿Afectaría esto a los futuros parámetros de diseño de los robots, a las actualizaciones del software que instalamos en ellos o, incluso, influirá en el rendimiento del robot?

Como vemos estos no son factores de rendimiento inmediatamente obvios. Lo que el aprendizaje profundo puede revelar, en este caso, es lo que llamamos “incógnitas desconocidas”. Aspectos de los que ni siquiera nos planteamos en un primer momento que pudieran afectar al rendimiento de un robot que se desplaza por el almacén de una compañía pero que, cuando superponemos un conjunto de datos complementarios sobre esa “fotografía” de información que hemos generado, se revelan por sí solos como estratégicos.

Los datos generados por el IoT, la auténtica materia prima de todo este proceso, son datos totalmente desestructurados. No se almacenan en bases de datos tradicionales sino que se encuentran en lo que podríamos llamar “lagos de datos” o repositorios de datos en bruto.

Los requisitos de almacenamiento y procesamiento de estos “Data Lakes” se pueden escalonar en función del tiempo de respuesta deseado.

Si lo que buscamos es procesar la información en tiempo real, deberemos utilizar una combinación de GPUs, con una alta capacidad de memoria, que procesaran los datos de forma paralela y los almacenarán para su posterior uso.

El proceso de Machine Learning requerirá además que estos dispositivos de computación y almacenamiento se instalen cerca de donde se están generando los datos. Esto, junto con las redes e infraestructura desplegadas para apoyar una sucursal o ubicación remota, puede definirse como el Edge Computing.

Un modelo informático distribuido que acerca la computación y el almacenamiento de datos a la ubicación donde se necesita, para mejorar los tiempos de respuesta y ahorrar ancho de banda.

Esta capacidad la encontramos en las tecnologías llamadas hiperconvergentes, plataformas que combinan recursos informáticos, almacenamiento y red en un único modelo, alojado además en la nube, como las ofrecidas por Google, Microsoft y Amazon Web Services.

Estos proveedores, en definitiva, ofrecen una “ventanilla única” para todas las necesidades de computación, almacenamiento, infraestructura de red, etc. que podamos necesitar.

Pero este modelo también plantea un doble desafío. En primer lugar, deberemos realizar una prueba de concepto (PoC) antes y asumir el coste de dicha prueba. Si la PoC tiene éxito y tras ella, decidimos realizar despliegue completo, el coste económico se escalará rápidamente.

En este escenario podría ser necesario “repatriar” la aplicación y el conjunto de datos fuera del entorno del proveedor. Algo especialmente común en el caso de los entornos Edge Computing donde el coste y la latencia del sistema son incompatibles con almacenamientos centralizados y modelos de computación a escala.

En segundo lugar, las plataformas públicas hiperescalares suelen ser bastante cerradas en todo lo relativo al acceso a los datos; generalmente utilizan sus propias APIs y éstas no son intercambiables o compatibles con otras.

Una alternativa la encontramos en la tecnología que ofrece Dell, en colaboración con VMWare. Una solución que permite un enfoque mucho más abierto y flexible a la hora de realizar actualizaciones o acceder a las APIs asociadas a los datos, que además puede utilizarse con un modelo multicloud en el que siempre tendremos el control de cuál es el entorno más apropiado para desplegar nuestros datos y aplicaciones.

Hoy en día, ya son muchas las organizaciones que consideran este modelo el enfoque más pragmático, flexible y rentable que se puede adoptar.

Desde el momento en el que una empresa comienza a utilizar este modelo ya comienza a experimentar sus ventajas.

Además, en el caso de haber utilizado este sistema para mejorar un proceso comercial, la compañía podría elegir entre vender sus datos o compartirlos con otras organizaciones. Al ser un sistema

mucho más abierto, incluso podría crearse un ecosistema en el que todas las empresas podrían compartir experiencias y mejores prácticas y así, como resultado, contar con un volumen de datos aún mayor.

El coste marginal

Lo que es evidente es que la tecnología IoT permiten un coste marginal prácticamente nulo. Por poner un ejemplo muy claro: si utilizamos un reloj inteligente para conocer nuestra presión arterial, el coste de esa medición es prácticamente cero ya que es una funcionalidad que viene ya incluida en el propio dispositivo.

Las tecnologías IoT tienen el potencial de reducir prácticamente a cero el coste de medir cualquier cosa. Esto lleva implícitas dos consecuencias: la frecuencia de medir algo se incrementa notablemente ya que no “cuesta” nada y al medir más, contaremos también con un mayor volumen de datos de los que poder extraer el valor que encierran.

Así, si medimos algo con mayor frecuencia obtenemos información mucho más precisa de como ese algo (dispositivo, proceso, etc.) se comporta. Con esa información, aplicando tecnologías de Machine Learning, podemos lograr que el propio sistema aprenda a analizar cada vez mejor esos datos, generando datos de aún más valor.

Este impacto potencialmente sísmico es el que explica el por qué del valor de los datos, de cómo se han convertido en un auténtico capital para las empresas.

Grandes y pequeñas, de cualquier sector, las compañías deben ser conscientes del gran activo que representan los datos que genera y del valor que éste tiene para ser más competitivas, reducir sus costes o, incluso, abrir nuevas líneas de negocio y oportunidades de mercado.

Los datos, definitivamente, se han convertido en la mina de oro en la era de la información.