Los datos con ruido y otros desafíos a los que se enfrenta Big Data
Aunque subirse al carro del análisis de las grandes cantidades de datos que generan las empresas actuales parece una tarea irrenunciable, se trata de un fenómeno con retos por resolver.
Cada vez se generan más datos y cada vez se maneja más información procedente de fuentes de lo más diverso, por lo que profundizar en las técnicas de análisis de dicho material se vuelve una tarea fundamental. El Big Data ha llegado para quedarse y para marcar la diferencia en empresas de todos los sectores, guiándolas a la hora de tomar decisiones y fortaleciéndolas frente a la competencia.
Pero eso no quiere decir que avanzar en temas de Big Data sea pan comido. Este fenómeno se enfrenta a cinco retos fundamentales, según la firma Teradata:
1. “El reto de los datos multi-estructurados”. Como decíamos, los datos que se crean y almacenan en masa cada día tienen una naturaleza muy diversa. No sería lo mismo tratar con la información procedente de Data Warehouse que con las fuentes más modernas de información. “Social data and machine log data se caracterizan por su volatilidad”, advierten desde Teradata, por lo que “el modelo de información que usamos para entenderlos puede ser implícito en lugar de explícito”, “incluir algún nivel de organización jerárquica” o quizás no y, aparte, “cambiar continuamente”.
2. “El desafío de las analíticas interactivas”. Del mismo modo, realizar monitorizaciones de datos en tiempo real e intentar dar sentido lo antes posible a aquellas relaciones que se producen entre unos y otros, para aprovechar su potencial en beneficio de la empresa, es un desafío notable. El hecho de que la tecnología ANSI SQL, además, no ensalce el orden de registro supondría un problema. Los expertos consideran que características como UDF y OLAP representan únicamente “una solución parcial”.
3. “El reto de los datos con ruido”. La falta de rigurosidad también amenazaría al Big Data. No todos los datos son igual de fáciles de interpretar y los analistas no recurrirían a todos ellos con la misma frecuencia para realizar su trabajo. Teradata da a entender que “algunos grupos de Big Data” son empleados con la intención última de “ayudar al procesamiento asociado con objetivos de nivel de servicio relajados y sin valor probado”.
4. “El reto de ‘puede haber una aguja en un pajar pero si se necesitan doce meses y 500.000 € para averiguarlo no hay tiempo ni dinero para investigarlo'”. O, dicho de otro modo, el Big Data puede perder eficacia si su estudio y el establecimiento consecuente de conclusiones se prolonga demasiado en el tiempo o si ni siquiera se tiene muy claro por dónde empezar el análisis. Además, no es una tarea barata ni que se pueda acometer reutilizando un enfoque de Data Integration tradicional. Por ejemplo, la compra, estandarización “e integración de datos representan hasta el 70% del coste total de implementar una base de datos analítica”, dicen quienes saben de esto.
5. “El reto de ir más allá y el valor de la entrega”. No se puede abrazar el fenómeno Big Data sin un motivo o, simplemente, porque los competidores también lo estén haciendo. Hay que ser más incisivos. Hay que intentar exprimir al máximo las posibilidades de esta tendencia de negocio y situarse incluso un paso más delante de la mejora global de los conocimientos que se tienen, transformando “el negocio y así impulsar el retorno de la inversión”. Teradata también señala que, por sí solo, un Data Scientist no es garantía de nada.