Cloudera fortalece su plataforma de datos híbrida con open data lakehouse
Open data lakehouse es una arquitectura abierta que combina los beneficios de un data warehouse y de un data lake para solucionar los problemas de interoperabilidad en la gestión de los datos.
La gestión del dato, a día de hoy, se lleva a cabo mediante un método híbrido. Según un estudio de Statista, la cantidad de datos que se generan, se copian y se consumen a nivel mundial ha pasado de ser menos de 1ZB en 2011 a, aproximadamente, 14 ZB en 2020. A los que hay que añadir otros 50 ZB de datos no estructurados en la nube.
Capitalizar todo esto requiere de recursos como los ‘data lakes’, repositorios centralizados y escalables y escalables diseñados para almacenar, procesar, analizar y proteger grandes cantidades de datos de cualquier tipo. Este tipo de herramientas promueven el uso de análisis de datos de misión critica a gran escala, business intelligence y machine learning, al igual que el uso de data warehouse empresariales.
Durante los últimos años se ha especificado el termino ‘data lakehouse’, que combina los beneficios de un data warehouse y de un data lake, pero con un pequeño hándicap: mientras que los “lagos” son abiertos, los lakehouses no.
“Los clientes exigen cada vez más desde el principio. Más formatos, más motores, más interoperabilidad. Y eso solo se consigue con lakehouse abiertos”, comenta Juan Carlos Sánchez de La Fuente, Regional Director España y Portugal de Cloudera. “Un data lakehouse abierto aborda los problemas de interoperabilidad y de arquitectura en su core. Innovar consiste en resolver los problemas con las mejores herramientas, sin importar el proveedor, de ahí la necesidad de este salto en la concepción de este tipo de infraestructuras”, añade.
Teniendo esto en cuenta, Cloudera, la empresa de datos en la nube híbrida, ha anunciado que Apache Iceberg está disponible en su plataforma Cloudera Data Platform (CDP) como parte de su estrategia en pro del open source.
Surgido como un proyecto de Netflix que después se donó a la Fundación Apache Software en 2018, Apache Iceberg es un formato abierto de alto rendimiento que nace en la nube y es capaz de escalar los petabytes independientemente de la capa de almacenamiento que exista por debajo y de la capa del motor de acceso.