Deduplicación: Una vuelta de tuerca en el almacenamiento de datos

El volumen de información se multiplica y los presupuestos se dividen. ¿Qué pueden hacer las compañías TI para resolver este grave problema? La solución pasa por eliminar de forma efectiva los datos redundantes.

Según indica la analista IDC, el volumen de información digital manejado a nivel mundial se duplica cada 18 meses. Una compañía que almacena, por ejemplo, 2 TBytes de datos en sus servidores, tendrá que duplicar la capacidad de almacenamiento, hasta los 4 TBytes, en menos de dos años.

Este crecimiento en las necesidades de almacenar los datos ha existido desde la creación de la informática, pero se ha agudizado con la llegada de Internet. Crece el número de usuarios conectados, pero aún más el número de dispositivos que se conectan, y esto, al fin y al cabo, es información que hay que procesar, en particular a nivel de servidores y centros de datos.

El problema con el que se encuentran actualmente las compañías y, en especial, los responsables de los departamentos TI es que sus presupuestos se están reduciendo, en el mejor de los casos manteniéndose. Pero deben buscar soluciones para ese crecimiento exponencial del volumen de la información.

Es cierto que los sistemas de almacenamiento actuales, como es el caso de los discos duros o las cintas magnéticas (aunque pueda parecer lo contrario se siguen utilizando), han experimentado un abaratamiento de los costes por MByte, pero en ocasiones este detalle sigue siendo insuficiente para las empresas.

Existen muchas soluciones y técnicas para reducir ese volumen. La compresión de los datos es una de ellas, un proceso que existe desde hace décadas. Pero sus limitaciones son claras: llega un momento en el que no se puede comprimir más sin pérdida de información y, además, es necesario utilizar una parte importante de la potencia disponible en los sistemas, por lo que en ocasiones se pueden producir cuellos de botella en los procesadores que perjudicarían indudablemente al resto de tareas.

Y es aquí donde entra en juego la deduplicación de los datos. No es una técnica nueva, pero sí se está empezando a utilizar cada vez más.

Básicamente, las técnicas de deduplicación están diseñadas para identificar y eliminar los datos redundantes que manejan las compañías. Si una secuencia de datos está duplicada en distintos sitios sólo se almacenará un original. El resto serán simplemente punteros o referencias a esa secuencia.

Estas técnicas se pueden llevar a cabo a nivel de ficheros, pero son mucho más eficaces a más bajo nivel, al nivel de bloques de datos.

El resultado es una tremenda reducción no sólo a la hora de almacenar la información, sino también a la hora de transferirla entre las distintas infraestructuras: desde los procesadores hasta el sistema de almacenamiento y viceversa. Muchos sistemas de almacenamiento no se encuentran físicamente en la misma máquina donde se procesa la información, por lo que los datos tienen que viajar por la red. Si esta cantidad de información se reduce, nos podemos imaginar los beneficios en dicha transferencia.

Lo habitual es utilizar algoritmos de deduplicación de los datos a la hora de realizar procesos de copias de seguridad. Es en estas tareas donde se puede obtener la mayor eficiencia. Sin embargo, también se puede utilizar la deduplicación en tiempo real a la hora de almacenar datos que se utilizan habitualmente, aunque en este caso entra en juego la potencia de proceso de los sistemas, ya que los algoritmos de deduplicación son muy exigentes.

Gartner predice que para 2012 las tecnologías de deduplicación se aplicarán a un 75% de todos los sistemas de copias de seguridad. Son muchas las compañías que están apostando por estos métodos de almacenamiento, incluso con luchas abiertas como las producidas entre EMC y NetApp por la adquisición de Data Domain, un desarrollador de soluciones no tan potente como éstos pero con mucho terreno ganado en el segmento de la deduplicación de datos. No en vano, acaba de lanzar la solución más potente para este nicho de mercado capaz de procesar hasta 5,4 TBytes/hora.

Mientras tanto, otras como Acronis o Symantec ya incorporan dichos algoritmos a sus soluciones de copias de seguridad y archivado de la información.

Y es que la deduplicación parece la solución ideal, tanto a nivel de negocio para estas compañías como a nivel de reducción de costes y aumento de la efectividad de todos sus clientes.

En definitiva, es la tendencia de la que más oiremos hablar dentro del gran negocio del almacenamiento de datos durante los próximos años.