Google relanza Data Cleanser, ahora conocido como Google Refine

Data Cleanser, ahora bautizado como Google Refine 2, se llamaba originalmente Freebase Gridworks y procede de Metaweb, una compañía que Google compró el pasado mes de julio.

Google ha actualizado y relanzado Google Cleaner, su software de código abierto para la limpieza, análisis y transformación de conjuntos de datos. El software, ahora bautizado como Google Refine 2, se llamaba originalmente Freebase Gridworks y procede de Metaweb, una compañía que Google compró el pasado mes de julio.

Google Refine es una colección de herramientas que podrían ser muy útiles cuando se trata de conseguir información útil de un conjunto de datos, particularmente cuando en ellos existen inconsistencias. Google Refine podría, por ejemplo, encontrar las variantes ortográficas de una palabra y reemplazarlas con el término apropiado. Este procedo, llamado normalización no es nuevo, pero normalmente requiere que se escriba un código para cada conjunto de datos.

Además, el software tiene una serie de otras herramientas, como un lenguaje de expresión que se puede utilizar para analizar un conjunto de datos; también se pueden utilizar filtros para aislar subconjuntos de datos, que después se pueden analizar o cambiar a través de un serie de comandos.

Google Refine también trabaja con archivos de texto sin formato, datos que se pueden dividir en diferentes columnas mediante el uso de comas.

No obstante, Google ha anunciado que ha añadido varias nuevas características al software, oficialmente llamado Google Refine 2.0, como la capacidad para unir los datos de otras bases de datos y una nueva serie de comandos de transformación y expresiones.