Categories: Workspace

El Centro Nacional de Supercomputación desarrolla MarIA, la primera inteligencia artificial de la lengua española

El Centro Nacional de Supercomputación (CNS), partiendo de los archivos web de la Biblioteca Nacional de España (BNE) y con el impulso de la Secretaría de Estado de Digitalización e Inteligencia Artificial ha desarrollado el primer sistema masivo de inteligencia artificial (IA) de la lengua española capaz de generar sus propios textos y resumir otros ya existentes.

Se trata de MarIA, el primer sistema de IA capaz de comprender y escribir en lengua española, un proyecto enmarcad en el Plan de Tecnologías del Lenguaje, y pretende contribuir al desarrollo de una economía digital en español gracias al potencial que pueden encontrar en ella los desarrolladores.

Traductores simultáneos, asistentes inteligentes, clasificación y búsquedas de documentos… son multiples las aplicaciones que podrán llevarse a cabo en el desarrollo del procesamiento del lenguaje natural, la traducción automática o los sistemas conversacionales.

MarIA ha sido desarrollada con GPT-2, una tecnología que crea modelos generativos decodificadores capaces de generar textos nuevos a partir de un ejemplo previo. Esto permite elaborar resúmenes, simplificar grandes cantidades de información, generar preguntas y respuestas e, incluso, mantener un diálogo. MarIA puede comprender no solo conceptos abstracto sino también el contexto de los mismos.

Entrenamiento para el tercer sistema más avanzado del mundo

Para lograrlo su entrenamiento ha consistido en 135.733.450.668 (más de 135 mil millones) de palabras procedentes de millones de páginas web que recopila la Biblioteca Nacional. Un total de 570 Gb de información. En este entrenamiento se ha utilizado el superordenador MareNostrum perteneciente al CNS de Barcelona, con una potencia de cálculo de 969 exaflops (9,7 trillones de operaciones).

Gracias a este enorme volumen de información, MarIA es el tercer sistema IA del mundo de escritura y lenguaje con mayor número de modelos detrás de otros similares elaborados para los idiomas inglés y mandarín, algo en lo que ha sido fundamental la amplia digitalización del patrimonio de la Biblioteca Nacional y que el CNS cuente con potentes ordenadores como el MareNostrum 4.

Antonio Rentero

Recent Posts

Los ingresos de Lenovo aumentan por cuarto trimestre consecutivo

Durante el segundo trimestre de su ejercicio fiscal 2024/25 acumuló 17.900 millones de dólares, que…

7 horas ago

Huawei lanza la nueva generación de OceanStor Dorado

Huawei presenta OceanStor Dorado, un sistema de almacenamiento All-Flash revolucionario para aplicaciones críticas en la…

9 horas ago

Eurofirms Group lanza una consultoría tecnológica

Eurofirms Nexus nace para "asesorar en inteligencia artificial" y "potenciar el valor humano en las…

10 horas ago

Huawei impulsa la transición verde y digital en Europa con soluciones inteligentes y colaborativas

Huawei Connect 2024 en París destaca cómo la tecnología digital e inteligente acelerará la transición…

10 horas ago

Cloudera compra la plataforma de datos de Octopai

La compañía adquirida ofrece capacidades de mapeo automatizado y generación de gráficos.

11 horas ago

Adyen anuncia nuevo Tech Hub en Madrid

Ubicado en el barrio de Salamanca, espera atraer profesionales como gestores de producto, científicos de…

11 horas ago