Facebook logra traducir entre un centenar de idiomas sin basarse en el inglés
Ha desarrollado el modelo de traducción automática multilingüe M2M-100, que ofrece como código abierto.
En el mundo existen 7000 idiomas diferentes. En España, por ejemplo, hay varias lenguas que son oficiales junto al castellano.
Para no perder esa riqueza y, al mismo tiempo, facilitar la comunicación, la industria tecnológica trabaja en herramientas de traducción que permitan reconocer al instante qué dice un texto o qué está contando la persona que se tiene delante aunque hable en un idioma desconocido. Aquí la inteligencia artificial juega un papel fundamental.
Facebook está investigando en esta parcela y ha anunciado un hito: un modelo de traducción automática multilingüe masivo. Bautizado como M2M-100, es capaz de traducir 100 idiomas diferentes en cualquier dirección sin pasar necesariamente por el inglés, como suele ocurrir en estos casos.
Otros sistemas de traducción se apoyan en modelos de inteligencia artificial separados para cada idioma o confían en el inglés como punto de referencia. “Es mucho más fácil encontrar traducciones del chino al inglés y del inglés al francés que, digamos, del francés al chino”, explica la ayudante de investigación Angela Fan. ¿Por qué? “Porque los datos de entrenamiento en inglés son los más disponibles”.
Facebook ha tomado otro camino y ha decidido construir un conjunto de datos diverso, con 7500 millones de oraciones paralelas en un centenar de idiomas.
Para ello, ha usado técnicas de escalado que le han permitido construir un modelo con 15 000 millones de parámetros. Ha aprovechado recursos de minería de datos ya existentes como ccAligned, ccMatrix y LASER. Y ahora publica su trabajo como código abierto a través de GitHub.
La red social asegura que este nuevo modelo multilingüe ha conseguido una mejora de 10 puntos en la métrica BLEU de evaluación de traducciones respecto a alternativas centradas en el inglés.