El BSC ha desarrollado una herramienta con inteligencia artificial que es capaz de comprender la lengua española. Se trata de MarIA, una iniciativa para la que se han utilizado archivos de la Biblioteca Nacional y que podrá utilizarse en múltiples aplicaciones: predictores y correctores lingüísticos, chatbots, aplicaciones de resumen automático, búsquedas inteligentes, aplicaciones para el análisis de sentimientos o motores de traducción y subtitulación automática, entre otros.
“Este proyecto nace del plan de impulso a las tecnologías del lenguaje, de la Secretaría de Estado de Digitalización e Inteligencia Artificial”, indica Marta Villegas, responsable del proyecto y líder del grupo de minería de textos del BSC-CNS. “Ha sido un trabajo apasionante, porque en medio del desarrollo de MarIA las tecnologías del lenguaje han tenido una gran disrupción, como las redes neuronales profundas. Hemos podido vivir algo espectacular: Siri, Alexa… Antes era impensable”.
Para desarrollar esta herramienta, primero, probaron con el catalán, coincidiendo con otro proyecto llamado AINA, de la Generalitat de Cataluña, destinado a garantizar la vida digital del idioma. Las primeras pruebas las hicieron ya que era más pequeño que el español. “Para crear el corpus de MarIA, se utilizaron 59 terabytes (equivale a 59.000 gigabytes) del archivo web de la Biblioteca Nacional”.
MarIA, un conjunto de modelos del lenguaje “o, dicho de otro modo, redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto”, ya está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste.
Cómo se ha creado MarIA
Según la líder del grupo del BSC, la parte crucial fue hacer modelos de la lengua. “Había que disponer de muchos datos, de datos masivos. No hay ningún proveedor que pueda ofrecer ese volumen. Nosotros hemos contamos con el esfuerzo de la Biblioteca Nacional y hemos podido disponer de esos datos, que son un lujo”, subraya.
Pero eso fue el primer paso; el siguiente fue “limpiarlo”. Y es que estos archivos se procesaron para eliminar todo aquello que no fuera texto bien formado –como números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas, otros idiomas, etcétera– y se guardaron solamente los textos bien formados en la lengua española, tal y como es realmente utilizada, explican desde el BSC.
Para este cribado y su posterior compilación fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades. “Un proceso muy árido, poco sexy, pero que es crítico, porque al final un modelo se entrena con lo que le das”, destaca Villegas.
Una vez creado el corpus de MarIA, los investigadores del BSC utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado excelentes resultados en el inglés –“que tiene una gran cantidad de aplicaciones en dominios muy específicos: mesas para restaurantes, tareas… Para el castellano hay muy poco, un gran hándicap”, señala Villegas–.
Estas redes neuronales multicapa son una tecnología de inteligencia artificial y los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas, para que aprenda a adivinar cuál es la palabra ocultada dado su contexto.