Desde hace unos meses, el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC), a través de su supercomputador MareNostrum, está recopilando y almacenando una ingente cantidad de datos del archivo web de la Biblioteca Nacional de España (BNE) –a día de hoy, unos 45 terabytes–. Tras esto, el siguiente paso será el procesamiento de los datos para generar un modelo de lenguaje del español a través de las tecnologías del procesamiento del lenguaje natural.
Estos han sido los objetivos marcados por la Secretaría de Estado para el Avance Digital (SEAD) en el marco del Plan de Impulso de las Tecnologías del Lenguaje: en primer lugar, transportar datos al MareNostrum y, en segundo lugar, procesarlos para generar el modelo de lenguaje. Según Quim Moré, investigador del departamento de CASE del BSC, “la generación de modelos de lenguaje es vital para la inteligencia artificial. La aplicación computacional de un modelo de lenguaje desambiguado y con un contexto fundamentado en nuestro conocimiento del mundo supone un gran avance en la generación de sistemas cada vez más inteligentes y, a la vez, más cercanos”.
La idea es crear lo que se ha hecho con Google Bert, considerado como “un antes y un después” en el procesamiento del lenguaje natural. Aunque, como afirman desde el BSC, su modelo viene “de otras iniciativas de modelos del español por la cantidad, calidad y variedad de los datos, lo que hace que sea más preciso y de uso más transversal”.
“Un modelo de lenguaje, por ejemplo, puede reproducir el uso de la lengua y permite conocer el significado real de las palabras, incluso de las frases enteras, ya que los datos están contextualizados y tienen más información, más sentido”. De este modo, se permite también desambiguar el sentido de las palabras (como distinguir el sentido de brutal en un “brutal asesinato" y “la serie te gustará. Es brutal”). También permite interpretar el sesgo ideológico, y abre la puerta a abordar la ironía, el sentido figurado y enriquecer los sistemas de inteligencia artificial con sentido común.
Y es que además, las aplicaciones son múltiples: "desde la traducción automática, a la ciberseguridad, hasta la descripción del contenido de un cuadro del siglo XV hecha por un robot. Ahora bien, modelos capaces de generar esta revolución requieren de unos recursos computacionales y de datos que solo unas pocos centros y compañías, como Google o Facebook, tienen”.
“Tenemos la gran suerte de tener en el MareNostrum la capacidad computacional necesaria para desarrollar este modelo de lenguaje y, por otro lado, tenemos la ingente cantidad de datos lingüísticos revisados y de calidad aportados por la Biblioteca Nacional. Tenemos una oportunidad importantísima de estar al nivel de los grandes centros de inteligencia artificial y de aportar una aplicación computacional del conocimiento lingüístico a la cultura”, ha declarado Moré.
Un archivo web “vivo”
Hay que tener en cuenta que el archivo de la web española es una colección formada por todos los sitios webs que tengan el dominio “.es”, más los que son considerados patrimonio documental que están incluidos en otros dominios. Todo ello se recolecta con el fin de “preservar el patrimonio documental español en Internet y asegurar el acceso al mismo”.
“La recolección de páginas web se realiza con robots rastreadores que recorren las URL seleccionadas previamente y guardan todo lo que encuentran enlazado, con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web, donde se guarda y se puede consultar lo recolectado”, explican en la BNE.
Así, las recolecciones –que utiliza NAS (NetarchiveSuite), una herramienta de código abierto para archivar y el robot Heritrix para rastrear– buscan “reproducir con detalle el aspecto del sitio y las funcionalidades del mismo disponibles durante la captura, de tal forma que la réplica del sitio web sea tan navegable como su versión ‘viva’”. De este modo, una vez completado el rastreo, las webs archivadas son visualizadas en la OpenWayback, una aplicación que ofrece al usuario la posibilidad de seleccionar qué versión concreta de una web determinada desea consultar.