Europa acaba de dar a luz a su mayor modelo de lenguaje grande (LLM), la base tecnológica sobre la que se construye la inteligencia artificial (IA) generativa que está revolucionando la forma de producir conocimiento en el mundo. Conversamos en exclusiva con dos de los fundadores de NXAI, la empresa que lo acaba de presentar en el AI With Purpose Summit de Siemens en Múnich, Johannes Brandstetter y Albert Ortig.
¿Estamos ante una versión europea mejorada de OpenAI? Aseguran haber corregido los problemas de los LLM actuales, basados en transformers, como la computación y memoria intensivas, el cálculo ligado a las interacciones por pares y la falta de relaciones complejas y de abstracción ya que los tokens se comparan con tokens.
Su modelo consiste en un xLSTM (extended long short-term memory), que describen en un paper publicado en mayo. Tiene aplicaciones en dispositivo (on device), razona y tiene conocimiento semántico, el mayor hasta ahora (1.300 millones de entradas) ha sido entrenado en un GPU de NVIDIA 256 A 100 y puede generar modelos de entre 7.000 y 30.000 millones.
¿Dónde radica la originalidad del nuevo LLM que habéis diseñado, el mayor de Europa?
Desde el punto de vista general, existe una necesidad enorme de un nuevo LLM que aborde los problemas que tienen los modelos de lenguaje grande existentes. Por un lado, está la cuestión de la enorme cantidad de potencia de cómputo necesaria para ejecutar los modelos para los clientes, porque no sólo estamos hablando de entrenamiento, sino especialmente de ejecución.
"Nuestro modelo está superando a la tecnología existente"
Ese enorme proceso de inferencia que necesita ejecutar es un problema, porque no hay suficiente cómputo en el mercado. Y no es eficiente tener una gran cantidad de computación. Otra clave es conseguir que el modelo razone mejor, que pueda hacer mejores predicciones para la siguiente palabra.
Cuando comenzamos el viaje, la idea era crear un nuevo modelo fundacional capaz de resolver los problemas que hemos visto y básicamente en el documento que lanzamos en mayo ya publicamos las leyes de escalamiento. Nuestro modelo está superando a la tecnología existente desde un punto de vista muy fundamental.
Bernardino Romera, de DeepMind, que participó en el experimento AlphaFold 2, me decía que en la ciencia y en el mercado se ha abierto una carrera para construir el LLM más grande, pero no existe la misma tensión para resolver problemas con la tecnología existente. Vuestra apuesta es crear un LLM, ¿por qué?
Desde esa perspectiva, hay dos aspectos que debemos tener en cuenta. Uno es hacer un modelo de lenguaje diferente a todos los demás y el otro es mirar la simulación IFA. AlphaFold es muy específico para los datos lógicos. La industria farmacéutica tiene un conocimiento muy grande sobre IA, es muy difícil de avanzar o conseguir un impacto.
Pero hay muchos otros sectores y, especialmente si nos fijamos en Europa, que se basan en gran medida en simulaciones: simulación basada en partículas, de procesos, meteorológica o de fluidos. Y esa sería exactamente nuestro ‘momento AlphaFold’: las simulaciones. Por supuesto, predecir el plegado de proteínas es uno de los mayores logros en cualquier modelado, pero afirmo que podemos iniciar una revolución en la simulación similar a la del plegamiento de proteínas biológicas.
Esa va a ser la aplicación principal de vuestro LLM.
Hasta ahora no hemos publicado nada en lo que estamos trabajando. Solo estamos construyendo esto, ya veremos, creo que el público juzgará lo lejos que podemos llegar el próximo mes. Actualmente hemos publicado es el modelo de lenguaje. Hemos demostrado que tenemos esta técnica y que podemos ampliarla.
Es muy interesante incidir en el carácter europeo de vuestro proyecto, con una fuerte conexión con las instituciones de investigación y la universidad. ¿Se puede hablar de un sello innovador propio, frente al modelo de Estados Unidos?
Si nos fijamos en Silicon Valley, diría que el 50% de las personas proceden de Berkeley o Stanford y muchas de ellas ni siquiera terminan la universidad. El ambiente allí es simplemente increíble. En DeepMind, la mitad de los investigadores son de Oxford y Cambridge.
"Queremos mantener el talento en Europa"
Para conseguir ser un espacio de donde surjan muchas startups diferentes necesitas esta interacción con la universidad. Esa es una de nuestras motivaciones. Queremos mantener el talento en Europa, queremos dar a la gente en Europa la oportunidad de quedarse aquí. De ese modo se puede transferir a la industria y animar el despertar de la industria para generar startups en ámbitos nuevos.
La clave es escalar. ¿Cuál es vuestra estrategia? ¿Estáis pensando en algún tipo de integración con grandes corporaciones como han hecho otros?
Para poder escalar, debemos tener una visión diferente. Cuando hablamos de un LLM que queremos vender en todo el mundo, es imprescindible asociarse con los hiperescalares. Y este hecho significa dos cosas: en primer lugar, necesitamos un modelo que sea tan bueno que estos hiperescalares quieran venderlo; y, en segundo lugar, también debemos estar abiertos a trabajar junto con esas compañías, para escalar internacionalmente. No es un juego europeo, es global.
Esta es una perspectiva diferente a la de vender acciones a inversores de forma que no tengamos a los socios principales en la empresa. Intentaremos conseguir una buena mezcla y mantener las acciones principales aquí en Europa. Nuestra perspectiva consiste en crear una empresa internacional, teniendo en cuenta que lo más genial no es vender una startup a EEUU, sino hacerla grande aquí y hacer que se desarrolle. OpenAI es una compañía norteamericana y tenemos que utilizar la misma narrativa para hacernos grandes.
El debate actual en la industria gira en torno al equilibrio entre los grandes modelos y la nube pública, por un lado, y los modelos pequeños y específicos y la nube privada, por otro. ¿Dónde os posicionáis en ese análisis?
Cada vez que la gente habla de LLMs, se refiere a descargar LLMs, entrenarlos y afinarlos, o incluso usarlos desde cero, o ajustarlos a una aplicación. Pero eso significa que descargas una caja negra que está entrenada con algo que no conoces, cuyo mecanismo y sistema también desconoces y no entiendes. Al final, de ese modo, ningún LLM funciona de forma distinta al de Google, OpenAI y Meta.
"Tenemos el mejor LLM autorregresivo que existe"
Esa puede ser una ventaja para nosotros, tenemos el mejor LLM autorregresivo que existe, porque sabemos cómo entrenarlo, conocemos los datos con los que lo entrenamos, sabemos exactamente cómo construirlo y sabemos dónde están sus fortalezas. Eso es lo que necesitamos en Europa.
Daría un paso atrás en mi pregunta: ¿Creéis que el mercado y la sociedad son realmente conscientes de lo que significa la IA generativa, sus increíbles posibilidades?
Es muy difícil de ver para la gente porque, en fin, si supieras cuál es la próxima disrupción, comprarías acciones de compañías de ese ámbito, ¿verdad? Solo se puede apostar por unas pocas disrupciones, y nosotros lo hemos hecho por el modelado y la simulación de lenguaje autorregresivo. En mi opinión, está muy claro que la disrupción ocurrirá allí.
Si hablas de música, de ciencia en general, no sé, de la industria de los videojuegos, es muy difícil, si no eres un experto en esa área, ver las disrupciones, saber dónde se producirán. Está claro para todo el mundo que la disrupción está llegando ahora, ya la hemos visto en AlphaFold, la estamos viendo en el modelado del lenguaje o en la visión por ordenador.
¿En qué sector creéis que tiene más potencial de impacto vuestro LLM?
El sector financiero es muy relevante y hay muchas empresas industriales que necesitarán esta tecnología de forma muy intensa en el futuro, por supuesto. Las finanzas son interesantes en términos de nuestra tecnología y la potencial combinación de datos combinación. Veremos qué pasa allí. La oportunidad en las matemáticas es enorme. Estamos realizando una gran investigación también en este campo.
Compartir conocimiento de la mejor manera
Hay muchas cosas que podríamos abordar, pero ahora solo nos centramos en los desafíos. Hoy solo podemos focalizar la atención en las tecnologías y no en las aplicaciones, porque primero hay que revolucionar la tecnología. La gente en los inicios no era consciente de lo que los LLM serían capaces de hacer y cuándo, pero revolucionaron el modelado del lenguaje y ahora eso llega a todas partes. Para ser honestos, Jen -Hsun Wang no estaba al tanto de que a NVIDIA le estaba creciendo la cola hasta 2017.
La gente que está metida en estas tecnologías de vanguardia, normalmente dice: “dejadnos avanzar en la investigación, no pidáis aplicaciones concretas antes de tiempo”.
Ese es uno de nuestros problemas. Nos estamos comparando con otros modelos, pero somos diferentes a ellos, por lo que hay cosas en este modelo que incluso no reconocemos ahora y podrían marcar una gran diferencia en el futuro, en algún lugar hacia el que no estamos mirando todavía. Ese es el reto.
Cuando hicisteis la presentación del LLM en el IA With Purpose Summit de Múnich, una persona del público os preguntó si no temíais que, al compartir públicamente vuestros hallazgos, alguna empresa americana os copiara. Que, a estas alturas, en Europa todavía tengan que exponerse las ventajas del conocimiento abierto…
No se trata solo de compartir el conocimiento, sino también de asegurarte de hacerlo de la mejor manera. Si no tenemos el soporte legal de la publicación de artículos, tendremos un problema en dos años. Y eso es lo que estamos haciendo. Intentamos ser lo mejor posible en los temas legales y compartir la mayor cantidad de conocimiento posible.