Túnez, Libia, Marruecos, Egipto y Argelia. Es un tópico, pero el norte de África es un crisol de culturas. También es una región importante para entender aspectos fundamentales de la evolución humana, debido a numerosos eventos demográficos. La historia de sus poblaciones es compleja, con gran cantidad de migraciones a lo largo del tiempo. Predominan dos poblaciones humanas con lengua y cultura propias: los árabes y los imazighen (imazig en singular).
Sus orígenes seguían siendo un misterio. Una investigación liderada por David Comas, catedrático del Departamento de Medicina y Ciencias de la Vida (MELIS) de la UPF e Investigador Principal del Instituto de Biología Evolutiva (IBE), un centro mixto del CSIC y la Universidad Pompeu Fabra (UPF), y Oscar Lao, también Investigador principal del IBE, ha descubierto, usando herramientas de inteligencia artificial, que los imazighen y el pueblo árabe del norte de África tienen orígenes genéticos distintos. Por primera vez, el estudio revela que la separación entre ambos se produjo hace más de 20.000 años y arroja luz sobre la compleja historia demográfica de esta región.
Innovación metodológica
“Realizar estudios de genética de poblaciones en el norte de África es especialmente complejo. Algunas de estas migraciones, como la arabización de la región y el reemplazo de la población autóctona amazig por la árabe, son muy recientes desde un punto de vista evolutivo. Oscurecen poder saber qué pasó antes de ellas”, explica a este periódico Oscar Lao.
En este trabajo, los investigadores han analizado genomas completos de individuos de diferentes poblaciones de la región. Tras comprobar que un algoritmo que habían desarrollado con anterioridad, basado en deep learning (DL), no funcionaba como esperaban, crearon uno nuevo, basado en IA, concretamente en el campo de la programación genética (GP), inspirado en cómo la evolución funciona en los organismos vivos.
“Hemos buscado métodos de inteligencia artificial alternativos al DL que permitan innovar la demografía sin tener que usar un número definido y estático de modelos demográficos”, indica el experto. “La programación genética se ha usado en el pasado en otros campos para generar innovaciones que han dado lugar incluso a patentes. Esta es la primera vez que se utiliza en la resolución de problemas de genética de poblaciones. En nuestro caso, la innovación que aportamos es un modelo demográfico que pueda explicar los resultados obtenidos”.
Lao detalla que, con este método, “de la misma manera que la información contenida en nuestro genoma nos permite interactuar de manera más eficiente con el entorno (y aquellos individuos que mejor interactúan son aquellos que más copias dejan de su material genético), se pueden evolucionar historias demográficas que permitan explicar la diversidad genética observada en las poblaciones actuales”.
Nuevos hallazgos
Entre los principales hallazgos del estudio, los investigadores concluyen que, tanto la aplicación de DL como GP apuntan a un origen en Oriente Próximo de los individuos del norte de África y a una estrecha relación con las poblaciones eurasiáticas. “Los resultados respaldan diferentes orígenes para las poblaciones amazig y árabe. Los amazig se originaron en tiempos epipaleolíticos. Por otro lado, el GP respalda la arabización como la principal fuente de ascendencia de Oriente Medio”.
Oscar Lao añade que el modelo GP incluye una subestructura poblacional de las poblaciones circundantes (África Subsahariana y Oriente Medio) con un flujo genético continuo y decreciente después de la separación de estas poblaciones. “A diferencia del DL, el mejor modelo GP no requiere pulsos de mezcla de poblaciones circundantes hacia el norte de África, lo que señala que las divergencias en esta región fueron impulsadas por separaciones suaves”.
IA para derribar viejas barreras
El experto recuerda que nuevos modelos de arquitecturas deep learning, como los LLMs que utilizan aplicaciones como ChatGPT, ya son utilizados en genómica y genética de poblaciones. “Podemos afirmar que cualquier mejora en las arquitecturas DL será explorada y explotada en problemas genómicos”.
En el caso de la programación genética, Oscar Lao considera existe un nicho dentro de la genética de poblaciones que aún no ha sido explorado y que puede permitir la generación de soluciones que vayan más allá de definir parámetros demográficos. “Por ejemplo, en la creación de estadísticos que nos permitan entender mejor la teoría matemática asociada a los procesos evolutivos, algo que, actualmente, el deep learning no permite”.
“Un amplio abanico de posibilidades”
Lao señala que, en genética de poblaciones, uno de los paradigmas que está siendo desafiado es la historia demográfica reciente (<300.000 años). “En primer lugar, se cuestiona cómo los humanos anatómicamente modernos salieron de África. A lo largo de la década de los 80 del siglo pasado, se estableció que toda la diversidad genética fuera de África era un subconjunto de la observada en África debido a una diáspora fuera del continente ocurrida hace unos 100.000 años. Esta visión fue modificada en 2010, cuando se identificaron fragmentos de neandertales y denisovanos -dos poblaciones arcaicas que vivieron en Eurasia contemporáneamente a las poblaciones africanas- en las poblaciones actuales. Esto sugería que estos fragmentos genómicos habían sido adquiridos al salir fuera de África”.
Según el investigador, las nuevas tecnologías de IA, “gracias a su poder para detectar patrones sutiles en el genoma”, pueden detectar tanto nuevas introgresiones con otras poblaciones arcaicas euroasiáticas todavía desconocidas, como identificar otras diásporas fallidas desde el continente africano o detectar poblaciones arcaicas en África o América. “Ofrece todo un abanico de posibilidades”.
¿Y los próximos pasos? “La tecnología de programación genética que hemos generado en este estudio ofrece una amplia gama de aplicaciones que actualmente estamos esperando”. Oscar Lao añade que estas opciones van desde la inferencia de demografías complejas en poblaciones poco representadas en estudios genómicos, como las nativas americanas, hasta identificar inferencias de poblaciones arcaicas desconocidas que habrían dejado su huella en nuestro genoma, y la generación de estadísticos que permitan identificar marcas de selección positiva o identificar marcadores que estén relacionados funcionalmente con enfermedades complejas como la esquizofrenia o la diabetes tipo 2.