El entrenamiento de modelos de aprendizaje automático requiere el aporte de grandes cantidades de datos, cuya procedencia y posible identificación (personas, empresas) es un problema para las instituciones que los aportan, para los investigadores que los gestionan e, incluso, para los ciudadanos. ¿Cómo proteger la privacidad de los datos y minimizar a la vez la vulnerabilidad frente a potenciales ciberataques? La comunidad científica tiene la respuesta: Aprendizaje Federado (FL) y la Computación Segura Multi-Parte (SMPC).
El Aprendizaje Federado (Federated Learnig o FL) es una estrategia para el entrenamiento de modelos especialmente interesante en aquellos escenarios donde la protección de la privacidad y la prevención de la ciberdelincuencia son más críticos. ¿En qué consiste? En realidad, se trata de algo conceptualmente muy simple: en lugar de reunir todos los datos en un único lugar, el FL permite que los modelos se entrenen localmente en dispositivos, como smartphones o servidores de empresas. Estos modelos locales envían actualizaciones a un servidor central, donde se realiza la agregación de los datos para mejorar el modelo global. Es decir, se trata, simplemente, de descentralizar el proceso.
La principal ventaja del FL es su capacidad para preservar la privacidad de los datos. Al mantener la información en dispositivos locales, el modelo global mejora sin que los datos reales abandonen esos dispositivos. Esto es especialmente crucial en sectores como la salud, donde la confidencialidad de la información del paciente es fundamental y donde las políticas de las organizaciones son particularmente exigentes.
Además de este importante beneficio para el investigador y las entidades participantes en los proyectos, el Aprendizaje Federado presenta otras ventajas nada desdeñables:
- En entornos donde varias partes desean colaborar en la construcción de un modelo, el FL permite esta colaboración sin que cada parte tenga que revelar sus datos completos. Esto es especialmente valioso en proyectos de colaboración con información sensible.
- Al estar los datos distribuidos, los riesgos asociados a la ciberseguridad se diluyen, y cada propietario puede aplicar sus políticas y responsabilizarse de la seguridad de sus datos sin que este riesgo se transfiera al investigador.
Sin embargo, no todo son buenas noticias, ya que un enfoque basado en FL tiene también su talón de Aquiles: ¿Cómo relacionar la información de los distintos sets entre sí sin incurrir en duplicidades y sin compartir datos que pudieran permitir deducir su origen?
Aquí es donde entra en juego la Computación Segura Multi-Parte (SMPC).
La Computación Segura Multi-Parte (SMPC) es un enfoque que permite a varias entidades (empresas, instituciones, etc.) colaborar en el procesamiento de datos sin revelar información sensible a las demás partes. Este procedimiento garantiza la seguridad y privacidad de los datos incluso cuando se comparten y procesan de manera conjunta localmente. En este artículo publicado por la Agencia Española de Protección de Datos se expone con detalle un ejemplo de este tipo de procedimiento: https://www.aepd.es/prensa-y-comunicacion/blog/privacidad-desde-el-diseno-computacion-segura-multi-parte-comparticion.
En definitiva, el “mix” Aprendizaje Federado + Computación Segura Multi-Parte permite desarrollar proyectos basados en aprendizaje automático sin perder el alineamiento con los estándares legales, corporativos y éticos más exigentes para la preservación de la privacidad.
La existencia de estos enfoques o estrategias no significa que el debate sobre la privacidad y la IA este superado, pero sí demuestra que la comunidad investigadora dispone de herramientas para un uso ético y seguro de las metodologías de aprendizaje automático.
Lecturas recomendadas
Rieke, N., Hancox, J., Li, W. et al. The future of digital health with federated learning. npj Digit. Med. 3, 119 (2020). https://doi.org/10.1038/s41746-020-00323-1
Li Li, Yuxi Fan, Mike Tse, Kuo-Yi Lin, A review of applications in federated learning, Computers & Industrial Engineering, Volume 149, 2020, 106854, ISSN 0360-8352, https://doi.org/10.1016/j.cie.2020.106854
Xu, J., Glicksberg, B.S., Su, C. et al. Federated Learning for Healthcare Informatics. J Healthc Inform Res 5, 1–19 (2021). https://doi.org/10.1007/s41666-020-00082-4