El grupo de investigación SoftLab de la UC3M ha implementado un sistema completamente autónomo para el subtitulado automático y en tiempo real, mediante técnicas de inteligencia artificial y machine learning. Ángel García Crespo, director de SoftLab, profesor del Departamento de Informática y subdirector del Instituto de Desarrollo Tecnológico y Promoción de la Innovación «Pedro Juan de Lastanosa» de la UC3M, explica a Innovaspain que su grupo de investigación trabaja desde hace tiempo en mejorar la accesibilidad de personas sordas y ciegas, por lo que conocen sus problemas de primera mano y las posibilidades de la ingeniería para mejorar su calidad de vida. Entre estas dificultades se encuentra seguir el tiempo real informativos o conferencias con un subtitulado óptimo.
Hasta la fecha, lo más habitual ha sido el empleo de dos técnicas: rehablado y estenotipia. “Ambas tienen el gran inconveniente de necesitar a personas para funcionar, lo que incrementa los costes del servicio. Además, la calidad del resultado es variable”, apunta García Crespo. Para entender su propuesta, el investigador echa la vista 3 años atrás, momento en el que considera que los sistemas de reconocimiento de voz de las grandes -Google, Amazon, Microsoft…- empezaron a mejorar a velocidad de vértigo. “En nuestra innovación, unimos lo mejor de varios reconocedores de voz. La complejidad fue trasladar el sistema al formato televisivo con carácter universal, válido también para emisiones vía web”.
Simplificar las complejidades
El software desarrollado por el SoftLab realiza la transcripción de voz a texto y la envía al sistema de insertado de subtítulos que RTVE tiene en Torrespaña. Esta, a su vez, deriva la información a cada uno de sus centros para que las Comunidades Autónomas puedan ver los subtítulos correspondientes en función del contenido audiovisual que estén emitiendo.
“La arquitectura soporta un gran número de generación y transmisión de subtítulos simultáneos sin afectar a la calidad o velocidad del subtítulo de cada emisión. Tener 17 rehabladores o estenotipistas es inviable a nivel logístico. Son informativos que duran entre 15 y 30 minutos, que no siempre empiezan a una hora exacta (y menos durante la pandemia), complejidades añadidas que nos han obligado a ir un poco más lejos”, dice García Crespo.
El proceso de subtitulado retroalimenta al reconocedor, de modo que cuantas más emisiones genere el sistema de subtítulos, más preciso será en las futuras emisiones “Es impresionante lo que el sistema aprende cada día”, añade García Crespo. “Además de signos de puntuación o de audios y palabras clave que incorporamos a diario, el software incluye una importante cantidad de términos específicos de cada territorio -municipios, personalidades- con lo que evitamos los errores comunes de otras alternativas”.
El sistema de la UC3M realiza todo el proceso en la nube y no necesita prácticamente intervención humana, infraestructura o ubicación concreta. “El sistema analiza los resultados en tiempo real de varios reconocedores de voz y construye la transcripción final con resultados superiores al resultado de forma individual de cada uno de ellos”, apunta García Crespo.
Exportar conocimiento y mejorar la independencia de personas sordociegas
Este software respeta las normas de subtitulado y escribe en una o dos líneas un máximo de 37 caracteres, tal y como exige la normativa. García Crespo y su equipo han exportado su solución más allá de nuestras fronteras. En Estados Unidos ofrecen servicios de subtitulado de TV y en Brasil esta tecnología ha sido aplicada en distintas conferencias con una acogida más que positiva.
El siguiente paso es un sistema también simultáneo que envíe la información de los subtítulos a líneas Braille en smartphones o tablets de personas sordociegas. “Se trata de un colectivo que dejaría de depender de un tercero que les resuma la actualidad. Mejoraría su independencia”. Por el momento están llevando a cabo un piloto con tres centros territoriales, y la idea también ha cruzado el Atlántico rumbo Estados Unidos.