En el año 2006, el volumen de datos mundial ocupaba unos 0,16 zettabytes. Una gran cantidad, algo equivalente a dos mil millones de DVD, teniendo en cuenta que cada uno de ellos tiene de media unos cinco gigabytes. Pero la capacidad computacional cada vez va más rápido, casi duplicándose de dos en dos años. En el 2015, el volumen de datos mundial subió a los ocho zettabytes, pero para el año 2020 se espera llegar a los 40. Para analizar tal cantidad de información se necesitan personas que puedan realizar este trabajo; se necesitan data scientist.
Es por eso que Vass ha organizado en el Impact Hub de Madrid una jornada en la que Borja Torres, CEO de Next Best Target (NBT), startup acelerada por la compañía digital, ha explicado cómo funciona el mundo del data science, un sector del que se habla mucho pero del que todavía no se conoce todo. De hecho, la denominada por el New York Times como “la profesión más sexy del mundo” brilla por su ausencia.
No hace tanto tiempo, un solo gigabyte costaba 100.000 dólares. Y aunque ya hay una reducción exponencial del coste de almacenamiento, se necesitan nuevos perfiles. Hay facilidad para guardar datos pero, ¿para analizarlos?
“Ahora se puede tener todos los datos que se quieran. Los data scientist pueden sacar provecho de estos y así convertirlos en conocimiento. Antes se sabía de matemáticas, de estadística, y con estas dos disciplinas había que trabajar con un gran volumen de datos, aunque ahora, si bien se han mejorado las capacidades, hay problemas en las empresas. Se necesita este tipo de trabajadores, que son como los unicornios: todo el mundo sabe cómo son, pero nadie los ha visto”, ha explicado.
Y eso que “no es tan difícil”. Es decir, hay herramientas complejas destinadas a realizar análisis complicados, pero también se puede optar por lo fácil. Como la herramienta Kaggle, donde Torres ha mostrado a todos los asistentes sus competencias, entre las que se encuentran las pruebas a empresas. De todas ellas destaca Titanic, donde en su data dictionary están todos los pasajeros, con sus edades, sexo, precio de billetes, etc. “A partir de un conjunto de datos de estos antiguos viajeros se pueden sacar condiciones y mostrar hipótesis de otros viajes, actuales, y de otros turistas”.
Un simple Excel puede marcar la diferencia entre empresas. Un solo archivo de celdas es capaz de “entrenar” algoritmos. Y todo lo que se puede descubrir de datos del Titanic se puede extrapolar a otros sectores: fintech, aseguradoras, la administración pública. ¿Qué clientes se van a llevar más del 20% de sus ahorros a otra entidad? ¿Qué personas tienen riesgo de exclusión social? ¿Qué clientes van a impagar la cuota de su crédito en los próximos tres meses? Todas estas preguntas, que pueden posicionar mucho más alto a competidores innovadores, solo necesitan de un data scientist que sepa sacar provecho de ellas.