Gestión de datos y Quentin Tarantino Vol. 2: una visión de equipo

¿Es un analista? ¿Es un programador?… ¡Es un data scientist!

K Fund es un fondo de venture capital que vive por y para los emprendedores. Queremos impulsar la evolución del ecosistema de startups español invirtiendo en empresas digitales y tecnológicas.

Si tienes un proyecto interesante que encaja con nuestros criterios de inversión y quieres que le echemos un vistazo, puedes ponerte en contacto a través de nuestra web.

Por Ignacio Larrú:

En mi post anterior ‘Gestión de Datos y Quentin Tarantino’, iniciamos el camino de la gestión de datos comentando las distintas formas que observamos en las que se organizaba la gestión del dato dentro en una startup.

Después de comentar la estructura, hoy quiero valerme de otra película de Quentin, Reservoir Dogs, para comentar aspectos relacionados con la composición de los equipos de Data Science, pues una de las tendencias que vemos en las startups es la evolución del hombre orquesta (en terminología Reservoir Dog sería Mr. Arcoiris, pues aglutina todos los distintos perfiles asociados a los colores) a un equipo multi funcional.

El hombre orquesta que se instala y mantiene el cluster de Hadoop por la mañanas, mientras luego piensa en los algoritmos de proceso por la tarde (siempre, ojo, manteniendo la aportación de valor empresarial, nada de hacer malabares ingenieriles estériles) y ya más tarde por la noche se encarga del reporting y demás temas mundanos puede sobrevivir al principio, pero a medida que la compañía crezca empezarán a surgir las distintas funciones dentro del departamento:

Mr. White — Infraestructura

No es posible resumir en este post la complejidad relativa al número de tecnologías y herramientas disponibles para el tratamiento de datos, desde Kafka/Storm a las bases New SQL pasando por el eterno dilema Hadoop/Spark. Por todo ello es necesario tener una persona en tu equipo encargada de instalar y mantener todas estas partes del sistema y asegurarse que cumplen con los SLA.

Descargar al equipo de análisis de estas tareas suele provocar un súbito incremento en el número de iniciativas (todo el mundo es más creativo cuando no tiene que pegarse con la instalación…)

Mr. Orange — Data Scientist

Quizás el perfil con mayor cantidad de hype desde el community manager o el full stack developer.

¿Que es exactamente un data scientist? Es una de las preguntas más recurrentes en mis reuniones con startups. En mi opinión, la dificultad para definir este puesto proviene del hecho que aglutina varios roles anteriormente desarrollados por distintas personas.

  • Analiza datos: como el perfil de analista de datos clásico, pero este perfil solía realizar análisis a pasado, más cercanos al reporting que a la investigación.
  • Analiza aspectos relativos al negocio: como el perfil de business analyst que solía realizar labores más cercanas a la consultoría interna que al análisis estadístico.
  • Se dedica a la investigación exploratoria: como la función de investigación tradicional pero con un enfoque más pragmático.

Como ninguna de estas etiquetas podía ser aplicada a una nueva manera de utilizar los datos para la toma de decisiones sobre producto y clientes, se acuñó el término Data Scientist para definir a este nuevo perfil.

¿Por qué es tan dificil encontrar estos perfiles en el mercado?

Por un lado, porque al ser perfiles de nueva creación ha tenido que pasar un tiempo hasta que la oferta se adecúa a la demanda y por eso se ha creado la sensación de escasez. Este punto poco a poco va solucionándose con programas educativos específicos y con el reciclaje de otros perfiles de funciones adyacentes. Huelga comentar los requerimientos técnicos para este puesto, (programación, análisis estadístico de datos, conocimiento de diseño de experimentos para validar relaciones causales vs. correlaciones, etc…) pues son muchas y muy variadas.

Lo que hace de este puesto algo tan difícil de encontrar es que unido a estas habilidades tenemos que añadir habilidades mucho más difíciles de enseñar, como son la curiosidad (al final la mayoría de los descubrimientos e ideas vienen de la curiosidad por encontrar las relaciones en los datos) y la capacidad para comunicar los resultados de los análisis al resto de la compañía. Esta mezcla tan poco habitual de habilidades (y que yo desde aquí animo a los perfiles más técnicos a que desarrollen)

Mr. Pink — Programación

Si el perfil descrito anteriormente para el data scientist ya es complicado de encontrar, si además les tenemos la mayoría del día tirando código no nos van a durar mucho.

Es por esta razón que cada vez vemos con mayor frecuencia que el perfil de Data Science se focaliza en el desarrollo de los algoritmos y modelos y luego estos modelos son codificados por un desarrollador full time. Como veíamos antes con la infraestructura, puede resultar más eficiente y escalable descargar de esta responsabilidad y tener perfiles con mayor especialización para conseguir mayor capacidad de desarrollo de experimentos y análisis

Para mi próximo post os dejo las 10 preguntas que yo haría antes de contratar a un Data Scientist…