La Ciencia de Datos está en auge pero la infraestructura sigue siendo un desafío.

Volver

La Ciencia de Datos es la disciplina del momento. La mayoría de las empresas a nivel mundial siguen realizando grandes esfuerzos por desarrollar soluciones con base en analítica, con el fin de tomar decisiones más efectivas.

La revolución de la Ciencia de Datos ha creado fenómenos interesantes. En Europa, carreras que hace 20 años contaban con una población de estudiantes bajísima, se han convertido actualmente en las disciplinas más demandadas. Matemáticas y Física son las carreras más demandadas en las universidades españolas, durante los últimos 4 años. 

Parte de esta transformación conecta con las nuevas necesidades del mercado laboral. En Europa, Estados Unidos y América Latina, los profesionales relacionados a la Ciencia de Datos registran pleno empleo. Además, se posicionan entre los mejores remunerados. 

Para conocer más sobre esta realidad y entender sus causas y proyecciones, hemos conversado con Nicolás Reyes Huerta, data scientist en Falabella Retail y miembro del equipo de BC Tecnología

P: Háblanos un poco sobre los inicios de tu carrera profesional

NRH: Escogí estudiar Ingeniería Industrial porque me interesaba mucho todo lo relacionado a análisis de comportamiento, especialmente en el entorno médico. 

Asimismo, me interesaba el desarrollo de modelos matemáticos aplicados. Siempre me he sentido atraído por adquirir conocimientos y ponerlos en práctica de forma rápida. 

Parte de ese instinto fue el que me llevó a desarrollar una tesis con foco 100% pragmático. Quería desarrollar un proyecto aplicado que pudiera responder a una problemática real y palpable. 

Me propuse trabajar con Bomberos de Santiago para este fin. Creé un modelo de localización de cuarteles de bomberos y asignación de flota. El objetivo de este proyecto fue determinar si la entonces localización y distribución, tanto de los cuarteles como de la flota, era la adecuada

según la demanda de ese entonces. 

El proceso de desarrollo fue muy interesante. Tuve que realizar entrevistas, hablar con muchas personas relacionadas con la institución e ir entendiendo cómo operaban, qué errores cometían, cuáles eran sus fortalezas y necesidades. 

Mi investigación se transformó en dos publicaciones científicas internacionales: 

  • A fleet management model for the Santiago Fire Department  
  • A reconfiguration of fire station and fleet locations for the Santiago Fire Department.

P: ¿Qué vino después de la universidad: cómo se traduce todo ese know how al mercado laboral?

NRH: Cuando salí de la universidad, entré a trabajar en BBVA. Pertenecía al área de Seguimiento, me encargaba de analizar el funcionamiento de diferentes departamentos, por ejemplo, Admisión. También nos enfocábamos mucho en Cobranza, pero desde una mirada macro, los grandes números y perfiles. 

Durante esa etapa, comenzó mi inquietud por la Ciencia de Datos; sentía la necesidad de encontrar herramientas que me permitieran hacer un mejor trabajo y, a la par, ir automatizando varias funciones. Quería ser más eficiente. 

Comencé a investigar y conecté con los nacientes términos de ‘business intelligence’ y ‘data-driven’ (entre compañeros de trabajo, nos mofábamos un poco de nuestras capacidades. Más que data mining, pensábamos que estábamos haciendo guata mining). 

P: ¿Cómo trabajaste tu cambio de mindset? 

NRH: Primero, hice una maestría en Data Science en la Universidad de Essex. Fue un impulso tremendo. 

Durante la maestría me di cuenta que no solo quería aplicar Ciencia de Datos a temas de clientes; las posibilidades eran infinitas. Entre todo el universo de posibilidades, me incliné por la creación de modelos de clasificación de imágenes. De hecho, en este terreno se centra mi trabajo en Falabella Retail. 

Actualmente, estoy impulsando un sistema de recomendación mezclado con imágenes. En vez de que las sugerencias sean unidireccionales (si un usuario está comprando zapatos, se le muestran otras opciones de zapatos), generar una experiencia más amplia y valiosa, una recomendación más avanzada: si un usuario está comprando zapatos, sugerirle un pantalón, una camisa o un polerón que combine con el calzado. 

Al final, es una forma de brindar valor, destacar y generar una ventaja competitiva. 

P: ¿Qué hace específicamente un data scientist?

NRH: Un data scientist se dedica a la interpretación de los datos. 

Un data scientist es un explorador. La organización puede enviarlo a la selva a descubrir si hay oro. Para ello, se pondrá a investigar y a desarrollar un modelo que le permita responder la pregunta. Quizás sí descubre que hay oro o quizás no. Quizás no hay oro sino cobre. Lo importante es que ya se cuenta con información validada y la empresa podrá tomar decisiones aterrizadas y eficientes a partir de ella. 

La Ciencia de Datos consiste en validar hipótesis clave para los negocios. Esta disciplina nació porque quedó demostrado que ya no podíamos seguir haciendo guata mining, es decir, todo manual, sin previsiones y dejando las grandes decisiones a la intuición. El data scientist es un profesional que debe darle interpretabilidad a la información, de tal forma que los datos puedan contar una historia y las decisiones que se tomen sean informadas y efectivas. 

P: ¿Cuál es la competencia más difícil de desarrollar para un data scientist?

NRH: Por un lado, un data scientist tiene que saber programar. Es una habilidad base para poder acceder a los sistemas de información, procesar, graficar y darle significado a los datos. 

Comunicar es otra habilidad fundamental. Un data scientist puede ser muy bueno programando y modelando, pero si no sabe cómo promover sus ideas, si no sabe con quién tiene que hablar y cómo alinear su propuesta con las necesidades del negocio, probablemente, todo el trabajo técnico que realice se pierda.

P: ¿Qué piensas de las plataformas de soluciones de ML y Big Data automatizadas? 

NRH: el trabajo de un data scientist es optimizar cosas. Al generar un modelo, lo que se busca es mejorar la forma en la que se procesa la información. Las plataformas de analítica avanzada también tienen como objetivo optimizar procesos, pero siempre habrá rincones, especificidades a las que no podrán llegar. Cada caso de uso es una historia autónoma. 

Estas plataformas operan de forma más general. Yo me dedico al desarrollo de modelos de clasificación de imágenes y he probado algunas herramientas relacionadas, creadas por Microsoft, IBM o Google, y la verdad es que no me han terminado de convencer. Además, los costos asociados son bastante altos. 

No cualquier empresa puede acceder a esas licencias. 

P: La Ciencia de Datos en Chile. ¿Qué tanto se adopta y cómo lo están haciendo las empresas nacionales en esta disciplina?

NRH: considero que hay empresas que están avanzando muy rápido y otras que están al debe. 

En BCI, por ejemplo, se están tomando muy en serio el tema de la Ciencia de Datos. Poseen una infraestructura sólida para disponer de los datos. También están apostando a una cultura data-driven. 

No obstante, existen casos contrarios; empresas que carecen de infraestructura, conocimientos e, incluso, de los sistemas más básicos. Si un data scientist llega a una empresa y ve que no usan Python ni R, probablemente, dure poco tiempo allí. Se va a desanimar totalmente. Por tal razón, es crítico que las empresas, si quieren automatizar y optimizar procesos, generen las bases (infraestructura, cultura, talento) para canalizar dichos procesos.  

P: ¿Cuál sería el mejor camino para la formación en el mundo de la Ciencia de Datos?

NRH: en el mundo TI las personas deben ser bastante autodidactas. Nunca antes habían existido tantas fuentes de formación; en la web se puede encontrar todo. 

Yo no dejo de buscar cosas en internet. Cuando estoy desarrollando una solución y tengo una duda voy a Google y comienzo a investigar. Siempre hay alguien que esté trabajando en algo parecido o que ha desarrollado una pequeña parte que igual me puede servir para comenzar a implementar. Ir probando y aprendiendo. Superar el obstáculo. 

Quien quiera entrar en Ciencia de Datos debe identificar un tema, posicionarlo en alguna área específica (aplicación) y comenzar a leer. 

Se puede partir tranquilamente con un libro y luego ir avanzando. Plataformas como Data Camp cuentan con programas de formación muy potentes. Por menos de 13 dólares al mes, las personas pueden aprender sobre Python, R, SQL, Tableau, ingeniería de datos y mucho más.  

Son excelentes puntos de partida. También existen muchos tutoriales. En Youtube abundan las master clases sobre estos temas. 

El mundo de la Ciencia de Datos es tan interesante que lo más difícil es comenzar. A medida que las personas van leyendo, los propios algoritmos y sistemas de recomendación irán sugiriendo nuevos materiales relacionados.  

P: ¿Hacia dónde te gustaría avanzar profesionalmente? 

NRH: Me gusta la clasificación de imágenes. Creo que seguiré probando soluciones en este campo. La posibilidad de combinar imágenes con sistemas de recomendación me llama mucho la atención. Es una posibilidad de expandir y mejorar la experiencia de usuario.

En el mediano plazo, quisiera liderar un equipo de analítica; me gustaría ayudar a las empresas en este proceso de construir la infraestructura necesaria para desplegar todo el potencial de la Ciencia de Datos. 

Para mí la infraestructura es crítica. Una necesidad básica de un data scientist es la de contar con la capacidad de acceder a la información; sin eso, no hay mucho que hacer. Después de allí, ya se puede pasar a nutrir una cultura data-driven, atraer el talento e ir preparando el terreno para crear las nuevas soluciones. 

Mi idea es moverme en esa línea.