¿Qué es un científico de datos?

octubre 28, 2019

Cuando escuchamos de ciencia de datos, Big Data, Analytics, Inteligencia Artificial, Machine Learning, resulta confuso que significa exactamente cada termino. Y no ayuda cuando se los unifica como IA.

Entonces, ¿qué significan estos términos? ¿En que se superponen y que los diferencia? Y por, sobre todo, ¿en que sirven a la empresa? La respuesta más fácil es que se refieren a mucho de los métodos analíticos disponibles para los científicos de datos. La Inteligencia artificial es el paraguas para esta colección de métodos analíticos. Para resolver problemas de decisión práctica, el científico da datos utiliza una combinación de estos métodos. En este artículo, brindamos una visión general de los métodos más importantes, los relacionamos entre ellos y queda demostrado que las soluciones no tienen solo una herramienta.

El uso de métodos analíticos no es nuevo. Durante la Segunda Guerra Mundial, Gran Bretaña involucró a mil personas en el control operacional: “un método científico de brindar a los departamentos ejecutivos con una base cuantitativa para las decisiones relacionadas con las operaciones bajo su control”. Desde entonces, y evidentemente, una vez aparecida la computadora los métodos analíticos han ido creciendo enormemente. En un ambiente de crecimiento tan veloz, las distintas comunidades de investigación crean sus propios nombres, y eso explica parcialmente el actual caos en la terminología.

Los científicos de datos comienzan cada proyecto hablando con los usuarios para entender el tema en cuestión. Luego exploran los datos disponibles para el Proyecto, y esto generalmente genera preguntas de follow up para debatir con los usuarios. Luego con herramientas de Business Intelligence se apoya el proyecto los datos pueden estar disponibles en un almacén de datos, y con herramientas analíticas como cuadros, reportes y tableros se logra contar con un soporté visual para los debates.

Una herramienta de análisis de datos es la estadística, y todos intuitivamente la aplican en forma diaria. Al hacer una observación, ya sea de la cantidad de tráfico en camino al trabajo o al tomar un café, automáticamente uno observa si hay algo fuera de lo normal. La estadística brinda la base matemática para determinar como funcionan los datos y cuando son fuera de lo normal. Los datos excepcionales pueden indicar errores en el ingreso de los datos o en la integración del software, pero también indican amenazas u oportunidades. Una solución robusta para la ciencia de los datos debe detectar datos fuera de lo común y gestionarlos adecuadamente.

Existen muchas formas diferentes para ayudar a los humanos en la toma de decisiones. Por ejemplo, cuando preguntamos al software de navegación que encuentre la mejor ruta a destino, estamos pidiendo que resuelvan un problema de optimización matemática: en una red de rutas, se debe encontrar la ruta o más cerca (o la más rápida). Eso no es solo fijarse en la base de datos, el software corre un algoritmo que evalúa las rutas posibles y luego encuentra la ruta optima según el objetico especificado (la más rápida o la más corta).

Debido a que la velocidad en cada segmento de la ruta es un dato importante, la información del GPS de los teléfonos inteligentes se usa para estimar la velocidad actual de cada segmento. Los métodos estadísticos identifican los datos inusuales: un auto descompuesto en el costado de un camino con tráfico fluido, es una excepción al calcular la velocidad y debe ignorarse.

Una vez que el software de navegación encuentra la ruta optima, calcula la hora estimada de llegada (ETA) y generalmente es bastante confiable, con la excepción de interrupciones no anticipadas como un nuevo accidente.

Peor no todos los procesos pueden planificarse en forma tan confiable. Consideremos un almacén en un hospital, donde las enfermeras usan el material necesario para tratar a los pacientes. Un ítem fuera de stock puede poner en riesgo la salud del paciente, pero mantener un stock en excesivo es muy costoso. El hospital debe hacer un estudio para tener un inventario sin excesos sin que peligre la salud de los pacientes.

En este ambiente, la demanda diaria de cada ítem varia considerablemente y los científicos de datos utilizan estadísticas para entender esta variabilidad. Luego utilizan la optimización matemática para calcular que nivel del inventario minimiza los costos, pero garantiza que hay un stock mínimo que evita los riesgos. En general se usa una Simulación para evaluar como funcionan la falta de stock bajos distintos escenarios. Finalmente, las herramientas de Business Intelligence visualizan los resultados para los usuarios finales.

Muchos procesos logísticos y financieros han sido diseñados por humanos y por lo tanto, se entienden bien, Para dichos procesos, el científico de datos puede definir y resolver el modelo matemático para optimizar las metas definidas.

Como otro ejemplo, una fábrica necesita un programa de producción que respeta la capacidad de los recursos y optimice la entrega a tiempo de las ordenes de los clientes. Normalmente, existen millones de opciones teóricas (programa de producción, rutas a un destino) y algoritmos de optimización matemática para evaluar estas opciones en forma estructurada para encontrar una solución óptima.

La caja de herramientas del científico de datos incluye muchos algoritmos de este tipo, alguno inspirados por la naturaleza. Por ejemplo, Algoritmos Evolucionarios crean un grupo de soluciones razonables y las combinan para crear nuevas soluciones y luego se eliminan a las peores. Luego de realizar este proceso varias veces se va evolucionando y contando con mejores soluciones.

Los métodos de optimización y simulación permiten el análisis ”que ocurre si”, virtualmente haciendo muchos cambios, es decir cambiando los datos de ingreso y usando nuevamente los algoritmos. De esta manera, la fábrica puede virtualmente agregar o eliminar una máquina, y evaluar el impacto en la programación resultante; el hospital puede evaluar los costos y el riesgo del paciente, si el almacén se llena semanalmente en lugar de en forma diaria, y las autoridades de tráfico pueden virtualmente cerrar una ruta o segmento de ruta y estudiar el impacto en el flujo del tráfico. Como estos métodos son regidos por modelos que describen el negocio, pueden analizar escenarios imaginarios para los cuales no existen datos históricos disponibles.

La optimización y la simulación se mueven por modelos, pero el Machine Learning con datos. Como no requiere que un humano desarrolle un modelo matemático del proceso del negocio, Machine Learning puede utilizarse si el proceso no se entiende claramente. Los algoritmos analizan los datos para aprender estructuras y patrones del negocio. Este proceso se llama capacitación. Este conocimiento apoya las decisiones y predicciones futuras. También identifica dos debilidades importantes: el machine learning no puede utilizarse para soportar nuevos procesos o procesos imaginarios “que ocurre si” debido a la falta de datos históricos, y no puede soportar un proceso que cambia rápidamente porque los patrones de los datos históricos no son representativos del futuro.

Como ejemplo, supongamos que contamos con una gran variedad de oportunidades de ventas, con distintos datos: como cliente, equipo de ventas, fecha de creación de la oportunidad, fechas de reunión con los clientes, producto ofrecido, precio y resultado (ganado/perdido). Como no podemos saber el proceso exacto porque el cliente comprará o dejará de comprar, no se puede formular el problema como una optimización matemática. Sin embargo, se pueden encontrar patrones en los datos de oportunidades históricas y predecir si la nueva oportunidad se ganará o no.

El científico de datos comienza con los métodos estadísticos para detector y remover los datos históricos extraños. Este proceso de limpieza es sumamente importante, porque los datos errados arruinan los patrones y disminuyen enormemente la usabilidad del machine learning. El próximo paso es preparar los datos por medio de la funcionalidad de ingeniería.

Volviendo al ejemplo de las oportunidades de ventas, el científico de datos sabe que la fecha de creación y del cierre no necesariamente sean significativas para la toma de decisiones futuras, pero sin embargo, la Antigüedad es decir el tiempo entre la fecha de creación y el cierre si es muy relevante. Este proceso de ingeniería es muy importante pra obtener soluciones de alta calidad. Cuando un proveedor ve lo fácil que es hacer el “drag and drop” con los dados de la herramienta de Machine Learning, generalmente no consideran que el científico de datos paso horas para preparar los datos.

Existen muchos algoritmos diferentes de Machine Learning, y uno de los más simples es el Árbol de la Decisión. Una vez que se establece el grupo de datos, la capacitación de un árbol así es un proceso automático: un algoritmo identifica el mejor grupo de reglas para la decisión para capturar patrones en los datos, y que sea lo suficientemente genérico para poder aplicarse a datos futuros. Para predecir el resultado de una nueva oportunidad de ventas, el algoritmo sigue las reglas del árbol de decisión ya entrenado. Termina en un nodo (un segmento de oportunidades históricos similares), y si el 80% de esas oportunidades históricas se ganan, luego predice el 80% de probabilidad para ganar una nueva oportunidad.

Loa Arboles de Decisión son fáciles de entender y visualizar. Los usuarios pueden interpretar el árbol de decisión y luego entender porque una predicción especifica se ha realizado. Sin embargo, los arboles de decisión son frecuentemente demasiado simples para lograr predicciones precisas. Los algoritmos más avanzados del machine learning pueden capturar más patrones en los datos y por ende, brindar decisiones más precisas.

Resumiendo, los científicos de datos, utilizan una rica colección de métodos analíticos que incluyen Business Intelligence, Estadísticas, Simulación, Optimización Matemática y Machine Learning. Todos los métodos sobresalen en alguna tarea específica, pero ninguno resuelve todos los problemas por sí solo. Para desarrollar soluciones de decisiones en la vida real, el científico de datos trabaja con los usuarios para investigar el problema y los datos disponibles y luego selecciona e implementa la combinación de los métodos que mejor se adapta a las necesidades y al presupuesto.

Archivado bajo
  • Trends
Producto
  • BI
  • Birst
Región
  • LATAM

Contáctenos



Pronto nos pondremos en contacto con usted.

Or connect via: Linkedin