La agilidad se une a la ciencia de datos: enfoques prometedores para proyectos de DS

¿Inteligencia artificial (IA), aprendizaje automático (AM) y aprendizaje profundo (AD), analítica de datos o análisis de datos? ¿Y en qué consiste la agilidad? Esta entrada del blog aporta claridad. La agilidad y la ciencia de datos tienen algo en común: ambas disciplinas han adquirido una enorme importancia en los últimos años. El uso de métodos y marcos ágiles puede ser un factor de éxito decisivo para las empresas. En esta y las siguientes entradas del blog, nos centraremos en la cuestión de si los enfoques ágiles pueden integrarse en el mundo de la ciencia de datos, y cómo. Antes, sin embargo, le daremos una visión general de los fundamentos importantes en torno a la ciencia de datos y la agilidad.

Diferenciar la ciencia de datos del desarrollo de software

La Ciencia de Datos no debe equipararse al puro desarrollo de software. El desarrollo de software implica la creación de aplicaciones o sistemas que cumplan requisitos específicos. Se trata de programar un código que se ejecuta y se mantiene en diferentes plataformas. La ciencia de datos, en cambio, se centra en el análisis de datos para obtener información y modelar patrones. Esto requiere una forma experimental de trabajar porque no se pueden hacer suposiciones de antemano sobre los datos y los posibles resultados. El despliegue de programas informáticos y modelos de aprendizaje automático también debe considerarse de forma diferenciada, ya que los programas informáticos son en gran medida estáticos, mientras que los modelos de aprendizaje automático deben cambiar continuamente y aprender nuevos datos. En última instancia, la ciencia de datos y la minería de datos están más cerca de la investigación y el desarrollo que de la ingeniería. Esto también puede observarse en CRISP-DM, ya que se basa en la exploración de nuevos enfoques más que en el diseño de programas informáticos. Si ahora te estás preguntando qué es exactamente CRISP-DM, puedes esperar a los párrafos siguientes.

Delimitar los términos de DS

Antes de sumergirnos en los detalles del desarrollo ágil de software en Ciencia de Datos, es importante delinear los diferentes términos. La Inteligencia Artificial, el Aprendizaje Automático, el Aprendizaje Profundo, la Analítica de Datos y el Análisis de Datos están estrechamente relacionados, pero cada uno tiene sus propias características y aplicaciones. Por ello, haremos un breve repaso de cada una de estas disciplinas y te mostraremos cómo entenderlas dentro de la Ciencia de Datos.

Ciencia de datos

La ciencia de datos se define como una ciencia aplicada interdisciplinar. El objetivo es obtener conocimientos a partir de los datos para apoyar los procesos de toma de decisiones u optimizar los procesos empresariales. La Ciencia de Datos se define como el estudio científico de la creación, validación y transformación de datos para obtener conocimiento a partir de ellos. Además, la Ciencia de Datos utiliza principios científicos para generar significado a partir de los datos y aplica el aprendizaje automático y los algoritmos para extraer y gestionar información de grandes conjuntos de datos.

Según la definición, un Científico de Datos utiliza métodos científicos de áreas de las matemáticas, la estadística, la estocástica y la informática. Entre sus objetivos, además de generar conocimiento a partir de los datos, están la derivación de recomendaciones para la acción, el apoyo a la toma de decisiones y la optimización y automatización de procesos empresariales. Además, se consigue la creación de previsiones y predicciones de acontecimientos futuros.

Inteligencia artificial

El campo de la inteligencia artificial (IA) es muy diverso y altamente interdisciplinar. Existen diferentes definiciones del término IA (o también llamado a menudo AI). Lo que las definiciones tienen en común es que la IA trata del desarrollo de programas informáticos o máquinas cuyo comportamiento puede describirse como "inteligente".

Existe un fuerte vínculo entre los términos Ciencia de Datos e IA. La ciencia de datos se considera un campo de investigación interdisciplinar que utiliza diversos procesos y métodos para generar nuevos conocimientos a partir de los datos. Los procesos incluyen la preparación, el análisis, la visualización y la predicción de datos. La diferencia es que la IA se centra en la creación de modelos. Estos modelos pueden utilizarse en proyectos de ciencia de datos para responder a preguntas concretas.

Aprendizaje automático y aprendizaje profundo

El aprendizaje automático y su forma especial, el aprendizaje profundo, son disciplinas que pertenecen a la IA. El aprendizaje automático se refiere a la generación artificial de conocimiento a partir de la experiencia, especialmente de datos de entrenamiento existentes. El aprendizaje automático deriva patrones y los describe matemáticamente utilizando una variedad de métodos en las áreas del aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje por refuerzo. Con ellos es posible aprender modelos y posibilitar la evaluación y el procesamiento de sistemas complejos como el lenguaje natural o el reconocimiento de imágenes.

Análisis de datos

La analítica de datos se considera un subcampo de la ciencia de datos, que implica la recopilación, el almacenamiento, el procesamiento y el análisis de datos para obtener de ellos conocimientos estratégicos y empresariales. El análisis de datos se ocupa de generar ideas a partir de datos en forma descriptiva. Data Science y Data Analytics comparten métodos y procesos, aunque existen otros métodos complementarios en Data Science.

El análisis de datos debe entenderse como una subcategoría de la analítica de datos e incluye el análisis de conjuntos de datos individuales para obtener información a partir de ellos. La diferencia entre la analítica de datos y el análisis de datos queda clara a través de sus objetivos. Mientras que en el campo del análisis de datos se obtienen conocimientos a partir de datos históricos, que se interpretan y visualizan, el análisis de datos se centra más en la predicción de acontecimientos futuros y en la formulación de recomendaciones para la acción.

Conocer los métodos de DS

La Ciencia de Datos requiere un enfoque sistemático y un proceso claro en el que se estructuren las tareas y se separen claramente las fases. Dicho proceso es necesario para proporcionar a los Científicos de Datos y a otras partes interesadas un marco de actuación para estructurar las tareas de análisis de datos y abordar los posibles retos. CRISP-DM y CRISP-ML(Q) son modelos de proceso habituales en el sector de la ciencia de datos.

Proceso Estándar Interprofesional para la Extracción de Datos - CRISP-DM

Para desarrollar patrones y modelos a partir de grandes cantidades de datos, de modo que posteriormente se pueda extraer conocimiento de los mismos, se requiere un proceso sistemático dividido en fases. El modelo más utilizado para los proyectos de ciencia de datos es CRISP-DM.

La minería de datos (es decir, el reconocimiento de patrones de datos) se considera un subcampo de la ciencia de datos e incluye métodos estadísticos y algoritmos para extraer conocimientos de los datos. El enfoque CRISP-DM ha contribuido significativamente a establecer enfoques iterativos y ágiles en los proyectos de ciencia de datos.

Fases CRISP-DM, fuente Haneke et al., 2021: 9

Fases de CRISP-DM

CRISP-DM se divide en seis fases, siendo el enfoque un proceso iterativo y cíclico:

Comprensión de la empresa: En esta fase, se crea la comprensión del negocio y se identifican el estado actual y los objetivos del proyecto.
Comprensión de los datos: se trata de identificar y comprender los datos y las fuentes de datos. Esto incluye realizar un análisis exploratorio de los datos.
Preparación de los datos: la preparación de los datos es importante para utilizarlos en el entrenamiento de los modelos.
Modelización: en la fase de modelización, el modelo aprende utilizando algoritmos de minería de datos como los análisis de clasificación, cluster o regresión.
Evaluación: en esta fase se evalúan los resultados del modelo.
Implantación: en esta fase se ponen en práctica los resultados y se controlan las condiciones de funcionamiento.

Proceso Estándar Interprofesional para el Aprendizaje Automático - CRISP-ML(Q)

El CRISP-ML(Q) se puede considerar una extensión del enfoque CRISP-DM y garantiza que los principios de las Operaciones de Aprendizaje Automático (MLOps) se cumplan y se implementen. MLOps es un proceso iterativo que se considera un componente importante para el éxito de los proyectos de ciencia de datos. Con MLOps, se genera valor en los proyectos de ciencia de datos, IA y aprendizaje automático y se minimizan los riesgos potenciales. El objetivo es estandarizar el ciclo de vida de los modelos de aprendizaje automático. El enfoque CRISP-ML(Q) está diseñado para el desarrollo de aplicaciones en las que se utiliza un modelo de aprendizaje automático. CRISP-ML(Q), al igual que CRISP-DM, es un modelo iterativo que consta de varias fases.

La implantación de programas informáticos y de modelos de aprendizaje automático debe considerarse de forma diferenciada, ya que los programas informáticos son en gran medida estáticos, mientras que los modelos de aprendizaje automático cambian continuamente y deben aprender nuevos datos. El entorno de los modelos está sujeto a una mayor complejidad y espera que se evalúen y reduzcan los riesgos mediante el uso de MLOps.

CRISP-ML(Q)

Perspectivas

La ciencia de datos y la agilidad son factores de éxito en el mundo moderno de los datos. En esta entrada del blog se han tratado los aspectos básicos en torno a la Ciencia de Datos en conjunción con la Agilidad. Es importante entender que la Ciencia de Datos es diferente del desarrollo de software tradicional y requiere un trabajo complejo y experimental. También hemos delineado los términos AI, ML, Data Analytics y Data Analysis para proporcionar claridad. Los modelos de procesos como CRISP-DM y CRISP-ML(Q) nos ayudan a adoptar un enfoque sistemático. Pero, ¿cómo utilizamos los enfoques ágiles en los proyectos de DS? ¿Existen criterios que influyan en el uso de métodos ágiles concretos? ¿Estamos preparados para ser "realmente" ágiles? Aclararemos estas cuestiones en nuestra próxima entrada del blog.

Encontrarás más temas apasionantes del mundo adesso en los artículos de nuestro blog publicados hasta ahora.

Autor Sezen Ipek

Sezen Ipek es estudiante empleada en el Competence Center Business Engineering de adesso desde 2021. Sus temas principales son la ingeniería de requisitos, los formatos de taller, la ciencia de datos y la agilidad.

Actualmente estudia Informática Empresarial con especialización en Ciencia de Datos y Consultoría (M. Sc.) y se espera que finalice sus estudios en enero de 2024.

Autor Stefan Mönk

Categoría:	metodología
Palabras clave	Data and Analytics Agility