Dentro de los proyectos de gestión de datos, la implementación de metodologías agiles como son SCRUM o Kanban, representan una ventaja significativa frente a enfoques tradicionales en cascada. En primer lugar, los proyectos de datos son inherentemente inciertos: la calidad real del dataset, la disponibilidad de fuentes o los hallazgos analíticos suelen descubrirse durante el trabajo.
Con un modelo tradicional, los requisitos son definidos en el inicio y los cambios son realmente costosos, mientras que SCRUM permite trabajar en sprints iterativos, ajustando prioridades conforme se valida la información. Esto es clave en iniciativas como construcción de data lakes, modelos predictivos o implementación de dashboards.
En un enfoque convencional, los requisitos se establecen
al comienzo del proyecto y cualquier modificación resulta costosa; en contraste,
Scrum proporciona la oportunidad de trabajar en ciclos iterativos llamados
sprints, ajustando las prioridades según se valide la información. Esta flexibilidad
es fundamental en proyectos como la creación de lagos de datos, el desarrollo
de modelos predictivos o la implementación de paneles de control.
Por ejemplo, al utilizar Jira para la gestión de tareas y del backlog, el
equipo tiene la capacidad de priorizar historias como “eliminar duplicados en la
base de clientes”, “implementar reglas de validación” o “desarrollar un pipeline
ETL”, generando incrementos funcionales cada dos a tres semanas. Además, las prácticas
de DataOps incorporan la automatización, la integración continua y el monitoreo
de la calidad, lo que contribuye a disminuir los errores en el despliegue de
pipelines y a mejorar su fiabilidad (Lwakatare et al. , 2020). La combinación
de Scrum y DataOps favorece una mayor transparencia, entregas frecuentes y una
rápida adaptación ante cambios en regulaciones o en el entorno empresarial.
En relación con las métricas más importantes en
contextos ágiles de datos, pienso que al menos tres son esenciales:
Precisión de los datos: se refiere a cuán exactos son los datos en comparación con
la realidad. Es crucial porque los modelos de análisis o informes financieros
dependen de información veraz.
Completitud: analiza el porcentaje de valores que no son nulos o de campos necesarios
que han sido correctamente completados. En sectores como el comercio o la banca,
datos que no están completos pueden afectar las segmentaciones o las evaluaciones
de riesgo.
Tiempo de disponibilidad: indica cuánto tiempo pasa hasta que los datos están listos
para el análisis después de que se generan. En entornos ágiles, disminuir la latencia
ayuda a tomar decisiones más rápidas.
Además, se pueden incorporar métricas como la cantidad
de duplicados, los problemas de calidad identificados por cada sprint, o el
tiempo promedio para solucionar errores en los datos, que vinculan la calidad
con la mejora continua.
Las métricas en contextos ágiles sirven no solo para el control, sino también
para ofrecer retroalimentación. Durante cada revisión del sprint, el equipo
puede analizar si la calidad mejoró, si se redujeron los incidentes o si la
velocidad de entrega aumentó sin comprometer la integridad. Esto se ajusta
perfectamente a la filosofía ágil de revisión y adaptación constante.
Para finalizar, las metodologías ágiles facilitan una gestión de datos más adaptable,
colaborativa y centrada en el valor incremental. Al integrar marcos como Scrum
con prácticas de DataOps y métricas claras de calidad y disponibilidad, las
organizaciones pueden responder de manera más efectiva a la disrupción digital
y mejorar su gobernanza de datos.
Referencia:
Lwakatare, L. E., Raj, A., Bosch, J., Olsson, H. H., & Crnkovic, I. (2020). Large-scale adoption of DevOps practices in the automotive industry. Journal of Systems and Software, 165, 110557.