Agosto 2023
CRISP-DM se puede considerar como la metodología de facto para proyectos dedicados a extraer valor de los datos, tal como lo reflejan las encuestas realizadas a profesionales del campo. Durante estos veinte años, la metodología CRISP-DM ha sido fuente de inspiración de otros estándares como SEMMA de SAS o ASUM-DM de IBM, así como ha dado lugar a múltiples variantes que amplían o particularizan CRISP-DM a una industria o tipo de proyecto.
Y es que surgen algunas limitaciones de la metodología frente a los cambios en los proyectos de ciencia de datos durante los últimos años, que requieren que esta se adapte a nuevas formas de hacer, incluyendo nuevas fases o aplicándola solo en determinadas partes de los proyectos.
Desde el Instituto de Ingeniería del Conocimiento (IIC), por ejemplo, hemos comprobado que puede ser especialmente útil para planificar y explicar la gestión y ejecución de los proyectos a determinados clientes.
La metodología CRISP-DM se conceptualiza en 6 fases, tal como se muestra en la Figura 1. En la primera fase, el entendimiento del negocio, el equipo de trabajo debe comprender los objetivos y requisitos del proyecto definidos por el cliente, para poder convertir este conocimiento en una definición técnica del problema.
Esta fase es necesaria para que los miembros del equipo de desarrollo puedan entender el contexto del proyecto y resolver las dudas sobre el negocio que se pudieran tener. Es una fase que requiere una comunicación intensa entre el cliente y el equipo técnico.
Una vez está claro lo que el cliente pide, se pasa a la fase de comprensión de los datos. El equipo técnico realiza un análisis exploratorio con el objetivo de obtener una visión general de lo que se puede conseguir con los datos. Esta fase complementa el trabajo de la fase anterior, realizando un análisis guiado por el conocimiento de negocio adquirido.
Tras el resultado de esta fase se debería tener una idea clara de la viabilidad del proyecto y los resultados esperados. De ser así, se avanzaría a dos fases de trabajo técnico muy interrelacionadas, en las cuales se desarrollaría la solución al problema de negocio planteado.
La primera es la denominada preparación de los datos, que cubre todas las actividades para construir el conjunto de datos definitivo que se empleará en la siguiente fase, la de modelado de datos. Aquí el equipo técnico realizará los análisis y modelos pertinentes de los que se deriven los resultados y conclusiones del proyecto. El cliente determinará en la fase de evaluación la calidad de esos resultados y decidirá cómo pueden explotarse antes de la fase de despliegue.
Más allá de que se haya descrito la metodología como un proceso secuencial, es importante incidir en su carácter iterativo.
Tal como se puede observar en la Figura 1, las fases 1 y 2 pueden sucederse repetitivamente si tras los resultados de los análisis exploratorios (fase 2) se descubren aspectos que redefinen los objetivos de negocio (fase 1). De la misma manera, la fase de modelado (fase 4) puede motivar nuevos preprocesados de los datos (fase 3) que mejoren los análisis realizados. Finalmente, el resultado de la evaluación (fase 5) puede derivar en nuevas necesidades de negocio (fase 1).
A continuación, se muestra una imagen insertada en el documento:
A continuación se muestra un gráfico del uso de metodologías de mineria de datos:
Haya, P. (2021, November 29). La metodología CRISP-DM en ciencia de datos - IIC. Instituto de Ingeniería Del Conocimiento. https://www.iic.uam.es/innovacion/metodologia-crisp-dm-ciencia-de-datos/