LÍMITES DE CONTROL (PPBs)

📊 Ficha técnica del indicador

📌 Proceso / Proyecto:	Gestión del conocimiento (lecciones Aprendidas)
👤 Líder del Proceso:	Yefferson Andrés Rodriguez Echeverri
📈 Nombre del indicador:	Distribución y concentración de lecciones por proceso
📅 Fecha de estudio:	20 de marzo 2026
🔗 Fuente de datos:	Acceso base de datos (Google sheets)
⚙️ Método utilizado:	Análisis de pareto
🎯 Objetivo:	Identificar el 20% de los procesos que generan el 80% de los hallazgos para priorizar acciones de mejora.

1. Recopilación de datos

1.1. Importar y transformar datos

Esta etapa consiste en la carga técnica de la información desde la fuente de origen hacia el entorno de análisis estadístico R.

1.2. Limpieza de datos

Esta fase comprende la depuración y el refinamiento de la matriz de variables para asegurar la calidad estadística de los resultados. El objetivo es identificar y tratar inconsistencias que puedan distorsionar la Línea Base de Desempeño (PPB).

## [1] "Se han procesado correctamente todos los datos"

## [1] "Registros procesados: 154"

1.3. Análisis descriptivo

Esta etapa se enfoca en la caracterización estadística de las variables mediante el cálculo de medidas de tendencia central, posición y dispersión. Su propósito es proporcionar una visión cuantitativa del desempeño del proceso antes de avanzar hacia modelos de control más complejos.

Métrica	Valor
Media de lecciones por proceso	11.00
Moda	1.00
Cuartil 1 (Q1)	2.25
Mediana (Q2)	4.00
Cuartil 3 (Q3)	14.75
Desviación estándar	14.42
Rango intercuartil (IQR)	12.50

2. Análisis exploratorio de datos

Esta etapa consiste en la aplicación de técnicas visuales y gráficas para descubrir patrones, detectar anomalías y probar hipótesis sobre el comportamiento del proceso. Su objetivo principal es comprender la distribución y la forma de los datos para seleccionar el modelo estadístico más adecuado para la creación de las Líneas Base de Desempeño (PPBs).

2.1. Análisis de distribuciones

Consiste en el estudio detallado del comportamiento probabilístico de los datos para identificar qué modelo matemático describe mejor la variabilidad del proceso. Su objetivo es determinar si los datos siguen una distribución normal o si presentan un comportamiento sesgado que requiera un tratamiento estadístico alternativo.

2.1.1. Boxplot

Valores atípicos: En el Boxplot, cualquier punto que aparezca por fuera de los “bigotes” es una observación que se aleja significativamente de la media y debe ser investigada bajo la metodología CAR.

2.1.2. Histograma

Identificación de patrones: Si el histograma tiene una “cola” larga hacia la izquierda o derecha, tenemos una Distribución Sesgada.

2.1.3.Gráfico de dispersión

2.2. Prueba de normalidad

Esta fase constituye el punto de decisión estadística más crítico del procedimiento. Su objetivo es validar formalmente si los datos de desempeño siguen una distribución gaussiana (normal), lo cual determina la metodología matemática que se empleará para el cálculo de los límites de control. Algunas de las pruebas más utilizadas son:

2.2.1. Método gráfico: Q-Q Plot

Es una herramienta visual utilizada para comparar la distribución de los datos observados contra una distribución teórica normal. Su propósito es identificar desviaciones específicas que las pruebas numéricas (como Shapiro-Wilk) no siempre detallan, tales como el comportamiento de las “colas” o valores extremos.

2.2.2. Test de Shapiro-Wilk:

Evalúa si una muestra de datos proviene de una distribución normal. Es una de las pruebas más recomendadas para muestras pequeñas (<50 observaciones).

## 
## --- Resultado de la prueba de normalidad (Shapiro-Wilk) ---

## Variable analizada: Cantidad de lecciones por proceso

## P-valor obtenido: 0.0007405852

## CONCLUSIÓN: Los datos NO siguen una distribución normal (p <= 0.05).
## ANÁLISIS: Se confirma estadísticamente el principio de Pareto.
## ACCIÓN: Priorizar el 20% de procesos críticos.

3. Análisis de segmentación

El Análisis de Segmentación permite entender si los límites de control deben ser generales o específicos para diferentes grupos de datos. A continuación, se evalúa automáticamente la normalidad de cada grupo (segmento) y se decide si aplicar ANOVA (paramétrica-datos normales ) o Kruskal-Wallis (no paramétrica-datos no normales), garantizando el rigor estadístico exigido en CMMI Nivel 5.

## --------------------------------------------------

##       RESULTADO DEL ANÁLISIS DE SEGMENTACIÓN

## --------------------------------------------------

## Indicador:           Distribución de lecciones

## Prueba aplicada:      Kruskal-Wallis (No Paramétrica)

## P-valor obtenido:     0.15745

## --------------------------------------------------

## DECISIÓN: NO EXISTEN DIFERENCIAS SIGNIFICATIVAS.
## INTERPRETACIÓN: El volumen de reportes es estable a través de los años.
## ACCIÓN: Se valida que la muestra histórica es consistente para la toma de decisiones.

4. Transformación de datos

Esta fase consiste en la aplicación de funciones matemáticas sobre la matriz de variables original con el objetivo de estabilizar la varianza y aproximar los datos a una distribución normal. Es un paso fundamental en la gestión cuantitativa cuando se desea utilizar herramientas paramétricas en procesos que presentan sesgos severos.

4.1. Identificación de distribuciones y patrones

Este análisis nos ayuda a entender cómo se distribuyen los datos.

Compararemos datos contra múltiples distribuciones teóricas, para evaluar a cuál de ellas se asemeja más.

## summary statistics
## ------
## min:  1.1   max:  50.1 
## median:  4.1 
## mean:  11.1 
## estimated sd:  14.42221 
## estimated skewness:  1.941271 
## estimated kurtosis:  6.516695

Gráfico de Cullen and Frey

Este gráfico es fundamental para el Análisis exploratorio de los datos ya que utiliza la asimetría y la curtosis para sugerir qué distribución teórica se ajusta mejor a tus datos de adherencia.

Resultado: Observa dónde cae el punto rojo (“Observation”). Si está lejos de la línea normal, confirma que tus datos tienen un comportamiento sesgado (típico en métricas de efectividad donde a veces es 0% y otras 100%).

Comparación visual de distribuciones

Este gráfico combina un histograma con las curvas de densidad de las distribuciones probadas.

Análisis: Las curvas muestran qué tan bien se adapta cada modelo matemático a tus barras de datos reales. La curva normal (roja) suele ser simétrica, mientras que Gamma o Lognormal se adaptan mejor a datos que tienen “colas” largas o están concentrados cerca del cero.

4.2. Ajuste de múltiples distribuciones

Tal como indica el manual, el objetivo de este análisis es evaluar qué tan bien se ajustan los datos a una distribución esperada para asegurar la idoneidad de los modelos estadísticos posteriores.

Recuerda que el valor de AIC más bajo representa el mejor ajuste estadístico, ya que permite evaluar la calidad relativa de los modelos.Los AIC más altos, sugieren que la variabilidad es demasiado alta o existe un sesgos importante hacia alguno de los límites superior o inferior.

Comparativa de modelos probabilísticos (criterio AIC)
	Distribución	AIC	Log-Likelihood
3	Lognormal	96.36	-46.18
4	Weibull	98.59	-47.29
2	Gamma	98.97	-47.49
1	Normal	117.42	-56.71

## 
## >>> CONCLUSIÓN ESTADÍSTICA: El modelo que mejor describe la concentración de lecciones es: Lognormal <<<

4.3. Aplicación de transformaciones y reevaluación de normalidad

(Si aplica) De acuerdo con los pasos anteriores, si el Test de Shapiro-Wilk arroja un p≤0.05, debemos aplicar transformaciones para normalizar los datos, (por ejemplo, usando Box-Cox o Logaritmos).

## --- RESULTADO DE NORMALIZACIÓN (BOX-COX) ---

## Variable: Cantidad de lecciones por proceso

## Valor p obtenido tras transformar: 0.37339

## Valor de lambda (λ) optimizado: -0.1

## --------------------------------------------

## DECISIÓN: ÉXITO. LOS DATOS TRANSFORMADOS SON NORMALES.
## INTERPRETACIÓN: La transformación corrigió el sesgo. Se pueden usar promedios ajustados.

5. Definición de límites de control

5.1. Cálculo de límites de control

Este bloque calcula los límites definitivos basándose en si la transformación logró normalizar los datos o si se debe optar por el método robusto de percentiles.

Opción A - El mundo paramétrico (zonas sigma)

Si los datos son normales (\(p > 0.05\)), se activan las reglas de la estadística tradicional:

Media y Desviación (sd_trans): Se calculan estos valores sobre los datos transformados para entender el centro y la dispersión del proceso.

Zona 3 (\(\pm 3SD\)): Es el límite máximo. Según la regla empírica, aquí debería estar el 99.7% de tus datos. Si un proyecto sale de aquí, es una alarma crítica.
Zona 2 (\(\pm 2SD\)): Define el 95.4% de los datos. Se usa como zona de alerta o “prevención”.
Zona 1 (\(\pm 1SD\)): Cubre el 68.2% de los datos cerca del promedio. Ayuda a ver qué tan agrupados están los proyectos exitosos.

Opción B - El Mundo No Paramétrico (Percentiles)

Si la normalidad falla (\(p \le 0.05\)), el manual indica que no puedes usar la desviación estándar porque daría límites falsos. En su lugar, el código usa Percentiles Equivalentes:

¿Por qué estos números?: El código busca valores que representen las mismas probabilidades que la campana de Gauss pero adaptados a la forma real (sesgada) de tus datos.

0.998 y 0.002: Equivalen a los límites de control de 3 sigmas.
0.975 y 0.025: Equivalen a los límites de alerta de 2 sigmas.
0.841 y 0.158: Equivalen a 1 sigma.

## --------------------------------------------------

##        RESULTADO DE DEFINICIÓN DE PPBs (ZONAS)

## --------------------------------------------------

## Método utilizado:   Paramétrico (Zonas Sigma)

## Variable:          cantidad de lecciones por proceso

## ZONA 3 (Límites de control - 99.7% del proceso):

##   UCL (3SD):  54.27  | LCL (3SD):  0

## ZONA 2 (Límites de alerta - 95.4% del proceso):

##   UCL (2SD):  39.84  | LCL (2SD):  0

## ZONA 1 (Tendencia central - 68.2% del proceso):

##   UCL (1SD):  25.42  | LCL (1SD):  0

## --------------------------------------------------

5.2. Gráfico de control x-barra

Este código utiliza los límites que calculamos anteriormente y pinta las franjas de colores:

Verde (Zona 1): Desempeño estable y esperado.
Amarillo (Zona 2): Zona de precaución; el proceso empieza a desviarse.
Rojo (Zona 3): Zona crítica; cualquier punto aquí es una “Causa Especial”

5.3. Gráfico límites de control - 1 sigma

5.4. Identificación de datos bajo el límite de 1 sigma

Datos en la zona de variabilidad que están cerca de volverse alertas.

## --------------------------------------------------

##       PROCESOS CON REPORTE BAJO (ZONA DE ALERTA)

## --------------------------------------------------

## Todos los procesos operan dentro o sobre el límite de estabilidad.
## No se detectan 'zonas muertas' de conocimiento en este periodo.

6. Conversión de datos a escala original

Debido a la naturaleza de los datos de participación por proceso, se optó por un enfoque no paramétrico basado en percentiles. Esto permite obtener los límites directamente en la escala original (cantidad de lecciones) sin necesidad de transformaciones inversas complejas, garantizando que el modelo sea fiel al comportamiento real y sesgado del proceso (Principio de Pareto).

🎯 Conclusión general del análisis

Se ha completado el análisis de Líneas Base de Desempeño (PPBs) para el indicador de Distribución y Concentración de Lecciones por Proceso. A través de la evaluación estadística multivariada (Pareto, Shapiro-Wilk y Cullen-Frey), se validó que el proceso no sigue una distribución normal, justificando el uso de límites basados en percentiles robustos.

Los límites establecidos, especialmente el UCL de 3 Sigma y el Umbral de 1 Sigma, servirán como herramientas de decisión. Estos permitirán distinguir entre la variación común del sistema y los “Pocos Vitales” (Causas Especiales), garantizando que los esfuerzos de mejora se enfoquen en los procesos con mayor impacto organizacional, bajo los estándares de Alta Madurez CMMI.