Taller de métodos NO paramétricos y regresión lineal simple

Hoy en dia las empresas necesitan apoyarse en el análisis de datos para comprender mejor su funcionamiento y tomar decisiones más acertadas. Variables como la producción, los costos, los turnos de trabajo y el cumplimiento de metas permiten evaluar el desempeño de una organización y detectar posibles patrones dentro de sus operaciones.

En este taller se aplicarán métodos no paramétricos y regresión lineal simple utilizando RStudio, con el objetivo de analizar la información de una empresa manufacturera y obtener conclusiones a partir de los resultados estadísticos obtenidos.

Caso 2: Producción, costos y metas

Una empresa manufacturera desea analizar si el nivel de producción permite explicar los costos mensuales.

datos <- data.frame(
Mes = 1:12,

Planta = c("Norte", "Sur", "Centro",
            "Norte", "Sur", "Centro",
            "Norte", "Sur", "Centro",
            "Norte", "Sur", "Centro"),

Turno = c("Diurno", "Nocturno", "Diurno",
           "Nocturno", "Diurno", "Nocturno",
           "Diurno", "Nocturno", "Diurno",
           "Nocturno", "Diurno", "Nocturno"),

Cumple_meta = c("Si", "No", "Si",
                 "Si", "No", "Si",
                 "Si", "No", "Si",
                 "Si", "No", "Si"),

`Produccion (x)` = c(100,120,140,160,180,200,
                     220,240,260,280,300,320),

`Costo (y)` = c(420,455,493,528,566,602,
                638,675,711,748,785,820)
)

datos
##    Mes Planta    Turno Cumple_meta Produccion..x. Costo..y.
## 1    1  Norte   Diurno          Si            100       420
## 2    2    Sur Nocturno          No            120       455
## 3    3 Centro   Diurno          Si            140       493
## 4    4  Norte Nocturno          Si            160       528
## 5    5    Sur   Diurno          No            180       566
## 6    6 Centro Nocturno          Si            200       602
## 7    7  Norte   Diurno          Si            220       638
## 8    8    Sur Nocturno          No            240       675
## 9    9 Centro   Diurno          Si            260       711
## 10  10  Norte Nocturno          Si            280       748
## 11  11    Sur   Diurno          No            300       785
## 12  12 Centro Nocturno          Si            320       820

La base de datos contiene información de 12 meses de operación de una empresa manufacturera. En ella se analizan variables como la planta, el turno, el cumplimiento de metas, la producción y los costos mensuales. Podemos notar que a medida que aumenta la producción, también aumentan los costos, lo que permitirá evaluar posteriormente si existe una relación lineal entre ambas variables.

1. Prueba de bondad de ajuste

Se desea verificar si los registros se distribuyen uniformemente entre las plantas de la empresa.

Hipótesis:

Nivel de significancia

\[ \alpha = 0.05 \]

Como existen 3 plantas y n = 12:

\[ E_i = \frac{12}{3} = 4 \]

# Tabla de frecuencias de las plantas
tabla_planta <- table(datos$Planta)
tabla_planta
## 
## Centro  Norte    Sur 
##      4      4      4
# Prueba de bondad de ajuste
chisq.test(tabla_planta, p = c(1/3, 1/3, 1/3))
## Warning in chisq.test(tabla_planta, p = c(1/3, 1/3, 1/3)): Chi-squared
## approximation may be incorrect
## 
##  Chi-squared test for given probabilities
## 
## data:  tabla_planta
## X-squared = 0, df = 2, p-value = 1

Interpretación

Como el p-valor obtenido es igual a 1 y es mayor que el nivel de significancia α=0.05, no se rechaza la hipótesis nula H0. Por lo tanto, no existe evidencia estadística suficiente para afirmar que los registros se distribuyen de manera diferente entre las plantas de la empresa.

Interpretación empresarial

Los registros se encuentran distribuidos de forma equilibrada entre las plantas Norte, Sur y Centro.

2. Prueba de independencia

Se desea determinar si la planta y el cumplimiento de meta son independientes.

Hipótesis:

Nivel de significancia:

\[ \alpha = 0.05 \]

# Tabla de contingencia
tabla_ind <- table(datos$Planta, datos$Cumple_meta)
tabla_ind
##         
##          No Si
##   Centro  0  4
##   Norte   0  4
##   Sur     4  0
# Prueba chi-cuadrado de independencia
chisq.test(tabla_ind, correct = FALSE)
## Warning in chisq.test(tabla_ind, correct = FALSE): Chi-squared approximation
## may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_ind
## X-squared = 12, df = 2, p-value = 0.002479

Interpretación

Como el p-valor obtenido es igual a 0.002479 y es menor que el nivel de significancia α=0.05, se rechaza la hipótesis nula H0.Por lo tanto, existe evidencia estadística suficiente para afirmar que la planta y el cumplimiento de meta están relacionados.

Interpretación empresarial

Con base en los resultados obtenidos, el cumplimiento de metas parece depender de la planta de la empresa. En este caso, las plantas Norte y Centro presentan cumplimiento de meta en todos sus registros, mientras que la planta Sur no presenta cumplimiento en ninguno de los casos observados.

3. Prueba de homogeneidad

Se desea comparar si el cumplimiento de meta es homogéneo entre el turno diurno y nocturno.

Hipótesis

Nivel de significancia:

\[ \alpha = 0.05 \]

# Tabla entre turno y cumplimiento de meta
tabla_hom <- table(datos$Turno, datos$Cumple_meta)
tabla_hom
##           
##            No Si
##   Diurno    2  4
##   Nocturno  2  4
# Prueba chi-cuadrado de homogeneidad
chisq.test(tabla_hom, correct = FALSE)
## Warning in chisq.test(tabla_hom, correct = FALSE): Chi-squared approximation
## may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_hom
## X-squared = 0, df = 1, p-value = 1

Interpretación

Como el p-valor obtenido es igual a 1 y es mayor que el nivel de significancia α=0.05, no se rechaza la hipótesis nula H0. Por lo tanto, no existe evidencia estadística suficiente para afirmar que la proporción de cumplimiento de meta sea diferente entre el turno diurno y nocturno.

Interpretación empresarial

Aunque en ambos turnos se presentan registros de cumplimiento y no cumplimiento de metas, las diferencias observadas no son estadísticamente significativas al nivel del 5%. Entonces, el comportamiento del cumplimiento de meta puede considerarse homogéneo entre el turno diurno y nocturno.

4. Regresión lineal simple

Se ajusta un modelo de regresión lineal simple donde:

El modelo general es:

\[ \hat{y} = a + bx \]

Donde:

# Código en R: regresión lineal simple

# Modelo de regresión lineal simple
modelo <- lm(Costo..y. ~ Produccion..x., data = datos)

# Resumen del modelo
summary(modelo)
## 
## Call:
## lm(formula = Costo..y. ~ Produccion..x., data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.9277 -0.4216  0.1772  0.5618  0.7611 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    2.371e+02  5.921e-01   400.4   <2e-16 ***
## Produccion..x. 1.824e+00  2.678e-03   681.0   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6406 on 10 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 4.637e+05 on 1 and 10 DF,  p-value: < 2.2e-16
# Coeficientes
coef(modelo)
##    (Intercept) Produccion..x. 
##     237.053613       1.823951
# Recta estimada
# Costo estimado = intercepto + pendiente * Producción

La recta de regresión estimada es:

\[ \hat{y} = 237.0536 + 1.824x \]

Interpretación:

Por cada unidad adicional producida, el costo mensual aumenta, en promedio, aproximadamente 1.824 unidades monetarias.

Interpretación empresarial:

Los resultados muestran una relación directa entre la producción y los costos de la empresa. Es decir que a medida que el nivel de producción incrementa, los costos mensuales también tienden a aumentar.

5. Predicción con el modelo

Supongamos que la empresa alcanza una producción de 250 unidades.

# Predicción para una producción de 250 unidades
nuevo <- data.frame(Produccion..x. = 250)

predict(modelo, newdata = nuevo)
##        1 
## 693.0414

Interpretación:

Si la empresa alcanza una producción de 250 unidades, el modelo estima un costo aproximado de 693.04 unidades monetarias para ese nivel de producción.

6. Evaluación del modelo:

6.1 Coeficiente de determinación.

El coeficiente de determinación se calcula como:

\[ R^2 = \frac{SCR}{SCT} \]

En este caso, el modelo presenta un ajuste extremadamente alto:

\[ R^2 \approx 1 \]

Interpretación:

Aproximadamente el 100% de la variabilidad de los costos es explicada por el nivel de producción. Esto indica una relación lineal positiva muy fuerte entre la producción y los costos.

6.2 ANOVA del modelo de regresión

# Tabla ANOVA del modelo
anova(modelo)
## Analysis of Variance Table
## 
## Response: Costo..y.
##                Df Sum Sq Mean Sq F value    Pr(>F)    
## Produccion..x.  1 190293  190293  463707 < 2.2e-16 ***
## Residuals      10      4       0                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Gráfico de dispersión con recta de regresión
plot(datos$Produccion..x., datos$Costo..y.,
main = "Producción y costos",
xlab = "Producción",
ylab = "Costo",
pch = 19)

abline(modelo, lwd = 2)

Hipótesis

Como el valor de \(F\) obtenido es extremadamente alto y el p-valor es menor que el nivel de significancia \(\alpha = 0.05\), se rechaza la hipótesis nula \(H_0\). Esto indica que el modelo de regresión lineal simple es estadísticamente significativo.

Interpretación:

Los resultados muestran que existe una relación lineal significativa entre la producción y los costos de la empresa. Además, el coeficiente de determinación \(R^2 \approx 1\) indica que prácticamente toda la variabilidad de los costos puede ser explicada por el nivel de producción.

Interpretación gráfica:

El gráfico muestra una relación lineal positiva entre la producción y los costos, ya que a medida que aumenta la producción, los costos también tienden a incrementarse.

6.3 Inferencia de la pendiente

Hipótesis

El estadístico de prueba es:

\[ t = \frac{b}{SE(b)} \]

Para este caso:

\[ t \approx 681 \]

Con:

\[ gl = n - 2 = 10 \]

Para \(\alpha = 0.05\):

\[ t_{crítico} = \pm 2.228 \]

Como:

\[ |681| > 2.228 \]

se rechaza la hipótesis nula \(H_0\).

Interpretación:

La pendiente del modelo es estadísticamente significativa, lo que indica que la producción influye significativamente sobre los costos de la empresa.

7. Conclusión general del caso

Con los análisis realizados se pudo observar que los registros de la empresa están distribuidos de manera equilibrada entre las plantas. También se encontró evidencia de que el cumplimiento de metas depende de la planta, ya que algunas presentan mejores resultados que otras. En cuanto a los turnos de trabajo, no se encontraron diferencias significativas entre el turno diurno y nocturno respecto al cumplimiento de metas. Por otro lado, el modelo de regresión permitió identificar una relación positiva muy fuerte entre la producción y los costos de la empresa, mostrando que cuando la producción aumenta, los costos también aumentan de manera significativa.

\[ \hat{y} = 237.0536 + 1.824x \]

\[ R^2 \approx 1 \]

El modelo presentó un ajuste prácticamente perfecto, explicando casi toda la variabilidad observada en los costos a partir del nivel de producción.

Cierre del análisis

Como mencionamos al principio de este taller, hoy en día las empresas necesitan apoyarse en el análisis de datos para comprender mejor su funcionamiento y tomar decisiones más acertadas.

En este taller logramos evidenciar cómo herramientas estadísticas como las pruebas Chi-cuadrado y la regresión lineal simple permiten analizar variables relacionadas con la producción, los costos y el cumplimiento de metas dentro de una empresa manufacturera.

Recalcamos que el uso de RStudio facilitó la organización, el procesamiento y la interpretación de los datos, permitiendo obtener conclusiones claras a partir de los resultados obtenidos.

Más allá de los cálculos realizados, este análisis demuestra la importancia de la estadística como apoyo para entender el comportamiento de una organización y contribuir a una mejor toma de decisiones.