Hoy en dia las empresas necesitan apoyarse en el análisis de datos para comprender mejor su funcionamiento y tomar decisiones más acertadas. Variables como la producción, los costos, los turnos de trabajo y el cumplimiento de metas permiten evaluar el desempeño de una organización y detectar posibles patrones dentro de sus operaciones.
En este taller se aplicarán métodos no paramétricos y regresión lineal simple utilizando RStudio, con el objetivo de analizar la información de una empresa manufacturera y obtener conclusiones a partir de los resultados estadísticos obtenidos.
Una empresa manufacturera desea analizar si el nivel de producción permite explicar los costos mensuales.
datos <- data.frame(
Mes = 1:12,
Planta = c("Norte", "Sur", "Centro",
"Norte", "Sur", "Centro",
"Norte", "Sur", "Centro",
"Norte", "Sur", "Centro"),
Turno = c("Diurno", "Nocturno", "Diurno",
"Nocturno", "Diurno", "Nocturno",
"Diurno", "Nocturno", "Diurno",
"Nocturno", "Diurno", "Nocturno"),
Cumple_meta = c("Si", "No", "Si",
"Si", "No", "Si",
"Si", "No", "Si",
"Si", "No", "Si"),
`Produccion (x)` = c(100,120,140,160,180,200,
220,240,260,280,300,320),
`Costo (y)` = c(420,455,493,528,566,602,
638,675,711,748,785,820)
)
datos
## Mes Planta Turno Cumple_meta Produccion..x. Costo..y.
## 1 1 Norte Diurno Si 100 420
## 2 2 Sur Nocturno No 120 455
## 3 3 Centro Diurno Si 140 493
## 4 4 Norte Nocturno Si 160 528
## 5 5 Sur Diurno No 180 566
## 6 6 Centro Nocturno Si 200 602
## 7 7 Norte Diurno Si 220 638
## 8 8 Sur Nocturno No 240 675
## 9 9 Centro Diurno Si 260 711
## 10 10 Norte Nocturno Si 280 748
## 11 11 Sur Diurno No 300 785
## 12 12 Centro Nocturno Si 320 820
La base de datos contiene información de 12 meses de operación de una empresa manufacturera. En ella se analizan variables como la planta, el turno, el cumplimiento de metas, la producción y los costos mensuales. Podemos notar que a medida que aumenta la producción, también aumentan los costos, lo que permitirá evaluar posteriormente si existe una relación lineal entre ambas variables.
Se desea verificar si los registros se distribuyen uniformemente entre las plantas de la empresa.
Hipótesis:
\(H_0\): Los registros se distribuyen uniformemente entre las plantas.
\(H_1\): Los registros no se distribuyen uniformemente entre las plantas.
Nivel de significancia
\[ \alpha = 0.05 \]
Como existen 3 plantas y n = 12:
\[ E_i = \frac{12}{3} = 4 \]
# Tabla de frecuencias de las plantas
tabla_planta <- table(datos$Planta)
tabla_planta
##
## Centro Norte Sur
## 4 4 4
# Prueba de bondad de ajuste
chisq.test(tabla_planta, p = c(1/3, 1/3, 1/3))
## Warning in chisq.test(tabla_planta, p = c(1/3, 1/3, 1/3)): Chi-squared
## approximation may be incorrect
##
## Chi-squared test for given probabilities
##
## data: tabla_planta
## X-squared = 0, df = 2, p-value = 1
Interpretación
Como el p-valor obtenido es igual a 1 y es mayor que el nivel de significancia α=0.05, no se rechaza la hipótesis nula H0. Por lo tanto, no existe evidencia estadística suficiente para afirmar que los registros se distribuyen de manera diferente entre las plantas de la empresa.
Interpretación empresarial
Los registros se encuentran distribuidos de forma equilibrada entre las plantas Norte, Sur y Centro.
Se desea determinar si la planta y el cumplimiento de meta son independientes.
Hipótesis:
\(H_0\): La planta y el cumplimiento de meta son independientes.
\(H_1\): La planta y el cumplimiento de meta no son independientes.
Nivel de significancia:
\[ \alpha = 0.05 \]
# Tabla de contingencia
tabla_ind <- table(datos$Planta, datos$Cumple_meta)
tabla_ind
##
## No Si
## Centro 0 4
## Norte 0 4
## Sur 4 0
# Prueba chi-cuadrado de independencia
chisq.test(tabla_ind, correct = FALSE)
## Warning in chisq.test(tabla_ind, correct = FALSE): Chi-squared approximation
## may be incorrect
##
## Pearson's Chi-squared test
##
## data: tabla_ind
## X-squared = 12, df = 2, p-value = 0.002479
Interpretación
Como el p-valor obtenido es igual a 0.002479 y es menor que el nivel de significancia α=0.05, se rechaza la hipótesis nula H0.Por lo tanto, existe evidencia estadística suficiente para afirmar que la planta y el cumplimiento de meta están relacionados.
Interpretación empresarial
Con base en los resultados obtenidos, el cumplimiento de metas parece depender de la planta de la empresa. En este caso, las plantas Norte y Centro presentan cumplimiento de meta en todos sus registros, mientras que la planta Sur no presenta cumplimiento en ninguno de los casos observados.
Se desea comparar si el cumplimiento de meta es homogéneo entre el turno diurno y nocturno.
Hipótesis
\(H_0\): La proporción de cumplimiento de meta es homogénea entre el turno diurno y nocturno.
\(H_1\): La proporción de cumplimiento de meta no es homogénea entre el turno diurno y nocturno.
Nivel de significancia:
\[ \alpha = 0.05 \]
# Tabla entre turno y cumplimiento de meta
tabla_hom <- table(datos$Turno, datos$Cumple_meta)
tabla_hom
##
## No Si
## Diurno 2 4
## Nocturno 2 4
# Prueba chi-cuadrado de homogeneidad
chisq.test(tabla_hom, correct = FALSE)
## Warning in chisq.test(tabla_hom, correct = FALSE): Chi-squared approximation
## may be incorrect
##
## Pearson's Chi-squared test
##
## data: tabla_hom
## X-squared = 0, df = 1, p-value = 1
Interpretación
Como el p-valor obtenido es igual a 1 y es mayor que el nivel de significancia α=0.05, no se rechaza la hipótesis nula H0. Por lo tanto, no existe evidencia estadística suficiente para afirmar que la proporción de cumplimiento de meta sea diferente entre el turno diurno y nocturno.
Interpretación empresarial
Aunque en ambos turnos se presentan registros de cumplimiento y no cumplimiento de metas, las diferencias observadas no son estadísticamente significativas al nivel del 5%. Entonces, el comportamiento del cumplimiento de meta puede considerarse homogéneo entre el turno diurno y nocturno.
Se ajusta un modelo de regresión lineal simple donde:
\(x\) = Producción
\(y\) = Costo
El modelo general es:
\[ \hat{y} = a + bx \]
Donde:
\(a\) es el intercepto.
\(b\) es la pendiente.
\(x\) es la producción.
\(\hat{y}\) es el costo estimado.
# Código en R: regresión lineal simple
# Modelo de regresión lineal simple
modelo <- lm(Costo..y. ~ Produccion..x., data = datos)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = Costo..y. ~ Produccion..x., data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.9277 -0.4216 0.1772 0.5618 0.7611
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.371e+02 5.921e-01 400.4 <2e-16 ***
## Produccion..x. 1.824e+00 2.678e-03 681.0 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6406 on 10 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 4.637e+05 on 1 and 10 DF, p-value: < 2.2e-16
# Coeficientes
coef(modelo)
## (Intercept) Produccion..x.
## 237.053613 1.823951
# Recta estimada
# Costo estimado = intercepto + pendiente * Producción
La recta de regresión estimada es:
\[ \hat{y} = 237.0536 + 1.824x \]
Interpretación:
Por cada unidad adicional producida, el costo mensual aumenta, en promedio, aproximadamente 1.824 unidades monetarias.
Interpretación empresarial:
Los resultados muestran una relación directa entre la producción y los costos de la empresa. Es decir que a medida que el nivel de producción incrementa, los costos mensuales también tienden a aumentar.
Supongamos que la empresa alcanza una producción de 250 unidades.
# Predicción para una producción de 250 unidades
nuevo <- data.frame(Produccion..x. = 250)
predict(modelo, newdata = nuevo)
## 1
## 693.0414
Interpretación:
Si la empresa alcanza una producción de 250 unidades, el modelo estima un costo aproximado de 693.04 unidades monetarias para ese nivel de producción.
6.1 Coeficiente de determinación.
El coeficiente de determinación se calcula como:
\[ R^2 = \frac{SCR}{SCT} \]
En este caso, el modelo presenta un ajuste extremadamente alto:
\[ R^2 \approx 1 \]
Interpretación:
Aproximadamente el 100% de la variabilidad de los costos es explicada por el nivel de producción. Esto indica una relación lineal positiva muy fuerte entre la producción y los costos.
6.2 ANOVA del modelo de regresión
# Tabla ANOVA del modelo
anova(modelo)
## Analysis of Variance Table
##
## Response: Costo..y.
## Df Sum Sq Mean Sq F value Pr(>F)
## Produccion..x. 1 190293 190293 463707 < 2.2e-16 ***
## Residuals 10 4 0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Gráfico de dispersión con recta de regresión
plot(datos$Produccion..x., datos$Costo..y.,
main = "Producción y costos",
xlab = "Producción",
ylab = "Costo",
pch = 19)
abline(modelo, lwd = 2)
Hipótesis
\(H_0:\ \beta_1 = 0\)
\(H_1:\ \beta_1 \neq 0\)
Como el valor de \(F\) obtenido es extremadamente alto y el p-valor es menor que el nivel de significancia \(\alpha = 0.05\), se rechaza la hipótesis nula \(H_0\). Esto indica que el modelo de regresión lineal simple es estadísticamente significativo.
Interpretación:
Los resultados muestran que existe una relación lineal significativa entre la producción y los costos de la empresa. Además, el coeficiente de determinación \(R^2 \approx 1\) indica que prácticamente toda la variabilidad de los costos puede ser explicada por el nivel de producción.
Interpretación gráfica:
El gráfico muestra una relación lineal positiva entre la producción y los costos, ya que a medida que aumenta la producción, los costos también tienden a incrementarse.
6.3 Inferencia de la pendiente
Hipótesis
\(H_0:\ \beta_1 = 0\)
\(H_1:\ \beta_1 \neq 0\)
El estadístico de prueba es:
\[ t = \frac{b}{SE(b)} \]
Para este caso:
\[ t \approx 681 \]
Con:
\[ gl = n - 2 = 10 \]
Para \(\alpha = 0.05\):
\[ t_{crítico} = \pm 2.228 \]
Como:
\[ |681| > 2.228 \]
se rechaza la hipótesis nula \(H_0\).
Interpretación:
La pendiente del modelo es estadísticamente significativa, lo que indica que la producción influye significativamente sobre los costos de la empresa.
Con los análisis realizados se pudo observar que los registros de la empresa están distribuidos de manera equilibrada entre las plantas. También se encontró evidencia de que el cumplimiento de metas depende de la planta, ya que algunas presentan mejores resultados que otras. En cuanto a los turnos de trabajo, no se encontraron diferencias significativas entre el turno diurno y nocturno respecto al cumplimiento de metas. Por otro lado, el modelo de regresión permitió identificar una relación positiva muy fuerte entre la producción y los costos de la empresa, mostrando que cuando la producción aumenta, los costos también aumentan de manera significativa.
\[ \hat{y} = 237.0536 + 1.824x \]
\[ R^2 \approx 1 \]
El modelo presentó un ajuste prácticamente perfecto, explicando casi toda la variabilidad observada en los costos a partir del nivel de producción.
Como mencionamos al principio de este taller, hoy en día las empresas necesitan apoyarse en el análisis de datos para comprender mejor su funcionamiento y tomar decisiones más acertadas.
En este taller logramos evidenciar cómo herramientas estadísticas como las pruebas Chi-cuadrado y la regresión lineal simple permiten analizar variables relacionadas con la producción, los costos y el cumplimiento de metas dentro de una empresa manufacturera.
Recalcamos que el uso de RStudio facilitó la organización, el procesamiento y la interpretación de los datos, permitiendo obtener conclusiones claras a partir de los resultados obtenidos.
Más allá de los cálculos realizados, este análisis demuestra la importancia de la estadística como apoyo para entender el comportamiento de una organización y contribuir a una mejor toma de decisiones.