Caso 4: Educación, salario y ascenso

Una empresa desea analizar la relación entre el nivel educativo, el ascenso laboral y el salario mensual de sus empleados. Para ello, se recopila información de 12 trabajadores, incluyendo su nivel educativo, área de trabajo, condición de ascenso, años de educación y salario mensual.
datos <- data.frame(
  Empleado = 1:12,
  Nivel_educativo = c("Técnico", "Profesional", "Posgrado",
                      "Técnico", "Profesional", "Posgrado",
                      "Técnico", "Profesional", "Posgrado",
                      "Técnico", "Profesional", "Posgrado"),
  Area = c("Administrativa", "Comercial", "Administrativa",
           "Comercial", "Administrativa", "Comercial",
           "Administrativa", "Comercial", "Administrativa",
           "Comercial", "Administrativa", "Comercial"),
  Ascendido = c("No", "Sí", "Sí",
                "No", "Sí", "Sí",
                "No", "Sí", "Sí",
                "No", "Sí", "Sí"),
  Años = c(10, 12, 14, 11, 13, 15, 10, 12, 16, 11, 14, 17),
  Salario = c(1500, 1800, 2100, 1600, 1950, 2300, 1550, 1850, 2450, 1650, 2150, 2600)
)

datos
##    Empleado Nivel_educativo           Area Ascendido Años Salario
## 1         1         Técnico Administrativa        No   10    1500
## 2         2     Profesional      Comercial        Sí   12    1800
## 3         3        Posgrado Administrativa        Sí   14    2100
## 4         4         Técnico      Comercial        No   11    1600
## 5         5     Profesional Administrativa        Sí   13    1950
## 6         6        Posgrado      Comercial        Sí   15    2300
## 7         7         Técnico Administrativa        No   10    1550
## 8         8     Profesional      Comercial        Sí   12    1850
## 9         9        Posgrado Administrativa        Sí   16    2450
## 10       10         Técnico      Comercial        No   11    1650
## 11       11     Profesional Administrativa        Sí   14    2150
## 12       12        Posgrado      Comercial        Sí   17    2600


A partir de esta base de datos, se solicita:


1. Prueba de bondad de ajuste

Verificar si los empleados se distribuyen uniformemente entre los niveles educativos.
# Tabla de frecuencias del nivel educativo
tabla_nivel <- table(datos$Nivel_educativo)
tabla_nivel
## 
##    Posgrado Profesional     Técnico 
##           4           4           4
# Prueba de bondad de ajuste
chisq.test(tabla_nivel, p = c(1/3, 1/3, 1/3))
## Warning in chisq.test(tabla_nivel, p = c(1/3, 1/3, 1/3)): Chi-squared
## approximation may be incorrect
## 
##  Chi-squared test for given probabilities
## 
## data:  tabla_nivel
## X-squared = 0, df = 2, p-value = 1


Hipótesis
\(H_0\): Los empleados se distribuyen uniformemente entre los niveles educativos.
\(H_1\): Los empleados no se distribuyen uniformemente entre los niveles educativos.
Interpretación esperada
Si el p-valor es mayor que 0.05, no se rechaza \(H_0\).
Por tanto, como el p-valor = 1 es mayor que 0.05, no se rechaza \(H_0\), concluyendo que no hay evidencia suficiente para afirmar que los empleados se distribuyen de forma diferente entre los niveles educativos, por lo que la distribución entre Técnico, Profesional y Posgrado es uniforme.


2. Prueba de independencia

Determinar si el nivel educativo y el ascenso son independientes.
# Tabla de contingencia entre nivel educativo y ascenso
tabla_ind <- table(datos$Nivel_educativo, datos$Ascendido)
tabla_ind
##              
##               No Sí
##   Posgrado     0  4
##   Profesional  0  4
##   Técnico      4  0
# Prueba chi-cuadrado de independencia
chisq.test(tabla_ind, correct = FALSE)
## Warning in chisq.test(tabla_ind, correct = FALSE): Chi-squared approximation
## may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_ind
## X-squared = 12, df = 2, p-value = 0.002479


Hipótesis
\(H_0\): El nivel educativo y el ascenso son independientes.
\(H_1\): El nivel educativo y el ascenso no son independientes.
Interpretación esperada
Si el p-valor es mayor que 0.05, no se rechaza \(H_0\).
Por tanto, como el p-valor = 0.002479 es menor que 0.05, se rechaza \(H_0\), concluyendo que sí existe evidencia suficiente para afirmar que el nivel educativo y el ascenso están relacionados.


3. Prueba de homogeneidad

Comparar si la proporción de ascensos es homogénea entre el área administrativa y comercial.
# Tabla entre área y ascenso
tabla_hom <- table(datos$Area, datos$Ascendido)
tabla_hom
##                 
##                  No Sí
##   Administrativa  2  4
##   Comercial       2  4
# Prueba chi-cuadrado de homogeneidad
chisq.test(tabla_hom, correct = FALSE)
## Warning in chisq.test(tabla_hom, correct = FALSE): Chi-squared approximation
## may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_hom
## X-squared = 0, df = 1, p-value = 1


Hipótesis
\(H_0\): La proporción de ascensos es homogénea entre el área administrativa y comercial.
\(H_1\): La proporción de ascensos no es homogénea entre el área administrativa y comercial.
Interpretación esperada
Si el p-valor es mayor que 0.05, no se rechaza \(H_0\).
Por tanto, como el p-valor = 1 es mayor que 0.05, no se rechaza \(H_0\), concluyendo que no existe evidencia suficiente para afirmar que la proporción de ascensos sea diferente entre el área administrativa y comercial.


4. Regresión lineal simple

Ajustar un modelo de regresión lineal simple donde x sea años de educación y y sea salario.
# Modelo de regresión lineal simple
modelo <- lm(Salario ~ Años, data = datos)

# Resumen del modelo
summary(modelo)
## 
## Call:
## lm(formula = Salario ~ Años, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -57.14 -16.07   0.00  16.07  50.00 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -71.43      52.03  -1.373      0.2    
## Años          157.14       3.97  39.583 2.53e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 30.47 on 10 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.993 
## F-statistic:  1567 on 1 and 10 DF,  p-value: 2.531e-12
# Coeficientes
coef(modelo)
## (Intercept)        Años 
##   -71.42857   157.14286
# Recta estimada
# Salario estimado = intercepto + pendiente * Años
cat("ŷ =", round(coef(modelo)[1],2), "+", 
    round(coef(modelo)[2],2), "x")
## ŷ = -71.43 + 157.14 x


Interpretación de la pendiente
La pendiente del modelo es 157.14, lo que significa que, por cada año adicional de educación, el salario mensual aumenta en promedio aproximadamente 157.14 unidades monetarias, manteniendo las demás condiciones constantes.


5. Interpretación administrativa de la pendiente

Interpretar la pendiente desde el punto de vista administrativo.


Desde el punto de vista administrativo, el modelo indica que un mayor nivel de educación se asocia con salarios más altos. En promedio, por cada año adicional de educación, el salario mensual de un empleado aumenta aproximadamente en 157.14 unidades monetarias, lo que sugiere que la formación académica tiene un impacto positivo en la remuneración dentro de la empresa.


6. Evaluación del modelo: ANOVA y gráfico

Evaluar el modelo mediante R², ANOVA e inferencia de la pendiente.
# Tabla ANOVA del modelo
anova(modelo)
## Analysis of Variance Table
## 
## Response: Salario
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## Años       1 1454881 1454881  1566.8 2.531e-12 ***
## Residuals 10    9286     929                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Coeficiente de determinación
summary(modelo)$r.squared
## [1] 0.993658
# Inferencia de la pendiente
summary(modelo)
## 
## Call:
## lm(formula = Salario ~ Años, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -57.14 -16.07   0.00  16.07  50.00 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -71.43      52.03  -1.373      0.2    
## Años          157.14       3.97  39.583 2.53e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 30.47 on 10 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.993 
## F-statistic:  1567 on 1 and 10 DF,  p-value: 2.531e-12
# Gráfico de dispersión con recta de regresión
plot(datos$Años, datos$Salario,
     main = "Años de educación y salario",
     xlab = "Años de educación",
     ylab = "Salario",
     pch = 19)

abline(modelo, lwd = 2)


Hipótesis
\(H_0\): La pendiente del modelo es igual a 0 (\(\beta_1 = 0\)); los años de educación no influyen significativamente sobre el salario.
\(H_1\): La pendiente del modelo es diferente de 0 (\(\beta_1 \neq 0\)); los años de educación sí influyen significativamente sobre el salario.
Interpretación esperada
El valor de \(R^2 \approx 0.9937\) indica que aproximadamente el 99.37% de la variación del salario es explicada por los años de educación.
Si el p-valor de la pendiente es menor que 0.05, se rechaza \(H_0\).
Por tanto, como el p-valor = \(2.53 \times 10^{-12}\) es menor que 0.05, se concluye que los años de educación influyen significativamente sobre el salario.
Además, el gráfico muestra una relación lineal positiva: a mayor número de años de educación, mayor salario.


Conclusión general del caso

A partir del análisis realizado se concluye que:
Los empleados se distribuyen uniformemente entre los niveles educativos.
Se encontró evidencia suficiente para afirmar que el nivel educativo y el ascenso están relacionados.
No se encontró evidencia suficiente para afirmar que la proporción de ascensos sea diferente entre el área administrativa y comercial.
El modelo de regresión muestra una relación lineal positiva fuerte entre los años de educación y el salario.
A medida que aumentan los años de educación, el salario mensual aumenta de manera significativa.
Recta estimada del modelo
\(\hat{y} = -71.43 + 157.14x\)
Coeficiente de determinación
\(R^2 \approx 0.9937\)