Base de datos enemdu, periodo enero-marzo, 2021

La base se ha filtrado con las personas mayores a 15 años que residen en la ciudad de Quito y que perciben ingresos laborales entre 600 a 1.000 dólares, para el siguiente análisis solo se han tomado en consideracion a aquellas personas con un nivel académico: básico, medio y superior, obteniendo así 414 registros de una muestra de 4,703.

Resumen de la base

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   600.0   670.0   800.0   783.9   878.0  1000.0
## Rows: 414
## Columns: 2
## $ Nivel     <fct> Educación Superior, Educación Básica, Educación Superior, Ed~
## $ Ingreso_l <dbl+lbl> 645, 600, 665, 906, 880, 700, 880, 892, 663, 939, 820, 6~

EJEMPLO

Suponiendo que de un estudio se quiere comprobar si existe una diferencia significativa entre el nivel de instrucción acedemica de todas las personas mayores de 15 años empleadas y desempleadas que residen en la ciudad de Quito en la zona urbana. En caso de que exista diferencia se quiere saber qué nivel de educación difiere del resto. La siguiente tabla contiene una muestra de individuos seleccionados aleatoriamente.

A continuacion se identifican los grupos, y se realiza un resumen de descriptivos.

## 
##   Educación Básica    Educación Media Educación Superior 
##                 36                131                247
Resumen de datos
Diagrama de cajas (boxplot)

Definir unidades de investigacion

ANÁLISIS DE VARIANZA

\(H_o:\) No existe diferencia significativa en el ingreso promedio laboral debido al nivel de instrucción.

\(H_a:\) Existe diferencia significativa en el ingreso promedio laboral debido al nivel de instruccion.

##              Df  Sum Sq Mean Sq F value   Pr(>F)    
## Nivel         2  459262  229631   16.74 1.03e-07 ***
## Residuals   411 5638102   13718                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretación:

En el análisis de varianza con un p-valor inferior al 0.05 planteado; se rechaza la Ho, concluyendo que existen diferencias significativas en el ingreso promedio laboral de las personas que residen en la ciudad de Quito cuyos ingresos percibidos son entre 600 a 1.000 dólares, debido al nivel de instrucción academico.

Tamaño del efecto \(\eta^2\)

El tamaño del efecto es el que permite medir cuanto afecta la variable independiente (factor) a la variable dependiente.

\(\eta^2=\)\(\frac{SCE}{SCT}\)

Los niveles de clasificación más empleados para el tamaño del efecto son:

  • 0.01 = pequeño.
  • 0.06 = mediano.
  • 0.14 = grande.
## [1] "tamaño de efecto: 0.081"

COMPARACIÓN ENTRE TRATAMIENTOS

En este caso el ANOVA ha resultado significativo por lo que se procede a analizar las comparaciones dos a dos de los grupos del tratamiento.

HIPÓTESIS

\(H_o:\) \(\mu_1\)=\(\mu_2\)

\(H_a:\) \(\mu_1\)\(\neq\)\(\mu_2\)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Ingreso_l ~ Nivel, data = datos2)
## 
## $Nivel
##                                          diff       lwr       upr     p adj
## Educación Media-Educación Básica    101.88020  50.03630 153.72409 0.0000151
## Educación Superior-Educación Básica 120.75382  71.60425 169.90340 0.0000000
## Educación Superior-Educación Media   18.87363 -10.90386  48.65112 0.2963286

Interpretación:

Se puede evidenciar que, no existe diferencias significativas entre el par de medias del grupo de educación superior y educación media en el análisis realizado con Tukey.

VERIFICACIÓN DE SUPUESTOS

  • Normalidad
  • Homocedasticidad
  • Independencia

Normalidad

Interpretacion:

El análisis de este gráfico no revela una posible violación del supuesto de normalidad, ya que refleja que los residuos tienden a ajustarse a la linea recta, por tanto se puede concluir que la distribución de los datos se ajustan a una distribución normal.

PRUEBA DE KOLMOGOROV-SMIRNOV

HIPÓTESIS

\(H_o:\) La distribucion de datos tienden a una normal

\(H_a:\) La distribucion de datos no tienden a una normal

ks.test(anova$residuals,pnorm,mean(anova$residuals),sd(anova$residuals))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  anova$residuals
## D = 0.055018, p-value = 0.163
## alternative hypothesis: two-sided

Interpretacion:

El Test de hipótesis no muestra evidencias de falta de normalidad.

El estudio analitico de normalidad, con un p-valor de 0.163 superior al 5% planteado, podemos concluir que existen evidencias significativas para No rechazar la Ho, es decir la distribución de datos tienden a una normal.

Homocedasticidad

\(H_o:\) Todas las varianzas son constantes.

\(H_a:\) No todas las varianzas son constantes o al menos una difiere de otra.

Interpretacion:

El análisis de este gráfico no revela una posible violación de la hipótesis de homocedasticidad, los residuos de cada nivel de instrucción no presentan problemas de heterocedasticidad, ya que los variabilidad de las mismos, se ajustan a una linea o banda horizontal.

TEST PARA PROBAR HOMOGENEIDAD

TEST DE LEVENE

Se caracteriza por poder comparar 2 o más poblaciones, por permitir elegir entre diferentes estadísticos de centralidad como la mediana o la media.

car::leveneTest(datos2$Ingreso_l,group=datos2$Nivel,center='mean')
car::leveneTest(datos2$Ingreso_l,group=datos2$Nivel,center='median')

TEST DE BARTLETT

bartlett.test(Ingreso_l ~ Nivel,data = datos2)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  Ingreso_l by Nivel
## Bartlett's K-squared = 4.4071, df = 2, p-value = 0.1104

Interpretación:

El test no encuentra diferencias significativas entre las varianzas de los dos grupos.

No hay evidencias significativas de falta de homocedasticidad en ninguno de los dos test.

Conclusión

La verificación de los supuestos puede realizarse previo al cálculo del ANOVA, puesto que si no se cumplen no tiene mucho sentido seguir adelante con el análisis. Sin embargo la forma más adecuada de comprobar que se satisfacen las condiciones necesarias es estudiando los residuos del modelo una vez generado la tabla del ANOVA.