Estadística para el Análisis Sociológico | Lección 7

Marylia Cruz

Repaso de la sesión anterior

  • ¿Cuándo usamos el intervalo de confianza?

  • ¿De qué depende el calculo del intervalo de confianza ?

  • ¿Qué elementos necesitamos para calcula el intervalo de confianza para una media?

  • ¿Qué elementos necesitamos para calcula el intervalo de confianza para una proporción?

  • ¿Qué grafico usamos para mostrar el intervalo de confianza?

Repaso de intervalo de confianza

Repaso de intervalo de confianza

Intervalo de confianza - Comparación de Medias

Intervalo de confianza - Comparación de Medias

Intervalo de confianza - Comparación de Medias

Revisar el cuestionario de ENDO 2018. Descarga la base de datos y realiza el siguiente ejercicio:

Calcula el intervalo de confianza al 95% de del nivel de confianza

  • para el promedio del ingreso liquido mensual de los docentes (P501_B) de acuerdo la respuesta de si prefere trabajar en el mismo distrito en el que reside (P319)

  • para el promedio del ingreso liquido mensual de los docentes (P501_B) de acuerdo si trabaja en una escuela de colegio público o privado (P07)

Intervalo de confianza - Comparación de Medias

Como ya sabemos, lo primero a realizar es cambiar el directorio y abrir la base de datos.

library(rio)
data=import("Base ENDO 2018.sav")
names(data)
[1] "CUESTIONARIO"    "cod_ie"          "Estrato"         "DEPTO"          
[5] "CODGEO"          "FACTOREXPANSION"

Se debe reemplazar el valor 1 por NA. Para ello generamos una nueva variables con el comando mutate.

library(dplyr)
data1=data%>%
  rename("sueldoliquido"=P501_B)%>%
  mutate(sueldoliquido=na_if(sueldoliquido, 1))

Intervalo de confianza - Comparación de Medias

El comando summary se emplea para crear un resumen de una varible numérica.

summary(data1$aulas)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      1    1000    1500    1490    1900    8700 

Intervalo de confianza - Comparación de Medias

Dar formato a la variable factor.

data1$P319=as.factor(data1$P319)

Señalar las categorías de la variable.

data1$P319=factor(data1$P319,
                levels = levels(data1$P319),
                labels = c("Mismo distrito","Otro distrito"),
                ordered = F)

Intervalo de confianza - Comparación de Medias

Realizar una tabla.

prop.table(table(data1$P319))

Mismo distrito  Otro distrito 
     0.6304766      0.3695234 

El 63% de docentes prefiere trabajar en el mismo distrito en el que reside.

Intervalo de confianza - Comparación de Medias

t.test(sueldoliquido ~ P319, data = data)

    Welch Two Sample t-test

data:  sueldoliquido by P319
t = -12.677, df = 11048, p-value < 2.2e-16
alternative hypothesis: true difference in means between group Mismo distrito and group Otro distrito is not equal to 0
95 percent confidence interval:
 -166.8343 -122.1507
sample estimates:
mean in group Mismo distrito  mean in group Otro distrito 
                    1436.140                     1580.633 

Intervalo de confianza - Comparación de Medias

Intervalo de confianza para la media según grupos

library(lsr)
ic_grupo=data1%>%
  group_by(P319) %>%
summarise(Media = mean(sueldoliquido, na.rm=T),
            min = ciMean(sueldoliquido,conf = 0.95, na.rm=T)[1],
            max = ciMean(sueldoliquido,conf = 0.95, na.rm=T)[2]
            )
ic_grupo
# A tibble: 2 × 4
  P319           Media  linf  lsup
  <fct>          <dbl> <dbl> <dbl>
1 Mismo distrito 1436. 1423. 1449.
2 Otro distrito  1581. 1562. 1599.

Resolución

library(ggplot2)
ggplot(ic_grupo, aes(x= P319, y =Media)) +
  geom_errorbar(aes(ymin=linf, ymax=lsup), width = 0.2)+
   geom_text(aes(label=paste(round(Media, 2))), size=4)+
  xlab("Preferencia de distrito") + ylab("Ingreso liquido en soles")+
  ylim(1400, 1700)

No hay traslape entre las barras de error,esto sugiere diferencias significativas.

Ejercicio 2 :

Existe diferencia del ingreso entre docentes de colegios públicos o privados?

Dar formato a la variable factor.

data1$P07=as.factor(data1$P07)

Señalar las categorías de la variable.

data1$P07=factor(data1$P07,
                levels = levels(data1$P07),
                labels = c("Público","Privado"),
                ordered = F)

Ejercicio 2 :

Intervalo de confianza para la media según grupos

library(lsr)
ic_grupo=data1%>%
  group_by(P07) %>%
summarise(Media = mean(sueldoliquido, na.rm=T),
            linf = ciMean(sueldoliquido,conf = 0.95, na.rm=T)[1],
            lsup = ciMean(sueldoliquido,conf = 0.95, na.rm=T)[2]
            )
ic_grupo
# A tibble: 2 × 4
  P07     Media  linf  lsup
  <fct>   <dbl> <dbl> <dbl>
1 Público 1828. 1816. 1840.
2 Privado 1084. 1071. 1097.

Resolución

library(ggplot2)
ggplot(ic_grupo, aes(x= P07, y =Media)) +
  geom_errorbar(aes(ymin=linf, ymax=lsup), width = 0.2)+
   geom_text(aes(label=paste(round(Media, 2))), size=4)+
  xlab("Preferencia de distrito") + ylab("Ingreso liquido en soles")+
  ylim(1400, 1700)

No hay traslape entre las barras de error,esto sugiere diferencias significativas.

Ejercicio 2 :

t.test(sueldoliquido ~ P07, data = data)

    Welch Two Sample t-test

data:  sueldoliquido by P07
t = 82.192, df = 14788, p-value < 2.2e-16
alternative hypothesis: true difference in means between group Público and group Privado is not equal to 0
95 percent confidence interval:
 726.0344 761.5094
sample estimates:
mean in group Público mean in group Privado 
             1827.822              1084.051 

PRUEBA T: VARIABLE NUMERICA Y UNA DICOTOMICA

HIPOTESIS NULA DE LA PRUEBA t: NO HAY DE DIFERENCIAS DE MEDIAS DE LA VARIABLE NUMERICA ENTRE LOS GRUPOS p-value < 2.2e-16 (e-) 0.0000000000000022

NIVEL DE CONFIANZA DEL 95 %.

escenario 1 : SI EL P-VALOR ES MENOR O IGUAL QUE 0.05 , RECHAZAR LA HIPOTESIS NULA escenario 2 : SI EL P-VALOR ES MAYOR QUE 0.05, NO RECHAZAR LA HIPOTESIS NULA

Al 95% de nivel de confianza, es posible que exista una diferencia significativa entre el promedio de ingresos mensuales liquidos de docentes de escuelas publicas y privadas.


    Welch Two Sample t-test

data:  P501_B by P07
t = 82.192, df = 14788, p-value < 2.2e-16
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
 726.0344 761.5094
sample estimates:
mean in group 1 mean in group 2 
       1827.822        1084.051 

Resolución

Si existe diferencia entre la preferencia de distrito según el tipo de colegio en el que trabaja.

library(dplyr)
tabla2 = data1 %>%
  dplyr::filter(P319 =="Mismo distrito" | P319 == "Otro distrito") %>%
  dplyr::group_by(P07) %>%
  dplyr::count(P319r=P319, name="N") %>%
  dplyr::mutate(total = sum(N), 
         Por = N / total * 100, 
         err = sqrt(Por*(100-Por)/N), 
         liminf = Por - 1.96*err, 
         limsup = Por + 1.96*err)
tabla2
tabla2_1 = tabla2[-c(2,4),]
# A tibble: 4 × 8
# Groups:   P07 [2]
  P07     P319r              N total   Por   err liminf limsup
  <fct>   <fct>          <int> <int> <dbl> <dbl>  <dbl>  <dbl>
1 Público Mismo distrito  4707  8225  57.2 0.721   55.8   58.6
2 Público Otro distrito   3518  8225  42.8 0.834   41.1   44.4
3 Privado Mismo distrito  4805  6862  70.0 0.661   68.7   71.3
4 Privado Otro distrito   2057  6862  30.0 1.01    28.0   32.0

Gráfico

Si existe diferencia entre la preferencia de distrito según el tipo de colegio en el que trabaja.

graf2 = ggplot(tabla2_1, aes(x=P07, y=Por))+
  geom_bar(stat="identity")+
  geom_errorbar(aes(ymin=liminf, ymax=limsup), width=0.2)+
  geom_text(aes(label=paste(round(Por, 1))), vjust=-1, size=4)+
  xlab("Tipo de colegio") + ylab("Porcentaje de preferencia de trabajar en el mismo distrito")+
  ylim(50, 100)
graf2