¿Cuándo usamos el intervalo de confianza?
¿De qué depende el calculo del intervalo de confianza ?
¿Qué elementos necesitamos para calcula el intervalo de confianza para una media?
¿Qué elementos necesitamos para calcula el intervalo de confianza para una proporción?
¿Qué grafico usamos para mostrar el intervalo de confianza?
Revisar el cuestionario de ENDO 2018. Descarga la base de datos y realiza el siguiente ejercicio:
Calcula el intervalo de confianza al 95% de del nivel de confianza
para el promedio del ingreso liquido mensual de los docentes (P501_B) de acuerdo la respuesta de si prefere trabajar en el mismo distrito en el que reside (P319)
para el promedio del ingreso liquido mensual de los docentes (P501_B) de acuerdo si trabaja en una escuela de colegio público o privado (P07)
Como ya sabemos, lo primero a realizar es cambiar el directorio y abrir la base de datos.
[1] "CUESTIONARIO" "cod_ie" "Estrato" "DEPTO"
[5] "CODGEO" "FACTOREXPANSION"
Se debe reemplazar el valor 1 por NA. Para ello generamos una nueva variables con el comando mutate.
El comando summary se emplea para crear un resumen de una varible numérica.
Min. 1st Qu. Median Mean 3rd Qu. Max.
1 1000 1500 1490 1900 8700
Dar formato a la variable factor.
Señalar las categorías de la variable.
data1$P319=factor(data1$P319,
levels = levels(data1$P319),
labels = c("Mismo distrito","Otro distrito"),
ordered = F)
Realizar una tabla.
Mismo distrito Otro distrito
0.6304766 0.3695234
El 63% de docentes prefiere trabajar en el mismo distrito en el que reside.
Welch Two Sample t-test
data: sueldoliquido by P319
t = -12.677, df = 11048, p-value < 2.2e-16
alternative hypothesis: true difference in means between group Mismo distrito and group Otro distrito is not equal to 0
95 percent confidence interval:
-166.8343 -122.1507
sample estimates:
mean in group Mismo distrito mean in group Otro distrito
1436.140 1580.633
Intervalo de confianza para la media según grupos
library(lsr)
ic_grupo=data1%>%
group_by(P319) %>%
summarise(Media = mean(sueldoliquido, na.rm=T),
min = ciMean(sueldoliquido,conf = 0.95, na.rm=T)[1],
max = ciMean(sueldoliquido,conf = 0.95, na.rm=T)[2]
)
ic_grupo
# A tibble: 2 × 4
P319 Media linf lsup
<fct> <dbl> <dbl> <dbl>
1 Mismo distrito 1436. 1423. 1449.
2 Otro distrito 1581. 1562. 1599.
library(ggplot2)
ggplot(ic_grupo, aes(x= P319, y =Media)) +
geom_errorbar(aes(ymin=linf, ymax=lsup), width = 0.2)+
geom_text(aes(label=paste(round(Media, 2))), size=4)+
xlab("Preferencia de distrito") + ylab("Ingreso liquido en soles")+
ylim(1400, 1700)
No hay traslape entre las barras de error,esto sugiere diferencias significativas.
Existe diferencia del ingreso entre docentes de colegios públicos o privados?
Dar formato a la variable factor.
Señalar las categorías de la variable.
data1$P07=factor(data1$P07,
levels = levels(data1$P07),
labels = c("Público","Privado"),
ordered = F)
Intervalo de confianza para la media según grupos
library(lsr)
ic_grupo=data1%>%
group_by(P07) %>%
summarise(Media = mean(sueldoliquido, na.rm=T),
linf = ciMean(sueldoliquido,conf = 0.95, na.rm=T)[1],
lsup = ciMean(sueldoliquido,conf = 0.95, na.rm=T)[2]
)
ic_grupo
# A tibble: 2 × 4
P07 Media linf lsup
<fct> <dbl> <dbl> <dbl>
1 Público 1828. 1816. 1840.
2 Privado 1084. 1071. 1097.
library(ggplot2)
ggplot(ic_grupo, aes(x= P07, y =Media)) +
geom_errorbar(aes(ymin=linf, ymax=lsup), width = 0.2)+
geom_text(aes(label=paste(round(Media, 2))), size=4)+
xlab("Preferencia de distrito") + ylab("Ingreso liquido en soles")+
ylim(1400, 1700)
No hay traslape entre las barras de error,esto sugiere diferencias significativas.
Welch Two Sample t-test
data: sueldoliquido by P07
t = 82.192, df = 14788, p-value < 2.2e-16
alternative hypothesis: true difference in means between group Público and group Privado is not equal to 0
95 percent confidence interval:
726.0344 761.5094
sample estimates:
mean in group Público mean in group Privado
1827.822 1084.051
PRUEBA T: VARIABLE NUMERICA Y UNA DICOTOMICA
HIPOTESIS NULA DE LA PRUEBA t: NO HAY DE DIFERENCIAS DE MEDIAS DE LA VARIABLE NUMERICA ENTRE LOS GRUPOS p-value < 2.2e-16 (e-) 0.0000000000000022
NIVEL DE CONFIANZA DEL 95 %.
escenario 1 : SI EL P-VALOR ES MENOR O IGUAL QUE 0.05 , RECHAZAR LA HIPOTESIS NULA escenario 2 : SI EL P-VALOR ES MAYOR QUE 0.05, NO RECHAZAR LA HIPOTESIS NULA
Al 95% de nivel de confianza, es posible que exista una diferencia significativa entre el promedio de ingresos mensuales liquidos de docentes de escuelas publicas y privadas.
Welch Two Sample t-test
data: P501_B by P07
t = 82.192, df = 14788, p-value < 2.2e-16
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
726.0344 761.5094
sample estimates:
mean in group 1 mean in group 2
1827.822 1084.051
Si existe diferencia entre la preferencia de distrito según el tipo de colegio en el que trabaja.
library(dplyr)
tabla2 = data1 %>%
dplyr::filter(P319 =="Mismo distrito" | P319 == "Otro distrito") %>%
dplyr::group_by(P07) %>%
dplyr::count(P319r=P319, name="N") %>%
dplyr::mutate(total = sum(N),
Por = N / total * 100,
err = sqrt(Por*(100-Por)/N),
liminf = Por - 1.96*err,
limsup = Por + 1.96*err)
tabla2
# A tibble: 4 × 8
# Groups: P07 [2]
P07 P319r N total Por err liminf limsup
<fct> <fct> <int> <int> <dbl> <dbl> <dbl> <dbl>
1 Público Mismo distrito 4707 8225 57.2 0.721 55.8 58.6
2 Público Otro distrito 3518 8225 42.8 0.834 41.1 44.4
3 Privado Mismo distrito 4805 6862 70.0 0.661 68.7 71.3
4 Privado Otro distrito 2057 6862 30.0 1.01 28.0 32.0
Si existe diferencia entre la preferencia de distrito según el tipo de colegio en el que trabaja.
graf2 = ggplot(tabla2_1, aes(x=P07, y=Por))+
geom_bar(stat="identity")+
geom_errorbar(aes(ymin=liminf, ymax=limsup), width=0.2)+
geom_text(aes(label=paste(round(Por, 1))), vjust=-1, size=4)+
xlab("Tipo de colegio") + ylab("Porcentaje de preferencia de trabajar en el mismo distrito")+
ylim(50, 100)
graf2