¿Cómo se calcula un indice aditivo?
¿Cuando utilizamos el intervalo de confianza ?
¿Qué es la estadística bivariada?
¿Qué prueba utilizamos para comparar dos medias?
¿Qué grafico usamos para mostrar la diferencia de dos medias?
Deseamos crear un indicador con: P30_01 ,P30_02,P30_03, P30_08 , P30_09 y P30_10.
Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.
Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.
Calcula indicador :
[1] "SbjNum" "nivel" "nivel2" "Dg1" "Dg1x" "DG02"
Se debe reemplazar el valor 6 por 0 Para ello generamos una nueva variables con el comando mutate.
library(dplyr)
data=data%>%
dplyr::rename("congreso"=P30_01)%>%
dplyr::mutate(congreso=replace(congreso, 6,0))%>%
dplyr::rename("contraloria"=P30_02)%>%
dplyr::mutate(contraloria=replace(contraloria, 6,0))%>%
dplyr::rename("fiscalia"=P30_03)%>%
dplyr::mutate(fiscalia=replace(fiscalia, 6,0))%>%
dplyr::rename("procur"=P30_08)%>%
dplyr::mutate(procur=replace(procur,6,0))%>%
dplyr::rename("judicial"=P30_09)%>%
dplyr::mutate(judicial=replace(judicial, 6,0))%>%
dplyr::rename("policia"=P30_10)%>%
dplyr::mutate(policia=replace(policia, 6,0))
data$suma=
data$congreso+data$contraloria+data$fiscalia+data$procur+data$judicial+data$policia
summary(data$suma)
hist(data$suma)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 12.00 15.00 15.03 18.00 36.00
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 33.33 41.67 41.76 50.00 100.00
Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.
upper mean lower
42.51455 41.75791 41.00128
Interpretación: A un 99% de nivel de confianza, el intervalo de confianza de la media oscila entre 41.00 y 42.51, en un rango de 0 a 100. En otras palabras, los peruanos y peruanas tienen una evaluación negativa sobre el desempeño de las instituciones encargadas de la lucha anticorrupción.
Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.
data$zonab=as.factor(data$zonab)
data$zonab=factor(data$zonab,levels = c(1:2),labels = c("LimaM","Interior"))
table(data$zonab)
LimaM Interior
578 1279
library(dplyr)
library(lsr)
tabla2=data%>%
dplyr::group_by(zonab)%>%
dplyr::summarise(Media = mean(indicador, na.rm=T),
limiteinferior = ciMean(indicador,conf = 0.99, na.rm=T)[1],
limitesuperior = ciMean(indicador,conf = 0.99, na.rm=T)[2]
)
tabla2
# A tibble: 2 × 4
zonab Media limiteinferior limitesuperior
<fct> <dbl> <dbl> <dbl>
1 LimaM 41.6 40.3 42.9
2 Interior 41.8 40.9 42.8
Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.
library(ggplot2)
ggplot(tabla2, aes(x=zonab, y = Media))+
geom_errorbar(aes(ymin=limiteinferior, ymax=limitesuperior), width=0.2)+
geom_text(aes(label=paste(round(Media, 2))), size = 4)+
xlab("Zona") + ylab("Índice de Evaluacion a las instituciones en su lucha contra la corrupción")+
ggtitle("Promedio de índice de Evaluacion a las instituciones en su lucha contra la corrupción segun la zona de residencia")+ylim(35,45)
Esta prueba compara la media de una variable de numérica para dos grupos. Los grupos que forman la variable nominal/ordinal tienen que ser independientes. Es decir, cada observación debe pertenecer a un grupo o al otro, pero no a ambos.
Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano?
Al 95% de nivel de confianza, considera lo siguiente:
Si el p-valor es menor o igual a 0.05, se rechaza la hipótesis nula.
Si el p-valor es mayor a 0.05, no se rechaza la hipótesis nula.
Interpretación: Al 95% de nivel de confianza, no rechazamos la hipótesis nula, por tanto, no se puede afirmar que existe diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano
Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?
data$DG06=as.factor(data$DG06)
data$DG06=factor(data$DG06,levels = c(1:2),labels = c("Sí","No"))
table(data$DG06)
Sí No
1260 597
Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?
Welch Two Sample t-test
data: indicador by DG06
t = -3.9093, df = 1157.2, p-value = 9.794e-05
alternative hypothesis: true difference in means between group Sí and group No is not equal to 0
95 percent confidence interval:
-3.691100 -1.224195
sample estimates:
mean in group Sí mean in group No
40.96781 43.42546
Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?
Dado que el valor del p-valor es = 9.794e-05
El e- significa que se incluyen 5 decimales antes del punto. Por tanto, el valor es 0.00009794.
Interpretación: Al 95% de nivel de confianza, rechazamos la hipótesis nula, por tanto, existe una diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre quienes tienen o no hijos
π1 y π2 son las respectivas proporciones de la población 1 y de la población 2.
Estas proporciones se aproximan con p1 y p2, las respectivas proporciones muestrales.
Ejemplos:
Comparar las proporciones de si el docentes considera justo su remuneración por si el colegio es público y privado.
Abrimos la base de datos de Encuesta Nacional de Docentes.
[1] "CUESTIONARIO" "cod_ie" "Estrato" "DEPTO"
[5] "CODGEO" "FACTOREXPANSION"
Exploro las variables.
Corroboro los valores de la variable P502:
num [1:15087] 1 1 1 1 2 1 2 2 2 2 ...
- attr(*, "label")= chr "En su opinión, ¿considera justa la remuneración que recibe actualmente por su labor como docente en esta escuela?"
- attr(*, "format.spss")= chr "F1.0"
- attr(*, "display_width")= int 6
- attr(*, "labels")= Named num [1:3] 1 2 99
..- attr(*, "names")= chr [1:3] "Si" "No" "NEP"
Dar formato a las variables.
num [1:15087] 2 2 2 2 2 2 2 2 2 1 ...
- attr(*, "label")= chr "Gestión"
- attr(*, "format.spss")= chr "F8.0"
- attr(*, "display_width")= int 6
- attr(*, "labels")= Named num [1:2] 1 2
..- attr(*, "names")= chr [1:2] "Publica" "Privada"
Pública Privada
Si justa 721 3232
No justa 7504 3630
Pública Privada
Si justa 0.08765957 0.47099971
No justa 0.91234043 0.52900029
Pregunta: ¿hay diferencias entre la proporción de si los docentes consideran justa o no su remuneración por si son de colegios públicos o privados?
2-sample test for equality of proportions with continuity correction
data: c(7504, 3630) out of c(7504 + 721, 3630 + 3232)
X-squared = 2841, df = 1, p-value < 2.2e-16
alternative hypothesis: two.sided
95 percent confidence interval:
0.3699085 0.3967717
sample estimates:
prop 1 prop 2
0.9123404 0.5290003
Conclusión: Se rechaza la H0. Es probable que haya diferencias entre lo que no consideran justa su remuneración de acuerdo al colegios público o privado.
P07 P502.upper P502.mean P502.lower
1 Pública 0.09377249 0.08765957 0.08154666
2 Privada 0.48281296 0.47099971 0.45918646