¿Cómo se calcula un indice aditivo?
¿Cuando utilizamos el intervalo de confianza ?
¿Qué prueba utilizamos para comparar dos medias?
¿Qué grafico usamos para mostrar la diferencia de dos medias?
Deseamos crear un indicador con: P30_01 ,P30_02,P30_03, P30_08 , P30_09 y P30_10.
Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.
Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.
Calcula indicador :
[1] "SbjNum" "nivel" "nivel2" "Dg1" "Dg1x" "DG02"
Se debe reemplazar el valor 6 por 0 Para ello generamos una nueva variables con el comando mutate.
library(dplyr)
data=data%>%
dplyr::rename("congreso"=P30_01)%>%
dplyr::mutate(congreso=replace(congreso, 6,0))%>%
dplyr::rename("contraloria"=P30_02)%>%
dplyr::mutate(contraloria=replace(contraloria, 6,0))%>%
dplyr::rename("fiscalia"=P30_03)%>%
dplyr::mutate(fiscalia=replace(fiscalia, 6,0))%>%
dplyr::rename("procur"=P30_08)%>%
dplyr::mutate(procur=replace(procur,6,0))%>%
dplyr::rename("judicial"=P30_09)%>%
dplyr::mutate(judicial=replace(judicial, 6,0))%>%
dplyr::rename("policia"=P30_10)%>%
dplyr::mutate(policia=replace(policia, 6,0))
data$suma=
data$congreso+data$contraloria+data$fiscalia+data$procur+data$judicial+data$policia
summary(data$suma)
hist(data$suma)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 12.00 15.00 15.03 18.00 36.00
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 33.33 41.67 41.76 50.00 100.00
Una vez calculado el índice aditivo, calcule el intervalo de la media al 99% de nivel de confianza.
upper mean lower
42.51455 41.75791 41.00128
Interpretación: A un 99% de nivel de confianza, el intervalo de confianza de la media oscila entre 41.00 y 42.51, en un rango de 0 a 100. En otras palabras, los peruanos y peruanas tienen una evaluación negativa sobre el desempeño de las instituciones encargadas de la lucha anticorrupción.
library(lsr)
tabla=data%>%summarise(Media = mean(lucha_anticorr, na.rm=T),
LimiteInferior = ciMean(lucha_anticorr,conf = 0.99, na.rm=T)[1],
LimiteSuperior = ciMean(lucha_anticorr,conf = 0.99, na.rm=T)[2]
)
tabla
Media LimiteInferior LimiteSuperior
1 41.75791 41.00128 42.51455
library(ggplot2)
ggplot(tabla, aes(x = "", y = Media)) +
geom_point(size = 5) + # Punto de la media
geom_errorbar(aes(ymin = LimiteInferior, ymax = LimiteSuperior), width = 0.2) +
labs(y = "Valor", x = "") +
theme_minimal() +
theme(axis.text.x = element_blank(), axis.ticks.x = element_blank())+ ylab("Promedio del ingreso mínimo")+
ylim(30, 50)
Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.
data$zonab=as.factor(data$zonab)
data$zonab=factor(data$zonab,levels = c(1:2),labels = c("LimaM","Interior"))
table(data$zonab)
LimaM Interior
578 1279
library(dplyr)
library(lsr)
tabla2=data%>%
dplyr::group_by(zonab)%>%
dplyr::summarise(Media = mean(indicador, na.rm=T),
limiteinferior = ciMean(indicador,conf = 0.99, na.rm=T)[1],
limitesuperior = ciMean(indicador,conf = 0.99, na.rm=T)[2]
)
tabla2
# A tibble: 2 × 4
zonab Media limiteinferior limitesuperior
<fct> <dbl> <dbl> <dbl>
1 LimaM 41.6 40.3 42.9
2 Interior 41.8 40.9 42.8
Determine si el indicador varía si existe una diferencia entre quienes residen en Lima Metropolitana y en el interior del país (zonab). Realice el gráfico correspondiente.
library(ggplot2)
ggplot(tabla2, aes(x=zonab, y = Media))+
geom_errorbar(aes(ymin=limiteinferior, ymax=limitesuperior), width=0.2)+
geom_text(aes(label=paste(round(Media, 2))), size = 4)+
xlab("Zona") + ylab("Índice de Evaluacion a las instituciones en su lucha contra la corrupción")+
ggtitle("Promedio de índice de Evaluacion a las instituciones en su lucha contra la corrupción segun la zona de residencia")+ylim(35,45)
Esta prueba compara la media de una variable de numérica para dos grupos. Los grupos que forman la variable nominal/ordinal tienen que ser independientes. Es decir, cada observación debe pertenecer a un grupo o al otro, pero no a ambos.
Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano?
Al 95% de nivel de confianza, considera lo siguiente:
Si el p-valor es menor o igual a 0.05, se rechaza la hipótesis nula.
Si el p-valor es mayor a 0.05, no se rechaza la hipótesis nula.
Interpretación: Al 95% de nivel de confianza, no rechazamos la hipótesis nula, por tanto, no se puede afirmar que existe diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano
Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?
data$DG06=as.factor(data$DG06)
data$DG06=factor(data$DG06,levels = c(1:2),labels = c("Sí","No"))
table(data$DG06)
Sí No
1260 597
Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?
Welch Two Sample t-test
data: indicador by DG06
t = -3.9093, df = 1157.2, p-value = 9.794e-05
alternative hypothesis: true difference in means between group Sí and group No is not equal to 0
95 percent confidence interval:
-3.691100 -1.224195
sample estimates:
mean in group Sí mean in group No
40.96781 43.42546
Ejemplo: ¿Existe diferencia de medias entre el indicador de evaluación a las instituciones anticorrupción entre los que viven entre quienes tienen hijos o no?
Dado que el valor del p-valor es = 9.794e-05
El e- significa que se incluyen 5 decimales antes del punto. Por tanto, el valor es 0.00009794.
Interpretación: Al 95% de nivel de confianza, rechazamos la hipótesis nula, por tanto, existe una diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre quienes tienen o no hijos.
Realiza el gráfico de comparación de medias.
π1 y π2 son las respectivas proporciones de la población 1 y de la población 2.
Estas proporciones se aproximan con p1 y p2, las respectivas proporciones muestrales.
Ejemplos:
Comparar las proporciones de si el docentes considera justo su remuneración por si el colegio es público y privado.
Cuando usar la técnica de comparación de proporciones.
data$P1_03=as.factor(data$P1_03)
data$P1_03=factor(data$P1_03,levels = c(0:1),labels = c("No","Yes"))
table(data$P1_03)
No Yes
732 1125
data$sexo=as.factor(data$DG02)
data$sexo=factor(data$sexo,levels = c(1:2),labels = c("Hombre","Mujer"))
table(data$sexo)
Hombre Mujer
909 948
Hombre Mujer
No 332 400
Yes 577 548
Hombre Mujer
No 0.3652365 0.4219409
Yes 0.6347635 0.5780591
2-sample test for equality of proportions with continuity correction
data: c(577, 548) out of c(332 + 577, 400 + 548)
X-squared = 6.013, df = 1, p-value = 0.0142
alternative hypothesis: two.sided
95 percent confidence interval:
0.01126355 0.10214526
sample estimates:
prop 1 prop 2
0.6347635 0.5780591
Al 95% de nivel de confianza, considera lo siguiente:
Si el p-valor es menor o igual a 0.05, se rechaza la hipótesis nula.
Si el p-valor es mayor a 0.05, no se rechaza la hipótesis nula.
Interpretación: Al 95% de nivel de confianza, rechazamos la hipótesis nula, por tanto, no se puede afirmar que existe diferencia de medias significativas del índice de evaluación a las instituciones anticorrupción entre los que viven en Lima Metropolitana y el interior urbano
n <- c(909, 948) # Tamaños de muestra
x <- c(577, 548) # Éxitos
# Realizar la prueba de proporciones y obtener intervalos de confianza
test_result <- prop.test(x, n, conf.level = 0.95)