Nombre del estudiante: (escribir su nombre)

Indicaciones

El tiempo de duración del examen parcial es de 3 horas. Utilice su tiempo con responsabilidad. El examen empezará a las 10:00 am y terminará a la 1:00 pm.
Al finalizar su examen, grabé sus archivos RMD y HTML con su código PUCP y su nombre y apellido (Ejm. “20192349_Juana_Pérez.Rmd”).
Suba ambos archivos a la tarea de la sección “Examen Parcial” en Paideia.

Preguntas

Pregunta 1

El siguiente gráfico corresponde a una encuesta de opinión realizada después de la primera vuelta, pero antes de la segunda vuelta de la elección presidencial 2016 en Perú. La muestra fue de 1574 personas y fue representativa de la población electoral residente en el país. Los resultados muestran los gráficos de cajas de la variable izquierda-derecha y de índices aditivos de “Estatismo” y de “Discrecionalidad”, todos estandarizados entre 0-100. Para la variable de izquierda-derecha, el valor de cero significa izquierda y el de 100 derecha. Para los índices, el valor de cero significa menos de la variable (bajos valores) y el de 100, más de la variable (altos valores).

Ver Gráfico 1

Respuesta a la pregunta 1: En el grafico podemos ver un grafico boxplot de triple entrada. Los boxplor nos sirven para calular los casos atipicos y luego aislarlos; pueden servir para variables ordinales y númericas. En este grafico, en especial, podemos ver los resultados de una encuesta de opinición pública realizada después de la primera vuelta, pero antes de la segunda vuelta de la elección presidencial 2016 en Perú. Todas las variables están estandarizadas entre 0-100. En primer lugar, podemos ver que la mediana, la linea negra marcada, en el grafico de la variable de izr-der se ubica entre 50 y 75%; la linea base del rectangulo (el que está más proximo a 0) nos indice el primer quintil y; por otro lado, la linea superior (más proxima a 100) nos indica el tercer quintil. Por lo que podemos intuir que las preferencias ideologias en el proceso electoral presidencial del 2016 se inclino hacía la derecha en el aspectro politico. Podemos ver eso en las elecciones del 2016, donde ambos candidatos, Keiko y PKK, fueron de tendencia derechista. En segundo lugar, en el grafico de estatismo, podemos ver que la mediana está entre 75 y 100. A diferencia del caso anterior, podemos observar pequenos puntos negros; lo que nos quiere decir que son casos atipicos, por lo que el boxplot los separá y los enmarca. Entonces, podemos intuir que las preferencias sobre el estatismo en las elecciones 2016 fue alta, pero se evidencia que grupos minoritarios están se acuerdo con poco estatismo; es decir, estos grupos minoritarios quieren, entre otras cosas, que el estado no tenga tantas responsabilidades. En tercer lugar, en el último grafico sobre la discrecionalidad podemos ver que el la media está entre 50 y 75, pero se puede afirmar que es una mediana menor a la de los otros dos graficos antes mencionados. En este caso no se evidencian casos atipicos. Podemos afirmar, entonces, que las preferencias electorales sobre la discrecionalidad fue un poco alta; por lo que podemos ver que las personas quieren que el estado sea libre en sus decisiones. Finalmente, podemos concluir de los tres graficos que las personas de tendencia hacía la derecha, paradojicamente, quieren que el estado tenga más responsabilidades pero a la vez un poco de indipendencia.

Pregunta 2

Usando la misma encuesta, el siguiente gráfico presenta los resultados de las variables izquierda-derecha, estatismo y discrecionalidad según por quién reportó el encuestado que votó en primera vuelta.

Comente los resultados (5 puntos) #En el grafico 2, podemos ver tres grafico de medias (plotmeans) que compara las preferencias de los votantes de Fujimori, PPk, Mendoza, Barnechea, Garcia y Santos con respecto a las tres anteriores variables, ideología, estatismo y discrecionalidad. En el grafico de medias de la izquierda, podemos ver las preferencias ideologias entre izquierda y derecha entre los votatantes de los candidatos anteriormente mencionados. Podemos ver (con cierto grado de error), que las unicas lineas que no se interpolan son los grupos de los votantes de Santos con los votantes de Fujimori y PPK. Podemos decir de este primer grafico que sí hay diferencia significativamente estadistica entre ambos grupos para afirmar que tienen distinto ideología política: los de Santos son de izquierda y los de PPK y Fujimori de derecha. En el segundo grafico, vemos la diferencia de los votantes con respecto a su posición frente a la estatalidad. En gran des razgos (con cierto grado de error), podemos ver que no hay diferencia significativamente estadistica; por lo que podemos decir que los votantes de todos los candidatos prefieren que el estado tenga más responsabilidades. En tercer lugar, respecto al grado de discrecionalidad tambíen podemos afirmar (con cierto grado de error) que no hay diferencia significativa entre los grupos de los votantes con respecto a la discrecionalidad del estado. Por lo que podemos afirmar que todos están de acuerdo con cierto grado de discrecionalidad.
Si la base de datos se llamada “base”, la variable izquierda-derecha “izqder”, el índice de estatismo “estat, el índice de discrecionalidad”disc” y el voto reportado en primera vuelta “voto1”, escriba el código que produciría estos resultados o gráficos (1 punto).

library(gplots) plotmeans(base\(izqrd~ base\)voto1, connect=F, barwidth=3, xlab=“Candidato”, ylab=“Grado”, main=“izq-der”) plotmeans(base\(estat ~ base\)voto1, connect=F, barwidth=3, xlab=“Candidato”, ylab=“Grado”, main=“estatismo) plotmeans(base\(disc~ base\)voto1, connect=F, barwidth=3, xlab=”Candidato”, ylab=“Grado”, main=“discrecionalidad”)

Ver Gráfico 2

Respuesta a la pregunta 2:

Pregunta 3

Usando la base de datos del Registro Nacional de Municipalidades 2020. A partir de la variable de departamento (“coddpto”), crear una nueva variable llamada “region” que tenga 3 categorías: 1) Costa, 2) Sierra y 3) Selva. También, a partir de las variables del total de personal nombrado (“P11_01_T”) y del total de personal contratado (“P11_02_T”), calcule una variable para el total de personal (“perso”).

Calcule los estadísticos descriptivos del total de personal por región y preséntelos en una tabla. Comente los resultados.
Calcule los intervalos de confianza de la media del total de personal por región. Presente una tabla con esos resultados y un gráfico. Compruebe mediante una prueba estadística si existen diferencias entre las medias del total de personal por región. Comente los resultados.

Respuesta a la pregunta 3:

library(rio)
data=import("renamu.sav")

#crear nueva variable

str(data$coddpto)

##  num [1:2740] 1 1 1 1 1 1 1 1 1 1 ...
##  - attr(*, "format.spss")= chr "F8.2"

table(data$coddpto)

## 
##   1   2   3   4   5   6   8   9  10  11  12  13  14  15  16  17  18  19  20  21 
##  74 231 106  24 187 366 143 286 289   6 145 102  42  56  22  10  24  75  73 337 
##  22  23  24  25 
##  98  22   7  15

library(car)

## Loading required package: carData

data$coddpto=recode(data$coddpto, "11=1")
data$coddpto=recode(data$coddpto, "13=1")
data$coddpto=recode(data$coddpto, "14=1")
data$coddpto=recode(data$coddpto, "15=1")
data$coddpto=recode(data$coddpto, "20=1")
data$coddpto=recode(data$coddpto, "23=1")
data$coddpto=recode(data$coddpto, "24=1")

data$coddpto=recode(data$coddpto, "3=2")
data$coddpto=recode(data$coddpto, "4=2")
data$coddpto=recode(data$coddpto, "5=2")
data$coddpto=recode(data$coddpto, "6=2")
data$coddpto=recode(data$coddpto, "8=2")
data$coddpto=recode(data$coddpto, "9=2")
data$coddpto=recode(data$coddpto, "12=2")
data$coddpto=recode(data$coddpto, "18=2")
data$coddpto=recode(data$coddpto, "19=2")
data$coddpto=recode(data$coddpto, "21=2")

#data$coddpto=recode(data$coddpto, "1=3")
data$coddpto=recode(data$coddpto, "10=3")
data$coddpto=recode(data$coddpto, "16=3")
data$coddpto=recode(data$coddpto, "17=3")
data$coddpto=recode(data$coddpto, "22=3")
data$coddpto=recode(data$coddpto, "25=3")

table(data$coddpto)

## 
##    1    2    3 
##  382 1924  434

str(data$coddpto)

##  num [1:2740] 1 1 1 1 1 1 1 1 1 1 ...
##  - attr(*, "format.spss")= chr "F8.2"

data$region=factor(data$coddpto, levels = c(1:3), labels=c("Costa","Sierra","selva"))
table(data$region) #nueva variable region

## 
##  Costa Sierra  selva 
##    382   1924    434

#nueva variable total de personal contratado

str(data$P11_01_T)

##  num [1:2740] NA 0 NA NA NA NA NA NA NA NA ...
##  - attr(*, "format.spss")= chr "F8.2"

any(is.na(data$P11_01_T))

## [1] TRUE

data<-data[complete.cases(data$P11_01_T), ]
any(is.na(data$P11_01_T))

## [1] FALSE

str(data$P11_01_T)

##  num [1:1272] 0 0 0 0 0 0 0 0 0 0 ...

summary(data$P11_01_T)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.2343  0.0000 36.0000

table(data$P11_01_T)

## 
##    0    1    2    3    4    5    6    7   10   11   14   36 
## 1132   94   18    9    9    3    2    1    1    1    1    1

str(data$P11_02_T)

##  num [1:1272] 1 6 1 2 2 4 2 1 2 4 ...

any(is.na(data$P11_02_T))

## [1] FALSE

data$totalpersonal=data$P11_01_T+data$P11_02_T #nueva variable
any(is.na(data$totalpersonal))

## [1] FALSE

summary(data$totalpersonal)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    1.00    2.00    3.07    4.00  162.00

#3.a estadisticos descriptivos

#Costa=subset(data, region=="Costa") #primera variable Costa
#summary(Costa$totalpersonal)
#sd(Costa$totalpersonal) #desviación estandar
#var(Costa$totalpersonal) #varianza
#skewness(Costa$totalpersonal) #asimetría
#kurtosis(Costa$totalpersonal) #curtosis
#hist(Costa$totalpersonal)

#Sierra=subset(data, region=="Sierra") #segunda variable: sierra
#summary(Sierra$totalpersonal)
#sd(Sierra$totalpersonal) #desviación estandar
#var(Sierra$totalpersonal) #varianza
#skewness(data$totalpersonal) #asimetra
#kurtosis(data$totalpersonal) #kurtosis
#hist(Sierra$totalpersonal)

#Selva=subset(data, region=="selva")
#summary(Selva$totalpersonal) 
#sd(Selva$totalpersonal) #desiación estandar
#var(Selva$totalpersonal) #varianza
#skewness(data$totalpersonal) #asimetria
#kurtosis(Selva$totalpersonal) #varianza
#hist(Selva$totalpersonal)

#3.b #intervalos de confianza

library(lsr)
ciMean(data$totalpersonal[data$region=="Costa"], na.rm=T,conf = 0.95)

##          2.5%   97.5%
## [1,] 3.731722 8.28135

ciMean(data$totalpersonal[data$region=="Sierra"])

##          2.5%    97.5%
## [1,] 2.509454 2.805614

ciMean(data$totalpersonal[data$region=="selva"])

##          2.5%    97.5%
## [1,] 2.298272 3.268738

library(gplots)

## 
## Attaching package: 'gplots'

## The following object is masked from 'package:stats':
## 
##     lowess

plotmeans(data$totalpersonal~data$region)

## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, : zero-
## length arrow is of indeterminate angle and so skipped

## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, : zero-
## length arrow is of indeterminate angle and so skipped

#anova

anova<-aov(data$totalpersonal~data$region)
summary(anova)

##               Df Sum Sq Mean Sq F value   Pr(>F)    
## data$region    2   1501   750.6   25.52 1.37e-11 ***
## Residuals   1269  37330    29.4                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#Anova es menor a 0,05, por lo que podemos hay diferencia entre las medias de los grupos

TukeyHSD(anova)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = data$totalpersonal ~ data$region)
## 
## $`data$region`
##                    diff       lwr       upr     p adj
## Sierra-Costa -3.3490017 -4.452207 -2.245796 0.0000000
## selva-Costa  -3.2230308 -4.874792 -1.571270 0.0000153
## selva-Sierra  0.1259709 -1.226140  1.478082 0.9739989

#Podemos concluir que existe una gran brecha entre los trabajores entra las poblaciones de la costa con los de la selva y sierra. Esto se puede deber a que debido a la migración masiva de los 80 la costa albergo miles de migrantes, con lo que sus ciudadades se conviertieron en centros economicos del país. Por lo que a más complejo la zona, más burocracia se necesita.

Pregunta 4

Usando la misma base de datos

Indique cuál es el porcentaje de municipalidades en Perú que cuentan con servicio de internet (P12) en total y por región. Presente una tabla con los resultados y comente.

str(data$P12)

##  num [1:1272] 0 0 0 0 0 0 0 0 0 0 ...

table(data$P12)

## 
##    0    1 
## 1092  180

data$P12=factor(data$P12, levels = c(0:1), labels = c("No","Si"))
prop.table(table(data$P12))*100 #en total

## 
##       No       Si 
## 85.84906 14.15094

#str(Sierra$P12)
#Sierra$P12=factor(Sierra$P12, levels = c(0:1), labels =c("No","Si"))
#table(Sierra$P12)
#prop.table(table(Sierra$P12))*100 #en la sierra

#str(Selva$P12)
#Selva$P12=factor(Selva$P12, levels = c(0:1), labels=c("No","Si"))
#prop.table(table(Selva$P12))*100 #en la selva

#str(Costa$P12)
#Costa$P12=factor(Costa$P12, levels = c(0:1), labels = c("No","Si"))
#prop.table(table(Costa$P12))*100

#Podemos ver en los resultados la desiguldad evidente en entre el acceso a internet de la Costa en comparación con la selva y sierra. Esto se puede deber al centralismo de la costa, la dificl geografía de la sierra y selva que no permite que llegue el internet,etc.

Calcule los intervalos de confianza de la proporción de municipalidades con servicio de internet por región. Comente los resultados.

tabla1<-table(data$P12, data$region)
tabla1

##     
##      Costa Sierra selva
##   No    83    932    77
##   Si    70     90    20

#{r} #barplot(tabla1) #)

chisq.test(tabla1)

## 
##  Pearson's Chi-squared test
## 
## data:  tabla1
## X-squared = 153.14, df = 2, p-value < 2.2e-16

#es p valor es mayor a 0,05, por lo que podemos decir que las variables son estadisticamente independencia entre los grupos

Describa la relación en caso exista entre la región (region) y el contar con el servicio de internet (P12).

Respuesta a la pregunta 4: Podemos ver a lo largo de esta pregunta que la costa, a respecto a la sierra y selva, tiene más acceso a internet que ambas. Comentamos que est tal vez se deba al centralismo de la costa; la dificil geografía de la sierra y selva, que no permite que el intenet llegue. Además, el acceso a tecnología tampoco es lo mismo a comparación de costa con selva y sierra

Anexo

Código de la variable	Variable	Respuestas
coddpto	Departamento	1 Amazonas 2 Ancash 3 Apurímac 4 Arequipa 5 Ayacucho 6 Cajamarca 8 Cusco 9 Huancavelica 10 Huánuco 11 Ica 12 Junín 13 La Libertad 14 Lambayeque 15 Lima 16 Loreto 17 Madre de Dios 18 Moquegua 19 Pasco 20 Piura 21 Puno 22 San Martín 23 Tacna 24 Tumbes 25 Ucayali
P11_01_T	Total de personal nombrado
P11_02_T	Total de personal contratado
P12	Cuenta con servicio de Internet?	0 No 1 Sí

Examen Parcial

POL278 - ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO 1

Semestre 2022-1