Nombre del estudiante: (escribir su nombre)

Indicaciones

Preguntas

Pregunta 1

  1. El siguiente gráfico corresponde a una encuesta de opinión realizada después de la primera vuelta, pero antes de la segunda vuelta de la elección presidencial 2016 en Perú. La muestra fue de 1574 personas y fue representativa de la población electoral residente en el país. Los resultados muestran los gráficos de cajas de la variable izquierda-derecha y de índices aditivos de “Estatismo” y de “Discrecionalidad”, todos estandarizados entre 0-100. Para la variable de izquierda-derecha, el valor de cero significa izquierda y el de 100 derecha. Para los índices, el valor de cero significa menos de la variable (bajos valores) y el de 100, más de la variable (altos valores).

Ver Gráfico 1

Respuesta a la pregunta 1: En el grafico podemos ver un grafico boxplot de triple entrada. Los boxplor nos sirven para calular los casos atipicos y luego aislarlos; pueden servir para variables ordinales y númericas. En este grafico, en especial, podemos ver los resultados de una encuesta de opinición pública realizada después de la primera vuelta, pero antes de la segunda vuelta de la elección presidencial 2016 en Perú. Todas las variables están estandarizadas entre 0-100. En primer lugar, podemos ver que la mediana, la linea negra marcada, en el grafico de la variable de izr-der se ubica entre 50 y 75%; la linea base del rectangulo (el que está más proximo a 0) nos indice el primer quintil y; por otro lado, la linea superior (más proxima a 100) nos indica el tercer quintil. Por lo que podemos intuir que las preferencias ideologias en el proceso electoral presidencial del 2016 se inclino hacía la derecha en el aspectro politico. Podemos ver eso en las elecciones del 2016, donde ambos candidatos, Keiko y PKK, fueron de tendencia derechista. En segundo lugar, en el grafico de estatismo, podemos ver que la mediana está entre 75 y 100. A diferencia del caso anterior, podemos observar pequenos puntos negros; lo que nos quiere decir que son casos atipicos, por lo que el boxplot los separá y los enmarca. Entonces, podemos intuir que las preferencias sobre el estatismo en las elecciones 2016 fue alta, pero se evidencia que grupos minoritarios están se acuerdo con poco estatismo; es decir, estos grupos minoritarios quieren, entre otras cosas, que el estado no tenga tantas responsabilidades. En tercer lugar, en el último grafico sobre la discrecionalidad podemos ver que el la media está entre 50 y 75, pero se puede afirmar que es una mediana menor a la de los otros dos graficos antes mencionados. En este caso no se evidencian casos atipicos. Podemos afirmar, entonces, que las preferencias electorales sobre la discrecionalidad fue un poco alta; por lo que podemos ver que las personas quieren que el estado sea libre en sus decisiones. Finalmente, podemos concluir de los tres graficos que las personas de tendencia hacía la derecha, paradojicamente, quieren que el estado tenga más responsabilidades pero a la vez un poco de indipendencia.

Pregunta 2

  1. Usando la misma encuesta, el siguiente gráfico presenta los resultados de las variables izquierda-derecha, estatismo y discrecionalidad según por quién reportó el encuestado que votó en primera vuelta.
  1. Comente los resultados (5 puntos) #En el grafico 2, podemos ver tres grafico de medias (plotmeans) que compara las preferencias de los votantes de Fujimori, PPk, Mendoza, Barnechea, Garcia y Santos con respecto a las tres anteriores variables, ideología, estatismo y discrecionalidad. En el grafico de medias de la izquierda, podemos ver las preferencias ideologias entre izquierda y derecha entre los votatantes de los candidatos anteriormente mencionados. Podemos ver (con cierto grado de error), que las unicas lineas que no se interpolan son los grupos de los votantes de Santos con los votantes de Fujimori y PPK. Podemos decir de este primer grafico que sí hay diferencia significativamente estadistica entre ambos grupos para afirmar que tienen distinto ideología política: los de Santos son de izquierda y los de PPK y Fujimori de derecha. En el segundo grafico, vemos la diferencia de los votantes con respecto a su posición frente a la estatalidad. En gran des razgos (con cierto grado de error), podemos ver que no hay diferencia significativamente estadistica; por lo que podemos decir que los votantes de todos los candidatos prefieren que el estado tenga más responsabilidades. En tercer lugar, respecto al grado de discrecionalidad tambíen podemos afirmar (con cierto grado de error) que no hay diferencia significativa entre los grupos de los votantes con respecto a la discrecionalidad del estado. Por lo que podemos afirmar que todos están de acuerdo con cierto grado de discrecionalidad.

  2. Si la base de datos se llamada “base”, la variable izquierda-derecha “izqder”, el índice de estatismo “estat, el índice de discrecionalidad”disc” y el voto reportado en primera vuelta “voto1”, escriba el código que produciría estos resultados o gráficos (1 punto).

library(gplots) plotmeans(base\(izqrd~ base\)voto1, connect=F, barwidth=3, xlab=“Candidato”, ylab=“Grado”, main=“izq-der”) plotmeans(base\(estat ~ base\)voto1, connect=F, barwidth=3, xlab=“Candidato”, ylab=“Grado”, main=“estatismo) plotmeans(base\(disc~ base\)voto1, connect=F, barwidth=3, xlab=”Candidato”, ylab=“Grado”, main=“discrecionalidad”)

Ver Gráfico 2

Respuesta a la pregunta 2:

Pregunta 3

  1. Usando la base de datos del Registro Nacional de Municipalidades 2020. A partir de la variable de departamento (“coddpto”), crear una nueva variable llamada “region” que tenga 3 categorías: 1) Costa, 2) Sierra y 3) Selva. También, a partir de las variables del total de personal nombrado (“P11_01_T”) y del total de personal contratado (“P11_02_T”), calcule una variable para el total de personal (“perso”).
  1. Calcule los estadísticos descriptivos del total de personal por región y preséntelos en una tabla. Comente los resultados.

  2. Calcule los intervalos de confianza de la media del total de personal por región. Presente una tabla con esos resultados y un gráfico. Compruebe mediante una prueba estadística si existen diferencias entre las medias del total de personal por región. Comente los resultados.

Respuesta a la pregunta 3:

library(rio)
data=import("renamu.sav")

#crear nueva variable

str(data$coddpto)
##  num [1:2740] 1 1 1 1 1 1 1 1 1 1 ...
##  - attr(*, "format.spss")= chr "F8.2"
table(data$coddpto)
## 
##   1   2   3   4   5   6   8   9  10  11  12  13  14  15  16  17  18  19  20  21 
##  74 231 106  24 187 366 143 286 289   6 145 102  42  56  22  10  24  75  73 337 
##  22  23  24  25 
##  98  22   7  15
library(car)
## Loading required package: carData
data$coddpto=recode(data$coddpto, "11=1")
data$coddpto=recode(data$coddpto, "13=1")
data$coddpto=recode(data$coddpto, "14=1")
data$coddpto=recode(data$coddpto, "15=1")
data$coddpto=recode(data$coddpto, "20=1")
data$coddpto=recode(data$coddpto, "23=1")
data$coddpto=recode(data$coddpto, "24=1")

data$coddpto=recode(data$coddpto, "3=2")
data$coddpto=recode(data$coddpto, "4=2")
data$coddpto=recode(data$coddpto, "5=2")
data$coddpto=recode(data$coddpto, "6=2")
data$coddpto=recode(data$coddpto, "8=2")
data$coddpto=recode(data$coddpto, "9=2")
data$coddpto=recode(data$coddpto, "12=2")
data$coddpto=recode(data$coddpto, "18=2")
data$coddpto=recode(data$coddpto, "19=2")
data$coddpto=recode(data$coddpto, "21=2")

#data$coddpto=recode(data$coddpto, "1=3")
data$coddpto=recode(data$coddpto, "10=3")
data$coddpto=recode(data$coddpto, "16=3")
data$coddpto=recode(data$coddpto, "17=3")
data$coddpto=recode(data$coddpto, "22=3")
data$coddpto=recode(data$coddpto, "25=3")

table(data$coddpto)
## 
##    1    2    3 
##  382 1924  434
str(data$coddpto)
##  num [1:2740] 1 1 1 1 1 1 1 1 1 1 ...
##  - attr(*, "format.spss")= chr "F8.2"
data$region=factor(data$coddpto, levels = c(1:3), labels=c("Costa","Sierra","selva"))
table(data$region) #nueva variable region
## 
##  Costa Sierra  selva 
##    382   1924    434

#nueva variable total de personal contratado

str(data$P11_01_T)
##  num [1:2740] NA 0 NA NA NA NA NA NA NA NA ...
##  - attr(*, "format.spss")= chr "F8.2"
any(is.na(data$P11_01_T))
## [1] TRUE
data<-data[complete.cases(data$P11_01_T), ]
any(is.na(data$P11_01_T))
## [1] FALSE
str(data$P11_01_T)
##  num [1:1272] 0 0 0 0 0 0 0 0 0 0 ...
summary(data$P11_01_T)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.2343  0.0000 36.0000
table(data$P11_01_T)
## 
##    0    1    2    3    4    5    6    7   10   11   14   36 
## 1132   94   18    9    9    3    2    1    1    1    1    1
str(data$P11_02_T)
##  num [1:1272] 1 6 1 2 2 4 2 1 2 4 ...
any(is.na(data$P11_02_T))
## [1] FALSE
data$totalpersonal=data$P11_01_T+data$P11_02_T #nueva variable
any(is.na(data$totalpersonal))
## [1] FALSE
summary(data$totalpersonal)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    1.00    2.00    3.07    4.00  162.00

#3.a estadisticos descriptivos

#Costa=subset(data, region=="Costa") #primera variable Costa
#summary(Costa$totalpersonal)
#sd(Costa$totalpersonal) #desviación estandar
#var(Costa$totalpersonal) #varianza
#skewness(Costa$totalpersonal) #asimetría
#kurtosis(Costa$totalpersonal) #curtosis
#hist(Costa$totalpersonal)
#Sierra=subset(data, region=="Sierra") #segunda variable: sierra
#summary(Sierra$totalpersonal)
#sd(Sierra$totalpersonal) #desviación estandar
#var(Sierra$totalpersonal) #varianza
#skewness(data$totalpersonal) #asimetra
#kurtosis(data$totalpersonal) #kurtosis
#hist(Sierra$totalpersonal)
#Selva=subset(data, region=="selva")
#summary(Selva$totalpersonal) 
#sd(Selva$totalpersonal) #desiación estandar
#var(Selva$totalpersonal) #varianza
#skewness(data$totalpersonal) #asimetria
#kurtosis(Selva$totalpersonal) #varianza
#hist(Selva$totalpersonal)

#3.b #intervalos de confianza

library(lsr)
ciMean(data$totalpersonal[data$region=="Costa"], na.rm=T,conf = 0.95)
##          2.5%   97.5%
## [1,] 3.731722 8.28135
ciMean(data$totalpersonal[data$region=="Sierra"])
##          2.5%    97.5%
## [1,] 2.509454 2.805614
ciMean(data$totalpersonal[data$region=="selva"])
##          2.5%    97.5%
## [1,] 2.298272 3.268738
library(gplots)
## 
## Attaching package: 'gplots'
## The following object is masked from 'package:stats':
## 
##     lowess
plotmeans(data$totalpersonal~data$region)
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, : zero-
## length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, : zero-
## length arrow is of indeterminate angle and so skipped

#anova

anova<-aov(data$totalpersonal~data$region)
summary(anova)
##               Df Sum Sq Mean Sq F value   Pr(>F)    
## data$region    2   1501   750.6   25.52 1.37e-11 ***
## Residuals   1269  37330    29.4                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#Anova es menor a 0,05, por lo que podemos hay diferencia entre las medias de los grupos

TukeyHSD(anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = data$totalpersonal ~ data$region)
## 
## $`data$region`
##                    diff       lwr       upr     p adj
## Sierra-Costa -3.3490017 -4.452207 -2.245796 0.0000000
## selva-Costa  -3.2230308 -4.874792 -1.571270 0.0000153
## selva-Sierra  0.1259709 -1.226140  1.478082 0.9739989

#Podemos concluir que existe una gran brecha entre los trabajores entra las poblaciones de la costa con los de la selva y sierra. Esto se puede deber a que debido a la migración masiva de los 80 la costa albergo miles de migrantes, con lo que sus ciudadades se conviertieron en centros economicos del país. Por lo que a más complejo la zona, más burocracia se necesita.

Pregunta 4

  1. Usando la misma base de datos

Indique cuál es el porcentaje de municipalidades en Perú que cuentan con servicio de internet (P12) en total y por región. Presente una tabla con los resultados y comente.

str(data$P12)
##  num [1:1272] 0 0 0 0 0 0 0 0 0 0 ...
table(data$P12)
## 
##    0    1 
## 1092  180
data$P12=factor(data$P12, levels = c(0:1), labels = c("No","Si"))
prop.table(table(data$P12))*100 #en total
## 
##       No       Si 
## 85.84906 14.15094
#str(Sierra$P12)
#Sierra$P12=factor(Sierra$P12, levels = c(0:1), labels =c("No","Si"))
#table(Sierra$P12)
#prop.table(table(Sierra$P12))*100 #en la sierra
#str(Selva$P12)
#Selva$P12=factor(Selva$P12, levels = c(0:1), labels=c("No","Si"))
#prop.table(table(Selva$P12))*100 #en la selva
#str(Costa$P12)
#Costa$P12=factor(Costa$P12, levels = c(0:1), labels = c("No","Si"))
#prop.table(table(Costa$P12))*100

#Podemos ver en los resultados la desiguldad evidente en entre el acceso a internet de la Costa en comparación con la selva y sierra. Esto se puede deber al centralismo de la costa, la dificl geografía de la sierra y selva que no permite que llegue el internet,etc.

  1. Calcule los intervalos de confianza de la proporción de municipalidades con servicio de internet por región. Comente los resultados.
tabla1<-table(data$P12, data$region)
tabla1
##     
##      Costa Sierra selva
##   No    83    932    77
##   Si    70     90    20

#{r} #barplot(tabla1) #)

chisq.test(tabla1)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla1
## X-squared = 153.14, df = 2, p-value < 2.2e-16

#es p valor es mayor a 0,05, por lo que podemos decir que las variables son estadisticamente independencia entre los grupos

  1. Describa la relación en caso exista entre la región (region) y el contar con el servicio de internet (P12).

Respuesta a la pregunta 4: Podemos ver a lo largo de esta pregunta que la costa, a respecto a la sierra y selva, tiene más acceso a internet que ambas. Comentamos que est tal vez se deba al centralismo de la costa; la dificil geografía de la sierra y selva, que no permite que el intenet llegue. Además, el acceso a tecnología tampoco es lo mismo a comparación de costa con selva y sierra

Anexo

Código de la variable Variable Respuestas
coddpto Departamento

1 Amazonas

2 Ancash

3 Apurímac

4 Arequipa

5 Ayacucho

6 Cajamarca

8 Cusco

9 Huancavelica

10 Huánuco

11 Ica

12 Junín

13 La Libertad

14 Lambayeque

15 Lima

16 Loreto

17 Madre de Dios

18 Moquegua

19 Pasco

20 Piura

21 Puno

22 San Martín

23 Tacna

24 Tumbes

25 Ucayali

P11_01_T Total de personal nombrado
P11_02_T Total de personal contratado
P12 Cuenta con servicio de Internet?

0 No

1 Sí