Nombre del estudiante: Camila Lira Dávila

Indicaciones

Preguntas

Pregunta 1

  1. El siguiente gráfico corresponde a una encuesta de opinión realizada después de la primera vuelta, pero antes de la segunda vuelta de la elección presidencial 2016 en Perú. La muestra fue de 1574 personas y fue representativa de la población electoral residente en el país. Los resultados muestran los gráficos de cajas de la variable izquierda-derecha y de índices aditivos de “Estatismo” y de “Discrecionalidad”, todos estandarizados entre 0-100. Para la variable de izquierda-derecha, el valor de cero significa izquierda y el de 100 derecha. Para los índices, el valor de cero significa menos de la variable (bajos valores) y el de 100, más de la variable (altos valores).

Ver Gráfico 1

Respuesta a la pregunta 1:

Respecto al rango intercuartil, se observa que la variable Estatismo presenta el más pequeño, seguido de la variable discrecionalidad. El rango intercuartil más alto lo tiene la variable que “izquierda-derecha”. Así, se puede concluir que hay una mayor variabilidad en esta última variable en comparación con las otras 2. Se observa, gráficamente, que de 0 a 25% de la población se ubicaría en una posición desde la izquierda más extrema (0) hacia un centro izquierda e izquierda. En otras palabras, el cuartil uno nos indica que el 25% de la población se encuentra entre la izquierda extrema y la el centro. Entre el 75% y 100% (cuartil 3) de la población se observa una posición de derecha bastante fuerte (más de 90 aproximadamente). La mediana, de un valor aproximado de 60, nos indica que el 50% de la población se considera, o entre derecha extrema a una posición de centro derecha (ya que el centro podría verse como el puntaje 50) y el otro 50% se ubica entre una posición de extrema izquierda a a centro derecha.
Se observa que la caja se ubica en la segunda mitad del eje x, que indica el puntaje de 0 a 100, por lo que podemos decir que es probable que exista una asimetría sesgada a la izquierda ya que hay una mayor concentración de datos positivos. Respecto a la variable estatismo, se observa que las personas ubicadas por encima del tercer cuartil (del 75% al 100% de la población) marcó un puntaje alto en nivel de estatismo: aproxiamdamente 87%. Entre un 0 a 25% de los ncuestados considera que el nivel de estatismo debería ser de 0 a 65 aproxiamadamente. Aunque con bastantes datos atípicos ya que el límite inferior está por encima de 37 puntos proximadamente. 50% de la población considera que que debería haber un nivel alto de estatalidad (más de 75 puntos) y e 50% considera que debería haber menos de 75 puntos de estatismo. Aunque considerando que hay un importante número de datos atípicos, se podría decir que es más importante resalta que 50% de la población, no está a favor de niveles bajos de estatismo, ya que marcó por encima de 35 puntos aproximadamente. La mediana confirma que la población tiene una tendencia a preferir niveles altos de estaismo. Así se explica el alto valor de la mediana. Por último, los datos se encuentran concentrados en puntajes altos, por lo que se podría decir que hay una distribucuión sesgada a la izquierda. Respecto a la discrecionalidad, se observa que tiene el segundo rango intercuartil más alto por lo que tiene una variabilidad relativamente alta. Sus datos se posicionan al medio del eje x y la mediana se encuentra en una posición bastante cercana al puntaje 50. Esta variable es la más cercana a una distribución simétrica, aunque parec estar ligeramente sesgada a la izquierda. Por otro lado, vemos diferencias en las medianas. La mediana más alta es la de estatismo. La segunda mediana más alta corresponde a la variable izquierda-derecha. La mediana más baja pertenece a la variable discrecionalidad.

A partir del análisis anterior se observa que la amyoría de la población reclama por un Estado más presente. A pesar de que hay una mayoría que se considera de centro derecha a derecha, muchos reclaman un mayor Estado. Esto se puede explicar a partir de la tesis de Alberto Vergara en su libro NI Amnésicos ni irracionales. Este indica que una gran cantidad de la población espera ser reconocidad como ciudadana por el Estado y como nacional. En ese sentido, mucho aún esperar un Estado más presente, ya que este aún no ha llegado a cubrir las funciones esenciales a muchas partes del país. Pero esto no necesariamente confluye en una población de izquierda. En el contexto neoliberal, las personas consideran que una economía de libre mercado va a ayudar al desarrollo. También puede estar relacioando al rezago que nos ha dejado Sendero Luminoso.

Pregunta 2

  1. Usando la misma encuesta, el siguiente gráfico presenta los resultados de las variables izquierda-derecha, estatismo y discrecionalidad según por quién reportó el encuestado que votó en primera vuelta.
  1. Comente los resultados (5 puntos). En el gráfico se observa que hay un alto nivel de estatismo en la población, un nivel medio en discrecionalidad que se refiere a la libertad para actuar de las ersonas respecto al Estado y una población de centro derecho principalmente. Es interesente observar que aún las personas que votan por candidatos de derecho desean que haya un alto nivel de presencia estatal.

  2. Si la base de datos se llamada “base”, la variable izquierda-derecha “izqder”, el índice de estatismo “estat, el índice de discrecionalidad”disc” y el voto reportado en primera vuelta “voto1”, escriba el código que produciría estos resultados o gráficos (1 punto).

Ver Gráfico 2

Respuesta a la pregunta 2:

Pregunta 3

  1. Usando la base de datos del Registro Nacional de Municipalidades 2020. A partir de la variable de departamento (“coddpto”), crear una nueva variable llamada “region” que tenga 3 categorías: 1) Costa, 2) Sierra y 3) Selva. También, a partir de las variables del total de personal nombrado (“P11_01_T”) y del total de personal contratado (“P11_02_T”), calcule una variable para el total de personal (“perso”).
  1. Calcule los estadísticos descriptivos del total de personal por región y preséntelos en una tabla. Comente los resultados.

  2. Calcule los intervalos de confianza de la media del total de personal por región. Presente una tabla con esos resultados y un gráfico. Compruebe mediante una prueba estadística si existen diferencias entre las medias del total de personal por región. Comente los resultados.

Respuesta a la pregunta 3:

library(rio)
data=import("renamu.sav")

parte 1: crear variable región

summary(data$coddpto)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    6.00    9.00   10.72   15.00   25.00
table(data$coddpto)
## 
##   1   2   3   4   5   6   8   9  10  11  12  13  14  15  16  17  18  19  20  21 
##  74 231 106  24 187 366 143 286 289   6 145 102  42  56  22  10  24  75  73 337 
##  22  23  24  25 
##  98  22   7  15
data$region = factor(data$coddpto, levels = c(1:25), labels = c("Selva","Sierra","Selva","Sierra","Sierra","Sierra","Sierra","Sierra","Sierra","Sierra","Costa","Sierra","Costa",
"Costa","Costa","Selva","Selva","Sierra","Sierra","Costa","Sierra","Selva","Sierra","Costa","Selva"))
table(data$region)
## 
##  Selva Sierra  Costa 
##    325   2129    286
summary(data$region)
##  Selva Sierra  Costa 
##    325   2129    286
data$perso=data$P11_01_T+data$P11_02_T
table(data$perso)
## 
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  23  26  27 
## 406 327 210 141  79  34  16  15   4   5   7   4   3   2   4   6   3   1   1   1 
##  30  67 162 
##   1   1   1
summary(data$region)
##  Selva Sierra  Costa 
##    325   2129    286
summary(data$perso)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    1.00    1.00    2.00    3.07    4.00  162.00    1468
data=data[complete.cases(data$perso),]
summary(data$perso)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    1.00    2.00    3.07    4.00  162.00
persocosta= data[data$region=="Costa", "perso"]
persocosta
##   [1]   2   2   2   1   4  15  15   8   6   5   4  67   7  11   3   4  16   4
##  [19]   1   3   3   6   3  11   3   6   1   4   4   2   2   1   2   3   2   4
##  [37]   5   1   1   6   3   1   4   8   4   6   4   3   1   1   4   4   3   2
##  [55]   4   3   2   2   1 162   3   2   1   1   1   6  17   6  10   3   6   7
##  [73]   8   5  12   2  10   8   6   7  11   3   8   5   1   2   2   1   1   1
##  [91]   1   1   1   1   2   1   8   2   1   1   1   1   2   2   1   2   2   1
## [109]   2   7   2   1   2   2   1   2   6   1   1   2   2   2   2   4   2   4
## [127]  12  17  16  11   9   8   5   6  16   4   6   8   5   3  16  13  13   3
persosierra= data[data$region=="Sierra", "perso"]
persoselva= data[data$region=="Selva", "perso"]
mean(persocosta, na.rm = TRUE)
## [1] 6.076389
median(persocosta, na.rm = TRUE)
## [1] 3
#La media del total de personal en la regió costa es 6
mean(persosierra, na.rm = TRUE)
## [1] 2.636719
median(persosierra, na.rm = TRUE)
## [1] 2
mean(persoselva, na.rm = TRUE)
## [1] 3.173077
median(persoselva, na.rm = TRUE)
## [1] 2
#asimetría y curtosis
library(e1071)
skewness(data$persosierra) 
## Warning in mean.default(x): argument is not numeric or logical: returning NA
## [1] NaN
kurtosis(data$persosierra) 
## Warning in mean.default(x): argument is not numeric or logical: returning NA
## [1] NaN

intervalos de confianza

library(Rmisc)
## Loading required package: lattice
## Loading required package: plyr
ci.indicador1 <- CI(persocosta, ci=0.95)
ci.indicador2 <- CI(persosierra, ci=0.95)
anova=aov(data$perso ~ data$region)
summary(anova)
##               Df Sum Sq Mean Sq F value   Pr(>F)    
## data$region    2   1495   747.4    25.4 1.52e-11 ***
## Residuals   1269  37336    29.4                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#El p-value es 1.52e-11, es decir, menor a 0.05. Por lo tanto, se comrpueba que existe diferencia estadísticamente significativa entre al menos dos pares de grupos analizados con un 95% de confianza 
TukeyHSD(anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = data$perso ~ data$region)
## 
## $`data$region`
##                    diff       lwr       upr     p adj
## Sierra-Selva -0.5363582 -1.846244 0.7735275 0.6018362
## Costa-Selva   2.9033120  1.265465 4.5411593 0.0001009
## Costa-Sierra  3.4396701  2.306916 4.5724244 0.0000000
#A partir de la prueba, se observa que la diferencia se encuentra entre las medias de los grupos Costa y Selva y Costa y Sierra
plot(TukeyHSD(anova))

#Esto se comrpueba gráficamente ya que el único intervalo cruza el 0 es el que corresponde a las medias de Sierra y Selva
library(gplots)
## 
## Attaching package: 'gplots'
## The following object is masked from 'package:stats':
## 
##     lowess
plotmeans(data$perso ~ data$region, connect=F, barwidth=6, xlab="Región", ylab="Total del personal",
main="Promedio del total de personal por región")
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, : zero-
## length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, : zero-
## length arrow is of indeterminate angle and so skipped

#Como se observa en el gráfico, los únicos intervalos que se traslapan son los de la Selva y la Sierra. Por lo tanto, entre estos dos últimos grupos no existe diferencia estadísticamente significativa. La media del personal de la Costa en mayor al de las otras dos regiones, por lo que vemos que existe un Estado que aún no puede cubrir ni territorializar a la población de otras regiones. 

Pregunta 4

  1. Usando la misma base de datos
  1. Indique cuál es el porcentaje de municipalidades en Perú que cuentan con servicio de internet (P12) en total y por región. Presente una tabla con los resultados y comente.
  2. Calcule los intervalos de confianza de la proporción de municipalidades con servicio de internet por región. Comente los resultados.
  3. Describa la relación en caso exista entre la región (region) y el contar con el servicio de internet (P12).

Respuesta a la pregunta 4:

table(data$P12)
## 
##    0    1 
## 1092  180
data$P12=factor(data$P12)
table(data$P12)
## 
##    0    1 
## 1092  180

Anexo

Código de la variable Variable Respuestas
coddpto Departamento

1 Amazonas

2 Ancash

3 Apurímac

4 Arequipa

5 Ayacucho

6 Cajamarca

8 Cusco

9 Huancavelica

10 Huánuco

11 Ica

12 Junín

13 La Libertad

14 Lambayeque

15 Lima

16 Loreto

17 Madre de Dios

18 Moquegua

19 Pasco

20 Piura

21 Puno

22 San Martín

23 Tacna

24 Tumbes

25 Ucayali

P11_01_T Total de personal nombrado
P11_02_T Total de personal contratado
P12 Cuenta con servicio de Internet?

0 No

1 Sí