Ver Gráfico 1
Comente los resultados (5 puntos) #En el grafico 2, podemos ver tres grafico de medias (plotmeans) que compara las preferencias de los votantes de Fujimori, PPk, Mendoza, Barnechea, Garcia y Santos con respecto a las tres anteriores variables, ideología, estatismo y discrecionalidad. En el grafico de medias de la izquierda, podemos ver las preferencias ideologias entre izquierda y derecha entre los votatantes de los candidatos anteriormente mencionados. Podemos ver (con cierto grado de error), que las unicas lineas que no se interpolan son los grupos de los votantes de Santos con los votantes de Fujimori y PPK. Podemos decir de este primer grafico que sí hay diferencia significativamente estadistica entre ambos grupos para afirmar que tienen distinto ideología política: los de Santos son de izquierda y los de PPK y Fujimori de derecha. En el segundo grafico, vemos la diferencia de los votantes con respecto a su posición frente a la estatalidad. En gran des razgos (con cierto grado de error), podemos ver que no hay diferencia significativamente estadistica; por lo que podemos decir que los votantes de todos los candidatos prefieren que el estado tenga más responsabilidades. En tercer lugar, respecto al grado de discrecionalidad tambíen podemos afirmar (con cierto grado de error) que no hay diferencia significativa entre los grupos de los votantes con respecto a la discrecionalidad del estado. Por lo que podemos afirmar que todos están de acuerdo con cierto grado de discrecionalidad.
Si la base de datos se llamada “base”, la variable izquierda-derecha “izqder”, el índice de estatismo “estat, el índice de discrecionalidad”disc” y el voto reportado en primera vuelta “voto1”, escriba el código que produciría estos resultados o gráficos (1 punto).
library(gplots) plotmeans(base\(izqrd~ base\)voto1, connect=F, barwidth=3, xlab=“Candidato”, ylab=“Grado”, main=“izq-der”) plotmeans(base\(estat ~ base\)voto1, connect=F, barwidth=3, xlab=“Candidato”, ylab=“Grado”, main=“estatismo) plotmeans(base\(disc~ base\)voto1, connect=F, barwidth=3, xlab=”Candidato”, ylab=“Grado”, main=“discrecionalidad”)
Ver Gráfico 2
Calcule los estadísticos descriptivos del total de personal por región y preséntelos en una tabla. Comente los resultados.
Calcule los intervalos de confianza de la media del total de personal por región. Presente una tabla con esos resultados y un gráfico. Compruebe mediante una prueba estadística si existen diferencias entre las medias del total de personal por región. Comente los resultados.
library(rio)
data=import("renamu.sav")
#crear nueva variable
str(data$coddpto)
## num [1:2740] 1 1 1 1 1 1 1 1 1 1 ...
## - attr(*, "format.spss")= chr "F8.2"
table(data$coddpto)
##
## 1 2 3 4 5 6 8 9 10 11 12 13 14 15 16 17 18 19 20 21
## 74 231 106 24 187 366 143 286 289 6 145 102 42 56 22 10 24 75 73 337
## 22 23 24 25
## 98 22 7 15
library(car)
## Loading required package: carData
data$coddpto=recode(data$coddpto, "11=1")
data$coddpto=recode(data$coddpto, "13=1")
data$coddpto=recode(data$coddpto, "14=1")
data$coddpto=recode(data$coddpto, "15=1")
data$coddpto=recode(data$coddpto, "20=1")
data$coddpto=recode(data$coddpto, "23=1")
data$coddpto=recode(data$coddpto, "24=1")
data$coddpto=recode(data$coddpto, "3=2")
data$coddpto=recode(data$coddpto, "4=2")
data$coddpto=recode(data$coddpto, "5=2")
data$coddpto=recode(data$coddpto, "6=2")
data$coddpto=recode(data$coddpto, "8=2")
data$coddpto=recode(data$coddpto, "9=2")
data$coddpto=recode(data$coddpto, "12=2")
data$coddpto=recode(data$coddpto, "18=2")
data$coddpto=recode(data$coddpto, "19=2")
data$coddpto=recode(data$coddpto, "21=2")
#data$coddpto=recode(data$coddpto, "1=3")
data$coddpto=recode(data$coddpto, "10=3")
data$coddpto=recode(data$coddpto, "16=3")
data$coddpto=recode(data$coddpto, "17=3")
data$coddpto=recode(data$coddpto, "22=3")
data$coddpto=recode(data$coddpto, "25=3")
table(data$coddpto)
##
## 1 2 3
## 382 1924 434
str(data$coddpto)
## num [1:2740] 1 1 1 1 1 1 1 1 1 1 ...
## - attr(*, "format.spss")= chr "F8.2"
data$region=factor(data$coddpto, levels = c(1:3), labels=c("Costa","Sierra","selva"))
table(data$region) #nueva variable region
##
## Costa Sierra selva
## 382 1924 434
#nueva variable total de personal contratado
str(data$P11_01_T)
## num [1:2740] NA 0 NA NA NA NA NA NA NA NA ...
## - attr(*, "format.spss")= chr "F8.2"
any(is.na(data$P11_01_T))
## [1] TRUE
data<-data[complete.cases(data$P11_01_T), ]
any(is.na(data$P11_01_T))
## [1] FALSE
str(data$P11_01_T)
## num [1:1272] 0 0 0 0 0 0 0 0 0 0 ...
summary(data$P11_01_T)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0000 0.0000 0.2343 0.0000 36.0000
table(data$P11_01_T)
##
## 0 1 2 3 4 5 6 7 10 11 14 36
## 1132 94 18 9 9 3 2 1 1 1 1 1
str(data$P11_02_T)
## num [1:1272] 1 6 1 2 2 4 2 1 2 4 ...
any(is.na(data$P11_02_T))
## [1] FALSE
data$totalpersonal=data$P11_01_T+data$P11_02_T #nueva variable
any(is.na(data$totalpersonal))
## [1] FALSE
summary(data$totalpersonal)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 1.00 2.00 3.07 4.00 162.00
#3.a estadisticos descriptivos
#Costa=subset(data, region=="Costa") #primera variable Costa
#summary(Costa$totalpersonal)
#sd(Costa$totalpersonal) #desviación estandar
#var(Costa$totalpersonal) #varianza
#skewness(Costa$totalpersonal) #asimetría
#kurtosis(Costa$totalpersonal) #curtosis
#hist(Costa$totalpersonal)
#Sierra=subset(data, region=="Sierra") #segunda variable: sierra
#summary(Sierra$totalpersonal)
#sd(Sierra$totalpersonal) #desviación estandar
#var(Sierra$totalpersonal) #varianza
#skewness(data$totalpersonal) #asimetra
#kurtosis(data$totalpersonal) #kurtosis
#hist(Sierra$totalpersonal)
#Selva=subset(data, region=="selva")
#summary(Selva$totalpersonal)
#sd(Selva$totalpersonal) #desiación estandar
#var(Selva$totalpersonal) #varianza
#skewness(data$totalpersonal) #asimetria
#kurtosis(Selva$totalpersonal) #varianza
#hist(Selva$totalpersonal)
#3.b #intervalos de confianza
library(lsr)
ciMean(data$totalpersonal[data$region=="Costa"], na.rm=T,conf = 0.95)
## 2.5% 97.5%
## [1,] 3.731722 8.28135
ciMean(data$totalpersonal[data$region=="Sierra"])
## 2.5% 97.5%
## [1,] 2.509454 2.805614
ciMean(data$totalpersonal[data$region=="selva"])
## 2.5% 97.5%
## [1,] 2.298272 3.268738
library(gplots)
##
## Attaching package: 'gplots'
## The following object is masked from 'package:stats':
##
## lowess
plotmeans(data$totalpersonal~data$region)
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, : zero-
## length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, : zero-
## length arrow is of indeterminate angle and so skipped
#anova
anova<-aov(data$totalpersonal~data$region)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## data$region 2 1501 750.6 25.52 1.37e-11 ***
## Residuals 1269 37330 29.4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#Anova es menor a 0,05, por lo que podemos hay diferencia entre las medias de los grupos
TukeyHSD(anova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = data$totalpersonal ~ data$region)
##
## $`data$region`
## diff lwr upr p adj
## Sierra-Costa -3.3490017 -4.452207 -2.245796 0.0000000
## selva-Costa -3.2230308 -4.874792 -1.571270 0.0000153
## selva-Sierra 0.1259709 -1.226140 1.478082 0.9739989
#Podemos concluir que existe una gran brecha entre los trabajores entra las poblaciones de la costa con los de la selva y sierra. Esto se puede deber a que debido a la migración masiva de los 80 la costa albergo miles de migrantes, con lo que sus ciudadades se conviertieron en centros economicos del país. Por lo que a más complejo la zona, más burocracia se necesita.
str(data$P12)
## num [1:1272] 0 0 0 0 0 0 0 0 0 0 ...
table(data$P12)
##
## 0 1
## 1092 180
data$P12=factor(data$P12, levels = c(0:1), labels = c("No","Si"))
prop.table(table(data$P12))*100 #en total
##
## No Si
## 85.84906 14.15094
#str(Sierra$P12)
#Sierra$P12=factor(Sierra$P12, levels = c(0:1), labels =c("No","Si"))
#table(Sierra$P12)
#prop.table(table(Sierra$P12))*100 #en la sierra
#str(Selva$P12)
#Selva$P12=factor(Selva$P12, levels = c(0:1), labels=c("No","Si"))
#prop.table(table(Selva$P12))*100 #en la selva
#str(Costa$P12)
#Costa$P12=factor(Costa$P12, levels = c(0:1), labels = c("No","Si"))
#prop.table(table(Costa$P12))*100
#Podemos ver en los resultados la desiguldad evidente en entre el acceso a internet de la Costa en comparación con la selva y sierra. Esto se puede deber al centralismo de la costa, la dificl geografía de la sierra y selva que no permite que llegue el internet,etc.
tabla1<-table(data$P12, data$region)
tabla1
##
## Costa Sierra selva
## No 83 932 77
## Si 70 90 20
#{r} #barplot(tabla1) #)
chisq.test(tabla1)
##
## Pearson's Chi-squared test
##
## data: tabla1
## X-squared = 153.14, df = 2, p-value < 2.2e-16
#es p valor es mayor a 0,05, por lo que podemos decir que las variables son estadisticamente independencia entre los grupos
| Código de la variable | Variable | Respuestas |
|---|---|---|
| coddpto | Departamento | 1 Amazonas 2 Ancash 3 Apurímac 4 Arequipa 5 Ayacucho 6 Cajamarca 8 Cusco 9 Huancavelica 10 Huánuco 11 Ica 12 Junín 13 La Libertad 14 Lambayeque 15 Lima 16 Loreto 17 Madre de Dios 18 Moquegua 19 Pasco 20 Piura 21 Puno 22 San Martín 23 Tacna 24 Tumbes 25 Ucayali |
| P11_01_T | Total de personal nombrado | |
| P11_02_T | Total de personal contratado | |
| P12 | Cuenta con servicio de Internet? | 0 No 1 Sí |