PC

library(rio)
link='https://github.com/JoseManuelMagallanes/Estadistica_Para_AnalisisPolitico/raw/master/lapop17.dta'
lapop17=import("https://github.com/JoseManuelMagallanes/Estadistica_Para_AnalisisPolitico/raw/master/lapop17.dta")

str(lapop17)

names(lapop17)

Nombres sin espacios

# aqui dividimos al nombre actual en el primer espacio, y nos quedamos con el elemento a la izquierda:

library(stringr)
names(lapop17)=str_split(names(lapop17)," ",simplify = T)[,1]

Nombres sin simbolos “raros”

names(lapop17)=str_replace_all(names(lapop17), "[^[:ascii:]]", "")

Valores del data frame sin simbolos “raros”

lapop17[,]=lapply(lapop17[,], str_replace_all,"[^[:ascii:]]","")

Veamos qué tenemos hasta ahora

names(lapop17)

str(lapop17)

lapop17$municipio=as.factor(lapop17$municipio)

library(questionr)
library(magrittr)
NomOE=freq(lapop17$municipio,cum = T)%>%data.frame()
NomOE=data.frame(variable=row.names(NomOE),NomOE,row.names = NULL)
NomOE

library(ggplot2)
base = ggplot(data=NomOE,aes(x=variable,y=n)) 

bar1 = base + geom_bar(stat='identity') 

bar1

¿Cree la mayoria de la gente que los servicios que dan los municipios son malos?

Sí, la mayoría cree que los servicios son malos.

¿Esa creencia es relevante o no?

Mode(lapop17$municipio)

Sí, es relevante.

¿Podemos afirmar que alrededor de 70% de los entrevistados cree que los derechos básicos del ciudadano estan a los mås medianamente protegidos por el sistema político peruano?

# tabla de frecuencias avanzada
library(questionr)
library(magrittr)
OrdDf=freq(lapop17$Regimetype,total = F,exclude = c(NA),cum = T) %>% data.frame()
OrdDf=data.frame(row.names(OrdDf),OrdDf,row.names = NULL)

names(OrdDf)=c("Categoria","Conteo", "Porcentaje", "Porcentaje Acumulado")
# viendo a NomDf
OrdDf

Parte 2. Para esta parte descargue la información de cada país sobre el índice de felicidad

library(htmltab)

# coleccion
links=list(web="https://es.wikipedia.org/wiki/%C3%8Dndice_global_de_felicidad",
           xpath ='//*[@id="mw-content-text"]/div/table')
demo<- htmltab(doc = links$web, which =links$xpath)

str(demo)

names(demo)

2.2. Pre procesamiento:

Nombres sin espacios

# aqui dividimos al nombre actual en el primer espacio, y nos quedamos con el elemento a la izquierda:

library(stringr)
names(demo)=str_split(names(demo)," ",simplify = T)[,1]

Nombres sin simbolos “raros”

names(demo)=str_replace_all(names(demo), "[^[:ascii:]]", "")

Valores del data frame sin simbolos “raros”

demo[,]=lapply(demo[,], str_replace_all,"[^[:ascii:]]","")

demo$Puntuacin=as.numeric(demo$Puntuacin)

Veamos qué tenemos hasta ahora

names(demo)

# ver tabla

table(demo$Puntuacin)

¿La puntuación de la felicidad se distribuye asimetricamente?

library(ggplot2)
# en base solo se pone: en data como se llama la tabla de frecuencias
# y en aes la variable 'x' para los nombres y la 'y' para los conteos.
base = ggplot(data=OrdDf,aes(x=Categoria , y=Conteo)) 
# luego a la base se le pide añadir la 'geometria' deseada:
bar1 = base + geom_bar(stat='identity') 

# aqui resultado:
bar1 + scale_x_discrete(limits =OrdDf$Categoria)

No es simétrica

library(ggplot2)
basep=ggplot(data=demo, aes(y=as.numeric(Puntuacin))) # ojo
basep +  geom_boxplot() + coord_flip()

¿El valor representativo de indice de felicidad es robusto?

summary(demo$Puntuacin)

La moda es 5.376, por lo tanto es muy robusta. ¿Puedes concluir que hay mucha desigualdad en este indice?

Gini(demo$Puntuacin)

No hay tanta desigualdad, se acerca más al cero que al uno.

¿Se puede afirmar que aproximadamente el 80% de los paises del mundo suman el 75% del puntaje acumulado de felicidad?


#Gráfico de Lorentz
library(ggplot2)
library(gglorenz)

ggplot(demo,aes(x=Puntuacin))+ gglorenz::stat_lorenz(color='purple') +
    geom_abline(linetype = "dashed") + coord_fixed() +
    labs(x = "% Paises ordenados por Indice de Democracia",
         y = "% Acumulado de Puntuación de ID",
         title = "Relación pais/Indice de democracia",
         caption = "Fuente: The Economist") + 
     scale_y_continuous(breaks=seq(0,1,0.15)) +
     scale_x_continuous(breaks=seq(0,1,0.2))

```

Viendo la curva de Lorenz, sí se puede afirmar eso.

¿Hay atipicos en el puntaje de felicidad? No hay atípicos, no hay puntos fuera de los cuartiles del ggplot