library(htmltab)
linkPage="https://es.wikipedia.org/wiki/%C3%8Dndice_de_democracia"
linkTabla="///div/table[2]"
democracia=htmltab(doc=linkPage, which=linkTabla)
str(democracia)
## 'data.frame': 167 obs. of 9 variables:
## $ Puesto : chr "1" "2" "3" "4" ...
## $ País : chr "Noruega" " Islandia" "Suecia" " Nueva Zelanda" ...
## $ Puntuación : chr "9.87" "9.58" "9.39" "9.26" ...
## $ Proceso electoraly pluralismo: chr "10.00" "10.00" "9.58" "10.00" ...
## $ Funcionamientodel gobierno : chr "9.64" "9.29" "9.64" "9.29" ...
## $ Participaciónpolítica : chr "10.00" "8.89" "8.33" "8.89" ...
## $ Culturapolítica : chr "10.00" "10.00" "10.00" "8.13" ...
## $ Derechosciviles : chr "9.71" "9.71" "9.41" "10.00" ...
## $ Categoría : chr "Democracia plena" "Democracia plena" "Democracia plena" "Democracia plena" ...
democracia=democracia[,c(2,3)]
democracia$Puntuación=as.numeric(democracia$Puntuación)
str(democracia)
## 'data.frame': 167 obs. of 2 variables:
## $ País : chr "Noruega" " Islandia" "Suecia" " Nueva Zelanda" ...
## $ Puntuación: num 9.87 9.58 9.39 9.26 9.22 9.15 9.15 9.14 9.09 9.03 ...
library(ggplot2)
base1=ggplot(democracia,aes(x=Puntuación))
histNum= base1 + geom_histogram(bins=7)
histNum
Observo que el histograma muestra cierta asimetría, pero esta no es muy pronunciada. La puntuación, en su mayoría, es alta. La media no se aleja tanto de los valores normales.
Los valores atípicos los observamos mejor en boxplot.
base2=ggplot(democracia,aes(y=Puntuación))
box=base2 + geom_boxplot() + coord_flip()
box
No existen valores atípicos, esto coincide con lo visto anteriormente, los valores no se diferencian mucho entre sí. Además, el boxplot tiene cola por los dos lados.
summary(democracia$Puntuación)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.080 3.545 5.690 5.479 7.175 9.870
La media es 5.479 y la mediana es 5.690, esto quiere decir que la media es menor que la mediana, por lo tanto, existe una asimetría negativa
Distancia intercuartílica
IQR(democracia$Puntuación)
## [1] 3.63
Quiere decir que existen 3.63 valores entre el primer y tercer cuartil, o sea que el 50% de estos valores centrales varían entre esto 3.63 Ahora, para saber qué valor tomar como base para identificar un atípico calculo lo siguiente.
library(DescTools)
Skew(democracia$Puntuación,conf.level = 0.05)
## skew lwr.ci upr.ci
## -0.07107195 -0.08283567 -0.06663103
Comprobamos entonces que la asimetría es negativa puesto que el Skew también lo es.
# cuartil tres
q3=as.numeric(summary(democracia$Puntuación)[5])
# calculando umbral (distancia del q3)
umbral= q3+1.5*IQR(democracia$Puntuación)
umbral
## [1] 12.62
Osea, en teoria, todo valor mayor que 12.62 será considerado un atípico:
democracia[democracia$Puntuación>umbral,]
Nadie pasa el umbral, por eso es que anterioremente no veíamos ningún atípico.
GINI:
Gini(democracia$Puntuación,conf.level=0.95)
## gini lwr.ci upr.ci
## 0.2316285 0.2096738 0.2583036
library(gglorenz)
## Registered S3 methods overwritten by 'ineq':
## method from
## plot.Lc DescTools
## lines.Lc DescTools
base1 + gglorenz::stat_lorenz(color='purple') +
geom_abline(linetype = "dashed") + coord_fixed() +
labs(x = "Puntuación",
y = "count",
title = "Índice de democracia",
caption = "Fuente: Wikipedia")
Vemos que la curva va junto con la diagonal, esto quiere decir que el GINI es cero. Si el gini fuera 1, nuestra curva morada sería una recta horizontal. Esto nos dice que (casi) todos los páíses tienen la misma puntuación.