Milla Lostaunau, Brayan 18020469
library(htmltab)
DEMOCRA= htmltab(doc = "https://es.wikipedia.org/wiki/%C3%8Dndice_de_democracia",
which ='//*[@id="mw-content-text"]/div/table[2]',
encoding = "UTF-8")
str(DEMOCRA)
## 'data.frame': 167 obs. of 9 variables:
## $ Puesto : chr "1" "2" "3" "4" ...
## $ País : chr "Noruega" " Islandia" "Suecia" " Nueva Zelanda" ...
## $ Puntuación : chr "9.87" "9.58" "9.39" "9.26" ...
## $ Proceso electoraly pluralismo: chr "10.00" "10.00" "9.58" "10.00" ...
## $ Funcionamientodel gobierno : chr "9.64" "9.29" "9.64" "9.29" ...
## $ Participaciónpolítica : chr "10.00" "8.89" "8.33" "8.89" ...
## $ Culturapolítica : chr "10.00" "10.00" "10.00" "8.13" ...
## $ Derechosciviles : chr "9.71" "9.71" "9.41" "10.00" ...
## $ Categoría : chr "Democracia plena" "Democracia plena" "Democracia plena" "Democracia plena" ...
Se convierte la puntuación de DEMO_INDICE en numeral
Las comas se convierten en punto:
DEMOCRA$Puntuación=gsub(",","",DEMOCRA$Puntuación)
La puntuación se convierte en nominal:
DEMOCRA$Puntuación=as.numeric(DEMOCRA$Puntuación)
row.names(DEMOCRA)=NULL
2.Exploración gráfica
Histograma
library(ggplot2)
histNum=ggplot(DEMOCRA,aes(x=Puntuación))+ geom_histogram(bins=7)
histNum
Del gráfico anterior, se dice que no hay umbral. No es simétrica.
Boxplot:
box=ggplot(DEMOCRA,aes(y=Puntuación)) + geom_boxplot() + coord_flip()
box
En la gráfica gráfica no se aprecian atípicos
Se aprecdian los datos estadígrifos: Estadígrafos
summary(DEMOCRA$Puntuación)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.080 3.545 5.690 5.479 7.175 9.870
La mediana es 5.690
Se aprecian estos estadígrifos en un Bloxplot:
library(ggplot2)
estadigrafos=round(as.vector(summary(DEMOCRA$Puntuación)),2)
box + scale_y_continuous(breaks = estadigrafos)
Se confirma con este código:
library(DescTools)
Skew(DEMOCRA$Puntuación, conf.level = 0.05)
## skew lwr.ci upr.ci
## -0.07107195 -0.07425593 -0.05824515
La distancia intercuartilica
IQR(DEMOCRA$Puntuación)
## [1] 3.63
Entre el primer y tercer cuartil hay 3.63 valores; asi, el 50% de los valores centrales varian en 3.63 valores.
SE proponer que un atípico es aquel que está a una distancia lejana de estos valores centrales. Este umbral, tradicionalmente se calcula así:
q3=as.numeric(summary(DEMOCRA$Puntuación)[5])
umbral= q3+1.5*IQR(DEMOCRA$Puntuación)
umbral
## [1] 12.62
todo valor mayor que 12.62 será considerado un atípico EN TEORÍA.
DEMOCRA[DEMOCRA$Puntuación>umbral,]
## [1] Puesto País
## [3] Puntuación Proceso electoraly pluralismo
## [5] Funcionamientodel gobierno Participaciónpolítica
## [7] Culturapolítica Derechosciviles
## [9] Categoría
## <0 rows> (or 0-length row.names)
Valor de GINI:
Gini(DEMOCRA$Puntuación, conf.level = 0.05)
## gini lwr.ci upr.ci
## 0.2316285 0.2318095 0.2335895
Grafiquemos en la curva de Lorentz
library(ggplot2)
library(gglorenz)
## Registered S3 methods overwritten by 'ineq':
## method from
## plot.Lc DescTools
## lines.Lc DescTools
ggplot(DEMOCRA,aes(x=Puntuación))+ gglorenz::stat_lorenz(color='red') +
geom_abline(linetype = "dashed") + coord_fixed() +
labs(x = "% Paises ordenados democracia",
y = "% Score de democracia",
title = "Relación pais/Índice de democracia",
caption = "Fuente: INDEX 2018")
En la curva de Lorenz y de Gini se aprecia que el 50% de los países concentran un 25 a 30% de puntuación democracia