PRÁCTICA CALIFICADA 3

Milla Lostaunau, Brayan 18020469

library(htmltab)

DEMOCRA= htmltab(doc = "https://es.wikipedia.org/wiki/%C3%8Dndice_de_democracia", 
               which ='//*[@id="mw-content-text"]/div/table[2]',
               encoding = "UTF-8")
  str(DEMOCRA)
## 'data.frame':    167 obs. of  9 variables:
##  $ Puesto                       : chr  "1" "2" "3" "4" ...
##  $ País                         : chr  "Noruega" " Islandia" "Suecia" " Nueva Zelanda" ...
##  $ Puntuación                   : chr  "9.87" "9.58" "9.39" "9.26" ...
##  $ Proceso electoraly pluralismo: chr  "10.00" "10.00" "9.58" "10.00" ...
##  $ Funcionamientodel gobierno   : chr  "9.64" "9.29" "9.64" "9.29" ...
##  $ Participaciónpolítica        : chr  "10.00" "8.89" "8.33" "8.89" ...
##  $ Culturapolítica              : chr  "10.00" "10.00" "10.00" "8.13" ...
##  $ Derechosciviles              : chr  "9.71" "9.71" "9.41" "10.00" ...
##  $ Categoría                    : chr  "Democracia plena" "Democracia plena" "Democracia plena" "Democracia plena" ...

Se convierte la puntuación de DEMO_INDICE en numeral

Las comas se convierten en punto:

DEMOCRA$Puntuación=gsub(",","",DEMOCRA$Puntuación)

La puntuación se convierte en nominal:

DEMOCRA$Puntuación=as.numeric(DEMOCRA$Puntuación)
row.names(DEMOCRA)=NULL

2.Exploración gráfica

Histograma

library(ggplot2)
histNum=ggplot(DEMOCRA,aes(x=Puntuación))+ geom_histogram(bins=7)
histNum

Del gráfico anterior, se dice que no hay umbral. No es simétrica.

Boxplot:

box=ggplot(DEMOCRA,aes(y=Puntuación)) + geom_boxplot() + coord_flip()
box

En la gráfica gráfica no se aprecian atípicos

Se aprecdian los datos estadígrifos: Estadígrafos

summary(DEMOCRA$Puntuación)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.080   3.545   5.690   5.479   7.175   9.870

La mediana es 5.690

Se aprecian estos estadígrifos en un Bloxplot:

library(ggplot2)

estadigrafos=round(as.vector(summary(DEMOCRA$Puntuación)),2)

box + scale_y_continuous(breaks = estadigrafos) 

Se confirma con este código:

library(DescTools)
Skew(DEMOCRA$Puntuación, conf.level = 0.05) 
##        skew      lwr.ci      upr.ci 
## -0.07107195 -0.07425593 -0.05824515

La distancia intercuartilica

IQR(DEMOCRA$Puntuación)
## [1] 3.63

Entre el primer y tercer cuartil hay 3.63 valores; asi, el 50% de los valores centrales varian en 3.63 valores.

SE proponer que un atípico es aquel que está a una distancia lejana de estos valores centrales. Este umbral, tradicionalmente se calcula así:

q3=as.numeric(summary(DEMOCRA$Puntuación)[5])
umbral= q3+1.5*IQR(DEMOCRA$Puntuación)
umbral
## [1] 12.62

todo valor mayor que 12.62 será considerado un atípico EN TEORÍA.

DEMOCRA[DEMOCRA$Puntuación>umbral,]
## [1] Puesto                        País                         
## [3] Puntuación                    Proceso electoraly pluralismo
## [5] Funcionamientodel gobierno    Participaciónpolítica        
## [7] Culturapolítica               Derechosciviles              
## [9] Categoría                    
## <0 rows> (or 0-length row.names)

Valor de GINI:

Gini(DEMOCRA$Puntuación, conf.level = 0.05)
##      gini    lwr.ci    upr.ci 
## 0.2316285 0.2318095 0.2335895

Grafiquemos en la curva de Lorentz

library(ggplot2)
library(gglorenz)
## Registered S3 methods overwritten by 'ineq':
##   method   from     
##   plot.Lc  DescTools
##   lines.Lc DescTools
  ggplot(DEMOCRA,aes(x=Puntuación))+ gglorenz::stat_lorenz(color='red') +
    geom_abline(linetype = "dashed") + coord_fixed() +
    labs(x = "% Paises ordenados democracia",
         y = "% Score de democracia",
         title = "Relación pais/Índice de democracia",
         caption = "Fuente: INDEX 2018")

En la curva de Lorenz y de Gini se aprecia que el 50% de los países concentran un 25 a 30% de puntuación democracia