library(htmltab)
linkPage="https://en.m.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)_per_capita"
linkTabla="///table/tbody/tr[2]/td[1]/table/tbody"
fondomonetario=htmltab(doc=linkPage, which=linkTabla)

str(fondomonetario)
## 'data.frame':    193 obs. of  3 variables:
##  $ Rank             : chr  "1" "2" "—" "3" ...
##  $ Country/Territory: chr  "  Luxembourg" "   Switzerland" "  Macau" "  Norway" ...
##  $ US$              : chr  "114,234" "82,950" "82,388" "81,695" ...
names(fondomonetario)[3]="dólares"
fondomonetario$dólares=gsub(",","",fondomonetario$dólares)
fondomonetario$dólares=as.numeric(fondomonetario$dólares)
str(fondomonetario)
## 'data.frame':    193 obs. of  3 variables:
##  $ Rank             : chr  "1" "2" "—" "3" ...
##  $ Country/Territory: chr  "  Luxembourg" "   Switzerland" "  Macau" "  Norway" ...
##  $ dólares          : num  114234 82950 82388 81695 76099 ...

####Parte 1: Exploración gráfica NOTA: Las variables numéricas no requieren tablas de frecuencia para ser exploradas. Por lo tanto no es necesario usar las funciones questionr y magitrr o los códigos de tabla de frecuencia. Simplemente uso ggplot para crear mis barras, pero en este caso son histogramas.

El grafico inicial a usar es el histograma:

library(ggplot2)
base1=ggplot(fondomonetario,aes(x=dólares))
histNum= base1 + geom_histogram(bins=7) 
histNum 

La exploración numérica nos debe sugerir:

Si la media es representativo o no. Si hay asimetría, y hacia donde se concentran los datos. Si hay valores atípicos.

Veo que en este histograma existe una asimetría (si hubiera simetría los balores mayores estuvieran en el medio y caen por los costados), esto quiere decir que la media no es muy representativa. Lo mejor será usar la mediana. Vemos además que la cantidad de dólares es, en su mayoría, poca. En principio vemos una barra alta de cantidad de dólares, pero no sabemos qué tan lejos está del centro para ser atípico.

Los valores atípicos los observamos mejor en boxplot.

base2=ggplot(fondomonetario,aes(y=dólares))
box=base2 + geom_boxplot() + coord_flip()

box 

Estos puntos a la derecha me dicen que existen muchos valores atípicos. Como la cola del boxplot se encuentra a la derecha quiere decir que el Skew es positivio.

Para ser más preciso en nuestra exploración, debemos calcular diversos indicadores estadísticos.

Parte 2: Exploración de estadígrafos

summary(fondomonetario$dólares)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     303    2085    5899   14806   18032  114234

Graficando en boxplot

library(ggplot2)

estadigrafos=round(as.vector(summary(fondomonetario$dólares)),2)

box + scale_y_continuous(breaks = estadigrafos) 

Esta tabla me sirve para que de cierta manera puedad ver el valor en cada punto.

Ya que la mediana es 5899 y la media es 14806, puedo ver que la asimetría es positiva, además observo que la cola del boxplot va hacia la derecha. Esto también se puede demostrar usando el coeficiente Skew, que sirve para decirnos si la asimetría es positiva o negativa.

library(DescTools)
Skew(fondomonetario$dólares,conf.level = 0.05)
##     skew   lwr.ci   upr.ci 
## 2.083208 2.116073 2.162923

Distancia intecuartílica

IQR(fondomonetario$dólares)
## [1] 15947

Quiere decir que existen 15947 valores entre el primer y tercer cuartil, o sea que el 50% de estos valores centrales varían entre esto 15947. Ahora, para saber qué valor tomar como base para identificar un atípico calculo lo siguiente.

# cuartil tres
q3=as.numeric(summary(fondomonetario$dólares)[5])

# calculando umbral (distancia del q3)
umbral= q3+1.5*IQR(fondomonetario$dólares)
umbral
## [1] 41952.5

Osea, en teoria, todo valor mayor que 41982.5 será considerado un atípico:

fondomonetario[fondomonetario$dólares>umbral,]

GINI:

Gini(fondomonetario$dólares,conf.level=0.95)
##      gini    lwr.ci    upr.ci 
## 0.6315895 0.6014732 0.6689566

Si el Gini es 0, todos los países tienen la misma cantidad de dólares; si fuera 1, un solo país tiene cierta cantidad de dólares

Normalmente al Gini le acompaña la curva de Lorenz:

library(gglorenz)
## Registered S3 methods overwritten by 'ineq':
##   method   from     
##   plot.Lc  DescTools
##   lines.Lc DescTools
base1 + gglorenz::stat_lorenz(color='purple') +
    geom_abline(linetype = "dashed") + coord_fixed() +
    labs(x = "dólares",
         y = "count",
         title = "Fondo monetario",
         caption = "Fuente: Wikipedia")

Como la curva se acerca a la diagonal, hay igualdad de distribución. Esto quiere decir que el gini es 0.

Si el gini fuera 1, el morado sería una recta horizontal.