PRÁCTICA DIRIGIDA 7

http://rpubs.com/Brayan_Milla/532252

link2='https://docs.google.com/spreadsheets/d/e/2PACX-1vTgDnZeJUe5Qdn-Il3Ob1u630GIYyxf5nomPu3oqrb5L31vUYCHsrtA0_tl2gEQ82mOI7-l1B9TtyZo/pub?gid=753961441&single=true&output=csv'

mineria=read.csv(link2, stringsAsFactors = F)

str(mineria)
## 'data.frame':    33 obs. of  4 variables:
##  $ EMPRESA    : chr  "Ananea" "Antamina" "Ares" "Argentum" ...
##  $ Responsable: chr  "Contrata" "Empresa" "Empresa" "Contrata" ...
##  $ Tama       : chr  "Pequeña" "Grande" "Mediana" "Mediana" ...
##  $ accidentes : int  20 5 10 6 5 19 5 23 6 16 ...

Parte 1. Exploración Gráfica NOTA: Las variables numéricas no requieren tablas de frecuencia para ser exploradas. El grafico inicial a usar es el histograma:

library(ggplot2)
base1=ggplot(mineria,aes(x=accidentes))
histNum= base1 + geom_histogram(bins=7) 
histNum 

La exploración numérica nos debe sugerir:

Si la media es representativo o no. Si hay asimetría, y hacia donde se concentran los datos. Si hay valores atípicos. Del gráfico podemos decir que, como no es simétrico, informar la media de accidentes no será muy representativa (la mediana será la mejor opción); por otro lado, como la asimetría nos muestra que los accidentes son en su mayoría pocos. Hay un numero de accidentes que se aleja hacia valores altos, pero no estamos seguros si está tan lejos del ‘centro’ para ser atípico.

Los atípicos se ven claramente en un boxplot:

base2=ggplot(mineria,aes(y=accidentes))
box=base2 + geom_boxplot() + coord_flip()

box

El punto a la derecha confirma que hay atípicos. Para ser más preciso en nuestra exploración, debemos calcular diversos indicadores estadísticos.

Parte 2. Exploración con Estadígrafos Los estadigrafos aparecen rapidamente así:

summary(mineria$accidentes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.00    5.00    8.00   10.76   13.00   42.00

Podriamos graficarlos en el boxplot:

library(ggplot2)

estadigrafos=round(as.vector(summary(mineria$accidentes)),2)

box + scale_y_continuous(breaks = estadigrafos) 

¿Te das cuenta por que hay asimetría? Si la media es mayor que la mediana la asimetría tiende a ser positiva (cola a la derecha). Hay tendencia a la asimetría negativa (cola a la izquierda) cuando la mediana es mayor que la media. Aquí se nota claramente que hay asimetría, pero podemos confirmarla calculando el coeficiente respectivo:

library(DescTools)
Skew(mineria$accidentes,conf.level = 0.05)
##     skew   lwr.ci   upr.ci 
## 2.251112 2.561441 2.638717

La distancia intercuartilica es importante saberla:

IQR(mineria$accidentes)
## [1] 8

Es decir, entre el primer y tercer cuartil hay sólo 8 valores; asi, el 50% de los valores centrales varian en 8 valores. Así, podemos proponer que un atípico es aquel que está a una distancia lejana de estos valores centrales. Este umbral, tradicionalmente se calcula así:

q3=as.numeric(summary(mineria$accidentes)[5])
umbral= q3+1.5*IQR(mineria$accidentes)
umbral
## [1] 25

Osea, en teoria, todo valor mayor que 25 será considerado un atípico:

mineria[mineria$accidentes>umbral,]
##    EMPRESA Responsable   Tama accidentes
## 31  Volcan    Contrata Grande         42

Los accidentes pueden ser representados en el Gini:

Gini(mineria$accidentes,conf.level = 0.95)
## Warning in norm.inter(t, adj.alpha): extreme order statistics used as
## endpoints
##      gini    lwr.ci    upr.ci 
## 0.3362676 0.2736831 0.4382184

Si el Gini es 0, todas las empresas causan la misma cantidad de accidentes; si fuera 1, una sola empresa causa todos los accidentes.

Normalmente al Gini le acompaña la curva de Lorenz:

library(gglorenz)
## Registered S3 methods overwritten by 'ineq':
##   method   from     
##   plot.Lc  DescTools
##   lines.Lc DescTools
base1 + gglorenz::stat_lorenz(color='red') +
    geom_abline(linetype = "dashed") + coord_fixed() +
    labs(x = "% Empresas ordenadas por accidentes causados",
         y = "% Acumulado de Accidentes",
         title = "Relación empresa / accidente",
         caption = "Fuente: MINEM")

Si la curva se acerca a la diagonal, hay igualdad de distribución: cada empresa contribuye con la misma cantidad de accidentes (Gini = 0).