EXPLORACIƓN DE VARIABLES NUMƉRICAS

Accidentes ocurridos en las empresas mineras del 2000 al 2006 Traigamos esos datos:

link2='https://docs.google.com/spreadsheets/d/e/2PACX-1vTgDnZeJUe5Qdn-Il3Ob1u630GIYyxf5nomPu3oqrb5L31vUYCHsrtA0_tl2gEQ82mOI7-l1B9TtyZo/pub?gid=753961441&single=true&output=csv'

mineria=read.csv(link2, stringsAsFactors = F)

# que tenemos
str(mineria)
## 'data.frame':    33 obs. of  4 variables:
##  $ EMPRESA    : chr  "Ananea" "Antamina" "Ares" "Argentum" ...
##  $ Responsable: chr  "Contrata" "Empresa" "Empresa" "Contrata" ...
##  $ Tama       : chr  "PequeƱa" "Grande" "Mediana" "Mediana" ...
##  $ accidentes : int  20 5 10 6 5 19 5 23 6 16 ...

Parte 1. Exploración GrÔfica

NOTA: Las variables numƩricas no requieren tablas de frecuencia para ser exploradas.

El grƔfico inicial a usar es el histograma:

library(ggplot2)
base1=ggplot(mineria,aes(x=accidentes))
histNum= base1 + geom_histogram(bins = 7)
histNum

La exploración numérica nos debe sugerir:

Si la media es representativo o no. Si hay asimetrĆ­a, y hacia dónde se concentran los datos. Si hay valores atĆ­picos. Del grĆ”fico podemos decir que, como no es simĆ©trico, informar la media de accidentes no serĆ” muy representativa (la mediana serĆ” la mejor opción); por otro lado, como la asimetrĆ­a nos muestra que los accidentes son en su mayorĆ­a pocos. Hay un nĆŗmero de accidentes que se aleja hacia valores altos, pero no estamos seguros si estĆ” tan lejos del ā€˜centro’ para ser atĆ­pico.

Los atĆ­picos se ven claramente en un boxplot:

base2= ggplot(mineria,aes(y=accidentes))
box= base2 + geom_boxplot() + coord_flip()

box

El punto a la derecha confirma que hay atĆ­picos.

Para ser mÔs precisos en nuestra exploración, debemos calcular diversos indicadores estadísticos.

##Parte 2. Exploración con Estadígrafos Los estadigrafos aparecen rapidamente así:

summary(mineria$accidentes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    5.00    5.00    8.00   10.76   13.00   42.00

PodrĆ­amos graficarlos en el boxplot:

library(ggplot2)
estadigrafos=round(as.vector(summary(mineria$accidentes)),2)
box + scale_y_continuous(breaks = estadigrafos)

ĀæTe das cuenta por que hay asimetrĆ­a?

Si la media es mayor que la mediana la asimetrĆ­a tiende a ser positiva (cola a la derecha). Hay tendencia a la asimetrĆ­a negativa (cola a la izquierda) cuando la mediana es mayor que la media. AquĆ­ se nota claramente que hay asimetrĆ­a, pero podemos confirmarla calculando el coeficiente respectivo:

library(DescTools)
Skew(mineria$accidentes,conf.level =0.05)
##     skew   lwr.ci   upr.ci 
## 2.251112 2.533817 2.600956

La distancia intercuartilica es importante saberla:

IQR(mineria$accidentes)
## [1] 8

Es decir, entre el primer y tercer cuartil hay sólo 8 valores; asi, el 50% de los valores centrales varian en 8 valores. Así, podemos proponer que un atípico es aquel que estÔ a una distancia lejana de estos valores centrales. Este umbral, tradicionalmente se calcula así:

# cuartil tres
q3=as.numeric(summary(mineria$accidentes)[5])

#calculado umbral (distancia del q3)
umbral= q3+1.5*IQR(mineria$accidentes)
umbral
## [1] 25

Osea, en teoria, todo valor mayor que 25 serĆ” considerado un atĆ­pico:

mineria[mineria$accidentes>umbral,]
##    EMPRESA Responsable   Tama accidentes
## 31  Volcan    Contrata Grande         42

Los accidentes pueden ser representados en el Gini:

Gini(mineria$accidentes,conf.level = 0.95)
## Warning in norm.inter(t, adj.alpha): extreme order statistics used as
## endpoints
##      gini    lwr.ci    upr.ci 
## 0.3362676 0.2707680 0.4380828

Gini(mineria$accidentes,conf.level=0.95)

library(gglorenz)
## Registered S3 methods overwritten by 'ineq':
##   method   from     
##   plot.Lc  DescTools
##   lines.Lc DescTools
base1 + gglorenz::stat_lorenz(color='red') +
    geom_abline(linetype = "dashed") + coord_fixed() +
    labs(x = "% Empresas ordenadas por accidentes causados",
         y = "% Acumulado de Accidentes",
         title = "Relación empresa / accidente",
         caption = "Fuente: MINEM")

Si la curva se acerca a la diagonal, hay igualdad de distribución: cada empresa contribuye con la misma cantidad de accidentes (Gini = 0).