Accidentes ocurridos en las empresas mineras del 2000 al 2006 Traigamos esos datos:
link2='https://docs.google.com/spreadsheets/d/e/2PACX-1vTgDnZeJUe5Qdn-Il3Ob1u630GIYyxf5nomPu3oqrb5L31vUYCHsrtA0_tl2gEQ82mOI7-l1B9TtyZo/pub?gid=753961441&single=true&output=csv'
mineria=read.csv(link2, stringsAsFactors = F)
# que tenemos
str(mineria)
## 'data.frame': 33 obs. of 4 variables:
## $ EMPRESA : chr "Ananea" "Antamina" "Ares" "Argentum" ...
## $ Responsable: chr "Contrata" "Empresa" "Empresa" "Contrata" ...
## $ Tama : chr "PequeƱa" "Grande" "Mediana" "Mediana" ...
## $ accidentes : int 20 5 10 6 5 19 5 23 6 16 ...
NOTA: Las variables numƩricas no requieren tablas de frecuencia para ser exploradas.
El grƔfico inicial a usar es el histograma:
library(ggplot2)
base1=ggplot(mineria,aes(x=accidentes))
histNum= base1 + geom_histogram(bins = 7)
histNum
La exploración numérica nos debe sugerir:
Si la media es representativo o no. Si hay asimetrĆa, y hacia dónde se concentran los datos. Si hay valores atĆpicos. Del grĆ”fico podemos decir que, como no es simĆ©trico, informar la media de accidentes no serĆ” muy representativa (la mediana serĆ” la mejor opción); por otro lado, como la asimetrĆa nos muestra que los accidentes son en su mayorĆa pocos. Hay un nĆŗmero de accidentes que se aleja hacia valores altos, pero no estamos seguros si estĆ” tan lejos del ācentroā para ser atĆpico.
Los atĆpicos se ven claramente en un boxplot:
base2= ggplot(mineria,aes(y=accidentes))
box= base2 + geom_boxplot() + coord_flip()
box
El punto a la derecha confirma que hay atĆpicos.
Para ser mĆ”s precisos en nuestra exploración, debemos calcular diversos indicadores estadĆsticos.
##Parte 2. Exploración con EstadĆgrafos Los estadigrafos aparecen rapidamente asĆ:
summary(mineria$accidentes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.00 5.00 8.00 10.76 13.00 42.00
PodrĆamos graficarlos en el boxplot:
library(ggplot2)
estadigrafos=round(as.vector(summary(mineria$accidentes)),2)
box + scale_y_continuous(breaks = estadigrafos)
ĀæTe das cuenta por que hay asimetrĆa?
Si la media es mayor que la mediana la asimetrĆa tiende a ser positiva (cola a la derecha). Hay tendencia a la asimetrĆa negativa (cola a la izquierda) cuando la mediana es mayor que la media. AquĆ se nota claramente que hay asimetrĆa, pero podemos confirmarla calculando el coeficiente respectivo:
library(DescTools)
Skew(mineria$accidentes,conf.level =0.05)
## skew lwr.ci upr.ci
## 2.251112 2.533817 2.600956
La distancia intercuartilica es importante saberla:
IQR(mineria$accidentes)
## [1] 8
Es decir, entre el primer y tercer cuartil hay sólo 8 valores; asi, el 50% de los valores centrales varian en 8 valores. AsĆ, podemos proponer que un atĆpico es aquel que estĆ” a una distancia lejana de estos valores centrales. Este umbral, tradicionalmente se calcula asĆ:
# cuartil tres
q3=as.numeric(summary(mineria$accidentes)[5])
#calculado umbral (distancia del q3)
umbral= q3+1.5*IQR(mineria$accidentes)
umbral
## [1] 25
Osea, en teoria, todo valor mayor que 25 serĆ” considerado un atĆpico:
mineria[mineria$accidentes>umbral,]
## EMPRESA Responsable Tama accidentes
## 31 Volcan Contrata Grande 42
Los accidentes pueden ser representados en el Gini:
Gini(mineria$accidentes,conf.level = 0.95)
## Warning in norm.inter(t, adj.alpha): extreme order statistics used as
## endpoints
## gini lwr.ci upr.ci
## 0.3362676 0.2707680 0.4380828
Gini(mineria$accidentes,conf.level=0.95)
library(gglorenz)
## Registered S3 methods overwritten by 'ineq':
## method from
## plot.Lc DescTools
## lines.Lc DescTools
base1 + gglorenz::stat_lorenz(color='red') +
geom_abline(linetype = "dashed") + coord_fixed() +
labs(x = "% Empresas ordenadas por accidentes causados",
y = "% Acumulado de Accidentes",
title = "Relación empresa / accidente",
caption = "Fuente: MINEM")
Si la curva se acerca a la diagonal, hay igualdad de distribución: cada empresa contribuye con la misma cantidad de accidentes (Gini = 0).