Ejercicio 2: EDA, Análisis Exploratorio de Datos (Utilizando quekes Dataset)
Conociendo el conjunto de datos de Locaciones de terremotos en Fiji
Son datos que muestran las locaciones de 1000 eventos sismicos con MB<4.0. Los eventos occurieron cerca de Fiji desde 1964. Este en uno de los proyectos de datos de Harvard PRIM-H que fueron obtenidos del DR. John Woodhouse del departamento de Geofísica en Harvard.
earthquakes
Estos datos contienen observaciones de 5 variables: latitud, longitud, profundidad (km), magnitud y número de estaciones.
Paquetes
library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")Datos
data("quakes")
dim(quakes)## [1] 1000 5
datatable(quakes)Contando los datos en sus clases
table(quakes$mag)##
## 4 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.9 6
## 46 55 90 85 101 107 101 98 65 54 47 43 29 21 20 14 9 8 2 3
## 6.1 6.4
## 1 1
Conociendo las medidas de tendencia central y distribución
summary(quakes)## lat long depth mag
## Min. :-38.59 Min. :165.7 Min. : 40.0 Min. :4.00
## 1st Qu.:-23.47 1st Qu.:179.6 1st Qu.: 99.0 1st Qu.:4.30
## Median :-20.30 Median :181.4 Median :247.0 Median :4.60
## Mean :-20.64 Mean :179.5 Mean :311.4 Mean :4.62
## 3rd Qu.:-17.64 3rd Qu.:183.2 3rd Qu.:543.0 3rd Qu.:4.90
## Max. :-10.72 Max. :188.1 Max. :680.0 Max. :6.40
## stations
## Min. : 10.00
## 1st Qu.: 18.00
## Median : 27.00
## Mean : 33.42
## 3rd Qu.: 42.00
## Max. :132.00
Gráfico de caja y bigote
boxplot(quakes)
abline(h= mean(quakes$mag),col="red")Medidas de dispersión
Varianza
var(quakes$mag)## [1] 0.1622261
Desviación estandar
sd(quakes$mag)## [1] 0.402773
Gráfico de dispersión
plot(quakes$mag)Histograma
Histograma de frecuencias absolutas
hist(quakes$mag)Histograma con granularidad de clases más distribuida
hist(quakes$mag, breaks = 100, col="green")Análisis de distribución de frecuencia, tablas e histogramas
análisis para la magnitud de los terremotos del conjunto de datos
Tabla de frecuancias
tabla <- fdt(quakes$mag, breaks="Sturges")
tabla## Class limits f rf rf(%) cf cf(%)
## [3.96,4.188) 101 0.10 10.1 101 10.1
## [4.188,4.415) 276 0.28 27.6 377 37.7
## [4.415,4.643) 208 0.21 20.8 585 58.5
## [4.643,4.871) 163 0.16 16.3 748 74.8
## [4.871,5.098) 101 0.10 10.1 849 84.9
## [5.098,5.326) 93 0.09 9.3 942 94.2
## [5.326,5.553) 34 0.03 3.4 976 97.6
## [5.553,5.781) 17 0.02 1.7 993 99.3
## [5.781,6.009) 5 0.00 0.5 998 99.8
## [6.009,6.236) 1 0.00 0.1 999 99.9
## [6.236,6.464) 1 0.00 0.1 1000 100.0
Histogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")Histograma de frecuencia relativa
plot(tabla, type="rfh")Histograma de frecuencia acumulada
plot(tabla, type="cfh")Polígonos
Poligono de frecuencia absoluta
plot(tabla, type="fp")Poligono de frecuencia relativa
plot(tabla, type="rfp")Poligono de frecuencia acumulada
plot(tabla, type="cfp")