EDA, Análisis Exploratorio de Datos (Utilizando Beaver1 Dataset).
Conociendo el conjunto de datos de Beaver1.
Reynolds (1994) describe una pequeña parte de un estudio sobre la dinámica de la temperatura a largo plazo del castor Castor canadensis en el centro-norte de Wisconsin. La temperatura del cuerpo se midió por telemetría cada 10 minutos para cuatro hembras, pero allí se utilizan datos de un período de menos de un día para cada uno de dos animales.
Paquetes
library(pacman)
p_load("datasets", "DT", "fdth", "prettydoc", "xfun")Datos.
#data(beaver1)
dim(beaver1)## [1] 114 4
Conociendo los datos, tabla intectiva.
datatable(beaver1)Contando los datos en sus clases.
table(beaver1$temp)##
## 36.33 36.34 36.35 36.42 36.5 36.54 36.55 36.59 36.62 36.64 36.65 36.67 36.69
## 1 1 1 1 1 1 2 1 2 1 1 2 3
## 36.7 36.71 36.72 36.73 36.74 36.75 36.76 36.77 36.78 36.79 36.8 36.81 36.82
## 1 2 1 1 1 4 2 2 2 2 3 2 3
## 36.83 36.84 36.85 36.86 36.87 36.88 36.89 36.91 36.92 36.93 36.94 36.95 36.96
## 2 2 4 2 4 4 7 3 3 4 4 2 1
## 36.97 36.98 36.99 37 37.01 37.02 37.05 37.07 37.09 37.1 37.15 37.18 37.2
## 3 2 3 3 1 1 1 1 1 2 1 1 3
## 37.21 37.23 37.24 37.25 37.53
## 1 1 1 1 1
Conociendo las medidas de tendencia central y distribución del conjunto de datos.
Gráfico de caja y bigote.
summary(beaver1)## day time temp activ
## Min. :346.0 Min. : 0.0 Min. :36.33 Min. :0.00000
## 1st Qu.:346.0 1st Qu.: 932.5 1st Qu.:36.76 1st Qu.:0.00000
## Median :346.0 Median :1415.0 Median :36.87 Median :0.00000
## Mean :346.2 Mean :1312.0 Mean :36.86 Mean :0.05263
## 3rd Qu.:346.0 3rd Qu.:1887.5 3rd Qu.:36.96 3rd Qu.:0.00000
## Max. :347.0 Max. :2350.0 Max. :37.53 Max. :1.00000
boxplot(beaver1)
abline(h=mean(beaver1$temp), col="red" ) Medidas de dispersión.
Varianza.
var(beaver1$temp)## [1] 0.03741196
Desviación estándar.
sd(beaver1$temp)## [1] 0.1934217
Gráfico de dispersión.
plot(beaver1$temp)Histograma.
Histograma de frecuencias absolutas.
hist(beaver1$temp, col = "white")Histograma de granularidad de clases más distribuida.
hist(beaver1$temp, breaks = 100, col = "purple")Análisis de distribución de frecuencia, tablas e histogramas.
Análisis para el largo del pétalo del conjunto de datos.
Tabla de frecuencias.
tabla <-fdt(beaver1$temp, breaks = "Sturges")
tabla## Class limits f rf rf(%) cf cf(%)
## [35.967,36.209) 0 0.00 0.00 0 0.00
## [36.209,36.451) 4 0.04 3.51 4 3.51
## [36.451,36.694) 14 0.12 12.28 18 15.79
## [36.694,36.936) 61 0.54 53.51 79 69.30
## [36.936,37.178) 26 0.23 22.81 105 92.11
## [37.178,37.421) 8 0.07 7.02 113 99.12
## [37.421,37.663) 1 0.01 0.88 114 100.00
## [37.663,37.905) 0 0.00 0.00 114 100.00
Histogramas.
Histograma de frecuencia absoluta.
plot(tabla, type = "fh", col = "white")Histograma de frecuencia relativa.
plot(tabla, type = "rfh", col = "white")Histograma de frecuencia acumulada.
plot(tabla, type = "cfh", col = "white")Polígono.
Polígono de frecuencia absoluta.
plot(tabla, type = "fp")Polígono de frecuencia relativa.
plot(tabla, type = "rfp")Polígono de frecuencia acumulada.
plot(tabla, type = "cfp")