Ejercicio 2: EDA, Análisis Exploratorio de Datos (Utilizando Beavers Dataset)

Conociendo el conjunto de datos de BEAVERS

El conjunto de datos de beaver es un famoso conjunto de datos de la dinámica de temperatura a largo plazo de los castores Castor canadensis en Wisconsin norte-central. Este dato proviene de: UCI Irvine Machine Learning Repository. (https://archive.ics.uci.edu/ml/datasets/Iris)

Imagen ilustrativa del conjunto de datos

Paquetes

library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")

Datos

data("beaver1")
## Warning in data("beaver1"): data set 'beaver1' not found
dim(beaver1)
## [1] 114   4

conociendo los datos, tabla interactiva

datatable(beaver1)

Contando los datos en sus clases

table(beaver1$temp)
## 
## 36.33 36.34 36.35 36.42  36.5 36.54 36.55 36.59 36.62 36.64 36.65 36.67 36.69 
##     1     1     1     1     1     1     2     1     2     1     1     2     3 
##  36.7 36.71 36.72 36.73 36.74 36.75 36.76 36.77 36.78 36.79  36.8 36.81 36.82 
##     1     2     1     1     1     4     2     2     2     2     3     2     3 
## 36.83 36.84 36.85 36.86 36.87 36.88 36.89 36.91 36.92 36.93 36.94 36.95 36.96 
##     2     2     4     2     4     4     7     3     3     4     4     2     1 
## 36.97 36.98 36.99    37 37.01 37.02 37.05 37.07 37.09  37.1 37.15 37.18  37.2 
##     3     2     3     3     1     1     1     1     1     2     1     1     3 
## 37.21 37.23 37.24 37.25 37.53 
##     1     1     1     1     1

Conociendo las medidas de tendencia central y distribución del conjunto de datos

summary(beaver1)
##       day             time             temp           activ        
##  Min.   :346.0   Min.   :   0.0   Min.   :36.33   Min.   :0.00000  
##  1st Qu.:346.0   1st Qu.: 932.5   1st Qu.:36.76   1st Qu.:0.00000  
##  Median :346.0   Median :1415.0   Median :36.87   Median :0.00000  
##  Mean   :346.2   Mean   :1312.0   Mean   :36.86   Mean   :0.05263  
##  3rd Qu.:346.0   3rd Qu.:1887.5   3rd Qu.:36.96   3rd Qu.:0.00000  
##  Max.   :347.0   Max.   :2350.0   Max.   :37.53   Max.   :1.00000

Gráfico de caja y bigote

# boxplot para comparar los datos
boxplot(beaver1)
# Linea roja que represente la media de la temperatura del castor
abline(h = mean(beaver1$temp), col= "red"   )

Medidas de dispersión

Varianza

var(beaver1$temp)
## [1] 0.03741196

Desviación estándar

sd(beaver1$temp)
## [1] 0.1934217

Gráfico de dispersión

plot(beaver1$temp)

Histograma

Histograma de frecuencias absolutas

hist(beaver1$temp)

Histograma con granularidad de clases más distribuida

hist(beaver1$temp, breaks=100, col="green")

Análisis de distribución de frecuencia, tablas e histogramas

análisis para la temperatura del castor del conjunto de datos

Tabla de frecuencias

tabla <- fdt(beaver1$temp, breaks = "Sturges")
tabla
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [35.967,36.209)  0 0.00  0.00   0   0.00
##  [36.209,36.451)  4 0.04  3.51   4   3.51
##  [36.451,36.694) 14 0.12 12.28  18  15.79
##  [36.694,36.936) 61 0.54 53.51  79  69.30
##  [36.936,37.178) 26 0.23 22.81 105  92.11
##  [37.178,37.421)  8 0.07  7.02 113  99.12
##  [37.421,37.663)  1 0.01  0.88 114 100.00
##  [37.663,37.905)  0 0.00  0.00 114 100.00
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

Polígonos

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")

Descarga este código

xfun::embed_file("A2U1.Rmd")

Download A2U1.Rmd