Ejercicio 2: EDA (Exploratory Data Aanalysis)

Conjunto de datos de nombre “Black Cherry Trees” Este conjunto de datos proporciona mediciones del diámetro, la altura y el volumen de la madera en 31 cerezos negros talados.Este dato proviene de: UCI Irvine Machine Learning Repository. (https://www.key2stats.com/data-set/view/445)

Arbol de Cerezos negros

Paquetes

library(pacman)
p_load("datasets","DT","fdth")

Datos

data("trees")
dim(trees)
## [1] 31  3

Conociendo los datos a traves de una tabla interactiva

datatable(trees)

Contando los datos por el volumen

table(trees$Volume)
## 
## 10.2 10.3 15.6 16.4 18.2 18.8 19.1 19.7 19.9   21 21.3 21.4 22.2 22.6 24.2 24.9 
##    1    2    1    1    1    1    1    1    1    1    1    1    1    1    1    1 
## 25.7 27.4 31.7 33.8 34.5 36.3 38.3 42.6   51 51.5 55.4 55.7 58.3   77 
##    1    1    1    1    1    1    1    1    1    1    1    1    1    1

Medidas de tendencia central del conjunto de datos

summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Ilustrando las MTC con un gráfico de caja y bigote

boxplot(trees)
# Para dibujar una linea azul de la media de la altura de un arbol
abline(h = mean(trees$Height), col = "blue")

Varianza

var(trees$Height)
## [1] 40.6

Desviacion Estandar

sd(trees$Height)
## [1] 6.371813

Tabla de frecuencia, histogramas y polígonos

Tabla de frecuencia

tabla <- fdt(trees$Height, breaks = "Sturges")
tabla
##   Class limits f   rf rf(%) cf  cf(%)
##  [62.37,66.62) 4 0.13 12.90  4  12.90
##  [66.62,70.87) 2 0.06  6.45  6  19.35
##  [70.87,75.12) 8 0.26 25.81 14  45.16
##  [75.12,79.37) 5 0.16 16.13 19  61.29
##  [79.37,83.62) 9 0.29 29.03 28  90.32
##  [83.62,87.87) 3 0.10  9.68 31 100.00

histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

polígonos

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")