Ejercicio 3: EDA (Exploratory Data Aanalysis)
Utilizando el conjunto de datos conocido como “TREES DATASET”
El conjunto de datos de trees proporciona medidas del diametro, altura y volumen de la madera tomando en cuenta 31 arboles de black cherrys caídos.
Paquetes
library(pacman)
p_load("datasets","DT","fdth")
Datos
data("trees")
dim(trees)
## [1] 31 3
Conociendo los datos
datatable(trees)
Contando los datos en sus clases
table(trees$Volume)
##
## 10.2 10.3 15.6 16.4 18.2 18.8 19.1 19.7 19.9 21 21.3 21.4 22.2 22.6 24.2 24.9
## 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 25.7 27.4 31.7 33.8 34.5 36.3 38.3 42.6 51 51.5 55.4 55.7 58.3 77
## 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Medidas de tendencia central del conjunto de datos
summary(trees)
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Ilustrando las MTC con un grafico de caja y bigote
boxplot(trees)
# Para dibujar una linea roja de la media del volumen de la madera
abline(h = mean(trees$Volume), col = "red")
Medidas de dispersión
Varianza
var(trees$Volume)
## [1] 270.2028
Desviación estándar
sd(trees$Volume)
## [1] 16.43785
Tabla de frecuencia, histogramas y polígonos
Tabla de frecuencia
tabla <- fdt(trees$Volume, breaks = "Sturges")
tabla
## Class limits f rf rf(%) cf cf(%)
## [10.098,21.377) 12 0.39 38.71 12 38.71
## [21.377,32.655) 8 0.26 25.81 20 64.52
## [32.655,43.934) 5 0.16 16.13 25 80.65
## [43.934,55.213) 2 0.06 6.45 27 87.10
## [55.213,66.491) 3 0.10 9.68 30 96.77
## [66.491,77.77) 1 0.03 3.23 31 100.00
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual
Histogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")
Histograma de frecuencia relativa
plot(tabla, type="rfh")
Histograma de frecuencia acumulada
plot(tabla, type="cfh")
Polígonos
Polígono de frecuencia absoluta
plot(tabla, type="fp")
Polígono de frecuencia relativa
plot(tabla, type="rfp")
Polígono de frecuencia acumulada
plot(tabla, type="cfp")