A2U1

Erick Bernal

02/2/2022

Ejercicio 3: EDA (Exploratory Data Aanalysis)

Utilizando el conjunto de datos conocido como “TREES DATASET”

El conjunto de datos de trees proporciona medidas del diametro, altura y volumen de la madera tomando en cuenta 31 arboles de black cherrys caídos.

Paquetes

library(pacman)
p_load("datasets","DT","fdth")

Datos

data("trees")
dim(trees)
## [1] 31  3

Conociendo los datos

datatable(trees)

Contando los datos en sus clases

table(trees$Volume)
## 
## 10.2 10.3 15.6 16.4 18.2 18.8 19.1 19.7 19.9   21 21.3 21.4 22.2 22.6 24.2 24.9 
##    1    2    1    1    1    1    1    1    1    1    1    1    1    1    1    1 
## 25.7 27.4 31.7 33.8 34.5 36.3 38.3 42.6   51 51.5 55.4 55.7 58.3   77 
##    1    1    1    1    1    1    1    1    1    1    1    1    1    1

Medidas de tendencia central del conjunto de datos

summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Ilustrando las MTC con un grafico de caja y bigote

boxplot(trees)
# Para dibujar una linea roja de la media del volumen de la madera
abline(h = mean(trees$Volume), col = "red")

Medidas de dispersión

Varianza

var(trees$Volume)
## [1] 270.2028

Desviación estándar

sd(trees$Volume)
## [1] 16.43785

Tabla de frecuencia, histogramas y polígonos

Tabla de frecuencia

tabla <- fdt(trees$Volume, breaks = "Sturges")
tabla
##     Class limits  f   rf rf(%) cf  cf(%)
##  [10.098,21.377) 12 0.39 38.71 12  38.71
##  [21.377,32.655)  8 0.26 25.81 20  64.52
##  [32.655,43.934)  5 0.16 16.13 25  80.65
##  [43.934,55.213)  2 0.06  6.45 27  87.10
##  [55.213,66.491)  3 0.10  9.68 30  96.77
##   [66.491,77.77)  1 0.03  3.23 31 100.00
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

Polígonos

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")