Ejercicio 2: EDA, Análisis Exploratorio de Datos (Utilizando trees Dataset)
Conociendo el conjunto de datos de TREES
Este conjunto de datos proporciona mediciones del diámetro, la altura y el volumen de la madera en 31 cerezos negros talados. Tenga en cuenta que el diámetro (en pulgadas) está erróneamente etiquetado como Circunferencia en los datos. Se mide a 4 pies 6 pulgadas sobre el suelo.
Imagen representativa de un cerezo negro
Paquetes
library(pacman)
p_load("datasets","DT","fdth","prettydoc","xfun")Datos
data("trees")
dim(trees)## [1] 31 3
Conociendo los datos, tabla interactiva
datatable(trees)Contando los datos en sus clases
table(trees$Height)##
## 63 64 65 66 69 70 71 72 74 75 76 77 78 79 80 81 82 83 85 86 87
## 1 1 1 1 1 1 1 2 2 3 2 1 1 1 5 2 1 1 1 1 1
Conociendo las medidas de tendencia central y distribución del conjunto de datos
summary(trees)## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Gráfico de caja y bigote
# boxplot para comprar los datos
boxplot(trees)
# Linea roja que representa la media de la altura.
abline(h = mean(trees$Height), col= "red") ## Medidas de dispersión
Varianza
var(trees$Height)## [1] 40.6
Desviación estándar
sd(trees$Height)## [1] 6.371813
Gráfico de dispersión
plot(trees$Height) ### Histograma
Histograma de frecuencias absolutas
hist(trees$Height) ### Histograma con granularidad de clases más distribuida
hist(trees$Height, breaks=100, col="green") ## Análisis de distribución de frecuencia, tablas e histogramas
análisis para la altura del árbol del conjunto de datos
Tabla de frecuencias
tabla <- fdt(trees$Height, breaks = "Sturges")
tabla## Class limits f rf rf(%) cf cf(%)
## [62.37,66.62) 4 0.13 12.90 4 12.90
## [66.62,70.87) 2 0.06 6.45 6 19.35
## [70.87,75.12) 8 0.26 25.81 14 45.16
## [75.12,79.37) 5 0.16 16.13 19 61.29
## [79.37,83.62) 9 0.29 29.03 28 90.32
## [83.62,87.87) 3 0.10 9.68 31 100.00
# Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%)= frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)= frecuencia acumulada porcentual
#Histogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")Histograma de frecuencia relativa
plot(tabla, type="rfh")Histograma de frecuencia acumulada
plot(tabla, type="cfh")Polígonos
Polígonos de frecuencia absoluta
plot(tabla, type="fp") #### Polígonos de frecuencia relativa
plot(tabla, type="rfp")Polígonos de frencuencia acumulada
plot(tabla, type="cfp") ## Descarga este código
xfun::embed_file("A2U1.Rmd")