Ejercicio 2: EDA, Análisis Exploratorio de Datos (usando Trees Dataset )
Conociendo el conjunto de datos de Trees
Foto de mezquite:
El mezquite es un árbol de México del que se aprovecha casi todo, sobre todo su legumbre, que sirve para crear una especie de harina rica en proteínas y con un gran poder endulzante, y que es apta para celíacos y diabéticos.
Paquetes
library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")Datos
data("trees")
dim(trees)## [1] 31 3
conociendo los datos, tabla interactiva
datatable(trees)Contando los datos en sus clases
table(trees$Girth)##
## 8.3 8.6 8.8 10.5 10.7 10.8 11 11.1 11.2 11.3 11.4 11.7 12 12.9 13.3 13.7
## 1 1 1 1 1 1 2 1 1 1 2 1 1 2 1 1
## 13.8 14 14.2 14.5 16 16.3 17.3 17.5 17.9 18 20.6
## 1 1 1 1 1 1 1 1 1 2 1
Conociendo las medidas de tendencia central y distribución del conjunto de datos
summary(trees)## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Gráfico de caja y bigote
# boxplot para comparar los datos
boxplot(trees)
# Linea roja que represente la media del largo del pétalo
abline(h = mean(trees$Girth), col= "red" ) ## Medidas de dispersión
Varianza
var(trees$Girth)## [1] 9.847914
Desviación estándar
sd(trees$Girth)## [1] 3.138139
Gráfico de dispersión
plot(trees$Girth)Histograma
Histograma de frecuencias absolutas
hist(trees$Girth)Histograma con granularidad de clases más distribuida
hist(trees$Girth, breaks=100, col="green")Análisis de distribución de frecuencia, tablas e histogramas
análisis para el largo del pétalo del conjunto de datos
Tabla de frecuencias
tabla <- fdt(trees$Girth, breaks = "Sturges")
tabla## Class limits f rf rf(%) cf cf(%)
## [8.217,10.315) 3 0.10 9.68 3 9.68
## [10.315,12.413) 12 0.39 38.71 15 48.39
## [12.413,14.512) 8 0.26 25.81 23 74.19
## [14.512,16.61) 2 0.06 6.45 25 80.65
## [16.61,18.708) 5 0.16 16.13 30 96.77
## [18.708,20.806) 1 0.03 3.23 31 100.00
Histogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")Histograma de frecuencia relativa
plot(tabla, type="rfh")Histograma de frecuencia acumulada
plot(tabla, type="cfh")Polígonos
Polígono de frecuencia absoluta
plot(tabla, type="fp")Polígono de frecuencia relativa
plot(tabla, type="rfp")Polígono de frecuencia acumulada
plot(tabla, type="cfp") ## Descarga del codigo
xfun::embed_file("A2U1.Rmd")