A2U1

Israel Parra Cámara

1/31/2022

Ejercicio 2: EDA, Análisis Exploratorio de Datos (usando Trees Dataset )

Conociendo el conjunto de datos de Trees

Foto de mezquite:

Imagen ilustrativa del conjunto de datos El mezquite es un árbol de México del que se aprovecha casi todo, sobre todo su legumbre, que sirve para crear una especie de harina rica en proteínas y con un gran poder endulzante, y que es apta para celíacos y diabéticos.

Paquetes

library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")

Datos

data("trees")
dim(trees)
## [1] 31  3

conociendo los datos, tabla interactiva

datatable(trees)

Contando los datos en sus clases

table(trees$Girth)
## 
##  8.3  8.6  8.8 10.5 10.7 10.8   11 11.1 11.2 11.3 11.4 11.7   12 12.9 13.3 13.7 
##    1    1    1    1    1    1    2    1    1    1    2    1    1    2    1    1 
## 13.8   14 14.2 14.5   16 16.3 17.3 17.5 17.9   18 20.6 
##    1    1    1    1    1    1    1    1    1    2    1

Conociendo las medidas de tendencia central y distribución del conjunto de datos

summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Gráfico de caja y bigote

# boxplot para comparar los datos
boxplot(trees)
# Linea roja que represente la media del largo del pétalo
abline(h = mean(trees$Girth), col= "red"   )

## Medidas de dispersión

Varianza

var(trees$Girth)
## [1] 9.847914

Desviación estándar

sd(trees$Girth)
## [1] 3.138139

Gráfico de dispersión

plot(trees$Girth)

Histograma

Histograma de frecuencias absolutas

hist(trees$Girth)

Histograma con granularidad de clases más distribuida

hist(trees$Girth, breaks=100, col="green")

Análisis de distribución de frecuencia, tablas e histogramas

análisis para el largo del pétalo del conjunto de datos

Tabla de frecuencias

tabla <- fdt(trees$Girth, breaks = "Sturges")
tabla
##     Class limits  f   rf rf(%) cf  cf(%)
##   [8.217,10.315)  3 0.10  9.68  3   9.68
##  [10.315,12.413) 12 0.39 38.71 15  48.39
##  [12.413,14.512)  8 0.26 25.81 23  74.19
##   [14.512,16.61)  2 0.06  6.45 25  80.65
##   [16.61,18.708)  5 0.16 16.13 30  96.77
##  [18.708,20.806)  1 0.03  3.23 31 100.00

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

Polígonos

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")

## Descarga del codigo

xfun::embed_file("A2U1.Rmd")

Download A2U1.Rmd