Ejercicio2

GarciaAlex

03/02/2022

Ejercicio 2: EDA, Análisis Exploratorio de Datos (Utilizando trees Dataset)

Conociendo el conjunto de datos de TREES

Este conjunto de datos proporciona mediciones del diámetro, la altura y el volumen de la madera en 31 cerezos negros talados. Tenga en cuenta que el diámetro (en pulgadas) está erróneamente etiquetado como Circunferencia en los datos. Se mide a 4 pies 6 pulgadas sobre el suelo.

Imagen representativa de un cerezo negro

Paquetes

library(pacman)
p_load("datasets","DT","fdth","prettydoc","xfun")

Datos

data("trees")
dim(trees)
## [1] 31  3

Conociendo los datos, tabla interactiva

datatable(trees)

Contando los datos en sus clases

table(trees$Height)
## 
## 63 64 65 66 69 70 71 72 74 75 76 77 78 79 80 81 82 83 85 86 87 
##  1  1  1  1  1  1  1  2  2  3  2  1  1  1  5  2  1  1  1  1  1

Conociendo las medidas de tendencia central y distribución del conjunto de datos

summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Gráfico de caja y bigote

# boxplot para comprar los datos
boxplot(trees)
# Linea roja que representa la media de la altura. 
abline(h = mean(trees$Height), col= "red")

## Medidas de dispersión

Varianza

var(trees$Height)
## [1] 40.6

Desviación estándar

sd(trees$Height)
## [1] 6.371813

Gráfico de dispersión

plot(trees$Height)

### Histograma

Histograma de frecuencias absolutas

hist(trees$Height)

### Histograma con granularidad de clases más distribuida

hist(trees$Height, breaks=100, col="green")

## Análisis de distribución de frecuencia, tablas e histogramas

análisis para la altura del árbol del conjunto de datos

Tabla de frecuencias

tabla <- fdt(trees$Height, breaks = "Sturges")
tabla
##   Class limits f   rf rf(%) cf  cf(%)
##  [62.37,66.62) 4 0.13 12.90  4  12.90
##  [66.62,70.87) 2 0.06  6.45  6  19.35
##  [70.87,75.12) 8 0.26 25.81 14  45.16
##  [75.12,79.37) 5 0.16 16.13 19  61.29
##  [79.37,83.62) 9 0.29 29.03 28  90.32
##  [83.62,87.87) 3 0.10  9.68 31 100.00
# Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%)= frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)= frecuencia acumulada porcentual
#

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

Polígonos

Polígonos de frecuencia absoluta

plot(tabla, type="fp")

#### Polígonos de frecuencia relativa

plot(tabla, type="rfp")

Polígonos de frencuencia acumulada

plot(tabla, type="cfp")

## Descarga este código

xfun::embed_file("A2U1.Rmd")

Download A2U1.Rmd