A2U1_Estadistica

R.Pacheco

2/3/2022

Análisis Exploratorio de datos (Utilizando Orange Dataset)

Conociendo el conjunto de datos de Orange

El conjunto de datos Orange es un conjunto de datos que refleja el crecimiento de árboles de naranja, esto en forma de un data frame de 35 filas y 3 columnas, introducido en 1998. Este se divide en un factor ordenado que indica el árbol en el que se realiza la medición, de acuerdo con el diámetro máximo creciente, un factor de envejecimiento el cual es un vector numérico que da la edad del árbol, desde 1968/12/31, y un vector numérico de las circunferencias del tronco (mm).

Orange Tree

Paquetes

library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")

Datos

data ("Orange")
dim(Orange)
## [1] 35  3

Conociendo los datos, tabla interactiva

datatable(Orange)

Conta

table(Orange$age)
## 
##  118  484  664 1004 1231 1372 1582 
##    5    5    5    5    5    5    5

Conociendo las medidad de tendencia central

summary(Orange)
##  Tree       age         circumference  
##  3:7   Min.   : 118.0   Min.   : 30.0  
##  1:7   1st Qu.: 484.0   1st Qu.: 65.5  
##  5:7   Median :1004.0   Median :115.0  
##  2:7   Mean   : 922.1   Mean   :115.9  
##  4:7   3rd Qu.:1372.0   3rd Qu.:161.5  
##        Max.   :1582.0   Max.   :214.0

Gráfico de caja y bigote

# boxplot para comparar los datos 
boxplot(Orange)
# Linea roja que represente la media del largo del pétalo
abline(h = mean(Orange$circumference), col="red")

Histrogramas

Histograma de frecuencia absoluta

hist(Orange$circumference)

Histograma con granularidad de clases más distribuidas

hist(Orange$circumference, breaks=100, col="orange")

Análisis de distribucion de frecuencia, tablas e histogramas

  • Análisis de la circunferencia del arbol de naranja del conjunto de datos.

Tabla de frecuencias

tabla <- fdt(Orange$circumference, breaks = "Sturges")
tabla
##       Class limits f   rf rf(%) cf  cf(%)
##     [29.7,56.3343) 7 0.20 20.00  7  20.00
##  [56.3343,82.9686) 5 0.14 14.29 12  34.29
##  [82.9686,109.603) 2 0.06  5.71 14  40.00
##  [109.603,136.237) 6 0.17 17.14 20  57.14
##  [136.237,162.871) 6 0.17 17.14 26  74.29
##  [162.871,189.506) 5 0.14 14.29 31  88.57
##   [189.506,216.14) 4 0.11 11.43 35 100.00

Medidas de dispersión

Varianza

var(Orange$circumference)
## [1] 3304.891

Desviacion estándar

sd(Orange$circumference)
## [1] 57.48818

Gráfico de dispersión

plot(Orange$circumference)

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type="rfh")

Histograma de frecuencia acumulada

plot(tabla, type="cfh")

Polígono

Polígono de frecuencia absoluta

plot(tabla, type="fp")

Polígono de frecuencia relativa

plot(tabla, type="rfp")

Polígono de frecuencia acumulada

plot(tabla, type="cfp")

Descarga este código

xfun::embed_file("A2U1_Estadistica.Rmd")

Download A2U1_Estadistica.Rmd