Análisis Exploratorio de datos (Utilizando Orange Dataset)
Conociendo el conjunto de datos de Orange
El conjunto de datos Orange es un conjunto de datos que refleja el crecimiento de árboles de naranja, esto en forma de un data frame de 35 filas y 3 columnas, introducido en 1998. Este se divide en un factor ordenado que indica el árbol en el que se realiza la medición, de acuerdo con el diámetro máximo creciente, un factor de envejecimiento el cual es un vector numérico que da la edad del árbol, desde 1968/12/31, y un vector numérico de las circunferencias del tronco (mm).
Orange Tree
Paquetes
library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")Datos
data ("Orange")
dim(Orange)## [1] 35 3
Conociendo los datos, tabla interactiva
datatable(Orange)Conta
table(Orange$age)##
## 118 484 664 1004 1231 1372 1582
## 5 5 5 5 5 5 5
Conociendo las medidad de tendencia central
summary(Orange)## Tree age circumference
## 3:7 Min. : 118.0 Min. : 30.0
## 1:7 1st Qu.: 484.0 1st Qu.: 65.5
## 5:7 Median :1004.0 Median :115.0
## 2:7 Mean : 922.1 Mean :115.9
## 4:7 3rd Qu.:1372.0 3rd Qu.:161.5
## Max. :1582.0 Max. :214.0
Gráfico de caja y bigote
# boxplot para comparar los datos
boxplot(Orange)
# Linea roja que represente la media del largo del pétalo
abline(h = mean(Orange$circumference), col="red")Histrogramas
Histograma de frecuencia absoluta
hist(Orange$circumference)Histograma con granularidad de clases más distribuidas
hist(Orange$circumference, breaks=100, col="orange")Análisis de distribucion de frecuencia, tablas e histogramas
- Análisis de la circunferencia del arbol de naranja del conjunto de datos.
Tabla de frecuencias
tabla <- fdt(Orange$circumference, breaks = "Sturges")
tabla## Class limits f rf rf(%) cf cf(%)
## [29.7,56.3343) 7 0.20 20.00 7 20.00
## [56.3343,82.9686) 5 0.14 14.29 12 34.29
## [82.9686,109.603) 2 0.06 5.71 14 40.00
## [109.603,136.237) 6 0.17 17.14 20 57.14
## [136.237,162.871) 6 0.17 17.14 26 74.29
## [162.871,189.506) 5 0.14 14.29 31 88.57
## [189.506,216.14) 4 0.11 11.43 35 100.00
Medidas de dispersión
Varianza
var(Orange$circumference)## [1] 3304.891
Desviacion estándar
sd(Orange$circumference)## [1] 57.48818
Gráfico de dispersión
plot(Orange$circumference)Histogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")Histograma de frecuencia relativa
plot(tabla, type="rfh")Histograma de frecuencia acumulada
plot(tabla, type="cfh")Polígono
Polígono de frecuencia absoluta
plot(tabla, type="fp")Polígono de frecuencia relativa
plot(tabla, type="rfp")Polígono de frecuencia acumulada
plot(tabla, type="cfp")