Ejercicio 2: EDA, análisis exploratorio de datos
Paquetes
library(pacman)
p_load("datasets","DT","fdth","prettydoc","xfun")Datos
data(cars)
dim(cars)## [1] 50 2
Conociendo los datos, tabla interactiva
datatable(cars)Contando los datos en sus clases
table(cars$speed)##
## 4 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 23 24 25
## 2 2 1 1 3 2 4 4 4 3 2 3 4 3 5 1 1 4 1
Conociendo las medidas de tendencia central
Gráfico de caja y bigote
summary(cars)## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
boxplot(cars)
# Linea roja que representa la media del largo del pétalo
abline(h=mean(iris$Petal.Length),col="red")Histograma
Histograma de frecuenccias absolutas
hist(cars$dist)Histograma con granularidad de clases más distribuidas
hist(cars$dist,breaks=100,col="green")Análisis de distribución de frecuencias, tablas e histogramas
Análisis para el largo del pétalo del conjunto de datos
Tablas de frecuencia
tabla <- fdt(cars$dist,breaks = "Sturges")
tabla## Class limits f rf rf(%) cf cf(%)
## [1.98,19.011) 8 0.16 16 8 16
## [19.011,36.043) 18 0.36 36 26 52
## [36.043,53.074) 8 0.16 16 34 68
## [53.074,70.106) 9 0.18 18 43 86
## [70.106,87.137) 4 0.08 8 47 94
## [87.137,104.17) 2 0.04 4 49 98
## [104.17,121.2) 1 0.02 2 50 100
Medidas de dispersión
Varianza
var(cars$dist)## [1] 664.0608
Desviación estandar
sd(cars$dist)## [1] 25.76938
Gráfico de disperción
plot(cars$dist)Histogramas
Histograma de frecuencia absoluta
plot(tabla,type = "fh")Histograma de frecuencia relativa
plot(tabla,type = "rfh")Histograma de frecuencia acumulada
plot(tabla,type = "cfh")Polígonos
Polígono de frecuencia absoluta
plot(tabla,type = "fp")Polígono de frecuencia relativa
plot(tabla,type = "rfp")Polígono de frecuencia acumulada
plot(tabla,type = "cfp")