Ejercicio 2: EDA, Análisis Exploratorio de Datos (Utilizando Iriss Dataset )
Tiempo de espera entre las erupciones del géiser Old Faithful
Análisis de la base de datos sobre el tiempo de espera entre las erupciones y las duraciones de la erupción del geyser Old Faithful en el Parque Nacional de Yellowstone, en Wyoming, Estados Unidos
Géiser Old Faithful
Paquetes
library(pacman)
p_load("datasets","DT", "fdth","prettydoc","xfun")Datos
data("faithful")
dim(faithful)## [1] 272 2
conociendo los datos, tabla interactiva
datatable(faithful)Contando los datos en sus clases
table(faithful$waiting)##
## 43 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 62 63 64 65 66 67 68 69 70
## 1 3 5 4 3 5 5 6 5 7 9 6 4 3 4 7 6 4 3 4 3 2 1 1 2 4
## 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 96
## 5 1 7 6 8 9 12 15 10 8 13 12 14 10 6 6 2 6 3 6 1 1 2 1 1
Conociendo las medidas de tendencia central y distribución del conjunto de datos
summary(faithful)## eruptions waiting
## Min. :1.600 Min. :43.0
## 1st Qu.:2.163 1st Qu.:58.0
## Median :4.000 Median :76.0
## Mean :3.488 Mean :70.9
## 3rd Qu.:4.454 3rd Qu.:82.0
## Max. :5.100 Max. :96.0
Gráfico de caja y bigote
# boxplot para comparar los datos
boxplot(faithful)
# Linea morada que represente la media del tiempo entre erupciones
abline(h = mean(faithful$waiting), col= "purple" )Medidas de dispersión
Varianza
var(faithful$waiting)## [1] 184.8233
Desviación estándar
sd(faithful$waiting)## [1] 13.59497
Gráfico de dispersión
plot(faithful$waiting)Histograma
Histograma de frecuencias absolutas
hist(faithful$waiting)Histograma con granularidad de clases más distribuida
hist(faithful$waiting, breaks=100, col="orange")Análisis de distribución de frecuencia, tablas e histogramas
análisis para el largo del pétalo del conjunto de datos
Tabla de frecuencias
tabla <- fdt(faithful$waiting, breaks = "Sturges")
tabla## Class limits f rf rf(%) cf cf(%)
## [42.57,48.009) 16 0.06 5.88 16 5.88
## [48.009,53.448) 28 0.10 10.29 44 16.18
## [53.448,58.887) 26 0.10 9.56 70 25.74
## [58.887,64.326) 24 0.09 8.82 94 34.56
## [64.326,69.765) 9 0.03 3.31 103 37.87
## [69.765,75.204) 31 0.11 11.40 134 49.26
## [75.204,80.643) 54 0.20 19.85 188 69.12
## [80.643,86.082) 61 0.22 22.43 249 91.54
## [86.082,91.521) 18 0.07 6.62 267 98.16
## [91.521,96.96) 5 0.02 1.84 272 100.00
#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentualHistogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")Histograma de frecuencia relativa
plot(tabla, type="rfh")Histograma de frecuencia acumulada
plot(tabla, type="cfh")Polígonos
Polígono de frecuencia absoluta
plot(tabla, type="fp")Polígono de frecuencia relativa
plot(tabla, type="rfp")Polígono de frecuencia acumulada
plot(tabla, type="cfp")