Ejercicio 2: EDA, Análisis Exploratorio de Datos (utilizando Iris Dataset)
Conociendo el conjunto de datos
El conjunto de datos de iris es un famoso conjunto de datos de flores que se introdujo en 1936. Es una clasificación multivariada. Este dato proviene de: UCI Irvine Machine Learning Repository. (https://archive.ics.uci.edu/ml/datasets/Iris)
Imagen ilustrativa del conjunto de datos
El conjunto de datos de Iris se toma de Sir R.A. Papel Fisher para literatura de reconocimiento de patrones. También se conoce como conjunto de datos de iris de Anderson, ya que Edge Anderson recopiló originalmente los datos para cuantificar la variación de las flores de iris de su clase diferente. Estas clases son clase Iris-Setosa, Iris-Versicolor, Iris-Virginica con atributos como Longitud del sépalo, Ancho del sépalo, Longitud del pétalo y Ancho del pétalo en centímetros.
Paquetes
library(pacman)
p_load("datasets","DT","fdth","prettydoc","xfun")
Datos
data("iris")
dim(iris)
## [1] 150 5
Conociendo los datos, tabla interactiva
datatable(iris)
Contando los datos en sus clases
table(iris$Species)
##
## setosa versicolor virginica
## 50 50 50
Conociendo las medidas de tendencia central y distribución del conjunto de datos
summary(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
Gráfico de caja y bigote
#boxplot para comparar los datos
boxplot(iris)
#Línea roja que represente la media del largo del pétalo
abline(h = mean(iris$Petal.Length), col="red")
Medidas de dispersión
Varianza
var(iris$Petal.Length)
## [1] 3.116278
Desviación estándar
sd(iris$Petal.Length)
## [1] 1.765298
Gráfico de dispersión
plot(iris$Petal.Length)
Histograma
Histograma de frecuencias absolutas
hist(iris$Petal.Length)
Histograma con granularidad de clases más distribuida
hist(iris$Petal.Length, breaks=100, col="green")
Análisis de distribución de frecuencia, tablas e histogramas
Análisis para el largo del pétalo del conjunto de datos
Tabla de frecuencias
<- fdt(iris$Petal.Length, breaks="Sturges")
tabla tabla
## Class limits f rf rf(%) cf cf(%)
## [0.99,1.654) 44 0.29 29.33 44 29.33
## [1.654,2.319) 6 0.04 4.00 50 33.33
## [2.319,2.983) 0 0.00 0.00 50 33.33
## [2.983,3.647) 6 0.04 4.00 56 37.33
## [3.647,4.312) 19 0.13 12.67 75 50.00
## [4.312,4.976) 29 0.19 19.33 104 69.33
## [4.976,5.64) 27 0.18 18.00 131 87.33
## [5.64,6.305) 14 0.09 9.33 145 96.67
## [6.305,6.969) 5 0.03 3.33 150 100.00
Histogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh")
Histograma de frecuencia relativa
plot(tabla, type="rfh")
Histograma de frecuencia acumulada
plot(tabla, type="cfh")
Polígono
Polígono de frecuncia absoluta
plot(tabla, type="fp")
Polígono de frecuencia relativa
plot(tabla, type="rfp")
Polígono de frecuencia acumulada
plot(tabla, type="cfp")