Ejercico 2: EDA, Analisis Exploratorio de Datos (Utilizando Iriss Dataset)
Conociendo el conjunto d datos de IRIS
El conjunto de datos de iris es un famoso conjunto de datos de flores que se introdujo en 1936. Es un clasificacion multivariada. Este dato proviene de: UCI Irvine Machine Learning Repository
Paquetes
library(pacman)
p_load("datasets", "DT", "fdth","prettydoc", "xfun")Datos
data("iris")
dim(iris)## [1] 150 5
Conociendo los datos, tabla interactiva
datatable(iris)Contando lo datos en sus clases
table(iris$Species)##
## setosa versicolor virginica
## 50 50 50
Conociendo las medidas de tendencia central y distribución del conjunto de datos
summary(iris)## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
Gráfico de caja y bigote
boxplot(iris)
#Linea roja que representa la media del largo del petalo
abline(h=mean(iris$Petal.Length), col= "red")Medidas de dispersión
Varianza
var(iris$Petal.Length)## [1] 3.116278
Desviación estándar
sd(iris$Petal.Length)## [1] 1.765298
Gráfico de dispersión
plot(iris$Petal.Length)Histograma
Histograma de frencuencias absolutas
hist(iris$Petal.Length)Histograma con granularidad de clases mas distribuida
hist(iris$Petal.Length, breaks=100, col="green")tabla <- fdt(iris$Petal.Length, breaks = "Sturges")
tabla## Class limits f rf rf(%) cf cf(%)
## [0.99,1.654) 44 0.29 29.33 44 29.33
## [1.654,2.319) 6 0.04 4.00 50 33.33
## [2.319,2.983) 0 0.00 0.00 50 33.33
## [2.983,3.647) 6 0.04 4.00 56 37.33
## [3.647,4.312) 19 0.13 12.67 75 50.00
## [4.312,4.976) 29 0.19 19.33 104 69.33
## [4.976,5.64) 27 0.18 18.00 131 87.33
## [5.64,6.305) 14 0.09 9.33 145 96.67
## [6.305,6.969) 5 0.03 3.33 150 100.00
Histogramas
Histograma de frecuencia absoluta
plot(tabla, type="fh") #### Histograma de frecuencia relativa
plot(tabla, type="rfh") #### Histograma de frecuencia acumulada
plot(tabla, type="cfh")Polígonos
Polígono de frecuencia absoluta
plot(tabla, type="fp")Polígono de frecuencia relativa
plot(tabla, type="rfp")Polígono de frecuencia acumulada
plot(tabla, type="cfp")