Paquetes
library(pacman)
p_load("datasets","DT","fdth","prettydoc","xfun","ggplot2")Ejercicio #4: Análisis exploratorio de datos (EDA)
Utilizando el conjunto de datos de flores de lirios llamado IRIS
El conjunto de datos de iris es un famoso conjunto de datos de flores que se introdujo en 1936. Es una clasificación multivariada. Este dato proviene de: UCI Irvine Machine Learning Repository. https://archive.ics.uci.edu/ml/datasets/Iris
## Conociendo los datos
A traves de una tabla interactiva
datatable(iris)a Través de una gráfica, usando ggplot2
df <- irisggplot(df, aes(Petal.Length, Petal.Width) ) + geom_point(aes(col=Species), size=4)Medidas exploratorias de tendencia central
summary(df)## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
Histograma
hist(df$Sepal.Length,
col="purple",
main = "Histograma del largo del pétalo",
xlab= "Largo del pétalo",
ylab = "Frecuencia absoluta")