Folder de trabajo
setwd("~/pye1pm")
Paquetes
library(pacman)
p_load("datasets","DT","fdth","prettydoc","xfun", "ggplot2", "beanplot")
Ejercicio #4: Análisis exploratorio de datos (EDA)
Utilizando el conjunto de datos de flores de lirios llamado IRIS
El conjunto de datos de iris es un famoso conjunto de datos de flores que se introdujo en 1936. Es una clasificación multivariada. Este dato proviene de: UCI Irvine Machine Learning Repository. https://archive.ics.uci.edu/ml/datasets/Iris
Conjunto de datos de iris
Las mediciones de estas plantas se hacen de la siguiente forma:
Descarga este codigo
::embed_file("A4U1.Rmd") xfun
#conociendo los datos
#A traves de una tabla interactiva
datatable(iris)
#A traves de una grafica usando ggplot
<- iris df
ggplot(df, aes(Petal.Length, Petal.Width) ) + geom_point(aes(col=Species), size=4)
##Medidas exploratorias de tendencia central
summary(df)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
##Visualizacion
##histograma
hist(df$Sepal.Length,
col = "red",
main = "histograma del largo del petalo",
xlab = "Largo del petalo",
ylab = "Frecuencia absoluta")
Diferentes maneras de realizar histogramas
par(mfrow=c(1,3))
hist(iris$Petal.Length,breaks=seq(0,8,l=17),xlim=c(0,8),ylim=c(0,40))
hist(iris$Petal.Width,breaks=seq(0,8,l=17),xlim=c(0,8),ylim=c(0,40))
hist(iris$Sepal.Width,breaks=seq(0,8,l=17),xlim=c(0,8),ylim=c(0,40))
Grafico de dispersion (scatterplot)
crear un ancho de la altura del cepalo (sepal,width) versus la longitud del cepalo (sepal.length)
En este caso usaremos la funcion “Plot”
plot( iris$Sepal.Width, iris$Sepal.Length,
col= "green",
main = "Grafico de dispersion IRIS",
xlab = "Ancho del petalo",
ylab = "Longitud del petalo",
pch = 19
)
##Grafico comparativo del tipo beanplot
<- iris
xiris $Species <- NULL
xirisbeanplot(xiris, main = "Mediciones de flores de lirios")
Ancho de sepalo por especies de lirios utilizando un grafico de caja y bigote
boxplot(Sepal.Length~Species,
data=iris,
main= "Longitud de sepalo por especie de flor",
xlab = "especie",
ylab = "Longitud del sepalo",
col = "Blue",
border = "orange"
)
Interpretando un grafico de caja y bigote
Componentes del gráfico de caja y bigote
#Extraccion de subconjuntos
<- subset(iris, Species == "Versicolor")
IrisVer <- subset(iris, Species == "Virginica")
IrisVir <- subset(iris, Species == "Setosa") IrisSet