A4U1

Julian

2/2/2022

Folder de trabajo

setwd("~/pye1pm")

Paquetes

library(pacman)
p_load("datasets","DT","fdth","prettydoc","xfun", "ggplot2", "beanplot")

Ejercicio #4: Análisis exploratorio de datos (EDA)

Utilizando el conjunto de datos de flores de lirios llamado IRIS

El conjunto de datos de iris es un famoso conjunto de datos de flores que se introdujo en 1936. Es una clasificación multivariada. Este dato proviene de: UCI Irvine Machine Learning Repository. https://archive.ics.uci.edu/ml/datasets/Iris

Conjunto de datos de iris

Las mediciones de estas plantas se hacen de la siguiente forma:

Descarga este codigo

xfun::embed_file("A4U1.Rmd")

Download A4U1.Rmd

#conociendo los datos

#A traves de una tabla interactiva

datatable(iris)

#A traves de una grafica usando ggplot

df <- iris
ggplot(df, aes(Petal.Length, Petal.Width) ) + geom_point(aes(col=Species), size=4)

##Medidas exploratorias de tendencia central

summary(df)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

##Visualizacion

##histograma

hist(df$Sepal.Length, 
     col = "red", 
     main = "histograma del largo del petalo", 
     xlab = "Largo del petalo", 
     ylab =  "Frecuencia absoluta")

Diferentes maneras de realizar histogramas

par(mfrow=c(1,3))
hist(iris$Petal.Length,breaks=seq(0,8,l=17),xlim=c(0,8),ylim=c(0,40))
hist(iris$Petal.Width,breaks=seq(0,8,l=17),xlim=c(0,8),ylim=c(0,40))
hist(iris$Sepal.Width,breaks=seq(0,8,l=17),xlim=c(0,8),ylim=c(0,40))

Grafico de dispersion (scatterplot)

crear un ancho de la altura del cepalo (sepal,width) versus la longitud del cepalo (sepal.length)

En este caso usaremos la funcion “Plot”

plot( iris$Sepal.Width, iris$Sepal.Length, 
     col= "green", 
     main = "Grafico de dispersion IRIS", 
     xlab = "Ancho del petalo", 
     ylab = "Longitud del petalo", 
     pch = 19
)

##Grafico comparativo del tipo beanplot

xiris <- iris
xiris$Species <- NULL
beanplot(xiris, main = "Mediciones de flores de lirios")

Ancho de sepalo por especies de lirios utilizando un grafico de caja y bigote

boxplot(Sepal.Length~Species,
        data=iris,
        main= "Longitud de sepalo por especie de flor",
        xlab = "especie",
        ylab = "Longitud del sepalo",
        col = "Blue", 
        border = "orange"
)

Interpretando un grafico de caja y bigote

Componentes del gráfico de caja y bigote

#Extraccion de subconjuntos
IrisVer <- subset(iris, Species == "Versicolor")
IrisVir <- subset(iris, Species == "Virginica")
IrisSet <- subset(iris, Species == "Setosa")