1 Familia de productos IRIS

1.1 Cargar librerías

library(ggplot2)
library(plotly)
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

1.2 Cargar base de datos IRIS

data("iris")
str(iris)
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
attach(iris)

1.3 Exploración Inicial

summary(iris)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

1.4 Box plot de especies - longitud de pétalo

ggplot(iris) + aes(Species, Petal.Length) + geom_boxplot(fill=“#ffda01”)

ggplot(iris) + aes(Species, Petal.Length) + geom_boxplot(fill="#ffda01")

1.5 Box plot de especies - ancho de sépalo

ggplot(iris) + aes(Species, Sepal.Width) + geom_boxplot(fill="#ffda01")

1.6 Scatterplot: Relación entre largo y ancho del sépalo por especie.

  • Podemos observar que la especie setosa se separa claramente del resto, lo cual indica que sus medidas son muy útiles a la hora de identificarla.

  • Caso contrario en versicolor y virgínica ya que hay sectores donde se superponen, lo cual haría difícil su identificación así que para clasificar estas dos especies, necesitaríamos medidas adicionales.

  • La iris virginica es la que tiene los sépalos más largos mientras que la setosa los más cortos

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
  geom_point(size = 3) +
  labs(title = "Relación entre Largo y Ancho del Sépalo por Especie",
       x = "Largo del Sépalo (cm)",
       y = "Ancho del Sépalo (cm)",
       color = "Especie de Iris") +
  scale_color_manual(values = c("setosa" = "#FF6B6B",
                               "versicolor" = "#01dd73",
                               "virginica" = "#45B7D1")) +
  theme_minimal() +
  theme(legend.position = "bottom")