Sebastian Clavijo

Julian Caviedes

Introduccion

La base de datos iris es una colección de datos, la cual ha sido ampliamente utilizada en el campo de la estadística y el aprendizaje automático; su creación fue en 1936 por el estadístico británico y biólogo Ronald Fisher. Esta base de datos es conocida por su utilidad en la clasificación de diferentes especies de plantas iris, existen tres tipos de plantas iris, esta base de datos nos brinda la cifra del largo y ancho, ya sea del pétalo o el sépalo, de esta manera buscamos ver la proporción de cada planta.

Creacion de la base de datos

Fisher, seleccionó tres especies de iris para incluir en la base de datos:Iris setosa, Iris versicolor e Iris virginica. las cuales fueron elegidas porque tenían grandes diferencias en sus caracteristicas morfologicas.

Para cada especie o tipo de flor, Fisher tomó medidas de cuatro características de las plantas iris como la longitud del sépalo, el ancho del sépalo, la longitud del pétalo y el ancho del pétalo en centimetros para facilitar comparar cada planta.

En total, Fisher recolectó 50 muestras de cada especie de iris, dando un total de 150 muestras para la base de datos. Cada una de las muestras se identifican con su especie correspondiente y se registran las medidas de los cuatro atributos mencionados anteriormente.

La base de datos iris fue publicada en el artículo científico de Fisher titulado “The Use of Multiple Measurements in Taxonomic Problems” que traducida al español seria “El uso de múltiples medidas en problemas taxonómicos”, y desde entonces ha sido ampliamente utilizada en la investigación y la aplicación de técnicas de clasificación y aprendizaje automático.

Es importante destacar que la base de datos iris se ha convertido en un recurso estándar y su creación ha sido de gran importancia para el desarrollo y la evaluación de algoritmos y técnicas de clasificación en el campo de la inteligencia artificial y la estadística.

summary(iris)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

El propósito de la base de datos iris es proporcionar un conjunto de datos estándar que permita a los investigadores y científicos, probar y comparar diferentes técnicas de clasificación y algoritmos de aprendizaje automático. Las características de las muestras de iris se eligen específicamente por su capacidad para distinguir entre las especies de iris.

Comparaciones

Fisher escogio estas plantas por su gran interes en ellas, las cuales pertenecen a la misma familia, estas tres plantas tienen similitudes, pero con diferentes tamaños, que a la vez las hacian muy diferentes, por ejemplo la comparacion del largo del sepalo con la del ancho del mimso sepalo de cada flor.

install.packages("ggplot2")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.3'
## (as 'lib' is unspecified)
library(ggplot2)
install.packages("gapminder")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.3'
## (as 'lib' is unspecified)
library(gapminder)

Descargamos algunas bases de datos para poder realizar las graficas y poder exponer a detalle la base de datos iris

Observar grafica uno (1)

ggplot(data=iris, mapping = aes(x=Sepal.Length,
                                 y= Sepal.Width,
                                 color= Species)) + 
   geom_point() + geom_smooth(method = 'lm') +  
  labs(title = "largo y ancho del sepalo",
                       x= 'largo del sepalo ',
                       y= 'ancho del sepalo')
## `geom_smooth()` using formula = 'y ~ x'

Esta grafica nos permite ver y comprender que relacion tiene el largo y el acho del sépalo de cada una de las especies.

-la planata llamada “setosa” es la que tiene un mayor ancho en el sépalo, sin embargo la diferencia es mínima en cuanto a las demás, ya que el ancho de su sépalo es similar.

-En cuanto a los pétalos, el largo y ancho de la planta sentosa es inferior comparado con las demás, ya que tiene un largo aproximado de 1.5 centimetros y un ancho de 0.3 a 0.5 centimtros del petalo.

-la versicolor cuenta con largo del petalo de tres centimetros y puede llegar hasta cinco centimetros y su ancho puede estar desde un centimetro hasta un centimetro y medio.

-La planta virginica cuenta con un largo y ancho mayor, su largo puede estar desde los 5 centimetros hasta los 7 y su ancho es desde 1 centimetro y medio hasta 2 centimetros y medio, es una planta la cual su petalo es demasiado ancho y esto la hace muy gustosa sin contar que su petalo es el mas largo es decir su petalo deber ser el mas pesado comparado con las otras dos flores.

observar grafica dos (2)

ggplot(data=iris, mapping = aes(x=Petal.Length,
                                 y= Petal.Width,
                                 color= Species)) + 
   geom_point() + geom_smooth(method = 'lm') +  
  labs(title = "largo y ancho del petalo",
                       x= 'largo del petalo ',
                       y= 'ancho del petalo')
## `geom_smooth()` using formula = 'y ~ x'

El sépalo de las flores desempeña un papel fundamental en la protección por su soporte estrúctural y la atracción de polinizadores. Además, contribuye a la protección de las partes reproductivas de la flor durante su desarrollo. La importancia del sépalo radica en su capacidad para garantizar el éxito reproductivo de la planta y asegurar la continuidad de la especie.

Iris setosa: El largo de los sépalos de las flores de la especie Iris setosa varía entre aproximadamente 4.7 cm y 5.3 cm.

Iris versicolor: El largo de los sépalos de las flores de la especie Iris versicolor tiene un rango más amplio, oscilando entre aproximadamente 5.6 cm y 6.45 cm.

Iris virginica: En el caso de la especie Iris virginica, el largo de los sépalos de las flores varía desde alrededor de 6.3 cm hasta 6.8 cm.

Observar grafica tres (3)

ggplot(iris, aes(x = Species, y = Sepal.Length)) + geom_boxplot(aes(fill = Species)) + 
  labs(title= 'largo del sepalo por espcie',
       y= 'largo del sepalo')

Cada flor tiene su largo maximo de su petalo pero tambien podemos ver en los 50 datos de cada flor cual es el numero que mas se repite en su largo como podremos observar en la siguiente grafica, la flor setosa tiene un latgo en su petalo de un centimetro hasta 1.9 centimetros pero entre las 50 flores setosa estudiadas casi 22 flores tienen un largo del petalo de 1.5 centimetros, la flor versicolor en su mayoria su largo del petalo es de 4.5 centimtros dentro de las 5o flores estudiadas y por ultimo la flor virginica en sus 50 flores la mayoria cuenta con un largo de 4.5 centimetros es igual a la versicolor, las flores versicolor y virginica tienen mas variacion de largo del petalo en cambio la setosa en su mayoria tienen un largo mas definindo

Observar grafica cuatro (4)

ggplot(data=iris, aes(Petal.Length,fill=Species)) +
  geom_histogram() + labs(x='largo del petalo', y='')
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Observaremos tambien la misma grafica anterior pero con un algoritmo el cuel nos permita ver la densidad, o donde esta el promedio del largo del petalo de cada flor, o donde hay mayor concentracion de datos

Observar grafica (5)

ggplot(data=iris, aes(Petal.Length,fill=Species)) +
  geom_density(alpha=0.7)

ggplot(data = iris,mapping = aes(x = Sepal.Length, y = Petal.Length, color = Species)) +
  geom_boxplot(aes(fill=Species)) +
  labs(title = "Relación entre el largo del sépalo y pétalo",
       x= 'largo del sepalo',
       y='largo del petalo')

Se puede evidenciar que la planta setosa cuenta con el sepalo más corto en promedio si la comparamos con las otras dos y también es la que tiene el pétalo más corto en promedio

-La planta Virginica es la que tiene el sépalo más grande en promedio a comparación de las otras dos y ocupa el segundo lugar en el largo del pétalo

Por lo que podemos concluir que la planta setosa es la más corta en cuanto a su sépalo y pétalo ## Conclusiones La base de datos iris es una valiosa herramienta en el campo de la estadística y el aprendizaje automático. Sus características bien definidas y su facilidad de uso han hecho que sea ampliamente adoptada en la comunidad científica. La base de datos iris ha sido fundamental para el desarrollo de algoritmos de clasificación y ha proporcionado un punto de referencia para evaluar el rendimiento de diferentes enfoques.

Ademas de todo debemos dejar en claro que el estaditico y biologo Fisher no solamente creo una base de datos para optimizar su trbajo si no que sea convertido en una base esencial para el conocimineto y aprendizaje de muchas personas, es una base de datos completa y sencila que permite hacer comparaciones y podemos ggraficarla o representarla de muchas maneras

Clasificación de especies: La base de datos iris es utilizada comúnmente para clasificar las especies de flores de iris en función de las mediciones de sus características. Esto se logra mediante técnicas de aprendizaje automático y análisis estadístico, y permite identificar patrones distintivos entre las diferentes especies.

Comparación de características: La base de datos iris permite comparar y analizar las características de las flores de iris, como el largo y ancho del sépalo y pétalo. Estas comparaciones pueden revelar diferencias significativas entre las especies y proporcionar información valiosa sobre su morfología y estructura.

Visualización de datos: La base de datos iris se utiliza ampliamente para la visualización de datos debido a su naturaleza multidimensional. Las técnicas de visualización, como los gráficos de dispersión y los gráficos de barras, permiten representar las relaciones entre las características y las especies, lo que facilita la interpretación y comprensión de los datos.

Evaluación de algoritmos: La base de datos iris también se utiliza como un conjunto de datos de referencia para evaluar algoritmos de aprendizaje automático y clasificación. Al ser un conjunto de datos bien estructurado y estandarizado, permite comparar el rendimiento de diferentes algoritmos y técnicas de clasificación en un escenario común.

Referencias

-Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning

-Scikit-learn User Guide: The Iris Dataset.

-R. A. Fisher. “The use of multiple measurements in taxonomic problems.” Annals of Eugenics, 7(2), 1936.

-UCI Machine Learning Repository: Iris Data Set.

-researchgate.net