Introducción

La siguiente información fue obtenida de wkipedia el 10 de noviembre de 2025 en la siguiente liga: https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris

“El conjunto de datos flor Iris o conjunto de datos iris de Fisher es un conjunto de datos multivariante introducido por Ronald Fisher en su artículo de 1936, The use of multiple measurements in taxonomic problems (El uso de medidas múltiples en problemas taxonómicos) como un ejemplo de análisis discriminante lineal. A veces, se llama Iris conjunto de datos de Anderson porque Edgar Anderson coleccionó los datos para cuantificar la variación morfológica de la flor Iris de tres especies relacionadas. Dos de las tres especies se coleccionaron en la Península de la Gaspesia «todos son de la misma pastura, y recolectado el mismo día y medidos al mismo tiempo por la misma persona con el mismo aparato».

El conjunto de datos contiene 50 muestras de cada una de tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Se midió cuatro rasgos de cada muestra: el largo y ancho del sépalo y pétalo, en centímetros. Basado en la combinación de estos cuatro rasgos, Fisher desarrolló un modelo discriminante lineal para distinguir entre una especie y otra. ” En esta práctica realizaremos la contrastación de una serie de hipótesis estadística planteadas a partir de preguntas de investigación.

Primera Pregunta de investigación

¿Es posible inferir que la longitud del pétalo es mayor en la especie de versicolor que la de virginica?

Le pregunta anterior se transforma en las siguientes hipótesis:

La hipótesis a evaluar es si la longitud promedio del pétalo de la especie versicolor es menor que la de virginica. Para ello se establecen:

\(H_0: \mu_{\text{versicolor}} ≥ \mu_{\text{virginica}}\)

\(H_1: \mu_{\text{versicolor}} < \mu_{\text{virginica}}\)

Supondremos distribución normal y que las varianzas so diferentes por lo que aplicaremos la pruea t de student

## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
##  Welch Two Sample t-test
## 
## data:  petal.length by variety
## t = -12.604, df = 95.57, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Versicolor and group Virginica is less than 0
## 95 percent confidence interval:
##       -Inf -1.121737
## sample estimates:
## mean in group Versicolor  mean in group Virginica 
##                    4.260                    5.552

Los resultados indican p-value < 0.05, por lo cual es probable que que se cumpla la Hipótesis alternativa (\(H_1\)), es decir que la media de la longitud del pétalo de la especie versicolor es significativamente menor a la de virginica.

Segunda pregunta de investigación

¿Es posible inferir que el ancho del sépalo en la especie de versicolor es diferente a la de virginica?

Le pregunta anterior se transforma en las siguientes hipótesis:

La hipótesis a evaluar es si la longitud promedio del pétalo de la especie versicolor es diferente que la de virginica. Para ello se establecen:

\(H_0: \mu_{\text{versicolor}} = \mu_{\text{virginica}}\)

\(H_1: \mu_{\text{versicolor}} ≠ \mu_{\text{virginica}}\)

Supondremos distribución normal y que las varianzas so diferentes por lo que aplicaremos la pruea t de student

## 
##  Welch Two Sample t-test
## 
## data:  sepal.width by variety
## t = -3.2058, df = 97.927, p-value = 0.001819
## alternative hypothesis: true difference in means between group Versicolor and group Virginica is not equal to 0
## 95 percent confidence interval:
##  -0.33028364 -0.07771636
## sample estimates:
## mean in group Versicolor  mean in group Virginica 
##                    2.770                    2.974

Los resultados indican p-value < 0.05, por lo cual es probable que que se cumpla la Hipótesis alternativa (\(H_1\)), es decir que la media del ancho del sépalo de la especie versicolor es significativamente diferente a la de virginica. Además observamos que el intervalo al 95% para la diferencia de medias contiene sólo valores negativos, lo cual nos permite inferir que la media en versicolor del ancho del sépalo es significativamente menor que en virginica.

Tercera pregunta de investigación

¿Es posible inferir que el ancho del pétalo es diferente en las tres especies?

Le pregunta anterior se transforma en las siguientes hipótesis: Para evaluar si el ancho del pétalo es diferente entre las tres especies (Setosa, Versicolor y Virginica), planteamos las siguientes hipótesis:

\[ H_0: \mu_{\text{Setosa}} = \mu_{\text{Versicolor}} = \mu_{\text{Virginica}} \]

\[ H_a: \text{Al menos una media es diferente} \]

Aplicaremos la prueba ANOVA

##              Df Sum Sq Mean Sq F value Pr(>F)    
## variety       2  80.41   40.21     960 <2e-16 ***
## Residuals   147   6.16    0.04                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Los resultados indican p-value < 0.05, por lo cual es probable que que se cumpla la Hipótesis alternativa (\(H_1\)), es decir que la media del ancho del pétalo es diferente en al menos una de las especies.

Ahora para indagar cuál de las medias es diferente aplicaremos la prueba de Tukey que es una prueba post-hoc de ANOVA

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = petal.width ~ variety, data = iris_data)
## 
## $variety
##                      diff       lwr       upr p adj
## Versicolor-Setosa    1.08 0.9830903 1.1769097     0
## Virginica-Setosa     1.78 1.6830903 1.8769097     0
## Virginica-Versicolor 0.70 0.6030903 0.7969097     0

Los resultados indican diferencias significativas en las tres pruebas resultantes de comparar por parejas las medias de los grupos, lo cual indica que hay diferencias significativas entre las tres medias, por lo cual se infiere que la media del ancho del pétola en la especie Setosa es significativamente menor a la de Versicolor y la media de esta especie es signficativamente menor a la de Virginica.

Es común realizar gráficas de medias más/menos el error estándar para ver la comparación de estas medias. Se presenta a continuación este gráfico para nuestro caso, la cual confirma la inferencia que hemos realizado.