Definiciones

Hipótesis nula

La media de la especie I. setosa es igual a la media de I. versicolor (tanto para la longitud como para la anchura del pétalo).

Hipótesis alternativa

La media de la especie I. setosa NO es igual a la media de I. versicolor (tanto para la longitud como para la anchura).

Nivel de significación

\(\alpha\) = 0.05 (5 %)

Tipo de contraste

Bilateral

Estadístico de prueba esperado

t de Student, dado que no se conoce la varianza poblacional.

Selección de variables y casos

petalo <- iris_aae[iris_aae$variety!="Virginica", c(3:5)]

Prueba t

Efectuamos la prueba t para la diferencia de medias con base en dos muestras independientes de cada una de especies más extremas en la variación.

Longitud del pétalo

t.test(petal_length ~ variety, data = petalo)

## 
##  Welch Two Sample t-test
## 
## data:  petal_length by variety
## t = -39.493, df = 62.14, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Setosa and group Versicolor is not equal to 0
## 95 percent confidence interval:
##  -2.939618 -2.656382
## sample estimates:
##     mean in group Setosa mean in group Versicolor 
##                    1.462                    4.260

Interpretación: el estadístico de prueba es grande (-39.49), lo que indica que la diferencia entre las medias es contundente; de signo negativo porque la primera especie, I. setosa, es la más pequeña.

El valor de p es prácticamente cero (\(2.2 \times 10^-16\)), lo cual implica que se rechaza la hiótesis de diferencia nula.

En congruencia con lo anteriormente expuesto, el intervalo de confianza a 95 % (-2.94,-2.66) no incluye el valor de cero, por lo que se concluye igualmente que se tiene que rechazar la hipótesis nula y aceptarse, en cambio, la alternativa, de que las medias no son iguales.

Anchura del pétalo

t.test(petal_width ~ variety, data = petalo)

## 
##  Welch Two Sample t-test
## 
## data:  petal_width by variety
## t = -34.08, df = 74.755, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Setosa and group Versicolor is not equal to 0
## 95 percent confidence interval:
##  -1.143133 -1.016867
## sample estimates:
##     mean in group Setosa mean in group Versicolor 
##                    0.246                    1.326

Interpretación: el estadístico de prueba también es grande (-34.08), aunque no tanto como el de la longitud, lo que indica que la diferencia entre las medias es contundente; de signo negativo porque la primera especie, I. setosa, es la más pequeña.

El valor de p es prácticamente cero (\(2.2 \times 10^-16\)), lo cual implica que se rechaza la hiótesis de diferencia nula.

En congruencia con lo anteriormente expuesto, el intervalo de confianza a 95 % (-1.14,-1.02) no incluye el valor de cero, por lo que se concluye igualmente que se tiene que rechazar la hipótesis nula y aceptarse, en cambio, la alternativa, de que las medias no son iguales.

Análisis de varianza de vía única

No obstante, en el esquema de investigación planteado por los estudiosos que recolectaron los datos, lo más adecuado es comparar simultáneamente las tres especies a través del análisis de la varianza, por lo que procedemos a desarrollarlo.

Longitud del pétalo

attach(iris_aae)



table(variety) # tamano de muestra por especie

## variety
##     Setosa Versicolor  Virginica 
##         50         50         50

aggregate(petal_length, by = list(variety), FUN = mean) # media de cada especie

##      Group.1     x
## 1     Setosa 1.462
## 2 Versicolor 4.260
## 3  Virginica 5.552

aggregate(petal_length, by = list(variety), FUN = sd) # desv. estandar por especie

##      Group.1         x
## 1     Setosa 0.1736640
## 2 Versicolor 0.4699110
## 3  Virginica 0.5518947

ajusteLongPetalo <- aov(petal_length ~ variety) # ANOVA

summary(ajusteLongPetalo) # resumen con los estimadores

##              Df Sum Sq Mean Sq F value Pr(>F)    
## variety       2  437.1  218.55    1180 <2e-16 ***
## Residuals   147   27.2    0.19                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Produce una grafica de medias grupales con IC
plotmeans(petal_length ~ variety, xlab = "",
          ylab = "Long. pétalo (cm)",
          main = "Gráfica de medias\ncon IC de 95 %")

## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped

## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped

# Comparaciones entre los grupos
TukeyHSD(ajusteLongPetalo)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = petal_length ~ variety)
## 
## $variety
##                       diff     lwr     upr p adj
## Versicolor-Setosa    2.798 2.59422 3.00178     0
## Virginica-Setosa     4.090 3.88622 4.29378     0
## Virginica-Versicolor 1.292 1.08822 1.49578     0

opar <- par(no.readonly = TRUE) # para conservar los parametros
# graficos a su estado original
par(las = 2)
par(mar = c(5, 8, 4, 2))
plot(TukeyHSD(ajusteLongPetalo))

par(opar)


detach(iris_aae)

Interpretación: se trata de un diseño balanceado, pues los tres tratamientos cuentan con el mismo número de plantas. El tamaño de los pétalos es notoriamente diferente, pues I. virginica tiene los más grandes, seguido de I. versicolor e I. setosa, en ese orden descendente.

Sin embargo,las varianzas parecen ser diferentes, sobre todo en la que muestra I setosa, por lo que conviene considerar alguna transformación de los datos para evitar los efectos indeseables de la heterocedasticidad.

El valor de p del ANOVA es casi cero (\(2 \times 10^-16\)), con un valor de F (el estadístico de prueba) grande (1180), por lo que se concluye que la longitud del pétalo es significativamente diferente entre las tres especies.

Se rechaza la hipótesis nula que postula la igualdad de las medias de las tres especies, y se acepta la hipótesis alterna, que afirma que al menos dos de las especies consideradas son diferentes.

La prueba a posteriori de Tukey (diferencia honestamente significativa) confirma que las tres especies son diferentes de sus contrapartes en el tamaño de sus pétalos. Los intervalos de confianza (95 %) de estas diferencias no incluyen al valor cero, por lo que se ratifica que todas las diferencias son significativas.

Anchura del petalo

attach(iris_aae)

table(variety) # tamano de muestra por especie

## variety
##     Setosa Versicolor  Virginica 
##         50         50         50

aggregate(petal_width, by = list(variety), FUN = mean) # media de cada especie

##      Group.1     x
## 1     Setosa 0.246
## 2 Versicolor 1.326
## 3  Virginica 2.026

aggregate(petal_width, by = list(variety), FUN = sd) # desv. estandar por especie

##      Group.1         x
## 1     Setosa 0.1053856
## 2 Versicolor 0.1977527
## 3  Virginica 0.2746501

ajusteAnPetalo <- aov(petal_width ~ variety) # ANOVA

summary(ajusteAnPetalo) # resumen con los estimadores

##              Df Sum Sq Mean Sq F value Pr(>F)    
## variety       2  80.41   40.21     960 <2e-16 ***
## Residuals   147   6.16    0.04                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Produce una grafica de medias grupales con IC
plotmeans(petal_width ~ variety, xlab = "",
          ylab = "Anchura del pétalo (cm)",
          main = "Gráfica de medias\ncon IC de 95 %")

## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped

## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped

# Comparaciones entre los grupos
TukeyHSD(ajusteAnPetalo)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = petal_width ~ variety)
## 
## $variety
##                      diff       lwr       upr p adj
## Versicolor-Setosa    1.08 0.9830903 1.1769097     0
## Virginica-Setosa     1.78 1.6830903 1.8769097     0
## Virginica-Versicolor 0.70 0.6030903 0.7969097     0

opar <- par(no.readonly = TRUE) # para conservar los parametros
# graficos a su estado original
par(las = 2)
par(mar = c(5, 8, 4, 2))
plot(TukeyHSD(ajusteAnPetalo))

par(opar)

detach(iris_aae)

** Interpretación:** Al igual que la longitud del pétalo, la anchura de esta estructura es significativamente diferente entre las tres especies del géneros Iris.

ACTIVIDAD 04 – Pruebas de hipótesis

Andrés del Ángel Escalona (IIA-UNAM)

2025-11-26

Preámbulo

Instalación de paquete pertinente

Importación de los datos

Formulación de pregunta inferencial:

Definiciones

Hipótesis nula

Hipótesis alternativa

Nivel de significación

Tipo de contraste

Estadístico de prueba esperado

Selección de variables y casos

Prueba t

Longitud del pétalo

Anchura del pétalo

Análisis de varianza de vía única

Longitud del pétalo

Anchura del petalo