library(gplots) # instalar paquete pertinente
##
## Adjuntando el paquete: 'gplots'
## The following object is masked from 'package:stats':
##
## lowess
iris_aae <- read.table("iris_aae.csv", header = TRUE, sep = ",",
row.names = "id")
En relación con las dimensiones específicas del pétalo, dada la separacion evidente en el análisis explotatorio de la distribucion de valores de I. setosa, ¿es posible confirmar que, en efecto, la diferencia es significativa con respecto a sus hermanas de género?
La media de la especie I. setosa es igual a la media de I. versicolor (tanto para la longitud como para la anchura del pétalo).
La media de la especie I. setosa NO es igual a la media de I. versicolor (tanto para la longitud como para la anchura).
\(\alpha\) = 0.05 (5 %)
Bilateral
t de Student, dado que no se conoce la varianza poblacional.
petalo <- iris_aae[iris_aae$variety!="Virginica", c(3:5)]
Efectuamos la prueba t para la diferencia de medias con base en dos muestras independientes de cada una de especies más extremas en la variación.
t.test(petal_length ~ variety, data = petalo)
##
## Welch Two Sample t-test
##
## data: petal_length by variety
## t = -39.493, df = 62.14, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Setosa and group Versicolor is not equal to 0
## 95 percent confidence interval:
## -2.939618 -2.656382
## sample estimates:
## mean in group Setosa mean in group Versicolor
## 1.462 4.260
Interpretación: el estadístico de prueba es grande (-39.49), lo que indica que la diferencia entre las medias es contundente; de signo negativo porque la primera especie, I. setosa, es la más pequeña.
El valor de p es prácticamente cero (\(2.2 \times 10^-16\)), lo cual implica que se rechaza la hiótesis de diferencia nula.
En congruencia con lo anteriormente expuesto, el intervalo de confianza a 95 % (-2.94,-2.66) no incluye el valor de cero, por lo que se concluye igualmente que se tiene que rechazar la hipótesis nula y aceptarse, en cambio, la alternativa, de que las medias no son iguales.
t.test(petal_width ~ variety, data = petalo)
##
## Welch Two Sample t-test
##
## data: petal_width by variety
## t = -34.08, df = 74.755, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Setosa and group Versicolor is not equal to 0
## 95 percent confidence interval:
## -1.143133 -1.016867
## sample estimates:
## mean in group Setosa mean in group Versicolor
## 0.246 1.326
Interpretación: el estadístico de prueba también es grande (-34.08), aunque no tanto como el de la longitud, lo que indica que la diferencia entre las medias es contundente; de signo negativo porque la primera especie, I. setosa, es la más pequeña.
El valor de p es prácticamente cero (\(2.2 \times 10^-16\)), lo cual implica que se rechaza la hiótesis de diferencia nula.
En congruencia con lo anteriormente expuesto, el intervalo de confianza a 95 % (-1.14,-1.02) no incluye el valor de cero, por lo que se concluye igualmente que se tiene que rechazar la hipótesis nula y aceptarse, en cambio, la alternativa, de que las medias no son iguales.
No obstante, en el esquema de investigación planteado por los estudiosos que recolectaron los datos, lo más adecuado es comparar simultáneamente las tres especies a través del análisis de la varianza, por lo que procedemos a desarrollarlo.
attach(iris_aae)
table(variety) # tamano de muestra por especie
## variety
## Setosa Versicolor Virginica
## 50 50 50
aggregate(petal_length, by = list(variety), FUN = mean) # media de cada especie
## Group.1 x
## 1 Setosa 1.462
## 2 Versicolor 4.260
## 3 Virginica 5.552
aggregate(petal_length, by = list(variety), FUN = sd) # desv. estandar por especie
## Group.1 x
## 1 Setosa 0.1736640
## 2 Versicolor 0.4699110
## 3 Virginica 0.5518947
ajusteLongPetalo <- aov(petal_length ~ variety) # ANOVA
summary(ajusteLongPetalo) # resumen con los estimadores
## Df Sum Sq Mean Sq F value Pr(>F)
## variety 2 437.1 218.55 1180 <2e-16 ***
## Residuals 147 27.2 0.19
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Produce una grafica de medias grupales con IC
plotmeans(petal_length ~ variety, xlab = "",
ylab = "Long. pétalo (cm)",
main = "Gráfica de medias\ncon IC de 95 %")
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
# Comparaciones entre los grupos
TukeyHSD(ajusteLongPetalo)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = petal_length ~ variety)
##
## $variety
## diff lwr upr p adj
## Versicolor-Setosa 2.798 2.59422 3.00178 0
## Virginica-Setosa 4.090 3.88622 4.29378 0
## Virginica-Versicolor 1.292 1.08822 1.49578 0
opar <- par(no.readonly = TRUE) # para conservar los parametros
# graficos a su estado original
par(las = 2)
par(mar = c(5, 8, 4, 2))
plot(TukeyHSD(ajusteLongPetalo))
par(opar)
detach(iris_aae)
Interpretación: se trata de un diseño balanceado, pues los tres tratamientos cuentan con el mismo número de plantas. El tamaño de los pétalos es notoriamente diferente, pues I. virginica tiene los más grandes, seguido de I. versicolor e I. setosa, en ese orden descendente.
Sin embargo,las varianzas parecen ser diferentes, sobre todo en la que muestra I setosa, por lo que conviene considerar alguna transformación de los datos para evitar los efectos indeseables de la heterocedasticidad.
El valor de p del ANOVA es casi cero (\(2 \times 10^-16\)), con un valor de F (el estadístico de prueba) grande (1180), por lo que se concluye que la longitud del pétalo es significativamente diferente entre las tres especies.
Se rechaza la hipótesis nula que postula la igualdad de las medias de las tres especies, y se acepta la hipótesis alterna, que afirma que al menos dos de las especies consideradas son diferentes.
La prueba a posteriori de Tukey (diferencia honestamente significativa) confirma que las tres especies son diferentes de sus contrapartes en el tamaño de sus pétalos. Los intervalos de confianza (95 %) de estas diferencias no incluyen al valor cero, por lo que se ratifica que todas las diferencias son significativas.
attach(iris_aae)
table(variety) # tamano de muestra por especie
## variety
## Setosa Versicolor Virginica
## 50 50 50
aggregate(petal_width, by = list(variety), FUN = mean) # media de cada especie
## Group.1 x
## 1 Setosa 0.246
## 2 Versicolor 1.326
## 3 Virginica 2.026
aggregate(petal_width, by = list(variety), FUN = sd) # desv. estandar por especie
## Group.1 x
## 1 Setosa 0.1053856
## 2 Versicolor 0.1977527
## 3 Virginica 0.2746501
ajusteAnPetalo <- aov(petal_width ~ variety) # ANOVA
summary(ajusteAnPetalo) # resumen con los estimadores
## Df Sum Sq Mean Sq F value Pr(>F)
## variety 2 80.41 40.21 960 <2e-16 ***
## Residuals 147 6.16 0.04
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Produce una grafica de medias grupales con IC
plotmeans(petal_width ~ variety, xlab = "",
ylab = "Anchura del pétalo (cm)",
main = "Gráfica de medias\ncon IC de 95 %")
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, li, x, pmax(y - gap, li), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
## Warning in arrows(x, ui, x, pmin(y + gap, ui), col = barcol, lwd = lwd, :
## zero-length arrow is of indeterminate angle and so skipped
# Comparaciones entre los grupos
TukeyHSD(ajusteAnPetalo)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = petal_width ~ variety)
##
## $variety
## diff lwr upr p adj
## Versicolor-Setosa 1.08 0.9830903 1.1769097 0
## Virginica-Setosa 1.78 1.6830903 1.8769097 0
## Virginica-Versicolor 0.70 0.6030903 0.7969097 0
opar <- par(no.readonly = TRUE) # para conservar los parametros
# graficos a su estado original
par(las = 2)
par(mar = c(5, 8, 4, 2))
plot(TukeyHSD(ajusteAnPetalo))
par(opar)
detach(iris_aae)
** Interpretación:** Al igual que la longitud del pétalo, la anchura de esta estructura es significativamente diferente entre las tres especies del géneros Iris.