datos <- read.csv("/Users/rafaelpg/Downloads/Base_iris_trabajoR.csv")
str(datos)
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal_lenght: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal_width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal_length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal_width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Variety     : chr  "Setosa" "Setosa" "Setosa" "Setosa" ...
head(datos)
##   Sepal_lenght Sepal_width Petal_length Petal_width Variety
## 1          5.1         3.5          1.4         0.2  Setosa
## 2          4.9         3.0          1.4         0.2  Setosa
## 3          4.7         3.2          1.3         0.2  Setosa
## 4          4.6         3.1          1.5         0.2  Setosa
## 5          5.0         3.6          1.4         0.2  Setosa
## 6          5.4         3.9          1.7         0.4  Setosa
table(datos$Variedad)
## < table of extent 0 >

Pregunta:

¿El promedio de el largo del sepalo es mayor en Versicolor que en Setosa?

H0: Versicolor = Setosa Ha: Versicolor > Setosa

Alfa (α): 0.05

Estadístico de prueba esperado: t de Student para dos muestras independientes

setosa_sepalo <- datos$Sepal_lenght[datos$Variety == "Setosa"]
versicolor_sepalo <- datos$Sepal_lenght[datos$Variety == "Versicolor"]

length(setosa_sepalo)
## [1] 50
length(versicolor_sepalo)
## [1] 50
mean(setosa_sepalo)
## [1] 5.006
mean(versicolor_sepalo)
## [1] 5.936
sd(setosa_sepalo)
## [1] 0.3524897
sd(versicolor_sepalo)
## [1] 0.5161711

4. Verificación rápida de supuestos

Normalidad dentro de cada grupo (Shapiro-Wilk)

shapiro.test(setosa_sepalo)
## 
##  Shapiro-Wilk normality test
## 
## data:  setosa_sepalo
## W = 0.9777, p-value = 0.4595
shapiro.test(versicolor_sepalo)
## 
##  Shapiro-Wilk normality test
## 
## data:  versicolor_sepalo
## W = 0.97784, p-value = 0.4647

Homogeneidad de varianzas (prueba F)

var.test(versicolor_sepalo, setosa_sepalo)
## 
##  F test to compare two variances
## 
## data:  versicolor_sepalo and setosa_sepalo
## F = 2.1443, num df = 49, denom df = 49, p-value = 0.008657
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  1.216865 3.778740
## sample estimates:
## ratio of variances 
##           2.144345

Prueba t de Student (dos muestras independientes)

Como la hipótesis es “Versicolor > Setosa”, usamos alternative = “greater”, y como no hay homogenidad de varianzas var.equal = False

prueba_t <- t.test( x = versicolor_sepalo, y = setosa_sepalo, alternative = "greater", var.equal = FALSE, conf.level  = 0.95)

prueba_t
## 
##  Welch Two Sample t-test
## 
## data:  versicolor_sepalo and setosa_sepalo
## t = 10.521, df = 86.538, p-value < 2.2e-16
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.7830302       Inf
## sample estimates:
## mean of x mean of y 
##     5.936     5.006

Interpretación

En esta muestra, la variedad Versicolor tiende a presentar sépalos más largos en promedio que la variedad Setosa, lo que sugiere una diferencia real en la longitud de sépalo entre estas especies.