datos <- read.csv("/Users/rafaelpg/Downloads/Base_iris_trabajoR.csv")
str(datos)
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal_lenght: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal_width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal_length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal_width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Variety : chr "Setosa" "Setosa" "Setosa" "Setosa" ...
head(datos)
## Sepal_lenght Sepal_width Petal_length Petal_width Variety
## 1 5.1 3.5 1.4 0.2 Setosa
## 2 4.9 3.0 1.4 0.2 Setosa
## 3 4.7 3.2 1.3 0.2 Setosa
## 4 4.6 3.1 1.5 0.2 Setosa
## 5 5.0 3.6 1.4 0.2 Setosa
## 6 5.4 3.9 1.7 0.4 Setosa
table(datos$Variedad)
## < table of extent 0 >
¿El promedio de el largo del sepalo es mayor en Versicolor que en Setosa?
H0: Versicolor = Setosa Ha: Versicolor > Setosa
Alfa (α): 0.05
Estadístico de prueba esperado: t de Student para dos muestras independientes
setosa_sepalo <- datos$Sepal_lenght[datos$Variety == "Setosa"]
versicolor_sepalo <- datos$Sepal_lenght[datos$Variety == "Versicolor"]
length(setosa_sepalo)
## [1] 50
length(versicolor_sepalo)
## [1] 50
mean(setosa_sepalo)
## [1] 5.006
mean(versicolor_sepalo)
## [1] 5.936
sd(setosa_sepalo)
## [1] 0.3524897
sd(versicolor_sepalo)
## [1] 0.5161711
Normalidad dentro de cada grupo (Shapiro-Wilk)
shapiro.test(setosa_sepalo)
##
## Shapiro-Wilk normality test
##
## data: setosa_sepalo
## W = 0.9777, p-value = 0.4595
shapiro.test(versicolor_sepalo)
##
## Shapiro-Wilk normality test
##
## data: versicolor_sepalo
## W = 0.97784, p-value = 0.4647
var.test(versicolor_sepalo, setosa_sepalo)
##
## F test to compare two variances
##
## data: versicolor_sepalo and setosa_sepalo
## F = 2.1443, num df = 49, denom df = 49, p-value = 0.008657
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 1.216865 3.778740
## sample estimates:
## ratio of variances
## 2.144345
Como la hipótesis es “Versicolor > Setosa”, usamos alternative = “greater”, y como no hay homogenidad de varianzas var.equal = False
prueba_t <- t.test( x = versicolor_sepalo, y = setosa_sepalo, alternative = "greater", var.equal = FALSE, conf.level = 0.95)
prueba_t
##
## Welch Two Sample t-test
##
## data: versicolor_sepalo and setosa_sepalo
## t = 10.521, df = 86.538, p-value < 2.2e-16
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 0.7830302 Inf
## sample estimates:
## mean of x mean of y
## 5.936 5.006
En esta muestra, la variedad Versicolor tiende a presentar sépalos más largos en promedio que la variedad Setosa, lo que sugiere una diferencia real en la longitud de sépalo entre estas especies.