library(car)
## Loading required package: carData
library(leaps)
library(faraway)
##
## Attaching package: 'faraway'
## The following objects are masked from 'package:car':
##
## logit, vif
library(MASS)
library(lmtest)
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
library(agricolae)
Decathlon.csv
# Lectura de los datos
Decathlon<-read.csv("Decathlon_cpl.csv",row.names=1) # lectura del archivo
attach(Decathlon) # archivo en uso
lab <- rownames(Decathlon) # etiquetas de las unidades en lab
nom <- colnames(Decathlon) # etiquetas de las variables en nom
n = dim(Decathlon)[1] # número de unidades
p = dim(Decathlon)[2] # número de variables
head(Decathlon)
## X100m Long.jump Shot.put High.jump X400m X110m.hurdle Discus Pole.vault Javeline X1500m Rank Points Competition
## SEBRLE 11.04 7.58 14.83 2.07 49.81 14.69 43.75 5.02 63.19 291.7 1 8217 Decastar
## CLAY 10.76 7.40 14.26 1.86 49.37 14.05 50.72 4.92 60.15 301.5 2 8122 Decastar
## KARPOV 11.02 7.30 14.77 2.04 48.37 14.09 48.95 4.92 50.31 300.2 3 8099 Decastar
## BERNARD 11.02 7.23 14.25 1.92 48.93 14.99 40.87 5.32 62.77 280.1 4 8067 Decastar
## YURKOV 11.34 7.09 15.19 2.10 50.42 15.31 46.26 4.72 63.44 276.4 5 8036 Decastar
## WARNERS 11.11 7.60 14.31 1.98 48.68 14.23 41.10 4.92 51.77 278.1 6 8030 Decastar
# Funciones anova
anova1 <- function(lm){
a = anova(lm)
rbind(a,"Total"=c(n,sum(a[2]),NA,NA,NA))
}
anova2 <- function(lm){
a = car::Anova(lm)
rbind(a,"Total"=c(sum(a[1]),n,NA,NA))
}
anova3 <- function(lm){
a = car::Anova(lm,type=3)
rbind(a,"Total"=c(sum(a[1]),n,NA,NA))
}
lm1 = lm(Points~Javeline + Long.jump + X100m + Competition, data= Decathlon)
summary(lm1)
##
## Call:
## lm(formula = Points ~ Javeline + Long.jump + X100m + Competition,
## data = Decathlon)
##
## Residuals:
## Min 1Q Median 3Q Max
## -286.63 -127.36 -38.26 144.76 449.55
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8612.496 2660.231 3.237 0.002591 **
## Javeline 22.490 6.435 3.495 0.001277 **
## Long.jump 496.386 128.206 3.872 0.000438 ***
## X100m -499.773 173.480 -2.881 0.006643 **
## CompetitionOlympicG -37.963 78.628 -0.483 0.632150
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 191.4 on 36 degrees of freedom
## Multiple R-squared: 0.7188, Adjusted R-squared: 0.6876
## F-statistic: 23.01 on 4 and 36 DF, p-value: 1.684e-09
anova1(lm1);anova2(lm1);anova3(lm1)
## Analysis of Variance Table
##
## Response: Points
## Df Sum Sq Mean Sq F value Pr(>F)
## Javeline 1 836611 836611 22.8415 2.944e-05 ***
## Long.jump 1 2164668 2164668 59.1006 4.202e-09 ***
## X100m 1 360720 360720 9.8485 0.003384 **
## Competition 1 8538 8538 0.2331 0.632150
## Residuals 36 1318566 36627
## Total 41 4689104
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Anova Table (Type II tests)
##
## Response: Points
## Sum Sq Df F value Pr(>F)
## Javeline 447339 1 12.2134 0.0012775 **
## Long.jump 549066 1 14.9908 0.0004375 ***
## X100m 303981 1 8.2994 0.0066429 **
## Competition 8538 1 0.2331 0.6321504
## Residuals 1318566 36
## Total 2627491 41
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Anova Table (Type III tests)
##
## Response: Points
## Sum Sq Df F value Pr(>F)
## (Intercept) 383901 1 10.4814 0.0025912 **
## Javeline 447339 1 12.2134 0.0012775 **
## Long.jump 549066 1 14.9908 0.0004375 ***
## X100m 303981 1 8.2994 0.0066429 **
## Competition 8538 1 0.2331 0.6321504
## Residuals 1318566 36
## Total 3011392 41
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Comentarios:
# Variables Significativas: Javeline, Long.jump y X100m son consistentes y significativamente importantes en todos los análisis de anova.
lm2 = lm(Points ~ Javeline * Competition + Long.jump * Competition + X100m * Competition, data = Decathlon)
summary(lm2)
##
## Call:
## lm(formula = Points ~ Javeline * Competition + Long.jump * Competition +
## X100m * Competition, data = Decathlon)
##
## Residuals:
## Min 1Q Median 3Q Max
## -353.51 -117.38 -29.54 144.26 290.54
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9643.513 4417.376 2.183 0.0362 *
## Javeline 9.386 12.850 0.730 0.4703
## CompetitionOlympicG -165.171 5497.143 -0.030 0.9762
## Long.jump 318.160 247.697 1.284 0.2079
## X100m -409.660 271.904 -1.507 0.1414
## Javeline:CompetitionOlympicG 18.585 14.793 1.256 0.2178
## CompetitionOlympicG:Long.jump 187.168 289.940 0.646 0.5230
## CompetitionOlympicG:X100m -208.462 350.743 -0.594 0.5563
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 188.1 on 33 degrees of freedom
## Multiple R-squared: 0.7511, Adjusted R-squared: 0.6983
## F-statistic: 14.22 on 7 and 33 DF, p-value: 2.378e-08
anova1(lm2);anova2(lm2);anova3(lm2)
## Analysis of Variance Table
##
## Response: Points
## Df Sum Sq Mean Sq F value Pr(>F)
## Javeline 1 836611 836611 23.6513 2.758e-05 ***
## Competition 1 68024 68024 1.9231 0.174816
## Long.jump 1 2161921 2161921 61.1182 5.206e-09 ***
## X100m 1 303981 303981 8.5936 0.006085 **
## Javeline:Competition 1 83788 83788 2.3687 0.133323
## Competition:Long.jump 1 54980 54980 1.5543 0.221276
## Competition:X100m 1 12495 12495 0.3532 0.556336
## Residuals 33 1167302 35373
## Total 41 4689104
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Anova Table (Type II tests)
##
## Response: Points
## Sum Sq Df F value Pr(>F)
## Javeline 478377 1 13.5239 0.0008319 ***
## Competition 8538 1 0.2414 0.6264670
## Long.jump 441344 1 12.4769 0.0012411 **
## X100m 343117 1 9.7000 0.0037964 **
## Javeline:Competition 55830 1 1.5783 0.2178210
## Competition:Long.jump 14741 1 0.4167 0.5230399
## Competition:X100m 12495 1 0.3532 0.5563357
## Residuals 1167302 33
## Total 2521745 41
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Anova Table (Type III tests)
##
## Response: Points
## Sum Sq Df F value Pr(>F)
## (Intercept) 168582 1 4.7659 0.03625 *
## Javeline 18872 1 0.5335 0.47028
## Competition 32 1 0.0009 0.97621
## Long.jump 58360 1 1.6499 0.20792
## X100m 80295 1 2.2700 0.14142
## Javeline:Competition 55830 1 1.5783 0.21782
## Competition:Long.jump 14741 1 0.4167 0.52304
## Competition:X100m 12495 1 0.3532 0.55634
## Residuals 1167302 33
## Total 1576510 41
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Variables Significativas (ANOVA y Type II ANOVA): Javeline, Long.jump y X100m son consistentes y significativamente importantes en ANOVA y Type II ANOVA.
# Variables No Significativas: Competition no es significativa en ninguno de los análisis.
# Interacciones No Significativas: Ninguna de las interacciones (Javeline:Competition, Competition:Long.jump, Competition:X100m) es significativa en ninguno de los análisis.
# Ninguna interacción es significativa en ninguno de los análisis.
anova(lm1, lm2)
## Analysis of Variance Table
##
## Model 1: Points ~ Javeline + Long.jump + X100m + Competition
## Model 2: Points ~ Javeline * Competition + Long.jump * Competition + X100m *
## Competition
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 36 1318566
## 2 33 1167302 3 151264 1.4254 0.2529
# En este caso, el valor p es 0.2529, lo que sugiere que no hay una diferencia estadísticamente significativa entre los dos modelos a un nivel de significancia del 5%.
Iris.csv
# Lectura de los datos
Iris<-read.csv("Iris.csv",row.names=1) # lectura del archivo eventualmente read.table con sus opciones
attach(Iris) # archivo en uso
lab <- rownames(Iris) # etiquetas de las unidades en lab
nom <- colnames(Iris) # etiquetas de las variables en nom
n = dim(Iris)[1] # número de unidades
p = dim(Iris)[2] # número de variables
head(Iris)
## Sepal.length Sepal.width Petal.length Petal.width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
## 6 5.4 3.9 1.7 0.4 setosa
# ANOVA
iris_anova <- aov(Sepal.width ~ Species, data = Iris)
summary(iris_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Species 2 11.35 5.672 49.16 <2e-16 ***
## Residuals 147 16.96 0.115
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# El resumen de la salida ANOVA muestra que el análisis ANOVA es estadísticamente significativo. Sin embargo, no proporciona información sobre qué grupos específicos difieren entre sí. Para determinar las diferencias por pares, podemos utilizar pruebas post hoc
lsd=LSD.test(iris_anova,"Sepal.width",console=TRUE)
##
## Study: iris_anova ~ "Sepal.width"
##
## LSD t Test for Sepal.width
##
## Mean Square Error: 0.1153878
##
## Sepal.width, means and individual ( 95 %) CI
##
## Sepal.width std r se LCL UCL Min Max Q25 Q50 Q75
## 2 2.0 NA 1 0.33968773 1.328698 2.671302 2.0 2.0 2.0 2.0 2.0
## 2.2 2.2 0 3 0.19611880 1.812423 2.587577 2.2 2.2 2.2 2.2 2.2
## 2.3 2.3 0 4 0.16984387 1.964349 2.635651 2.3 2.3 2.3 2.3 2.3
## 2.4 2.4 0 3 0.19611880 2.012423 2.787577 2.4 2.4 2.4 2.4 2.4
## 2.5 2.5 0 8 0.12009775 2.262659 2.737341 2.5 2.5 2.5 2.5 2.5
## 2.6 2.6 0 5 0.15191297 2.299785 2.900215 2.6 2.6 2.6 2.6 2.6
## 2.7 2.7 0 9 0.11322924 2.476233 2.923767 2.7 2.7 2.7 2.7 2.7
## 2.8 2.8 0 14 0.09078537 2.620587 2.979413 2.8 2.8 2.8 2.8 2.8
## 2.9 2.9 0 10 0.10741869 2.687716 3.112284 2.9 2.9 2.9 2.9 2.9
## 3 3.0 0 26 0.06661825 2.868347 3.131653 3.0 3.0 3.0 3.0 3.0
## 3.1 3.1 0 11 0.10241970 2.897595 3.302405 3.1 3.1 3.1 3.1 3.1
## 3.2 3.2 0 13 0.09421243 3.013814 3.386186 3.2 3.2 3.2 3.2 3.2
## 3.3 3.3 0 6 0.13867694 3.025942 3.574058 3.3 3.3 3.3 3.3 3.3
## 3.4 3.4 0 12 0.09805940 3.206212 3.593788 3.4 3.4 3.4 3.4 3.4
## 3.5 3.5 0 6 0.13867694 3.225942 3.774058 3.5 3.5 3.5 3.5 3.5
## 3.6 3.6 0 4 0.16984387 3.264349 3.935651 3.6 3.6 3.6 3.6 3.6
## 3.7 3.7 0 3 0.19611880 3.312423 4.087577 3.7 3.7 3.7 3.7 3.7
## 3.8 3.8 0 6 0.13867694 3.525942 4.074058 3.8 3.8 3.8 3.8 3.8
## 3.9 3.9 0 2 0.24019550 3.425318 4.374682 3.9 3.9 3.9 3.9 3.9
## 4 4.0 NA 1 0.33968773 3.328698 4.671302 4.0 4.0 4.0 4.0 4.0
## 4.1 4.1 NA 1 0.33968773 3.428698 4.771302 4.1 4.1 4.1 4.1 4.1
## 4.2 4.2 NA 1 0.33968773 3.528698 4.871302 4.2 4.2 4.2 4.2 4.2
## 4.4 4.4 NA 1 0.33968773 3.728698 5.071302 4.4 4.4 4.4 4.4 4.4
##
## Alpha: 0.05 ; DF Error: 147
## Critical Value of t: 1.976233
##
## Groups according to probability of means differences and alpha level( 0.05 )
##
## Treatments with the same letter are not significantly different.
##
## Sepal.width groups
## 4.4 4.4 a
## 4.2 4.2 ab
## 4.1 4.1 ab
## 4 4.0 abc
## 3.9 3.9 abc
## 3.8 3.8 abc
## 3.7 3.7 abc
## 3.6 3.6 bc
## 3.5 3.5 bcd
## 3.4 3.4 cd
## 3.3 3.3 cde
## 3.2 3.2 de
## 3.1 3.1 ef
## 3 3.0 efg
## 2.9 2.9 fgh
## 2.8 2.8 gh
## 2.7 2.7 hi
## 2.6 2.6 hij
## 2.5 2.5 ij
## 2.4 2.4 ij
## 2.3 2.3 ij
## 2.2 2.2 j
## 2 2.0 j
plot(lsd)

# Medias Significativamente Diferentes: Las especies de iris tienen medias de Sepal.Width que son significativamente diferentes, pero algunas especies comparten letras, indicando que no todas las diferencias entre medias son significativas.
# Por ejemplo, las especies con medias de Sepal.Width 4.4 y 4.2 comparten la letra 'a', indicando que no son significativamente diferentes entre sí, pero son significativamente diferentes de las especies con media de Sepal.Width 3.4, que está en el grupo 'cd'.
snk=SNK.test(iris_anova,"Sepal.width",console=TRUE)
##
## Study: iris_anova ~ "Sepal.width"
##
## Student Newman Keuls Test
## for Sepal.width
##
## Mean Square Error: 0.1153878
##
## Sepal.width, means
##
## Sepal.width std r se Min Max Q25 Q50 Q75
## 2 2.0 NA 1 0.33968773 2.0 2.0 2.0 2.0 2.0
## 2.2 2.2 0 3 0.19611880 2.2 2.2 2.2 2.2 2.2
## 2.3 2.3 0 4 0.16984387 2.3 2.3 2.3 2.3 2.3
## 2.4 2.4 0 3 0.19611880 2.4 2.4 2.4 2.4 2.4
## 2.5 2.5 0 8 0.12009775 2.5 2.5 2.5 2.5 2.5
## 2.6 2.6 0 5 0.15191297 2.6 2.6 2.6 2.6 2.6
## 2.7 2.7 0 9 0.11322924 2.7 2.7 2.7 2.7 2.7
## 2.8 2.8 0 14 0.09078537 2.8 2.8 2.8 2.8 2.8
## 2.9 2.9 0 10 0.10741869 2.9 2.9 2.9 2.9 2.9
## 3 3.0 0 26 0.06661825 3.0 3.0 3.0 3.0 3.0
## 3.1 3.1 0 11 0.10241970 3.1 3.1 3.1 3.1 3.1
## 3.2 3.2 0 13 0.09421243 3.2 3.2 3.2 3.2 3.2
## 3.3 3.3 0 6 0.13867694 3.3 3.3 3.3 3.3 3.3
## 3.4 3.4 0 12 0.09805940 3.4 3.4 3.4 3.4 3.4
## 3.5 3.5 0 6 0.13867694 3.5 3.5 3.5 3.5 3.5
## 3.6 3.6 0 4 0.16984387 3.6 3.6 3.6 3.6 3.6
## 3.7 3.7 0 3 0.19611880 3.7 3.7 3.7 3.7 3.7
## 3.8 3.8 0 6 0.13867694 3.8 3.8 3.8 3.8 3.8
## 3.9 3.9 0 2 0.24019550 3.9 3.9 3.9 3.9 3.9
## 4 4.0 NA 1 0.33968773 4.0 4.0 4.0 4.0 4.0
## 4.1 4.1 NA 1 0.33968773 4.1 4.1 4.1 4.1 4.1
## 4.2 4.2 NA 1 0.33968773 4.2 4.2 4.2 4.2 4.2
## 4.4 4.4 NA 1 0.33968773 4.4 4.4 4.4 4.4 4.4
##
## Groups according to probability of means differences and alpha level( 0.05 )
##
## Means with the same letter are not significantly different.
##
## Sepal.width groups
## 4.4 4.4 a
## 4.2 4.2 ab
## 4.1 4.1 abc
## 4 4.0 abcd
## 3.9 3.9 abcde
## 3.8 3.8 abcdef
## 3.7 3.7 abcdefg
## 3.6 3.6 abcdefgh
## 3.5 3.5 abcdefghi
## 3.4 3.4 bcdefghij
## 3.3 3.3 bcdefghijk
## 3.2 3.2 cdefghijkl
## 3.1 3.1 defghijklm
## 3 3.0 efghijklm
## 2.9 2.9 fghijklmn
## 2.8 2.8 ghijklmn
## 2.7 2.7 hijklmn
## 2.6 2.6 ijklmn
## 2.5 2.5 jklmn
## 2.4 2.4 klmn
## 2.3 2.3 lmn
## 2.2 2.2 mn
## 2 2.0 n
plot(snk)

# Conclusiones
# Medias Significativamente Diferentes:
# Las especies de iris tienen medias de Sepal.Width que son significativamente diferentes.
# Por ejemplo, la media de Sepal.Width de 4.4 está en el grupo 'a', indicando que es significativamente diferente de las medias que no comparten la letra 'a' (por ejemplo, las medias de 3.4).
# Medias No Significativamente Diferentes:
# Las medias de Sepal.Width que comparten al menos una letra no son significativamente diferentes entre sí.
# Por ejemplo, las medias de Sepal.Width de 4.4 y 4.2 no son significativamente diferentes ya que ambas comparten la letra 'a'.
hsd=HSD.test(iris_anova,"Sepal.width",console=TRUE)
##
## Study: iris_anova ~ "Sepal.width"
##
## HSD Test for Sepal.width
##
## Mean Square Error: 0.1153878
##
## Sepal.width, means
##
## Sepal.width std r se Min Max Q25 Q50 Q75
## 2 2.0 NA 1 0.33968773 2.0 2.0 2.0 2.0 2.0
## 2.2 2.2 0 3 0.19611880 2.2 2.2 2.2 2.2 2.2
## 2.3 2.3 0 4 0.16984387 2.3 2.3 2.3 2.3 2.3
## 2.4 2.4 0 3 0.19611880 2.4 2.4 2.4 2.4 2.4
## 2.5 2.5 0 8 0.12009775 2.5 2.5 2.5 2.5 2.5
## 2.6 2.6 0 5 0.15191297 2.6 2.6 2.6 2.6 2.6
## 2.7 2.7 0 9 0.11322924 2.7 2.7 2.7 2.7 2.7
## 2.8 2.8 0 14 0.09078537 2.8 2.8 2.8 2.8 2.8
## 2.9 2.9 0 10 0.10741869 2.9 2.9 2.9 2.9 2.9
## 3 3.0 0 26 0.06661825 3.0 3.0 3.0 3.0 3.0
## 3.1 3.1 0 11 0.10241970 3.1 3.1 3.1 3.1 3.1
## 3.2 3.2 0 13 0.09421243 3.2 3.2 3.2 3.2 3.2
## 3.3 3.3 0 6 0.13867694 3.3 3.3 3.3 3.3 3.3
## 3.4 3.4 0 12 0.09805940 3.4 3.4 3.4 3.4 3.4
## 3.5 3.5 0 6 0.13867694 3.5 3.5 3.5 3.5 3.5
## 3.6 3.6 0 4 0.16984387 3.6 3.6 3.6 3.6 3.6
## 3.7 3.7 0 3 0.19611880 3.7 3.7 3.7 3.7 3.7
## 3.8 3.8 0 6 0.13867694 3.8 3.8 3.8 3.8 3.8
## 3.9 3.9 0 2 0.24019550 3.9 3.9 3.9 3.9 3.9
## 4 4.0 NA 1 0.33968773 4.0 4.0 4.0 4.0 4.0
## 4.1 4.1 NA 1 0.33968773 4.1 4.1 4.1 4.1 4.1
## 4.2 4.2 NA 1 0.33968773 4.2 4.2 4.2 4.2 4.2
## 4.4 4.4 NA 1 0.33968773 4.4 4.4 4.4 4.4 4.4
##
## Alpha: 0.05 ; DF Error: 147
## Critical Value of Studentized Range: 5.211507
##
## Groups according to probability of means differences and alpha level( 0.05 )
##
## Treatments with the same letter are not significantly different.
##
## Sepal.width groups
## 4.4 4.4 a
## 4.2 4.2 ab
## 4.1 4.1 ab
## 4 4.0 abc
## 3.9 3.9 abc
## 3.8 3.8 abc
## 3.7 3.7 abc
## 3.6 3.6 abc
## 3.5 3.5 abc
## 3.4 3.4 abc
## 3.3 3.3 abcd
## 3.2 3.2 abcd
## 3.1 3.1 abcd
## 3 3.0 bcde
## 2.9 2.9 bcdef
## 2.8 2.8 cdef
## 2.7 2.7 cdef
## 2.6 2.6 def
## 2.5 2.5 ef
## 2.4 2.4 ef
## 2.3 2.3 f
## 2.2 2.2 f
## 2 2.0 f
plot(hsd)

# Conclusiones
# Medias Significativamente Diferentes:
# Las especies de iris tienen medias de Sepal.Width que son significativamente diferentes. Por ejemplo, la media de Sepal.Width de 4.4 es significativamente diferente de las medias de 3.4 y 3.5, ya que no comparten la misma letra.
# Medias No Significativamente Diferentes:
# Las medias de Sepal.Width que comparten al menos una letra no son significativamente diferentes entre sí. Por ejemplo, las medias de Sepal.Width de 4.4 y 4.2 no son significativamente diferentes, ya que ambas comparten la letra 'a'.
sch=scheffe.test(iris_anova,"Sepal.width",console=TRUE)
##
## Study: iris_anova ~ "Sepal.width"
##
## Scheffe Test for Sepal.width
##
## Mean Square Error : 0.1153878
##
## Sepal.width, means
##
## Sepal.width std r se Min Max Q25 Q50 Q75
## 2 2.0 NA 1 0.33968773 2.0 2.0 2.0 2.0 2.0
## 2.2 2.2 0 3 0.19611880 2.2 2.2 2.2 2.2 2.2
## 2.3 2.3 0 4 0.16984387 2.3 2.3 2.3 2.3 2.3
## 2.4 2.4 0 3 0.19611880 2.4 2.4 2.4 2.4 2.4
## 2.5 2.5 0 8 0.12009775 2.5 2.5 2.5 2.5 2.5
## 2.6 2.6 0 5 0.15191297 2.6 2.6 2.6 2.6 2.6
## 2.7 2.7 0 9 0.11322924 2.7 2.7 2.7 2.7 2.7
## 2.8 2.8 0 14 0.09078537 2.8 2.8 2.8 2.8 2.8
## 2.9 2.9 0 10 0.10741869 2.9 2.9 2.9 2.9 2.9
## 3 3.0 0 26 0.06661825 3.0 3.0 3.0 3.0 3.0
## 3.1 3.1 0 11 0.10241970 3.1 3.1 3.1 3.1 3.1
## 3.2 3.2 0 13 0.09421243 3.2 3.2 3.2 3.2 3.2
## 3.3 3.3 0 6 0.13867694 3.3 3.3 3.3 3.3 3.3
## 3.4 3.4 0 12 0.09805940 3.4 3.4 3.4 3.4 3.4
## 3.5 3.5 0 6 0.13867694 3.5 3.5 3.5 3.5 3.5
## 3.6 3.6 0 4 0.16984387 3.6 3.6 3.6 3.6 3.6
## 3.7 3.7 0 3 0.19611880 3.7 3.7 3.7 3.7 3.7
## 3.8 3.8 0 6 0.13867694 3.8 3.8 3.8 3.8 3.8
## 3.9 3.9 0 2 0.24019550 3.9 3.9 3.9 3.9 3.9
## 4 4.0 NA 1 0.33968773 4.0 4.0 4.0 4.0 4.0
## 4.1 4.1 NA 1 0.33968773 4.1 4.1 4.1 4.1 4.1
## 4.2 4.2 NA 1 0.33968773 4.2 4.2 4.2 4.2 4.2
## 4.4 4.4 NA 1 0.33968773 4.4 4.4 4.4 4.4 4.4
##
## Alpha: 0.05 ; DF Error: 147
## Critical Value of F: 1.615181
##
## Groups according to probability of means differences and alpha level( 0.05 )
##
## Means with the same letter are not significantly different.
##
## Sepal.width groups
## 4.4 4.4 a
## 4.2 4.2 a
## 4.1 4.1 a
## 4 4.0 a
## 3.9 3.9 a
## 3.8 3.8 a
## 3.7 3.7 ab
## 3.6 3.6 ab
## 3.5 3.5 ab
## 3.4 3.4 ab
## 3.3 3.3 ab
## 3.2 3.2 ab
## 3.1 3.1 ab
## 3 3.0 ab
## 2.9 2.9 ab
## 2.8 2.8 ab
## 2.7 2.7 ab
## 2.6 2.6 ab
## 2.5 2.5 ab
## 2.4 2.4 ab
## 2.3 2.3 ab
## 2.2 2.2 ab
## 2 2.0 ab
plot(sch)

# Conclusiones
# Medias Significativamente Diferentes:
# Las especies de iris tienen medias de Sepal.Width que son significativamente diferentes.
# Por ejemplo, la media de Sepal.Width de 4.4 es significativamente diferente de las medias de 3.4 y 3.5, ya que no comparten la misma letra.
# Medias No Significativamente Diferentes:
# Las medias de Sepal.Width que comparten al menos una letra no son significativamente diferentes entre sí.
# Por ejemplo, las medias de Sepal.Width de 4.4, 4.2, 4.1, 4.0, 3.9 y 3.8 no son significativamente diferentes, ya que todas comparten la letra 'a'.
iris_ancova <- aov(Sepal.width ~ Sepal.length + Petal.width + Species, data = iris)
summary(iris_ancova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Sepal.length 1 0.391 0.391 5.308 0.0227 *
## Petal.width 1 6.233 6.233 84.551 3.7e-16 ***
## Species 2 10.993 5.497 74.560 < 2e-16 ***
## Residuals 145 10.689 0.074
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
iris_anova <- aov(Sepal.width ~ Species, data = iris)
summary(iris_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Species 2 11.35 5.672 49.16 <2e-16 ***
## Residuals 147 16.96 0.115
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Comparación de los Resultados
# Efecto de Species en Ambos Modelos:
# En el modelo ANOVA original, Species es altamente significativa con un valor F de 49.16 y un valor p < 2e-16.
# En el modelo ANCOVA, Species sigue siendo altamente significativa con un valor F de 74.560 y un valor p < 2e-16.
# Incorporación de Covariables:
# Sepal.length: Es significativa en el modelo ANCOVA con un valor F de 5.308 y un valor p de 0.0227.
# Petal.width: Es altamente significativa en el modelo ANCOVA con un valor F de 84.551 y un valor p de 3.7e-16.
# Suma de Cuadrados Residuales:
# En el modelo ANOVA, la suma de cuadrados residuales es 16.96.
# En el modelo ANCOVA, la suma de cuadrados residuales es 10.689.
# La disminución de la suma de cuadrados residuales en el modelo ANCOVA indica que las covariables Sepal.length y Petal.width ayudan a explicar parte de la variabilidad en Sepal.Width.
# Media de Cuadrados Residuales:
# En el modelo ANOVA, la media de cuadrados residuales es 0.115.
# En el modelo ANCOVA, la media de cuadrados residuales es 0.074.
# La reducción en la media de cuadrados residuales en el modelo ANCOVA sugiere un mejor ajuste del modelo al incluir las covariables.
# La inclusión de Sepal.length y Petal.width en el modelo ANCOVA demuestra que estas covariables son importantes para explicar la variabilidad en Sepal.Width. Petal.width es particularmente significativa.
# Aunque se han incluido covariables en el modelo ANCOVA, Species sigue siendo un factor importante y significativo, lo que sugiere que las diferencias entre especies en términos de Sepal.Width no se deben solo a las covariables consideradas.
# El modelo ANCOVA proporciona un mejor ajuste al reducir la variabilidad no explicada (residual) en comparación con el modelo ANOVA.
Wines.csv
# Lectura de los datos
Wines<-read.csv("Wines.csv",row.names=1) # lectura del archivo
attach(Wines) # archivo en uso
lab <- rownames(Wines) # etiquetas de las unidades en lab
nom <- colnames(Wines) # etiquetas de las variables en nom
n = dim(Wines)[1] # número de unidades
p = dim(Wines)[2] # número de variables
head(Wines)
## Label Soil Odor.Intensity.before.shaking Aroma.quality.before.shaking Fruity.before.shaking Flower.before.shaking Spice.before.shaking Visual.intensity Nuance Surface.feeling Odor.Intensity Quality.of.odour Fruity Flower Spice Plante Phenolic Aroma.intensity Aroma.persistency
## 2EL Saumur Env1 3.074 3.000 2.714 2.280 1.960 4.321 4.000 3.269 3.407 3.308 2.885 2.320 1.840 2.000 1.650 3.259 2.963
## 1CHA Saumur Env1 2.964 2.821 2.375 2.280 1.680 3.222 3.000 2.808 3.370 3.000 2.560 2.440 1.739 2.000 1.381 2.962 2.808
## 1FON Bourgueuil Env1 2.857 2.929 2.560 1.960 2.077 3.536 3.393 3.000 3.250 2.929 2.769 2.192 2.250 1.750 1.250 3.077 2.800
## 1VAU Chinon Env2 2.808 2.593 2.417 1.913 2.160 2.893 2.786 2.538 3.160 2.880 2.391 2.083 2.167 2.304 1.476 2.542 2.583
## 1DAM Saumur Reference 3.607 3.429 3.154 2.154 2.040 4.393 4.036 3.385 3.536 3.360 3.160 2.231 2.148 1.762 1.600 3.615 3.296
## 2BOU Bourgueuil Reference 2.857 3.111 2.577 2.040 2.077 4.464 4.259 3.407 3.179 3.385 2.800 2.240 2.148 1.750 1.476 3.214 3.148
## Aroma.quality Attack.intensity Acidity Astringency Alcohol Balance Smooth Bitterness Intensity Harmony Overall.quality Typical
## 2EL 3.200 2.963 2.107 2.429 2.500 3.250 2.731 1.926 2.857 3.143 3.393 3.250
## 1CHA 2.926 3.036 2.107 2.179 2.654 2.926 2.500 1.926 2.893 2.964 3.214 3.036
## 1FON 3.077 3.222 2.179 2.250 2.643 3.321 2.679 2.000 3.074 3.143 3.536 3.179
## 1VAU 2.478 2.704 3.179 2.185 2.500 2.333 1.680 1.963 2.462 2.038 2.464 2.250
## 1DAM 3.462 3.464 2.571 2.536 2.786 3.464 3.036 2.071 3.643 3.643 3.741 3.444
## 2BOU 3.321 3.286 2.393 2.643 2.857 3.286 2.857 2.179 3.464 3.500 3.643 3.393
# Modelo sin interacción
modelo_sin_interaccion <- aov(Acidity ~ Alcohol + Flower + Label + Soil , data = Wines)
summary(modelo_sin_interaccion)
## Df Sum Sq Mean Sq F value Pr(>F)
## Alcohol 1 0.0000 0.00003 0.001 0.9769
## Flower 1 0.0844 0.08443 2.469 0.1401
## Label 2 0.2367 0.11836 3.461 0.0624 .
## Soil 3 0.3852 0.12840 3.754 0.0385 *
## Residuals 13 0.4446 0.03420
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Interpretación de Resultados
# Alcohol:
# p-valor: 0.9769.
# Interpretación: No es significativo (p > 0.05), lo que indica que el contenido de alcohol no tiene un efecto significativo sobre la acidez en este modelo.
# Flower:
# p-valor: 0.1401.
# Interpretación: No es significativo (p > 0.05), lo que sugiere que la variable Flower no tiene un efecto significativo sobre la acidez en este modelo.
# Label:
# p-valor: 0.0624.
# Interpretación: Marginalmente significativo (0.05 < p < 0.10), lo que sugiere que la variable Label podría tener un efecto sobre la acidez, aunque no es suficientemente fuerte para ser considerado significativo al nivel del 5%.
# Soil:
# p-valor: 0.0385.
# Interpretación: Significativo (p < 0.05), lo que indica que la variable Soil tiene un efecto significativo sobre la acidez.
# Residuals:
# Sum Sq (Suma de cuadrados residuales): 0.4446.
# Mean Sq (Media de cuadrados residuales): 0.03420.
# Interpretación: Esta es la variabilidad en la acidez que no es explicada por el modelo.
# Variable Significativa: Soil es la única variable significativa en este modelo, indicando que el tipo de suelo tiene un impacto importante en la acidez.
# Variables No Significativas: Alcohol y Flower no tienen un efecto significativo sobre la acidez. Label es marginalmente significativo, lo que sugiere que puede haber algún efecto, pero no es lo suficientemente fuerte para ser considerado significativo al nivel del 5%.
# Modelo con interacción
modelo_con_interaccion <- aov(Acidity ~ (Alcohol + Flower) * (Label + Soil), data = Wines)
summary(modelo_con_interaccion)
## Df Sum Sq Mean Sq F value Pr(>F)
## Alcohol 1 0.0000 0.00003 0.001 0.977
## Flower 1 0.0844 0.08443 2.606 0.182
## Label 2 0.2367 0.11836 3.654 0.125
## Soil 3 0.3852 0.12840 3.963 0.108
## Alcohol:Label 2 0.1764 0.08822 2.723 0.179
## Alcohol:Soil 3 0.0623 0.02076 0.641 0.628
## Flower:Label 2 0.0502 0.02509 0.775 0.520
## Flower:Soil 2 0.0261 0.01306 0.403 0.693
## Residuals 4 0.1296 0.03240
# Interpretación de Resultados
# Alcohol:
# p-valor: 0.977.
# Interpretación: No es significativo (p > 0.05), indicando que el contenido de alcohol no tiene un efecto significativo sobre la acidez en este modelo con interacciones.
# Flower:
# p-valor: 0.182.
# Interpretación: No es significativo (p > 0.05), sugiriendo que la variable Flower no tiene un efecto significativo sobre la acidez en este modelo con interacciones.
# Label:
# p-valor: 0.125.
# Interpretación: No es significativo (p > 0.05), indicando que la variable Label no tiene un efecto significativo sobre la acidez en este modelo con interacciones.
# Soil:
# p-valor: 0.108.
# Interpretación: No es significativo (p > 0.05), aunque cercano, sugiriendo que la variable Soil tiene un efecto en la acidez, pero no es lo suficientemente fuerte para ser considerado significativo al nivel del 5%.
# Interacciones:
# Alcohol:Label:
# p-valor: 0.179.
# Interpretación: No es significativo, indicando que la interacción entre Alcohol y Label no tiene un efecto significativo sobre la acidez.
# Alcohol:Soil:
# p-valor: 0.628.
# Interpretación: No es significativo, indicando que la interacción entre Alcohol y Soil no tiene un efecto significativo sobre la acidez.
# Flower:Label:
# p-valor: 0.520.
# Interpretación: No es significativo, indicando que la interacción entre Flower y Label no tiene un efecto significativo sobre la acidez.
# Flower:Soil:
# p-valor: 0.693.
# Interpretación: No es significativo, indicando que la interacción entre Flower y Soil no tiene un efecto significativo sobre la acidez.
# En el modelo sin interacciones, Soil era significativo, pero en el modelo con interacciones, pierde su significancia, lo que podría sugerir que la inclusión de interacciones no mejora el modelo significativamente.
# Comparación de modelos
anova(modelo_sin_interaccion, modelo_con_interaccion)
## Analysis of Variance Table
##
## Model 1: Acidity ~ Alcohol + Flower + Label + Soil
## Model 2: Acidity ~ (Alcohol + Flower) * (Label + Soil)
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 13 0.44461
## 2 4 0.12958 9 0.31503 1.0805 0.5096
# El valor p para la comparación de los modelos es 0.5096, que es mucho mayor que el nivel de significancia comúnmente usado (0.05)
# Esto indica que no hay evidencia significativa de que el modelo con interacciones sea mejor que el modelo sin interacciones.