Ejercicio

library(car)

## Loading required package: carData

library(leaps)
library(faraway)

## 
## Attaching package: 'faraway'

## The following objects are masked from 'package:car':
## 
##     logit, vif

library(MASS)
library(lmtest)

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

library(agricolae)

Decathlon.csv

# Lectura de los datos
  Decathlon<-read.csv("Decathlon_cpl.csv",row.names=1) # lectura del archivo 
  attach(Decathlon)                               # archivo en uso
  lab <- rownames(Decathlon)                      # etiquetas de las unidades en lab
  nom <- colnames(Decathlon)                      # etiquetas de las variables en nom    
  n = dim(Decathlon)[1]                           # número de unidades 
  p = dim(Decathlon)[2]                           # número de variables

head(Decathlon)

##         X100m Long.jump Shot.put High.jump X400m X110m.hurdle Discus Pole.vault Javeline X1500m Rank Points Competition
## SEBRLE  11.04      7.58    14.83      2.07 49.81        14.69  43.75       5.02    63.19  291.7    1   8217    Decastar
## CLAY    10.76      7.40    14.26      1.86 49.37        14.05  50.72       4.92    60.15  301.5    2   8122    Decastar
## KARPOV  11.02      7.30    14.77      2.04 48.37        14.09  48.95       4.92    50.31  300.2    3   8099    Decastar
## BERNARD 11.02      7.23    14.25      1.92 48.93        14.99  40.87       5.32    62.77  280.1    4   8067    Decastar
## YURKOV  11.34      7.09    15.19      2.10 50.42        15.31  46.26       4.72    63.44  276.4    5   8036    Decastar
## WARNERS 11.11      7.60    14.31      1.98 48.68        14.23  41.10       4.92    51.77  278.1    6   8030    Decastar

# Funciones anova
anova1 <- function(lm){
  a = anova(lm)
  rbind(a,"Total"=c(n,sum(a[2]),NA,NA,NA))
}
anova2 <- function(lm){
  a = car::Anova(lm)
  rbind(a,"Total"=c(sum(a[1]),n,NA,NA))
}
anova3 <- function(lm){
  a = car::Anova(lm,type=3)
  rbind(a,"Total"=c(sum(a[1]),n,NA,NA))
}

lm1 = lm(Points~Javeline + Long.jump + X100m + Competition, data= Decathlon)

summary(lm1)

## 
## Call:
## lm(formula = Points ~ Javeline + Long.jump + X100m + Competition, 
##     data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -286.63 -127.36  -38.26  144.76  449.55 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         8612.496   2660.231   3.237 0.002591 ** 
## Javeline              22.490      6.435   3.495 0.001277 ** 
## Long.jump            496.386    128.206   3.872 0.000438 ***
## X100m               -499.773    173.480  -2.881 0.006643 ** 
## CompetitionOlympicG  -37.963     78.628  -0.483 0.632150    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 191.4 on 36 degrees of freedom
## Multiple R-squared:  0.7188, Adjusted R-squared:  0.6876 
## F-statistic: 23.01 on 4 and 36 DF,  p-value: 1.684e-09

anova1(lm1);anova2(lm1);anova3(lm1)

## Analysis of Variance Table
## 
## Response: Points
##             Df  Sum Sq Mean Sq F value    Pr(>F)    
## Javeline     1  836611  836611 22.8415 2.944e-05 ***
## Long.jump    1 2164668 2164668 59.1006 4.202e-09 ***
## X100m        1  360720  360720  9.8485  0.003384 ** 
## Competition  1    8538    8538  0.2331  0.632150    
## Residuals   36 1318566   36627                      
## Total       41 4689104                              
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## Anova Table (Type II tests)
## 
## Response: Points
##              Sum Sq Df F value    Pr(>F)    
## Javeline     447339  1 12.2134 0.0012775 ** 
## Long.jump    549066  1 14.9908 0.0004375 ***
## X100m        303981  1  8.2994 0.0066429 ** 
## Competition    8538  1  0.2331 0.6321504    
## Residuals   1318566 36                      
## Total       2627491 41                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## Anova Table (Type III tests)
## 
## Response: Points
##              Sum Sq Df F value    Pr(>F)    
## (Intercept)  383901  1 10.4814 0.0025912 ** 
## Javeline     447339  1 12.2134 0.0012775 ** 
## Long.jump    549066  1 14.9908 0.0004375 ***
## X100m        303981  1  8.2994 0.0066429 ** 
## Competition    8538  1  0.2331 0.6321504    
## Residuals   1318566 36                      
## Total       3011392 41                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Comentarios:
# Variables Significativas: Javeline, Long.jump y X100m son consistentes y significativamente importantes en todos los análisis de anova.

lm2 = lm(Points ~ Javeline * Competition + Long.jump * Competition + X100m * Competition, data = Decathlon)

summary(lm2)

## 
## Call:
## lm(formula = Points ~ Javeline * Competition + Long.jump * Competition + 
##     X100m * Competition, data = Decathlon)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -353.51 -117.38  -29.54  144.26  290.54 
## 
## Coefficients:
##                               Estimate Std. Error t value Pr(>|t|)  
## (Intercept)                   9643.513   4417.376   2.183   0.0362 *
## Javeline                         9.386     12.850   0.730   0.4703  
## CompetitionOlympicG           -165.171   5497.143  -0.030   0.9762  
## Long.jump                      318.160    247.697   1.284   0.2079  
## X100m                         -409.660    271.904  -1.507   0.1414  
## Javeline:CompetitionOlympicG    18.585     14.793   1.256   0.2178  
## CompetitionOlympicG:Long.jump  187.168    289.940   0.646   0.5230  
## CompetitionOlympicG:X100m     -208.462    350.743  -0.594   0.5563  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 188.1 on 33 degrees of freedom
## Multiple R-squared:  0.7511, Adjusted R-squared:  0.6983 
## F-statistic: 14.22 on 7 and 33 DF,  p-value: 2.378e-08

anova1(lm2);anova2(lm2);anova3(lm2)

## Analysis of Variance Table
## 
## Response: Points
##                       Df  Sum Sq Mean Sq F value    Pr(>F)    
## Javeline               1  836611  836611 23.6513 2.758e-05 ***
## Competition            1   68024   68024  1.9231  0.174816    
## Long.jump              1 2161921 2161921 61.1182 5.206e-09 ***
## X100m                  1  303981  303981  8.5936  0.006085 ** 
## Javeline:Competition   1   83788   83788  2.3687  0.133323    
## Competition:Long.jump  1   54980   54980  1.5543  0.221276    
## Competition:X100m      1   12495   12495  0.3532  0.556336    
## Residuals             33 1167302   35373                      
## Total                 41 4689104                              
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## Anova Table (Type II tests)
## 
## Response: Points
##                        Sum Sq Df F value    Pr(>F)    
## Javeline               478377  1 13.5239 0.0008319 ***
## Competition              8538  1  0.2414 0.6264670    
## Long.jump              441344  1 12.4769 0.0012411 ** 
## X100m                  343117  1  9.7000 0.0037964 ** 
## Javeline:Competition    55830  1  1.5783 0.2178210    
## Competition:Long.jump   14741  1  0.4167 0.5230399    
## Competition:X100m       12495  1  0.3532 0.5563357    
## Residuals             1167302 33                      
## Total                 2521745 41                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## Anova Table (Type III tests)
## 
## Response: Points
##                        Sum Sq Df F value  Pr(>F)  
## (Intercept)            168582  1  4.7659 0.03625 *
## Javeline                18872  1  0.5335 0.47028  
## Competition                32  1  0.0009 0.97621  
## Long.jump               58360  1  1.6499 0.20792  
## X100m                   80295  1  2.2700 0.14142  
## Javeline:Competition    55830  1  1.5783 0.21782  
## Competition:Long.jump   14741  1  0.4167 0.52304  
## Competition:X100m       12495  1  0.3532 0.55634  
## Residuals             1167302 33                  
## Total                 1576510 41                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Variables Significativas (ANOVA y Type II ANOVA): Javeline, Long.jump y X100m son consistentes y significativamente importantes en ANOVA y Type II ANOVA.
# Variables No Significativas: Competition no es significativa en ninguno de los análisis.
# Interacciones No Significativas: Ninguna de las interacciones (Javeline:Competition, Competition:Long.jump, Competition:X100m) es significativa en ninguno de los análisis.

# Ninguna interacción es significativa en ninguno de los análisis.

anova(lm1, lm2)

## Analysis of Variance Table
## 
## Model 1: Points ~ Javeline + Long.jump + X100m + Competition
## Model 2: Points ~ Javeline * Competition + Long.jump * Competition + X100m * 
##     Competition
##   Res.Df     RSS Df Sum of Sq      F Pr(>F)
## 1     36 1318566                           
## 2     33 1167302  3    151264 1.4254 0.2529

# En este caso, el valor p es 0.2529, lo que sugiere que no hay una diferencia estadísticamente significativa entre los dos modelos a un nivel de significancia del 5%.

Iris.csv

# Lectura de los datos
  Iris<-read.csv("Iris.csv",row.names=1) # lectura del archivo eventualmente read.table con sus opciones
  attach(Iris)                               # archivo en uso
  lab <- rownames(Iris)                      # etiquetas de las unidades en lab 
  nom <- colnames(Iris)                      # etiquetas de las variables en nom    
  n = dim(Iris)[1]                           # número de unidades 
  p = dim(Iris)[2]                           # número de variables

head(Iris)

##   Sepal.length Sepal.width Petal.length Petal.width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa

# ANOVA 
iris_anova <- aov(Sepal.width ~ Species, data = Iris)

summary(iris_anova)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## Species       2  11.35   5.672   49.16 <2e-16 ***
## Residuals   147  16.96   0.115                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# El resumen de la salida ANOVA muestra que el análisis ANOVA es estadísticamente significativo. Sin embargo, no proporciona información sobre qué grupos específicos difieren entre sí. Para determinar las diferencias por pares, podemos utilizar pruebas post hoc

lsd=LSD.test(iris_anova,"Sepal.width",console=TRUE)

## 
## Study: iris_anova ~ "Sepal.width"
## 
## LSD t Test for Sepal.width 
## 
## Mean Square Error:  0.1153878 
## 
## Sepal.width,  means and individual ( 95 %) CI
## 
##     Sepal.width std  r         se      LCL      UCL Min Max Q25 Q50 Q75
## 2           2.0  NA  1 0.33968773 1.328698 2.671302 2.0 2.0 2.0 2.0 2.0
## 2.2         2.2   0  3 0.19611880 1.812423 2.587577 2.2 2.2 2.2 2.2 2.2
## 2.3         2.3   0  4 0.16984387 1.964349 2.635651 2.3 2.3 2.3 2.3 2.3
## 2.4         2.4   0  3 0.19611880 2.012423 2.787577 2.4 2.4 2.4 2.4 2.4
## 2.5         2.5   0  8 0.12009775 2.262659 2.737341 2.5 2.5 2.5 2.5 2.5
## 2.6         2.6   0  5 0.15191297 2.299785 2.900215 2.6 2.6 2.6 2.6 2.6
## 2.7         2.7   0  9 0.11322924 2.476233 2.923767 2.7 2.7 2.7 2.7 2.7
## 2.8         2.8   0 14 0.09078537 2.620587 2.979413 2.8 2.8 2.8 2.8 2.8
## 2.9         2.9   0 10 0.10741869 2.687716 3.112284 2.9 2.9 2.9 2.9 2.9
## 3           3.0   0 26 0.06661825 2.868347 3.131653 3.0 3.0 3.0 3.0 3.0
## 3.1         3.1   0 11 0.10241970 2.897595 3.302405 3.1 3.1 3.1 3.1 3.1
## 3.2         3.2   0 13 0.09421243 3.013814 3.386186 3.2 3.2 3.2 3.2 3.2
## 3.3         3.3   0  6 0.13867694 3.025942 3.574058 3.3 3.3 3.3 3.3 3.3
## 3.4         3.4   0 12 0.09805940 3.206212 3.593788 3.4 3.4 3.4 3.4 3.4
## 3.5         3.5   0  6 0.13867694 3.225942 3.774058 3.5 3.5 3.5 3.5 3.5
## 3.6         3.6   0  4 0.16984387 3.264349 3.935651 3.6 3.6 3.6 3.6 3.6
## 3.7         3.7   0  3 0.19611880 3.312423 4.087577 3.7 3.7 3.7 3.7 3.7
## 3.8         3.8   0  6 0.13867694 3.525942 4.074058 3.8 3.8 3.8 3.8 3.8
## 3.9         3.9   0  2 0.24019550 3.425318 4.374682 3.9 3.9 3.9 3.9 3.9
## 4           4.0  NA  1 0.33968773 3.328698 4.671302 4.0 4.0 4.0 4.0 4.0
## 4.1         4.1  NA  1 0.33968773 3.428698 4.771302 4.1 4.1 4.1 4.1 4.1
## 4.2         4.2  NA  1 0.33968773 3.528698 4.871302 4.2 4.2 4.2 4.2 4.2
## 4.4         4.4  NA  1 0.33968773 3.728698 5.071302 4.4 4.4 4.4 4.4 4.4
## 
## Alpha: 0.05 ; DF Error: 147
## Critical Value of t: 1.976233 
## 
## Groups according to probability of means differences and alpha level( 0.05 )
## 
## Treatments with the same letter are not significantly different.
## 
##     Sepal.width groups
## 4.4         4.4      a
## 4.2         4.2     ab
## 4.1         4.1     ab
## 4           4.0    abc
## 3.9         3.9    abc
## 3.8         3.8    abc
## 3.7         3.7    abc
## 3.6         3.6     bc
## 3.5         3.5    bcd
## 3.4         3.4     cd
## 3.3         3.3    cde
## 3.2         3.2     de
## 3.1         3.1     ef
## 3           3.0    efg
## 2.9         2.9    fgh
## 2.8         2.8     gh
## 2.7         2.7     hi
## 2.6         2.6    hij
## 2.5         2.5     ij
## 2.4         2.4     ij
## 2.3         2.3     ij
## 2.2         2.2      j
## 2           2.0      j

plot(lsd)

# Medias Significativamente Diferentes: Las especies de iris tienen medias de Sepal.Width que son significativamente diferentes, pero algunas especies comparten letras, indicando que no todas las diferencias entre medias son significativas.

# Por ejemplo, las especies con medias de Sepal.Width 4.4 y 4.2 comparten la letra 'a', indicando que no son significativamente diferentes entre sí, pero son significativamente diferentes de las especies con media de Sepal.Width 3.4, que está en el grupo 'cd'.

snk=SNK.test(iris_anova,"Sepal.width",console=TRUE)

## 
## Study: iris_anova ~ "Sepal.width"
## 
## Student Newman Keuls Test
## for Sepal.width 
## 
## Mean Square Error:  0.1153878 
## 
## Sepal.width,  means
## 
##     Sepal.width std  r         se Min Max Q25 Q50 Q75
## 2           2.0  NA  1 0.33968773 2.0 2.0 2.0 2.0 2.0
## 2.2         2.2   0  3 0.19611880 2.2 2.2 2.2 2.2 2.2
## 2.3         2.3   0  4 0.16984387 2.3 2.3 2.3 2.3 2.3
## 2.4         2.4   0  3 0.19611880 2.4 2.4 2.4 2.4 2.4
## 2.5         2.5   0  8 0.12009775 2.5 2.5 2.5 2.5 2.5
## 2.6         2.6   0  5 0.15191297 2.6 2.6 2.6 2.6 2.6
## 2.7         2.7   0  9 0.11322924 2.7 2.7 2.7 2.7 2.7
## 2.8         2.8   0 14 0.09078537 2.8 2.8 2.8 2.8 2.8
## 2.9         2.9   0 10 0.10741869 2.9 2.9 2.9 2.9 2.9
## 3           3.0   0 26 0.06661825 3.0 3.0 3.0 3.0 3.0
## 3.1         3.1   0 11 0.10241970 3.1 3.1 3.1 3.1 3.1
## 3.2         3.2   0 13 0.09421243 3.2 3.2 3.2 3.2 3.2
## 3.3         3.3   0  6 0.13867694 3.3 3.3 3.3 3.3 3.3
## 3.4         3.4   0 12 0.09805940 3.4 3.4 3.4 3.4 3.4
## 3.5         3.5   0  6 0.13867694 3.5 3.5 3.5 3.5 3.5
## 3.6         3.6   0  4 0.16984387 3.6 3.6 3.6 3.6 3.6
## 3.7         3.7   0  3 0.19611880 3.7 3.7 3.7 3.7 3.7
## 3.8         3.8   0  6 0.13867694 3.8 3.8 3.8 3.8 3.8
## 3.9         3.9   0  2 0.24019550 3.9 3.9 3.9 3.9 3.9
## 4           4.0  NA  1 0.33968773 4.0 4.0 4.0 4.0 4.0
## 4.1         4.1  NA  1 0.33968773 4.1 4.1 4.1 4.1 4.1
## 4.2         4.2  NA  1 0.33968773 4.2 4.2 4.2 4.2 4.2
## 4.4         4.4  NA  1 0.33968773 4.4 4.4 4.4 4.4 4.4
## 
## Groups according to probability of means differences and alpha level( 0.05 )
## 
## Means with the same letter are not significantly different.
## 
##     Sepal.width     groups
## 4.4         4.4          a
## 4.2         4.2         ab
## 4.1         4.1        abc
## 4           4.0       abcd
## 3.9         3.9      abcde
## 3.8         3.8     abcdef
## 3.7         3.7    abcdefg
## 3.6         3.6   abcdefgh
## 3.5         3.5  abcdefghi
## 3.4         3.4  bcdefghij
## 3.3         3.3 bcdefghijk
## 3.2         3.2 cdefghijkl
## 3.1         3.1 defghijklm
## 3           3.0  efghijklm
## 2.9         2.9  fghijklmn
## 2.8         2.8   ghijklmn
## 2.7         2.7    hijklmn
## 2.6         2.6     ijklmn
## 2.5         2.5      jklmn
## 2.4         2.4       klmn
## 2.3         2.3        lmn
## 2.2         2.2         mn
## 2           2.0          n

plot(snk)

# Conclusiones
# Medias Significativamente Diferentes:

# Las especies de iris tienen medias de Sepal.Width que son significativamente diferentes.
# Por ejemplo, la media de Sepal.Width de 4.4 está en el grupo 'a', indicando que es significativamente diferente de las medias que no comparten la letra 'a' (por ejemplo, las medias de 3.4).

# Medias No Significativamente Diferentes:

# Las medias de Sepal.Width que comparten al menos una letra no son significativamente diferentes entre sí.
# Por ejemplo, las medias de Sepal.Width de 4.4 y 4.2 no son significativamente diferentes ya que ambas comparten la letra 'a'.

hsd=HSD.test(iris_anova,"Sepal.width",console=TRUE)

## 
## Study: iris_anova ~ "Sepal.width"
## 
## HSD Test for Sepal.width 
## 
## Mean Square Error:  0.1153878 
## 
## Sepal.width,  means
## 
##     Sepal.width std  r         se Min Max Q25 Q50 Q75
## 2           2.0  NA  1 0.33968773 2.0 2.0 2.0 2.0 2.0
## 2.2         2.2   0  3 0.19611880 2.2 2.2 2.2 2.2 2.2
## 2.3         2.3   0  4 0.16984387 2.3 2.3 2.3 2.3 2.3
## 2.4         2.4   0  3 0.19611880 2.4 2.4 2.4 2.4 2.4
## 2.5         2.5   0  8 0.12009775 2.5 2.5 2.5 2.5 2.5
## 2.6         2.6   0  5 0.15191297 2.6 2.6 2.6 2.6 2.6
## 2.7         2.7   0  9 0.11322924 2.7 2.7 2.7 2.7 2.7
## 2.8         2.8   0 14 0.09078537 2.8 2.8 2.8 2.8 2.8
## 2.9         2.9   0 10 0.10741869 2.9 2.9 2.9 2.9 2.9
## 3           3.0   0 26 0.06661825 3.0 3.0 3.0 3.0 3.0
## 3.1         3.1   0 11 0.10241970 3.1 3.1 3.1 3.1 3.1
## 3.2         3.2   0 13 0.09421243 3.2 3.2 3.2 3.2 3.2
## 3.3         3.3   0  6 0.13867694 3.3 3.3 3.3 3.3 3.3
## 3.4         3.4   0 12 0.09805940 3.4 3.4 3.4 3.4 3.4
## 3.5         3.5   0  6 0.13867694 3.5 3.5 3.5 3.5 3.5
## 3.6         3.6   0  4 0.16984387 3.6 3.6 3.6 3.6 3.6
## 3.7         3.7   0  3 0.19611880 3.7 3.7 3.7 3.7 3.7
## 3.8         3.8   0  6 0.13867694 3.8 3.8 3.8 3.8 3.8
## 3.9         3.9   0  2 0.24019550 3.9 3.9 3.9 3.9 3.9
## 4           4.0  NA  1 0.33968773 4.0 4.0 4.0 4.0 4.0
## 4.1         4.1  NA  1 0.33968773 4.1 4.1 4.1 4.1 4.1
## 4.2         4.2  NA  1 0.33968773 4.2 4.2 4.2 4.2 4.2
## 4.4         4.4  NA  1 0.33968773 4.4 4.4 4.4 4.4 4.4
## 
## Alpha: 0.05 ; DF Error: 147 
## Critical Value of Studentized Range: 5.211507 
## 
## Groups according to probability of means differences and alpha level( 0.05 )
## 
## Treatments with the same letter are not significantly different.
## 
##     Sepal.width groups
## 4.4         4.4      a
## 4.2         4.2     ab
## 4.1         4.1     ab
## 4           4.0    abc
## 3.9         3.9    abc
## 3.8         3.8    abc
## 3.7         3.7    abc
## 3.6         3.6    abc
## 3.5         3.5    abc
## 3.4         3.4    abc
## 3.3         3.3   abcd
## 3.2         3.2   abcd
## 3.1         3.1   abcd
## 3           3.0   bcde
## 2.9         2.9  bcdef
## 2.8         2.8   cdef
## 2.7         2.7   cdef
## 2.6         2.6    def
## 2.5         2.5     ef
## 2.4         2.4     ef
## 2.3         2.3      f
## 2.2         2.2      f
## 2           2.0      f

plot(hsd)

# Conclusiones
# Medias Significativamente Diferentes:

# Las especies de iris tienen medias de Sepal.Width que son significativamente diferentes. Por ejemplo, la media de Sepal.Width de 4.4 es significativamente diferente de las medias de 3.4 y 3.5, ya que no comparten la misma letra.

# Medias No Significativamente Diferentes:

# Las medias de Sepal.Width que comparten al menos una letra no son significativamente diferentes entre sí. Por ejemplo, las medias de Sepal.Width de 4.4 y 4.2 no son significativamente diferentes, ya que ambas comparten la letra 'a'.

sch=scheffe.test(iris_anova,"Sepal.width",console=TRUE)

## 
## Study: iris_anova ~ "Sepal.width"
## 
## Scheffe Test for Sepal.width 
## 
## Mean Square Error  : 0.1153878 
## 
## Sepal.width,  means
## 
##     Sepal.width std  r         se Min Max Q25 Q50 Q75
## 2           2.0  NA  1 0.33968773 2.0 2.0 2.0 2.0 2.0
## 2.2         2.2   0  3 0.19611880 2.2 2.2 2.2 2.2 2.2
## 2.3         2.3   0  4 0.16984387 2.3 2.3 2.3 2.3 2.3
## 2.4         2.4   0  3 0.19611880 2.4 2.4 2.4 2.4 2.4
## 2.5         2.5   0  8 0.12009775 2.5 2.5 2.5 2.5 2.5
## 2.6         2.6   0  5 0.15191297 2.6 2.6 2.6 2.6 2.6
## 2.7         2.7   0  9 0.11322924 2.7 2.7 2.7 2.7 2.7
## 2.8         2.8   0 14 0.09078537 2.8 2.8 2.8 2.8 2.8
## 2.9         2.9   0 10 0.10741869 2.9 2.9 2.9 2.9 2.9
## 3           3.0   0 26 0.06661825 3.0 3.0 3.0 3.0 3.0
## 3.1         3.1   0 11 0.10241970 3.1 3.1 3.1 3.1 3.1
## 3.2         3.2   0 13 0.09421243 3.2 3.2 3.2 3.2 3.2
## 3.3         3.3   0  6 0.13867694 3.3 3.3 3.3 3.3 3.3
## 3.4         3.4   0 12 0.09805940 3.4 3.4 3.4 3.4 3.4
## 3.5         3.5   0  6 0.13867694 3.5 3.5 3.5 3.5 3.5
## 3.6         3.6   0  4 0.16984387 3.6 3.6 3.6 3.6 3.6
## 3.7         3.7   0  3 0.19611880 3.7 3.7 3.7 3.7 3.7
## 3.8         3.8   0  6 0.13867694 3.8 3.8 3.8 3.8 3.8
## 3.9         3.9   0  2 0.24019550 3.9 3.9 3.9 3.9 3.9
## 4           4.0  NA  1 0.33968773 4.0 4.0 4.0 4.0 4.0
## 4.1         4.1  NA  1 0.33968773 4.1 4.1 4.1 4.1 4.1
## 4.2         4.2  NA  1 0.33968773 4.2 4.2 4.2 4.2 4.2
## 4.4         4.4  NA  1 0.33968773 4.4 4.4 4.4 4.4 4.4
## 
## Alpha: 0.05 ; DF Error: 147 
## Critical Value of F: 1.615181 
## 
## Groups according to probability of means differences and alpha level( 0.05 )
## 
## Means with the same letter are not significantly different.
## 
##     Sepal.width groups
## 4.4         4.4      a
## 4.2         4.2      a
## 4.1         4.1      a
## 4           4.0      a
## 3.9         3.9      a
## 3.8         3.8      a
## 3.7         3.7     ab
## 3.6         3.6     ab
## 3.5         3.5     ab
## 3.4         3.4     ab
## 3.3         3.3     ab
## 3.2         3.2     ab
## 3.1         3.1     ab
## 3           3.0     ab
## 2.9         2.9     ab
## 2.8         2.8     ab
## 2.7         2.7     ab
## 2.6         2.6     ab
## 2.5         2.5     ab
## 2.4         2.4     ab
## 2.3         2.3     ab
## 2.2         2.2     ab
## 2           2.0     ab

plot(sch)

# Conclusiones
# Medias Significativamente Diferentes:

# Las especies de iris tienen medias de Sepal.Width que son significativamente diferentes.
# Por ejemplo, la media de Sepal.Width de 4.4 es significativamente diferente de las medias de 3.4 y 3.5, ya que no comparten la misma letra.

# Medias No Significativamente Diferentes:

# Las medias de Sepal.Width que comparten al menos una letra no son significativamente diferentes entre sí.
# Por ejemplo, las medias de Sepal.Width de 4.4, 4.2, 4.1, 4.0, 3.9 y 3.8 no son significativamente diferentes, ya que todas comparten la letra 'a'.

iris_ancova <- aov(Sepal.width ~ Sepal.length + Petal.width + Species, data = iris)
summary(iris_ancova)

##               Df Sum Sq Mean Sq F value  Pr(>F)    
## Sepal.length   1  0.391   0.391   5.308  0.0227 *  
## Petal.width    1  6.233   6.233  84.551 3.7e-16 ***
## Species        2 10.993   5.497  74.560 < 2e-16 ***
## Residuals    145 10.689   0.074                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

iris_anova <- aov(Sepal.width ~ Species, data = iris)
summary(iris_anova)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## Species       2  11.35   5.672   49.16 <2e-16 ***
## Residuals   147  16.96   0.115                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Comparación de los Resultados
# Efecto de Species en Ambos Modelos:

# En el modelo ANOVA original, Species es altamente significativa con un valor F de 49.16 y un valor p < 2e-16.
# En el modelo ANCOVA, Species sigue siendo altamente significativa con un valor F de 74.560 y un valor p < 2e-16.

# Incorporación de Covariables:

# Sepal.length: Es significativa en el modelo ANCOVA con un valor F de 5.308 y un valor p de 0.0227.
# Petal.width: Es altamente significativa en el modelo ANCOVA con un valor F de 84.551 y un valor p de 3.7e-16.

# Suma de Cuadrados Residuales:

# En el modelo ANOVA, la suma de cuadrados residuales es 16.96.
# En el modelo ANCOVA, la suma de cuadrados residuales es 10.689.
# La disminución de la suma de cuadrados residuales en el modelo ANCOVA indica que las covariables Sepal.length y Petal.width ayudan a explicar parte de la variabilidad en Sepal.Width.

# Media de Cuadrados Residuales:

# En el modelo ANOVA, la media de cuadrados residuales es 0.115.
# En el modelo ANCOVA, la media de cuadrados residuales es 0.074.
# La reducción en la media de cuadrados residuales en el modelo ANCOVA sugiere un mejor ajuste del modelo al incluir las covariables.


# La inclusión de Sepal.length y Petal.width en el modelo ANCOVA demuestra que estas covariables son importantes para explicar la variabilidad en Sepal.Width. Petal.width es particularmente significativa.

# Aunque se han incluido covariables en el modelo ANCOVA, Species sigue siendo un factor importante y significativo, lo que sugiere que las diferencias entre especies en términos de Sepal.Width no se deben solo a las covariables consideradas.

# El modelo ANCOVA proporciona un mejor ajuste al reducir la variabilidad no explicada (residual) en comparación con el modelo ANOVA.

Wines.csv

# Lectura de los datos
  Wines<-read.csv("Wines.csv",row.names=1) # lectura del archivo 
  attach(Wines)                               # archivo en uso
  lab <- rownames(Wines)                      # etiquetas de las unidades en lab 
  nom <- colnames(Wines)                      # etiquetas de las variables en nom    
  n = dim(Wines)[1]                           # número de unidades 
  p = dim(Wines)[2]                           # número de variables

head(Wines)

##           Label      Soil Odor.Intensity.before.shaking Aroma.quality.before.shaking Fruity.before.shaking Flower.before.shaking Spice.before.shaking Visual.intensity Nuance Surface.feeling Odor.Intensity Quality.of.odour Fruity Flower Spice Plante Phenolic Aroma.intensity Aroma.persistency
## 2EL      Saumur      Env1                         3.074                        3.000                 2.714                 2.280                1.960            4.321  4.000           3.269          3.407            3.308  2.885  2.320 1.840  2.000    1.650           3.259             2.963
## 1CHA     Saumur      Env1                         2.964                        2.821                 2.375                 2.280                1.680            3.222  3.000           2.808          3.370            3.000  2.560  2.440 1.739  2.000    1.381           2.962             2.808
## 1FON Bourgueuil      Env1                         2.857                        2.929                 2.560                 1.960                2.077            3.536  3.393           3.000          3.250            2.929  2.769  2.192 2.250  1.750    1.250           3.077             2.800
## 1VAU     Chinon      Env2                         2.808                        2.593                 2.417                 1.913                2.160            2.893  2.786           2.538          3.160            2.880  2.391  2.083 2.167  2.304    1.476           2.542             2.583
## 1DAM     Saumur Reference                         3.607                        3.429                 3.154                 2.154                2.040            4.393  4.036           3.385          3.536            3.360  3.160  2.231 2.148  1.762    1.600           3.615             3.296
## 2BOU Bourgueuil Reference                         2.857                        3.111                 2.577                 2.040                2.077            4.464  4.259           3.407          3.179            3.385  2.800  2.240 2.148  1.750    1.476           3.214             3.148
##      Aroma.quality Attack.intensity Acidity Astringency Alcohol Balance Smooth Bitterness Intensity Harmony Overall.quality Typical
## 2EL          3.200            2.963   2.107       2.429   2.500   3.250  2.731      1.926     2.857   3.143           3.393   3.250
## 1CHA         2.926            3.036   2.107       2.179   2.654   2.926  2.500      1.926     2.893   2.964           3.214   3.036
## 1FON         3.077            3.222   2.179       2.250   2.643   3.321  2.679      2.000     3.074   3.143           3.536   3.179
## 1VAU         2.478            2.704   3.179       2.185   2.500   2.333  1.680      1.963     2.462   2.038           2.464   2.250
## 1DAM         3.462            3.464   2.571       2.536   2.786   3.464  3.036      2.071     3.643   3.643           3.741   3.444
## 2BOU         3.321            3.286   2.393       2.643   2.857   3.286  2.857      2.179     3.464   3.500           3.643   3.393

# Modelo sin interacción
modelo_sin_interaccion <- aov(Acidity ~ Alcohol + Flower + Label + Soil , data = Wines)
summary(modelo_sin_interaccion)

##             Df Sum Sq Mean Sq F value Pr(>F)  
## Alcohol      1 0.0000 0.00003   0.001 0.9769  
## Flower       1 0.0844 0.08443   2.469 0.1401  
## Label        2 0.2367 0.11836   3.461 0.0624 .
## Soil         3 0.3852 0.12840   3.754 0.0385 *
## Residuals   13 0.4446 0.03420                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Interpretación de Resultados
# Alcohol:

# p-valor: 0.9769.
# Interpretación: No es significativo (p > 0.05), lo que indica que el contenido de alcohol no tiene un efecto significativo sobre la acidez en este modelo.

# Flower:

# p-valor: 0.1401.
# Interpretación: No es significativo (p > 0.05), lo que sugiere que la variable Flower no tiene un efecto significativo sobre la acidez en este modelo.

# Label:

# p-valor: 0.0624.
# Interpretación: Marginalmente significativo (0.05 < p < 0.10), lo que sugiere que la variable Label podría tener un efecto sobre la acidez, aunque no es suficientemente fuerte para ser considerado significativo al nivel del 5%.

# Soil:

# p-valor: 0.0385.
# Interpretación: Significativo (p < 0.05), lo que indica que la variable Soil tiene un efecto significativo sobre la acidez.

# Residuals:

# Sum Sq (Suma de cuadrados residuales): 0.4446.
# Mean Sq (Media de cuadrados residuales): 0.03420.
# Interpretación: Esta es la variabilidad en la acidez que no es explicada por el modelo.

# Variable Significativa: Soil es la única variable significativa en este modelo, indicando que el tipo de suelo tiene un impacto importante en la acidez.

# Variables No Significativas: Alcohol y Flower no tienen un efecto significativo sobre la acidez. Label es marginalmente significativo, lo que sugiere que puede haber algún efecto, pero no es lo suficientemente fuerte para ser considerado significativo al nivel del 5%.

# Modelo con interacción
modelo_con_interaccion <- aov(Acidity ~ (Alcohol + Flower) * (Label + Soil), data = Wines)
summary(modelo_con_interaccion)

##               Df Sum Sq Mean Sq F value Pr(>F)
## Alcohol        1 0.0000 0.00003   0.001  0.977
## Flower         1 0.0844 0.08443   2.606  0.182
## Label          2 0.2367 0.11836   3.654  0.125
## Soil           3 0.3852 0.12840   3.963  0.108
## Alcohol:Label  2 0.1764 0.08822   2.723  0.179
## Alcohol:Soil   3 0.0623 0.02076   0.641  0.628
## Flower:Label   2 0.0502 0.02509   0.775  0.520
## Flower:Soil    2 0.0261 0.01306   0.403  0.693
## Residuals      4 0.1296 0.03240

# Interpretación de Resultados
# Alcohol:
# p-valor: 0.977.
# Interpretación: No es significativo (p > 0.05), indicando que el contenido de alcohol no tiene un efecto significativo sobre la acidez en este modelo con interacciones.

# Flower:
# p-valor: 0.182.
# Interpretación: No es significativo (p > 0.05), sugiriendo que la variable Flower no tiene un efecto significativo sobre la acidez en este modelo con interacciones.

# Label:
# p-valor: 0.125.
# Interpretación: No es significativo (p > 0.05), indicando que la variable Label no tiene un efecto significativo sobre la acidez en este modelo con interacciones.

# Soil:
# p-valor: 0.108.
# Interpretación: No es significativo (p > 0.05), aunque cercano, sugiriendo que la variable Soil tiene un efecto en la acidez, pero no es lo suficientemente fuerte para ser considerado significativo al nivel del 5%.


# Interacciones:

# Alcohol:Label:
# p-valor: 0.179.
# Interpretación: No es significativo, indicando que la interacción entre Alcohol y Label no tiene un efecto significativo sobre la acidez.

# Alcohol:Soil:
# p-valor: 0.628.
# Interpretación: No es significativo, indicando que la interacción entre Alcohol y Soil no tiene un efecto significativo sobre la acidez.

# Flower:Label:
# p-valor: 0.520.
# Interpretación: No es significativo, indicando que la interacción entre Flower y Label no tiene un efecto significativo sobre la acidez.

# Flower:Soil:
# p-valor: 0.693.
# Interpretación: No es significativo, indicando que la interacción entre Flower y Soil no tiene un efecto significativo sobre la acidez.

# En el modelo sin interacciones, Soil era significativo, pero en el modelo con interacciones, pierde su significancia, lo que podría sugerir que la inclusión de interacciones no mejora el modelo significativamente.

# Comparación de modelos
anova(modelo_sin_interaccion, modelo_con_interaccion)

## Analysis of Variance Table
## 
## Model 1: Acidity ~ Alcohol + Flower + Label + Soil
## Model 2: Acidity ~ (Alcohol + Flower) * (Label + Soil)
##   Res.Df     RSS Df Sum of Sq      F Pr(>F)
## 1     13 0.44461                           
## 2      4 0.12958  9   0.31503 1.0805 0.5096

# El valor p para la comparación de los modelos es 0.5096, que es mucho mayor que el nivel de significancia comúnmente usado (0.05)

# Esto indica que no hay evidencia significativa de que el modelo con interacciones sea mejor que el modelo sin interacciones.

Ejercicio_8

Kevin Gargate Osorio

2024-05-01

Decathlon.csv

Iris.csv

Wines.csv