ANOVA AVEC UN FACTEUR

data=read.csv("ble.csv",sep = ";")
head(data,5)

Question 1: La structure de la donnée

attach(data)
str(data)
## 'data.frame':    80 obs. of  4 variables:
##  $ parcelle: int  1 2 3 4 5 6 7 8 9 10 ...
##  $ variete : chr  "V1" "V1" "V1" "V1" ...
##  $ phyto   : chr  "Avec" "Avec" "Avec" "Avec" ...
##  $ rdt     : int  5652 5583 5612 5735 5704 5544 5563 5610 5641 5637 ...
summary(data)
##     parcelle       variete             phyto                rdt      
##  Min.   : 1.00   Length:80          Length:80          Min.   :5268  
##  1st Qu.:20.75   Class :character   Class :character   1st Qu.:5482  
##  Median :40.50   Mode  :character   Mode  :character   Median :5606  
##  Mean   :40.50                                         Mean   :5609  
##  3rd Qu.:60.25                                         3rd Qu.:5718  
##  Max.   :80.00                                         Max.   :5947

Notre jeu de données est constitué de 4 variables dont au total 80 observations.

Question 2: La variable réponse est rdt et les facteurs sont: phyto et variété

Question 3

library(ggplot2)
## Warning: le package 'ggplot2' a été compilé avec la version R 4.1.2
figure1=ggplot(data,aes(variete,rdt,fill=variete))+geom_boxplot()
figure1

library(ggplot2)
figure2=ggplot(data,aes(phyto   ,rdt,fill=phyto   ))+geom_boxplot()
figure2

## REMARQUE: on remarque que pour le facteur variété, les boîtes n’ont pas les mêmes hauteurs. ## Alors que pour la variable phyto les hauteurs sont pres que égales.

Question 4

modele1=aov(rdt~variete, data=data)
modele1
## Call:
##    aov(formula = rdt ~ variete, data = data)
## 
## Terms:
##                   variete Residuals
## Sum of Squares   851844.5 1051387.0
## Deg. of Freedom         3        76
## 
## Residual standard error: 117.6182
## Estimated effects may be unbalanced
summary(modele1)
##             Df  Sum Sq Mean Sq F value   Pr(>F)    
## variete      3  851845  283948   20.52 7.67e-10 ***
## Residuals   76 1051387   13834                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
modele2=aov(rdt~phyto, data=data)
modele2
## Call:
##    aov(formula = rdt ~ phyto, data = data)
## 
## Terms:
##                     phyto Residuals
## Sum of Squares     1008.2 1902223.3
## Deg. of Freedom         1        78
## 
## Residual standard error: 156.1649
## Estimated effects may be unbalanced
summary(modele2)
##             Df  Sum Sq Mean Sq F value Pr(>F)
## phyto        1    1008    1008   0.041  0.839
## Residuals   78 1902223   24387

Question 5: Pour le facteur variété, la p-value étant inférieure à 0.05, alors on rejette l’hypothèse Ho. Ce résultat confirme notre conclusion faite par l’observation faite sur les figures (boxplots). Le facteur variete a donc une influence sur la variable rdt.

Pour le facteur phyto, la p-value étant supérieure à 0.05, alors on accepte l’hypothèse Ho. Ce résultat confirme notre conclusion faite par l’observation faite sur les figures (boxplots). Le facteur phyto n’a pas d’influence sur la variable rdt.

Question 6 avec anova

modele3=anova(lm(rdt~variete,data = data))
modele3
modele4=anova(lm(rdt~phyto,data = data))
modele4

On trouve les mêmes résultats avec la commande anova

ANOVA AVEC DEUX FACTEURS

library(ggplot2)
head(Dat,5)
## sec
## v1 v2 v3 v4 v5 
##  8  8  8  8  8
## mach
## v1 v2 v3 v4 
## 10 10 10 10

Tailles des groupes : I=4 et J=5,nombre total d’observations n=40 et nombre de répétitions est K=2

fig1=ggplot(Dat,aes(sec,mpm,fill=sec))+geom_boxplot()
fig1

fig2=ggplot(Dat,aes(mach,mpm,fill=mach))+geom_boxplot()
fig2

mod=anova(lm(mpm~mach+sec+mpm:sec,data=Dat))
## Warning in anova.lm(lm(mpm ~ mach + sec + mpm:sec, data = Dat)): ANOVA F-tests
## on an essentially perfect fit are unreliable
mod

QUESTION 1 : Les p-values sont inférieures à 0.05, alors il y a influence des deux facteurs sur la variables mpm et aussi il y a l’effet de l’interaction entre les deux variables.

QUESTION 2: Il vaut mieux les conserve, car en les étudiants séparement, on voit que le facteur sec n’a pas d’influence sur la variable mpm (la p-value est supérieure à 0.05 d’près mod2 ci-dessous).

mod1=anova(lm(mpm~mach,data=Dat))
mod1
mod2=anova(lm(mpm~sec,data=Dat))
mod2