Avec l’évolution de la technologie et la complexité croissante des
expériences en laboratoire, liées notamment au grand nombre de variables
mises en jeu dans les procédés industriels (comme la mise en place des
machines ou des outils), il devient nécessaire de recourir à des
méthodes permettant d’obtenir des résultats fiables et de qualité pour
faire des expériences.
La méthode des plans d’expériences consiste à « obtenir un
maximum d’informations avec un minimum d’expériences ». En effet,
réduire le nombre d’essais permet de gagner du temps et d’améliorer la
productivité.
Quelques définitions utiles :
Réponse : variable à expliquer.
Facteur : variable explicative qui peut être
modifiée sans difficulté.Les facteurs peuvent être quantitatifs ou
qualitatifs (ces derniers pouvant être transformés à l’aide d’un codage
approprié).
Niveaux : modalités prises par une variable
qualitative.
Domaine expérimental : c’est un sous-ensemble
dans lequel il est possible de réaliser une expérience. Pour le définir,
il faut croiser les différentes plages de variation des facteurs.
Exemple : si l’on considère la pression, la température, le domaine
expériementale c’est l’air du rectangle.
plot(c(30, 70), c(1, 10), type = "n", xlab = "Pression", ylab = "Température",main = "Domaine expérimental" )
# Puis ajouter le rectangle
rect(xleft=40, xright=60, ytop=2,ybottom = 8, border = "black",col = "pink")
points(c(40,40,60,60), c(8,2,2,8), pch=21, bg="black", cex=1.5)

Notion de plan d’expérience Si l’on souhaite
étudier un problème qui dépend de 4 facteurs, chacun ayant 4 niveaux,
une approche naïve consisterait à tester toutes les combinaisons
possibles, soit
4^4
expériences. Économiquement, cette option est rarement
envisageable.
Une autre technique est celle dite u>« un facteur à la
fois », qui consiste à faire varier chaque facteur
séparément en lui attribuant toutes ses modalités possibles. Cependant,
cette méthode présente plusieurs inconvénients:
elle masque les éventuels effets d’interaction entre plusieurs
facteurs,
le choix des niveaux des facteurs maintenus constants est arbitraire,
ce qui peut influencer la qualité des résultats obtenus,
le plan d’expérience risque d’être déséquilibré, certains niveaux
étant plus représentés que d’autres.
Technique d’un sous-ensemble quelconque
d’expériences»
Elle consiste à déterminer de manière aléatoire un sous-ensemble
d’expériences.
Inconvénients de cette méthode :
Risque de sélectionner des expériences qui ne permettent pas
d’estimer tous les paramètres inconnus du modèle.
Même si tous les paramètres inconnus sont estimés, la qualité du
modèle peut être loin d’être optimale.
Bon astuce:
la configuration doit être équilibrée,c’est à dire que chaque niveau
doit apparaître le même nombre de fois pour chaque facteur,
les facteurs doivent être linéairement indépendants (c’est-à-dire non
liés entre eux).
Codage des facteurs
Le codage des facteurs est important car il permet de :
comparer plus facilement la variation de chaque facteur en les
ramenant dans un même intervalle,
simplifier les calculs.
On effectue alors un changement de variable pour ramener les valeurs
dans l’intervalle [−1,+1]. Pour un facteur x défini sur l’intervalle
[a,b], le codage est : (2*x+(a+b))/(b-a)
Exemple Lien vers l’énoncé.
Réponses aux questions:
On peut proposé codage suivant
# Exemple : vecteur de valeurs
valeurs <- c(22,28,29,30)
# Définition de la fonction
codage <- function(X) {
res <- round((2*X - (max(X) + min(X))) / (max(X) - min(X)),2)
res
}
codage(valeurs)
[1] -1.00 0.50 0.75 1.00
Nous allons appliquer la fonction de codage définie précédemment sur
deux stratégies de températures (stratégie 1 et stratégie 2).
#stratégie1
s1 <- c(22,28,29,30)
#stratégie2
s2 <- c(20,24,26,30)
#on va cooder ces températeur en dégre
ss1 <- codage(s1)
ss2 <- codage(s2)
ss1
[1] -1.00 0.50 0.75 1.00
ss2
[1] -1.0 -0.2 0.2 1.0
La question est de justifier la meilleur strategie.
Pour cela, posons les matrices du modèle, avec pour X1 et X2 les deux
stratégies respectives
#on fait les deux matrices
X1 <- matrix(c(rep(1, length(s1)), ss1), nrow = length(ss1), ncol = 2)
colnames(X1) <- c("col1", "col2")
X2 <- matrix(c(rep(1,length(s2)),ss2),nrow = length(ss2),ncol = 2)
X1
col1 col2
[1,] 1 -1.00
[2,] 1 0.50
[3,] 1 0.75
[4,] 1 1.00
X2
[,1] [,2]
[1,] 1 -1.0
[2,] 1 -0.2
[3,] 1 0.2
[4,] 1 1.0
Nous allons essayer d’estimer les paramètres du modèle, même si nous
n’avons pas la réponse
#on calcul l'inverse de (tX1 * X1)
invX1 <- solve(t(X1) %*% X1)
# pour le segon
invX2 <- solve(t(X2) %*% X2)
round( invX1, 4)
col1 col2
col1 0.2903 -0.1290
col2 -0.1290 0.4129
round(invX2, 4)
[,1] [,2]
[1,] 0.25 0.0000
[2,] 0.00 0.4808
# pour afficher proprement (arrondir pour affichage seulement)
Nous devons trouver la qualité de l’ajustement. Dans notre cas ici,
sigma_2 n’est pas intéressant pour juger stratégie, car c’est le même
pour l’échantillon.
Qualité de la réponse moyenne prédite, Y^ =
sigma2.tg(x).(tX.X)-1.g(x) , avec g(x) le vecteur de
regresssion
#la variance y_ est une fonction du 2 degreee
x <- runif(20,min=-4,max = 4)
ma_fonction1 <- function(x){
0.29 -0.260*x +0.41*x^2
}
ma_fonction2 <- function(x){
0.25 +0.481*x^2
}
curve(ma_fonction1, from = -4, to = 4,
col = "blue", lwd = 2,
main = "Comparaison des deux fonctions",
xlab = "x", ylab = "y")#,labels="Première strategie"
# Ajouter la deuxième fonction
curve(ma_fonction2, from = -4, to = 4,
col = "red", lwd = 2, add = TRUE)
# Polygone pour colorier l'aire sous la courbe
x_fill <- seq(-1, 1, length.out = 200)
y_fill <- ma_fonction1(x_fill)
polygon(c(-1, x_fill, 1), c(0, y_fill, 0),
col = rgb(1, 0, 0, 0.3), border = NA)
# Ajouter les bornes
abline(v = c(-1, 1), lty = 2)

NA
NA
NA
NA
On va s’intéresser à la variance moyenne de production sur [-1,+1] il
s’agit de trouver l’air sous la courbe pour chaque fonction
I1 <- integrate(ma_fonction1, lower = -1, upper = 1)
I2 <- integrate(ma_fonction2, lower = -1, upper = 1)
La variance moyenne predite sur [-1,1] de la deuxième stratégie est
plus petite que celle de la première stratégie car:
I2$value-I1$value
[1] -0.03266667
En conclusion, l’analyse comparative basée sur la modélisation
linéaire des données normalisées démontre que la stratégie 2 est
significativement plus efficace que la stratégie 1
---
title: <span style="color:red">#Les plans d'expérience</span>
output: html_notebook
---
  
Avec l’évolution de la technologie et la complexité croissante des expériences en laboratoire, liées notamment au grand nombre de variables mises en jeu dans les procédés industriels (comme la mise en place des machines ou des outils), il devient nécessaire de recourir à des méthodes permettant d’obtenir des résultats fiables et de qualité pour faire des expériences.

La méthode des plans d’expériences consiste à *« obtenir un maximum d’informations avec un minimum d’expériences »*. 
En effet, réduire le nombre d’essais permet de gagner du temps et d’améliorer la productivité.

<u>**Quelques définitions utiles**</u> :

**Réponse** : variable à expliquer.

**Facteur** : variable explicative qui peut être modifiée sans difficulté.Les facteurs peuvent être quantitatifs ou qualitatifs (ces derniers pouvant être transformés à l’aide d’un codage approprié).

**Niveaux** : modalités prises par une variable qualitative.

<u>**Domaine expérimental**</u> : c’est un sous-ensemble dans lequel il est possible de réaliser une expérience. Pour le définir, il faut croiser les différentes plages de variation des facteurs.
Exemple : si l’on considère la pression, la température, le domaine expériementale c'est l'air du rectangle. 
```{r}
plot(c(30, 70), c(1, 10), type = "n", xlab = "Pression", ylab = "Température",main = "Domaine expérimental" )
# Puis ajouter le rectangle
rect(xleft=40, xright=60, ytop=2,ybottom =  8, border = "black",col = "pink")
points(c(40,40,60,60), c(8,2,2,8), pch=21, bg="black", cex=1.5)

```
<u>**Notion de plan d’expérience**</u>
Si l’on souhaite étudier un problème qui dépend de 4 facteurs, chacun ayant 4 niveaux, une approche naïve consisterait à tester toutes les combinaisons possibles, soit 
```{r}
4^4
```
expériences. Économiquement, cette option est rarement envisageable.

Une autre technique est celle dite u>**« un facteur à la fois »**</u>, qui consiste à faire varier chaque facteur séparément en lui attribuant toutes ses modalités possibles.
Cependant, cette méthode présente plusieurs inconvénients:

elle masque les éventuels effets d’interaction entre plusieurs facteurs,

le choix des niveaux des facteurs maintenus constants est arbitraire, ce qui peut influencer la qualité des résultats obtenus,

le plan d’expérience risque d’être déséquilibré, certains niveaux étant plus représentés que d’autres.


<u>**Technique d’un sous-ensemble quelconque d’expériences»**</u>

Elle consiste à déterminer de manière aléatoire un sous-ensemble d’expériences.

Inconvénients de cette méthode :

Risque de sélectionner des expériences qui ne permettent pas d’estimer tous les paramètres inconnus du modèle.

Même si tous les paramètres inconnus sont estimés, la qualité du modèle peut être loin d’être optimale.

<span style="color:red">Bon astuce:</span>

la configuration doit être équilibrée,c'est à dire que chaque niveau doit apparaître le même nombre de fois pour chaque facteur,

les facteurs doivent être linéairement indépendants (c’est-à-dire non liés entre eux).


<u>**Codage des facteurs**</u>

Le codage des facteurs est important car il permet de :

comparer plus facilement la variation de chaque facteur en les ramenant dans un même intervalle,

simplifier les calculs.

On effectue alors un changement de variable pour ramener les valeurs dans l’intervalle [−1,+1].
Pour un facteur 
x défini sur l’intervalle 
[a,b], le codage est : (2*x+(a+b))/(b-a)

<u>Exemple</u>
Lien vers l'énoncé.

Réponses aux questions:

On peut proposé  codage suivant
```{r}
# Exemple : vecteur de valeurs
valeurs <- c(22,28,29,30)

# Définition de la fonction
codage <- function(X) {
  res <- round((2*X - (max(X) + min(X))) / (max(X) - min(X)),2)
  res
}
codage(valeurs)
```
Nous allons appliquer la fonction de codage définie précédemment sur deux stratégies 
de températures (stratégie 1 et stratégie 2). 
```{r}
#stratégie1 
s1 <- c(22,28,29,30)
#stratégie2
s2 <- c(20,24,26,30)
# Normalisation des températures des deux stratégies sur l'intervalle [-1, 1]
ss1 <- codage(s1)
ss2 <- codage(s2)
ss1
ss2
```
La question est de justifier la meilleur strategie.

Pour cela, posons les matrices du modèle, avec pour X1 et X2 les deux stratégies respectives
```{r}
#on construit les deux matrices
X1 <- matrix(c(rep(1, length(s1)), ss1), nrow = length(ss1), ncol = 2)
colnames(X1) <- c("col1", "col2")
#Matrice 2
X2 <- matrix(c(rep(1,length(s2)),ss2),nrow = length(ss2),ncol = 2)
X1
X2
# Ces matrices serviront à ajuster un modèle linéaire

```
Nous allons essayer d'estimer les paramètres du modèle, même si nous n'avons pas la réponse
```{r}
# calcul de  l'inverse de (tX1 * X1)
invX1 <- solve(t(X1) %*% X1)
# pour la segonde matrice
invX2 <- solve(t(X2) %*% X2)
round( invX1, 4)
round(invX2, 4)

```
Nous devons trouver la qualité de l'ajustement.
Dans notre cas ici, sigma_2 n'est pas intéressant pour juger stratégie, car c'est le même pour l'échantillon.

Qualité de la réponse moyenne prédite,<u> Y^ =  sigma^2.tg(x).(tX.X)^-1.g(x) </u> , avec g(x) le vecteur de regresssion

```{r}
#La variance y_ est une fonction du 2 dégréé.
x <- runif(20,min=-4,max = 4)
 ma_fonction1 <- function(x){
  0.29 -0.260*x +0.41*x^2
}
ma_fonction2 <- function(x){
  0.25 +0.481*x^2
}
curve(ma_fonction1, from = -4, to = 4, 
      col = "blue", lwd = 2, 
      main = "Comparaison des deux fonctions",
      xlab = "x", ylab = "y")#,labels="Première strategie"
# Ajouter la deuxième fonction
curve(ma_fonction2, from = -4, to = 4, 
      col = "red", lwd = 2, add = TRUE)
# Polygone pour colorier l'aire sous la courbe
x_fill <- seq(-1, 1, length.out = 200)
y_fill <- ma_fonction1(x_fill)
polygon(c(-1, x_fill, 1), c(0, y_fill, 0),
        col = rgb(1, 0, 0, 0.3), border = NA)

# Ajouter les bornes
abline(v = c(-1, 1), lty = 2)
```
On va s'intéresser à la variance moyenne de production sur [-1,+1]
il s'agit de trouver l'air sous la courbe pour chaque fonction
```{r}
I1 <- integrate(ma_fonction1, lower = -1, upper = 1)
I2 <- integrate(ma_fonction2, lower = -1, upper = 1)
```
La variance moyenne predite sur [-1,1] de la deuxième stratégie est plus petite que celle de la première stratégie car:
```{r}
I2$value-I1$value
```
En conclusion, l'analyse comparative basée sur la modélisation linéaire des données normalisées démontre que la stratégie 2 est significativement plus efficace que la stratégie 1
