Balance A/B?
Chers étudiants de SSP 1ère après avoir suivi vos discussions sur le groupe et que les derniers chiffres du sondage aient été relevés ci-après, je vous propose une approche statistique, pour evaluer, valider ou invalider vos interogations:
il y a une disparité flagrante entre groupes TEST A/B,
Comment mesurer cette disparité afin de justifier / ou non / cette disparité au sein de la population SSP cc1 1 ere (N= env 600 etudiants) ?
Y a t il un biais ds le plan expérimental?
Voici les chiffres relevés par votre sondage what’sup:
countcc1=as.table(rbind(c(56,63),c(7,35)))
countcc1
## A B
## A 56 63
## B 7 35
ME=matrix(countcc1, nrow = 2, byrow = TRUE)
ME=as.table(ME)
colnames(ME)=c("TESTA","TESTB")
rownames(ME)=c("fail","reussi")
kable(ME)#TABLE OF COUNT
| TESTA | TESTB | |
|---|---|---|
| fail | 56 | 7 |
| reussi | 63 | 35 |
addmargins(ME)##attention avec add margins on peut demander par col et rows
## TESTA TESTB Sum
## fail 56 7 63
## reussi 63 35 98
## Sum 119 42 161
round(prop.table(ME,2),2)
## TESTA TESTB
## fail 0.47 0.17
## reussi 0.53 0.83
kable(round(prop.table(ME,2),2))###TABLE OF %
| TESTA | TESTB | |
|---|---|---|
| fail | 0.47 | 0.17 |
| reussi | 0.53 | 0.83 |
##check and recheck R output
56/(63+56)#always check the table BY HAND CALCULATION
## [1] 0.4705882
En graphique:
barplot(round(prop.table(ME,2),2),beside=TRUE,col=c(2,5),main="barplot effectif en [%]",ylab=("%"))
legend("topleft",legend=c("fail","reussi"),fill=c(2,5))
barplot(ME,beside=TRUE,col=c(2,5),main="barplot effectif [counts]",ylab=("count"))
legend("topright",legend=c("fail","reussi"),fill=c(2,5))
barplot(ME,beside=TRUE,col=c(2,5),main="barplot effectif [counts]",ylab=("count"),ylim=c(0,400))
legend("topleft",legend=c("fail","reussi"),fill=c(2,5))
Noter que ces deux derniers graphiques (Counts) representent le même problème mais vous ne donne pas la même information: Soyez tjrs vigilant aux axes (libellés) , titres et le scale factor de l’échelle f(x). Pour ce dernier cas veuillez remarquer que si je change ylim le graphe ne donne plus la même impression.
“Un graphique ca peut aussi être une illusion délibérée …”
Le sondage n’est pas aléatoire (Simple Random Sampling :SRS)
les effectifs na et nb ne sont pas équilibrés (UNBALANCED Sampling)
Le taux d’echec moyen dans toutes les branches confondues , chaque année en 1ere SSP et à ma connaissance(?) est entre 40-60 % (A vérifier svp).Donc on pourrait se dire que la question de recherche:
LE TEST A est trop difficile est inadequate mais que plutôt:
LE TEST B etait trop facile! Pas de chance pour les A…
C’est donc une tout autre position à démontrer avec des conséquences différentes à motiver et que le rectorat voudra bien examiner dans les eventuels recours…
Dans un prop test que je vous présente ci-après il nous faut la proportion moyenne des deux populations .
Attention comme les effectifs ne sont pas egaux (nA>nB) il s’agit donc d’une moyenne pondérée1:
Comme exercice d’exa: prouvez que la moyenne est aussi un estimateur pondéré…!
\(\hat{p}_0\) avg=\(\sum{na} * count[a]+\sum{ nb}*count(b) / \sum(na,nb)\)
Dans notre cas \(\hat{p}_0\) avg[ABÂ FAIL] = 39%
Remarque: si vous travailler avec les réussites vous aurez simplement 1-pechec
61 % de réussite , tout tests confondus! ce qui est plus que les autres années…?
Noter que comme nb<na le groupe B est mesuré avec moins de précision et donc ça variance aura une contribution importante dans les test présentés ci après.
(119*0.47+0.17*42)/161
## [1] 0.3917391
#P Hat weighted av for the prop test = 39% d' test A et B reunis calcul à la main créer une fonction est possible....
Question pour vous :
Dans quel cas je puis additionner simplement les deux proportion d’echec et diviser par 2 comme une simple moyenne:
\(\sum({p1+p2}) / 2\)
Verifier toujours dans les tables comment sont organisées vos données et ce que vous voulez etudier, ici les echec (FAIL): Les résultats statistiques ne changeront pas mais l’interprétation causale le pourrait…
Sous Ho il n’y devrait pas y avoir de difference signifacative (\(\alpha\) =5% de seuil critique ) entre
les “COUNTS” A et B (Test du Khi Carré) ou,
les PROPORTIONS A et B (Prop Test)
Sauf une variaton aléatoire due aux erreurs d’échantillonage.
KHI=chisq.test(ME)
KHI
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: ME
## X-squared = 10.796, df = 1, p-value = 0.001017
KHI$expected
## TESTA TESTB
## fail 46.56522 16.43478
## reussi 72.43478 25.56522
KHI$statistic
## X-squared
## 10.79649
1-pchisq(10.796,1)
## [1] 0.001017196
chisq.test(countcc1)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: countcc1
## X-squared = 10.796, df = 1, p-value = 0.001017
prop.test(c(56,7),c((56+63),(7+35)))
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(56, 7) out of c((56 + 63), (7 + 35))
## X-squared = 10.796, df = 1, p-value = 0.001017
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1437818 0.4640614
## sample estimates:
## prop 1 prop 2
## 0.4705882 0.1666667
fail=c(56,7)
reu=c(56+63,7+35)
reu
## [1] 119 42
prop.test(fail,reu,correct=TRUE)
##
## 2-sample test for equality of proportions with continuity correction
##
## data: fail out of reu
## X-squared = 10.796, df = 1, p-value = 0.001017
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1437818 0.4640614
## sample estimates:
## prop 1 prop 2
## 0.4705882 0.1666667
Pval =0.001017 < 0.05
En consequence Ho est rejetée en faveur de H1
H1 comme hypothese:
Et bien la différence notée des deux proportions de réussite (ou de fail!) entre A et B ne sont pas due a la chance mais sont significativement differentes l’une de l’autre, ce a un seuil de 5%.
Le prop test[^3] est plus adaptés à ce cas précis( question de recherches dans ce cas)J'ai utilisé la correction de continuté (ici justifié cause du n=7 dans le test B)
Le Prop test peut avoir une approximation Z et une convergence assymptotique loi Normal z si np\>5 n(1-p)\>5 et n~i~\>30
L'exemple suivant le démontre:
```r
sqrt(10.8)# A chisquare is a square of normal law- z value -if 1 df that is
```
```
## [1] 3.286335
```
```r
2*(1-pnorm(3.28))##A pvalue is 1-pnorm PX>x and 2 because of a two sided test= Same result with z assymptotic law
```
```
## [1] 0.001038071
```
Certains de vous ont parlés de biais : Sachez que quoi que vous faisiez il y aura toujours des biais et les biais en methodology sont plus ou moins similaires au biais statistique et sont toujours difficiles à débusquer et démonter sauf mathématiquement:
En STAT on dit qu’on a un biais sur notre estimateur (i.e proportions,moyennes) quand l’ESPERANCE (Mathématique) de votre estimateur n’est pas la valeur réelle de celui de votre population cad:
E [ \(\hat{p} ]\) différent de p.
Donc pour comprendre cette relation et la prouver il faudrait mesurer l’espérance de l’estimateur qui est en sorte une moyenne a long terme de l’expérience répétée et mesurée maintes fois afin de le comparer aux paramètre de votre population .
Vous me direz:
Mais on ne peut jamais connnaitre la vrai valeur p de la population: Vrai!
En fait, on peut l’approcher…Comment?
Et bien il suffirait de reprendre les notes des années précédente des examens A et B ,de ce même professeur de de voir comment evolue les probabilités (ou prop. eq.) d’echec des années précédentes: On pourrait alors rechercher un biais systematique:
Note:Je vous ferais aussi remarquer que pour un professeur il est tres difficile de faire un test equivalent ce parfaitement
Cas 1: depuis 10 ans les test A et B présentent aletrnativement cette même variation de probabilité alors effectivement un test est plus facile que l’autre:
Une solution serait de poser les même questions avec des dataset différents par exemple en stat I .La personne qui serais tentée de copier son voisin commettrais une erreur fatale.
Cas 2: Le Test A est connais toujours plus d’Echec: Le prof mets dans le test A les questions les plus difficiles épuisant ainsi le theme pour les questions du test B
Cas 3: Kes test A et B présentent a peu près le même taux d’échec disons 50% dans un intervalle de confiance du prop test (en accord avec le taux d’echec général)
Dans ce cas précis vos inquiétudes sont justifiables.
La personne qui s’en est chargée devrait choisir aléatoiratoirement :
i.e 1004 personne du test A et 100 Personnes du test B qui sont obligés de remplir le sondage SI une refuse répété un tirage aléatoire d’un sujet:
par exemples sur 600 elèves on pourait faire comme suit:
round(runif(100)*300,0)##TEST A classé aléatoirement et choisir les numéros de classement de runif et l'attribuer a l'élève désigné sur 300 tests A
## [1] 52 155 210 255 89 286 123 70 251 220 282 42 186 201 284 108 51 77
## [19] 126 85 220 268 72 236 38 234 94 270 205 207 225 159 133 108 44 281
## [37] 74 224 98 85 229 23 211 112 209 274 147 49 212 283 15 16 124 234
## [55] 122 157 81 133 69 153 196 136 30 172 150 253 121 1 269 276 81 55
## [73] 74 117 242 271 88 239 126 289 157 155 235 88 237 177 125 269 274 101
## [91] 165 263 299 5 14 107 275 203 262 252
round(runif(100)*300,0)##TEST B classsé aléatoirement et choisir les numéros de classement de runif et l'attribuer a l'élève désigné
## [1] 38 262 288 217 203 149 209 213 238 113 62 142 47 267 209 114 102 209
## [19] 121 264 51 286 194 177 199 218 35 261 253 20 35 277 77 7 36 241
## [37] 126 128 56 129 212 41 269 184 288 228 217 228 191 255 41 98 246 156
## [55] 296 25 257 44 60 10 63 237 102 293 222 187 145 261 234 90 63 244
## [73] 107 157 189 261 33 155 271 270 121 167 1 76 267 274 229 225 35 1
## [91] 253 222 178 120 79 15 208 44 162 229
#Classer par ordre alphabétique n'est plus tout a fait aléatoire (Systématique Sampling: Pourquoi?)
Pour un sampling-echantillonage avec un minimum de variance vous pouvez stratifier vos groupe de test par genre (M/F).
Question pour vous : Pourquoi utilisé une loi uniforme dans un SRS?
En conclusion voici ce que les statistiques peuvent mettre en lumière des données afin de justifier ou d’invalider des hypothèses.
La réponse est sans doute chez le rectorat.
Bonne chance à vous pour vos éventuels recours.
NOTE : A VOTRE DISPOSITION:
Cours d’Appui STAT I,II, III
40 frs Lausanne/H GARE
079 708 87 15 Whats-Up
Vous verez en Statistique les techniques stat utilisent beaucoup la pondération ou les “poids” représentent une probabilités d’un xi, une contribution à l’estimateur.↩︎
Ces thèmes vous seront présenter ce semestre 2025…?↩︎
BIAS Anglais biais et DOE Design of experiment↩︎
On pourrait faire une analyse de sample size J’ai trouvé 96 personnes par groupe (pas présenter ici) avec l’expérience on arrive intuitivement a savoir le nombre de personne qu’il faut selon la loi de distribution utilisée et se paramètre (Surtout la sd et la se)↩︎