CC1 : Y a t-il a trop d’echec dans le groupe A vs B?

Balance A/B?

Chers étudiants de SSP 1ère après avoir suivi vos discussions sur le groupe et que les derniers chiffres du sondage aient été relevés ci-après, je vous propose une approche statistique, pour evaluer, valider ou invalider vos interogations:

Voici les chiffres relevés par votre sondage what’sup:

countcc1=as.table(rbind(c(56,63),c(7,35)))
countcc1
##    A  B
## A 56 63
## B  7 35
ME=matrix(countcc1, nrow = 2, byrow = TRUE)
ME=as.table(ME)
colnames(ME)=c("TESTA","TESTB")
rownames(ME)=c("fail","reussi")
kable(ME)#TABLE OF COUNT
TESTA TESTB
fail 56 7
reussi 63 35
addmargins(ME)##attention avec add margins on peut demander par col et rows
##        TESTA TESTB Sum
## fail      56     7  63
## reussi    63    35  98
## Sum      119    42 161
round(prop.table(ME,2),2)
##        TESTA TESTB
## fail    0.47  0.17
## reussi  0.53  0.83
kable(round(prop.table(ME,2),2))###TABLE OF %
TESTA TESTB
fail 0.47 0.17
reussi 0.53 0.83
##check and recheck R output 
56/(63+56)#always check the table BY HAND  CALCULATION 
## [1] 0.4705882

En graphique:

barplot(round(prop.table(ME,2),2),beside=TRUE,col=c(2,5),main="barplot effectif en  [%]",ylab=("%"))
legend("topleft",legend=c("fail","reussi"),fill=c(2,5))

barplot(ME,beside=TRUE,col=c(2,5),main="barplot effectif [counts]",ylab=("count"))
legend("topright",legend=c("fail","reussi"),fill=c(2,5))

barplot(ME,beside=TRUE,col=c(2,5),main="barplot effectif [counts]",ylab=("count"),ylim=c(0,400))
legend("topleft",legend=c("fail","reussi"),fill=c(2,5))

Noter que ces deux derniers graphiques (Counts) representent le même problème mais vous ne donne pas la même information: Soyez tjrs vigilant aux axes (libellés) , titres et le scale factor de l’échelle f(x). Pour ce dernier cas veuillez remarquer que si je change ylim le graphe ne donne plus la même impression.

“Un graphique ca peut aussi être une illusion délibérée …”

REMARQUE SUR LE SAMPLE N=161

  • Le sondage n’est pas aléatoire (Simple Random Sampling :SRS)

  • les effectifs na et nb ne sont pas équilibrés (UNBALANCED Sampling)

REMARQUE POPULATION SSP (N=600?)

  • Le taux d’echec moyen dans toutes les branches confondues , chaque année en 1ere SSP et à ma connaissance(?) est entre 40-60 % (A vérifier svp).Donc on pourrait se dire que la question de recherche:

  • LE TEST A est trop difficile est inadequate mais que plutôt:

  • LE TEST B etait trop facile! Pas de chance pour les A…

C’est donc une tout autre position à démontrer avec des conséquences différentes à motiver et que le rectorat voudra bien examiner dans les eventuels recours…

ESTIMATION DE \(\hat{Po}\) (WEIGHTED MEAN p1 et p2)

Dans un prop test que je vous présente ci-après il nous faut la proportion moyenne des deux populations .

Attention comme les effectifs ne sont pas egaux (nA>nB) il s’agit donc d’une moyenne pondérée1:

Comme exercice d’exa: prouvez que la moyenne est aussi un estimateur pondéré…!

\(\hat{p}_0\) avg=\(\sum{na} * count[a]+\sum{ nb}*count(b) / \sum(na,nb)\)

Dans notre cas \(\hat{p}_0\) avg[AB FAIL] = 39%

Remarque: si vous travailler avec les réussites vous aurez simplement 1-pechec

61 % de réussite , tout tests confondus! ce qui est plus que les autres années…?

Noter que comme nb<na le groupe B est mesuré avec moins de précision et donc ça variance aura une contribution importante dans les test présentés ci après.

(119*0.47+0.17*42)/161
## [1] 0.3917391
#P Hat weighted av for the prop test = 39% d' test A et B reunis calcul à la main créer une fonction est possible....

Question pour vous :

Dans quel cas je puis additionner simplement les deux proportion d’echec et diviser par 2 comme une simple moyenne:

\(\sum({p1+p2}) / 2\)

Verifier toujours dans les tables comment sont organisées vos données et ce que vous voulez etudier, ici les echec (FAIL): Les résultats statistiques ne changeront pas mais l’interprétation causale le pourrait…

INFERENCES TESTING2

Sous Ho il n’y devrait pas y avoir de difference signifacative (\(\alpha\) =5% de seuil critique ) entre

Sauf une variaton aléatoire due aux erreurs d’échantillonage.

LE TEST DU KHI CARRE

KHI=chisq.test(ME)
KHI
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  ME
## X-squared = 10.796, df = 1, p-value = 0.001017
KHI$expected
##           TESTA    TESTB
## fail   46.56522 16.43478
## reussi 72.43478 25.56522
KHI$statistic
## X-squared 
##  10.79649
1-pchisq(10.796,1)
## [1] 0.001017196
chisq.test(countcc1)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  countcc1
## X-squared = 10.796, df = 1, p-value = 0.001017

LE PROP TEST

prop.test(c(56,7),c((56+63),(7+35)))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(56, 7) out of c((56 + 63), (7 + 35))
## X-squared = 10.796, df = 1, p-value = 0.001017
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1437818 0.4640614
## sample estimates:
##    prop 1    prop 2 
## 0.4705882 0.1666667
fail=c(56,7)
reu=c(56+63,7+35)
reu
## [1] 119  42
prop.test(fail,reu,correct=TRUE)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  fail out of reu
## X-squared = 10.796, df = 1, p-value = 0.001017
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  0.1437818 0.4640614
## sample estimates:
##    prop 1    prop 2 
## 0.4705882 0.1666667
  • Pval =0.001017 < 0.05

  • En consequence Ho est rejetée en faveur de H1

    H1 comme hypothese:

Et bien la différence notée des deux proportions de réussite (ou de fail!) entre A et B ne sont pas due a la chance mais sont significativement differentes l’une de l’autre, ce a un seuil de 5%.

  • Par ex:Si on avait ce résultat pour un médicament on pourrait conclure qu’il existe un effet entre groupes (il faudrait encore mesurer l’effect size…ceci est un autre chapitre).

Remarques pour les pro:

Le prop test[^3] est plus adaptés à ce cas précis( question de recherches dans ce cas)J'ai utilisé la correction de continuté (ici justifié cause du n=7 dans le test B)

Le Prop test peut avoir une approximation Z et une convergence assymptotique loi Normal z si np\>5 n(1-p)\>5 et n~i~\>30

L'exemple suivant le démontre:


```r
sqrt(10.8)# A chisquare is a square of normal law- z value -if 1 df that is 
```

```
## [1] 3.286335
```

```r
2*(1-pnorm(3.28))##A pvalue is 1-pnorm PX>x and 2 because of a two sided test= Same result with z assymptotic law
```

```
## [1] 0.001038071
```

3BIAIS et DOE

BIAIS

Certains de vous ont parlés de biais : Sachez que quoi que vous faisiez il y aura toujours des biais et les biais en methodology sont plus ou moins similaires au biais statistique et sont toujours difficiles à débusquer et démonter sauf mathématiquement:

En STAT on dit qu’on a un biais sur notre estimateur (i.e proportions,moyennes) quand l’ESPERANCE (Mathématique) de votre estimateur n’est pas la valeur réelle de celui de votre population cad:

E [ \(\hat{p} ]\) différent de p.

Donc pour comprendre cette relation et la prouver il faudrait mesurer l’espérance de l’estimateur qui est en sorte une moyenne a long terme de l’expérience répétée et mesurée maintes fois afin de le comparer aux paramètre de votre population .

Vous me direz:

Mais on ne peut jamais connnaitre la vrai valeur p de la population: Vrai!

En fait, on peut l’approcher…Comment?

Et bien il suffirait de reprendre les notes des années précédente des examens A et B ,de ce même professeur de de voir comment evolue les probabilités (ou prop. eq.) d’echec des années précédentes: On pourrait alors rechercher un biais systematique:

Note:Je vous ferais aussi remarquer que pour un professeur il est tres difficile de faire un test equivalent ce parfaitement

Cas 1: depuis 10 ans les test A et B présentent aletrnativement cette même variation de probabilité alors effectivement un test est plus facile que l’autre:

Une solution serait de poser les même questions avec des dataset différents par exemple en stat I .La personne qui serais tentée de copier son voisin commettrais une erreur fatale.

Cas 2: Le Test A est connais toujours plus d’Echec: Le prof mets dans le test A les questions les plus difficiles épuisant ainsi le theme pour les questions du test B

Cas 3: Kes test A et B présentent a peu près le même taux d’échec disons 50% dans un intervalle de confiance du prop test (en accord avec le taux d’echec général)

Dans ce cas précis vos inquiétudes sont justifiables.

DOE: Comment vous auriez du selectionner les personnes de votre sondage (pour eviter le Biais de selection) ?

La personne qui s’en est chargée devrait choisir aléatoiratoirement :

i.e 1004 personne du test A et 100 Personnes du test B qui sont obligés de remplir le sondage SI une refuse répété un tirage aléatoire d’un sujet:

par exemples sur 600 elèves on pourait faire comme suit:

round(runif(100)*300,0)##TEST A classé aléatoirement et choisir les numéros de classement de runif et l'attribuer a l'élève désigné sur 300 tests A
##   [1]  52 155 210 255  89 286 123  70 251 220 282  42 186 201 284 108  51  77
##  [19] 126  85 220 268  72 236  38 234  94 270 205 207 225 159 133 108  44 281
##  [37]  74 224  98  85 229  23 211 112 209 274 147  49 212 283  15  16 124 234
##  [55] 122 157  81 133  69 153 196 136  30 172 150 253 121   1 269 276  81  55
##  [73]  74 117 242 271  88 239 126 289 157 155 235  88 237 177 125 269 274 101
##  [91] 165 263 299   5  14 107 275 203 262 252
round(runif(100)*300,0)##TEST B classsé aléatoirement et choisir les numéros de classement de runif et l'attribuer a l'élève désigné
##   [1]  38 262 288 217 203 149 209 213 238 113  62 142  47 267 209 114 102 209
##  [19] 121 264  51 286 194 177 199 218  35 261 253  20  35 277  77   7  36 241
##  [37] 126 128  56 129 212  41 269 184 288 228 217 228 191 255  41  98 246 156
##  [55] 296  25 257  44  60  10  63 237 102 293 222 187 145 261 234  90  63 244
##  [73] 107 157 189 261  33 155 271 270 121 167   1  76 267 274 229 225  35   1
##  [91] 253 222 178 120  79  15 208  44 162 229
#Classer par ordre alphabétique n'est plus tout a fait aléatoire (Systématique Sampling: Pourquoi?)

Pour un sampling-echantillonage avec un minimum de variance vous pouvez stratifier vos groupe de test par genre (M/F).

Question pour vous : Pourquoi utilisé une loi uniforme dans un SRS?

En conclusion voici ce que les statistiques peuvent mettre en lumière des données afin de justifier ou d’invalider des hypothèses.

La réponse est sans doute chez le rectorat.

Bonne chance à vous pour vos éventuels recours.


  • NOTE : A VOTRE DISPOSITION:

    Cours d’Appui STAT I,II, III

    40 frs Lausanne/H GARE

    079 708 87 15 Whats-Up


  1. Vous verez en Statistique les techniques stat utilisent beaucoup la pondération ou les “poids” représentent une probabilités d’un xi, une contribution à l’estimateur.↩︎

  2. Ces thèmes vous seront présenter ce semestre 2025…?↩︎

  3. BIAS Anglais biais et DOE Design of experiment↩︎

  4. On pourrait faire une analyse de sample size J’ai trouvé 96 personnes par groupe (pas présenter ici) avec l’expérience on arrive intuitivement a savoir le nombre de personne qu’il faut selon la loi de distribution utilisée et se paramètre (Surtout la sd et la se)↩︎