Ici on a : \(\mathcal B(0.4,1)\). Calculer : \(P(X \le 0.5)\), \(P(X>1)\), \(P(\exp(-X)< 0.5)\)
## [1] 0.6
## [1] 0
## [1] 0.4
Ici on a : \(\mathcal B(0.4,4)\). Calculer : \(P(X \le 2)\), \(P(X>1)\), \(P(1<X< 3)\)
## [1] 0.8208
## [1] 0.5248
## [1] 0.4992
Vecteur de probabilité : \(a = (0.1,1)\) et \(X\)~\(\mathcal E(a)\). Calculer : \(P(X \le 1)\), \(P(X>10)\), \(P(1<X< 8)\)
## [1] 0.09516258 0.63212056
## [1] 3.678794e-01 4.539993e-05
## [1] 0.4555085 0.3675440
\(X\)~\(U[-2,1]\). Calculer \(P(X \le -0.5)\), \(P(X>0)\), \(P(-1< X<0.5)\)
## [1] 0.5
## [1] 0.3333333
## [1] 0.5
\(X\)~\(\chi^2_d\) avec \(d = (1,5,10)\). Calculer : \(P(X\le0)\), \(P(X > 5)\)
## [1] 0 0 0
## [1] 0.02534732 0.41588019 0.89117802
\(X\) représente la note en mathématique \(\mathcal N(10,4)\). \(Y\) représente la note en économie \(\mathcal N(10,16)\). \(2\) représente la note en anglaiss \(\mathcal N(12,9)\). Calculer : \(P(X > 12)\), \(P(5<Z<7)\), \(P(X>16\cap Y>16\cap Z >16)\)
## [1] 0.1586553
## [1] 0.03797502
## [1] 8.225693e-06
Présentation du jeu de données :
## 'data.frame': 190 obs. of 3 variables:
## $ ID.DPT : int 1 2 3 4 5 6 7 8 9 10 ...
## $ BRUT.AN: int 39923 34297 43703 29615 44157 59633 61947 35351 38756 51787 ...
## $ TYPO : Factor w/ 2 levels "CADRE","NON.CADRE": 1 1 1 1 1 1 1 1 1 1 ...
## ID.DPT BRUT.AN TYPO
## Min. : 1.00 Min. : 6568 CADRE :95
## 1st Qu.:24.25 1st Qu.:17257 NON.CADRE:95
## Median :48.00 Median :25259
## Mean :48.00 Mean :30423
## 3rd Qu.:71.75 3rd Qu.:43392
## Max. :95.00 Max. :72327
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 23438 38171 43395 43758 47987 72327
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6568 14820 17237 17088 20021 26079
On aimerait pouvoir ajuster ces densités empiriques à des lois normales. Evaluons l’histogramme pour trouver une éventuelle ressemblance avec une loi connue :
La courbe rouge ainsi que l’histogramme représente les données empiriques détenues sur les cadres tandis ce que la courbe verte est une densité de loi normale avec pour paramètres la moyenne \(\mathbb E[\bar X_1] = 43757.95\) ainsi que l’écart type \(\sqrt[]{\sigma_1^2} = 8639.169\) de nos données empiriques.
La courbe rouge ainsi que l’histogramme représente les données empiriques tandis ce que la courbe verte est une densité de loi normale avec pour paramètres la moyenne \(\mathbb E[\bar X_2] = 17088.12\) ainsi que l’écart type \(\sqrt[]{\sigma_2^2} = 4103.433\) de nos données empiriques.
Le test de Shapiro-Wilks est utilisé pour tester la gaussianité de variables observées. L’hypothèse \(H_0\) = “la variable suit une loi gaussienne”. La \(p-value\) est la probabilité de se tromper en rejetant \(H_0\). Elle répresente donc notre marge d’erreur. Prenons une marge d’erreur de \(\alpha = 0.05\).7474 Rappelons que l’indicateur \(W\) est défini par : \[ W = \frac{(\sum_{i=1}^na_ix_i)^2}{\sum_{i=1}^n(x_i -\bar x )^2} ; \]
##
## Shapiro-Wilk normality test
##
## data: cadre
## W = 0.97791, p-value = 0.1084
##
## Shapiro-Wilk normality test
##
## data: tech
## W = 0.98156, p-value = 0.2017
Ainsi on remarque que nos statistiques de test \(W_1 = 0.97791\) et \(W_2 = 0.98156\) sont très proches de \(1\) et nos \(p-value_i\), respectivement égales à \(p-value_1 = 0.1084\) et \(p-value_2 = 0.2017\), sont supérieures à notre seuil \(\alpha = 0.05\) choisi initialement. Il est alors fort probable que nos variables soient issues d’une population normalement ditribuée.
Le test de Kolmogorov-Smirnov est utilisé pour déterminer si notre échantillons suit une loi bien connue, ou bien si deux échantillons suivent la même loi. Il détermine donc une éventuelle convergence des fonctions de répartitions.
Loi test ~ \(\mathcal N(43757.95, 8639.169)\)
##
## One-sample Kolmogorov-Smirnov test
##
## data: cadre
## D = 0.092558, p-value = 0.3672
## alternative hypothesis: two-sided
Ici la \(p-value = 0.3672 > \alpha = 0.05\) est toujours supérieure à notre seuil proposé à 5%, on peut donc accepter l’hypothèse de similitude entre ces deux notre variable empirique de la répartition du salaire des cadres et d’une loi normale de paramètres proposés précédemment
Loi test ~ \(\mathcal N(17088.12, 4103.433)\)
##
## One-sample Kolmogorov-Smirnov test
##
## data: tech
## D = 0.056328, p-value = 0.907
## alternative hypothesis: two-sided
Ici la \(p-value = 0.907 > \alpha = 0.05\) est toujours supérieure à notre seuil proposé à 5%, on peut donc accepter l’hypothèse de similitude entre ces la répartition empirique du salaire des tech et d’une loi normale de paramètre proposés précédemment
Soient \(F_{1,n}\), \(F_{2,m}\) les fonctions de répartitions empiriques associées à nos deux jeux de données. “Two-sample Kolmogorov-Smirnov test” : \[ D_{n,m} = sup_x |F_{1,n}(x)- F_{2,m}(x)| , \]
##
## Two-sample Kolmogorov-Smirnov test
##
## data: cadre and tech
## D = 0.97895, p-value < 2.2e-16
## alternative hypothesis: two-sided
Cependant, ici, la \(p-value < 2.2e-16 < \alpha = 0.05\) est quasi-nulle. On rejette donc l’hypothèse de convergence des fonctions de répartitions de nos deux jeux de données suivant tous deux une loi normale.