Calcul de probabilités

Bernoulli

Ici on a : \(\mathcal B(0.4,1)\). Calculer : \(P(X \le 0.5)\), \(P(X>1)\), \(P(\exp(-X)< 0.5)\)

## [1] 0.6
## [1] 0
## [1] 0.4

Binomiale

Ici on a : \(\mathcal B(0.4,4)\). Calculer : \(P(X \le 2)\), \(P(X>1)\), \(P(1<X< 3)\)

## [1] 0.8208
## [1] 0.5248
## [1] 0.4992

Exponentielle

Vecteur de probabilité : \(a = (0.1,1)\) et \(X\)~\(\mathcal E(a)\). Calculer : \(P(X \le 1)\), \(P(X>10)\), \(P(1<X< 8)\)

## [1] 0.09516258 0.63212056
## [1] 3.678794e-01 4.539993e-05
## [1] 0.4555085 0.3675440

Uniforme

\(X\)~\(U[-2,1]\). Calculer \(P(X \le -0.5)\), \(P(X>0)\), \(P(-1< X<0.5)\)

## [1] 0.5
## [1] 0.3333333
## [1] 0.5

Chi 2

\(X\)~\(\chi^2_d\) avec \(d = (1,5,10)\). Calculer : \(P(X\le0)\), \(P(X > 5)\)

## [1] 0 0 0
## [1] 0.02534732 0.41588019 0.89117802

Exercice baccalauréat

\(X\) représente la note en mathématique \(\mathcal N(10,4)\). \(Y\) représente la note en économie \(\mathcal N(10,16)\). \(2\) représente la note en anglaiss \(\mathcal N(12,9)\). Calculer : \(P(X > 12)\), \(P(5<Z<7)\), \(P(X>16\cap Y>16\cap Z >16)\)

## [1] 0.1586553
## [1] 0.03797502
## [1] 8.225693e-06

Densité des lois normales

Analyse sur une table de salaire

Présentation du jeu de données :

Audit et indicateurs de la table

## 'data.frame':    190 obs. of  3 variables:
##  $ ID.DPT : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ BRUT.AN: int  39923 34297 43703 29615 44157 59633 61947 35351 38756 51787 ...
##  $ TYPO   : Factor w/ 2 levels "CADRE","NON.CADRE": 1 1 1 1 1 1 1 1 1 1 ...
##      ID.DPT         BRUT.AN             TYPO   
##  Min.   : 1.00   Min.   : 6568   CADRE    :95  
##  1st Qu.:24.25   1st Qu.:17257   NON.CADRE:95  
##  Median :48.00   Median :25259                 
##  Mean   :48.00   Mean   :30423                 
##  3rd Qu.:71.75   3rd Qu.:43392                 
##  Max.   :95.00   Max.   :72327

Indicateurs typo = cadre

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   23438   38171   43395   43758   47987   72327

Indicateurs typo = tech (non cadre)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6568   14820   17237   17088   20021   26079

Densités empiriques de salaire des cadres & techs

On aimerait pouvoir ajuster ces densités empiriques à des lois normales. Evaluons l’histogramme pour trouver une éventuelle ressemblance avec une loi connue :

Ajustement des cadres

La courbe rouge ainsi que l’histogramme représente les données empiriques détenues sur les cadres tandis ce que la courbe verte est une densité de loi normale avec pour paramètres la moyenne \(\mathbb E[\bar X_1] = 43757.95\) ainsi que l’écart type \(\sqrt[]{\sigma_1^2} = 8639.169\) de nos données empiriques.

Ajustement des techs

La courbe rouge ainsi que l’histogramme représente les données empiriques tandis ce que la courbe verte est une densité de loi normale avec pour paramètres la moyenne \(\mathbb E[\bar X_2] = 17088.12\) ainsi que l’écart type \(\sqrt[]{\sigma_2^2} = 4103.433\) de nos données empiriques.

Test de Shapiro-Wilks

Le test de Shapiro-Wilks est utilisé pour tester la gaussianité de variables observées. L’hypothèse \(H_0\) = “la variable suit une loi gaussienne”. La \(p-value\) est la probabilité de se tromper en rejetant \(H_0\). Elle répresente donc notre marge d’erreur. Prenons une marge d’erreur de \(\alpha = 0.05\).7474 Rappelons que l’indicateur \(W\) est défini par : \[ W = \frac{(\sum_{i=1}^na_ix_i)^2}{\sum_{i=1}^n(x_i -\bar x )^2} ; \]

Test de Shapiro pour les cadres

## 
##  Shapiro-Wilk normality test
## 
## data:  cadre
## W = 0.97791, p-value = 0.1084

Test de Shapiro pour les techs

## 
##  Shapiro-Wilk normality test
## 
## data:  tech
## W = 0.98156, p-value = 0.2017

Ainsi on remarque que nos statistiques de test \(W_1 = 0.97791\) et \(W_2 = 0.98156\) sont très proches de \(1\) et nos \(p-value_i\), respectivement égales à \(p-value_1 = 0.1084\) et \(p-value_2 = 0.2017\), sont supérieures à notre seuil \(\alpha = 0.05\) choisi initialement. Il est alors fort probable que nos variables soient issues d’une population normalement ditribuée.

Test de Kolmogorov-Smirnov

Le test de Kolmogorov-Smirnov est utilisé pour déterminer si notre échantillons suit une loi bien connue, ou bien si deux échantillons suivent la même loi. Il détermine donc une éventuelle convergence des fonctions de répartitions.

Test sur cadre et loi normale.

Loi test ~ \(\mathcal N(43757.95, 8639.169)\)

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  cadre
## D = 0.092558, p-value = 0.3672
## alternative hypothesis: two-sided

Ici la \(p-value = 0.3672 > \alpha = 0.05\) est toujours supérieure à notre seuil proposé à 5%, on peut donc accepter l’hypothèse de similitude entre ces deux notre variable empirique de la répartition du salaire des cadres et d’une loi normale de paramètres proposés précédemment

Test sur tech et loi normale.

Loi test ~ \(\mathcal N(17088.12, 4103.433)\)

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  tech
## D = 0.056328, p-value = 0.907
## alternative hypothesis: two-sided

Ici la \(p-value = 0.907 > \alpha = 0.05\) est toujours supérieure à notre seuil proposé à 5%, on peut donc accepter l’hypothèse de similitude entre ces la répartition empirique du salaire des tech et d’une loi normale de paramètre proposés précédemment

Test de similitude entre nos deux jeux de données

Soient \(F_{1,n}\), \(F_{2,m}\) les fonctions de répartitions empiriques associées à nos deux jeux de données. “Two-sample Kolmogorov-Smirnov test” : \[ D_{n,m} = sup_x |F_{1,n}(x)- F_{2,m}(x)| , \]

## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  cadre and tech
## D = 0.97895, p-value < 2.2e-16
## alternative hypothesis: two-sided

Cependant, ici, la \(p-value < 2.2e-16 < \alpha = 0.05\) est quasi-nulle. On rejette donc l’hypothèse de convergence des fonctions de répartitions de nos deux jeux de données suivant tous deux une loi normale.