library(latexpdf)
library(knitLatex)
library(rmarkdown)
library(knitr)
library(formattable)
library(readxl)
library(ggplot2)
library(Matrix)
library(magrittr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

EXERCICE 1

On plante 20 graines de la variété A d’une certaine plante et 40 graines d’une autre variété B. La variété A a un probabilité 0.2 de germination. La variété B a une probabilité 0.1 de germination. On suppose toutes les germinations indépendantes.

1.1. Quelles sont les lois du “nombre de germinations” pour A et pour B.

SOLUTION 1.1. Soit \(A\) et \(B\) le “nombre de germinations” pour les plantes A et B ,respectivement. On a \(A\) suit une loi Binomiale \(X_A\sim\mathcal{B}(20,0.2)\) et \(B\) suit une loi Binomiale \(X_B\sim\mathcal{B}(40,0.1)\).

nA = 20
nB = 40
pA = 0.2
pB = 0.1

1.2. Calculez la probabilité que le nombre de germinations de A soit compris entre 3 et 5.

SOLUTION 1.2.

round(pbinom(5,20,0.2)-pbinom(2,20,0.2),4)
## [1] 0.5981

1.3. Calculez la probabilité que le nombre de germinations de B soit au moins égal à 5.

SOLUTION 1.3. On cherche \(\Pr(B\geq 5)=1-\Pr(B\leq 4)\). On a trouvee

1-round(pbinom(4,40,0.1),4)
## [1] 0.371
pbinom(4,nB,pB, lower.tail = FALSE)
## [1] 0.3709823

1.4. Calculez la probabilité que le nombre de germinations de B soit égal à 6.

SOLUTION 1.4.

round(dbinom(6,40,0.1),4)
## [1] 0.1068

1.5. Calculez la probabilité que A et B aient le même nombre de germinations.

SOLUTION 1.5. On veut calculer \[\Pr(A=B)=\sum_{x=0}^{20}\Pr(A=x,B=x).\] Comme les variables sont indépendantes, on a \[\Pr(A=B)=\sum_{x=0}^{20}\Pr(A=x)\Pr(B=x).\] Soit

dbinom(0:20,20,0.2)%*%dbinom(0:20,40,0.1)
##           [,1]
## [1,] 0.1537194
dbinom(0:min(nA,nB),nA,pA)%*%dbinom(0:min(nA,nB),nB,pB)
##           [,1]
## [1,] 0.1537194

1.6. Calculez la probabilité que A ait plus de germinantions que B.

SOLUTION 1.6. On veut calculer \[\Pr(B>A)=\sum_{x=0}^{10}\sum_{y=x+1}^{20}\Pr(A=x)\Pr(B=y),\] que l’on peur réecrire

\[ \Pr(A>B)=\sum_{x=0}^{20}\Pr(A=x)\sum_{y=x+1}^{40}\Pr(B=y). \]

dbinom(0:20,40,0.1)%*%pbinom(0:20,20,0.2,lower.tail = FALSE)
##           [,1]
## [1,] 0.4265596

1.7. Calculez la probabilité que B ait plus de germinantions que A.

SOLUTION 1.7. On veut calculer \[\Pr(B>A)=\sum_{x=0}^{10}\sum_{y=x+1}^{20}\Pr(A=x)\Pr(B=y),\] que l’on peur réecrire \[ \Pr(B>A)=\sum_{x=1}^{20}\Pr(A\leq x-1)\sum_{y=x+1}^{40}\Pr(B=y). \]

dbinom(0:20,20,0.2)%*%pbinom(0:20,40,0.1,lower.tail = FALSE)
##          [,1]
## [1,] 0.419721
pbinom(0:39,20,0.2)%*%dbinom(1:40,40,0.1)
##          [,1]
## [1,] 0.419721

1.8. Quel nombre de graines de B (au lieu de 40) doit on planter si l’on veut que le nombre de germinations de B dépasse 10 dans plus de 99% des cas ?

\[ \Pr(X_B)>10)\geq0.99 \]

SOLUTION 1.8.

pbinom(10,197,0.1,lower.tail = F)
## [1] 0.9904094

Réponse \(197\) de graines.

SOLUTION 1.8. Graphiquement

Prob=function (n)
{pr=dbinom(0:10,20,0.2)%*%pbinom(0:10,n,0.1,lower.tail = FALSE)
return(pr)}
res=c()
for (n in 1:100)
{
res=c(res,Prob(n))
}
plot(1:100,res)

EXERCICE 2

La durée de vie d’une machine suit une loi normale de moyenne 10000 heures et d’écart-type 600 heures.

\(\mu=10000\) \(\sigma=600\) \(D\sim\mathcal{N}(10000,600)\).

2. 1. Quelle est la probabilité qu’une machine dure plus de 11000 heures ?

\(\Pr(D>11000)\)

SOLUTION 2.1.

m=10000
sd=600
pnorm(11000,m,sd,lower.tail = FALSE)
## [1] 0.04779035

2. 2. Quelle est la probabilité qu’une machine dure entre 9000 et 10400 heures ?

\(\Pr(9000<D>10400)\) SOLUTION 2.2.

pnorm(10400,m,sd)-pnorm(9000,m,sd)
## [1] 0.6997171

2.3.Vous achetez 10 machines de ce type supposées fonctionner de manière indépendante entre-elles. Quelle est la probabilité qu’au moins 2 machines parmi les 10, durent plus de 10500 heures ?

Soit \(N\) le nombre de machines qui durent plus longtemps que 10500. Elle suite une loi binomiale de parametres \(n=10\) et de probabilite \(p=\Pr(D>10500)\). On cherche \(\Pr(N\geq2)=\Pr(N>1)\). SOLUTION 2.3.

pnorm(10500,m,sd,lower.tail = FALSE)
## [1] 0.2023284
pbinom(1,10,pnorm(10500,m,sd,lower.tail=FALSE),lower.tail = FALSE)
## [1] 0.6311808

La probabilité de durer plus de 10500 heures est égale à 0.20 (arrondi au centième), en suivant la loi Normale(m=10000,s=600). La probabilité que 2 machines sur 10 durent plus de 10500 est égale à 0.33 (arrondi au centième), en suivant une loi binomiale de coordonnée n=10 et p=0.20.

2.4. Complétez la phrase suivante : “dans 10% des cas la machine dure plus de ?? heures”.

\(\Pr(D>x)=0.1\) SOLUTION 2.4.

qnorm(0.1,m,sd,lower.tail = FALSE)%>%round()
## [1] 10769

*Donc on peux afirmer que “dans 10% des cas la machine dure plus de 10768.93 heures”

2.5. Complétez la phrase suivante : “dans 10% des cas la machine dure moins de ?? heures”.

\(\Pr(D<x)=0.1\) SOLUTION 2.5.

qnorm(0.1,m,sd)%>%round()
## [1] 9231

*Donc on peux afirmer que “dans 10% des cas la machine dure moins de 9231.069 heures”

EXERCICE 3

Le fichier Exercice3.xlsx contient 75 observations du temps en heures mis pour la livraison d’un colis. Le coût de livraison est de 8 euros de l’heure.

library(readxl)
Exercice3 <- read_excel("Exercice3.xlsx")
## New names:
## * `` -> ...3
head(Exercice3)
## # A tibble: 6 x 5
##   Temps  Cost ...3  `par heure` `8`  
##   <dbl> <dbl> <lgl> <lgl>       <lgl>
## 1   6.9  55.2 NA    NA          NA   
## 2   6.9  55.2 NA    NA          NA   
## 3   7.3  58.4 NA    NA          NA   
## 4   7    56   NA    NA          NA   
## 5   7    56   NA    NA          NA   
## 6   6.8  54.4 NA    NA          NA
LM=lm(Temps ~ Cost,data= Exercice3)

3.1. Créez une variable que vous appellerez “Cost” contenant le coût de livraison des colis.

SOLUTION 3.1.

Exercice3$Cost=8*Exercice3$Temps
head(Exercice3)
## # A tibble: 6 x 5
##   Temps  Cost ...3  `par heure` `8`  
##   <dbl> <dbl> <lgl> <lgl>       <lgl>
## 1   6.9  55.2 NA    NA          NA   
## 2   6.9  55.2 NA    NA          NA   
## 3   7.3  58.4 NA    NA          NA   
## 4   7    56   NA    NA          NA   
## 5   7    56   NA    NA          NA   
## 6   6.8  54.4 NA    NA          NA

3.2. Représentez Cost à l’aide d’un histogramme.

SOLUTION 3.2.

hist(Exercice3$Temps, col="grey", main = "Histogram of Cost", xlab= "Cost", ylab="Frequency")

3.3. Estimer par intervalle de confiance avec un niveau de confiance de 95% le coût moyen de livraison d’un colis.

SOLUTION 3.3.

Test<-t.test(Exercice3$Cost, conf.level = .95)
Test$conf.int
## [1] 54.85957 55.68976
## attr(,"conf.level")
## [1] 0.95

*Le coût moyen estimé de livraison d’un colis est de 55.27 euros (arrondi au centième).

3.4. Peut-on conclure, avec un niveau de significativité de 5% qu’en moyenne, que le coût moyen de livraison d’un colis est supérieur à 55 euros ?

SOLUTION 3.4. On supposons 2 Hypothes: \(H_0:\mu =55\) contre \(H_1:\mu >55\) On effectue un test de student unilatéral à gauche.

Result=t.test(Exercice3$Cost,alternative = "greater",mu=55)
Result$p.value
## [1] 0.09570724

or

TTEST2=t.test(Exercice3$Temps,mu=55,alternative = "greater")
TTEST2$p.value
## [1] 1

*On accepte H1, avec le cout moyen de livration superior a 55euros, parce que le p-value est superior a 0.05 (avec une niveau de significativite de 95%).

EXERCICE 4

Le fichier Exercice4.xlsx contient des données sur la durée de publicités (en secondes) et leur score de mémorisation (sur une certaine échelle) évalués par des individus sélectionnés au hasard. On veut expliquer à l’aide d’un modèle linéaire le score en fonction de la durée.

On veut estimer le modèle \[ \text{Clients}=\beta_0+\beta_1\times \text{Publicites}+\varepsilon. \] ### 4.1. Représentez ces données et la régression à l’aide d’un graphique.

Donnez les coefficients de la régression linéaire envisagée.

SOLUTION 4.1.

library(readxl)
Exercice4 <- read_excel("Exercice4.xlsx")

head(Exercice4)
## # A tibble: 6 x 3
##   Score Duree  Type
##   <dbl> <dbl> <dbl>
## 1    24    52     1
## 2    20    40     2
## 3    16    36     2
## 4    11    28     1
## 5    10    44     3
## 6     4    16     1
LM=lm(Score ~ Duree,data= Exercice4)
b0=LM$coefficients[1]
b1=LM$coefficients[2]
b0
## (Intercept) 
##    3.635664
b1
##     Duree 
## 0.2674825
GG<-ggplot(Exercice4, aes(x=Duree, y=Score))+ geom_point()+ggtitle("Le Score en Fonction de la Duree")
GG+geom_smooth(method='lm',se=FALSE)
## `geom_smooth()` using formula 'y ~ x'

4.2. Donnez et interprétez le coefficient de détermination.

SOLUTION 4.2.

SLM=summary(LM)
SLM$coefficients[2,1]
## [1] 0.2674825

Le resultat de 0.2674825 represent la valeur de b1

4.3. Donnez une estimation par intervalle de confiance à 99% du score d’une publicité d’une durée de 50secondes.

SOLUTION 4.3.

SLM$coefficients[2,4]
## [1] 9.35368e-06
SLM$sigma
## [1] 5.88848
SLM$r.squared
## [1] 0.2892623

La p.value est très faible ainsi elle est significative, ceci indiqué par le signe des trois étoiles (***)dans le “summary”, qui indique une significativité à plus de 99%.

round(predict.lm(LM,new=data.frame(Duree = 6),interval = "prediction"))
##   fit lwr upr
## 1   5  -7  18

SOLUTION 4.3.GGPLOT

library(ggplot2)
ggplot(Exercice4,aes(Score,Duree))+geom_point()+geom_smooth(method='lm')
## `geom_smooth()` using formula 'y ~ x'

## EXERCICE BONUS Un portefeuille est composé de deux titres avec les proportions (0.4,0.6), les valeurs espérées (0.08,0.12), et les variances (0.0004,0.0009). Si le coefficient de corrélation des rendements de ces deux titres vaut -0.5, quel est le rendement espéré et l’écart-type du portefeuille (une version matricielle du résultat serait appréciée) ?

w=matrix(c(0.4,0.6), nrow = 1,ncol = 2)
m=matrix(c(0.08,0.12), nrow = 1,ncol = 2)
s=matrix(c(sqrt(0.0004),sqrt(0.0009)),nrow=1,ncol = 2)
rho=-0.5

Calcul de l’Esperance de Portefeuille p:

c("Esperance" = w%*%t(m))
## Esperance 
##     0.104

Calcul de l’Ecart-Type le Portefeuille p:

c(sqrt(0.0004),sqrt(0.0009))
## [1] 0.02 0.03