library(latexpdf)
library(knitLatex)
library(rmarkdown)
library(knitr)
library(formattable)
library(readxl)
library(ggplot2)
library(Matrix)
library(magrittr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
On plante 20 graines de la variété A d’une certaine plante et 40 graines d’une autre variété B. La variété A a un probabilité 0.2 de germination. La variété B a une probabilité 0.1 de germination. On suppose toutes les germinations indépendantes.
SOLUTION 1.1. Soit \(A\) et \(B\) le “nombre de germinations” pour les plantes A et B ,respectivement. On a \(A\) suit une loi Binomiale \(X_A\sim\mathcal{B}(20,0.2)\) et \(B\) suit une loi Binomiale \(X_B\sim\mathcal{B}(40,0.1)\).
nA = 20
nB = 40
pA = 0.2
pB = 0.1
SOLUTION 1.2.
round(pbinom(5,20,0.2)-pbinom(2,20,0.2),4)
## [1] 0.5981
SOLUTION 1.3. On cherche \(\Pr(B\geq 5)=1-\Pr(B\leq 4)\). On a trouvee
1-round(pbinom(4,40,0.1),4)
## [1] 0.371
pbinom(4,nB,pB, lower.tail = FALSE)
## [1] 0.3709823
SOLUTION 1.4.
round(dbinom(6,40,0.1),4)
## [1] 0.1068
SOLUTION 1.5. On veut calculer \[\Pr(A=B)=\sum_{x=0}^{20}\Pr(A=x,B=x).\] Comme les variables sont indépendantes, on a \[\Pr(A=B)=\sum_{x=0}^{20}\Pr(A=x)\Pr(B=x).\] Soit
dbinom(0:20,20,0.2)%*%dbinom(0:20,40,0.1)
## [,1]
## [1,] 0.1537194
dbinom(0:min(nA,nB),nA,pA)%*%dbinom(0:min(nA,nB),nB,pB)
## [,1]
## [1,] 0.1537194
SOLUTION 1.6. On veut calculer \[\Pr(B>A)=\sum_{x=0}^{10}\sum_{y=x+1}^{20}\Pr(A=x)\Pr(B=y),\] que l’on peur réecrire
\[ \Pr(A>B)=\sum_{x=0}^{20}\Pr(A=x)\sum_{y=x+1}^{40}\Pr(B=y). \]
dbinom(0:20,40,0.1)%*%pbinom(0:20,20,0.2,lower.tail = FALSE)
## [,1]
## [1,] 0.4265596
SOLUTION 1.7. On veut calculer \[\Pr(B>A)=\sum_{x=0}^{10}\sum_{y=x+1}^{20}\Pr(A=x)\Pr(B=y),\] que l’on peur réecrire \[ \Pr(B>A)=\sum_{x=1}^{20}\Pr(A\leq x-1)\sum_{y=x+1}^{40}\Pr(B=y). \]
dbinom(0:20,20,0.2)%*%pbinom(0:20,40,0.1,lower.tail = FALSE)
## [,1]
## [1,] 0.419721
pbinom(0:39,20,0.2)%*%dbinom(1:40,40,0.1)
## [,1]
## [1,] 0.419721
\[ \Pr(X_B)>10)\geq0.99 \]
SOLUTION 1.8.
pbinom(10,197,0.1,lower.tail = F)
## [1] 0.9904094
Réponse \(197\) de graines.
Prob=function (n)
{pr=dbinom(0:10,20,0.2)%*%pbinom(0:10,n,0.1,lower.tail = FALSE)
return(pr)}
res=c()
for (n in 1:100)
{
res=c(res,Prob(n))
}
plot(1:100,res)
La durée de vie d’une machine suit une loi normale de moyenne 10000 heures et d’écart-type 600 heures.
\(\mu=10000\) \(\sigma=600\) \(D\sim\mathcal{N}(10000,600)\).
\(\Pr(D>11000)\)
SOLUTION 2.1.
m=10000
sd=600
pnorm(11000,m,sd,lower.tail = FALSE)
## [1] 0.04779035
\(\Pr(9000<D>10400)\) SOLUTION 2.2.
pnorm(10400,m,sd)-pnorm(9000,m,sd)
## [1] 0.6997171
Soit \(N\) le nombre de machines qui durent plus longtemps que 10500. Elle suite une loi binomiale de parametres \(n=10\) et de probabilite \(p=\Pr(D>10500)\). On cherche \(\Pr(N\geq2)=\Pr(N>1)\). SOLUTION 2.3.
pnorm(10500,m,sd,lower.tail = FALSE)
## [1] 0.2023284
pbinom(1,10,pnorm(10500,m,sd,lower.tail=FALSE),lower.tail = FALSE)
## [1] 0.6311808
La probabilité de durer plus de 10500 heures est égale à 0.20 (arrondi au centième), en suivant la loi Normale(m=10000,s=600). La probabilité que 2 machines sur 10 durent plus de 10500 est égale à 0.33 (arrondi au centième), en suivant une loi binomiale de coordonnée n=10 et p=0.20.
\(\Pr(D>x)=0.1\) SOLUTION 2.4.
qnorm(0.1,m,sd,lower.tail = FALSE)%>%round()
## [1] 10769
*Donc on peux afirmer que “dans 10% des cas la machine dure plus de 10768.93 heures”
\(\Pr(D<x)=0.1\) SOLUTION 2.5.
qnorm(0.1,m,sd)%>%round()
## [1] 9231
*Donc on peux afirmer que “dans 10% des cas la machine dure moins de 9231.069 heures”
Le fichier Exercice3.xlsx contient 75 observations du temps en heures mis pour la livraison d’un colis. Le coût de livraison est de 8 euros de l’heure.
library(readxl)
Exercice3 <- read_excel("Exercice3.xlsx")
## New names:
## * `` -> ...3
head(Exercice3)
## # A tibble: 6 x 5
## Temps Cost ...3 `par heure` `8`
## <dbl> <dbl> <lgl> <lgl> <lgl>
## 1 6.9 55.2 NA NA NA
## 2 6.9 55.2 NA NA NA
## 3 7.3 58.4 NA NA NA
## 4 7 56 NA NA NA
## 5 7 56 NA NA NA
## 6 6.8 54.4 NA NA NA
LM=lm(Temps ~ Cost,data= Exercice3)
SOLUTION 3.1.
Exercice3$Cost=8*Exercice3$Temps
head(Exercice3)
## # A tibble: 6 x 5
## Temps Cost ...3 `par heure` `8`
## <dbl> <dbl> <lgl> <lgl> <lgl>
## 1 6.9 55.2 NA NA NA
## 2 6.9 55.2 NA NA NA
## 3 7.3 58.4 NA NA NA
## 4 7 56 NA NA NA
## 5 7 56 NA NA NA
## 6 6.8 54.4 NA NA NA
SOLUTION 3.2.
hist(Exercice3$Temps, col="grey", main = "Histogram of Cost", xlab= "Cost", ylab="Frequency")
SOLUTION 3.3.
Test<-t.test(Exercice3$Cost, conf.level = .95)
Test$conf.int
## [1] 54.85957 55.68976
## attr(,"conf.level")
## [1] 0.95
*Le coût moyen estimé de livraison d’un colis est de 55.27 euros (arrondi au centième).
SOLUTION 3.4. On supposons 2 Hypothes: \(H_0:\mu =55\) contre \(H_1:\mu >55\) On effectue un test de student unilatéral à gauche.
Result=t.test(Exercice3$Cost,alternative = "greater",mu=55)
Result$p.value
## [1] 0.09570724
or
TTEST2=t.test(Exercice3$Temps,mu=55,alternative = "greater")
TTEST2$p.value
## [1] 1
*On accepte H1, avec le cout moyen de livration superior a 55euros, parce que le p-value est superior a 0.05 (avec une niveau de significativite de 95%).
Le fichier Exercice4.xlsx contient des données sur la durée de publicités (en secondes) et leur score de mémorisation (sur une certaine échelle) évalués par des individus sélectionnés au hasard. On veut expliquer à l’aide d’un modèle linéaire le score en fonction de la durée.
On veut estimer le modèle \[ \text{Clients}=\beta_0+\beta_1\times \text{Publicites}+\varepsilon. \] ### 4.1. Représentez ces données et la régression à l’aide d’un graphique.
Donnez les coefficients de la régression linéaire envisagée.
SOLUTION 4.1.
library(readxl)
Exercice4 <- read_excel("Exercice4.xlsx")
head(Exercice4)
## # A tibble: 6 x 3
## Score Duree Type
## <dbl> <dbl> <dbl>
## 1 24 52 1
## 2 20 40 2
## 3 16 36 2
## 4 11 28 1
## 5 10 44 3
## 6 4 16 1
LM=lm(Score ~ Duree,data= Exercice4)
b0=LM$coefficients[1]
b1=LM$coefficients[2]
b0
## (Intercept)
## 3.635664
b1
## Duree
## 0.2674825
GG<-ggplot(Exercice4, aes(x=Duree, y=Score))+ geom_point()+ggtitle("Le Score en Fonction de la Duree")
GG+geom_smooth(method='lm',se=FALSE)
## `geom_smooth()` using formula 'y ~ x'
SOLUTION 4.2.
SLM=summary(LM)
SLM$coefficients[2,1]
## [1] 0.2674825
Le resultat de 0.2674825 represent la valeur de b1
SOLUTION 4.3.
SLM$coefficients[2,4]
## [1] 9.35368e-06
SLM$sigma
## [1] 5.88848
SLM$r.squared
## [1] 0.2892623
La p.value est très faible ainsi elle est significative, ceci indiqué par le signe des trois étoiles (***)dans le “summary”, qui indique une significativité à plus de 99%.
round(predict.lm(LM,new=data.frame(Duree = 6),interval = "prediction"))
## fit lwr upr
## 1 5 -7 18
SOLUTION 4.3.GGPLOT
library(ggplot2)
ggplot(Exercice4,aes(Score,Duree))+geom_point()+geom_smooth(method='lm')
## `geom_smooth()` using formula 'y ~ x'
## EXERCICE BONUS Un portefeuille est composé de deux titres avec les proportions (0.4,0.6), les valeurs espérées (0.08,0.12), et les variances (0.0004,0.0009). Si le coefficient de corrélation des rendements de ces deux titres vaut -0.5, quel est le rendement espéré et l’écart-type du portefeuille (une version matricielle du résultat serait appréciée) ?
w=matrix(c(0.4,0.6), nrow = 1,ncol = 2)
m=matrix(c(0.08,0.12), nrow = 1,ncol = 2)
s=matrix(c(sqrt(0.0004),sqrt(0.0009)),nrow=1,ncol = 2)
rho=-0.5
Calcul de l’Esperance de Portefeuille p:
c("Esperance" = w%*%t(m))
## Esperance
## 0.104
Calcul de l’Ecart-Type le Portefeuille p:
c(sqrt(0.0004),sqrt(0.0009))
## [1] 0.02 0.03