Dans ce laboratoire, nous verrons comment déterminer des intervalles de confiance sur une moyenne et une proportion
library(tibble) #affichage de données
library(readxl) #pour importer les données depuis un fichier Excel
edifices<-read_excel("fred.xlsx",sheet=2)
## New names:
## • `` -> `...14`
## • `` -> `...15`
Puisque nous utilisons une techonlogie (R), il sera possible de faire tous les intervalles de confiance avec la distribution de Student. En effet, la loi normale est utilisée pour estimer la loi de Student pour des grands échantillons (\(n\geq 30\)) lorsque nous n’avons pas accès à une technologie et devons utiliser une table.
Cependant, le test de Student dans R ne nous permet pas de faire l’ajustement de l’écart-type si la taille de la population est trop petite. Nous devrons donc supposer que la taille des populations étudiées est toujours appropriée.
Une seule commande est nécessaire afin d’obtenir un intervalle de confiance sur une moyenne :
t.test(edifices$ÉVAL,alternative="two.sided",conf.level=0.95)
##
## One Sample t-test
##
## data: edifices$ÉVAL
## t = 151.48, df = 114, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 4.395958 4.512459
## sample estimates:
## mean of x
## 4.454209
On pourrait également faire un intervalle de confiance sur un sous-ensemble de l’échantillon.
Nous voulons faire un intervalle de confiance sur l’évaluation pour les édifices ayant un certain nombre d’étages.
Nous allons créer un sous-ensemble des édifices contenant seulement les données pour les édifices à un étage:
edifices_1etage<-subset(edifices,NB_ÉTAGE==1)
summary(edifices_1etage) #Cette étape n'est pas nécessaire. Elle n'est que pour démontrer l'effet de la commande subset
## # AN_CO ÉVAL REV
## Min. : 23 Min. :1944 Min. :3.934 Length:50
## 1st Qu.:1374 1st Qu.:1955 1st Qu.:4.297 Class :character
## Median :2188 Median :1960 Median :4.497 Mode :character
## Mean :2301 Mean :1962 Mean :4.525
## 3rd Qu.:3564 3rd Qu.:1968 3rd Qu.:4.782
## Max. :5479 Max. :1992 Max. :5.059
## ZON TOIT SUP VAL_IR
## Length:50 Length:50 Min. : 74.0 Min. :17.20
## Class :character Class :character 1st Qu.: 98.0 1st Qu.:19.02
## Mode :character Mode :character Median :106.5 Median :21.25
## Mean :158.8 Mean :22.16
## 3rd Qu.:135.5 3rd Qu.:23.38
## Max. :580.0 Max. :31.90
## MOD_CH NB_FEN COÛT_C FORM_T
## Length:50 Min. :10.00 Min. :1217 Length:50
## Class :character 1st Qu.:12.00 1st Qu.:1315 Class :character
## Mode :character Median :14.00 Median :1555 Mode :character
## Mean :16.40 Mean :1783
## 3rd Qu.:16.75 3rd Qu.:1995
## Max. :48.00 Max. :3778
## NB_ÉTAGE ...14 ...15
## Min. :1 Mode:logical Length:50
## 1st Qu.:1 NA's:50 Class :character
## Median :1 Mode :character
## Mean :1
## 3rd Qu.:1
## Max. :1
Nous utiliserons maintenant edifices_1etage lorsque nous voudrons observer des variables de ce sous-ensemble.
t.test(edifices_1etage$ÉVAL,alternative="two.sided",conf.level=0.90)
##
## One Sample t-test
##
## data: edifices_1etage$ÉVAL
## t = 108.08, df = 49, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
## 4.454633 4.595007
## sample estimates:
## mean of x
## 4.52482
Solution :
Solution :
La commande pour un intervalle de confiance sur une proportion est semblable à la commande précédente.
Supposons que nous désirions construire un intervalle de confiance sur la proportion d’édifices ayant 2 étages. Déterminons d’abord le nombre d’édifices ayant un revêtement d’aluminium et validons que \(np\) est supérieur à 5:
table(edifices$REV)
##
## ALU BOI BRI PIE VIN
## 10 1 78 3 23
Construisons maintenant l’intervalle de confiance:
prop.test(10,115,alternative="two.sided",conf.level=0.95)
##
## 1-sample proportions test with continuity correction
##
## data: 10 out of 115, null probability 0.5
## X-squared = 76.835, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.04480039 0.15796039
## sample estimates:
## p
## 0.08695652
Plutôt que d’utiliser la commande table, il est possible de compter combien d’unités statistiques possèdent une certaine caractéristique à l’aide de la commande dim ou length.
On peut d’abord créer un sous-ensemble et compter combien d’éléments il contient:
edifices_bri<-subset(edifices,REV=="BRI")
Comme l’objet edifice_bri est une matrice, on peut lui demander son format en utilisant la commande dim qui donne le nombre d’unités statistiques (lignes), suivi du nombre de variables (colonnes). La commande nrow donne quant à elle directement le nombre d’unités statistiques.
dim(edifices_bri)
## [1] 78 15
Si on veut accéder au nombre de lignes, il s’agit de faire
dim(edifices_bri)[1]
## [1] 78
nrow(edifices_bri)
## [1] 78
On peut aussi utiliser la commande length en comptant le nombre d’éléments dans une colonne de notre matrice:
length(edifices_bri$REV)
## [1] 78
Ou on peut compter directement dans l’ensemble original en choisissant d’abord une variable puis en spécifiant la valeur de cette variable. De cette façon, il n’est pas nécessaire de créer de sous-ensemble:
length(edifices$REV[edifices$REV=="BRI"])
## [1] 78
De la même façon, il serait possible de compter combien d’édifices ont été construits avant 1970:
edifices70<-subset(edifices,AN_CO<1970)
nrow(edifices70)
## [1] 86
length(edifices70$AN_CO)
## [1] 86
length(edifices$AN_CO[edifices$AN_CO<1970])
## [1] 86
Il est donc possible d’inclure les commandes nrow ou length directement dans la commande prop.test. Au choix!
edifices_alu<-subset(edifices,REV=="ALU")
prop.test(nrow(edifices_alu),nrow(edifices),alternative="two.sided",conf.level=0.95)
##
## 1-sample proportions test with continuity correction
##
## data: nrow(edifices_alu) out of nrow(edifices), null probability 0.5
## X-squared = 76.835, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.04480039 0.15796039
## sample estimates:
## p
## 0.08695652
prop.test(length(edifices$REV[edifices$REV=="ALU"]),length(edifices$REV),alternative="two.sided",conf.level=0.95)
##
## 1-sample proportions test with continuity correction
##
## data: length(edifices$REV[edifices$REV == "ALU"]) out of length(edifices$REV), null probability 0.5
## X-squared = 76.835, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.04480039 0.15796039
## sample estimates:
## p
## 0.08695652
Solution :
Solution :