Objectif

Dans ce laboratoire, nous verrons comment déterminer des intervalles de confiance sur une moyenne et une proportion

Travail préalable

  1. Pour ce laboratoire, nous aurons besoin de librairies readxl et tibble. Référez-vous au laboratoire 1 pour l’installation de ces librairies;
  2. Assurez-vous que R “travaille” dans le bon répertoire;
  3. Charger les données du fichier fred.xlsx;
  4. Enregistrez votre script et nommez-le prelab4.
library(tibble) #affichage de données
library(readxl) #pour importer les données depuis un fichier Excel
edifices<-read_excel("fred.xlsx",sheet=2)
## New names:
## • `` -> `...14`
## • `` -> `...15`

Intervalle de confiance sur une moyenne

Puisque nous utilisons une techonlogie (R), il sera possible de faire tous les intervalles de confiance avec la distribution de Student. En effet, la loi normale est utilisée pour estimer la loi de Student pour des grands échantillons (\(n\geq 30\)) lorsque nous n’avons pas accès à une technologie et devons utiliser une table.

Cependant, le test de Student dans R ne nous permet pas de faire l’ajustement de l’écart-type si la taille de la population est trop petite. Nous devrons donc supposer que la taille des populations étudiées est toujours appropriée.

Une seule commande est nécessaire afin d’obtenir un intervalle de confiance sur une moyenne :

t.test(edifices$ÉVAL,alternative="two.sided",conf.level=0.95)
## 
##  One Sample t-test
## 
## data:  edifices$ÉVAL
## t = 151.48, df = 114, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  4.395958 4.512459
## sample estimates:
## mean of x 
##  4.454209
Figure 1
Figure 1
Figure 2
Figure 2

On pourrait également faire un intervalle de confiance sur un sous-ensemble de l’échantillon.

Nous voulons faire un intervalle de confiance sur l’évaluation pour les édifices ayant un certain nombre d’étages.

Nous allons créer un sous-ensemble des édifices contenant seulement les données pour les édifices à un étage:

edifices_1etage<-subset(edifices,NB_ÉTAGE==1)
summary(edifices_1etage) #Cette étape n'est pas nécessaire. Elle n'est que pour démontrer l'effet de la commande subset
##        #            AN_CO           ÉVAL           REV           
##  Min.   :  23   Min.   :1944   Min.   :3.934   Length:50         
##  1st Qu.:1374   1st Qu.:1955   1st Qu.:4.297   Class :character  
##  Median :2188   Median :1960   Median :4.497   Mode  :character  
##  Mean   :2301   Mean   :1962   Mean   :4.525                     
##  3rd Qu.:3564   3rd Qu.:1968   3rd Qu.:4.782                     
##  Max.   :5479   Max.   :1992   Max.   :5.059                     
##      ZON                TOIT                SUP            VAL_IR     
##  Length:50          Length:50          Min.   : 74.0   Min.   :17.20  
##  Class :character   Class :character   1st Qu.: 98.0   1st Qu.:19.02  
##  Mode  :character   Mode  :character   Median :106.5   Median :21.25  
##                                        Mean   :158.8   Mean   :22.16  
##                                        3rd Qu.:135.5   3rd Qu.:23.38  
##                                        Max.   :580.0   Max.   :31.90  
##     MOD_CH              NB_FEN          COÛT_C        FORM_T         
##  Length:50          Min.   :10.00   Min.   :1217   Length:50         
##  Class :character   1st Qu.:12.00   1st Qu.:1315   Class :character  
##  Mode  :character   Median :14.00   Median :1555   Mode  :character  
##                     Mean   :16.40   Mean   :1783                     
##                     3rd Qu.:16.75   3rd Qu.:1995                     
##                     Max.   :48.00   Max.   :3778                     
##     NB_ÉTAGE  ...14            ...15          
##  Min.   :1   Mode:logical   Length:50         
##  1st Qu.:1   NA's:50        Class :character  
##  Median :1                  Mode  :character  
##  Mean   :1                                    
##  3rd Qu.:1                                    
##  Max.   :1

Nous utiliserons maintenant edifices_1etage lorsque nous voudrons observer des variables de ce sous-ensemble.

t.test(edifices_1etage$ÉVAL,alternative="two.sided",conf.level=0.90)
## 
##  One Sample t-test
## 
## data:  edifices_1etage$ÉVAL
## t = 108.08, df = 49, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
##  4.454633 4.595007
## sample estimates:
## mean of x 
##   4.52482

Exercice 1

  1. Avec un niveau de confiance de 95%, déterminer l’intervalle de confiance pour la moyenne de la variable SUP.

Solution :

  1. Avec un niveau de confiance de 95%, déterminer l’intervalle de confiance pour la moyenne de la variable COÛT_C pour les édifices chauffés au mazout.

Solution :

Intervalle de confiance sur une proportion

La commande pour un intervalle de confiance sur une proportion est semblable à la commande précédente.

Supposons que nous désirions construire un intervalle de confiance sur la proportion d’édifices ayant 2 étages. Déterminons d’abord le nombre d’édifices ayant un revêtement d’aluminium et validons que \(np\) est supérieur à 5:

table(edifices$REV)
## 
## ALU BOI BRI PIE VIN 
##  10   1  78   3  23

Construisons maintenant l’intervalle de confiance:

prop.test(10,115,alternative="two.sided",conf.level=0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  10 out of 115, null probability 0.5
## X-squared = 76.835, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.04480039 0.15796039
## sample estimates:
##          p 
## 0.08695652

Plutôt que d’utiliser la commande table, il est possible de compter combien d’unités statistiques possèdent une certaine caractéristique à l’aide de la commande dim ou length.

On peut d’abord créer un sous-ensemble et compter combien d’éléments il contient:

edifices_bri<-subset(edifices,REV=="BRI")

Comme l’objet edifice_bri est une matrice, on peut lui demander son format en utilisant la commande dim qui donne le nombre d’unités statistiques (lignes), suivi du nombre de variables (colonnes). La commande nrow donne quant à elle directement le nombre d’unités statistiques.

dim(edifices_bri)
## [1] 78 15

Si on veut accéder au nombre de lignes, il s’agit de faire

dim(edifices_bri)[1]
## [1] 78
nrow(edifices_bri)
## [1] 78

On peut aussi utiliser la commande length en comptant le nombre d’éléments dans une colonne de notre matrice:

length(edifices_bri$REV)
## [1] 78

Ou on peut compter directement dans l’ensemble original en choisissant d’abord une variable puis en spécifiant la valeur de cette variable. De cette façon, il n’est pas nécessaire de créer de sous-ensemble:

length(edifices$REV[edifices$REV=="BRI"])
## [1] 78

De la même façon, il serait possible de compter combien d’édifices ont été construits avant 1970:

edifices70<-subset(edifices,AN_CO<1970)
nrow(edifices70)
## [1] 86
length(edifices70$AN_CO)
## [1] 86
length(edifices$AN_CO[edifices$AN_CO<1970])
## [1] 86

Il est donc possible d’inclure les commandes nrow ou length directement dans la commande prop.test. Au choix!

edifices_alu<-subset(edifices,REV=="ALU")
prop.test(nrow(edifices_alu),nrow(edifices),alternative="two.sided",conf.level=0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  nrow(edifices_alu) out of nrow(edifices), null probability 0.5
## X-squared = 76.835, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.04480039 0.15796039
## sample estimates:
##          p 
## 0.08695652
prop.test(length(edifices$REV[edifices$REV=="ALU"]),length(edifices$REV),alternative="two.sided",conf.level=0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  length(edifices$REV[edifices$REV == "ALU"]) out of length(edifices$REV), null probability 0.5
## X-squared = 76.835, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.04480039 0.15796039
## sample estimates:
##          p 
## 0.08695652

Exercice 2

  1. Déterminer l’intervalle de confiance sur la proportion d’édifices ayant un toit plat. Utiliser un niveau de confiance de 95%.

Solution :

  1. Déterminer l’intervalle de confiance sur la proportion d’édifices ayant plus de 20 fenêtres. Utiliser un niveau de confiance de 95%.

Solution :