On charge le jeu de données

d <- read.csv2(file.choose())

head(d)
##   Taille Sexe Poids Age Sport
## 1    169    M    75  20   non
## 2    162    F    50  20   oui
## 3    168    F    62  19   non
## 4    163    F    63  19   non
## 5    182    M    65  19   oui
## 6    167    F    58  19   non

1. Indiquer la distribution de la pratique sportive

table(d$Sport)
## 
## non oui 
##  46  87

2. Sélectionner les étudiants dont l’âge est supérieur ou égal à 20 ans

d[d$Age >= 20,]
##     Taille Sexe Poids Age Sport
## 1      169    M    75  20   non
## 2      162    F    50  20   oui
## 7      168    F    50  20   non
## 8      162    F    60  20   non
## 9      179    M    75  20   oui
## 13     175    M    73  20   non
## 14     179    M    60  20   non
## 15     172    M    56  20   oui
## 18     161    M    52  20   oui
## 21     169    M    75  20   non
## 30     161    F    64  20   non
## 32     177    F    74  21   oui
## 36     170    M    62  20   oui
## 39     159    F    63  20   non
## 41     170    F    58  20   oui
## 42     175    M    58  20   oui
## 52     154    F    48  20   oui
## 55     176    M    62  21   oui
## 57     167    M    50  20   oui
## 59     157    F    50  20   oui
## 61     180    M    75  21   oui
## 66     172    M    73  26   non
## 69     173    F    54  21   non
## 74     169    F    70  20   oui
## 76     158    F    57  20   oui
## 78     175    M    75  20   non
## 82     170    F    57  20   non
## 83     170    F    50  20   oui
## 84     165    F    58  21   oui
## 86     162    F    57  20   non
## 87     178    F    74  20   non
## 91     170    F    60  20   oui
## 92     165    F    53  21   oui
## 95     183    M    93  20   oui
## 98     171    F    40  20   oui
## 100    172    F    70  20   oui
## 103    179    M    70  22   oui
## 112    165    F    56  21   oui
## 121    183    M    90  20   oui
## 123    175    F    65  20   oui
## 128    162    F    43  20   oui
## 130    180    M    89  21   oui

3. Calculer la corrélation entre l’âge et le poids et afficher le nuage de points

cor(d$Taille,d$Poids)
## [1] 0.7353855
plot(d$Taille,d$Poids)

4. Indiquer le tableau croisé entre le sexe et la pratique sportive

tableau <- table(d$Sexe,d$Sport)
tableau 
##    
##     non oui
##   F  31  48
##   M  15  39
# on fait apparaitre les effectifs marginaux
addmargins(tableau)
##      
##       non oui Sum
##   F    31  48  79
##   M    15  39  54
##   Sum  46  87 133

5. Créer un tableau montrant la taille moyenne, le poids moyen, et l’âge moyen pour les étudiants ayant une pratique sportive et pour ceux qui n’en n’ont pas

taille <- aggregate(d$Taille, list(sport=d$Sport), mean)
poids <- aggregate(d$Poids, list(sport=d$Sport), mean)
age <- aggregate(d$Age, list(sport=d$Sport), mean)

# on utilise la fonction 'data.frame' pour regrouper les tableaux
data.frame(taille, poids$x, age$x)
##   sport        x  poids.x    age.x
## 1   non 169.8696 63.28261 19.36957
## 2   oui 171.2069 63.26437 19.32184
# on renomme les colonnes (pour info, pas une commande à connaître)
tableau <- data.frame(taille, poids$x, age$x)

names(tableau) <- c("sport", "taille", "poids", "age")

tableau
##   sport   taille    poids      age
## 1   non 169.8696 63.28261 19.36957
## 2   oui 171.2069 63.26437 19.32184

6. Quel test statistique appliquez-vous pour tester si la différence entre le poids moyen des étudiants ayant une pratique sportive et celui des étudiants qui n’en n’ont pas est significative ?

# t de Student sur échantillons indépendants