Dans ce projet de statistique inférentielle, nous utilisons le jeu de données réel mtcars (intégré à R), qui contient des informations sur plusieurs modèles de voitures : consommation de carburant, puissance, poids, type de boîte de vitesses, etc.
Nous nous plaçons dans la peau d’une entreprise de location de voitures qui souhaite savoir si le type de boîte de vitesses (automatique vs manuelle) a un impact sur la consommation moyenne de carburant. Une meilleure compréhension de cette relation permet d’optimiser les coûts et de conseiller les clients.
Question de recherche
La consommation moyenne de carburant (
mpg) est-elle différente entre les voitures à boîte automatique et les voitures à boîte manuelle ?
On note : - \(\mu_1\) : consommation
moyenne des voitures automatiques
- \(\mu_2\) : consommation moyenne des
voitures manuelles
Hypothèses
Hypothèse nulle \(H_0\) :
\(\mu_1 = \mu_2\)
→ Il n’y a pas de différence significative de
consommation moyenne entre les deux types de boîte.
Hypothèse alternative \(H_1\)
:
\(\mu_1 \neq \mu_2\)
→ Il existe une différence significative de
consommation moyenne entre boîtes automatiques et manuelles.
| Effectif | Moyenne | Écart-type | Minimum | Maximum |
|---|---|---|---|---|
| 32 | 20.09 | 6.03 | 10.4 | 33.9 |
| am | Effectif | Moyenne | Écart-type | Minimum | Maximum |
|---|---|---|---|---|---|
| Automatique | 19 | 17.15 | 3.83 | 10.4 | 24.4 |
| Manuelle | 13 | 24.39 | 6.17 | 15.0 | 33.9 |
On observe déjà une différence de moyenne de consommation entre les véhicules automatiques et manuels.
Les boxplots laissent penser que la consommation moyenne n’est pas identique entre les deux groupes de véhicules.
Nous souhaitons utiliser un test t pour échantillons indépendants (Student ou Welch). Les conditions d’application suivantes doivent être vérifiées :
mpg)| Groupe | Statistique.W | p.value |
|---|---|---|
| Automatique | 0.9768 | 0.8987 |
| Manuelle | 0.9458 | 0.5363 |
Lorsque la p-value est supérieure à 0,05, l’hypothèse de normalité n’est pas remise en cause. Ici, les deux groupes présentent une normalité acceptable pour appliquer un test t.
Les Q-Q plots confirment visuellement que les distributions ne s’écartent pas fortement de la normalité.
| Statistique.F | p.value | |
|---|---|---|
| F | 0.3866 | 0.0669 |
Si la p-value du test F est supérieure à 0,05, on peut considérer que les variances des deux groupes sont comparables. Dans le cas contraire, il est préférable d’utiliser le test de Welch, qui ne suppose pas l’égalité des variances.
Compte tenu des résultats précédents, nous appliquons un test t de Welch, robuste à l’hétérogénéité des variances.
##
## Welch Two Sample t-test
##
## data: mpg by am
## t = -3.7671, df = 18.332, p-value = 0.001374
## alternative hypothesis: true difference in means between group Automatique and group Manuelle is not equal to 0
## 95 percent confidence interval:
## -11.280194 -3.209684
## sample estimates:
## mean in group Automatique mean in group Manuelle
## 17.14737 24.39231
Le test fournit :
Pour mémoire, les moyennes observées dans chaque groupe sont rappelées ci-dessous.
| Type de boîte | Effectif | Moyenne (mpg) |
|---|---|---|
| Automatique | 19 | 17.15 |
| Manuelle | 13 | 24.39 |
À partir du test de Welch, nous obtenons une p-value égale à :
p-value = 0.00137
Avec un seuil de significativité classique de \(\alpha = 0{,}05\) :
Dans notre cas, la p-value est nettement inférieure à 0,05. Nous rejetons donc \(H_0\) et concluons qu’il existe une différence significative de consommation moyenne entre les voitures à boîte automatique et celles à boîte manuelle.
En observant le Tableau 5, on constate que :
Autrement dit, le type de boîte de vitesses a un
impact significatif sur la consommation moyenne de
carburant dans le jeu de données mtcars.
mpg).Ce travail est basé sur un jeu de données de taille limitée et ne tient pas compte d’autres facteurs qui peuvent influencer la consommation (poids du véhicule, puissance, style de conduite, etc.). Dans une étude plus approfondie, on pourrait :
Ce rapport montre néanmoins comment mettre en œuvre, de manière rigoureuse et claire, un test de comparaison de deux moyennes sur un jeu de données réel, avec une présentation professionnelle des résultats.