1 1. Contexte et objectif

Dans ce projet de statistique inférentielle, nous utilisons le jeu de données réel mtcars (intégré à R), qui contient des informations sur plusieurs modèles de voitures : consommation de carburant, puissance, poids, type de boîte de vitesses, etc.

Nous nous plaçons dans la peau d’une entreprise de location de voitures qui souhaite savoir si le type de boîte de vitesses (automatique vs manuelle) a un impact sur la consommation moyenne de carburant. Une meilleure compréhension de cette relation permet d’optimiser les coûts et de conseiller les clients.

2 2. Question de recherche et hypothèses

Question de recherche

La consommation moyenne de carburant (mpg) est-elle différente entre les voitures à boîte automatique et les voitures à boîte manuelle ?

On note : - \(\mu_1\) : consommation moyenne des voitures automatiques
- \(\mu_2\) : consommation moyenne des voitures manuelles

Hypothèses

  • Hypothèse nulle \(H_0\) :
    \(\mu_1 = \mu_2\)
    → Il n’y a pas de différence significative de consommation moyenne entre les deux types de boîte.

  • Hypothèse alternative \(H_1\) :
    \(\mu_1 \neq \mu_2\)
    → Il existe une différence significative de consommation moyenne entre boîtes automatiques et manuelles.

3 3. Description des données

3.1 3.1 Vue d’ensemble

Tableau 1 – Statistiques descriptives globales de la consommation (mpg)
Effectif Moyenne Écart-type Minimum Maximum
32 20.09 6.03 10.4 33.9

3.2 3.2 Par type de boîte de vitesses

Tableau 2 – Statistiques descriptives par type de boîte de vitesses
am Effectif Moyenne Écart-type Minimum Maximum
Automatique 19 17.15 3.83 10.4 24.4
Manuelle 13 24.39 6.17 15.0 33.9

On observe déjà une différence de moyenne de consommation entre les véhicules automatiques et manuels.

3.3 3.3 Visualisation graphique

Les boxplots laissent penser que la consommation moyenne n’est pas identique entre les deux groupes de véhicules.

4 4. Conditions d’application du test t de Student

Nous souhaitons utiliser un test t pour échantillons indépendants (Student ou Welch). Les conditions d’application suivantes doivent être vérifiées :

  1. Variable réponse quantitative (ici mpg)
  2. Deux groupes indépendants (Automatique vs Manuelle)
  3. Normalité de la consommation dans chaque groupe
  4. Homogénéité des variances entre les deux groupes

4.1 4.1 Normalité (test de Shapiro–Wilk)

Tableau 3 – Test de normalité de Shapiro–Wilk par groupe
Groupe Statistique.W p.value
Automatique 0.9768 0.8987
Manuelle 0.9458 0.5363

Lorsque la p-value est supérieure à 0,05, l’hypothèse de normalité n’est pas remise en cause. Ici, les deux groupes présentent une normalité acceptable pour appliquer un test t.

Les Q-Q plots confirment visuellement que les distributions ne s’écartent pas fortement de la normalité.

4.2 4.2 Homogénéité des variances

Tableau 4 – Test d’égalité des variances (F-test)
Statistique.F p.value
F 0.3866 0.0669

Si la p-value du test F est supérieure à 0,05, on peut considérer que les variances des deux groupes sont comparables. Dans le cas contraire, il est préférable d’utiliser le test de Welch, qui ne suppose pas l’égalité des variances.

5 5. Test t de Student / Welch

Compte tenu des résultats précédents, nous appliquons un test t de Welch, robuste à l’hétérogénéité des variances.

## 
##  Welch Two Sample t-test
## 
## data:  mpg by am
## t = -3.7671, df = 18.332, p-value = 0.001374
## alternative hypothesis: true difference in means between group Automatique and group Manuelle is not equal to 0
## 95 percent confidence interval:
##  -11.280194  -3.209684
## sample estimates:
## mean in group Automatique    mean in group Manuelle 
##                  17.14737                  24.39231

Le test fournit :

  • la statistique de test t
  • les degrés de liberté
  • la p-value
  • un intervalle de confiance pour la différence de moyennes

Pour mémoire, les moyennes observées dans chaque groupe sont rappelées ci-dessous.

Tableau 5 – Rappel des moyennes par type de boîte
Type de boîte Effectif Moyenne (mpg)
Automatique 19 17.15
Manuelle 13 24.39

6 6. Décision statistique et interprétation

À partir du test de Welch, nous obtenons une p-value égale à :

p-value = 0.00137

Avec un seuil de significativité classique de \(\alpha = 0{,}05\) :

  • si p-value < 0,05, nous rejetons l’hypothèse nulle \(H_0\)
  • si p-value >= 0,05, nous ne rejetons pas \(H_0\)

Dans notre cas, la p-value est nettement inférieure à 0,05. Nous rejetons donc \(H_0\) et concluons qu’il existe une différence significative de consommation moyenne entre les voitures à boîte automatique et celles à boîte manuelle.

En observant le Tableau 5, on constate que :

  • les voitures automatiques consomment en moyenne moins que les voitures manuelles.

Autrement dit, le type de boîte de vitesses a un impact significatif sur la consommation moyenne de carburant dans le jeu de données mtcars.

7 7. Synthèse et ouverture

7.1 7.1 Synthèse

  • Jeu de données réel : mtcars (modèles de voitures).
  • Variable étudiée : consommation moyenne de carburant (mpg).
  • Facteur explicatif : type de boîte de vitesses (automatique vs manuelle).
  • Test statistique : test t de Welch pour échantillons indépendants.
  • Conditions vérifiées :
    • Normalité (Shapiro–Wilk, Q-Q plots)
    • Indépendance des groupes
    • Vérification des variances (F-test)
  • Résultat principal : p-value < 0,05 → rejet de \(H_0\).
  • Conclusion : la consommation moyenne est significativement différente entre voitures automatiques et manuelles.

7.2 7.2 Limites et perspectives

Ce travail est basé sur un jeu de données de taille limitée et ne tient pas compte d’autres facteurs qui peuvent influencer la consommation (poids du véhicule, puissance, style de conduite, etc.). Dans une étude plus approfondie, on pourrait :

  • utiliser un modèle de régression linéaire incluant plusieurs variables explicatives ;
  • comparer d’autres indicateurs de performance (émissions de CO2, coûts d’entretien, etc.) ;
  • appliquer des méthodes de data visualisation avancées pour communiquer les résultats à des décideurs non spécialistes.

Ce rapport montre néanmoins comment mettre en œuvre, de manière rigoureuse et claire, un test de comparaison de deux moyennes sur un jeu de données réel, avec une présentation professionnelle des résultats.