ETUDE SUR LES PROFILS VOITURES:

PLAN

I-INTRODUCTION
II-PRESENTATION DES DONNEES
III-METHODES ET OUTILS DE TRAVAIL
VI-INTERPRETATION
V-CONCLUSION

PROBLEMATIQUE

“PRIX-VOITURE” DEPEND DE QUELLE VOITURE ?

RESUME



Ce travail va répondre à la problématique au fur et à mesure .Et pour cela et avant tout , une collecte des données est faite pour construire un jeu de données, à partir du site tunisien Automobile.tn et qui nous amene à la fin de cette étude “analyse en composantes principales” à conclure que le prix de la voiture est fortement corrélé surtout, avec les caractéristiques qui decrivent la puissance de la voiture .Ceci va etre mieux expliqué par les graphiques et les analyses ci-dessous.

I-Introduction


Il est parfois difficile de décider quel véhicule acheter ,avec quelles caractéristiques et avec quelle énergie car il arrive que l’on ait une mauvaise surprise en se retrouvant avec un véhicule qui ne correspond pas vraiment à ce que l’on attendait .Ce qui rend intéressant à étudier ce sujet à l’aide de l’analyse en composantes principales.

II-PRESENTATION DES DONNEES

Il s’agit d’un jeu de données qui comporte 30 individus (modè.les voitures) et 11 variables qui sont réparties comme suit:

10 variables quantitatives actives:

Cyl: cylindrée (cm3)
PUISS: puissance (ch)
PUISS F: puissance fiscale (CV)
V_MAX: vitesse maximale (km/h)
CM: consommation mixte (l/100 km)
PRIX: prix de la voiture (DT)
longueur: longueur (cm)
largeur: largeur(cm)
hauteur:hauteur (cm) 0_100: temps d’accélaration de 0 à 100 km/h (s).

une variable qualitative:


*ENERGIE:essence ou diesel.

III-METHODES ET OUTILS DE TRAVAIL

1- X est une matrice 30*11.

2- centrer et réduire X.

3- V=(1/11)X’X matrice de var qui est définie positive.

4- diagonaliser V.

5- projection sur le premier plan principal.

voiture<-read.table("C:/Users/khouloud/Documents/test csv.csv", sep=";", header=T, dec=",")
row.names(voiture)=voiture$modele
voiture1=voiture[,-c(1,2)]
voiture1$CM<-as.numeric(voiture1$CM)
voiture1$X0_100<-as.numeric(voiture1$X0_100)
View(voiture1)
library(FactoMineR)
res.pca=PCA(voiture1,quali.sup=11,scale.unit=TRUE,ncp=2,graph=F)
res.pca$eig[,1]
##  [1] 6.710081457 1.732677206 0.632932997 0.465023222 0.209272794
##  [6] 0.156294710 0.049344619 0.032248070 0.009254001 0.002870925
library(factoextra)
## Loading required package: ggplot2
## Loading required package: grid
bar=fviz_screeplot(res.pca, addlabels=T,linecolor="purple")
bar+ labs(title = "Eboulis des valeurs propres", x = "Composantes principales", y = "% de variances")

fviz_pca_var(res.pca ,col.var = "contrib")

fviz_pca_ind(res.pca , geom =c("point","text"),habillage = 11,addEllipses = T)

Contribution sur la construction du premier axe :

#Contribution des individus:#
fviz_contrib(res.pca, choice = "ind", axes = 1)

#Contribution des variables#
fviz_contrib(res.pca, choice = "var", axes = 1)

Contribution sur la consruction du deuxieme axe :

#Contribution des individus:#
fviz_contrib(res.pca, choice = "ind", axes = 2)

#Contribution des variables:#
fviz_contrib(res.pca, choice = "var", axes = 2)

#avec le package ade4#
library(ade4)
## 
## Attaching package: 'ade4'
## The following object is masked from 'package:FactoMineR':
## 
##     reconst
tab=voiture1[,-c(11)]
xdata=dudi.pca(tab, scannf = F)
biplot(xdata)

#avec le package factoextra#
fviz_pca_biplot(res.pca,habillage = 11)

VI-INTERPRETATION

EBOULIS DES VALEURS PROPRES:
On remarque que les deux premières valeurs propres sont plus importantes que les autres valeurs , en fait elles présentent 84,4% de l’information totale.Ceci explique le choix du premier plan factoriel(1,2) pour la projection des individus et la projection des variables.

CERCLE DE CORRELATION
Ce qu’on peut clairement déduire à partir du cercle de corrélation est que le plan factoriel formé par le 1er et le 2ème facteur synthétise 85% de l’information de départ: 67.1% pour le premier axe et 17.3% pour le deuxième, bon indicateur pour la suite de notre analyse. En effet, en observant le cercle de corrélation,on remarque que les variables PUISS , PUISS F,CYL,PRIX,VMAX sont bien corrélées dans le meme sens et aussi caractérisées par un cos2 proche de 1 et sont quasiment confondus avec le 1er axe, c’est à dire que ces valeurs sont dépendantes et ceci nous aide à répondre à notre problématique , en fait on remarque une grande relation entre le prix et les variables qui correpondent à la puissance de la voiture par contre ça n’a pas de relation surtout avec les variables hauteur ,longueur,hauteur qui construisent relativement le deuxième axe .on peut aussi tirer de ce cercle ,que les deux variables VMAX et x0-100 sont bien inversement corrélées entre eux c’est à dire quand la vitesse maximale augmente le temps d’accélération (pour passer de 0 à 100km/h) diminue et c’est tout à fait normal.
GRAPHE DE LA CONTRIBUTION DES INDIVIDUS ET DES VARIABLES SUR LA CONSTRUCTION DU PREMIER PLAN (1,2):

LE GRAPHE DES INDIVIDUS + BIPLOT
D’après ces plot on constate qu’on peut diviser les individus en deux groupes selon la variable qualitative “energie” : 1er groupe voitures“essence”: en effet on remarque que le regroupement de ces individus surtout est au centre de biplot , ça veut dire qu’ elles sont carartérisées généralement par des dimensions pas trop grandes ( ceci est déduit à partir de leur position en bas de l’axe 2),concernant la puissance (c’est à dire leur position sur l’axe 1) on trouve celles qui sont puissantes leurs prix est cher comme porsche panamera ,porsche cayman et aussi on remarque que plus les voitures sont puissantes plus leurs prix augmentent ceci en allant de gauche à droite sur l’axe 1 par exemple mercedes gla est plus puissante que fiat 500 donc elle est plus chere . 2eme groupe voitures“diesel”:contrairement à “voitures essence” on trouve que les voitures“diesel occupent la partie supérieure” de l’axe 2 c’est à dire elles sont caractérisées par leurs grandes dimensions(hauteur,longueur et largeur) . concernant la puissance et le prix de même on trouve que si la voiture est plus puissante plus elle est chere ! mais les voitures essence sont plus puissantes que “les voitureS diesel”.

CONCLUSION


On a pu réduire tout le problème de la synthèse de l’information à partir de 30 voitures et 11 variables en deux dimensions avec une précision de 84.4% de l’information totale. A partir de l’ACP faite on a pu répondre à la problématique et on peut dégager les résultats suivants : * le prix de la voiture est totalement lié à sa puissance beaucoup plus que son design .