I-INTRODUCTION
II-PRESENTATION DES DONNEES
III-METHODES ET OUTILS DE TRAVAIL
VI-INTERPRETATION
V-CONCLUSION
Ce travail va répondre à la problématique au fur et à mesure .Et pour cela et avant tout , une collecte des données est faite pour construire un jeu de données, à partir du site tunisien Automobile.tn et qui nous amene à la fin de cette étude “analyse en composantes principales” à conclure que le prix de la voiture est fortement corrélé surtout, avec les caractéristiques qui decrivent la puissance de la voiture .Ceci va etre mieux expliqué par les graphiques et les analyses ci-dessous.
Il est parfois difficile de décider quel véhicule acheter ,avec quelles caractéristiques et avec quelle énergie car il arrive que l’on ait une mauvaise surprise en se retrouvant avec un véhicule qui ne correspond pas vraiment à ce que l’on attendait .Ce qui rend intéressant à étudier ce sujet à l’aide de l’analyse en composantes principales.
Il s’agit d’un jeu de données qui comporte 30 individus (modè.les voitures) et 11 variables qui sont réparties comme suit:
*ENERGIE:essence ou diesel.
1- X est une matrice 30*11.
2- centrer et réduire X.
3- V=(1/11)X’X matrice de var qui est définie positive.
4- diagonaliser V.
5- projection sur le premier plan principal.
voiture<-read.table("C:/Users/khouloud/Documents/test csv.csv", sep=";", header=T, dec=",")
row.names(voiture)=voiture$modele
voiture1=voiture[,-c(1,2)]
voiture1$CM<-as.numeric(voiture1$CM)
voiture1$X0_100<-as.numeric(voiture1$X0_100)
View(voiture1)
library(FactoMineR)
res.pca=PCA(voiture1,quali.sup=11,scale.unit=TRUE,ncp=2,graph=F)
res.pca$eig[,1]
## [1] 6.710081457 1.732677206 0.632932997 0.465023222 0.209272794
## [6] 0.156294710 0.049344619 0.032248070 0.009254001 0.002870925
library(factoextra)
## Loading required package: ggplot2
## Loading required package: grid
bar=fviz_screeplot(res.pca, addlabels=T,linecolor="purple")
bar+ labs(title = "Eboulis des valeurs propres", x = "Composantes principales", y = "% de variances")
fviz_pca_var(res.pca ,col.var = "contrib")
fviz_pca_ind(res.pca , geom =c("point","text"),habillage = 11,addEllipses = T)
Contribution sur la construction du premier axe :
#Contribution des individus:#
fviz_contrib(res.pca, choice = "ind", axes = 1)
#Contribution des variables#
fviz_contrib(res.pca, choice = "var", axes = 1)
Contribution sur la consruction du deuxieme axe :
#Contribution des individus:#
fviz_contrib(res.pca, choice = "ind", axes = 2)
#Contribution des variables:#
fviz_contrib(res.pca, choice = "var", axes = 2)
#avec le package ade4#
library(ade4)
##
## Attaching package: 'ade4'
## The following object is masked from 'package:FactoMineR':
##
## reconst
tab=voiture1[,-c(11)]
xdata=dudi.pca(tab, scannf = F)
biplot(xdata)
#avec le package factoextra#
fviz_pca_biplot(res.pca,habillage = 11)
EBOULIS DES VALEURS PROPRES:
On remarque que les deux premières valeurs propres sont plus importantes que les autres valeurs , en fait elles présentent 84,4% de l’information totale.Ceci explique le choix du premier plan factoriel(1,2) pour la projection des individus et la projection des variables.
CERCLE DE CORRELATION
Ce qu’on peut clairement déduire à partir du cercle de corrélation est que le plan factoriel formé par le 1er et le 2ème facteur synthétise 85% de l’information de départ: 67.1% pour le premier axe et 17.3% pour le deuxième, bon indicateur pour la suite de notre analyse. En effet, en observant le cercle de corrélation,on remarque que les variables PUISS , PUISS F,CYL,PRIX,VMAX sont bien corrélées dans le meme sens et aussi caractérisées par un cos2 proche de 1 et sont quasiment confondus avec le 1er axe, c’est à dire que ces valeurs sont dépendantes et ceci nous aide à répondre à notre problématique , en fait on remarque une grande relation entre le prix et les variables qui correpondent à la puissance de la voiture par contre ça n’a pas de relation surtout avec les variables hauteur ,longueur,hauteur qui construisent relativement le deuxième axe .on peut aussi tirer de ce cercle ,que les deux variables VMAX et x0-100 sont bien inversement corrélées entre eux c’est à dire quand la vitesse maximale augmente le temps d’accélération (pour passer de 0 à 100km/h) diminue et c’est tout à fait normal.
GRAPHE DE LA CONTRIBUTION DES INDIVIDUS ET DES VARIABLES SUR LA CONSTRUCTION DU PREMIER PLAN (1,2):
L’axe 1 (67.1%) : est construit essentiellement par la contribution des variables PUISS , PUISS F,CYL,PRIX,VMAX .Toutes ces variables contribuent fortement et positivement à la formation de cet axe .Pour la variable x0_100 , elle contribue dans la formation de cet axe mais négativement .Concernant les individus on remarque que les individus qui ont contribué le plus dans la formation de cet axe sont par ordre: porsche panamera ,range rover,porsche cayman,audi Q7 et ce sont les voitures les plus puissantes dans notre echantillon alors cet axe représente l’axe de la puissance.
L’axe 2 (17.3%):est construit essentiellement par la contribution des variables hauteur,largeur et longueur.ces variables contribuent positivement à la formation de cet axe elles sont un peu mal représentées sur le cercle de corrélation (ne sont pas fortement corrélées).Quant’aux individus on trouve par ordre : porsche cayman,ford ranger ,peugeot partner ,citroen berlingo,mahindra 500,volvo xc60,range rover ,kia picanto,porsche panamera et bmw serie 1..ainsi on peut conclure que le 2ème axe désigne l’axe de design
LE GRAPHE DES INDIVIDUS + BIPLOT
D’après ces plot on constate qu’on peut diviser les individus en deux groupes selon la variable qualitative “energie” : 1er groupe voitures“essence”: en effet on remarque que le regroupement de ces individus surtout est au centre de biplot , ça veut dire qu’ elles sont carartérisées généralement par des dimensions pas trop grandes ( ceci est déduit à partir de leur position en bas de l’axe 2),concernant la puissance (c’est à dire leur position sur l’axe 1) on trouve celles qui sont puissantes leurs prix est cher comme porsche panamera ,porsche cayman et aussi on remarque que plus les voitures sont puissantes plus leurs prix augmentent ceci en allant de gauche à droite sur l’axe 1 par exemple mercedes gla est plus puissante que fiat 500 donc elle est plus chere . 2eme groupe voitures“diesel”:contrairement à “voitures essence” on trouve que les voitures“diesel occupent la partie supérieure” de l’axe 2 c’est à dire elles sont caractérisées par leurs grandes dimensions(hauteur,longueur et largeur) . concernant la puissance et le prix de même on trouve que si la voiture est plus puissante plus elle est chere ! mais les voitures essence sont plus puissantes que “les voitureS diesel”.
On a pu réduire tout le problème de la synthèse de l’information à partir de 30 voitures et 11 variables en deux dimensions avec une précision de 84.4% de l’information totale. A partir de l’ACP faite on a pu répondre à la problématique et on peut dégager les résultats suivants : * le prix de la voiture est totalement lié à sa puissance beaucoup plus que son design .