TUTO
TUTO
- Types de Variables
- Une variable quantitative
- Une variable qualitative
- Transformer une variable quantitative en variable qualitative
- Deux variables quantitatives
- Deux variables qualitatives
- Une variable quantitative et une variable qualitative
- Une variable quantitative et plusieurs variables qualitatives
- Plusieurs variables quantitatives et une variable qualitative
Types de Variables
Il y a 2 types de variables, chacune est divisé en 2 groupes.
Quantitative
Une variable quantitative mesure des “quantités”.
Une variable quantitative peut être discrète ou continue : - Une variable quantitative discrète a une valeur finie, il est possible de les énumérer . - Une variable quantitative continue peut prendre, en théorie, une infinité de valeurs.
Qualitative
Une variable qualitative peut être nominale ou ordinale :
Une variable qualitative nominale possède des valeurs qui ne peuvant pas se ranger dans un ordre logique.
Une variable qualitative ordinale possède des valeurs qui peuvent se ranger dans un ordre logique.
Filtres
Pour pouvoire annalyser un fichier selon plusieur critères on peut utiliser des filtres . voisi les different filtre pouvent etre utiliser sur r .
Une variable quantitative
La commande “summary” s’utilise pour avoir une vue d’ensemble d’une variable quantitative . puisqu’elle donne la moyenne, la médiane, et aussi que les quantiles 0.25, 0.75 ainsi que la valeur minimum et le maximum.
X = read.delim("https://pmbo.pagesperso-orange.fr/STID/Programmation_statistique_2/sports.txt", header = T , sep = ";", dec = ",", fileEncoding = "latin1")
Y=read.delim("http://pmbo.pagesperso-orange.fr/STID/Programmation_statistique_2/stock_attrition.txt",
header=T, dec=".",sep="\t")
Z=read.delim("https://pmbo.pagesperso-orange.fr/STID/Programmation_statistique_2/wdi.txt", header=T, dec=".",sep="\t",fileEncoding = "latin1")
attach(X)
summary(X)## sport sexe poids.kg taille.cm age
## aucun : 31 F:127 Min. :47.00 Min. :150.0 Min. :17.00
## handball : 27 M:113 1st Qu.:57.00 1st Qu.:163.0 1st Qu.:19.00
## basket : 22 Median :62.00 Median :170.0 Median :21.00
## rugby : 21 Mean :63.78 Mean :171.1 Mean :21.28
## gymnastique: 20 3rd Qu.:70.00 3rd Qu.:177.0 3rd Qu.:23.00
## football : 18 Max. :90.00 Max. :194.0 Max. :26.00
## (Other) :101
## rythmcard mecriture mfourchette pballon oeil pappui
## Min. :41.0 D:201 D:190 D:213 D:162 D:185
## 1st Qu.:58.0 G: 39 G: 50 G: 27 G: 78 G: 55
## Median :61.5
## Mean :63.0
## 3rd Qu.:68.0
## Max. :87.0
##
X = read.delim("https://pmbo.pagesperso-orange.fr/STID/Programmation_statistique_2/sports.txt", header = T , sep = ";", dec = ",", fileEncoding = "latin1")
library(ggplot2)
ggplot(X) +
aes(x = age ) +
geom_histogram(fill="#990099") +
ggtitle(" Histogramme de l'age") +
theme(text=element_text(size=10,family="LyliUPC",colour = "#990099")) +
xlab("Age") +
ylab("Effectifs") +
labs(caption = "SALVADOR Charlotte")## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
ggplot(X) +
aes(x = age) +
geom_histogram(fill ="#660033", colour = "black", binwidth = 2) +
ggtitle("Repartition de l'age") +
xlab("Age") +
ylab("Effectifs") +
labs(caption = "SALVADOR Charlotte")Utilisation d’un filitre de l’age mais seulement pour les femmmes
X = read.delim("https://pmbo.pagesperso-orange.fr/STID/Programmation_statistique_2/sports.txt", header = T , sep = ";", dec = ",", fileEncoding = "latin1")
library(ggplot2)
femme=X[X$sexe=="F",]
f= (sexe=="F")
f=as.factor(f)
ggplot(femme) +
aes(x = age) +
geom_histogram(fill ="#660033", colour = "black", binwidth = 2) +
ggtitle("Repartition de l'age des femme") +
xlab("Age") +
ylab("Effectifs") +
labs(caption = "SALVADOR Charlotte") homme=X[X$sexe=="M",]
H= (sexe=="M")
H=as.factor(H)
ggplot(homme) +
aes(x = age) +
geom_histogram(fill ="#660033", colour = "black", binwidth = 2) +
ggtitle("Repartition de l'age des homme") +
xlab("Age") +
ylab("Effectifs") +
labs(caption = "SALVADOR Charlotte") Une variable qualitative
Pour pouvoire aller plus vite on peut utiliser la fonction table
Pour une varibale qualitative le barplot simple est adapter
X = read.delim("https://pmbo.pagesperso-orange.fr/STID/Programmation_statistique_2/sports.txt", header = T , sep = ";", dec = ",", fileEncoding = "latin1")
table(sexe)## sexe
## F M
## 127 113
Transformer une variable quantitative en variable qualitative
Pour transformer une variable quantitative en variables quelitative on peut utiliser cette commende
## s
## (0,18] (18,26]
## 49 191
## [1] adulte ado adulte adulte adulte adulte adulte adulte adulte adulte
## [11] adulte adulte adulte adulte adulte adulte adulte adulte adulte ado
## [21] adulte adulte adulte ado ado adulte adulte adulte adulte ado
## [31] ado adulte adulte adulte adulte adulte adulte adulte adulte adulte
## [41] ado adulte adulte adulte adulte adulte adulte adulte adulte adulte
## [51] adulte adulte adulte adulte adulte adulte adulte adulte adulte ado
## [61] adulte ado ado adulte adulte adulte adulte adulte adulte adulte
## [71] adulte ado adulte adulte adulte adulte adulte ado adulte ado
## [81] adulte ado adulte adulte ado ado ado adulte adulte ado
## [91] adulte adulte ado ado adulte ado adulte adulte adulte ado
## [101] ado adulte adulte adulte adulte adulte ado adulte adulte adulte
## [111] ado adulte adulte ado adulte ado adulte adulte adulte adulte
## [121] adulte adulte adulte adulte adulte ado adulte adulte ado adulte
## [131] ado adulte ado adulte adulte adulte adulte adulte adulte adulte
## [141] adulte adulte adulte adulte adulte ado ado adulte adulte adulte
## [151] adulte ado ado adulte adulte adulte ado adulte adulte adulte
## [161] adulte adulte adulte adulte adulte adulte adulte adulte ado adulte
## [171] adulte adulte ado adulte adulte adulte adulte adulte adulte adulte
## [181] adulte adulte adulte ado adulte adulte adulte adulte adulte adulte
## [191] adulte ado adulte adulte ado adulte adulte adulte adulte ado
## [201] adulte adulte ado adulte adulte adulte adulte adulte ado adulte
## [211] ado adulte adulte adulte adulte adulte adulte adulte adulte ado
## [221] adulte adulte adulte ado adulte ado adulte adulte adulte adulte
## [231] adulte adulte adulte ado adulte adulte adulte adulte adulte adulte
## Levels: ado adulte
trensformer unevariable peut nous aider pour une meilleur analyse
Une variable quantitative à nombre de modalités fini
Reduire un nombre de modalité peut nous aider a representer un graphique le barplot et adapter a ce type de cas
##
## 41 43 44 45 46 47 48 49 50 51 52 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68
## 1 1 1 1 1 1 1 10 2 1 1 3 25 6 2 5 1 53 4 9 5 5 6 24 5 11
## 69 70 71 72 73 74 75 76 77 78 79 80 84 85 87
## 8 6 1 4 3 4 13 1 2 3 1 5 2 1 1
Deux variables quantitatives
Exepmle de graphique avec 2 variables quantitatives le nuage de point est le plus adapter
## [1] "Alpes" "Alsace" "Atlantique"
## [4] "BDP" "Bourgogne FC" "BRED"
## [7] "Centre Atlantique" "Cote d Azur" "Loire Lyonnais"
## [10] "Lorraine Champagne" "Massif Central" "Nord"
## [13] "Occitane" "Ouest" "Provencale et Corse"
## [16] "Rives de Paris" "SGCB" "Sud"
## [19] "SUD OUEST" "Val de France"
couleurs=rep("gray50",nlevels(banque)*8)
couleurs[97:104]="red"
# c("chartreuse","chartreuse4","cyan1","forestgreen","khaki4","lawngreen","lightgreen","mediumseagreen","olivedrab1","seagreen2")
ggplot(data = Y, aes(y = dem, x = soc)) +
geom_point(color = couleurs) +
geom_vline(xintercept = 90, lty = "dotted") +
geom_smooth(method = "loess", size = 1, color = "black", se = FALSE) +
scale_x_continuous(breaks = seq(0, 210000, by = 50000)) +
facet_grid(. ~ annee) +
labs(y = "nombre annuel de démissions par succursales de la région, de 2009 à 2016",
x = "volume annuel de sociétaires par succursales de la région, de 2009 à 2016",
title = "Nombre annuel de demission ") +
theme_bw() +
theme(strip.background = element_rect(fill = "grey90", color = "grey50"),
strip.text = element_text(size = rel(1)),
panel.grid = element_blank())Deux variables qualitatives
Exemple de graphique avec 2 variables qualitatives
Le graphique en bloc nous donne la repartition en pourcentage pour char modaliter exemple ici avec la repartition des homme et des femme pour chaque sport
a = table(X$sport,X$sexe)
par(las=2)
plot(a,col=c("violetred4","grey"),main="Graphique en bloc de la table de contingence
entre les sexes et les sports")Une variable quantitative et une variable qualitative
Une variable quantitative et plusieurs variables qualitatives
Pour ce graphique la il a falue changer la variable sport en “sportif” , “non sportif” pour pouvoire analyse les rythme cadriaque des homme est des femme en fonction de si oui ou non il pratique du sport .
X = read.delim("https://pmbo.pagesperso-orange.fr/STID/Programmation_statistique_2/sports.txt", header = T , sep = ";", dec = ",", fileEncoding = "latin1")
library(ggplot2)
Z= (sport=="aucun")
Z=as.factor(Z)
levels(Z)=c("non sportif", "sportif")
Z## [1] non sportif non sportif non sportif non sportif non sportif non sportif
## [7] non sportif non sportif non sportif sportif non sportif non sportif
## [13] non sportif non sportif non sportif non sportif non sportif non sportif
## [19] non sportif non sportif non sportif non sportif non sportif sportif
## [25] non sportif non sportif non sportif non sportif non sportif non sportif
## [31] sportif non sportif non sportif sportif non sportif non sportif
## [37] non sportif non sportif non sportif non sportif non sportif non sportif
## [43] non sportif non sportif non sportif sportif non sportif non sportif
## [49] non sportif non sportif non sportif non sportif non sportif non sportif
## [55] non sportif non sportif non sportif non sportif non sportif sportif
## [61] non sportif non sportif non sportif non sportif non sportif non sportif
## [67] sportif non sportif non sportif non sportif non sportif non sportif
## [73] non sportif sportif non sportif non sportif non sportif non sportif
## [79] non sportif non sportif non sportif non sportif non sportif sportif
## [85] non sportif non sportif non sportif non sportif non sportif non sportif
## [91] non sportif non sportif non sportif non sportif non sportif non sportif
## [97] non sportif non sportif non sportif non sportif non sportif sportif
## [103] non sportif non sportif non sportif non sportif non sportif non sportif
## [109] non sportif non sportif sportif non sportif non sportif non sportif
## [115] non sportif non sportif non sportif non sportif non sportif non sportif
## [121] non sportif non sportif sportif non sportif non sportif non sportif
## [127] sportif non sportif non sportif non sportif non sportif non sportif
## [133] non sportif non sportif non sportif sportif non sportif sportif
## [139] non sportif non sportif non sportif non sportif non sportif sportif
## [145] sportif non sportif non sportif sportif non sportif sportif
## [151] non sportif non sportif non sportif non sportif non sportif non sportif
## [157] non sportif non sportif non sportif sportif non sportif non sportif
## [163] non sportif sportif non sportif non sportif non sportif non sportif
## [169] non sportif non sportif non sportif non sportif non sportif non sportif
## [175] non sportif non sportif non sportif non sportif non sportif non sportif
## [181] non sportif non sportif non sportif non sportif non sportif sportif
## [187] non sportif non sportif non sportif sportif non sportif sportif
## [193] non sportif sportif non sportif non sportif non sportif non sportif
## [199] non sportif non sportif non sportif sportif sportif non sportif
## [205] non sportif non sportif non sportif non sportif non sportif non sportif
## [211] non sportif non sportif non sportif sportif non sportif non sportif
## [217] non sportif non sportif non sportif non sportif non sportif non sportif
## [223] non sportif non sportif non sportif sportif non sportif sportif
## [229] non sportif non sportif non sportif sportif non sportif non sportif
## [235] non sportif non sportif non sportif non sportif non sportif non sportif
## Levels: non sportif sportif
g <- ggplot(X, aes(Z, rythmcard))
g + geom_boxplot(aes(fill=sexe)) +
labs(title="Box plot",
subtitle="Rythme cardiaque en fonction de l'activité sportive",
caption="Source: PMBO",
x="Activité sportive",
y="Rythme cardiaque") + scale_fill_manual(values=c("#990066", "#990099"))Plusieurs variables quantitatives et une variable qualitative
Repartition de la taille et du poid en fonction du sexe .
library(ggplot2)
library(RColorBrewer)
ggplot(X,aes(fill=sexe,y=poids.kg,x=oeil))+
geom_bar( stat="identity",position=position_dodge()) + scale_fill_manual(values = rev(brewer.pal(8, "Purples"))) +theme_minimal() + xlab(label = "Poids") + ylab(label="Taille")