Réponses au questionnaire pour le CEPE
Statistiques descriptives sur des données de transport (requêtes, graphiques, corrélations )
install.packages("prettyR")
## Installing package into '/home/david/R/x86_64-pc-linux-gnu-library/3.4'
## (as 'lib' is unspecified)
install.packages("ggplot2")
## Installing package into '/home/david/R/x86_64-pc-linux-gnu-library/3.4'
## (as 'lib' is unspecified)
library(prettyR)
library(ggplot2)
Les fichiers que j’utilse sont des fichiers CSV donc j’utilise la commande read.csv2(nom du fichier en mettant mis au préalable dans le répertoire où il se trouve,header=TRUE)
getwd()
## [1] "/home/david/Documents/trendtoken"
Une liste est un vecteur de données pouvant comporter des données de différentes natures, le dataframe est un tableau (plusieurs lignes et colones) .Un dataframe comprend plusieurs listes
poids<-c(56,44,57)
taille<-c(160,178,156)
plot(poids,taille, main="Poids en fonction de la taille")
#Autre solution avec ggplot
dftest<-data.frame(taille=c(165,171,172,178,185),poids=c(55,65,68,81,82))
ggplot(data=dftest,aes(x=taille, y=poids))+geom_point()
on peut utiliser summary(dataframe), describe(dataframe) qui renvoie des statistiques descriptives sur l ’ensemble des variables du jeu de données
la commande paste() permet de concatener 2 colonnes au format caractère
paste("titi", "toto")
## [1] "titi toto"
dataframe<-data.frame(taille=c(185,178,165,171,172),poids=c(82,81,55,65,68),QI=c(110,108,125,99,124))
apply(dataframe,1,min) # pour calculer le min de chaque ligne
## [1] 82 81 55 65 68
apply(dataframe,2,min) # pour calculer le min de chaque colone
## taille poids QI
## 165 55 99
rowMeans(dataframe)
## [1] 125.6667 122.3333 115.0000 111.6667 121.3333
Créer une fonction qui retourne la moyenne et la covariance
fonction <- function( x,y )
{
# Calcul de la covariance entre x et y
Cov <- cov(x,y)
Moy<-mean(x)
# Retourne les résultats
return(c(Moy,Cov))
}
fonction(poids,taille)
## [1] 52.33333 -84.33333