Introduction :
Le Titanic, un symbole tragique:
Le RMS Titanic était un paquebot transatlantique britannique, tragiquement célèbre pour son naufrage. Construit entre 1909 et 1912 par la White Star Line, le Titanic est à l’époque le plus grand et le plus luxueux paquebot, présenté comme le plus sûr grâce à une construction innovante de sa coque, censée être à l’épreuve des voies d’eau.
library(readxl)
## Warning: package 'readxl' was built under R version 4.0.4
getwd()
## [1] "C:/Users/Admin/Desktop"
titanic3_3 <- read_excel("C:/Users/Admin/Downloads/titanic3-3.xls")
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Coercing text to numeric in M1306 / R1306C13: '328'
View(titanic3_3)
head(titanic3_3)
summary(titanic3_3)
## pclass survived name sex
## Min. :1.000 Min. :0.000 Length:1309 Length:1309
## 1st Qu.:2.000 1st Qu.:0.000 Class :character Class :character
## Median :3.000 Median :0.000 Mode :character Mode :character
## Mean :2.295 Mean :0.382
## 3rd Qu.:3.000 3rd Qu.:1.000
## Max. :3.000 Max. :1.000
##
## age sibsp parch ticket
## Min. : 0.1667 Min. :0.0000 Min. :0.000 Length:1309
## 1st Qu.:21.0000 1st Qu.:0.0000 1st Qu.:0.000 Class :character
## Median :28.0000 Median :0.0000 Median :0.000 Mode :character
## Mean :29.8811 Mean :0.4989 Mean :0.385
## 3rd Qu.:39.0000 3rd Qu.:1.0000 3rd Qu.:0.000
## Max. :80.0000 Max. :8.0000 Max. :9.000
## NA's :263
## fare cabin embarked boat
## Min. : 0.000 Length:1309 Length:1309 Length:1309
## 1st Qu.: 7.896 Class :character Class :character Class :character
## Median : 14.454 Mode :character Mode :character Mode :character
## Mean : 33.295
## 3rd Qu.: 31.275
## Max. :512.329
## NA's :1
## body home.dest
## Min. : 1.0 Length:1309
## 1st Qu.: 72.0 Class :character
## Median :155.0 Mode :character
## Mean :160.8
## 3rd Qu.:256.0
## Max. :328.0
## NA's :1188
Premier regard sur les données et signification des variables:
Variables : Description
PassengerID : Identifiant du passenger
Survived : Survivant
Pclass : Classe du passager
Name : Nom et titre du passager
Sex : sex du passager
Age : age du passager
SibSp : Nombre d’époux,de frèrs et de soeurs présents à bord
Parch : Nombre de parents ou d’enfants présents à bord
Ticket : Numéro du ticket
Fare : Prix des tickets
Cabin : Numéro de Cabine
Embarked : Port d’embarcation
études statistiques de jeux données : tout d’abord on a commencé par une études globale du jeu de données ainsi que ces varibles , et en somme on va essayer de créer des liens entre les variables qui nous semble utiles parmis les 14,il nous a semblé de faire que d’étudier les variables en fonction d’autres afin de déduire l’effet de chaque détail a cette époque ci , autrement dit , c’est quoi le rôle du sex , l’âge ou la classe pour survivre dans cette situation critique.
names(titanic3_3)
## [1] "pclass" "survived" "name" "sex" "age" "sibsp"
## [7] "parch" "ticket" "fare" "cabin" "embarked" "boat"
## [13] "body" "home.dest"
ncol(titanic3_3)
## [1] 14
une études de la variable âge nous a semblé hyper important dans cette études statistique de ce jeu donnés car en premier lieu il va nous permettre de svoir les différents classe d’âge qui on été sur le titanic comme culture générale , et plus précisement déduire les personnes qui on pû survivre en fonction de l’heure âge en utilisant plus qu’une méthode
summary(titanic3_3$age)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.1667 21.0000 28.0000 29.8811 39.0000 80.0000 263
sd(titanic3_3$age,na=TRUE)
## [1] 14.4135
var(titanic3_3$age,na=TRUE)
## [1] 207.749
boxplot(titanic3_3$age,col="blue",ylab="age",main="diagramme en boite d'age ")
on s’est consacré aussi à l’étude du sex des voyageurs du titanic , pour sortir enfin de compte avec des résultats sur le sex des survivants , d’aprés l’histoire on a entendu que la pluparts qui on survécu étaient des femmes, voyons voir est ce que ces vraie à partir de l’étude statistique de la variable sex
summary(titanic3_3$sex)
## Length Class Mode
## 1309 character character
table(titanic3_3$sex)
##
## female male
## 466 843
table(titanic3_3$sex)/nrow(titanic3_3)
##
## female male
## 0.3559969 0.6440031
cumsum(table(titanic3_3$sex))
## female male
## 466 1309
cumsum(table(titanic3_3$sex)/nrow(titanic3_3))
## female male
## 0.3559969 1.0000000
barplot(table(titanic3_3$sex), col='yellow')
On traitera par la suite la variable Fare: prix des tickets
summary(titanic3_3$fare)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 7.896 14.454 33.295 31.275 512.329 1
sd(titanic3_3$fare,na=TRUE)
## [1] 51.75867
var(titanic3_3$fare,na=TRUE)
## [1] 2678.96
hist(titanic3_3$fare, xlab='le prix du tickets', ylab='effictifs', col='red')
cette analyse nous a permis de déduire le nombre réel des survivants en fonction de leurs âge a travers des graphes réalisés par le logiciel R : en outre voila le nombre des survivants :
sum(titanic3_3$survived,na=TRUE)
## [1] 501
on a préféré de donner le pourcentage des résultats afin de concrétiser les résultats précedents et bien transmettre la déduction
prop.table(table(titanic3_3$survived))
##
## 0 1
## 0.618029 0.381971
pour avoir plus d’information sur les morts de cette affreuse accicdent , on a étudier le taux de mortalité en fonction du pyramide d’âge dans le but de savoir la catégorie d’âge la plus touchéé bien sûr pour montrer les détails du fait
x=NULL
i=1
while(i<80){
v=sum(titanic3_3[titanic3_3$age==i,2],na.rm=TRUE)
x=append(x,v)
i=i+1
}
x
## [1] 7 4 5 7 4 3 2 4 4 0 1 3 3 4 5 8 7 14 11 8 11 20 10 22 11
## [26] 11 13 8 13 15 12 11 9 6 13 14 2 6 8 6 2 6 3 3 14 0 3 10 5 6
## [51] 3 3 4 5 4 2 0 4 1 4 0 2 2 2 0 0 0 0 0 0 0 0 0 0 0
## [76] 1 0 0 0
apply(titanic3_3[titanic3_3[,5]==30,2],2,na.rm=TRUE,sum)
## survived
## 15
table(titanic3_3$sex,titanic3_3$survived)
##
## 0 1
## female 127 339
## male 682 161
prop.table(table(titanic3_3$sex,titanic3_3$survived),margin=1)
##
## 0 1
## female 0.2725322 0.7274678
## male 0.8090154 0.1909846
boxplot(titanic3_3$survived~titanic3_3$sex,mean=' graphe des survivants en fonction de leurs sexe',col='green')
tapply(titanic3_3$survived,titanic3_3$sex,FUN=mean)
## female male
## 0.7274678 0.1909846
tapply(titanic3_3$survived,titanic3_3$sex,FUN=var)
## female male
## 0.1986848 0.1546930
z=NULL
i=1
while(i<4){
v=sum(titanic3_3[titanic3_3$pclass==i,2],na.rm=TRUE)
z=append(z,v)
i=i+1
}
z
## [1] 200 119 181
class1
apply(titanic3_3[titanic3_3[,1]==1,2],2,na.rm=TRUE,sum)
## survived
## 200
class2
apply(titanic3_3[titanic3_3[,1]==2,2],2,na.rm=TRUE,sum)
## survived
## 119
Class3
apply(titanic3_3[titanic3_3[,1]==3,2],2,na.rm=TRUE,sum)
## survived
## 181
plot(titanic3_3$survived~titanic3_3$pclass, col='red', ylab='survivants', xlab='la classe')
cor(titanic3_3$survived,titanic3_3$pclass)
## [1] -0.3124694
Lorsque le Titanic heurte un iceberg et sombre, le sauvetage des passagers se fait de façon inégale. Contrairement à une idée répandue, les passagers de troisième classe n’ont pas été maintenus dans les profondeurs du navire, et certains ont même été très tôt conduits aux canots de sauvetage. Donc la priorité était donné aux personnes dans le 1er classe comme indiquant les résultats.
*étudions la variable sexe en fonction d’origine(home:)
barplot(table(titanic3_3$sex,titanic3_3$home.dest))
res=chisq.test(titanic3_3$sex,titanic3_3$home.dest)
## Warning in chisq.test(titanic3_3$sex, titanic3_3$home.dest): Chi-squared
## approximation may be incorrect
res
##
## Pearson's Chi-squared test
##
## data: titanic3_3$sex and titanic3_3$home.dest
## X-squared = 337.31, df = 368, p-value = 0.8728
res$statistic
## X-squared
## 337.3052
x=prop.table(table(titanic3_3$sex,titanic3_3$survived),margin = 1)
x
##
## 0 1
## female 0.2725322 0.7274678
## male 0.8090154 0.1909846
h=pbinom(200,843,0.1909846)
h
## [1] 0.9996275