Introduction :

Le Titanic, un symbole tragique:

Le RMS Titanic était un paquebot transatlantique britannique, tragiquement célèbre pour son naufrage. Construit entre 1909 et 1912 par la White Star Line, le Titanic est à l’époque le plus grand et le plus luxueux paquebot, présenté comme le plus sûr grâce à une construction innovante de sa coque, censée être à l’épreuve des voies d’eau.

library(readxl)
## Warning: package 'readxl' was built under R version 4.0.4
getwd()
## [1] "C:/Users/Admin/Desktop"
titanic3_3 <- read_excel("C:/Users/Admin/Downloads/titanic3-3.xls")
## Warning in read_fun(path = enc2native(normalizePath(path)), sheet_i = sheet, :
## Coercing text to numeric in M1306 / R1306C13: '328'
View(titanic3_3)
head(titanic3_3)
summary(titanic3_3)
##      pclass         survived         name               sex           
##  Min.   :1.000   Min.   :0.000   Length:1309        Length:1309       
##  1st Qu.:2.000   1st Qu.:0.000   Class :character   Class :character  
##  Median :3.000   Median :0.000   Mode  :character   Mode  :character  
##  Mean   :2.295   Mean   :0.382                                        
##  3rd Qu.:3.000   3rd Qu.:1.000                                        
##  Max.   :3.000   Max.   :1.000                                        
##                                                                       
##       age              sibsp            parch          ticket         
##  Min.   : 0.1667   Min.   :0.0000   Min.   :0.000   Length:1309       
##  1st Qu.:21.0000   1st Qu.:0.0000   1st Qu.:0.000   Class :character  
##  Median :28.0000   Median :0.0000   Median :0.000   Mode  :character  
##  Mean   :29.8811   Mean   :0.4989   Mean   :0.385                     
##  3rd Qu.:39.0000   3rd Qu.:1.0000   3rd Qu.:0.000                     
##  Max.   :80.0000   Max.   :8.0000   Max.   :9.000                     
##  NA's   :263                                                          
##       fare            cabin             embarked             boat          
##  Min.   :  0.000   Length:1309        Length:1309        Length:1309       
##  1st Qu.:  7.896   Class :character   Class :character   Class :character  
##  Median : 14.454   Mode  :character   Mode  :character   Mode  :character  
##  Mean   : 33.295                                                           
##  3rd Qu.: 31.275                                                           
##  Max.   :512.329                                                           
##  NA's   :1                                                                 
##       body        home.dest        
##  Min.   :  1.0   Length:1309       
##  1st Qu.: 72.0   Class :character  
##  Median :155.0   Mode  :character  
##  Mean   :160.8                     
##  3rd Qu.:256.0                     
##  Max.   :328.0                     
##  NA's   :1188

Premier regard sur les données et signification des variables:

Variables : Description

PassengerID : Identifiant du passenger

Survived : Survivant

Pclass : Classe du passager

Name : Nom et titre du passager

Sex : sex du passager

Age : age du passager

SibSp : Nombre d’époux,de frèrs et de soeurs présents à bord

Parch : Nombre de parents ou d’enfants présents à bord

Ticket : Numéro du ticket

Fare : Prix des tickets

Cabin : Numéro de Cabine

Embarked : Port d’embarcation

études statistiques de jeux données : tout d’abord on a commencé par une études globale du jeu de données ainsi que ces varibles , et en somme on va essayer de créer des liens entre les variables qui nous semble utiles parmis les 14,il nous a semblé de faire que d’étudier les variables en fonction d’autres afin de déduire l’effet de chaque détail a cette époque ci , autrement dit , c’est quoi le rôle du sex , l’âge ou la classe pour survivre dans cette situation critique.

names(titanic3_3)
##  [1] "pclass"    "survived"  "name"      "sex"       "age"       "sibsp"    
##  [7] "parch"     "ticket"    "fare"      "cabin"     "embarked"  "boat"     
## [13] "body"      "home.dest"
ncol(titanic3_3)
## [1] 14

une études de la variable âge nous a semblé hyper important dans cette études statistique de ce jeu donnés car en premier lieu il va nous permettre de svoir les différents classe d’âge qui on été sur le titanic comme culture générale , et plus précisement déduire les personnes qui on pû survivre en fonction de l’heure âge en utilisant plus qu’une méthode

summary(titanic3_3$age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  0.1667 21.0000 28.0000 29.8811 39.0000 80.0000     263
sd(titanic3_3$age,na=TRUE)
## [1] 14.4135
var(titanic3_3$age,na=TRUE)
## [1] 207.749
boxplot(titanic3_3$age,col="blue",ylab="age",main="diagramme en boite d'age ")

on s’est consacré aussi à l’étude du sex des voyageurs du titanic , pour sortir enfin de compte avec des résultats sur le sex des survivants , d’aprés l’histoire on a entendu que la pluparts qui on survécu étaient des femmes, voyons voir est ce que ces vraie à partir de l’étude statistique de la variable sex

summary(titanic3_3$sex)
##    Length     Class      Mode 
##      1309 character character
table(titanic3_3$sex)
## 
## female   male 
##    466    843
table(titanic3_3$sex)/nrow(titanic3_3)
## 
##    female      male 
## 0.3559969 0.6440031
cumsum(table(titanic3_3$sex))
## female   male 
##    466   1309
cumsum(table(titanic3_3$sex)/nrow(titanic3_3))
##    female      male 
## 0.3559969 1.0000000
barplot(table(titanic3_3$sex), col='yellow')

On traitera par la suite la variable Fare: prix des tickets

summary(titanic3_3$fare)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   7.896  14.454  33.295  31.275 512.329       1
sd(titanic3_3$fare,na=TRUE)
## [1] 51.75867
var(titanic3_3$fare,na=TRUE)
## [1] 2678.96
hist(titanic3_3$fare, xlab='le prix du tickets', ylab='effictifs', col='red')

cette analyse nous a permis de déduire le nombre réel des survivants en fonction de leurs âge a travers des graphes réalisés par le logiciel R : en outre voila le nombre des survivants :

sum(titanic3_3$survived,na=TRUE)
## [1] 501

on a préféré de donner le pourcentage des résultats afin de concrétiser les résultats précedents et bien transmettre la déduction

prop.table(table(titanic3_3$survived))
## 
##        0        1 
## 0.618029 0.381971

pour avoir plus d’information sur les morts de cette affreuse accicdent , on a étudier le taux de mortalité en fonction du pyramide d’âge dans le but de savoir la catégorie d’âge la plus touchéé bien sûr pour montrer les détails du fait

x=NULL
i=1
while(i<80){
  v=sum(titanic3_3[titanic3_3$age==i,2],na.rm=TRUE)

  x=append(x,v)
  i=i+1
}
x
##  [1]  7  4  5  7  4  3  2  4  4  0  1  3  3  4  5  8  7 14 11  8 11 20 10 22 11
## [26] 11 13  8 13 15 12 11  9  6 13 14  2  6  8  6  2  6  3  3 14  0  3 10  5  6
## [51]  3  3  4  5  4  2  0  4  1  4  0  2  2  2  0  0  0  0  0  0  0  0  0  0  0
## [76]  1  0  0  0
apply(titanic3_3[titanic3_3[,5]==30,2],2,na.rm=TRUE,sum)
## survived 
##       15
table(titanic3_3$sex,titanic3_3$survived)
##         
##            0   1
##   female 127 339
##   male   682 161
prop.table(table(titanic3_3$sex,titanic3_3$survived),margin=1)
##         
##                  0         1
##   female 0.2725322 0.7274678
##   male   0.8090154 0.1909846
boxplot(titanic3_3$survived~titanic3_3$sex,mean=' graphe des survivants en fonction de leurs sexe',col='green')

tapply(titanic3_3$survived,titanic3_3$sex,FUN=mean)
##    female      male 
## 0.7274678 0.1909846
tapply(titanic3_3$survived,titanic3_3$sex,FUN=var)
##    female      male 
## 0.1986848 0.1546930
z=NULL
i=1
while(i<4){
  v=sum(titanic3_3[titanic3_3$pclass==i,2],na.rm=TRUE)
  
  z=append(z,v)
  i=i+1
}
z
## [1] 200 119 181

class1

apply(titanic3_3[titanic3_3[,1]==1,2],2,na.rm=TRUE,sum)
## survived 
##      200

class2

apply(titanic3_3[titanic3_3[,1]==2,2],2,na.rm=TRUE,sum)
## survived 
##      119

Class3

apply(titanic3_3[titanic3_3[,1]==3,2],2,na.rm=TRUE,sum)
## survived 
##      181
plot(titanic3_3$survived~titanic3_3$pclass, col='red', ylab='survivants', xlab='la classe')

cor(titanic3_3$survived,titanic3_3$pclass)
## [1] -0.3124694

Lorsque le Titanic heurte un iceberg et sombre, le sauvetage des passagers se fait de façon inégale. Contrairement à une idée répandue, les passagers de troisième classe n’ont pas été maintenus dans les profondeurs du navire, et certains ont même été très tôt conduits aux canots de sauvetage. Donc la priorité était donné aux personnes dans le 1er classe comme indiquant les résultats.

*étudions la variable sexe en fonction d’origine(home:)

barplot(table(titanic3_3$sex,titanic3_3$home.dest))

res=chisq.test(titanic3_3$sex,titanic3_3$home.dest)
## Warning in chisq.test(titanic3_3$sex, titanic3_3$home.dest): Chi-squared
## approximation may be incorrect
res
## 
##  Pearson's Chi-squared test
## 
## data:  titanic3_3$sex and titanic3_3$home.dest
## X-squared = 337.31, df = 368, p-value = 0.8728
res$statistic
## X-squared 
##  337.3052
x=prop.table(table(titanic3_3$sex,titanic3_3$survived),margin = 1)
x
##         
##                  0         1
##   female 0.2725322 0.7274678
##   male   0.8090154 0.1909846
h=pbinom(200,843,0.1909846)
h
## [1] 0.9996275