output: html_document: toc: true number_sections: true

1. Introduction

rapport analyse les facteurs associés à la survie des passagers du Titanic. L’objectif est de comprendre comment des variables comme la classe du passager, le sexe, l’âge, le port d’embarquement, le nombre de frères/soeurs/conjoint à bord et le nombre de parents/enfants à bord ont influencé les chances de survie. #2 préparation des données Il est question ici de traiter les valeurs manquantes puis de faire le récodage des varibles si possible.

3 Analyse descriptive

Il s’agit de voire une vue de chaqe variable de decrire ces caracteristiques.
Characteristic N = 891
Survived
Survie 342 (38%)
Pas survie 549 (62%)
Pclass
première classe 216 (24%)
deuxième classe 184 (21%)
troisième classe 491 (55%)
Sex
female 314 (35%)
male 577 (65%)
Age 29 (21, 39)
SibSp
0 608 (68%)
1 209 (23%)
2 et+ 74 (8.3%)
Parch
0 678 (76%)
1 118 (13%)
2 et+ 95 (11%)
Embarked
C 168 (19%)
Q 77 (8.6%)
S 646 (73%)
1 n (%); Median (Q1, Q3)
## <center><h3>Tableau 1 : Statistiques Descriptives des Variables</h3></center>
Characteristic N = 891
Survived
Survie 342 (38%)
Pas survie 549 (62%)
Pclass
première classe 216 (24%)
deuxième classe 184 (21%)
troisième classe 491 (55%)
Sex
female 314 (35%)
male 577 (65%)
Age 29 (21, 39)
SibSp
0 608 (68%)
1 209 (23%)
2 et+ 74 (8.3%)
Parch
0 678 (76%)
1 118 (13%)
2 et+ 95 (11%)
Embarked
C 168 (19%)
Q 77 (8.6%)
S 646 (73%)
1 n (%); Median (Q1, Q3)

3.2 Analyse descriptive bivariée

Il est question de voir le lien entre la variable survie et les autres variables de la base

## [1] "<center><h3>Effectifs des Survie selon le Sexe</h3></center>"

## <center><h3>Effectifs des Survie selon le Nombre de Frères/Soeurs/Époux (SibSp)</h3></center>

## <center><h3>Effectifs des Survie selon le Nombre de Parents/Enfants (Parch)</h3></center>

## <center><h3>Effectifs des Survie selon la Classe d'Embarquement</h3></center>

## <center><h3>Tableau 3 : Statistiques Descriptives et Tests de Comparaison par Statut de Survie</h3></center>
Characteristic Survie
N = 342
Pas survie
N = 549
p-value
Pclass <0.001
première classe 136 (63%) 80 (37%)
deuxième classe 87 (47%) 97 (53%)
troisième classe 119 (24%) 372 (76%)
Sex <0.001
female 233 (74%) 81 (26%)
male 109 (19%) 468 (81%)
Age 27 (18, 36) 30 (21, 41) 0.002
Embarked <0.001
C 93 (55%) 75 (45%)
Q 30 (39%) 47 (61%)
S 219 (34%) 427 (66%)
SibSp <0.001
0 210 (35%) 398 (65%)
1 112 (54%) 97 (46%)
2 et+ 20 (27%) 54 (73%)
Parch <0.001
0 233 (34%) 445 (66%)
1 65 (55%) 53 (45%)
2 et+ 44 (46%) 51 (54%)
1 n (%); Median (Q1, Q3)
2 Pearson’s Chi-squared test; Wilcoxon rank sum test

Modélisation: Régression logistique

Il est question ici de faire un modèle qui permet de prédire la propabilité de survie d’un individu

## <center><h3>Tableau 4 : Coefficients de la Régression Logistique (Odds Ratios)</h3></center>
Characteristic OR 95% CI p-value
(Intercept) 0.08 0.04, 0.14 <0.001
Pclass <0.001
première classe — —
deuxième classe 2.05 1.25, 3.40
troisième classe 5.99 3.86, 9.40
Sex <0.001
female — —
male 14.1 9.66, 20.9
Embarked 0.053
C — —
Q 1.07 0.52, 2.23
S 1.65 1.05, 2.60
SibSp 0.040
0 — —
1 0.92 0.60, 1.41
2 et+ 2.32 1.14, 4.87
Parch 0.10
0 — —
1 0.57 0.33, 0.98
2 et+ 1.06 0.58, 1.91
Abbreviations: CI = Confidence Interval, OR = Odds Ratio

## <center><h3>Graphique des Odds Ratios</h3></center>

## <center><h3>Graphiques des Effets Marginaux</h3></center>
## classes_predites
##     Survie Pas survie 
##        303        588
## <center><h3>Matrice de Confusion</h3></center>
## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   Survie Pas survie
##   Survie        233         70
##   Pas survie    109        479
##                                           
##                Accuracy : 0.7991          
##                  95% CI : (0.7713, 0.8249)
##     No Information Rate : 0.6162          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.5659          
##                                           
##  Mcnemar's Test P-Value : 0.004508        
##                                           
##             Sensitivity : 0.6813          
##             Specificity : 0.8725          
##          Pos Pred Value : 0.7690          
##          Neg Pred Value : 0.8146          
##              Prevalence : 0.3838          
##          Detection Rate : 0.2615          
##    Detection Prevalence : 0.3401          
##       Balanced Accuracy : 0.7769          
##                                           
##        'Positive' Class : Survie          
## 
## Setting levels: control = Survie, case = Pas survie
## Setting direction: controls < cases

## <center><h3>Courbe ROC</h3></center>

## [1] "AUC = 0.846"