Analyser les grandes causes de mortalité ainsi que celles avec un niveau de précision plus élevé
Comparer les différences entre zone géographique
Identifier les variations entre pays développés et en développement
Identifier les tendances globales
Regarder l’évolution des maladies chroniques (cancers, maladies cardiovasculaires)
Discuter les causes accidentelles ou évitables (accidents de la route, suicide)
Mettre en évidence la transition épidémiologique des pays
Etudier le passage d’une majorité de maladies inféctieuses à des maladies chroniques par exemple
Observer les cas où plusieurs types de mortalité coexistent dans le temps
Distinguer les vulnérabilités spécifiques
Explorer la différence entre les hommes et les femmes
Identifier les causes principales pour chacune des générations
II- Données
1) Pour la mortalité
Concernant les données sur la mortalité, nous avons pu trouver 3 sources :
WHO = World Health Organisation
HMD = Human Mortality Database
CepiDc = Centre d’épidémiologie sur les causes médicales de Décès
Ces dernières possèdent les caractéristiques suivantes :
Source
Géographie
Tranche d’âge
Nomenclatures
WHO
Monde
5 ans
ICD7 à ICD10
HMD
Monde
5 ans
18 grandes causes
CepiDc
France
10 ans
ICD10
Nous avons donc fait le choix de la base de données provenant du site WHO qui est la plus complète dans le cadre de notre étude.
2) Pour la population
Concernant les données sur la population, nous avons pu observer les caractéristiques suivantes :
Source
Géographie
Tranche d’âge
WHO
Monde
5 ans
HMD
Monde
5 ans
CepiDc
France
10 ans
En analysant les résultas, nous nous sommes rendu compte que la base de données provenant de la WHO présentait de nombreuses valeurs manquantes. Au vue de notre étude, il était donc préférable d’utiliser les données de la HMD.
III- Valeurs manquantes
La base de données contenant les causes de mortalité présentait de nombreuses valeurs manquantes pour une majorité de pays. Nous avons donc créé une fonction qui permet de sélectionner tous les pays qui ne présentaient pas de valeurs manquantes entre 1955 et 2018. Nous obtenons la liste suivante :
Canada
Chili
Mexique
Etats-Unis
Hong Kong SAR
Israël
Japon
Singapour
Autriche
Belgique
Danemark
Finlande
France
Hongrie
Islande
Irlande
Italie
Malte
Pays-Bas
Norvège
Espagne
Suède
Suisse
Royaume-Uni
Nous avons remarqués qu’au niveau des âges, il y avait une grande proportion de valeur manquantes pour la Norvège et le Danemark. Ces deux pays ont donc été retiré de la liste.
Enfin, en nous penchant sur la base de données de la population, nous avons pu restreindre cette liste puisque la HMD ne possédait pas nécessairement les informations pour chacun de ces pays. En effet, des pays tels que le Chili ou le Mexique ne sont pas présent sur le site de la HMD Notre liste devient alors :
Canada
Espagne
Japon
Etats-Unis
Autriche
Belgique
Islande
Finlande
France
Hongrie
Pays-Bas
Irlande
Italie
Suède
Suisse
Royaume-Uni
IV- Nomenclature
Segmentation des fichiers WHO par nomenclature
Chaque nomenclature = une période particulière
Mortalité, ICD10 (part2/5) recense les mortalité de 2003 à 2007 par exemple
Il a donc été nécessaire de créer un tableau qui intègre ces différentes nomenclature et leur équivalent en language courant :
Ce tableau correpond à la nomenclature ICD8.
V- Traitement des données
Nous avons ensuite effectué un certains nombre de traitement des données pour obtenir deux tableaux exploitables afin de transmetrre l’analyse de notre sujet au lecteur. Nous avons ainsi obtenu des tableaux de la forme :
Pays
Année
Sexe
Age
Décès
Cause
Autriche
1955
Homme
0
8
Infectieux et parasitaire
Autriche
1955
Homme
1-4
3
Infectieux et parasitaire
Autriche
1955
Homme
5-9
0
Infectieux et parasitaire
Autriche
1955
Homme
10-14
0
Infectieux et parasitaire
Autriche
1955
Homme
15-19
14
Infectieux et parasitaire
Nous avons ensuite utilisé ces tableaux pour créer des bases de données plus précises comme par exemple celle contenant les taux de mortalité ou encore celle qui permet de créer un camambert représentant la proportion d’une cause de mortalité parmis toutes les autres.
VI- RShiny
Utilisation de RShiny pour faire une interface dynamique
Framework de R pour créer des applications web interactives
Structuré en deux parties : UI (User Interface) et Server
VII- Création des graphiques
Suite à cela, nous avons enfin pu commencer notre interface. Il a donc été nécessaire de créer des fonctions pour chaque graphique que nous voulions ajouter.
1) Création d’un histogramme
Par exemple, celle-ci permet de créer un diagramme en barre de la répartition des décès en fonction de l’âge et du sexe. Ce qui nous a permis d’obtenir le graphique suivant pour la cause Infectieux et parasitaire en France :
plot_bar <-function(data, year, cause) { p <-ggplot(data, aes(x = Age, y = Deces, fill = Sexe)) +geom_bar(stat ="identity", position =position_dodge()) +labs(title =paste("Répartition des Décès en", year, "pour la cause :", cause), x ="Tranche d'âge", y ="Effectif" ) +theme_minimal() +theme(axis.text.x =element_text(angle =-45, hjust =1)) ggplotly(p)}
2) Création d’une carte interactive
Affichage, en fonction du pays sélectionné :
Les 10 grandes causes de moratlité en 1955
Le taux de mortalité pour 1000 personnes et leur équivalent en 2018
En cliquant sur le Japon dans l’onglet monde, nous obtenons :