Initiation à l’imputation des données avec `mice`

Introduction

Dans ce notebook, nous allons reproduire un exemple décrit dans l’article (Van Buuren Stef and Groothuis-Oudshoorn 2011). L’objectif est de démontrer l’utilisation de la méthode MICE (Multivariate Imputation by Chained Equations) pour l’imputation des valeurs manquantes.

Il est à noter que notre but n’est pas d’approfondir la théorie derrière les algorithmes de MICE, mais plutôt de traiter un exemple concret afin de pouvoir le reproduire ultérieurement sur d’autres jeux de données.

Pour une exploration approfondie des méthodes d’imputation des données manquantes en utilisant le logiciel R, je recommande la lecture du livre (S. Van Buuren 2018). Ce livre offre une approche pratique et détaillée de l’imputation des données manquantes, en couvrant diverses méthodes et en fournissant des exemples d’application. De plus, le livre est disponible en ligne, ce qui en fait une ressource accessible pour les étudiants intéressés par ce sujet. Pour plus d’informations, veuillez consulter le lien ci-dessous :

Flexible Imputation of Missing Data - Stef van Buuren

Installation du package `mice`

Avant de commencer, nous devons installer le package mice depuis le Comprehensive R Archive Network (CRAN). Cela peut être fait en exécutant la commande suivante install.packages(“mice”). Nous appelons également le package tidyverse pour une programmation plus élégante.

install.packages("mice")
library(mice)
library(tidyverse)

Les données

Les données utilisées dans cet exemple proviennent du livre (Schafer 1997). Le jeu de données contient des informations sur la santé et la nutrition de la population américaine, issues de l’enquête NHANES (National Health and Nutrition Examination Survey).

Les variables incluses dans le jeu de données peuvent varier d’une enquête à l’autre, mais elles peuvent inclure des informations telles que l’âge, le sexe, la taille, le poids, les taux de cholestérol, la pression artérielle, les habitudes alimentaires, les antécédents médicaux, etc.

Ces données sont largement utilisées dans la recherche en santé publique, en épidémiologie et dans d’autres domaines connexes pour comprendre les tendances de santé, évaluer les facteurs de risque, et informer les politiques de santé.

Pour obtenir des informations détaillées sur les données nhanes, vous pouvez utiliser la fonction help(). En exécutant help(nhanes), vous accéderez à une documentation détaillée sur le jeu de données, y compris les variables incluses et leur signification dans le contexte des données nhanes. Cette fonction est utile pour explorer les caractéristiques et la structure des données avant de commencer leur analyse.

Le jeu de données de l’article ne contient que quatre variables :

age : Groupe d’âge (1=20-39, 2=40-59, 3=60+)
bmi : Indice de masse corporelle (kg/m²)
hyp : Hypertension (1=non, 2=oui)
chl : Cholestérol total dans le sérum (mg/dL)

Pour charger les données NHANES dans R, vous pouvez utiliser la fonction data().

data("nhanes")

Nous affichons d’abord les cinq premières lignes du jeu de données nhanes, qui contient les données utilisées dans l’article :

# Convertir un data frame en tibble en utilisant les pipes
nhanes_tibble <- nhanes %>% 
                  as_tibble()

# Afficher les 6 premières lignes du tibble
nhanes_tibble%>%head()

# A tibble: 6 × 4
    age   bmi   hyp   chl
  <dbl> <dbl> <dbl> <dbl>
1     1  NA      NA    NA
2     2  22.7     1   187
3     1  NA       1   187
4     3  NA      NA    NA
5     1  20.4     1   113
6     3  NA      NA   184

Comme vous pouvez le voir dans ce tibble, les variables sont toutes de type numérique, comme indiqué par <dbl>. De plus, nous remarquons la présence de valeurs manquantes, représentées par NA. Cela nous indique qu’il y a des données manquantes dans notre ensemble de données.

Analyse des données manquantes par pattern dans le jeu de données `nhanes`

Dans cette section, nous procédons à une analyse des données manquantes par pattern dans le jeu de données nhanes. Un pattern de données manquantes représente une configuration unique de valeurs manquantes pour les variables dans une observation donnée. Dans notre analyse, nous utilisons la fonction md.pattern(), où chaque variable est codée avec la valeur 1 si elle est présente et 0 sinon. Cela nous permet de compter le nombre de valeurs manquantes pour chaque pattern de données dans le jeu de données.

# Inspection des données manquantes
nhanes%>%md.pattern()

   age hyp bmi chl   
13   1   1   1   1  0
3    1   1   1   0  1
1    1   1   0   1  1
1    1   0   0   1  2
7    1   0   0   0  3
     0   8   9  10 27

Il y a 13 observations (sur 25 au total) pour lesquelles toutes les variables sont renseignées, ce qui signifie qu’elles sont complètes.
Il y a une observation pour laquelle seule la variable bmi est manquante.
Il y a sept observations pour lesquelles seule la variable age est renseignée.
Le nombre total de valeurs manquantes est calculé comme suit :
- 7 observations avec 3 variables manquantes (bmi, hyp et chl),
- 1 observation avec 2 variables manquantes (bmi et chl),
- 3 observations avec 1 variable manquante (hyp),
- 1 observation avec 1 variable manquante (chl).
- Ce qui donne un total de 27 valeurs manquantes. En effet \[13 \times 0+ 3 \times 1 + 1 \times 2 + 1 \times 3 + 7 \times 3 = 27\]
La variable chl est celle qui présente le plus de valeurs manquantes, avec 10 observations où elle est absente \((3+7=10)\).

Cette analyse par pattern nous offre une compréhension approfondie des données manquantes dans le jeu de données nhanes, ce qui peut être crucial pour décider des meilleures stratégies de gestion des données manquantes lors de l’analyse ultérieure.

Analyse des patterns de données manquantes par paires de variables

Dans cette section, nous allons explorer les schémas de données manquantes dans le jeu de données nhanes en examinant toutes les paires de variables. L’objectif est d’identifier les différents patterns de données manquantes qui se produisent entre les variables.

Chaque pattern représente une combinaison spécifique d’observations manquantes et non manquantes pour les deux variables de la paire. Les symboles “r” et “m” sont utilisés pour indiquer si une variable est observée (“r” pour “present”) ou manquante (“m” pour “missing”) dans un pattern donné. Ces patterns peuvent être : rr (les deux variables sont observées), rm (la première variable est observée et la deuxième est manquante), mr (la première variable est manquante et la deuxième est observée) et mm (les deux variables sont manquantes). En calculant la fréquence de chaque pattern, nous pourrons mieux comprendre la structure des données manquantes et orienter nos décisions concernant la gestion de ces valeurs manquantes dans notre analyse.

# Calcul de la fréquence des patterns de données manquantes pour toutes les paires de variables
p <- nhanes%>% md.pairs()
p

$rr
    age bmi hyp chl
age  25  16  17  15
bmi  16  16  16  13
hyp  17  16  17  14
chl  15  13  14  15

$rm
    age bmi hyp chl
age   0   9   8  10
bmi   0   0   0   3
hyp   0   1   0   3
chl   0   2   1   0

$mr
    age bmi hyp chl
age   0   0   0   0
bmi   9   0   1   2
hyp   8   0   0   1
chl  10   3   3   0

$mm
    age bmi hyp chl
age   0   0   0   0
bmi   0   9   8   7
hyp   0   8   8   7
chl   0   7   7  10

Il y a 13 observations où à la fois le bmi et le chl sont présents.
Il y a 3 observations où bmi est observé mais hyp ne l’est pas.
Il y a 2 observations où bmi est manquant mais hyp est observé.
Il y a 7 observations avec à la fois bmi et hyp manquants.

En ajoutant ces différents cas, nous obtenons le nombre total d’observations dans l’échantillon.

Bien sûr, voici un aperçu synthétique que vous pourriez utiliser pour résumer votre expérience avec le package VIM et la visualisation des données manquantes dans votre autre notebook :

Visualisation des données manquantes avec `VIM’

Dans cette section, nous explorons l’utilisation du package VIM (Visualisation and Imputation of Missing Data) pour visualiser les données manquantes dans un jeu de données.

La fonction marginplot() du package VIM permet de visualiser les données manquantes le long des marges d’une paire de variables. Voici un aperçu de son utilisation :

# Chargement du package VIM
library("VIM")
# Création du margin plot pour la paire (bmi, chl)

nhanes %>%
  select(chl, bmi) %>%
  marginplot(col = mdc(1:2), cex = 1.2, cex.lab = 1.2, cex.numbers = 1.3, pch = 19)

nhanes %>%
  select(chl, bmi)%>%summary()

      chl             bmi       
 Min.   :113.0   Min.   :20.40  
 1st Qu.:185.0   1st Qu.:22.65  
 Median :187.0   Median :26.75  
 Mean   :191.4   Mean   :26.56  
 3rd Qu.:212.0   3rd Qu.:28.93  
 Max.   :284.0   Max.   :35.30  
 NA's   :10      NA's   :9

?marginplot

nhanes %>%
  select(chl, bmi)

   chl  bmi
1   NA   NA
2  187 22.7
3  187   NA
4   NA   NA
5  113 20.4
6  184   NA
7  118 22.5
8  187 30.1
9  238 22.0
10  NA   NA
11  NA   NA
12  NA   NA
13 206 21.7
14 204 28.7
15  NA 29.6
16  NA   NA
17 284 27.2
18 199 26.3
19 218 35.3
20  NA 25.5
21  NA   NA
22 229 33.2
23 131 27.5
24  NA 24.9
25 186 27.4

La Figure ci-dessus montre une zone de données avec 13 points bleus représentant les observations complètes de bmi et chl. Trois points rouges dans la marge de gauche correspondent à des enregistrements avec bmi observé et chl manquant, tandis que deux points rouges dans la marge inférieure indiquent chl observé et bmi manquant. Un point rouge à l’intersection signifie que bmi et chl sont tous deux manquants pour certains enregistrements. Dans le coin inférieur gauche, trois chiffres indiquent le nombre d’enregistrements incomplets pour différentes combinaisons.

Deux diagrammes en boîte, un bleu et un rouge, dans la marge gauche résument respectivement la distribution de bmi et les valeurs de bmi manquantes. De même, deux autres diagrammes en boîte dans la marge inférieure résument les distributions pour chl et les valeurs manquantes de chl. Sous l’hypothèse MCAR (Missing Completely at Random), il est supposé que les valeurs manquantes dans les données sont réparties de manière aléatoire, sans être influencées par les valeurs observées ou d’autres variables. Ainsi, si les données étaient manquantes de manière aléatoire selon cette hypothèse, les distributions des données observées et des données manquantes devraient être similaires.

Je comprends, merci pour la clarification. Voici la correction :

Imputation des données manquantes avec `mice`

La représentation des données manquantes a été abordée précédemment, à travers la création de graphiques et de tableaux. Maintenant, nous passerons à l’étape de l’imputation des données manquantes. L’imputation est un processus essentiel dans le traitement des données manquantes, permettant de remplacer les valeurs manquantes par des estimations basées sur les données disponibles. Dans cette section, nous explorerons comment effectuer l’imputation en utilisant MICE (Multiple Imputation by Chained Equations) en combinaison avec le tidyverse, un ensemble d’outils pour la manipulation et l’analyse de données en R.

Lignes de code utilisant mice et le tidyverse pour l’imputation des données manquantes :

# Imputation des données manquantes avec MICE et tidyverse
imp <-mice(nhanes,seed = 23109)


 iter imp variable
  1   1  bmi  hyp  chl
  1   2  bmi  hyp  chl
  1   3  bmi  hyp  chl
  1   4  bmi  hyp  chl
  1   5  bmi  hyp  chl
  2   1  bmi  hyp  chl
  2   2  bmi  hyp  chl
  2   3  bmi  hyp  chl
  2   4  bmi  hyp  chl
  2   5  bmi  hyp  chl
  3   1  bmi  hyp  chl
  3   2  bmi  hyp  chl
  3   3  bmi  hyp  chl
  3   4  bmi  hyp  chl
  3   5  bmi  hyp  chl
  4   1  bmi  hyp  chl
  4   2  bmi  hyp  chl
  4   3  bmi  hyp  chl
  4   4  bmi  hyp  chl
  4   5  bmi  hyp  chl
  5   1  bmi  hyp  chl
  5   2  bmi  hyp  chl
  5   3  bmi  hyp  chl
  5   4  bmi  hyp  chl
  5   5  bmi  hyp  chl

print(imp)

Class: mids
Number of multiple imputations:  5 
Imputation methods:
  age   bmi   hyp   chl 
   "" "pmm" "pmm" "pmm" 
PredictorMatrix:
    age bmi hyp chl
age   0   1   1   1
bmi   1   0   1   1
hyp   1   1   0   1
chl   1   1   1   0

packageVersion("mice")

[1] '3.16.0'

Sortie de l’imputation multiple

Données imputées

Nombre d’ensembles de données imputées: 5
Cellules manquantes par colonne:
- Age: 0
- BMI: 9
- Hyp: 8
- Chl: 10

Méthodes d’imputation

Méthodes d’imputation utilisées:
- Age: Aucune méthode spécifiée
- BMI: “pmm” (Predictive Mean Matching)
- Hyp: “pmm” (Predictive Mean Matching)
- Chl: “pmm” (Predictive Mean Matching)

Séquence de visite

Séquence de visite des variables:
- Age (non imputée), BMI, Hyp, Chl

Matrice des prédicteurs

Matrice des prédicteurs:
- La matrice indique quelles variables sont utilisées comme prédicteurs pour imputer les valeurs manquantes dans chaque variable.

Graine du générateur de nombres aléatoires

Graine du générateur de nombres aléatoires: 23109

Dans notre étude, lors de l’exécution de l’imputation dans notre environnement R, nous avons noté une légère divergence entre les résultats obtenus et ceux présentés dans le matériel de référence, tel que l’article de cours. Cet écart peut résulter de variations dues à la version spécifique des logiciels utilisés, des paramètres de configuration ou même des données elles-mêmes. Ainsi, il est important d’être conscient de cette différence potentielle lors de l’application des méthodes présentées dans notre cours. En cas de besoin, n’hésitez pas à consulter les ressources en ligne, comme les forums de la communauté R, pour obtenir des conseils supplémentaires sur la manière de gérer de telles situations. Cette expérience nous rappelle l’importance de la vigilance et de la réflexion critique dans notre travail d’analyse de données.

Contrôle diagnostique des imputations de `mice`

Dans le cadre de l’imputation multiple, il est crucial de vérifier si les imputations sont plausibles. Les imputations doivent représenter des valeurs qui auraient pu être obtenues si elles n’avaient pas été manquantes. Elles doivent être proches des données réelles et respecter les relations entre les variables, tout en reflétant l’incertitude concernant leurs valeurs réelles. Les vérifications diagnostiques sur les données imputées permettent de s’assurer de la plausibilité des imputations.

Les imputations pour bmi sont obtenues en exécutant le code suivant :

imp$imp$bmi

      1    2    3    4    5
1  27.2 27.2 29.6 27.4 20.4
3  27.2 27.2 29.6 35.3 27.2
4  24.9 25.5 25.5 20.4 22.0
6  21.7 21.7 20.4 27.4 25.5
10 22.5 22.5 22.5 33.2 26.3
11 29.6 27.2 27.2 35.3 33.2
12 22.0 25.5 27.2 30.1 28.7
16 35.3 27.2 35.3 29.6 27.2
21 28.7 25.5 22.5 33.2 20.4

Chaque ligne correspond à une entrée manquante dans bmi. Les colonnes contiennent les différentes imputations multiples. En d’autres termes, chaque ligne représente une valeur manquante et chaque colonne correspond à un niveau d’imputation différent.

Malheureusement, les résultats diffèrent de ceux rapportés dans l’article, ce qui peut compromettre la reproductibilité des analyses, même avec une graine de génération aléatoire identique. Une explication possible réside dans les variations de version du package mice, ce qui nécessitera une investigation approfondie. En effet, l’article présente les résultats suivants pour les imputations de bmi :

Imputations de bmi obtenues dans l’article ”

Le jeu de données complet combine les valeurs observées et imputées. Le premier jeu de données complet peut être obtenu comme suit en R :

imp%>%complete()

   age  bmi hyp chl
1    1 27.2   1 238
2    2 22.7   1 187
3    1 27.2   1 187
4    3 24.9   1 184
5    1 20.4   1 113
6    3 21.7   2 184
7    1 22.5   1 118
8    1 30.1   1 187
9    2 22.0   1 238
10   2 22.5   1 187
11   1 29.6   1 187
12   2 22.0   1 187
13   3 21.7   1 206
14   2 28.7   2 204
15   1 29.6   1 187
16   1 35.3   1 218
17   3 27.2   2 284
18   2 26.3   2 199
19   1 35.3   1 218
20   3 25.5   2 204
21   1 28.7   1 131
22   1 33.2   1 229
23   1 27.5   1 131
24   3 24.9   1 204
25   2 27.4   1 186

La fonction complete() extrait les cinq ensembles de données imputées de l’objet imp sous forme d’une matrice longue (empilée par ligne) avec 125 enregistrements. Les entrées manquantes dans nhanes ont maintenant été remplies par les valeurs de la première (sur cinq) imputation. Le deuxième jeu de données complet peut être obtenu en utilisant complete(imp, 2). Pour les données observées, il est identique au premier jeu de données complet, mais il peut différer dans les données imputées.

Voici une version améliorée du paragraphe :

“A ce niveau de l’article, à la page 12, les auteurs indiquent qu’ils utilisent mice dans sa version 2.9. J’ai donc consulté la version utilisée ici :

# Affichez la version de MICE
packageVersion("mice")

[1] '3.16.0'

Nous avons peut-être enfin trouvé l’explication de la différence des résultats. La matrice visualisée précédemment sous le nom de ‘Matrix Predictor’ semblait correcte dans la version plus ancienne du package mice (2.9). Cependant, il semblerait que j’utilise actuellement la version plus récente (3.16.0). Cette disparité de résultats pourrait être attribuée à la différence de version, avec l’article utilisant la version plus ancienne de mice. Les nouvelles versions de packages peuvent apporter des changements dans les algorithmes de traitement des données, ce qui peut influencer les résultats obtenus, même avec les mêmes paramètres. Pour mieux comprendre l’impact de cette différence de version, nous pourrions envisager de comparer les résultats obtenus avec la version plus ancienne de mice. Cependant, nous devons rester attentifs aux changements de comportement entre les versions pour éviter toute incompatibilité.

Il est souvent utile d’inspecter les distributions des données originales et imputées. Une façon de le faire est d’utiliser la fonction stripplot() dans mice 3.16.0, une version adaptée de la même fonction dans le package lattice. Le stripplot est créé comme suit en R :

library(lattice)
stripplot(imp, pch = 20, cex = 1.2)

La figure montre les distributions des quatre variables sous forme de points individuels, répartis en six niveaux. Au niveau 0, seuls les points bleus correspondent aux données observées initiales, ce qui explique pourquoi il peut y avoir moins de points par rapport aux autres niveaux d’itération. Aux niveaux d’itération 1 à 5, chaque niveau représente une itération de l’imputation avec 25 points en raison de l’imputation complète des données. Les vraies observations sont représentées en bleu, tandis que les données imputées sont en rouge.

Une conclusion de l’analyse suggère que les données imputées suivent raisonnablement bien les données observées, conformément aux résultats rapportés dans l’article. Cependant, il est important de considérer certaines réserves dans cette conclusion. Par exemple, dans le cas du cholestérol, il est possible que certains individus choisissent de ne pas déclarer leur taux de cholestérol, ce qui pourrait entraîner des lacunes dans les données observées. Ainsi, la cohérence entre les données imputées et observées peut être influencée par des facteurs tels que les motifs de non-déclaration des données.”

Cependant, malgré les conclusions de l’article, je souhaite exprimer certains doutes et réserves. Il est important de reconnaître que la cohérence entre les données imputées et observées peut être affectée par des facteurs tels que les motifs de non-déclaration des données. Par exemple, dans le cas hypothétique où certains individus ne déclareraient pas leur taux de cholestérol élevé, cela créerait des lacunes dans les données observées. Ces lacunes pourraient affecter la qualité de l’imputation des données, car les données manquantes ne seraient pas représentées de manière adéquate. Par conséquent, il est crucial de maintenir une approche critique et de reconnaître les limites inhérentes à l’imputation des données. En signalant ces réserves, nous visons à promouvoir une interprétation plus nuancée des résultats et à encourager une réflexion approfondie sur les implications des conclusions tirées à partir des données.

Le graphique de dispersion des variables chl (cholestérol) et bmi (indice de masse corporelle) pour chaque jeu de données imputées est créé avec le code suivant en R :

xyplot(imp, bmi ~ chl | .imp, pch = 20, cex = 1.4)

Dans ce graphique, le chl est représenté en fonction du bmi pour chaque panel, correspondant à un jeu de données imputées différent, identifié par le numéro d’imputation. Les points rouges représentent les imputations, tandis que les points bleus représentent les données observées, qui restent les mêmes à travers tous les panels. La similarité de forme entre les points rouges et les données bleues suggère que les imputations pourraient être des mesures plausibles si elles n’avaient pas été manquantes. Les différences entre les points rouges reflètent notre incertitude quant aux valeurs réelles mais inconnues. Ce graphique permet de comparer la relation entre chl et bmi pour les données observées et imputées, fournissant ainsi un aperçu visuel de la qualité des imputations réalisées.

Analyse des données imputées

Supposons que l’analyse des données complètes d’intérêt soit une régression linéaire de chl sur l’âge et le bmi. À cette fin, nous pouvons utiliser la fonction with.mids(), une fonction qui applique le modèle de données complet à chacun des ensembles de données imputées :

fit <- with(imp, lm(chl ~ age + bmi)) 
fit

call :
with.mids(data = imp, expr = lm(chl ~ age + bmi))

call1 :
mice(data = nhanes, seed = 23109)

nmis :
age bmi hyp chl 
  0   9   8  10 

analyses :
[[1]]

Call:
lm(formula = chl ~ age + bmi)

Coefficients:
(Intercept)          age          bmi  
     -16.36        30.96         5.79  


[[2]]

Call:
lm(formula = chl ~ age + bmi)

Coefficients:
(Intercept)          age          bmi  
    -31.892       23.383        6.983  


[[3]]

Call:
lm(formula = chl ~ age + bmi)

Coefficients:
(Intercept)          age          bmi  
      6.640       32.603        4.766  


[[4]]

Call:
lm(formula = chl ~ age + bmi)

Coefficients:
(Intercept)          age          bmi  
      15.05        31.52         4.54  


[[5]]

Call:
lm(formula = chl ~ age + bmi)

Coefficients:
(Intercept)          age          bmi  
     27.662       21.769        4.837

On obtient ainsi cinq régressions.

Pour agréger les résultats des régressions linéaires ajustées sur chaque jeu de données imputées, nous allons utiliser la fonction pool() dans R. Cette fonction permet de combiner les estimations des coefficients du modèle obtenues à partir de chaque jeu de données imputées, fournissant ainsi une estimation agrégée robuste. Voici les lignes de code pour exécuter cette étape :

# Combinez les résultats des régressions imputées
fit%>%pool()%>%print()

Class: mipo    m = 5 
         term m   estimate       ubar          b           t dfcom       df
1 (Intercept) 5  0.2189968 3282.24819 580.093104 3978.359911    22 14.80613
2         age 5 28.0471913   82.33144  25.620278  113.075773    22 11.58238
3         bmi 5  5.3831348    3.28861   1.028738    4.523096    22 11.55051
        riv    lambda       fmi
1 0.2120838 0.1749745 0.2676421
2 0.3734215 0.2718914 0.3717528
3 0.3753822 0.2729294 0.3728669

En exécutant ces lignes de code, nous obtiendrons une estimation consolidée des coefficients du modèle de régression linéaire, basée sur l’ensemble des données imputées. Cette approche nous permettra d’obtenir des conclusions robustes malgré la présence de données manquantes.

Un résultat plus détaillé peut être obtenu, comme d’habitude, avec la fonction summary(), c’est-à-dire :

pool(fit)

Class: mipo    m = 5 
         term m   estimate       ubar          b           t dfcom       df
1 (Intercept) 5  0.2189968 3282.24819 580.093104 3978.359911    22 14.80613
2         age 5 28.0471913   82.33144  25.620278  113.075773    22 11.58238
3         bmi 5  5.3831348    3.28861   1.028738    4.523096    22 11.55051
        riv    lambda       fmi
1 0.2120838 0.1749745 0.2676421
2 0.3734215 0.2718914 0.3717528
3 0.3753822 0.2729294 0.3728669

Après avoir effectué plusieurs imputations, nous constatons un effet significatif de bmi. La colonne fmi contient la fraction d’information manquante, telle que définie par Rubin (1987), tandis que la colonne lambda représente la proportion de la variance totale attribuable aux données manquantes.

La Fraction d’Information Manquante (fmi) est une mesure utilisée pour évaluer la qualité de l’imputation des données manquantes. Elle indique la proportion de l’information initiale qui est perdue en raison des données manquantes après l’imputation. Une FMI proche de zéro indique une imputation efficace, tandis qu’une valeur plus élevée suggère une perte d’information plus importante.

# Sélectionner uniquement les colonnes numériques dans le cadre de données
numeric_summary <- summary(pool(fit))[sapply(summary(pool(fit)), is.numeric)]

# Appliquer la fonction round
rounded_summary <- round(numeric_summary, 2)

# Afficher le résultat
print(rounded_summary)

  estimate std.error statistic    df p.value
1     0.22     63.07      0.00 14.81    1.00
2    28.05     10.63      2.64 11.58    0.02
3     5.38      2.13      2.53 11.55    0.03

Après avoir effectué l’imputation des données manquantes, il est crucial que les procédures d’analyse ultérieures tiennent compte de ces imputations pour calculer précisément la qualité des paramètres estimés. Que ce soit dans le cadre d’une régression ou d’une autre analyse statistique, il est nécessaire d’informer le modèle que les données sont issues d’une imputation, afin qu’il puisse ajuster ses calculs en conséquence, notamment en ce qui concerne les estimations de variance associées. Cela garantit que les résultats obtenus reflètent au mieux la réalité des données, malgré les valeurs manquantes.

References

Schafer, Joseph L. 1997. Analysis of Incomplete Multivariate Data. London: Chapman; Hall.

Van Buuren, Stef. 2018. Flexible Imputation of Missing Data. CRC Press. https://stefvanbuuren.name/fimd/.

Van Buuren, Stef, and Karin Groothuis-Oudshoorn. 2011. “mice: Multivariate Imputation by Chained Equations in R.” Journal of Statistical Software 45 (3).