A base foi inicialmente explorada para verificar sua consistência e informações sobre codificação. Esse processo sempre se inicia listando todas as variáveis que a base possui.
## [1] "acq_6_pre" "acq6_6meses"
## [3] "acq6_pos" "cat_hada_6meses"
## [5] "cat_hada_pos" "cat_hadd_6meses"
## [7] "cat_hadd_pos" "categ_acq_pre_6meses"
## [9] "categ_acq_pre_pos" "categ_aqlq_pre_6meses"
## [11] "categ_aqlq_pre_pos" "cvf_percent_pos"
## [13] "cvf_percent_pre" "delta_acq_3meses"
## [15] "delta_acq_6meses" "delta_aqlq_3meses"
## [17] "delta_aqlq_6meses" "delta_eos_sp"
## [19] "delta_hada_6mese" "delta_hada_pos"
## [21] "delta_hadd_6mese" "delta_hadd_pos"
## [23] "delta_swt" "ds_120_dias"
## [25] "ds_30_dias" "ds_60_dias"
## [27] "ds_90_dias" "eos_pos_sp"
## [29] "eos_pre_sp" "escore_total_pos"
## [31] "escore_total_pos_2" "escore_total_pre"
## [33] "est_amb_6meses" "est_amb_pos"
## [35] "est_amb_pre" "estatura"
## [37] "fun_emoc_6meses" "fun_emoc_pos"
## [39] "fun_emoc_pre" "grupo"
## [41] "had_ans_6mese" "had_ans_pos"
## [43] "had_ans_pre" "had_dep_6meses"
## [45] "had_dep_pos" "had_dep_pre"
## [47] "id" "idade"
## [49] "imc" "kcal_pos"
## [51] "kcal_pre" "lim_ativ_6meses"
## [53] "lim_ativ_pos" "lim_ativ_pre"
## [55] "participant_name" "passos_pos"
## [57] "passos_pre" "pef_pos"
## [59] "pef_pre" "peso_pos"
## [61] "peso_pre" "pw_pos"
## [63] "pw_pre" "sexo"
## [65] "sintomas_6meses" "sintomas_pos"
## [67] "sintomas_pre" "swt_pos"
## [69] "swt_pre" "vef_1_percent_pos"
## [71] "vef1_cvf_pos" "vef1_cvf_pre"
## [73] "vef1_percent_pre" "x73"
## [75] "x74" "x75"
## [77] "x76" "x77"
## [79] "x78" "x79"
## [81] "x80" "x81"
## [83] "x82" "x83"
Três aspectos são fundamentais em qualquer conjunto de dados, que são: comunicabilidade dos nomes das variáveis, confiabilidade e consistência dos dados. A primeira refere-se à nomeação das variáveis, a segunda refere-se às garantias que o processo de coleta foi adequado e a terceira refere-se à condição de análise dos dados. Empiricamente, é possível verificar mais diretamente à consistência da base a partir de técnicas gráficas, tabulares e analíticas.
O nome de algumas variáveis foram alterados para possibilitar melhor comunicação entre os pares e um indexador para cada participante foi realizado. Sem esse indexador, futuramente não será possível transformar os dados do formato largo (como está agora) para o formato longo.
Para resumir o processo de conferência dos dados, apenas as variáveis focais foram preservadas para análise. Abaixo a listagem.
Os casos ausentes foram explorados para verificar as três condições básicas destes casos: 1. Se eles são, de fato, casos ausentes, 2. Se o perfil de aleatoriedade foi preservado e 3. Se a proporção impõe a realização de técnicas, sejam elas simples ou múltiplas.
Por acreditar que o grupo é uma variável fundamental nessa pesquisa e que casos ausentes não possibilitam substituição, os dados utilizados para análises subsequentes irão considerar apenas os valores preenchidos à variável grupo.
No mesmo sentido, se as todas as medidas posteriores realizadas nas variáveis utilizadas ("had_ans_pre", "had_ans_pos", "had_ans_6mese","had_dep_pre", "had_dep_pos", "had_dep_6meses","acq_6_pre", "acq6_pos", "acq6_6meses"), também considerar-se-á que os dados não ausentes, mas perda amostral.
## # A tibble: 0 x 23
## # ... with 23 variables: id <int>, grupo <dbl>, sexo <dbl>, idade <dbl>,
## # had_ans_pre <dbl>, had_ans_pos <dbl>, had_ans_6mese <dbl>,
## # had_dep_pre <dbl>, had_dep_pos <dbl>, had_dep_6meses <dbl>,
## # acq_6_pre <dbl>, acq6_pos <dbl>, acq6_6meses <dbl>, kcal_pre <dbl>,
## # kcal_pos <dbl>, peso_pre <dbl>, peso_pos <dbl>,
## # had_ans_pre_complete <dbl>, had_ans_pos_complete <dbl>,
## # had_ans_6mese_complete <dbl>, had_dep_pre_complete <dbl>,
## # had_dep_pos_complete <dbl>, had_dep_6meses_complete <dbl>
Os participantes 21,27,28,29,31 e 53 apresentaram esta condição para os resultados da escala de ansiedade.
Igualmente, também apresentam esta condição para os resultados da escala de depressão os participantes 21,27,28,29,31 e 53. Antes de continuar, desconsiderou das análises tais participantes.
## # A tibble: 0 x 23
## # ... with 23 variables: id <int>, grupo <dbl>, sexo <dbl>, idade <dbl>,
## # had_ans_pre <dbl>, had_ans_pos <dbl>, had_ans_6mese <dbl>,
## # had_dep_pre <dbl>, had_dep_pos <dbl>, had_dep_6meses <dbl>,
## # acq_6_pre <dbl>, acq6_pos <dbl>, acq6_6meses <dbl>, kcal_pre <dbl>,
## # kcal_pos <dbl>, peso_pre <dbl>, peso_pos <dbl>,
## # had_ans_pre_complete <dbl>, had_ans_pos_complete <dbl>,
## # had_ans_6mese_complete <dbl>, had_dep_pre_complete <dbl>,
## # had_dep_pos_complete <dbl>, had_dep_6meses_complete <dbl>
Para checar os dados na escala de ansiedade:
## # A tibble: 0 x 23
## # ... with 23 variables: id <int>, grupo <dbl>, sexo <dbl>, idade <dbl>,
## # had_ans_pre <dbl>, had_ans_pos <dbl>, had_ans_6mese <dbl>,
## # had_dep_pre <dbl>, had_dep_pos <dbl>, had_dep_6meses <dbl>,
## # acq_6_pre <dbl>, acq6_pos <dbl>, acq6_6meses <dbl>, kcal_pre <dbl>,
## # kcal_pos <dbl>, peso_pre <dbl>, peso_pos <dbl>,
## # had_ans_pre_complete <dbl>, had_ans_pos_complete <dbl>,
## # had_ans_6mese_complete <dbl>, had_dep_pre_complete <dbl>,
## # had_dep_pos_complete <dbl>, had_dep_6meses_complete <dbl>
Para checar os dados na escala de depressão:
## # A tibble: 0 x 23
## # ... with 23 variables: id <int>, grupo <dbl>, sexo <dbl>, idade <dbl>,
## # had_ans_pre <dbl>, had_ans_pos <dbl>, had_ans_6mese <dbl>,
## # had_dep_pre <dbl>, had_dep_pos <dbl>, had_dep_6meses <dbl>,
## # acq_6_pre <dbl>, acq6_pos <dbl>, acq6_6meses <dbl>, kcal_pre <dbl>,
## # kcal_pos <dbl>, peso_pre <dbl>, peso_pos <dbl>,
## # had_ans_pre_complete <dbl>, had_ans_pos_complete <dbl>,
## # had_ans_6mese_complete <dbl>, had_dep_pre_complete <dbl>,
## # had_dep_pos_complete <dbl>, had_dep_6meses_complete <dbl>
Com isso feito, 25 participantes ficaram no grupo 0 e 25 no grupo 1, como expresso abaixo:
## # A tibble: 2 x 2
## grupo n
## <dbl> <int>
## 1 0 25
## 2 1 21
Agora, os casos ausentes podem ser investigados e, se necessário, técnicas de imputação podem ser utilizadas. No que diz respeito aos resultados da Escala de Ansiedade, O gráfico abaixo apresenta a proporção de missing e o quanto essa quantidade pode gerar problemas:
Por sua vez, o gráfico abaixo identificou dois padrões de missings. No entanto, uma vez que os resultados das escalas já foram computados (pela soma dos itens), não é possível investigar adequadamente se isso é um padrão Not-MCAR.
## had_ans_pre had_ans_pos had_ans_6mese
## 33 1 1 1 0
## 13 1 1 0 1
## 0 0 13 13
A imputação dos valores ausentes foi realizada considerando a técnica Predictive Mean Matching. Há outras opções, mas essa tem boa aceitação no meio estatístico.
O sumário descreve o processo.
Para possibilitar comparações futuras, uma nova base será temporariamente criada para armazenar a base completa que, posteriormente, terá os resultados inseridos na base de trabalho.
Feito isso, o mesmo procedimento será realizado para os resultados da Escala de Depressão. Desta maneira, abaixo o gráfico com a proporção de valores ausentes:
[Aqui omitirei a análise dos padrões]
A base completa será integrada à base de uso:
Para melhor interface de programação, é necessário limpar os vetores não utilizados.
Frequentemente, se analisa se a imputação dos casos ausentes teve impacto significativo nas análises. Isso pode ser feito graficamente ou via teste de significância de hipótese nula. Nesse relatório, apenas os resultados da Escala de Ansiedade serão comparados.
Abaixo o boxplot com os resultados originais e os imputados da Escala de Ansiedade no momento inicial da pesquisa.
O teste T também não permite rejeitar a hipótese nula de diferença. Atenção: a comparação foi feita considerando amostras independentes, uma vez que o T pareado (logicamente o que deveria ser utilizado) trabalha com dados pareados e, portanto, daria resultado inf.
##
## Welch Two Sample t-test
##
## data: dados_analisar$had_ans_pre and dados_analisar$had_ans_pre_complete
## t = 0, df = 90, p-value = 1
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.8 1.8
## sample estimates:
## mean of x mean of y
## 8.7 8.7
Abaixo a comparação da Escala de Ansiedade no momento pos.
A diferença também não foi significativa.
##
## Welch Two Sample t-test
##
## data: dados_analisar$had_ans_pos and dados_analisar$had_ans_pos_complete
## t = 0, df = 90, p-value = 1
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.6 1.6
## sample estimates:
## mean of x mean of y
## 7.5 7.5
Abaixo o resultado 6 meses após.
##
## Welch Two Sample t-test
##
## data: dados_analisar$had_ans_6mese and dados_analisar$had_ans_6mese_complete
## t = 0.4, df = 70, p-value = 0.7
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.3 2.0
## sample estimates:
## mean of x mean of y
## 7.9 7.6