Aula de Estatística Bivariada em Saúde e Nutrição

Author

Marcelo Ribeiro

Published

Invalid Date

library(dplyr)

Introdução

Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.

Conjunto de dados

Running Code

When you click the Render button a document will be generated that includes both content and the output of embedded code. You can embed code like this:

# Definindo semente para reprodutibilidade
set.seed(123)

# Criando conjunto de dados simulado
n <- 150
dados <- data.frame(
  Idade = round(rnorm(n, mean = 40, sd = 15)),
  IMC = round(rnorm(n, mean = 25, sd = 4), 1),
  Atividade_Fisica = factor(sample(c("Baixa", "Moderada", "Alta"), n, replace = TRUE)),
  Fumante = factor(sample(c("Sim", "Não"), n, replace = TRUE)),
  Colesterol = round(rnorm(n, mean = 200, sd = 30)),
  Pressão_Arterial = round(rnorm(n, mean = 120, sd = 15))
)

# Visualizando as primeiras linhas do conjunto de dados
head(dados)
  Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1    32 28.2         Moderada     Sim        170              120
2    37 28.1            Baixa     Não        149               74
3    63 26.3             Alta     Não        253              137
4    41 21.0             Alta     Sim        154              110
5    42 24.5             Alta     Sim        194              123
6    66 23.9         Moderada     Sim        196              124

Relação entre Variáveis Qualitativas e Quantitativas

Exemplo: Relação entre Atividade Física e IMC

Para investigar a relação entre uma variável qualitativa (Atividade_Fisica) e uma quantitativa (IMC), podemos calcular estatísticas descritivas de IMC para cada nível de Atividade_Física.

# Estatísticas descritivas do IMC por nível de Atividade Física
library(dplyr)
dados %>%
  group_by(Atividade_Fisica) %>%
  summarise(
    Média_IMC = mean(IMC),
    Mediana_IMC = median(IMC),
    Desvio_Padrão_IMC = sd(IMC)
  )
# A tibble: 3 × 4
  Atividade_Fisica Média_IMC Mediana_IMC Desvio_Padrão_IMC
  <fct>                <dbl>       <dbl>             <dbl>
1 Alta                  24.7        24.1              3.68
2 Baixa                 26.0        25.5              3.76
3 Moderada              25.5        25.3              3.81

The echo: false option disables the printing of code (only output is displayed).

Além disso, podemos visualizar essas relações usando um gráfico de boxplot.

Gráfico de boxplot para IMC por nível de Atividade Física

# Gráfico de boxplot para IMC por nível de Atividade Física
library(ggplot2)

ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica)) +
  geom_boxplot() +
  labs(title = "Boxplot de IMC por Nível de Atividade Física",
       x = "Nível de Atividade Física",
       y = "IMC") +
  theme_minimal()

Gráfico 1: Boxplot de IMC por Nível de Atividade Física

Interpretação:

O gráfico de boxplot exibe a distribuição do Índice de Massa Corporal (IMC) para cada nível de atividade física (“Baixa”, “Moderada”, “Alta”). Ele mostra os seguintes pontos principais:

  • Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.

    • Os indivíduos com atividade física alta tendem a ter um IMC mediano um pouco menor do que aqueles com atividade física moderada e baixa.
  • Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.

    • atividade física baixa apresenta uma maior variação no IMC, sugerindo que pessoas com atividade física baixa têm IMCs mais variados, enquanto a atividade física alta tem a menor dispersão.
  • Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito acima ou abaixo do esperado para cada grupo.

    • Alguns outliers são visíveis no grupo de atividade física baixa, indicando a presença de indivíduos com IMC muito altos neste grupo.

Conclusão: Há uma leve tendência de que, conforme aumenta o nível de atividade física, o IMC tende a diminuir, mas há também variações consideráveis dentro de cada grupo.

Gráfico 4: Boxplot de Pressão Arterial por Atividade Física (não incluído no código original, mas sugerido como exemplo)

Interpretação:

Se esse gráfico fosse gerado, ele mostraria a distribuição da pressão arterial em função do nível de atividade física. Esperamos que:

  • Indivíduos com maior atividade física tenham uma pressão arterial média menor.

  • A variação na pressão arterial dentro de cada grupo pode indicar como o nível de atividade física impacta a saúde cardiovascular.

Essa análise poderia ajudar a reforçar a importância da atividade física para a regulação da pressão arterial.

Relação entre Variáveis Qualitativa e Qualitativa

Exemplo: Relação entre Fumar e Atividade Física

Para investigar a relação entre duas variáveis qualitativas, podemos usar uma tabela de contingência entre as variáveis Fumante e Atividade_Física.

# Tabela de contingência entre Fumar e Atividade Física
tabela_contingencia <- table(dados$Fumante, dados$Atividade_Fisica)
tabela_contingencia
     
      Alta Baixa Moderada
  Não   26    24       21
  Sim   26    23       30

Tabela de Contingência - Relação entre Fumar e Atividade Física

Interpretação:

A tabela de contingência fornece a contagem de fumantes e não fumantes dentro de cada nível de atividade física. A partir dessa tabela, podemos observar:

  • Atividade Física Alta: Parece ter uma proporção menor de fumantes comparado aos níveis de atividade física moderada e baixa.

  • Atividade Física Baixa: Apresenta uma maior proporção de fumantes em relação à atividade física alta.

Essas observações podem indicar uma possível associação entre fumar e o nível de atividade física. Indivíduos com alta atividade física tendem a fumar menos.

Podemos testar a associação entre essas variáveis com o teste do qui-quadrado.

Hipóteses e Pressuposições para o Teste Qui-Quadrado

Nesta seção, descrevemos as hipóteses e as pressuposições envolvidas no teste qui-quadrado, aplicado para investigar a associação entre as variáveis “Fumar” e “Atividade Física”.

Hipóteses do Teste Qui-Quadrado

O teste qui-quadrado é utilizado para verificar se há uma associação entre duas variáveis qualitativas. No caso deste estudo, estamos interessados em avaliar a relação entre ser fumante e o nível de atividade física.

  • Hipótese Nula (H₀): As variáveis “Fumar” e “Atividade Física” são independentes, ou seja, a proporção de fumantes não difere entre os diferentes níveis de atividade física.

    [ H_0: \text{As variáveis Fumar e Atividade Física são independentes.} ]
  • [ H_0: ]

  • Hipótese Alternativa (H₁): As variáveis “Fumar” e “Atividade Física” não são independentes, ou seja, a proporção de fumantes varia conforme o nível de atividade física.

    [ H_1: ]

Pressuposições do Teste Qui-Quadrado

O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:

  1. Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.

  2. Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.

  3. Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.

  4. Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.

Interpretação dos Resultados

Após realizar o teste qui-quadrado, avaliamos o valor-p obtido:

  • Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula, o que indica que existe uma associação significativa entre “Fumar” e “Atividade Física”.
  • Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, ou seja, não temos evidências suficientes para concluir que as variáveis são dependentes.

Essas hipóteses e pressuposições são essenciais para realizar o teste qui-quadrado de forma correta e interpretar seus resultados adequadamente.

# Teste do Qui-Quadrado para verificar associação entre Fumar e Atividade Física
teste_qui <- chisq.test(tabela_contingencia)
teste_qui

    Pearson's Chi-squared test

data:  tabela_contingencia
X-squared = 1.1862, df = 2, p-value = 0.5526

Teste Qui-Quadrado: O teste qui-quadrado pode confirmar se essa relação é estatisticamente significativa.

Relação entre Variáveis Quantitativas

Hipóteses e Pressuposições para a Correlação de Pearson

Nesta seção, descrevemos as hipóteses e pressuposições para a aplicação da correlação de Pearson, que é usada para medir a relação linear entre duas variáveis quantitativas. No exemplo, investigamos a relação entre as variáveis “Colesterol” e “Pressão Arterial”.

Hipóteses da Correlação de Pearson

A correlação de Pearson avalia a força e a direção da relação linear entre duas variáveis contínuas. Suas hipóteses são definidas da seguinte maneira:

  • Hipótese Nula (H₀): Não existe correlação linear entre as duas variáveis; o coeficiente de correlação populacional é igual a zero.

    [ H_0: = 0 ]

    Onde ( ) é o coeficiente de correlação populacional.

  • Hipótese Alternativa (H₁): Existe uma correlação linear entre as duas variáveis; o coeficiente de correlação populacional é diferente de zero.

    [ H_1: ]

Pressuposições da Correlação de Pearson

Para que a correlação de Pearson seja aplicada corretamente, as seguintes pressuposições devem ser atendidas:

  1. Linearidade: As duas variáveis devem apresentar uma relação linear. Isso pode ser verificado visualmente com um gráfico de dispersão. Se a relação entre as variáveis for não-linear, a correlação de Pearson não é adequada.

  2. Normalidade: As duas variáveis devem ser aproximadamente normalmente distribuídas, especialmente se o tamanho da amostra for pequeno. Essa pressuposição pode ser verificada através de testes de normalidade ou gráficos como o Q-Q plot.

  3. Homocedasticidade: A variância dos valores ao longo da linha de regressão deve ser constante, ou seja, a dispersão dos pontos deve ser similar para todos os valores das variáveis. Caso contrário, pode haver heterocedasticidade, o que viola esta pressuposição.

  4. Escala de Medição: Ambas as variáveis devem ser medidas em uma escala intervalar ou de razão.

Cálculo e Interpretação da Correlação de Pearson

O coeficiente de correlação de Pearson (( r )) varia entre -1 e 1:

  • ( r = 1 ): Correlação linear perfeita positiva.
  • ( r = -1 ): Correlação linear perfeita negativa.
  • ( r = 0 ): Nenhuma correlação linear.

Após calcular a correlação, o valor-p associado ao teste pode ser utilizado para verificar a significância estatística:

  • Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula e concluímos que existe uma correlação linear significativa entre as duas variáveis.
  • Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, o que indica que não há evidências suficientes de uma correlação linear significativa entre as variáveis.

Interpretação dos Resultados

A magnitude e a direção da correlação são determinadas pelo valor de ( r ):

  • Correlação forte: Quando ( r ) está próximo de -1 ou 1, indicando uma forte relação linear.

  • Correlação fraca: Quando ( r ) está próximo de 0, indicando uma fraca ou inexistente relação linear.

  • Significado do sinal: Se ( r ) for positivo, a relação entre as variáveis é direta (aumento de uma variável corresponde ao aumento da outra). Se ( r ) for negativo, a relação é inversa (aumento de uma variável corresponde à diminuição da outra).

    Essas hipóteses e pressuposições são fundamentais para realizar a análise de correlação de Pearson corretamente e interpretar seus resultados de forma adequada.

Três Tipos de Relação Linear

Neste exemplo, apresentamos três tipos de relação linear: Correlação PositivaCorrelação Negativa e Ausência de Correlação. Abaixo, as figuras são exibidas lado a lado para facilitar a visualização.

Exemplo: Correlação entre Colesterol e Pressão Arterial

Para variáveis quantitativas, como Colesterol e Pressão_Arterial, podemos calcular a correlação de Pearson para verificar a força e a direção da relação linear entre elas.

# Correlação de Pearson entre Colesterol e Pressão Arterial
correlacao <- cor(dados$Colesterol, dados$Pressão_Arterial)
correlacao
[1] 0.09856814
ggplot(dados, aes(x = Colesterol, y = Pressão_Arterial)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Gráfico de Dispersão: Colesterol vs Pressão Arterial",
       x = "Colesterol",
       y = "Pressão Arterial") +
  theme_minimal()

Gráfico de Dispersão - Colesterol vs Pressão Arterial

Interpretação:

O gráfico de dispersão mostra a relação entre os níveis de colesterol e a pressão arterial dos indivíduos.

  • Tendência Positiva: O gráfico revela uma tendência de correlação positiva entre colesterol e pressão arterial. Isso significa que, conforme o nível de colesterol aumenta, a pressão arterial também tende a aumentar.

  • Linha de Tendência: A linha de tendência ajustada confirma essa relação linear, indicando que a associação entre as variáveis é aproximadamente linear.

  • Dispersão dos Pontos: Embora haja uma correlação positiva, também é possível ver uma dispersão considerável dos pontos, sugerindo que outros fatores podem estar influenciando a relação entre colesterol e pressão arterial

## Três Tipos de Relação Linear 

Neste exemplo, apresentamos três tipos de relação linear: **Correlação Positiva**, **Correlação Negativa** e **Ausência de Correlação**. Abaixo, as figuras são exibidas lado a lado para facilitar a visualização. ### Geração das Figuras no R

Conclusão

Neste relatório, exploramos a relação entre diferentes tipos de variáveis (qualitativas e quantitativas) utilizando medidas descritivas, gráficos e testes estatísticos. Essas técnicas são essenciais para compreender os fatores que influenciam a saúde e a nutrição dos indivíduos.

Conclusão Geral

A partir dos gráficos gerados, podemos concluir:

  • Atividade Física e IMC: Há uma relação moderada entre o nível de atividade física e o IMC, com tendência de IMC menor em indivíduos mais ativos.

  • Fumar e Atividade Física: Existe uma possível associação entre fumar e atividade física, com menor prevalência de fumantes entre os indivíduos com alta atividade física.

  • Colesterol e Pressão Arterial: Observa-se uma correlação positiva entre colesterol e pressão arterial, sugerindo que níveis mais altos de colesterol estão associados a uma maior pressão arterial.

Essas análises destacam a importância da atividade física na saúde geral, especialmente em relação ao controle de peso, hábitos prejudiciais (como fumar) e saúde cardiovascular.

Referências

  1. Pagano, M., & Gauvreau, K. (2018). Princípios de Bioestatística. Cengage Learning.

  2. Rosner, B. (2015). Fundamentals of Biostatistics. Cengage Learning.