NUT105 - AULA ESTATISTICA BIVARIADA

Author

GABRIEL, MARIA FERNANDA, HANA, LAYANA, CAMILA

Published

Invalid Date

Code
library(rmarkdown)
library(ggplot2)
library(dplyr)

Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':

    filter, lag
Os seguintes objetos são mascarados por 'package:base':

    intersect, setdiff, setequal, union
Code
library(plotly)

Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':

    last_plot
O seguinte objeto é mascarado por 'package:stats':

    filter
O seguinte objeto é mascarado por 'package:graphics':

    layout

Introdução

Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.

Criando Banco de Dados - Grupo 3 (Seed 1233)

Code
# Definindo semente para reprodutibilidade
set.seed(1233)

# Criando conjunto de dados simulado
n <- 150
dados <- data.frame(
  Idade = round(rnorm(n, mean = 40, sd = 15)),
  IMC = round(rnorm(n, mean = 25, sd = 4), 1),
  Atividade_Fisica = factor(sample(c("Baixa", "Moderada", "Alta"), n, replace = TRUE)),
  Fumante = factor(sample(c("Sim", "Não"), n, replace = TRUE)),
  Colesterol = round(rnorm(n, mean = 200, sd = 30)),
  Pressão_Arterial = round(rnorm(n, mean = 120, sd = 15))
)

# Visualizando as primeiras linhas do conjunto de dados
head(dados)
  Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1    47 23.3         Moderada     Não        168              118
2    31 23.6         Moderada     Não        213               93
3    39 18.3         Moderada     Não        207              112
4    17 32.6         Moderada     Não        162               89
5    37 21.8         Moderada     Sim        197              109
6    15 29.0             Alta     Não        209              104

Relação entre Variáveis Qualitativas e Quantitativas

Exemplo: Relação entre Atividade Física e IMC

Para investigar a relação entre uma variável qualitativa (Atividade_Fisica) e uma quantitativa (IMC), podemos calcular estatísticas descritivas de IMC para cada nível de Atividade_Física.

Code
# Estatísticas descritivas do IMC por nível de Atividade Física
library(dplyr)
dados %>%
  group_by(Atividade_Fisica) %>%
  summarise(
    Média_IMC = mean(IMC),
    Mediana_IMC = median(IMC),
    Desvio_Padrão_IMC = sd(IMC)
  )
# A tibble: 3 × 4
  Atividade_Fisica Média_IMC Mediana_IMC Desvio_Padrão_IMC
  <fct>                <dbl>       <dbl>             <dbl>
1 Alta                  25.2        25.1              3.97
2 Baixa                 25.0        24.8              3.19
3 Moderada              25.2        25.1              4.56

Exemplo: Relação entre Tabagismo e Colesterol

Code
# Estatísticas descritivas do IMC por tabagismo
library(dplyr)
dados %>%
  group_by(Fumante) %>%
  summarise(
    Média_Colesterol = mean(Colesterol),
    Mediana_Colesterol = median(Colesterol),
    Desvio_Padrão_Colesterol = sd(Colesterol)
  )
# A tibble: 2 × 4
  Fumante Média_Colesterol Mediana_Colesterol Desvio_Padrão_Colesterol
  <fct>              <dbl>              <dbl>                    <dbl>
1 Não                 204.                204                     28.5
2 Sim                 200.                197                     25.6

Gráfico de boxplot para IMC por nível de Atividade Física

Code
# Gráfico de boxplot para IMC por nível de Atividade Física
library(ggplot2)

p<-ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica)) +
  geom_boxplot() +
  labs(title = "Boxplot de IMC por Nível de Atividade Física",
       x = "Nível de Atividade Física",
       y = "IMC") +
  theme_minimal()
p1<-ggplotly(p)
p1

Gráfico 1: Boxplot de IMC por Nível de Atividade Física

Interpretação:

O gráfico de boxplot exibe a distribuição do Índice de Massa Corporal (IMC) para cada nível de atividade física (“Baixa”, “Moderada”, “Alta”). Ele mostra os seguintes pontos principais:

  • Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.

    • Os indivíduos com atividade física alta e atividade física moderada tem mediana maior do que individuos com atividade fisica baixa
  • Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.

    • atividade física moderada apresenta uma maior variação no IMC, sugerindo que pessoas com atividade física moderada têm IMCs mais variados, enquanto a atividade física baixa tem a menor dispersão.
  • Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito acima ou abaixo do esperado para cada grupo.

    • Alguns outliers são visíveis no grupo de atividade física moderada e alta, indicando a presença de indivíduos com IMC muito altos nestes grupos.

Conclusão: Há uma tendência de que, conforme aumenta o nível de atividade física, maior a variação do IMC.

Gráfico 2: Boxplot de Pressão Arterial por Atividade Física (não incluído no código original, mas sugerido como exemplo)

Code
# Gráfico de boxplot para PA por nível de Atividade Física
library(ggplot2)

ggplot(dados, aes(x = Atividade_Fisica, y = Pressão_Arterial, fill = Atividade_Fisica)) +
  geom_boxplot() +
  labs(title = "Boxplot de Pressão_Arterial por Nível de Atividade Física",
       x = "Nível de Atividade Física",
       y = "Pressão_Arterial") +
  theme_minimal()

Relação entre Variáveis Qualitativa e Qualitativa

Exemplo: Relação entre Fumar e Atividade Física

Para investigar a relação entre duas variáveis qualitativas, podemos usar uma tabela de contingência entre as variáveis Fumante e Atividade_Física.

Code
# Tabela de contingência entre Fumar e Atividade Física
tabela_contingencia <- table(dados$Fumante, dados$Atividade_Fisica)
tabela_contingencia
     
      Alta Baixa Moderada
  Não   28    22       35
  Sim   21    13       31

Tabela de Contingência - Relação entre Fumar e Atividade Física

Interpretação:

A tabela de contingência fornece a contagem de fumantes e não fumantes dentro de cada nível de atividade física. A partir dessa tabela, podemos observar:

  • Atividade Física Baixa: Parece ter uma proporção menor de fumantes (22) comparado aos níveis de atividade física moderada (35) e alta (28).

  • Atividade Física Moderada: Apresenta uma maior proporção de fumantes (31) em relação à atividade física alta (21) e baixa (13).

Essas observações podem indicar uma possível associação entre fumar e o nível de atividade física. Indivíduos com alta atividade física tendem a fumar menos.

Podemos testar a associação entre essas variáveis com o teste do qui-quadrado.

Hipóteses e Pressuposições para o Teste Qui-Quadrado

Nesta seção, descrevemos as hipóteses e as pressuposições envolvidas no teste qui-quadrado, aplicado para investigar a associação entre as variáveis “Fumar” e “Atividade Física”.

Pressuposições do Teste Qui-Quadrado

O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:

  1. Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.

  2. Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.

  3. Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.

  4. Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.

Hipóteses do Teste Qui-Quadrado

O teste qui-quadrado é utilizado para verificar se há uma associação entre duas variáveis qualitativas. No caso deste estudo, estamos interessados em avaliar a relação entre ser fumante e o nível de atividade física.

  • Hipótese Nula (H₀): As variáveis “Fumar” e “Atividade Física” são independentes, ou seja, a proporção de fumantes não difere entre os diferentes níveis de atividade física.

    [ H_0: \text{Fumar e Atividade Física são independentes.} ]
  • [ H_0: ]

  • Hipótese Alternativa (H₁): As variáveis “Fumar” e “Atividade Física” não são independentes, ou seja, a proporção de fumantes varia conforme o nível de atividade física.

    [ H_1: ]

    Interpretação dos Resultados

    Após realizar o teste qui-quadrado, avaliamos o valor-p obtido:

    • Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula, o que indica que existe uma associação significativa entre “Fumar” e “Atividade Física”.

    • Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, ou seja, não temos evidências suficientes para concluir que as variáveis são dependentes.

    Essas hipóteses e pressuposições são essenciais para realizar o teste qui-quadrado de forma correta e interpretar seus resultados adequadamente.

    Code
    # Teste do Qui-Quadrado para verificar associação entre Fumar e Atividade Física
    teste_qui <- chisq.test(tabela_contingencia)
    teste_qui
    
        Pearson's Chi-squared test
    
    data:  tabela_contingencia
    X-squared = 0.90615, df = 2, p-value = 0.6357

    Teste Qui-Quadrado: O teste qui-quadrado não pode confirmar se existe uma relação de dependencia entre “fumar” e “atividade física”.

Relação entre Variáveis Quantitativas

Hipóteses e Pressuposições para a Correlação de Pearson

Nesta seção, descrevemos as hipóteses e pressuposições para a aplicação da correlação de Pearson, que é usada para medir a relação linear entre duas variáveis quantitativas. No exemplo, investigamos a relação entre as variáveis “Colesterol” e “Pressão Arterial”.

Hipóteses da Correlação de Pearson

A correlação de Pearson avalia a força e a direção da relação linear entre duas variáveis contínuas. Suas hipóteses são definidas da seguinte maneira:

  • Hipótese Nula (H₀): Não existe correlação linear entre as duas variáveis; o coeficiente de correlação populacional é igual a zero.

    [ H_0: = 0 ]

    Onde ( ) é o coeficiente de correlação populacional.

  • Hipótese Alternativa (H₁): Existe uma correlação linear entre as duas variáveis; o coeficiente de correlação populacional é diferente de zero.

    [ H_1: ]

Pressuposições da Correlação de Pearson

Para que a correlação de Pearson seja aplicada corretamente, as seguintes pressuposições devem ser atendidas:

  1. Linearidade: As duas variáveis devem apresentar uma relação linear. Isso pode ser verificado visualmente com um gráfico de dispersão. Se a relação entre as variáveis for não-linear, a correlação de Pearson não é adequada.

  2. Normalidade: As duas variáveis devem ser aproximadamente normalmente distribuídas, especialmente se o tamanho da amostra for pequeno. Essa pressuposição pode ser verificada através de testes de normalidade ou gráficos como o Q-Q plot.

  3. Homocedasticidade: A variância dos valores ao longo da linha de regressão deve ser constante, ou seja, a dispersão dos pontos deve ser similar para todos os valores das variáveis. Caso contrário, pode haver heterocedasticidade, o que viola esta pressuposição.

  4. Escala de Medição: Ambas as variáveis devem ser medidas em uma escala intervalar ou de razão.

Cálculo e Interpretação da Correlação de Pearson

O coeficiente de correlação de Pearson (( r )) varia entre -1 e 1:

  • ( r = 1 ): Correlação linear perfeita positiva.

  • ( r = -1 ): Correlação linear perfeita negativa.

  • ( r = 0 ): Nenhuma correlação linear.

Após calcular a correlação, o valor-p associado ao teste pode ser utilizado para verificar a significância estatística:

  • Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula e concluímos que existe uma correlação linear significativa entre as duas variáveis.

  • Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, o que indica que não há evidências suficientes de uma correlação linear significativa entre as variáveis.

Interpretação dos Resultados

A magnitude e a direção da correlação são determinadas pelo valor de ( r ):

  • Correlação forte: Quando ( r ) está próximo de -1 ou 1, indicando uma forte relação linear.

  • Correlação fraca: Quando ( r ) está próximo de 0, indicando uma fraca ou inexistente relação linear.

  • Significado do sinal: Se ( r ) for positivo, a relação entre as variáveis é direta (aumento de uma variável corresponde ao aumento da outra). Se ( r ) for negativo, a relação é inversa (aumento de uma variável corresponde à diminuição da outra).

    Essas hipóteses e pressuposições são fundamentais para realizar a análise de correlação de Pearson corretamente e interpretar seus resultados de forma adequada.

Três Tipos de Relação Linear

Neste exemplo, apresentamos três tipos de relação linear: Correlação PositivaCorrelação Negativa e Ausência de Correlação. Abaixo, as figuras são exibidas lado a lado para facilitar a visualização.

Exemplo: Correlação entre Colesterol e Pressão Arterial

Para variáveis quantitativas, como Colesterol e Pressão_Arterial, podemos calcular a correlação de Pearson para verificar a força e a direção da relação linear entre elas.

Code
# Correlação de Pearson entre Colesterol e Pressão Arterial
correlacao <- cor(dados$Colesterol, dados$Pressão_Arterial)
correlacao
[1] -0.1038126
Code
ggplot(dados, aes(x = Colesterol, y = Pressão_Arterial)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Gráfico de Dispersão: Colesterol vs Pressão Arterial",
       x = "Colesterol",
       y = "Pressão Arterial") +
  theme_minimal()
`geom_smooth()` using formula = 'y ~ x'

Gráfico de Dispersão - Colesterol vs Pressão Arterial

Interpretação:

O gráfico de dispersão mostra a relação entre os níveis de colesterol e a pressão arterial dos indivíduos.

  • Tendência negativa: O gráfico revela uma tendência de correlação negativa entre colesterol e pressão arterial. Isso significa que, conforme o nível de colesterol aumenta, a pressão arterial tende a diminuir.

  • Linha de Tendência: A linha de tendência ajustada confirma essa relação linear, indicando que a associação entre as variáveis é aproximadamente linear.

  • Dispersão dos Pontos: Embora haja uma correlação positiva, também é possível ver uma dispersão considerável dos pontos, sugerindo que outros fatores podem estar influenciando a relação entre colesterol e pressão arterial

## Três Tipos de Relação Linear 

Neste exemplo, apresentamos três tipos de relação linear: **Correlação Positiva**, **Correlação Negativa** e **Ausência de Correlação**. Abaixo, as figuras são exibidas lado a lado para facilitar a visualização. ### Geração das Figuras no R

Conclusão

Neste relatório, exploramos a relação entre diferentes tipos de variáveis (qualitativas e quantitativas) utilizando medidas descritivas, gráficos e testes estatísticos. Essas técnicas são essenciais para compreender os fatores que influenciam a saúde e a nutrição dos indivíduos.

Conclusão Geral

A partir dos gráficos gerados, podemos concluir:

  • Atividade Física e IMC: Há uma relação moderada entre o nível de atividade física e o IMC, com tendência de IMC maiores em indivíduos com atividade moderada.

  • Fumar e Atividade Física: O teste qui-quadrado não pode confirmar se existe uma relação de dependencia entre fumar e o nível de atividade física.

  • Colesterol e Pressão Arterial: Observa-se uma correlação negativa entre colesterol e pressão arterial, sugerindo que níveis mais altos de colesterol estão associados a uma menor pressão arterial.