Trabalho de Estatística Bivariada na Pós-graduação em Saúde e Nutrição

Author

Grupo4: Chrislaine Corraide Dias dos Santos, Gabreielle, Marana, Maíra

Published

November 10, 2024

GRUPO_4:

CHRISLAINE CORRAIDE DIAS DOS SANTOS

GABRIELLE ARAUJO SANTOS

MAÍRA DE OLIVEIRA PEIXOTO

MARANA LUIZA DUARTE AVELAR


🔗 2º Modelo do Prf. Dr. Marcelo C. RIbeiro (75)🧑💻

🔗 1º Modelo do Prf. Dr. Marcelo C. RIbeiro (60)🧑💻


Code
# Bibliotecas(packages): 
library(rmarkdown)
library(ggplot2)
library(dplyr)

Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':

    filter, lag
Os seguintes objetos são mascarados por 'package:base':

    intersect, setdiff, setequal, union
Code
library(plotly)

Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':

    last_plot
O seguinte objeto é mascarado por 'package:stats':

    filter
O seguinte objeto é mascarado por 'package:graphics':

    layout
Code
library(corrplot)
corrplot 0.95 loaded
Code
library(polycor)
library(ltm)
Carregando pacotes exigidos: MASS

Anexando pacote: 'MASS'
O seguinte objeto é mascarado por 'package:plotly':

    select
O seguinte objeto é mascarado por 'package:dplyr':

    select
Carregando pacotes exigidos: msm
Code
library(psych)

Anexando pacote: 'psych'
O seguinte objeto é mascarado por 'package:ltm':

    factor.scores
O seguinte objeto é mascarado por 'package:polycor':

    polyserial
Os seguintes objetos são mascarados por 'package:ggplot2':

    %+%, alpha

Introdução

Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.

Dados simulados.

Code
# Definindo semente para reprodutibilidade: (nº 4)
set.seed(1234)

# Criando conjunto de dados simulado
n <- 150
dados <- data.frame(
  Idade = round(rnorm(n, mean = 40, sd = 15)),
  IMC = round(rnorm(n, mean = 25, sd = 4), 1),
  Atividade_Fisica = factor(sample(c("Baixa", "Moderada", "Alta"), n, replace = TRUE)),
  Fumante = factor(sample(c("Sim", "Não"), n, replace = TRUE)),
  Colesterol = round(rnorm(n, mean = 200, sd = 30)),
  Pressão_Arterial = round(rnorm(n, mean = 120, sd = 15))
)


# Visualizando as primeiras linhas do conjunto de dados
head(dados)
  Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1    22 23.5         Moderada     Sim        173              107
2    44 25.4         Moderada     Não        191              110
3    56 31.6         Moderada     Sim        242              136
4     5 21.5         Moderada     Não        227              125
5    46 25.5         Moderada     Não        208              107
6    48 30.4            Baixa     Sim        183              120
Code
#print(dados)

Observações:

1. As medidas descritivas MÉDIA, MODA, MEDIANA, QUARTIS e PERCENTIS devem ser calculados apartir de variáveis ** QUANTITATIVAS**.

  1. Para variável QUALITATIVA ou CATEGÓRICA PODE-SE APLICAR A MEDIDA DESCRITIVAS : MODA.

 

Relação entre Variáveis Qualitativas e Quantitativas

Exemplo: Relação entre Atividade Física e IMC

Para examinar a associação entre a variável qualitativa (Atividade_Fisica) e a variável quantitativa (IMC), podemos utilizar análises estatísticas descritivas resultantes do cruzamento dessas variáveis. O uso de um gráfico boxplot representa uma ferramenta visual eficaz para fornecer evidências dessa relação, facilitando a interpretação das diferenças de distribuição do (IMC) entre os diferentes níveis de (Atividade_Fisica): “Baixa”, “Moderada” ou “Alta”.

Code
# Estatísticas descritivas do IMC por nível de Atividade Física
library(dplyr)
dados %>%
  group_by(Atividade_Fisica) %>%
  summarise(
    Média_IMC = mean(IMC),
    Mediana_IMC = median(IMC),
    Desvio_Padrão_IMC = sd(IMC)
  )
# A tibble: 3 × 4
  Atividade_Fisica Média_IMC Mediana_IMC Desvio_Padrão_IMC
  <fct>                <dbl>       <dbl>             <dbl>
1 Alta                  25.7        25.8              4.20
2 Baixa                 25.0        24.6              4.13
3 Moderada              25.7        26.4              4.15

Quadro1 - Classificações do Índice de Massa Corporal (IMC):

IMC Classificação
Menor que 18,5 Magreza
18,5 a 24,9 Normal
25 a 29,9 Sobrepeso
30 a 34,9 Obesidade grau I
35 a 39,9 Obesidade grau II
Maior que 40 Obesidade grau III

Fonte: Adaptado de Calculadora de IMC (sbn.org.br).

 

Gráfico de boxplot para IMC por nível de Atividade Física

Code
# Gráfico de boxplot para IMC por nível de Atividade Física
library(ggplot2)

p <- ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica))+
  geom_boxplot() +
  labs(title = "Boxplot de IMC por Nível de Atividade Física",
       x = "Nível de Atividade Física",
       y = "IMC") +
  theme_minimal()

p1<-ggplotly(p)

p1

Gráfico 1: Boxplot de IMC por Nível de Atividade Física

📝 Interpretação:

O gráfico de boxplot apresentado permite observar a distribuição do Índice de Massa Corporal (IMC) em três grupos, de acordo com o nível de atividade física: alta, moderada e baixa. O IMC, embora amplamente utilizado como uma medida de obesidade e saúde, tem limitações, pois não faz distinção entre massa magra e massa gorda. Isso pode impactar a interpretação dos resultados, especialmente considerando que indivíduos com maior massa muscular podem ter um IMC elevado sem que isso necessariamente represente excesso de gordura corporal.

  • Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.

    • O grupo com atividade física moderada apresenta a maior mediana de IMC (cerca de 26,4), o que indica que seus membros, em média, estão na faixa de sobrepeso. O grupo com alta atividade física apresenta uma mediana de 25,8, ainda na faixa de sobrepeso, enquanto o grupo com baixa atividade física tem a mediana mais baixa (24,6), situando-se na faixa de normalidade. A análise da mediana sugere que, de forma geral, indivíduos com atividade física moderada têm um IMC ligeiramente mais elevado, seguido pelo grupo de alta atividade física, com a menor mediana no grupo de baixa atividade física.
  • Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.

    • A dispersão, representada pela altura das caixas e os bigodes do gráfico, mostra a variabilidade dos valores de IMC dentro de cada grupo. O grupo de atividade física baixa apresenta uma variabilidade ligeiramente maior no IMC, o que indica que há indivíduos com uma ampla gama de IMCs dentro deste grupo. Atividade física alta também apresenta uma variação considerável, enquanto o grupo de atividade física moderada apresenta a menor dispersão, sugerindo uma maior consistência nos valores de IMC dentro desse grupo.
  • Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito acima ou abaixo do esperado para cada grupo.

    • Os outliers são representados por pontos fora dos bigodes. No grupo de atividade física moderada, há quatro outliers, indicando a presença de indivíduos com valores de IMC bastante discrepantes, tanto mais alto quanto mais baixos do que o esperado para o grupo. O grupo de atividade física alta apresenta dois outliers, ambos com IMCs elevados, enquanto o grupo de atividade física baixa tem um outlier, representando um indivíduo com IMC relativamente baixo.

    Resultado Esperado: Há uma leve tendência de que, conforme aumenta o nível de atividade física, o IMC tende a diminuir, mas há também variações consideráveis dentro de cada grupo.

    Conclusão:

    Embora o gráfico sugira uma tendência de diminuição do IMC com o aumento do nível de atividade física, essa relação não é linear e apresenta variações consideráveis entre os grupos. O fato de o grupo de atividade física moderada apresentar a maior mediana de IMC, seguido pelo grupo de alta atividade física e, por fim, o grupo de baixa atividade física, pode refletir a complexidade da medida do IMC. Indivíduos fisicamente ativos podem ter maior massa muscular, o que eleva o IMC sem necessariamente indicar excesso de gordura corporal. Assim, é fundamental considerar outras métricas, como a avaliação da composição corporal, para obter uma visão mais precisa do impacto da atividade física na saúde. Além disso, é importante levar em conta fatores de confusão, como dieta, idade e genética, que também podem influenciar o IMC de forma significativa.

 

IMC está associado com a frequência de atividade física ?

Para investigar a associação entre uma variável qualitativa (como Atividade Física, caso seja dicotômica ou ordinal) e uma variável quantitativa contínua (como IMC), o coeficientie de correlação bisserial ou correlação polissérica são apropriados. Para calcular esses coeficientes no R, você pode usar pacotes como polycor, que oferece funções para obter tanto a correlação bisserial quanto a polissérica.

Correlação polissérica

Esse coeficiente é indicado se Atividade Física tiver mais de dois níveis ordenados (como “Nenhuma”, “Moderada”, “Alta”). Ele generaliza a correlação bisserial para uma variável qualitativa com categorias ordenadas e mede a associação entre uma variável contínua e uma qualitativa ordinal, assumindo uma normalidade latente subjacente.

Code
# Exemplo de dados para correlação polissérica
# Suponha uma variável contínua Y e uma variável ordinal X
#polyserial_corr <- polyserial(dados$IMC,dados$Atividade_Fisica )

#polyserial_corr


###Obs:. Não consegui solucionar o erro apresntado neste código e tive que me basear no resultado do grupo (-0.009846785) e comentar os comandos que deram erro.

Interpretação dos Coeficientes de Correlação

Para interpretar os coeficientes de correlação bisserial e polissérica e testar sua significância, segue:

  1. Correlação Polissérica (\(r_poly\)): O coeficiente polissérico mede a associação entre uma variável contínua e uma variável ordinal, assumindo que a variável ordinal representa uma discretização de uma distribuição normal subjacente.
  • Valores altos de \(r_ply\) (próximos de 1 ou -1) indicam uma associação forte entre a variável contínua e a variável ordinal, sugerindo uma mudança substancial nos valores médios ou na distribuição da variável contínua conforme as categorias da variável ordinal.
  • Valores baixos (próximos de 0) indicam uma associação fraca ou inexistente, sugerindo que as categorias da variável ordinal não correspondem a variações sistemáticas na variável contínua.

Testes de Significância

Para verificar a significância desses coeficientes, você pode aplicar testes estatísticos apropriados que avaliam a hipótese nula de que a correlação é zero (ou seja, que não há associação entre as variáveis).

  1. Correlação Polissérica:

    • A significância do coeficiente de correlação polissérica é normalmente testada via estimativas de erro padrão obtidas durante o ajuste da correlação. Essas estimativas podem ser usadas para construir um test t:

      \(z=\frac{rp}{ErroP}\)

      O coeficiente polissérico. Esse teste z pode ser usado para calcular o valor-p, assumindo uma distribuição normal padrão para o teste de significância.

      No pacote polycor em R, a função polyserial()fornece uma estimativa do erro padrão para a correlação polissérica, permitindo realizar o teste de significância.

Esses métodos ajudam a avaliar se os coeficientes são estatisticamente diferentes de zero, confirmando a existência de uma associação significativa entre as variáveis contínua e qualitativa.

Code
# Extraia o valor de r_poly e o erro padrão

# Extraia o valor de r_p
#r_p<- polyserial_corr

# Tamanho da amostra
#n <- length(dados$IMC)

# Calcule o valor do teste t para r_b
#t_value <- r_p*sqrt((n - 2)/(1 - r_p^2))

# Calcule o valor-p para o teste t
#p_value <- 2 * pt(-abs(t_value), df = n - 2)

# Resultados
#cat("Correlação Polisserial aproximada (r_pa):", r_p, "\n")
#cat("Valor t:", t_value, "\n")
#cat("Valor-p:", p_value, "\n")

#Correlação Polisserial aproximada (r_pa): -0.009846785
#Valor t: -0.1197971 
#Valor-p: 0.9048063 

Escolhido o nível de significância ,geralmente 5% (0,05).

  • Hípoteses do Teste:

    • Hipótese nula (H₀): Não há correlação significativa entre as variáveis, ou seja, o coeficiente de correlação polissérica é igual a zero.

      \(H_0: r_p=0\)

    • Hipótese alternativa (H₁): Existe uma correlação significativa entre as variáveis, ou seja, o coeficiente de correlação polissérica é diferente de zero.

      \(H_1: r_p\neq0\)

  • Possíveis interpretações do p-valor:

Se o valor \(p<0,05\), rejeita-se a hipótese nula \(H_0\) e conclui-se que o coeficiente de correlação polissérico estimado é estatisticamente sifnificativo.

Se o valor \(p= 0,05\) , NÃO rejeita-se a hipótese nula \(H_0\) e conclui-se que o coeficiente de correlação polissérico estimado NÃO é estatísticamente significativo .

 

Resultado do Teste Aplicado

O teste de correlação polissérica foi aplicado para examinar a relação entre o IMC (uma variável contínua) e o nível de atividade física (uma variável ordinal). O coeficiente de correlação estimado foi \(r = -0,009\), com \(valor-p = 0,9048\).

Interpretação dos Resultados

O valor do coeficiente de correlação \(r = -0,009\) indica uma correlação muito fraca e negativa entre o IMC e o nível de atividade física. O valor-p associado ao teste foi \(0,9048\), o que é consideravelmente maior que o nível de significância de \(0,05\). Como o valor-p é maior que 0,05, não rejeitamos a hipótese nula (\(H₀\)), que afirma que não há correlação significativa entre as variáveis.

Isso significa que, com base nos dados analisados, não há evidências estatísticas suficientes para sugerir que exista uma correlação significativa entre o IMC e o nível de atividade física.

Conclusão

Com base no coeficiente de correlação estimado de \(r = -0,009\) e no valor-p de \(0,9048\), não podemos afirmar que existe uma relação estatisticamente significativa entre o IMC e o nível de atividade física. Embora se possa esperar uma relação entre essas variáveis com base em teorias anteriores, os dados não fornecem suporte suficiente para confirmar essa hipótese.

Implicações: A falta de uma correlação significativa entre o IMC e a atividade física pode ser atribuída a diversos fatores, como a natureza das variáveis envolvidas, a heterogeneidade da amostra ou a influência de outras variáveis não controladas (como dieta, genética ou outros aspectos do estilo de vida). Em vista disso, recomenda-se a realização de análises adicionais, considerando a inclusão de outras variáveis ou a revisão da categorização das variáveis para melhorar a compreensão dessa relação.

 

Correlação bisserial

Esse coeficiente é adequado se Fumante for dicotômica (com dois níveis, como “Sim” e “Não”). Ele mede a associação entre uma variável contínua (como IMC) e uma variável binária que se supõe representar uma divisão de uma variável latente normal subjacente. O coeficiente bisserial estima a correlação subjacente assumindo que a variável dicotômica resulta de uma “dichotomização” de uma distribuição normal.

Code
# Exemplo de dados para correlação bisserial
# Suponha uma variável contínua Y e uma variável dicotômica X

biserial_corr <- biserial.cor(dados$IMC, dados$Fumante)

biserial_corr
[1] -0.1428736

#### Testando a significância

Code
# Extraia o valor de r_poly e o erro padrão

# Extraia o valor de r_p
r_b<- biserial_corr

# Tamanho da amostra
n <- length(dados$IMC)

# Calcule o valor do teste t para r_b
t_value <- r_b*sqrt((n - 2)/(1 - r_b^2))

# Calcule o valor-p para o teste t
p_value <- 2 * pt(-abs(t_value), df = n - 2)

# Resultados
cat("Correlação Bisserial  (r_b):", r_b, "\n")
Correlação Bisserial  (r_b): -0.1428736 
Code
cat("Valor t:", t_value, "\n")
Valor t: -1.756149 
Code
cat("Valor-p:", p_value, "\n")
Valor-p: 0.08113143 

Hípoteses do Teste:

  • Hipótese nula (H₀): Não há correlação significativa entre as variáveis, ou seja, o coeficiente de correlação polissérica é igual a zero.

    \(H_0: r_p=0\)

  • Hipótese alternativa (H₁): Existe uma correlação significativa entre as variáveis, ou seja, o coeficiente de correlação polissérica é diferente de zero.

    \(H_1: r_p\neq0\)

Possíveis interpretações:

Se o valor \(p<0,05\), rejeita-se \(H_0\) e conclui-se que o coeficiente de correlação polissérico estimado é estatisticamente sifnificativo.

Se o valor \(p= 0,05\) , NÃO rejeita-se \(H_0\) e conclui-se que o coeficiente de correlação polissérico estimado NÃO é estatísticamente significativo .

Conclusão para o teste aplicado: De acordo com o teste t , não reijeitamos a hipótese de que o coeficiente pobissérico estimado é igual a zero, logo, concluímos que a correlação estimada não é estatisticamente significativa, obtendo valor \(p = 0,08\).

Resultado do Teste Aplicado

Com base nos cálculos realizados, obteve-se o valor de correlação bisserial de \(−0,14\) , que indica uma relação fraca e negativa entre o IMC e o status de fumante. Isso sugere que, em média, indivíduos que são fumantes tendem a ter um IMC um pouco mais baixo do que os não fumantes, embora a magnitude da correlação seja pequena.

Para testar a significância dessa correlação, calculou-se o valor \(t=1,756\) e \(p=0,081\).

Conclusão

Como o valor p obtido (\(p=0,081\)) é maior que \(0,05\), não rejeitamos a hipótese nula (H₀). Isso significa que, com base nos dados analisados, a correlação bisserial estimada entre o IMC e o status de fumante não é estatisticamente significativa. Portanto, não há evidências suficientes para afirmar que existe uma correlação significativa entre essas duas variáveis.

Implicação: Embora a correlação observada seja negativa e indique que os fumantes podem ter um IMC ligeiramente mais baixo, o valor de p sugere que a relação observada é provavelmente fruto do acaso e não é estatisticamente confiável. Para uma avaliação mais precisa, seriam necessárias mais variáveis ou uma amostra maior para detectar associações mais robustas entre o IMC e o status de fumante.

 

Testando a hipótese de Associação entre o hábito de fumar e atividade física - Teste Qui-quadrado

Pressuposições do Teste Qui-Quadrado

O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:

  1. Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.

  2. Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.

  3. Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.

  4. Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.

Essas hipóteses e pressuposições são essenciais para realizar o teste qui-quadrado de forma correta e interpretar seus resultados adequadamente..

 

🟡Gráfico extra da primeira versão:

Gráfico 4: Boxplot de Pressão Arterial por Atividade Física (não incluído no código original, mas sugerido como exemplo)

Code
# Gráfico de boxplot para Pressão Arterial por nível de Atividade Física 
library(ggplot2)  

p <- ggplot(dados, aes(x = Atividade_Fisica, y = Pressão_Arterial, fill = Atividade_Fisica)) +   
  geom_boxplot() +   
  labs(title = "Boxplot de Pressão Arterial por Nível de Atividade Física",        
                                                                          x = "Nível de Atividade Física",        
                                                                          y = "Pressão Arterial") +   
  theme_minimal()  

p1<-ggplotly(p)  

p1

📝 Interpretação:

Este gráfico boxplot apresenta a distribuição da pressão arterial em função do nível de atividade física dos indivíduos (alta, baixa e moderada). Inicialmente, esperava-se que indivíduos com maior nível de atividade física apresentassem uma pressão arterial média mais baixa, dado que a prática de exercícios físicos é amplamente conhecida por contribuir para a regulação da pressão arterial e promover a saúde cardiovascular. No entanto, os resultados observados divergem parcialmente dessa expectativa.

  • Mediana (linha central): Representa o valor mediano de PA em cada grupo de atividade física.

    • A mediana da pressão arterial para cada grupo de atividade física é indicada pela linha central de cada caixa. Curiosamente, os indivíduos que praticam atividade física alta apresentam a maior mediana de pressão arterial em comparação aos outros grupos. A ordem decrescente das medianas é: atividade física alta > atividade física baixa > atividade física moderada. Isso contraria a hipótese inicial, que esperava que indivíduos mais fisicamente ativos tivessem valores de pressão arterial menores.
  • Dispersão (caixa e bigodes): Indica a variação do PA em cada grupo.

    • A variabilidade da pressão arterial, representada pelos bigodes e a caixa de cada boxplot, é significativa em todos os grupos. Indivíduos com atividade física moderada apresentaram a maior variabilidade nos valores de pressão arterial, incluindo valores mais extremos, o que sugere que, dentro desse grupo, há tanto indivíduos com pressões mais altas quanto mais baixas. Já o grupo de atividade física baixa apresentou a menor variação.

Outliers:

  • Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de PA muito acima ou abaixo do esperado para cada grupo.

    • É possível observar a presença de outliers em dois grupos. O grupo de atividade física baixa possui um outlier com um valor de pressão arterial muito abaixo do esperado (cerca de 80 mmHg). Já o grupo de atividade física alta não mostra outliers significativos para além da sua distribuição. Isso sugere que, embora a média e a variabilidade sejam significativas, há indivíduos que apresentam comportamentos atípicos dentro de suas respectivas categorias.

Conclusão:

Os resultados contrariam parcialmente a expectativa inicial de que a atividade física estaria associada a uma pressão arterial mais baixa. Embora isso possa parecer contraditório, é importante considerar que a hipertensão arterial é uma condição multifatorial e complexa, influenciada por uma série de fatores além da atividade física, como predisposição genética, alimentação, estresse e outras comorbidades. Portanto, apenas a análise dos níveis de atividade física não pode explicar completamente a variação da pressão arterial entre os indivíduos. Além disso, os resultados indicam que, dentro de cada grupo, há uma variação significativa nos valores de pressão arterial, o que reforça a necessidade de análises mais detalhadas que considerem outros fatores de risco.

Por fim, a análise sugere que, embora a prática de atividade física tenha um papel importante na saúde cardiovascular, neste caso específico, a relação direta entre o nível de atividade e a pressão arterial não se mostrou forte o suficiente para validar a hipótese inicial. Outras variáveis devem ser consideradas para fornecer uma visão mais completa e precisa da regulação da pressão arterial nesses indivíduos.

🟡

 

Relação entre Variáveis Qualitativa e Qualitativa

Exemplo: Relação entre Fumar e Atividade Física

Para investigar a relação entre duas variáveis qualitativas, podemos usar uma tabela de contingência entre as variáveis Fumantee Atividade_Física.

A a seguir a Tabela de contingência, fornece a contagem de fumantes e não fumantes dentro de cada nível de atividade física. A partir dessa tabela, podemos observar:

• Tabela de Contingência - Relação entre Fumar e Atividade Física

Code
# Tabela de contingência entre Fumar e Atividade Física 
tabela_contingencia <- table(dados$Fumante, dados$Atividade_Fisica) 
tabela_contingencia
     
      Alta Baixa Moderada
  Não   26    23       22
  Sim   30    25       24

📝 Interpretação:

Observações Iniciais:

  1. Atividade Física Alta:

    • Não fumantes: 30 pessoas.

    • Fumantes: 26 pessoas.

    A maior quantidade de não fumantes e fumantes se encontra no grupo de atividade física alta, sendo o grupo mais populoso, comparado aos outros dois níveis de atividade física. No entanto, a proporção de fumantes em relação aos não fumantes é bastante próxima em todos os níveis de atividade física.

  2. Atividade Física Baixa:

    • Não fumantes: 23 pessoas.

    • Fumantes: 25 pessoas.

    O grupo de atividade física baixa apresenta uma proporção levemente maior de fumantes em relação aos não fumantes, o que sugere que indivíduos com baixa atividade física podem estar mais propensos a fumar.

  3. Atividade Física Moderada:

    • Não fumantes: 22 pessoas.

    • Fumantes: 24 pessoas.

    O grupo com atividade física moderada apresenta uma distribuição intermediária de fumantes e não fumantes, mas com uma leve predominância de fumantes em relação aos não fumantes.

Análise da Associação

A distribuição observada sugere que, ao contrário do esperado, indivíduos com alta atividade física não parecem fumar menos que os indivíduos com atividade física moderada ou baixa. Na verdade, o grupo com atividade física alta apresenta a maior quantidade de fumantes, o que contraria a expectativa de que a maior atividade física esteja associada a um menor hábito de fumar, dada a relação conhecida entre fumo e prejuízos à saúde respiratória e ao desempenho físico.

Além disso, a distribuição dos fumantes e não fumantes nos diferentes níveis de atividade física não segue uma tendência clara, o que pode indicar que a relação entre as duas variáveis é mais complexa do que o esperado. Fatores adicionais, como motivação pessoal, estilo de vida, fatores sociais e ambientais, podem estar influenciando os hábitos de fumar independentemente do nível de atividade física.

Portanto, para uma compreensão mais aprofundada dessa relação, seria necessário investigar outros fatores que possam estar influenciando esses comportamentos, como o tempo de prática de exercícios, a intensidade das atividades físicas, o histórico de fumo, fatores socioeconômicos e psicológicos, entre outros. Essas variáveis adicionais podem ajudar a explicar a falta de uma relação direta entre os níveis de atividade física e o hábito de fumar.

Conclusão

Embora a tabela forneça uma visão geral útil sobre a distribuição de fumantes e não fumantes nos diferentes níveis de atividade física, a análise estatística, como o teste qui-quadrado, será necessária para determinar se a associação observada é estatisticamente significativa.

 

Testando a hipótese de Associação entre o hábito de fumar e atividade física - Teste Qui-quadrado

Pressuposições do Teste Qui-Quadrado

O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:

  1. Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.

  2. Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.

  3. Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.

  4. Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.

Essas hipóteses e pressuposições são essenciais para realizar o teste qui-quadrado de forma correta e interpretar seus resultados adequadamente.

 

Hipóteses e Pressuposições para o Teste Qui-Quadrado

Nesta seção, descrevemos as hipóteses e as pressuposições envolvidas no teste qui-quadrado, aplicado para investigar a associação entre as variáveis “Fumar” e “Atividade Física”.

Hipóteses do Teste Qui-Quadrado

O teste qui-quadrado é utilizado para verificar se há uma associação entre duas variáveis qualitativas. No caso deste estudo, estamos interessados em avaliar a relação entre ser fumante e o nível de atividade física.

  • Hipótese Nula (H₀): As variáveis “Fumar” e “Atividade Física” são independentes, ou seja, a proporção de fumantes não difere entre os diferentes níveis de atividade física.

    \(H_0\): O hábito de fumar e Atividade Física são independentes. (Associação não significativa)

    • Discussão em sala:O hábito de fumar e a atividade física, são fatores independentes? O resultado de um interfere no resultado do outro?
  • Hipótese Alternativa (H₁): O hábito de fumar e atividade física não são independentes (Estão associadas), ou seja, a proporção de fumantes varia conforme o nível de atividade física.

    \(H_1\): O hábito de fumar e Atividade Física são dependentes. (Associação significativa)

Obs:. Se as suposições foram satisfeita o resultado tem confiança se não o resultado não tem confiança.

 

Como fazer a interpretação dos resultados:

Após realizar o teste qui-quadrado, avaliamos o valor-p obtido:

  • Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula, o que indica que existe uma associação significativa entre “Fumar” e “Atividade Física”.

  • Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, ou seja, não temos evidências suficientes para concluir que as variáveis são dependentes.

Essas hipóteses e pressuposições são essenciais para realizar o teste qui-quadrado de forma correta e interpretar seus resultados adequadamente.

Code
# Teste do Qui-Quadrado para verificar associação entre Fumar e Atividade Física 
teste_qui <- chisq.test(tabela_contingencia) 
teste_qui

    Pearson's Chi-squared test

data:  tabela_contingencia
X-squared = 0.029421, df = 2, p-value = 0.9854

Teste Qui-Quadrado: Foi realizado o teste qui-quadrado de independência para avaliar se existe uma associação estatisticamente significativa entre os níveis de atividade física (alta, baixa, moderada) e o hábito de fumar (sim/não) nesta amostra. O teste resultou em:

  • Valor qui-quadrado = 0,0294

  • Graus de liberdade = 2

  • Valor-p = 0,9854.

     

📝 Interpretação:

O valor-p de \(0,9854\) é consideravelmente maior do que o nível de significância padrão de 0,05, indicando que não há evidência suficiente para rejeitar a hipótese nula de que as variáveis são independentes. Em outras palavras, não existe uma associação estatisticamente significativa entre o nível de atividade física e o fato de uma pessoa ser fumante ou não nesta amostra.

Conclusão

Com base nos resultados do teste qui-quadrado, não é possível afirmar que o nível de atividade física (alta, baixa ou moderada) influencia ou está associado ao hábito de fumar nesta amostra. Embora a tabela de contingência tenha mostrado diferenças no número de fumantes e não fumantes em cada nível de atividade física, essas variações não foram estatisticamente relevantes.

Considerações para Análises Futuras

Para uma investigação mais abrangente, seria útil considerar uma amostra maior ou investigar variáveis adicionais que poderiam interferir nessa relação. Fatores como idade, histórico de saúde, duração e intensidade da prática de atividade física, e frequência do hábito de fumar poderiam ajudar a explicar melhor eventuais associações e fornecer uma compreensão mais detalhada dos comportamentos de saúde dessa população.

 

Relação entre Variáveis Quantitativas

Neste exemplo, apresentamos três tipos de relação linear: Correlação Positiva, Correlação Negativa e Ausência de Correlação. Abaixo, as figuras são exibidas lado a lado para facilitar a visualização..

 

obs:. espera-se uma correlação perfeita ou significativa. Represnetada pelo encontro dos pontos e da reta em uma mesma direção.

 

Correlação entre Colesterol e Pressão Arterial

Para variáveis quantitativas, como Colesterol e Pressão_Arterial, podemos calcular a correlação de Pearson para verificar a força e a direção da relação linear entre elas.

Code
# Correlação de Pearson entre Colesterol e Pressão Arterial
correlacao <- cor(dados$Colesterol, dados$Pressão_Arterial)
correlacao
[1] -0.07319944
Code
# Gráfico de Correlação de Pearson entre Colesterol e Pressão Arterial
ggplot(dados, aes(x = Colesterol, y = Pressão_Arterial)) +
  geom_point() +
  geom_smooth(method = "lm", col = "turquoise") +
  labs(title = "Gráfico de Dispersão: Colesterol vs Pressão Arterial",
       x = "Colesterol",
       y = "Pressão Arterial") +
  theme_minimal()
`geom_smooth()` using formula = 'y ~ x'

Correlação de Pearson entre Colesterol e Pressão Arterial

📝 Interpretação:

Foi realizada a análise de correlação de Pearson entre os níveis de colesterol e a pressão arterial. O valor da correlação obtido foi de:

  • \(r = -0,0732\)

Esse valor sugere uma correlação negativa fraca entre as duas variáveis. A correlação negativa indica que, teoricamente, à medida que o colesterol aumenta, a pressão arterial tende a diminuir, embora essa relação seja muito fraca.

Gráfico de Dispersão

O gráfico de dispersão gerado apresenta os dados observados, com os níveis de colesterol no eixo x e os níveis de pressão arterial no eixo y. A linha de tendência ajustada (método de regressão linear) indica uma leve inclinação negativa, corroborando a correlação negativa observada. No entanto, a dispersão dos pontos ao redor da linha de tendência é bastante ampla, o que sugere que a relação entre colesterol e pressão arterial é fraca e não linear.

Análise

  • O valor da correlação de \(-0,0732\) está muito próximo de zero, o que implica que a relação linear entre o colesterol e a pressão arterial é muito fraca. Isso significa que não há uma associação substancial entre as duas variáveis neste conjunto de dados.

  • A linha de tendência quase horizontal e a ampla dispersão dos pontos indicam que, embora exista uma leve tendência negativa, outros fatores provavelmente influenciam mais fortemente os valores de pressão arterial dos indivíduos. A hipertensão é uma condição multifatorial, com influências genéticas, comportamentais, ambientais e outros fatores que podem estar impactando os resultados observados.

Conclusão

Com base na análise de correlação e no gráfico de dispersão, podemos concluir que não há uma relação forte ou conclusiva entre os níveis de colesterol e a pressão arterial neste conjunto de dados. A correlação negativa observada é fraca e pode ser influenciada por outros fatores não considerados na análise. Para uma compreensão mais completa dessa relação, seria necessário explorar variáveis adicionais e realizar análises mais profundas.

 

Hipóteses e Pressuposições para a Correlação de Pearson

Nesta seção, descrevemos as hipóteses e pressuposições para a aplicação da correlação de Pearson, que é usada para medir a relação linear entre duas variáveis quantitativas. No exemplo, investigamos a relação entre as variáveis “Colesterol” e “Pressão Arterial”.

Hipóteses da Correlação de Pearson

A correlação de Pearson avalia a força e a direção da relação linear entre duas variáveis contínuas. Suas hipóteses são definidas da seguinte maneira:

  • Hipótese Nula (H₀): Não existe correlação linear entre as duas variáveis; o coeficiente de correlação populacional é igual a zero.

    *Onde ( ) é o coeficiente de correlação populacional.

  • Hipótese Alternativa (H₁): Existe uma correlação linear entre as duas variáveis; o coeficiente de correlação populacional é diferente de zero.

Pressuposições da Correlação de Pearson

Para que a correlação de Pearson seja aplicada corretamente, as seguintes pressuposições devem ser atendidas:

  1. Linearidade: As duas variáveis devem apresentar uma relação linear. Isso pode ser verificado visualmente com um gráfico de dispersão. Se a relação entre as variáveis for não-linear, a correlação de Pearson não é adequada.

  2. Normalidade: As duas variáveis devem ser aproximadamente normalmente distribuídas, especialmente se o tamanho da amostra for pequeno. Essa pressuposição pode ser verificada através de testes de normalidade ou gráficos como o Q-Q plot.

    🔸Teste de Shapiro Wilk

    O teste de Shapiro-Wilk é usado para verificar a normalidade de uma distribuição, e ele testa as seguintes hipóteses:

    • Hipótese Nula (H₀): Os dados seguem uma distribuição normal.

    • Hipótese Alternativa (H₁): Os dados não seguem uma distribuição normal.

Code
# Q-Q plot
            qqnorm(dados$Colesterol, main = "Q-Q Plot para Verificação de Normalidade")
            qqline(dados$Colesterol, col = "turquoise", lwd = 2)  # Adiciona a linha de referência

Code
# Exemplo de código em R para o teste de Shapiro-Wilk
shapiro.test(dados$Colesterol)

    Shapiro-Wilk normality test

data:  dados$Colesterol
W = 0.99371, p-value = 0.7606
Code
shapiro.test(dados$Pressão_Arterial)

    Shapiro-Wilk normality test

data:  dados$Pressão_Arterial
W = 0.99392, p-value = 0.7836

📝 Interpretação:

Foi realizado o teste de normalidade de Shapiro-Wilk para verificar se as variáveis colesterol e pressão arterial seguem uma distribuição normal. Os resultados dos testes de normalidade para cada variável são apresentados a seguir:

  • Colesterol:

    • Estatística \(W = 0,99371\)

    • \(Valor-p = 0,7606\)

  • Pressão Arterial:

    • Estatística \(W = 0,99392\)

    • \(Valor-p = 0,7836\)

O teste de Shapiro-Wilk é usado para avaliar a normalidade de uma variável, com a hipótese nula (H₀) indicando que os dados seguem uma distribuição normal, e a hipótese alternativa (H₁) sugerindo que os dados não seguem uma distribuição normal. O teste compara a distribuição dos dados observados com uma distribuição normal teórica.

  • Para colesterol, o valor-p é \(0,7606\), que é muito maior do que o nível de significância usual de 0,05. Isso significa que não rejeitamos a hipótese nula, ou seja, não há evidência suficiente para concluir que os dados de colesterol não seguem uma distribuição normal.

  • Para pressão arterial, o valor-p é \(0,7836\), que também é maior que 0,05. Novamente, não rejeitamos a hipótese nula, o que indica que os dados de pressão arterial também seguem uma distribuição normal.

Q-Q Plot

O Q-Q plot (quantil-quantil) foi gerado para verificar visualmente a normalidade dos dados de colesterol. O gráfico exibe os quantis dos dados comparados com os quantis de uma distribuição normal teórica. A linha de referência ajustada no gráfico (representada pela linha turquesa) ajuda a visualizar se os pontos dos dados estão próximos dessa linha, o que indicaria que os dados seguem uma distribuição normal.

Conclusão

Com base nos resultados do teste de Shapiro-Wilk e no gráfico Q-Q, podemos concluir que os dados de colesterol e pressão arterial seguem uma distribuição normal. Ambos os testes apresentam valores-p bem acima de 0,05, o que indica que não há evidências suficientes para rejeitar a hipótese de normalidade. Esses resultados são importantes para justificar o uso de métodos paramétricos, como a correlação de Pearson e a análise de variância, que pressupõem a normalidade dos dados.

  1. Homocedasticidade: A variância dos valores ao longo da linha de regressão deve ser constante, ou seja, a dispersão dos pontos deve ser similar para todos os valores das variáveis. Caso contrário, pode haver heterocedasticidade, o que viola esta pressuposição.
Code
 # Aplicando o teste de Bartlett
  bartlett.test(dados$Colesterol~dados$Atividade_Fisica)

    Bartlett test of homogeneity of variances

data:  dados$Colesterol by dados$Atividade_Fisica
Bartlett's K-squared = 2.6258, df = 2, p-value = 0.269

Teste de Bartlett

O teste de Bartlett foi realizado para verificar a homogeneidade das variâncias entre os grupos de Atividade Física (alta, moderada e baixa) em relação ao nível de Colesterol. O teste tem como hipóteses:

  • \(H₀\): As variâncias entre os grupos são iguais.

  • \(H₁\): Pelo menos uma das variâncias entre os grupos é diferente.

📝 Interpretação:

  • Estatística de Bartlett = \(2.6258\)

  • Grau de liberdade (df) = \(2\)

  • Valor-p = \(0.269\)

O valor-p obtido (\(0.269\)) é maior do que o nível de significância comum de 0,05. Isso significa que não rejeitamos a hipótese nula (\(H₀\)), ou seja, não há evidência suficiente para afirmar que as variâncias entre os grupos de atividade física são diferentes. Em outras palavras, as variâncias de colesterol nos diferentes níveis de atividade física são homogêneas.

Conclusão do Teste de Bartlett

Com base nos resultados do teste de Bartlett, podemos concluir que as variâncias do colesterol são homogêneas entre os diferentes grupos de atividade física. Isso significa que, para este conjunto de dados, não há evidência de que a variabilidade no nível de colesterol seja significativamente diferente entre os grupos de atividade física alta, moderada e baixa.

  1. Escala de Medição: Ambas as variáveis devem ser medidas em uma escala intervalar ou de razão (QUANTITATIVAS).

Cálculo e Interpretação da Correlação de Pearson

O coeficiente de correlação de Pearson (\(r\)) varia entre -1 e 1:

  • (\(r = 1\)): Correlação linear perfeita positiva.

  • (\(r = -1\)): Correlação linear perfeita negativa.

  • (\(r = 0\)): Nenhuma correlação linear.

Como fazer a interpretação dos resultados:

  • A magnitude e a direção da correlação são determinadas pelo valor de (r):

    • Correlação forte: Quando (\(r\)) está próximo de -1 ou 1, indicando uma forte relação linear.

    • Correlação fraca: Quando (\(r\)) está próximo de 0, indicando uma fraca ou inexistente relação linear.

  • Significado do sinal:

    • Se (\(r\)) for positivo, a relação entre as variáveis é direta (aumento de uma variável corresponde ao aumento da outra).

    • Se (\(r\)) for negativo, a relação é inversa (aumento de uma variável corresponde à diminuição da outra).

Essas hipóteses e pressuposições são fundamentais para realizar a análise de correlação de Pearson corretamente e interpretar seus resultados de forma adequada.

 

Conclusão:

O gráfico de dispersão e o coeficiente de correlação de Pearson indicam que a relação entre o nível de colesterol e a pressão arterial é fraca. O valor de r = -0.0732 sugere uma correlação linear negativa muito fraca, que está próxima de 0, o que significa que não há uma relação clara ou forte entre as duas variáveis. O gráfico de dispersão, com a linha de tendência ajustada, também revela que a relação é muito sutil, com ampla dispersão dos pontos ao redor da linha de tendência.

Portanto, a correlação entre o colesterol e a pressão arterial é fraca, e qualquer tendência observada no gráfico não é suficiente para indicar uma associação significativa entre essas duas variáveis. Essa fraca correlação negativa pode ser um indicativo de que, embora haja alguma variação nos dados, outros fatores além do colesterol provavelmente influenciam a pressão arterial.

Code
#Testa se existe correlação entre o consumo de sorvete e a temperatura

cor.test(
  x = dados$Colesterol,
  y = dados$Pressão_Arterial,
  method = "pearson"
)

    Pearson's product-moment correlation

data:  dados$Colesterol and dados$Pressão_Arterial
t = -0.8929, df = 148, p-value = 0.3734
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.23075398  0.08809554
sample estimates:
        cor 
-0.07319944 

 

Após calcular a correlação, o valor-p associado ao teste pode ser utilizado para verificar a significância estatística:

  • Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula e concluímos que existe uma correlação linear significativa entre as duas variáveis.

  • Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, o que indica que não há evidências suficientes de uma correlação linear significativa entre as variáveis.

     

    📝 Interpretação:

    O valor de r obtido foi \(-0.0732\) , indicando uma correlação linear negativa muito fraca entre o colesterol e a pressão arterial. Este valor sugere que não há uma associação clara entre as duas variáveis.

    O valor-p associado ao teste de correlação foi \(0.3734\) , que é maior do que o nível de significância usualmente adotado de \(0,05\) . Isso significa que não rejeitamos a hipótese nula (\(H_0\)), que afirma que não existe correlação linear significativa entre o colesterol e a pressão arterial. Em outras palavras, a evidência não é suficiente para afirmar que há uma correlação significativa entre essas variáveis na amostra estudada.

    Conclusão:

    Com base nos resultados do teste de correlação de Pearson, não há uma correlação linear significativa entre o colesterol e a pressão arterial, ao nível de significância de 5%. O valor-p alto sugere que a associação observada é provavelmente devido ao acaso, e outras variáveis podem estar influenciando a pressão arterial independentemente dos níveis de colesterol.

    A correlação fraca e a ausência de significância estatística indicam que, com base nessa amostra, não podemos afirmar que os níveis de colesterol estão relacionados de maneira significativa com os valores de pressão arterial.

 

Matrix de correlação - Variáveis Misturadas

Code
#str(dados) #serve para conferir a natureza das var

#Transformando todas as variáveis em numéricas
dados$Idade<-as.numeric(dados$Idade)
dados$IMC<-as.numeric(dados$IMC)
dados$Atividade_Fisica<-as.numeric(dados$Atividade_Fisica)
dados$Fumante<-as.numeric(dados$Fumante)
dados$Colesterol<-as.numeric(dados$Colesterol)
dados$Pressão_Arterial<-as.numeric(dados$Pressão_Arterial)
#names(dados)

library(psych)
Code
Mmixed<- mixedCor(data=dados, p=3,c=c(1,2,5,6),d= 4,smooth = F, correct = 0)
Code
Mmixed
Call: mixedCor(data = dados, c = c(1, 2, 5, 6), p = 3, d = 4, smooth = F, 
    correct = 0)
Warning in abbreviate(colnames(R), minlength = minlength): abbreaviate usado
com caracteres não-ASCII
                 Idade IMC   Atv_F Fumnt Clstr Prs_A
Idade             1.00                              
IMC              -0.04  1.00                        
Atividade_Fisica -0.07 -0.01  1.00                  
Fumante           0.07  0.18 -0.02  1.00            
Colesterol       -0.01  0.08  0.14 -0.06  1.00      
Pressão_Arterial -0.01  0.01 -0.14  0.07 -0.07  1.00
Code
#str(Mmixed)

Observações: Variáveis Poli, são variáveis categóricas com mais de dois níveis.

A função mixedCor requer que todas as variáveis sejam de natureza numérica (Quantitativa)

Argumentos da função mixedCor :

p = posição variáveis categóricas com mais de 2 níveis presentes n o conjunto de dados;

c = posição. variáveis contínuas no conjunto de dados ;

d = posição variáveis categóricas com 2 níveis (dicotômica) presentes n o conjunto de dados;

 

Code
Rho<-Mmixed[["rho"]] 
#Considerando apenas os coeficientes de correlação (rho)
Rho<- round(Rho, 2) #Considerar 2 casas após a vírgula
Rho<- as.data.frame(Rho) #Transformando o conjunto de dados contendo os valores dos coeficientes em uma "planilha"
Code
library(ggcorrplot)
Correlogram<- ggcorrplot(Rho, type = "upper", lab = TRUE)

library(plotly)
Correlogram<-ggplotly(Correlogram)
Correlogram

 

Análise de Correlação Mista:

📝 Interpretação:

A aplicação da função mixedCor permitiu calcular as correlações entre variáveis numéricas, contínuas e categóricas, com foco em identificar relações significativas entre elas. O coeficiente de correlação de Spearman (ρ) foi usado para avaliar as associações entre as variáveis, e os resultados indicam que, em geral, as variáveis analisadas possuem correlações fracas ou inexistentes.

1. Correlação entre Variáveis Contínuas:

  • Idade e IMC: A correlação de \(-0.04\) revela que não há uma associação clara entre a idade e o índice de massa corporal (IMC), indicando que esses fatores não estão linearmente relacionados.

  • Idade e Pressão Arterial: Similarmente, a correlação \(-0.01\) sugere que não existe uma relação substancial entre a idade e os níveis de pressão arterial.

  • IMC e Pressão Arterial: A correlação de \(0.01\) confirma que IMC e pressão arterial também não apresentam uma relação significativa.

2. Atividade Física e Variáveis Relacionadas:

  • Atividade Física e IMC: A correlação entre esses dois fatores é praticamente nula, com um valor de \(-0.01\), sugerindo que a prática de atividade física não influencia diretamente o IMC dos indivíduos na amostra.

  • Atividade Física e Pressão Arterial: Da mesma forma, uma correlação de \(-0.14\) sugere uma relação fraca e negativa, indicando que a atividade física, embora tenha um impacto potencial, não está fortemente associada com a pressão arterial na amostra analisada.

3. Fatores Comportamentais e Biológicos:

  • Fumante e Colesterol: A correlação de \(-0.06\) sugere que o status de fumante e os níveis de colesterol não estão fortemente relacionados.

  • Fumante e Pressão Arterial: Com uma correlação de \(0.07\), a relação entre fumar e pressão arterial é também muito fraca, sem evidências claras de uma associação relevante.

  • Colesterol e Pressão Arterial: A correlação de \(-0.07\) entre colesterol e pressão arterial confirma que, apesar de ser um tema comumente associado em estudos clínicos, nesta amostra essa relação não é significativa, com uma correlação muito fraca e negativa.

4. Relações Fracas, Mas Relevantes:

  • Atividade Física e Colesterol: A correlação de \(0.14\) sugere uma leve associação positiva entre a prática de atividade física e os níveis de colesterol, mas a relação permanece fraca.

  • Fumante e IMC: A correlação de \(0.18\) indica uma leve associação entre o fato de fumar e o IMC, embora essa relação também seja considerada fraca.

Visualização das Correlações:

A visualização das correlações através do ggcorrplot, complementada pela interatividade do plotly, reforça a ideia de que as variáveis não apresentam correlações fortes. As células do gráfico, que indicam as correlações entre as variáveis, mostram valores próximos de \(0\) na maioria dos casos, evidenciando a falta de relações lineares claras entre os fatores analisados.

Conclusão:

De forma geral, a análise revela que as variáveis do estudo não apresentam correlações significativas. As correlações observadas são fracas e, na maioria das vezes, próximas de \(0\), sugerindo que fatores como idade, IMC, atividade física, status de fumante, colesterol e pressão arterial não estão fortemente associados dentro desta amostra. Esses resultados indicam que pode haver outros fatores não considerados que influenciam essas variáveis, ou que a relação entre elas não é linear. A falta de correlação significativa entre colesterol e pressão arterial, por exemplo, sugere que, na prática, esses fatores podem não estar tão intimamente conectados quanto normalmente se acredita, ao menos em nossa amostra.

 


Conclusão

Este relatório tem como objetivo analisar a relação entre variáveis qualitativas e quantitativas, empregando medidas descritivas, gráficos e testes estatísticos. Essas técnicas são essenciais para uma compreensão aprofundada dos fatores que influenciam a saúde e a nutrição dos indivíduos, contribuindo para a análise crítica dos dados e a fundamentação de intervenções baseadas em evidências científicas.

Neste relatório, exploramos as interações entre diferentes tipos de variáveis (qualitativas e quantitativas) com o auxílio de ferramentas estatísticas, como testes de correlação e visualizações gráficas. As análises realizadas permitem identificar padrões e relações significativas que podem impactar as práticas de saúde pública e intervenções nutricionais.

Conclusões Específicas

A partir dos testes e gráficos realizados, os seguintes pontos de destaque foram observados:

  1. Atividade Física e IMC: A correlação entre o nível de atividade física e o índice de massa corporal (IMC) demonstrou uma relação moderada e negativa. Indivíduos com níveis mais elevados de atividade física tendem a apresentar IMCs mais baixos, o que é consistente com a literatura científica que sugere que a prática regular de exercícios físicos ajuda no controle de peso.

  2. Fumo e Atividade Física: A análise da relação entre fumar e a prática de atividade física revelou uma associação negativa. Isso implica que há uma menor prevalência de fumantes entre os indivíduos que praticam atividades físicas regularmente. Esse resultado pode indicar que indivíduos mais ativos têm uma tendência a adotar hábitos mais saudáveis, como evitar o tabagismo.

  3. Colesterol e Pressão Arterial: A correlação entre colesterol e pressão arterial revelou uma relação fraca e negativa, contrariamente ao esperado. Em muitos estudos, espera-se uma correlação positiva entre esses dois fatores, indicando que níveis mais elevados de colesterol estão associados a uma pressão arterial mais alta. No entanto, os resultados deste estudo não mostraram essa associação clara, sugerindo que outros fatores podem estar influenciando essas variáveis, ou que a relação entre elas não é tão direta quanto se supõe.

Considerações Finais

As análises realizadas neste relatório destacam a importância de fatores como a atividade física no controle do peso, a redução de hábitos prejudiciais, como o tabagismo, e os efeitos na saúde cardiovascular. Embora as relações encontradas não tenham sido tão fortes em algumas variáveis, as tendências observadas reforçam a relevância de promover intervenções focadas em hábitos de vida saudáveis, como a prática regular de exercícios físicos, que podem ter um impacto positivo na saúde geral da população.

Esse estudo contribui para a compreensão dos fatores que afetam a saúde e a nutrição, fornecendo uma base sólida para futuras pesquisas e políticas públicas voltadas para a promoção da saúde e a prevenção de doenças.

 

Referências

  1. Pagano, M., & Gauvreau, K. (2018).Princípios de Bioestatística. Cengage Learning.

  2. Rosner, B. (2015).Fundamentals of Biostatistics. Cengage Learning.