Arquivo Final Maíra Peixoto

Author

Maíra de Oliveira Peixoto

Published

November 7, 2024

library(rmarkdown)
library(ggplot2)
library(dplyr)

Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':

    filter, lag
Os seguintes objetos são mascarados por 'package:base':

    intersect, setdiff, setequal, union
library(plotly)

Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':

    last_plot
O seguinte objeto é mascarado por 'package:stats':

    filter
O seguinte objeto é mascarado por 'package:graphics':

    layout
library(psych)

Anexando pacote: 'psych'
Os seguintes objetos são mascarados por 'package:ggplot2':

    %+%, alpha
library(ltm)
Carregando pacotes exigidos: MASS

Anexando pacote: 'MASS'
O seguinte objeto é mascarado por 'package:plotly':

    select
O seguinte objeto é mascarado por 'package:dplyr':

    select
Carregando pacotes exigidos: msm
Carregando pacotes exigidos: polycor

Anexando pacote: 'polycor'
O seguinte objeto é mascarado por 'package:psych':

    polyserial

Anexando pacote: 'ltm'
O seguinte objeto é mascarado por 'package:psych':

    factor.scores

Introdução

Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.

# Definindo semente para reprodutibilidade
set.seed(1231)

# Criando conjunto de dados simulado
n <- 150
dados <- data.frame(
  Idade = round(rnorm(n, mean = 40, sd = 15)),
  IMC = round(rnorm(n, mean = 25, sd = 4), 1),
  Atividade_Fisica = factor(sample(c("Baixa", "Moderada", "Alta"), n, replace = TRUE)),
  Fumante = factor(sample(c("Sim", "Não"), n, replace = TRUE)),
  Colesterol = round(rnorm(n, mean = 200, sd = 30)),
  Pressão_Arterial = round(rnorm(n, mean = 120, sd = 15))
)

# Visualizando as primeiras linhas do conjunto de dados
head(dados)
  Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1    39 15.6            Baixa     Sim        200              112
2    50 26.3            Baixa     Sim        208              123
3    14 28.7         Moderada     Não        262               89
4    45 31.3            Baixa     Sim        191              129
5    71 27.6            Baixa     Não        202              122
6    35 34.3             Alta     Não        176              127

Relação entre Variáveis Qualitativas e Quantitativas

Exemplo: Relação entre Atividade Física e IMC

Para investigar a relação entre uma variável qualitativa (Atividade_Fisica) e uma quantitativa (IMC), podemos calcular estatísticas descritivas de IMC para cada nível de Atividade_Física.

# Estatísticas descritivas do IMC por nível de Atividade Física
library(dplyr)
dados %>%
  group_by(Atividade_Fisica) %>%
  summarise(
    Média_IMC = mean(IMC),
    Mediana_IMC = median(IMC),
    Desvio_Padrão_IMC = sd(IMC)
  )
# A tibble: 3 × 4
  Atividade_Fisica Média_IMC Mediana_IMC Desvio_Padrão_IMC
  <fct>                <dbl>       <dbl>             <dbl>
1 Alta                  25.1        24.9              3.68
2 Baixa                 24.7        25.5              4.07
3 Moderada              24.7        25.0              4.70

Gráfico de boxplot para IMC por nível de Atividade Física

# Gráfico de boxplot para IMC por nível de Atividade Física
library(ggplot2)

p<-ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica)) +
  geom_boxplot() +
  labs(title = "Boxplot de IMC por Nível de Atividade Física",
       x = "Nível de Atividade Física",
       y = "IMC") +
  theme_minimal()

p1<-ggplotly(p)

p1

Gráfico 1: Boxplot de IMC por Nível de Atividade Física

Interpretação:

O gráfico de boxplot exibe a distribuição do Índice de Massa Corporal (IMC) para cada nível de atividade física (“Baixa”, “Moderada”, “Alta”). Ele mostra os seguintes pontos principais:

  • Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.

    • Os indivíduos com atividade física alta (24.90) tendem a ter um IMC mediano um pouco menor do que aqueles com atividade física moderada (24.95) e baixa (25.50).
  • Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.

    A atividade física moderada apresenta uma maior variação no IMC, sugerindo que pessoas com atividade física moderada têm IMCs mais variados, enquanto a atividade física alta tem a menor dispersão.

  • Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito acima ou abaixo do esperado para cada grupo.

    Alguns outliers são visíveis no grupo de atividade física moderada e alta, indicando a presença de indivíduos com IMC muito altos nesses grupos.

  • Conclusão: Há uma leve tendência de que, conforme aumenta o nível de atividade física, o IMC tende a diminuir, mas há também variações consideráveis dentro de cada grupo.

#Relação entre Variáveis Qualitativa e Qualitativa #Exemplo: Relação entre Fumar e Atividade Física #Para investigar a relação entre duas variáveis qualitativas, podemos usar uma tabela de contingência entre as variáveis Fumante e Atividade_Física.