AULA ESTATÍSTICA BIVARIADA

Author

GRUPO 4 - Chrislaine, Gabrielle, Maíra, Marana

Published

Invalid Date

Code
library(rmarkdown)
library(ggplot2)
library(dplyr)

Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':

    filter, lag
Os seguintes objetos são mascarados por 'package:base':

    intersect, setdiff, setequal, union
Code
library(plotly)

Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':

    last_plot
O seguinte objeto é mascarado por 'package:stats':

    filter
O seguinte objeto é mascarado por 'package:graphics':

    layout

Introdução

Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.

Code
# Definindo semente para reprodutibilidade
set.seed(1234)

# Criando conjunto de dados simulado
n <- 150
dados <- data.frame(
  Idade = round(rnorm(n, mean = 40, sd = 15)),
  IMC = round(rnorm(n, mean = 25, sd = 4), 1),
  Atividade_Fisica = factor(sample(c("Baixa", "Moderada", "Alta"), n, replace = TRUE)),
  Fumante = factor(sample(c("Sim", "Não"), n, replace = TRUE)),
  Colesterol = round(rnorm(n, mean = 200, sd = 30)),
  Pressão_Arterial = round(rnorm(n, mean = 120, sd = 15))
)

# Visualizando as primeiras linhas do conjunto de dados
head(dados)
  Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1    22 23.5         Moderada     Sim        173              107
2    44 25.4         Moderada     Não        191              110
3    56 31.6         Moderada     Sim        242              136
4     5 21.5         Moderada     Não        227              125
5    46 25.5         Moderada     Não        208              107
6    48 30.4            Baixa     Sim        183              120
Code
dados
    Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1      22 23.5         Moderada     Sim        173              107
2      44 25.4         Moderada     Não        191              110
3      56 31.6         Moderada     Sim        242              136
4       5 21.5         Moderada     Não        227              125
5      46 25.5         Moderada     Não        208              107
6      48 30.4            Baixa     Sim        183              120
7      31 24.1             Alta     Não        199              129
8      32 20.8             Alta     Sim        216              146
9      32 21.5            Baixa     Sim        185              107
10     27 23.4            Baixa     Sim        232              114
11     33 21.6            Baixa     Sim        233              135
12     25 24.0             Alta     Sim        165              113
13     28 23.3             Alta     Não        178              142
14     41 24.3            Baixa     Não        236              136
15     54 26.6         Moderada     Não        149               95
16     38 27.5             Alta     Sim        213              126
17     32 31.7            Baixa     Não        207               99
18     26 24.7            Baixa     Não        296               98
19     27 23.7            Baixa     Sim        118              121
20     76 30.9             Alta     Sim        175              121
21     42 31.8            Baixa     Não        220              120
22     33 25.2             Alta     Sim        250              139
23     33 23.7         Moderada     Não        225              124
24     47 17.7            Baixa     Não        157              110
25     30 30.6            Baixa     Sim        267              122
26     18 21.6            Baixa     Sim        147              112
27     49 20.5             Alta     Não        167              119
28     25 37.2             Alta     Não        199              103
29     40 25.9         Moderada     Não        267              118
30     26 24.9             Alta     Não        215              122
31     57 14.1         Moderada     Não        222              109
32     33 24.6            Baixa     Não        252              121
33     29 28.9            Baixa     Sim        230              110
34     32 26.7            Baixa     Sim        163              110
35     16 28.6         Moderada     Sim        221              117
36     22 32.9         Moderada     Sim        197              127
37      7 29.7            Baixa     Não        253              117
38     20 23.0         Moderada     Sim        193              123
39     36 27.8         Moderada     Sim        154              135
40     33 24.2         Moderada     Sim        215              116
41     62 22.8            Baixa     Sim        211              118
42     24 13.6            Baixa     Não        199              128
43     27 21.8             Alta     Não        168              101
44     36 27.0         Moderada     Não        175              128
45     25 33.7         Moderada     Sim        200              112
46     25 27.0         Moderada     Sim        231              103
47     23 27.5         Moderada     Não        189               93
48     21 21.1             Alta     Não        174              109
49     32 25.7             Alta     Sim        119              102
50     33 16.7            Baixa     Não        215              102
51     13 26.9             Alta     Não        213              144
52     31 27.8         Moderada     Não        239              102
53     23 25.7         Moderada     Sim        244              135
54     25 27.8             Alta     Sim        196              128
55     38 26.2             Alta     Sim        239              107
56     48 28.0         Moderada     Sim        200              111
57     65 32.4         Moderada     Sim        180              114
58     28 29.4         Moderada     Sim        175              123
59     64 25.1             Alta     Não        190              115
60     23 20.5             Alta     Sim        207              132
61     50 26.7             Alta     Não        199              116
62     78 23.4            Baixa     Sim        206               88
63     39 31.0             Alta     Não        206              119
64     30 18.6            Baixa     Sim        221               92
65     40 23.3            Baixa     Não        192              134
66     67 26.7            Baixa     Não        249              109
67     23 24.4         Moderada     Não        213              103
68     61 22.6             Alta     Sim        164              111
69     60 23.8             Alta     Sim        192              129
70     45 27.5         Moderada     Não        215               91
71     40 28.6         Moderada     Sim        188              124
72     33 27.6             Alta     Não        210              105
73     35 34.1             Alta     Sim        213              120
74     50 29.7            Baixa     Sim        239              130
75     71 26.2            Baixa     Não        180              129
76     38 22.4            Baixa     Não        199              143
77     19 36.7             Alta     Sim        183              122
78     29 27.7         Moderada     Não        166              109
79     44 22.3         Moderada     Sim        145              152
80     35 25.7         Moderada     Não        206              115
81     37 23.7            Baixa     Não        218              132
82     37 23.9         Moderada     Não        219              134
83     19 21.3             Alta     Não        158              127
84     37 25.5             Alta     Sim        166              141
85     53 26.3         Moderada     Não        166              117
86     50 20.7             Alta     Sim        179              102
87     48 12.1         Moderada     Sim        205              115
88     34 24.0             Alta     Não        218              112
89     37 25.1         Moderada     Não        176              125
90     22 27.4             Alta     Não        114              106
91     39 25.2            Baixa     Sim        229              130
92     44 26.7             Alta     Não        218              103
93     66 20.6             Alta     Não        179              146
94     55 27.8             Alta     Sim        168              142
95     33 27.9             Alta     Não        191              113
96     45 26.0             Alta     Sim        203              122
97     23 30.4            Baixa     Sim        222              114
98     53 26.6         Moderada     Sim        242              102
99     55 26.1            Baixa     Sim        175               80
100    72 26.1             Alta     Sim        209              120
101    46 26.7         Moderada     Não        240              119
102    33 29.2             Alta     Sim        173              145
103    41 26.8         Moderada     Sim        193               90
104    32 27.7             Alta     Sim        147              110
105    28 20.5            Baixa     Não        209              133
106    43 23.5            Baixa     Não        181              125
107    27 30.9             Alta     Sim        172              122
108    43 20.1             Alta     Sim        177              111
109    45 26.0             Alta     Não        213              123
110    39 26.6         Moderada     Não        135              116
111    37 28.9             Alta     Sim        187              122
112    30 23.6             Alta     Sim        170              111
113    23 25.6         Moderada     Sim        171              138
114    53 17.9             Alta     Sim        214              136
115    40 26.4             Alta     Sim        211              140
116    52 22.3            Baixa     Sim        197              114
117    21 24.0            Baixa     Sim        216              115
118    43 20.2            Baixa     Sim        182              115
119    50 26.5         Moderada     Não        139              141
120    40 27.7            Baixa     Não        235              116
121    37 23.8            Baixa     Não        193              121
122    28 32.3             Alta     Sim        189              126
123    71 27.7             Alta     Sim        205              130
124    51 28.8         Moderada     Sim        223              116
125    67 33.2             Alta     Sim        213              155
126    41 22.4             Alta     Não        228              106
127    31 28.2            Baixa     Sim        201               99
128    17 28.9         Moderada     Sim        185              121
129    30 25.0         Moderada     Sim        191              147
130    43 26.3            Baixa     Não        225              121
131    55 21.0             Alta     Não        175              122
132    44 26.9            Baixa     Sim        171              133
133    22 22.2             Alta     Sim        209              119
134    50 28.3            Baixa     Não        218              122
135    15 21.8         Moderada     Não        149              138
136    35 26.3            Baixa     Não        224              121
137    35 21.6            Baixa     Sim        200              109
138    11 24.0             Alta     Não        195              126
139    54 18.8         Moderada     Sim        233              104
140    31 25.5            Baixa     Não        244               98
141    35 28.9             Alta     Não        166              118
142    61 25.7         Moderada     Sim        230              103
143    50 17.9         Moderada     Não        181              129
144    38 22.5             Alta     Não        204              118
145    48 31.6            Baixa     Sim        214              109
146    46 32.2            Baixa     Não        204              144
147    65 20.3             Alta     Não        156              118
148    44 23.5            Baixa     Sim        185              141
149    48 26.4            Baixa     Sim        246              118
150    45 26.3             Alta     Não        205              115

Relação entre Variáveis Qualitativas e Quantitativas

Exemplo: Relação entre Atividade Física e IMC

Para investigar a relação entre uma variável qualitativa (Atividade_Fisica) e uma quantitativa (IMC), podemos calcular estatísticas descritivas de IMC para cada nível de Atividade_Física.

Code
# Estatísticas descritivas do IMC por nível de Atividade Física
library(dplyr)
dados %>%
  group_by(Atividade_Fisica) %>%
  summarise(
    Média_IMC = mean(IMC),
    Mediana_IMC = median(IMC),
    Desvio_Padrão_IMC = sd(IMC)
  )
# A tibble: 3 × 4
  Atividade_Fisica Média_IMC Mediana_IMC Desvio_Padrão_IMC
  <fct>                <dbl>       <dbl>             <dbl>
1 Alta                  25.7        25.8              4.20
2 Baixa                 25.0        24.6              4.13
3 Moderada              25.7        26.4              4.15

Gráfico de boxplot para IMC por nível de Atividade Física

Code
# Gráfico de boxplot para IMC por nível de Atividade Física
library(ggplot2)

p<-ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica)) +
  geom_boxplot() +
  labs(title = "Boxplot de IMC por Nível de Atividade Física",
       x = "Nível de Atividade Física",
       y = "IMC") +
  theme_minimal() 

p1<-ggplotly(p)
p1

Gráfico 1: Boxplot de IMC por Nível de Atividade Física

Interpretação:

O gráfico de boxplot exibe a distribuição do Índice de Massa Corporal (IMC) para cada nível de atividade física (“Baixa”, “Moderada”, “Alta”). Ele mostra os seguintes pontos principais:

  • Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.

    • Os indivíduos com atividade física alta e baixa tendem a ter um IMC mediano um pouco menor do que aqueles com atividade física moderada.
  • Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.

    • atividade física baixa apresenta uma maior variação no IMC, sugerindo que pessoas com atividade física baixa têm IMCs mais variados, enquanto a atividade física alta tem a menor dispersão.
  • Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito acima ou abaixo do esperado para cada grupo.

    • Alguns outliers são visíveis no grupo de atividade física baixa, indicando a presença de indivíduos com IMC muito altos neste grupo.

Conclusão: Há uma leve tendência de que, conforme aumenta o nível de atividade física, o IMC tende a diminuir, mas há também variações consideráveis dentro de cada grupo.

Relação entre Variáveis Qualitativa e Qualitativa

Exemplo: Relação entre Fumar e Atividade Física

Para investigar a relação entre duas variáveis qualitativas, podemos usar uma tabela de contingência entre as variáveis Fumante e Atividade_Física.

Code
# Tabela de contingência entre Fumar e Atividade Física
tabela_contingencia <- table(dados$Fumante, dados$Atividade_Fisica)
tabela_contingencia
     
      Alta Baixa Moderada
  Não   26    23       22
  Sim   30    25       24

Tabela de Contingência - Relação entre Fumar e Atividade Física

Interpretação:

A tabela de contingência fornece a contagem de fumantes e não fumantes dentro de cada nível de atividade física. A partir dessa tabela, podemos observar:

  • Atividade Física Alta: Parece ter uma proporção maior de fumantes comparado aos níveis de atividade física moderada e baixa.

  • Atividade Física Baixa: Apresenta uma menor proporção de fumantes em relação à atividade física alta.

Essas observações podem indicar uma possível associação entre fumar e o nível de atividade física. Indivíduos com alta atividade física tendem a fumar mais.

Podemos testar a associação entre essas variáveis com o teste do qui-quadrado.

Testando a hipótese de Associação entre o Hábito de fumar e Atividade física

Pressuposições do Teste Qui-Quadrado

O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:

  1. Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.

  2. Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.

  3. Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.

  4. Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.

Hipóteses do Teste Qui-Quadrado

O teste qui-quadrado é utilizado para verificar se há uma associação entre duas variáveis qualitativas. No caso deste estudo, estamos interessados em avaliar a relação entre ser fumante e o nível de atividade física.

  • Hipótese Nula (H₀): As variáveis “Fumar” e “Atividade Física” são independentes, ou seja, a proporção de fumantes não difere entre os diferentes níveis de atividade física.

    [ H_0: ]

  • Hipótese Alternativa (H₁): O hábito de fumar e atividade fisica não são independentes(estão associadas)

    [ H_1: ]

Code
# Teste do Qui-Quadrado para verificar associação entre Fumar e Atividade Física
teste_qui <- chisq.test(tabela_contingencia)
teste_qui

    Pearson's Chi-squared test

data:  tabela_contingencia
X-squared = 0.029421, df = 2, p-value = 0.9854

Interpretação dos Resultados

Após realizar o teste qui-quadrado, avaliamos o valor-p obtido:

  • Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula, o que indica que existe uma associação significativa entre “Fumar” e “Atividade Física”.

  • Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, ou seja, não temos evidências suficientes para concluir que as variáveis são dependentes.

O valor-p obtido é 0.9854, sendo maior que o nivel de significancia (0,005), assim não rejeitamos a hipotese nula, o que indica que não existe evidencias suficientes para concluir que as variáveis são dependentes.

Relação entre Variáveis Quantitativas

Neste exemplo, apresentamos três tipos de relação linear: Correlação PositivaCorrelação Negativa e Ausência de Correlação. Abaixo, as figuras são exibidas lado a lado para facilitar a visualização.