Os seguintes objetos são mascarados por 'package:stats':
filter, lag
Os seguintes objetos são mascarados por 'package:base':
intersect, setdiff, setequal, union
Code
library(plotly)
Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':
last_plot
O seguinte objeto é mascarado por 'package:stats':
filter
O seguinte objeto é mascarado por 'package:graphics':
layout
Introdução
Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.
Code
# Definindo semente para reprodutibilidadeset.seed(1234)# Criando conjunto de dados simuladon <-150dados <-data.frame(Idade =round(rnorm(n, mean =40, sd =15)),IMC =round(rnorm(n, mean =25, sd =4), 1),Atividade_Fisica =factor(sample(c("Baixa", "Moderada", "Alta"), n, replace =TRUE)),Fumante =factor(sample(c("Sim", "Não"), n, replace =TRUE)),Colesterol =round(rnorm(n, mean =200, sd =30)), Pressão_Arterial =round(rnorm(n, mean =120, sd =15)))# Visualizando as primeiras linhas do conjunto de dadoshead(dados)
Idade IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1 22 23.5 Moderada Sim 173 107
2 44 25.4 Moderada Não 191 110
3 56 31.6 Moderada Sim 242 136
4 5 21.5 Moderada Não 227 125
5 46 25.5 Moderada Não 208 107
6 48 30.4 Baixa Sim 183 120
7 31 24.1 Alta Não 199 129
8 32 20.8 Alta Sim 216 146
9 32 21.5 Baixa Sim 185 107
10 27 23.4 Baixa Sim 232 114
11 33 21.6 Baixa Sim 233 135
12 25 24.0 Alta Sim 165 113
13 28 23.3 Alta Não 178 142
14 41 24.3 Baixa Não 236 136
15 54 26.6 Moderada Não 149 95
16 38 27.5 Alta Sim 213 126
17 32 31.7 Baixa Não 207 99
18 26 24.7 Baixa Não 296 98
19 27 23.7 Baixa Sim 118 121
20 76 30.9 Alta Sim 175 121
21 42 31.8 Baixa Não 220 120
22 33 25.2 Alta Sim 250 139
23 33 23.7 Moderada Não 225 124
24 47 17.7 Baixa Não 157 110
25 30 30.6 Baixa Sim 267 122
26 18 21.6 Baixa Sim 147 112
27 49 20.5 Alta Não 167 119
28 25 37.2 Alta Não 199 103
29 40 25.9 Moderada Não 267 118
30 26 24.9 Alta Não 215 122
31 57 14.1 Moderada Não 222 109
32 33 24.6 Baixa Não 252 121
33 29 28.9 Baixa Sim 230 110
34 32 26.7 Baixa Sim 163 110
35 16 28.6 Moderada Sim 221 117
36 22 32.9 Moderada Sim 197 127
37 7 29.7 Baixa Não 253 117
38 20 23.0 Moderada Sim 193 123
39 36 27.8 Moderada Sim 154 135
40 33 24.2 Moderada Sim 215 116
41 62 22.8 Baixa Sim 211 118
42 24 13.6 Baixa Não 199 128
43 27 21.8 Alta Não 168 101
44 36 27.0 Moderada Não 175 128
45 25 33.7 Moderada Sim 200 112
46 25 27.0 Moderada Sim 231 103
47 23 27.5 Moderada Não 189 93
48 21 21.1 Alta Não 174 109
49 32 25.7 Alta Sim 119 102
50 33 16.7 Baixa Não 215 102
51 13 26.9 Alta Não 213 144
52 31 27.8 Moderada Não 239 102
53 23 25.7 Moderada Sim 244 135
54 25 27.8 Alta Sim 196 128
55 38 26.2 Alta Sim 239 107
56 48 28.0 Moderada Sim 200 111
57 65 32.4 Moderada Sim 180 114
58 28 29.4 Moderada Sim 175 123
59 64 25.1 Alta Não 190 115
60 23 20.5 Alta Sim 207 132
61 50 26.7 Alta Não 199 116
62 78 23.4 Baixa Sim 206 88
63 39 31.0 Alta Não 206 119
64 30 18.6 Baixa Sim 221 92
65 40 23.3 Baixa Não 192 134
66 67 26.7 Baixa Não 249 109
67 23 24.4 Moderada Não 213 103
68 61 22.6 Alta Sim 164 111
69 60 23.8 Alta Sim 192 129
70 45 27.5 Moderada Não 215 91
71 40 28.6 Moderada Sim 188 124
72 33 27.6 Alta Não 210 105
73 35 34.1 Alta Sim 213 120
74 50 29.7 Baixa Sim 239 130
75 71 26.2 Baixa Não 180 129
76 38 22.4 Baixa Não 199 143
77 19 36.7 Alta Sim 183 122
78 29 27.7 Moderada Não 166 109
79 44 22.3 Moderada Sim 145 152
80 35 25.7 Moderada Não 206 115
81 37 23.7 Baixa Não 218 132
82 37 23.9 Moderada Não 219 134
83 19 21.3 Alta Não 158 127
84 37 25.5 Alta Sim 166 141
85 53 26.3 Moderada Não 166 117
86 50 20.7 Alta Sim 179 102
87 48 12.1 Moderada Sim 205 115
88 34 24.0 Alta Não 218 112
89 37 25.1 Moderada Não 176 125
90 22 27.4 Alta Não 114 106
91 39 25.2 Baixa Sim 229 130
92 44 26.7 Alta Não 218 103
93 66 20.6 Alta Não 179 146
94 55 27.8 Alta Sim 168 142
95 33 27.9 Alta Não 191 113
96 45 26.0 Alta Sim 203 122
97 23 30.4 Baixa Sim 222 114
98 53 26.6 Moderada Sim 242 102
99 55 26.1 Baixa Sim 175 80
100 72 26.1 Alta Sim 209 120
101 46 26.7 Moderada Não 240 119
102 33 29.2 Alta Sim 173 145
103 41 26.8 Moderada Sim 193 90
104 32 27.7 Alta Sim 147 110
105 28 20.5 Baixa Não 209 133
106 43 23.5 Baixa Não 181 125
107 27 30.9 Alta Sim 172 122
108 43 20.1 Alta Sim 177 111
109 45 26.0 Alta Não 213 123
110 39 26.6 Moderada Não 135 116
111 37 28.9 Alta Sim 187 122
112 30 23.6 Alta Sim 170 111
113 23 25.6 Moderada Sim 171 138
114 53 17.9 Alta Sim 214 136
115 40 26.4 Alta Sim 211 140
116 52 22.3 Baixa Sim 197 114
117 21 24.0 Baixa Sim 216 115
118 43 20.2 Baixa Sim 182 115
119 50 26.5 Moderada Não 139 141
120 40 27.7 Baixa Não 235 116
121 37 23.8 Baixa Não 193 121
122 28 32.3 Alta Sim 189 126
123 71 27.7 Alta Sim 205 130
124 51 28.8 Moderada Sim 223 116
125 67 33.2 Alta Sim 213 155
126 41 22.4 Alta Não 228 106
127 31 28.2 Baixa Sim 201 99
128 17 28.9 Moderada Sim 185 121
129 30 25.0 Moderada Sim 191 147
130 43 26.3 Baixa Não 225 121
131 55 21.0 Alta Não 175 122
132 44 26.9 Baixa Sim 171 133
133 22 22.2 Alta Sim 209 119
134 50 28.3 Baixa Não 218 122
135 15 21.8 Moderada Não 149 138
136 35 26.3 Baixa Não 224 121
137 35 21.6 Baixa Sim 200 109
138 11 24.0 Alta Não 195 126
139 54 18.8 Moderada Sim 233 104
140 31 25.5 Baixa Não 244 98
141 35 28.9 Alta Não 166 118
142 61 25.7 Moderada Sim 230 103
143 50 17.9 Moderada Não 181 129
144 38 22.5 Alta Não 204 118
145 48 31.6 Baixa Sim 214 109
146 46 32.2 Baixa Não 204 144
147 65 20.3 Alta Não 156 118
148 44 23.5 Baixa Sim 185 141
149 48 26.4 Baixa Sim 246 118
150 45 26.3 Alta Não 205 115
Relação entre Variáveis Qualitativas e Quantitativas
Exemplo: Relação entre Atividade Física e IMC
Para investigar a relação entre uma variável qualitativa (Atividade_Fisica) e uma quantitativa (IMC), podemos calcular estatísticas descritivas de IMC para cada nível de Atividade_Física.
Code
# Estatísticas descritivas do IMC por nível de Atividade Físicalibrary(dplyr)dados %>%group_by(Atividade_Fisica) %>%summarise( Média_IMC =mean(IMC),Mediana_IMC =median(IMC), Desvio_Padrão_IMC =sd(IMC) )
Gráfico de boxplot para IMC por nível de Atividade Física
Code
# Gráfico de boxplot para IMC por nível de Atividade Físicalibrary(ggplot2)p<-ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica)) +geom_boxplot() +labs(title ="Boxplot de IMC por Nível de Atividade Física",x ="Nível de Atividade Física",y ="IMC") +theme_minimal() p1<-ggplotly(p)p1
Gráfico 1: Boxplot de IMC por Nível de Atividade Física
Interpretação:
O gráfico de boxplot exibe a distribuição do Índice de Massa Corporal (IMC) para cada nível de atividade física (“Baixa”, “Moderada”, “Alta”). Ele mostra os seguintes pontos principais:
Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.
Os indivíduos com atividade física alta e baixa tendem a ter um IMC mediano um pouco menor do que aqueles com atividade física moderada.
Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.
A atividade física baixa apresenta uma maior variação no IMC, sugerindo que pessoas com atividade física baixa têm IMCs mais variados, enquanto a atividade física alta tem a menor dispersão.
Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito acima ou abaixo do esperado para cada grupo.
Alguns outliers são visíveis no grupo de atividade física baixa, indicando a presença de indivíduos com IMC muito altos neste grupo.
Conclusão: Há uma leve tendência de que, conforme aumenta o nível de atividade física, o IMC tende a diminuir, mas há também variações consideráveis dentro de cada grupo.
Relação entre Variáveis Qualitativa e Qualitativa
Exemplo: Relação entre Fumar e Atividade Física
Para investigar a relação entre duas variáveis qualitativas, podemos usar uma tabela de contingência entre as variáveis Fumante e Atividade_Física.
Code
# Tabela de contingência entre Fumar e Atividade Físicatabela_contingencia <-table(dados$Fumante, dados$Atividade_Fisica)tabela_contingencia
Alta Baixa Moderada
Não 26 23 22
Sim 30 25 24
Tabela de Contingência - Relação entre Fumar e Atividade Física
Interpretação:
A tabela de contingência fornece a contagem de fumantes e não fumantes dentro de cada nível de atividade física. A partir dessa tabela, podemos observar:
Atividade Física Alta: Parece ter uma proporção maior de fumantes comparado aos níveis de atividade física moderada e baixa.
Atividade Física Baixa: Apresenta uma menor proporção de fumantes em relação à atividade física alta.
Essas observações podem indicar uma possível associação entre fumar e o nível de atividade física. Indivíduos com alta atividade física tendem a fumar mais.
Podemos testar a associação entre essas variáveis com o teste do qui-quadrado.
Testando a hipótese de Associação entre o Hábito de fumar e Atividade física
Pressuposições do Teste Qui-Quadrado
O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:
Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.
Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.
Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.
Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.
Hipóteses do Teste Qui-Quadrado
O teste qui-quadrado é utilizado para verificar se há uma associação entre duas variáveis qualitativas. No caso deste estudo, estamos interessados em avaliar a relação entre ser fumante e o nível de atividade física.
Hipótese Nula (H₀): As variáveis “Fumar” e “Atividade Física” são independentes, ou seja, a proporção de fumantes não difere entre os diferentes níveis de atividade física.
[ H_0: ]
Hipótese Alternativa (H₁): O hábito de fumar e atividade fisica não são independentes(estão associadas)
[ H_1: ]
Code
# Teste do Qui-Quadrado para verificar associação entre Fumar e Atividade Físicateste_qui <-chisq.test(tabela_contingencia)teste_qui
Após realizar o teste qui-quadrado, avaliamos o valor-p obtido:
Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula, o que indica que existe uma associação significativa entre “Fumar” e “Atividade Física”.
Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, ou seja, não temos evidências suficientes para concluir que as variáveis são dependentes.
O valor-p obtido é 0.9854, sendo maior que o nivel de significancia (0,005), assim não rejeitamos a hipotese nula, o que indica que não existe evidencias suficientes para concluir que as variáveis são dependentes.
Relação entre Variáveis Quantitativas
Neste exemplo, apresentamos três tipos de relação linear: Correlação Positiva, Correlação Negativa e Ausência de Correlação. Abaixo, as figuras são exibidas lado a lado para facilitar a visualização.