Os seguintes objetos são mascarados por 'package:stats':
filter, lag
Os seguintes objetos são mascarados por 'package:base':
intersect, setdiff, setequal, union
Code
library(plotly)
Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':
last_plot
O seguinte objeto é mascarado por 'package:stats':
filter
O seguinte objeto é mascarado por 'package:graphics':
layout
Code
library(corrplot)
corrplot 0.95 loaded
Code
library(ggcorrplot)library(psych)
Anexando pacote: 'psych'
Os seguintes objetos são mascarados por 'package:ggplot2':
%+%, alpha
Code
library(polycor)
Anexando pacote: 'polycor'
O seguinte objeto é mascarado por 'package:psych':
polyserial
Code
library(ltm)
Carregando pacotes exigidos: MASS
Anexando pacote: 'MASS'
O seguinte objeto é mascarado por 'package:plotly':
select
O seguinte objeto é mascarado por 'package:dplyr':
select
Carregando pacotes exigidos: msm
Anexando pacote: 'ltm'
O seguinte objeto é mascarado por 'package:psych':
factor.scores
Introdução
Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.
Code
# Definindo semente para reprodutibilidadeset.seed(1234)# Criando conjunto de dados simuladon <-150dados <-data.frame(Idade =round(rnorm(n, mean =40, sd =15)),IMC =round(rnorm(n, mean =25, sd =4), 1),Atividade_Fisica =factor(sample(c("Baixa", "Moderada", "Alta"), n, replace =TRUE)),Fumante =factor(sample(c("Sim", "Não"), n, replace =TRUE)),Colesterol =round(rnorm(n, mean =200, sd =30)), Pressão_Arterial =round(rnorm(n, mean =120, sd =15)))# Visualizando as primeiras linhas do conjunto de dadoshead(dados)
Idade IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1 22 23.5 Moderada Sim 173 107
2 44 25.4 Moderada Não 191 110
3 56 31.6 Moderada Sim 242 136
4 5 21.5 Moderada Não 227 125
5 46 25.5 Moderada Não 208 107
6 48 30.4 Baixa Sim 183 120
7 31 24.1 Alta Não 199 129
8 32 20.8 Alta Sim 216 146
9 32 21.5 Baixa Sim 185 107
10 27 23.4 Baixa Sim 232 114
11 33 21.6 Baixa Sim 233 135
12 25 24.0 Alta Sim 165 113
13 28 23.3 Alta Não 178 142
14 41 24.3 Baixa Não 236 136
15 54 26.6 Moderada Não 149 95
16 38 27.5 Alta Sim 213 126
17 32 31.7 Baixa Não 207 99
18 26 24.7 Baixa Não 296 98
19 27 23.7 Baixa Sim 118 121
20 76 30.9 Alta Sim 175 121
21 42 31.8 Baixa Não 220 120
22 33 25.2 Alta Sim 250 139
23 33 23.7 Moderada Não 225 124
24 47 17.7 Baixa Não 157 110
25 30 30.6 Baixa Sim 267 122
26 18 21.6 Baixa Sim 147 112
27 49 20.5 Alta Não 167 119
28 25 37.2 Alta Não 199 103
29 40 25.9 Moderada Não 267 118
30 26 24.9 Alta Não 215 122
31 57 14.1 Moderada Não 222 109
32 33 24.6 Baixa Não 252 121
33 29 28.9 Baixa Sim 230 110
34 32 26.7 Baixa Sim 163 110
35 16 28.6 Moderada Sim 221 117
36 22 32.9 Moderada Sim 197 127
37 7 29.7 Baixa Não 253 117
38 20 23.0 Moderada Sim 193 123
39 36 27.8 Moderada Sim 154 135
40 33 24.2 Moderada Sim 215 116
41 62 22.8 Baixa Sim 211 118
42 24 13.6 Baixa Não 199 128
43 27 21.8 Alta Não 168 101
44 36 27.0 Moderada Não 175 128
45 25 33.7 Moderada Sim 200 112
46 25 27.0 Moderada Sim 231 103
47 23 27.5 Moderada Não 189 93
48 21 21.1 Alta Não 174 109
49 32 25.7 Alta Sim 119 102
50 33 16.7 Baixa Não 215 102
51 13 26.9 Alta Não 213 144
52 31 27.8 Moderada Não 239 102
53 23 25.7 Moderada Sim 244 135
54 25 27.8 Alta Sim 196 128
55 38 26.2 Alta Sim 239 107
56 48 28.0 Moderada Sim 200 111
57 65 32.4 Moderada Sim 180 114
58 28 29.4 Moderada Sim 175 123
59 64 25.1 Alta Não 190 115
60 23 20.5 Alta Sim 207 132
61 50 26.7 Alta Não 199 116
62 78 23.4 Baixa Sim 206 88
63 39 31.0 Alta Não 206 119
64 30 18.6 Baixa Sim 221 92
65 40 23.3 Baixa Não 192 134
66 67 26.7 Baixa Não 249 109
67 23 24.4 Moderada Não 213 103
68 61 22.6 Alta Sim 164 111
69 60 23.8 Alta Sim 192 129
70 45 27.5 Moderada Não 215 91
71 40 28.6 Moderada Sim 188 124
72 33 27.6 Alta Não 210 105
73 35 34.1 Alta Sim 213 120
74 50 29.7 Baixa Sim 239 130
75 71 26.2 Baixa Não 180 129
76 38 22.4 Baixa Não 199 143
77 19 36.7 Alta Sim 183 122
78 29 27.7 Moderada Não 166 109
79 44 22.3 Moderada Sim 145 152
80 35 25.7 Moderada Não 206 115
81 37 23.7 Baixa Não 218 132
82 37 23.9 Moderada Não 219 134
83 19 21.3 Alta Não 158 127
84 37 25.5 Alta Sim 166 141
85 53 26.3 Moderada Não 166 117
86 50 20.7 Alta Sim 179 102
87 48 12.1 Moderada Sim 205 115
88 34 24.0 Alta Não 218 112
89 37 25.1 Moderada Não 176 125
90 22 27.4 Alta Não 114 106
91 39 25.2 Baixa Sim 229 130
92 44 26.7 Alta Não 218 103
93 66 20.6 Alta Não 179 146
94 55 27.8 Alta Sim 168 142
95 33 27.9 Alta Não 191 113
96 45 26.0 Alta Sim 203 122
97 23 30.4 Baixa Sim 222 114
98 53 26.6 Moderada Sim 242 102
99 55 26.1 Baixa Sim 175 80
100 72 26.1 Alta Sim 209 120
101 46 26.7 Moderada Não 240 119
102 33 29.2 Alta Sim 173 145
103 41 26.8 Moderada Sim 193 90
104 32 27.7 Alta Sim 147 110
105 28 20.5 Baixa Não 209 133
106 43 23.5 Baixa Não 181 125
107 27 30.9 Alta Sim 172 122
108 43 20.1 Alta Sim 177 111
109 45 26.0 Alta Não 213 123
110 39 26.6 Moderada Não 135 116
111 37 28.9 Alta Sim 187 122
112 30 23.6 Alta Sim 170 111
113 23 25.6 Moderada Sim 171 138
114 53 17.9 Alta Sim 214 136
115 40 26.4 Alta Sim 211 140
116 52 22.3 Baixa Sim 197 114
117 21 24.0 Baixa Sim 216 115
118 43 20.2 Baixa Sim 182 115
119 50 26.5 Moderada Não 139 141
120 40 27.7 Baixa Não 235 116
121 37 23.8 Baixa Não 193 121
122 28 32.3 Alta Sim 189 126
123 71 27.7 Alta Sim 205 130
124 51 28.8 Moderada Sim 223 116
125 67 33.2 Alta Sim 213 155
126 41 22.4 Alta Não 228 106
127 31 28.2 Baixa Sim 201 99
128 17 28.9 Moderada Sim 185 121
129 30 25.0 Moderada Sim 191 147
130 43 26.3 Baixa Não 225 121
131 55 21.0 Alta Não 175 122
132 44 26.9 Baixa Sim 171 133
133 22 22.2 Alta Sim 209 119
134 50 28.3 Baixa Não 218 122
135 15 21.8 Moderada Não 149 138
136 35 26.3 Baixa Não 224 121
137 35 21.6 Baixa Sim 200 109
138 11 24.0 Alta Não 195 126
139 54 18.8 Moderada Sim 233 104
140 31 25.5 Baixa Não 244 98
141 35 28.9 Alta Não 166 118
142 61 25.7 Moderada Sim 230 103
143 50 17.9 Moderada Não 181 129
144 38 22.5 Alta Não 204 118
145 48 31.6 Baixa Sim 214 109
146 46 32.2 Baixa Não 204 144
147 65 20.3 Alta Não 156 118
148 44 23.5 Baixa Sim 185 141
149 48 26.4 Baixa Sim 246 118
150 45 26.3 Alta Não 205 115
Observações:
As medidas descritivas MÉDIA, MODA, MEDIANA, QUARTIS e PERCENTIS devem ser calculados a partir de variáveis QUANTITATIVAS.
Para variável QUALITATIVA ou CATEGÓRICA pode-se aplicar a MODA como medida descritiva.
Relação entre Variáveis Qualitativas e Quantitativas
Exemplo: Relação entre Atividade Física e IMC
Para investigar a relação entre uma variável qualitativa (Atividade_Fisica) e uma quantitativa (IMC), podemos calcular estatísticas descritivas de IMC para cada nível de Atividade_Física.
Code
# Estatísticas descritivas do IMC por nível de Atividade Físicalibrary(dplyr)dados %>%group_by(Atividade_Fisica) %>%summarise( Média_IMC =mean(IMC),Mediana_IMC =median(IMC), Desvio_Padrão_IMC =sd(IMC) )
Gráfico de boxplot para IMC por nível de Atividade Física
Code
# Gráfico de boxplot para IMC por nível de Atividade Físicalibrary(ggplot2)p<-ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica)) +geom_boxplot() +labs(title ="Boxplot de IMC por Nível de Atividade Física",x ="Nível de Atividade Física",y ="IMC") +theme_minimal() p1<-ggplotly(p)p1
Gráfico 1: Boxplot de IMC por Nível de Atividade Física
Interpretação:
O gráfico de boxplot exibe a distribuição do Índice de Massa Corporal (IMC) para cada nível de atividade física (“Baixa”, “Moderada”, “Alta”). Ele mostra os seguintes pontos principais:
Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.
Os indivíduos com atividade física alta tendem a ter um IMC mediano um pouco menor (25,8) do que aqueles com atividade física moderada (26,4). No entanto quando comparados aos individos com atividade fisicabaixa (24,65) o IMC mediano é maior.
Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.
A atividade física alta (sd = 4,20) apresenta uma maior variação no IMC, sugerindo que pessoas com atividade física alta têm IMCs mais variados, enquanto a atividade física baixa tem a menor dispersão (sd = 4,13).
Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito acima ou abaixo do esperado para cada grupo.
Alguns outliers são visíveis no grupo de atividade física alta, baixa e moderada, indicando a presença de indivíduos com IMC muito altos para atividade física alta e moderada. O gráfico indica também a presença de Indivíduos com IMC muito baixo para atividade física baixa e moderada
Conclusão: Há uma leve tendência de que, conforme aumenta o nível de atividade física, o IMC tende a diminuir. No entanto, a variação significativa observada dentro de cada grupo indica que outros fatores podem estar influenciando esses resultados.
IMC está associado com a frequência de atividade física ?
Para investigar a associação entre uma variável qualitativa (como Atividade Física, caso seja dicotômica ou ordinal) e uma variável quantitativa contínua (como IMC), o coeficientie de correlação bisserial ou correlação polissérica são apropriados. Para calcular esses coeficientes no R, você pode usar pacotes como polycor, que oferece funções para obter tanto a correlação bisserial quanto a polissérica.
Correlação polissérica
Esse coeficiente é indicado se Atividade Física tiver mais de dois níveis ordenados (como “Nenhuma”, “Moderada”, “Alta”). Ele generaliza a correlação bisserial para uma variável qualitativa com categorias ordenadas e mede a associação entre uma variável contínua e uma qualitativa ordinal, assumindo uma normalidade latente subjacente.
Code
# Exemplo de dados para correlação polissérica# Suponha uma variável contínua Y e uma variável ordinal Xpolyserial_corr <-polyserial(dados$IMC,dados$Atividade_Fisica )polyserial_corr
[1] -0.009846785
Interpretação dos Coeficientes de Correlação
Para interpretar os coeficientes de correlação bisserial e polissérica e testar sua significância, segue:
**Correlação Polissérica ( $r_poly$): O coeficiente polissérico mede a associação entre uma variável contínua e uma variável ordinal, assumindo que a variável ordinal representa uma discretização de uma distribuição normal subjacente.
Valores altos de $r_ply$ (próximos de 1 ou -1) indicam uma associação forte entre a variável contínua e a variável ordinal, sugerindo uma mudança substancial nos valores médios ou na distribuição da variável contínua conforme as categorias da variável ordinal.
Valores baixos (próximos de 0) indicam uma associação fraca ou inexistente, sugerindo que as categorias da variável ordinal não correspondem a variações sistemáticas na variável contínua.
Testes de Significância
Para verificar a significância desses coeficientes, você pode aplicar testes estatísticos apropriados que avaliam a hipótese nula de que a correlação é zero (ou seja, que não há associação entre as variáveis).
Correlação Polissérica:
A significância do coeficiente de correlação polissérica é normalmente testada via estimativas de erro padrão obtidas durante o ajuste da correlação. Essas estimativas podem ser usadas para construir um teste z:
\(Z=\frac{r_p}{ErroP}\)
O coeficiente polissérico. Esse teste z pode ser usado para calcular o valor-p, assumindo uma distribuição normal padrão para o teste de significância.
No pacote polycor em R, a função polyserial() fornece uma estimativa do erro padrão para a correlação polissérica, permitindo realizar o teste de significância.
Esses métodos ajudam a avaliar se os coeficientes são estatisticamente diferentes de zero, confirmando a existência de uma associação significativa entre as variáveis contínua e qualitativa.
Code
# Extraia o valor de r_poly e o erro padrão# Extraia o valor de r_pr_p<- polyserial_corr# Tamanho da amostran <-length(dados$IMC)# Calcule o valor do teste t para r_bt_value <- r_p*sqrt((n -2)/(1- r_p^2))# Calcule o valor-p para o teste tp_value <-2*pt(-abs(t_value), df = n -2)# Resultadoscat("Correlação Polisserial aproximada (r_pa):", r_p, "\n")
Escolhido o nível de sgnificância geralmente 5% (0,05).
Hipótese do teste:
\(H_0: r_p=0\)
\(H_1:r_p\neq1\)
Possíveis interpretações
Se o valor \(p\<0,05\) , rejeita-se \(H_0\) e conclui-se que o coeficiente de correlação polissérico estimado é estattísticamente significativo .
Se o valor \(p 0,05\) , NÃO rejeita-se \(H_0\) e conclui-se que o coeficiente de correlação polissérico estimado NÃO É estatísticamente significativo .
Conclusão para o teste aplicado: De acordo com o teste t , não reijeitamos a hipótese de que o coeficiente polissérico estimado é igual a zero , logo , concluímos que a correlação estimada não é estatisticamente significativa, obtendo um valor p = 0.9.
Correlação bisserial
Esse coeficiente é adequado se Fumante for dicotômica (com dois níveis, como “Sim” e “Não”). Ele mede a associação entre uma variável contínua (como IMC) e uma variável binária que se supõe representar uma divisão de uma variável latente normal subjacente. O coeficiente bisserial estima a correlação subjacente assumindo que a variável dicotômica resulta de uma “dichotomização” de uma distribuição normal.
Code
library(ltm)# Exemplo de dados para correlação bisserial# Suponha uma variável contínua Y e uma variável dicotômica Xbiserial_corr <-biserial.cor(dados$IMC, dados$Fumante)biserial_corr
[1] -0.1428736
Code
# Exemplo de dados para correlação bisserial# Suponha uma variável contínua Y e uma variável dicotômica Xbiserial_corr <-biserial.cor(dados$IMC, dados$Fumante)biserial_corr
[1] -0.1428736
#### Testando a significância
Code
# Extraia o valor de r_poly e o erro padrãor_b<- biserial_corr# Tamanho da amostran <-length(dados$IMC)# Calcule o valor do teste t para r_bt_value <- r_b*sqrt((n -2)/(1- r_b^2))# Calcule o valor-p para o teste tp_value <-2*pt(-abs(t_value), df = n -2)# Resultadoscat("Correlação Bisserial aproximada (r_b):", r_b, "\n")
Correlação Bisserial aproximada (r_b): -0.1428736
Code
cat("Valor t:", t_value, "\n")
Valor t: -1.756149
Code
cat("Valor-p:", p_value, "\n")
Valor-p: 0.08113143
Conclusão para o teste aplicado: De acordo com o teste t , reijeitamos a hipótese de que o coeficiente biserial estimado é igual a zero , logo , concluímos que a correlação estimada é estatisticamente significativa.
Testando a hipotese de associação entre o hábito de fumar e atividade física - Teste Qui-Quadrado
Pressuposições do Teste Qui-Quadrado
O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:
Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.
Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.
Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.
Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.
Essas hipóteses e pressuposições são essenciais para realizar o teste qui-quadrado de forma correta e interpretar seus resultados adequadamente.
Hipóteses e Pressuposições para o Teste Qui-Quadrado
Nesta seção, descrevemos as hipóteses e as pressuposições envolvidas no teste qui-quadrado, aplicado para investigar a associação entre as variáveis “Fumar” e “Atividade Física”.
Hipóteses do Teste Qui-Quadrado
O teste qui-quadrado é utilizado para verificar se há uma associação entre duas variáveis qualitativas. No caso deste estudo, estamos interessados em avaliar a relação entre ser fumante e o nível de atividade física.
Hipótese Nula (H₀): As variáveis “Fumar” e “Atividade Física” são independentes, ou seja, a proporção de fumantes não difere entre os diferentes níveis de atividade física.
[ H_0: ]
Hipótese Alternativa (H₁): O habito de fumar “Fumar” e “Atividade Física” não são independentes (estão associadas)
Após realizar o teste qui-quadrado, avaliamos o valor-p obtido:
Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula, o que indica que existe uma associação significativa entre “Fumar” e “Atividade Física”.
Se o valor-p for maior a 0,05, não rejeitamos a hipótese nula, ou seja, não temos evidências suficientes para concluir que as variáveis são independentes.
Conclusão: De acordo com teste qui-quadrado (valor p = 0,9854), indica que não temos evidências suficientes para concluir que as variáveis são dependentes. Ou seja, o hábito de fumo não está associado com Atividade física ao nível de 5 % de significância.
Relação entre Variáveis Quantitativas
Neste exemplo, apresentamos três tipos de relação linear: Correlação Positiva, Correlação Negativa e Ausência de Correlação. Abaixo, as figuras são exibidas lado a lado para facilitar a visualização.
GERAÇÃO DAS FIGURAS NO R.
Correlação entre colesterol e pressão arterial
Code
ggplot(dados, aes(x = Colesterol, y = Pressão_Arterial)) +geom_point() +geom_smooth(method ="lm", col ="blue") +labs(title ="Gráfico de Dispersão: Colesterol vs Pressão Arterial",x ="Colesterol",y ="Pressão Arterial") +theme_minimal()
`geom_smooth()` using formula = 'y ~ x'
Correlação de Pearson
Code
# Correlação de Pearson entre Colesterol e Pressão Arterialcorrelacao <-cor(dados$Colesterol, dados$Pressão_Arterial)correlacao
[1] -0.07319944
Hipóteses e Pressuposições para a Correlação de Pearson
Nesta seção, descrevemos as hipóteses e pressuposições para a aplicação da correlação de Pearson, que é usada para medir a relação linear entre duas variáveis quantitativas. No exemplo, investigamos a relação entre as variáveis “Colesterol” e “Pressão Arterial”.
Hipóteses da Correlação de Pearson
A correlação de Pearson avalia a força e a direção da relação linear entre duas variáveis contínuas. Suas hipóteses são definidas da seguinte maneira:
Hipótese Nula (H₀): Não existe correlação linear entre as duas variáveis; o coeficiente de correlação populacional é igual a zero.
Hipótese Alternativa (H₁): Existe uma correlação linear entre as duas variáveis; o coeficiente de correlação populacional é diferente de zero.
Code
# Q-Q plotqqnorm(dados$Colesterol, main ="Q-Q Plot para Verificação de Normalidade")qqline(dados$Colesterol, col ="red", lwd =2) # Adiciona a linha de referência
Gráfico Q-Q: Apresenta os quantis da amostra em comparação com os quantis de uma distribuição normal teórica. Como os pontos estão alinhados próximos à linha vermelha, isso sugere que os dados seguem uma distribuição normal.
Code
# Exemplo de código em R para o teste de Shapiro-Wilkshapiro.test(dados$Colesterol)
Shapiro-Wilk normality test
data: dados$Colesterol
W = 0.99371, p-value = 0.7606
Conclusão: Com base no valor-p do teste de Shapiro-Wilk (0,7606), e na análise do gráfico Q-Q, podemos concluir que os dados de colesterol seguem uma distribuição normal, ou pelo menos não há evidências suficientes para rejeitar a normalidade.
Code
shapiro.test(dados$Pressão_Arterial)
Shapiro-Wilk normality test
data: dados$Pressão_Arterial
W = 0.99392, p-value = 0.7836
Homocedasticidade: A variância dos valores ao longo da linha de regressão deve ser constante, ou seja, a dispersão dos pontos deve ser similar para todos os valores das variáveis. Caso contrário, pode haver heterocedasticidade, o que viola esta pressuposição.
Code
# Aplicando o teste de Bartlettbartlett.test(dados$Colesterol~dados$Atividade_Fisica)
Bartlett test of homogeneity of variances
data: dados$Colesterol by dados$Atividade_Fisica
Bartlett's K-squared = 2.6258, df = 2, p-value = 0.269
H0: afirma que todas as variâncias dos grupos são iguais.
H1: sugere que pelo menos uma das variâncias é diferente.
Como o valor-p (0,269) é maior que 0,05, não há evidências estatísticas suficientes para rejeitar a hipótese nula de que as variâncias são iguais entre os grupos. Isso Com base nesses dados, podemos assumir homogeneidade de variâncias para os grupos de atividade física em relação aos níveis de colesterol.
Escala de Medição: Ambas as variáveis devem ser medidas em uma escala intervalar ou de razão (QUANTITATIVAS).
Cálculo e Interpretação da Correlação de Pearson
O coeficiente de correlação de Pearson (( r )) varia entre -1 e 1:
( r = 1 ): Correlação linear perfeita positiva.
( r = -1 ): Correlação linear perfeita negativa.
( r = 0 ): Nenhuma correlação linear.
Interpretação dos Resultados
A magnitude e a direção da correlação são determinadas pelo valor de ( r ):
Correlação forte: Quando ( r ) está próximo de -1 ou 1, indicando uma forte relação linear.
Correlação fraca: Quando ( r ) está próximo de 0, indicando uma fraca ou inexistente relação linear.
Significado do sinal: Se ( r ) for positivo, a relação entre as variáveis é direta (aumento de uma variável corresponde ao aumento da outra). Se ( r ) for negativo, a relação é inversa (aumento de uma variável corresponde à diminuição da outra).
Essas hipóteses e pressuposições são fundamentais para realizar a análise de correlação de Pearson corretamente e interpretar seus resultados de forma adequada
Conclusão : O gráfico de pontos e coeficiente de correlação de Pearson (r) indicam que a correlação entre o nível de Colesterol e a Pressão arterial é fraca. O valor negativo indica que a relação entre essas variaveis é inversa, o aumento do Colesterol corresponde a diminiução da Pressão arterial.
Code
# Testa se existe correlacao entre o consumo de sorvete e a temperaturacor.test(x = dados$Colesterol, y = dados$Pressão_Arterial, method ="pearson")
Pearson's product-moment correlation
data: dados$Colesterol and dados$Pressão_Arterial
t = -0.8929, df = 148, p-value = 0.3734
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.23075398 0.08809554
sample estimates:
cor
-0.07319944
Após calcular a correlação, o valor-p associado ao teste pode ser utilizado para verificar a significância estatística:
Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula e concluímos que existe uma correlação linear significativa entre as duas variáveis.
Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, o que indica que não há evidências suficientes de uma correlação linear significativa entre as variáveis.
Conclusão : De acordo com o teste de correlação, as variáveis Colesterol e Pressão arterial não estão correlacionadas significativamente, ao nível de 5% de significância.
Matriz de correlação - Variáveis Misturadas
Code
#Transformando todas as variáveis em numéricasdados$Idade <-as.numeric(dados$Idade)dados$IMC <-as.numeric(dados$IMC)dados$Atividade_Fisica <-as.numeric(dados$Atividade_Fisica)dados$Fumante <-as.numeric(dados$Fumante)dados$Colesterol <-as.numeric(dados$Colesterol)dados$Pressão_Arterial <-as.numeric(dados$Pressão_Arterial)names(dados)
List of 6
$ rho : num [1:6, 1:6] 1 -0.0419 -0.0659 0.0655 -0.0064 ...
..- attr(*, "dimnames")=List of 2
.. ..$ : chr [1:6] "Idade" "IMC" "Atividade_Fisica" "Fumante" ...
.. ..$ : chr [1:6] "Idade" "IMC" "Atividade_Fisica" "Fumante" ...
$ rx : 'psych' num [1:4, 1:4] 1 -0.0419 -0.0064 -0.0134 -0.0419 ...
..- attr(*, "dimnames")=List of 2
.. ..$ : chr [1:4] "Idade" "IMC" "Colesterol" "Pressão_Arterial"
.. ..$ : chr [1:4] "Idade" "IMC" "Colesterol" "Pressão_Arterial"
$ poly :List of 2
..$ rho: num 1
..$ tau: NULL
$ tetra:List of 2
..$ rho: num 1
..$ tau: NULL
$ rpd : num [1, 1] -0.0169
..- attr(*, "dimnames")=List of 2
.. ..$ : chr "Atividade_Fisica"
.. ..$ : chr "Fumante"
$ Call : language mixedCor(data = dados, c = c(1, 2, 5, 6), p = 3, d = 4, smooth = F, correct = 0)
- attr(*, "class")= chr [1:2] "psych" "mixed"
Observação: Variáveis Poli, são variáveis categóricas com mais de dois níveis
A função mixedCor requer que todas as variáveis sejam de natureza numérica (Quantitativa).
Argumentos da função mixedCor:
p = posição de variáveis categóricas com mais de 2 níveis presentes no conjunto de dados;
c = posição variáveis contínuas no conjunto de dados;
d = posição variáveis categóricas com 2 níveis (dicotômica) presentes no conjuntos de dados.
Code
Rho<-Mmixed[["rho"]] #Considerando apenas os coeficientes de correlação (rho)Rho<-round(Rho, 2) #Considerar 2 casas após a vírgulaRho<-as.data.frame(Rho) #Transformando o conjunto com os valores do coenficiente em "planilha".
Code
library(ggcorrplot)Correlogram<-ggcorrplot(Rho, type ="upper", lab =TRUE)library(plotly)Correlogram<-ggplotly(Correlogram)Correlogram
Comparação entre grupos
Hipóteses do Teste t para Amostras Independentes
O teste t de Student é utilizado para comparar as médias de dois grupos independentes. As hipóteses nula e alternativa para o teste t são definidas da seguinte forma:
Hipótese Nula (H₀):
A hipótese nula postula que não há diferença entre as médias dos dois grupos, ou seja, as médias são estatisticamente iguais.
[ $H_0: _1 = _2 ]
Onde: - ( _1 ) é a média do Grupo 1. - ( _2 ) é a média do Grupo 2.
Hipótese Alternativa (H₁):
A hipótese alternativa postula que há uma diferença entre as médias dos dois grupos. Ela pode ser:
1. Teste bicaudal (bilateral):
Sugere que as médias dos grupos são diferentes, mas sem especificar a direção da diferença.
[ H_1: _1 _2 ]
2. Teste unicaudal à direita (direcional):
Sugere que a média do Grupo 1 é maior do que a do Grupo 2.
[ H_1: _1 > _2 ]
3. Teste unicaudal à esquerda (direcional):
Sugere que a média do Grupo 1 é menor do que a do Grupo 2.
[ H_1: _1 < _2 ]
Relação entre Variáveis Qualitativa e Qualitativa
Exemplo: Relação entre Fumar e Atividade Física
Para investigar a relação entre duas variáveis qualitativas, podemos usar uma tabela de contingência entre as variáveis Fumante e Atividade_Física.
Tabela de Contingência - Relação entre Fumar e Atividade Física
Code
# Tabela de contingência entre Fumar e Atividade Físicatabela_contingencia <-table(dados$Fumante, dados$Atividade_Fisica)tabela_contingencia
1 2 3
1 26 23 22
2 30 25 24
Interpretação:
A tabela de contingência fornece a contagem de fumantes e não fumantes dentro de cada nível de atividade física. A partir dessa tabela, podemos observar:
Atividade Física Alta: Parece ter uma proporção maior de fumantes (30) comparado aos níveis de atividade física moderada (24) e baixa (25)
Essas observações podem indicar uma possível associação entre fumar e o nível de atividade física. Indivíduos com alta atividade física tendem a fumar mais.