Warning: pacote 'dplyr' foi compilado no R versão 4.4.2
Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':
filter, lag
Os seguintes objetos são mascarados por 'package:base':
intersect, setdiff, setequal, union
library(plotly)
Warning: pacote 'plotly' foi compilado no R versão 4.4.2
Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':
last_plot
O seguinte objeto é mascarado por 'package:stats':
filter
O seguinte objeto é mascarado por 'package:graphics':
layout
Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats': filter, lag
Os seguintes objetos são mascarados por 'package:base': intersect, setdiff, setequal, union
library (polycor)
Warning: pacote 'polycor' foi compilado no R versão 4.4.2
Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2': last_plot
O seguinte objeto é mascarado por 'package:stats': filter
O seguinte objeto é mascarado por 'package:graphics': layout
library (polycor)
library(png)
Introdução
Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.
Dados simulados.
# Definindo semente para reprodutibilidadeset.seed(123)# Criando conjunto de dados simuladon <-150dados <-data.frame(Idade =round(rnorm(n, mean =40, sd =15)),IMC =round(rnorm(n, mean =25, sd =4), 1),Atividade_Fisica =factor(sample(c("Baixa", "Moderada", "Alta"), n, replace =TRUE)),Fumante =factor(sample(c("Sim", "Não"), n, replace =TRUE)),Colesterol =round(rnorm(n, mean =200, sd =30)), Pressão_Arterial =round(rnorm(n, mean =120, sd =15)))# Visualizando as primeiras linhas do conjunto de dadoshead(dados)
Idade IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1 32 28.2 Moderada Sim 170 120
2 37 28.1 Baixa Não 149 74
3 63 26.3 Alta Não 253 137
4 41 21.0 Alta Sim 154 110
5 42 24.5 Alta Sim 194 123
6 66 23.9 Moderada Sim 196 124
dados
Idade IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1 32 28.2 Moderada Sim 170 120
2 37 28.1 Baixa Não 149 74
3 63 26.3 Alta Não 253 137
4 41 21.0 Alta Sim 154 110
5 42 24.5 Alta Sim 194 123
6 66 23.9 Moderada Sim 196 124
7 47 27.3 Baixa Sim 168 104
8 21 23.5 Moderada Sim 205 97
9 30 28.9 Alta Sim 164 143
10 33 23.5 Baixa Sim 198 149
11 58 29.2 Moderada Sim 149 129
12 45 20.8 Baixa Sim 182 122
13 46 20.0 Moderada Sim 211 122
14 42 38.0 Moderada Não 126 125
15 32 23.3 Alta Sim 194 116
16 67 26.2 Moderada Não 217 136
17 47 27.5 Moderada Sim 210 130
18 11 23.1 Moderada Não 221 111
19 51 27.1 Moderada Não 169 122
20 33 26.5 Moderada Sim 195 121
21 24 24.1 Alta Não 177 121
22 37 25.3 Baixa Não 192 135
23 25 24.9 Baixa Sim 229 112
24 29 33.5 Alta Sim 192 129
25 31 22.0 Alta Não 163 123
26 15 20.6 Alta Não 207 119
27 53 25.2 Alta Sim 232 135
28 42 26.2 Moderada Não 198 122
29 23 26.7 Baixa Sim 184 104
30 59 23.2 Baixa Não 196 101
31 46 20.7 Alta Não 188 115
32 36 30.1 Moderada Não 201 109
33 53 23.6 Moderada Sim 223 101
34 53 21.5 Alta Sim 211 110
35 52 24.1 Baixa Não 182 93
36 50 24.2 Alta Não 224 114
37 48 29.4 Alta Não 192 115
38 39 25.3 Baixa Sim 186 116
39 35 28.0 Baixa Sim 197 120
40 34 23.0 Alta Não 204 125
41 30 25.9 Alta Sim 203 113
42 37 23.7 Moderada Não 166 124
43 21 25.4 Moderada Não 204 106
44 73 21.4 Alta Não 204 130
45 58 19.8 Moderada Não 196 121
46 23 33.0 Alta Sim 217 118
47 34 27.4 Alta Não 202 110
48 33 20.0 Moderada Não 157 145
49 52 22.6 Alta Sim 133 126
50 39 20.3 Alta Sim 273 124
51 44 33.8 Baixa Não 228 81
52 40 30.2 Alta Não 203 91
53 39 23.9 Baixa Sim 182 119
54 61 27.2 Moderada Sim 179 133
55 37 23.3 Baixa Sim 217 120
56 63 23.1 Alta Sim 172 105
57 17 21.8 Alta Sim 190 118
58 49 22.6 Moderada Sim 217 112
59 42 31.6 Moderada Sim 167 123
60 43 24.8 Baixa Sim 205 106
61 46 25.5 Moderada Sim 231 106
62 32 26.0 Alta Sim 225 124
63 35 29.9 Alta Não 210 134
64 25 22.9 Alta Sim 144 145
65 24 21.0 Moderada Sim 189 124
66 45 31.7 Baixa Sim 172 114
67 47 23.2 Moderada Não 193 98
68 41 22.1 Alta Não 182 107
69 54 20.1 Moderada Não 143 137
70 71 19.9 Alta Não 199 109
71 33 22.7 Alta Não 158 127
72 5 27.5 Baixa Não 166 115
73 55 29.4 Moderada Não 221 133
74 29 27.8 Moderada Não 210 119
75 30 23.5 Moderada Sim 175 109
76 55 25.2 Moderada Sim 218 109
77 36 22.2 Moderada Não 220 120
78 22 22.1 Baixa Não 202 131
79 43 28.5 Baixa Sim 246 144
80 38 20.9 Alta Não 212 144
81 40 32.8 Baixa Sim 228 141
82 46 24.6 Alta Sim 192 105
83 34 25.9 Alta Sim 179 129
84 50 22.0 Moderada Sim 246 113
85 37 22.7 Alta Sim 205 114
86 45 19.7 Moderada Sim 174 123
87 56 24.3 Baixa Não 185 142
88 47 26.7 Baixa Não 153 101
89 35 26.3 Moderada Sim 205 152
90 57 21.9 Baixa Sim 205 118
91 55 21.8 Alta Não 227 112
92 48 23.0 Moderada Não 205 133
93 44 31.0 Moderada Sim 220 115
94 31 20.5 Alta Sim 183 136
95 60 24.3 Baixa Sim 181 121
96 31 32.6 Baixa Não 193 124
97 73 24.6 Moderada Sim 250 120
98 63 19.6 Alta Sim 193 130
99 36 22.3 Baixa Não 210 118
100 25 26.9 Baixa Não 167 111
101 29 23.5 Alta Não 208 129
102 44 22.8 Alta Sim 242 102
103 36 23.6 Moderada Sim 190 133
104 35 25.4 Baixa Não 232 129
105 26 31.4 Alta Não 176 102
106 39 24.6 Alta Não 176 130
107 28 29.3 Alta Sim 179 107
108 15 27.5 Baixa Sim 156 136
109 34 24.5 Alta Não 183 104
110 54 18.9 Alta Não 258 119
111 31 22.9 Baixa Sim 193 97
112 49 23.0 Moderada Sim 241 116
113 16 25.2 Baixa Sim 204 129
114 39 30.2 Moderada Não 192 170
115 48 34.2 Moderada Não 210 134
116 45 31.2 Baixa Sim 176 102
117 42 24.5 Alta Sim 233 133
118 30 18.0 Baixa Não 167 95
119 27 23.4 Moderada Sim 224 117
120 25 25.4 Moderada Sim 207 134
121 42 28.4 Baixa Não 204 86
122 26 28.9 Moderada Sim 222 131
123 33 27.7 Baixa Não 174 133
124 36 19.4 Baixa Sim 163 107
125 68 28.4 Moderada Sim 191 118
126 30 23.2 Moderada Não 236 154
127 44 25.7 Moderada Não 217 109
128 41 25.3 Moderada Sim 268 122
129 26 26.7 Alta Não 170 117
130 39 25.1 Baixa Não 203 124
131 62 18.3 Baixa Não 292 146
132 47 27.9 Baixa Não 201 109
133 41 26.5 Baixa Não 227 117
134 34 23.9 Alta Não 225 115
135 9 25.5 Moderada Não 248 107
136 57 25.5 Baixa Sim 202 87
137 18 25.9 Baixa Sim 236 117
138 51 31.6 Alta Não 148 87
139 69 24.1 Alta Sim 177 117
140 18 25.7 Baixa Não 202 108
141 51 29.7 Baixa Não 182 128
142 36 29.2 Moderada Sim 207 117
143 16 29.6 Alta Sim 149 110
144 17 22.7 Baixa Não 216 109
145 16 33.0 Baixa Sim 185 119
146 32 25.3 Alta Não 186 131
147 18 32.5 Baixa Não 195 122
148 50 19.6 Moderada Sim 182 111
149 72 25.1 Moderada Sim 148 117
150 21 30.0 Alta Sim 218 150
Observações:
As medidas descritivas MÉDIA, MODA, MEDIANA, QUARTIS e PERCENTIS devem ser calculados apartir de variáveis ** QUANTITATIVAS**.
Para variável QUALITATIVA ou CATEGÓRICA PODE-SE APLICAR A MEDIDA DESCRITIVAS : MODA.
Relação entre Variáveis Qualitativas e Quantitativas
Exemplo: Relação entre Atividade Física e IMC
Para examinar a associação entre a variável qualitativa (Atividade_Fisica) e a variável quantitativa (IMC), podemos utilizar análises estatísticas descritivas resultantes do cruzamento dessas variáveis. O uso de um gráfico boxplot representa uma ferramenta visual eficaz para fornecer evidências dessa relação, facilitando a interpretação das diferenças de distribuição do (IMC) entre os diferentes níveis de (Atividade_Fisica) v.
Relação entre Atividade Física e IMC
# Estatísticas descritivas do IMC por nível de Atividade Físicalibrary(dplyr)dados %>%group_by(Atividade_Fisica) %>%summarise( Média_IMC =mean(IMC),Mediana_IMC =median(IMC), Desvio_Padrão_IMC =sd(IMC))
Gráfico de boxplot para IMC por nível de Atividade Física
p<-ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica)) +geom_boxplot() +labs(title ="Boxplot de IMC por Nível de Atividade Física",x ="Nível de Atividade Física",y ="IMC") +theme_minimal()p1<-ggplotly(p)p1
Gráfico 1: Boxplot de IMC por Nível de Atividade Física
Interpretação:
O gráfico de boxplot exibe a distribuição do Índice de Massa Corporal (IMC) para cada nível de atividade física (“Baixa”, “Moderada”, “Alta”). Ele mostra os seguintes pontos principais:
Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.
Os indivíduos com atividade física alta tendem a ter um IMC mediano um pouco maior do que aqueles com atividade baixa e menor do que a moderada.
Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.
A atividade física moderada apresenta uma maior variação no IMC, sugerindo que pessoas com atividade física alta têm IMCs mais variados, enquanto a atividade física baixa e moderada tem a menor dispersão.
Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito abaixo do esperado para cada grupo.
Alguns outliers são visíveis em todos os grupo de atividade física, indicando a presença de indivíduos com IMC muito baixos nos grupos.
Conclusão: Há uma leve tendência de que, conforme aumenta o nível de atividade física, o IMC tende diminuir, mas há também variações consideráveis dentro de cada grupo.
IMC está associado com a frequência de atividade física ?
Para investigar a associação entre uma variável qualitativa (comoAtividade Física, caso seja dicotômica ou ordinal) e uma variável quantitativa contínua (com IMC), o coeficientie de correlação bisserial ou correlação polissérica são apropriados. Para calcular esses coeficientes no R, você pode usar pacotes comopolycor, que oferece funções para obter tanto a correlação bisserial quanto a polissérica.
Correlação polissérica
Esse coeficiente é indicado se Atividade Física tiver mais de dois níveis ordenados (como “Nenhuma”, “Moderada”, “Alta”). Ele generaliza a correlação bisserial para uma variável qualitativa com categorias ordenadas e mede a associação entre uma variável contínua e uma qualitativa ordinal, assumindo uma normalidade latente subjacente.
# Exemplo de dados para correlação polissérica# Suponha uma variável contínua Y e uma variável ordinal X polyserial_corr <-polyserial(dados$IMC,dados$Atividade_Fisica )polyserial_corr
[1] 0.09627237
Interpretação dos Coeficientes de Correlação
Correlação Polissérica : O coeficiente polissérico mede a associação entre uma variável contínua e uma variável ordinal, assumindo que a variável ordinal representa uma discretização de uma distribuição normal subjacente.
Valores altos (próximos de 1 ou -1) indicam uma associação forte entre a variável contínua e a variável ordinal, sugerindo uma mudança substancial nos valores médios ou na distribuição da variável contínua conforme as categorias da variável ordinal.
Valores baixos (próximos de 0) indicam uma associação fraca ou inexistente, sugerindo que as categorias da variável ordinal não correspondem a variações sistemáticas na variável contínua.
Testes de Significância
Para verificar a significância desses coeficientes, você pode aplicar testes estatísticos apropriados que avaliam a hipótese nula de que a correlação é zero (ou seja, que não há associação entre as variáveis).
Correlação Polissérica:
A significância do coeficiente de correlação polissérica é normalmente testada via**estimativas de erro padrão*obtidas durante o ajuste da correlação. Essas estimativas podem ser usadas para construir um teste z:
z=rpErroP
O coeficiente polissérico. Esse teste z pode ser usado para calcular o valor-p, assumindo uma distribuição normal padrão para o teste de significância.
No pacote polycorem R, a função polyserial()fornece uma estimativa do erro padrão para a correlação polissérica, permitindo realizar o teste de significância.
Esses métodos ajudam a avaliar se os coeficientes são estatisticamente diferentes de zero, confirmando a existência de uma associação significativa entre as variáveis contínua e qualitativa.
# Extraia o valor de r_poly e o erro padrão# Extraia o valor de r_br_p <- polyserial_corr# Tamanho da amostran <-length(dados$IMC)# Calcule o valor do teste t para r_bt_value <- r_p*sqrt((n -2)/(1- r_p^2))# Calcule o valor-p para o teste tp_value <-2*pt(-abs(t_value), df = n -2)# Resultadoscat("Correlação Polisserial aproximada (r_p):", r_p, "\n")
#Escolhido o nível de significância, geralmente 5%(0,05)
Hipotese do Teste:
Ho: rp=0
H1:rp diferente de 0
Possíveis Interpretações
Se o valor p<0,05, rejeita-se H_0 e conclui-se que o coeficiente de correlação polissério estimado é estatisticamente significativo
Se o valor p>0,05, não rejeita-se H_0 e conclui-se que o coeficiente de correlação polissério estimado não é estatisticamente significativo
De acordo com o teste t, não rejeitamos a hipótese de que o coeficiente polissérico estudado é igual a 0, logo concluímos que a correlação estimada não é estatisticamente significativa.
Correlação bisserial
Esse coeficiente é adequado se Fumante for dicotômica (com dois níveis, como “Sim” e “Não”). Ele mede a associação entre uma variável contínua (como IMC) e uma variável binária que se supõe representar uma divisão de uma variável latente normal subjacente. O coeficiente bisserial estima a correlação subjacente assumindo que a variável dicotômica resulta de uma “dichotomização” de uma distribuição normal.
library(ltm)
Warning: pacote 'ltm' foi compilado no R versão 4.4.2
Carregando pacotes exigidos: MASS
Anexando pacote: 'MASS'
O seguinte objeto é mascarado por 'package:plotly':
select
O seguinte objeto é mascarado por 'package:dplyr':
select
Carregando pacotes exigidos: msm
Warning: pacote 'msm' foi compilado no R versão 4.4.2
Carregando pacotes exigidos: MASS
Anexando pacote: 'MASS'
O seguinte objeto é mascarado por 'package:plotly': select
O seguinte objeto é mascarado por 'package:dplyr': select
Carregando pacotes exigidos: msm
# Exemplo de dados para correlação bisserial# Suponha uma variável contínua Y e uma variável dicotômica Xbiserial_corr <-biserial.cor(dados$IMC, dados$Fumante)biserial_corr
[1] 0.01596333
Testando a significância
# Extraia o valor de r_poly e o erro padrão# Extraia o valor de r_pr_b<- biserial_corr# Tamanho da amostran <-length(dados$IMC)# Calcule o valor do teste t para r_bt_value <- r_b*sqrt((n -2)/(1- r_b^2))# Calcule o valor-p para o teste tp_value <-2*pt(-abs(t_value), df = n -2)# Resultadoscat("Correlação Polisserial aproximada (r_pa):", r_b, "\n")
Testando a hipótese de Associação entre o hábito de fumar e atividade física - Teste Qui-quadrado
Pressuposições do Teste Qui-Quadrado
O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:
Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.
Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.
Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.
Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.
Essas hipóteses e pressuposições são essenciais para realizar o teste qui-quadrado de forma correta e interpretar seus resultados adequadamente.
Hipóteses e Pressuposições para o Teste Qui-Quadrado
Hipóteses do Teste Qui-Quadrado
O teste qui-quadrado é utilizado para verificar se há uma associação entre duas variáveis qualitativas. No caso deste estudo, estamos interessados em avaliar a relação entre ser fumante e o nível de atividade física.
Hipótese Nula (H₀): As variáveis “Fumar” e “Atividade Física” são independentes, ou seja, a proporção de fumantes não difere entre os diferentes níveis de atividade física.
$ H_0:$ O hábito de fumar e Atividade Física são independentes. (Associação não significativa)
$ H_1:$ O hábito de fumar e Atividade Física são dependentes. (Associação significativa)
Após realizar o teste qui-quadrado, avaliamos o valor-p obtido:
Relação entre Variáveis Quantitativas
ggplot(dados, aes(x = Colesterol, y = Pressão_Arterial)) + geom_point() + geom_smooth(method = “lm”, col = “blue”, se = FALSE) + labs(title = “Gráfico de Dispersão: Colesterol vs Pressão Arterial”, x = “Colesterol”, y = “Pressão Arterial”) + theme_minimal()
#Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula, o que indica que existe uma associação significativa entre “Fumar” e “Atividade Física”.
#Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, ou seja, não temos evidências suficientes para concluir que as variáveis são dependentes.
A hipótese nula não sera rejeitada pois o valor de de p foi superior a 0,05 ou seja as variáveis são indepentes.
Conclusão: De acordo com teste qui-quadrado , o hábito de fumo não está associado com Atividade física ao nível de 5 % de significância .
Realação entre Variáveis Quantitativas
Neste exemplo, presentamos três tipos de relação linear: Correlação Positiva,Correlação Negativa e Auseância de Correlação.
Abaixo as figuras são exibidas lado a lado para facilitar a visualização
ggplot(dados, aes(x = Colesterol, y = Pressão_Arterial)) +geom_point() +geom_smooth(method ="lm", col ="blue ", se =FALSE) +labs(title ="Gráfico de Dispersão: Colesterol vs Pressão Arterial",x ="Colesterol",y ="Pressão Arterial") +theme_minimal()
`geom_smooth()` using formula = 'y ~ x'
Correlação de Pearson
# Correlação de Pearson entre Colesterol e Pressão Arterialcorrelacao <-cor(dados$Colesterol, dados$Pressão_Arterial)correlacao
[1] 0.09856814
Hipóteses e Pressuposições para a Correlação de Pearson
Nesta seção, descrevemos as hipóteses e pressuposições para a aplicação da correlação de Pearson, que é usada para medir a relação linear entre duas variáveis quantitativas.
No exemplo, investigamos a relação entre as variáveis “Colesterol” e “Pressão Arterial”.
Hipóteses da Correlação de Pearson
A correlação de Pearson avalia a força e a direção da relação linear entre duas variáveis contínuas. Suas hipóteses são definidas da seguinte maneira:
Hipótese Nula (H₀): Não existe correlação linear entre as duas variáveis; o coeficiente de correlação populacional é igual a zero.
Hipótese Alternativa (H₁): Existe uma correlação linear entre as duas variáveis; o coeficiente de correlação populacional é diferente de zero.
Nesta seção, descrevemos as hipóteses e pressuposições para a aplicação da correlação de Pearson, que é usada para medir a relação linear entre duas variáveis quantitativas. No exemplo, investigamos a relação entre as variáveis “Colesterol” e “Pressão Arterial”.
Pressuposições da Correlação de Pearson
Para que a correlação de Pearson seja aplicada corretamente, as seguintes pressuposições devem ser atendidas:
Linearidade: As duas variáveis devem apresentar uma relação linear. Isso pode ser verificado visualmente com um gráfico de dispersão. Se a relação entre as variáveis for não-linear, a correlação de Pearson não é adequada.
Normalidade: As duas variáveis devem ser aproximadamente normalmente distribuídas, especialmente se o tamanho da amostra for pequeno. Essa pressuposição pode ser verificada através de testes de normalidade ou gráficos como o Q-Q plot.
Teste de Shapiro Wilk
O teste de Shapiro-Wilk é usado para verificar a normalidade de uma distribuição, e ele testa as seguintes hipóteses:
Hipótese Nula (H₀): Os dados seguem uma distribuição normal.
Hipótese Alternativa(H1): Os dados não seguem uma distribuição normal.
# Q-Q plotqqnorm(dados$Colesterol, main ="Q-Q Plot para Verificação de Normalidade")qqline(dados$Colesterol, col ="red", lwd =2) # Adiciona a linha de referência
# Exemplo de código em R para o teste de Shapiro-Wilkshapiro.test(dados$Colesterol)
Shapiro-Wilk normality test
data: dados$Colesterol
W = 0.99304, p-value = 0.6833
shapiro.test(dados$Pressão_Arterial)
Shapiro-Wilk normality test
data: dados$Pressão_Arterial
W = 0.99097, p-value = 0.4551
Homocedasticidade: A variância dos valores ao longo da linha de regressão deve ser constante, ou seja, a dispersão dos pontos deve ser similar para todos os valores das variáveis. Caso contrário, pode haver heterocedasticidade, o que viola esta pressuposição.
# Aplicando o teste de Bartlettbartlett.test(dados$Colesterol~dados$Atividade_Fisica)
Bartlett test of homogeneity of variances
data: dados$Colesterol by dados$Atividade_Fisica
Bartlett's K-squared = 0.466, df = 2, p-value = 0.7922
H0: afirma que todas as variâncias dos grupos são iguais. H1: sugere que pelo menos uma das variâncias é diferente.
Escala de Medição: Ambas as variáveis devem ser medidas em uma escala intervalar ou de razão (QUANTITATIVAS).
Cálculo e Interpretação da Correlação de Pearson
O coeficiente de correlação de Pearson (( r )) varia entre -1 e 1:
( r = 1 ): Correlação linear perfeita positiva.
( r = -1 ): Correlação linear perfeita negativa.
( r = 0 ): Nenhuma correlação linear.
Interpretação dos Resultados
A magnitude e a direção da correlação são determinadas pelo valor de ( r ):
Correlação forte: Quando ( r ) está próximo de -1 ou 1, indicando uma forte relação linear.
Correlação fraca: Quando ( r ) está próximo de 0, indicando uma fraca ou inexistente relação linear.
Significado do sinal: Se ( r ) for positivo, a relação entre as variáveis é direta (aumento de uma variável corresponde ao aumento da outra). Se ( r ) for negativo, a relação é inversa (aumento de uma variável corresponde à diminuição da outra.
Essas hipóteses e pressuposições são fundamentais para realizar a análise de correlação de Pearson corretamente e interpretar seus resultados de forma adequadaConclusão : O gráfico de pontos e coeficiente de correlação de Pearson (r) indicam que a correlação entre o nível de Colesterol e a Pressão arterial é fraca.
# Testa se existe correlacao entre o consumo de sorvete e a temperaturacor.test(x = dados$Colesterol, y = dados$Pressão_Arterial, method ="pearson")
Pearson's product-moment correlation
data: dados$Colesterol and dados$Pressão_Arterial
t = 1.205, df = 148, p-value = 0.2301
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.06268358 0.25480460
sample estimates:
cor
0.09856814
Após calcular a correlação, o valor-p associado ao teste pode ser utilizado para verificar a significância estatística:
Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula e concluímos que existe uma correlação linear significativa entre as duas variáveis.
Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, o que indica que não há evidências suficientes de uma correlação linear significativa entre as variáveis.
Conclusão : De acordo com o teste de correlação, as variáveis Colesterol e Pressão arterial não estão correlacionadas significativamente, ao nível de 5% de significância.
Matriz de correlação - Variáveis Misturadas
#Transformando todas as variáveis em numéricasdados$Idade <-as.numeric(dados$Idade)dados$IMC <-as.numeric(dados$IMC)dados$Atividade_Fisica <-as.numeric(dados$Atividade_Fisica)dados$Fumante <-as.numeric(dados$Fumante)dados$Colesterol <-as.numeric(dados$Colesterol)dados$Pressão_Arterial <-as.numeric(dados$Pressão_Arterial)names(dados)
List of 6
$ rho : num [1:6, 1:6] 1 -0.162 0.1075 0.0484 0.0688 ...
..- attr(*, "dimnames")=List of 2
.. ..$ : chr [1:6] "Idade" "IMC" "Atividade_Fisica" "Fumante" ...
.. ..$ : chr [1:6] "Idade" "IMC" "Atividade_Fisica" "Fumante" ...
$ rx : 'psych' num [1:4, 1:4] 1 -0.162 0.0688 -0.0164 -0.162 ...
..- attr(*, "dimnames")=List of 2
.. ..$ : chr [1:4] "Idade" "IMC" "Colesterol" "Pressão_Arterial"
.. ..$ : chr [1:4] "Idade" "IMC" "Colesterol" "Pressão_Arterial"
$ poly :List of 2
..$ rho: num 1
..$ tau: NULL
$ tetra:List of 2
..$ rho: num 1
..$ tau: NULL
$ rpd : num [1, 1] 0.103
..- attr(*, "dimnames")=List of 2
.. ..$ : chr "Atividade_Fisica"
.. ..$ : chr "Fumante"
$ Call : language mixedCor(data = dados, c = c(1, 2, 5, 6), p = 3, d = 4, smooth = F, correct = 0)
- attr(*, "class")= chr [1:2] "psych" "mixed"
Observação: Variáveis Poli, são variáveis categóricas com mais de dois níveis
A função mixedCor requer que todas as variáveis sejam de natureza numérica (Quantitativa).
Argumentos da função mixedCor:
p = posição de variáveis categóricas com mais de 2 níveis presentes no conjunto de dados;
c = posição variáveis contínuas no conjunto de dados;
d = posição variáveis categóricas com 2 níveis (dicotômica) presentes no conjuntos de dados.
Rho<-Mmixed[["rho"]] #Considerando apenas os coeficientes de correlação (rho)Rho<-round(Rho, 2) #Considerar 2 casas após a vírgulaRho<-as.data.frame(Rho) #Transformando o conjunto com os valores do coenficiente em "planilha".
library(ggcorrplot)
Warning: pacote 'ggcorrplot' foi compilado no R versão 4.4.2
Correlogram<-ggcorrplot(Rho, type ="upper", lab =TRUE)library(plotly)Correlogram<-ggplotly(Correlogram)Correlogram