Aula Estatística bivariada

Author

Marina Viana Danese

library(rmarkdown)
library(ggplot2)
library(dplyr)
Warning: pacote 'dplyr' foi compilado no R versão 4.4.2

Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':

    filter, lag
Os seguintes objetos são mascarados por 'package:base':

    intersect, setdiff, setequal, union
library(plotly)
Warning: pacote 'plotly' foi compilado no R versão 4.4.2

Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':

    last_plot
O seguinte objeto é mascarado por 'package:stats':

    filter
O seguinte objeto é mascarado por 'package:graphics':

    layout
Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':      filter, lag
Os seguintes objetos são mascarados por 'package:base':      intersect, setdiff, setequal, union
library (polycor)
Warning: pacote 'polycor' foi compilado no R versão 4.4.2
Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':      last_plot
O seguinte objeto é mascarado por 'package:stats':      filter
O seguinte objeto é mascarado por 'package:graphics':      layout
library (polycor)
library(png)

Introdução

Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.

Dados simulados.

# Definindo semente para reprodutibilidade
set.seed(123)

# Criando conjunto de dados simulado
n <- 150
dados <- data.frame(
  Idade = round(rnorm(n, mean = 40, sd = 15)),
  IMC = round(rnorm(n, mean = 25, sd = 4), 1),
  Atividade_Fisica = factor(sample(c("Baixa", "Moderada", "Alta"), n, replace = TRUE)),
  Fumante = factor(sample(c("Sim", "Não"), n, replace = TRUE)),
  Colesterol = round(rnorm(n, mean = 200, sd = 30)),
  Pressão_Arterial = round(rnorm(n, mean = 120, sd = 15))
)

# Visualizando as primeiras linhas do conjunto de dados
head(dados)
  Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1    32 28.2         Moderada     Sim        170              120
2    37 28.1            Baixa     Não        149               74
3    63 26.3             Alta     Não        253              137
4    41 21.0             Alta     Sim        154              110
5    42 24.5             Alta     Sim        194              123
6    66 23.9         Moderada     Sim        196              124
dados
    Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1      32 28.2         Moderada     Sim        170              120
2      37 28.1            Baixa     Não        149               74
3      63 26.3             Alta     Não        253              137
4      41 21.0             Alta     Sim        154              110
5      42 24.5             Alta     Sim        194              123
6      66 23.9         Moderada     Sim        196              124
7      47 27.3            Baixa     Sim        168              104
8      21 23.5         Moderada     Sim        205               97
9      30 28.9             Alta     Sim        164              143
10     33 23.5            Baixa     Sim        198              149
11     58 29.2         Moderada     Sim        149              129
12     45 20.8            Baixa     Sim        182              122
13     46 20.0         Moderada     Sim        211              122
14     42 38.0         Moderada     Não        126              125
15     32 23.3             Alta     Sim        194              116
16     67 26.2         Moderada     Não        217              136
17     47 27.5         Moderada     Sim        210              130
18     11 23.1         Moderada     Não        221              111
19     51 27.1         Moderada     Não        169              122
20     33 26.5         Moderada     Sim        195              121
21     24 24.1             Alta     Não        177              121
22     37 25.3            Baixa     Não        192              135
23     25 24.9            Baixa     Sim        229              112
24     29 33.5             Alta     Sim        192              129
25     31 22.0             Alta     Não        163              123
26     15 20.6             Alta     Não        207              119
27     53 25.2             Alta     Sim        232              135
28     42 26.2         Moderada     Não        198              122
29     23 26.7            Baixa     Sim        184              104
30     59 23.2            Baixa     Não        196              101
31     46 20.7             Alta     Não        188              115
32     36 30.1         Moderada     Não        201              109
33     53 23.6         Moderada     Sim        223              101
34     53 21.5             Alta     Sim        211              110
35     52 24.1            Baixa     Não        182               93
36     50 24.2             Alta     Não        224              114
37     48 29.4             Alta     Não        192              115
38     39 25.3            Baixa     Sim        186              116
39     35 28.0            Baixa     Sim        197              120
40     34 23.0             Alta     Não        204              125
41     30 25.9             Alta     Sim        203              113
42     37 23.7         Moderada     Não        166              124
43     21 25.4         Moderada     Não        204              106
44     73 21.4             Alta     Não        204              130
45     58 19.8         Moderada     Não        196              121
46     23 33.0             Alta     Sim        217              118
47     34 27.4             Alta     Não        202              110
48     33 20.0         Moderada     Não        157              145
49     52 22.6             Alta     Sim        133              126
50     39 20.3             Alta     Sim        273              124
51     44 33.8            Baixa     Não        228               81
52     40 30.2             Alta     Não        203               91
53     39 23.9            Baixa     Sim        182              119
54     61 27.2         Moderada     Sim        179              133
55     37 23.3            Baixa     Sim        217              120
56     63 23.1             Alta     Sim        172              105
57     17 21.8             Alta     Sim        190              118
58     49 22.6         Moderada     Sim        217              112
59     42 31.6         Moderada     Sim        167              123
60     43 24.8            Baixa     Sim        205              106
61     46 25.5         Moderada     Sim        231              106
62     32 26.0             Alta     Sim        225              124
63     35 29.9             Alta     Não        210              134
64     25 22.9             Alta     Sim        144              145
65     24 21.0         Moderada     Sim        189              124
66     45 31.7            Baixa     Sim        172              114
67     47 23.2         Moderada     Não        193               98
68     41 22.1             Alta     Não        182              107
69     54 20.1         Moderada     Não        143              137
70     71 19.9             Alta     Não        199              109
71     33 22.7             Alta     Não        158              127
72      5 27.5            Baixa     Não        166              115
73     55 29.4         Moderada     Não        221              133
74     29 27.8         Moderada     Não        210              119
75     30 23.5         Moderada     Sim        175              109
76     55 25.2         Moderada     Sim        218              109
77     36 22.2         Moderada     Não        220              120
78     22 22.1            Baixa     Não        202              131
79     43 28.5            Baixa     Sim        246              144
80     38 20.9             Alta     Não        212              144
81     40 32.8            Baixa     Sim        228              141
82     46 24.6             Alta     Sim        192              105
83     34 25.9             Alta     Sim        179              129
84     50 22.0         Moderada     Sim        246              113
85     37 22.7             Alta     Sim        205              114
86     45 19.7         Moderada     Sim        174              123
87     56 24.3            Baixa     Não        185              142
88     47 26.7            Baixa     Não        153              101
89     35 26.3         Moderada     Sim        205              152
90     57 21.9            Baixa     Sim        205              118
91     55 21.8             Alta     Não        227              112
92     48 23.0         Moderada     Não        205              133
93     44 31.0         Moderada     Sim        220              115
94     31 20.5             Alta     Sim        183              136
95     60 24.3            Baixa     Sim        181              121
96     31 32.6            Baixa     Não        193              124
97     73 24.6         Moderada     Sim        250              120
98     63 19.6             Alta     Sim        193              130
99     36 22.3            Baixa     Não        210              118
100    25 26.9            Baixa     Não        167              111
101    29 23.5             Alta     Não        208              129
102    44 22.8             Alta     Sim        242              102
103    36 23.6         Moderada     Sim        190              133
104    35 25.4            Baixa     Não        232              129
105    26 31.4             Alta     Não        176              102
106    39 24.6             Alta     Não        176              130
107    28 29.3             Alta     Sim        179              107
108    15 27.5            Baixa     Sim        156              136
109    34 24.5             Alta     Não        183              104
110    54 18.9             Alta     Não        258              119
111    31 22.9            Baixa     Sim        193               97
112    49 23.0         Moderada     Sim        241              116
113    16 25.2            Baixa     Sim        204              129
114    39 30.2         Moderada     Não        192              170
115    48 34.2         Moderada     Não        210              134
116    45 31.2            Baixa     Sim        176              102
117    42 24.5             Alta     Sim        233              133
118    30 18.0            Baixa     Não        167               95
119    27 23.4         Moderada     Sim        224              117
120    25 25.4         Moderada     Sim        207              134
121    42 28.4            Baixa     Não        204               86
122    26 28.9         Moderada     Sim        222              131
123    33 27.7            Baixa     Não        174              133
124    36 19.4            Baixa     Sim        163              107
125    68 28.4         Moderada     Sim        191              118
126    30 23.2         Moderada     Não        236              154
127    44 25.7         Moderada     Não        217              109
128    41 25.3         Moderada     Sim        268              122
129    26 26.7             Alta     Não        170              117
130    39 25.1            Baixa     Não        203              124
131    62 18.3            Baixa     Não        292              146
132    47 27.9            Baixa     Não        201              109
133    41 26.5            Baixa     Não        227              117
134    34 23.9             Alta     Não        225              115
135     9 25.5         Moderada     Não        248              107
136    57 25.5            Baixa     Sim        202               87
137    18 25.9            Baixa     Sim        236              117
138    51 31.6             Alta     Não        148               87
139    69 24.1             Alta     Sim        177              117
140    18 25.7            Baixa     Não        202              108
141    51 29.7            Baixa     Não        182              128
142    36 29.2         Moderada     Sim        207              117
143    16 29.6             Alta     Sim        149              110
144    17 22.7            Baixa     Não        216              109
145    16 33.0            Baixa     Sim        185              119
146    32 25.3             Alta     Não        186              131
147    18 32.5            Baixa     Não        195              122
148    50 19.6         Moderada     Sim        182              111
149    72 25.1         Moderada     Sim        148              117
150    21 30.0             Alta     Sim        218              150

Observações:

  1. As medidas descritivas MÉDIA, MODA, MEDIANA, QUARTIS e PERCENTIS devem ser calculados apartir de variáveis ** QUANTITATIVAS**.

  2. Para variável QUALITATIVA ou CATEGÓRICA PODE-SE APLICAR A MEDIDA DESCRITIVAS : MODA.

Relação entre Variáveis Qualitativas e Quantitativas

Exemplo: Relação entre Atividade Física e IMC

Para examinar a associação entre a variável qualitativa (Atividade_Fisica) e a variável quantitativa (IMC), podemos utilizar análises estatísticas descritivas resultantes do cruzamento dessas variáveis. O uso de um gráfico boxplot representa uma ferramenta visual eficaz para fornecer evidências dessa relação, facilitando a interpretação das diferenças de distribuição do (IMC) entre os diferentes níveis de (Atividade_Fisica) v.

Relação entre Atividade Física e IMC

# Estatísticas descritivas do IMC por nível de Atividade Física
library(dplyr)
dados %>%
  group_by(Atividade_Fisica) %>%
  summarise(
    Média_IMC = mean(IMC),
    Mediana_IMC = median(IMC),
    Desvio_Padrão_IMC = sd(IMC)
)
# A tibble: 3 × 4
  Atividade_Fisica Média_IMC Mediana_IMC Desvio_Padrão_IMC
  <fct>                <dbl>       <dbl>             <dbl>
1 Alta                  24.7        24.1              3.68
2 Baixa                 26.0        25.5              3.76
3 Moderada              25.5        25.3              3.81

Gráfico de boxplot para IMC por nível de Atividade Física

p<-ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica)) +
  geom_boxplot() +
  labs(title = "Boxplot de IMC por Nível de Atividade Física",
       x = "Nível de Atividade Física",
       y = "IMC") +
  theme_minimal()

p1<-ggplotly(p)

p1

Gráfico 1: Boxplot de IMC por Nível de Atividade Física

Interpretação:

O gráfico de boxplot exibe a distribuição do Índice de Massa Corporal (IMC) para cada nível de atividade física (“Baixa”, “Moderada”, “Alta”). Ele mostra os seguintes pontos principais:

Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.

Os indivíduos com atividade física alta tendem a ter um IMC mediano um pouco maior do que aqueles com atividade baixa e menor do que a moderada.

Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.

A atividade física moderada apresenta uma maior variação no IMC, sugerindo que pessoas com atividade física alta têm IMCs mais variados, enquanto a atividade física baixa e moderada tem a menor dispersão.

Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito abaixo do esperado para cada grupo.

Alguns outliers são visíveis em todos os grupo de atividade física, indicando a presença de indivíduos com IMC muito baixos nos grupos.

Conclusão: Há uma leve tendência de que, conforme aumenta o nível de atividade física, o IMC tende diminuir, mas há também variações consideráveis dentro de cada grupo.

IMC está associado com a frequência de atividade física ?

Para investigar a associação entre uma variável qualitativa (comoAtividade Física, caso seja dicotômica ou ordinal) e uma variável quantitativa contínua (com IMC), o coeficientie de correlação bisserial ou correlação polissérica são apropriados. Para calcular esses coeficientes no R, você pode usar pacotes comopolycor, que oferece funções para obter tanto a correlação bisserial quanto a polissérica.

Correlação polissérica

Esse coeficiente é indicado se Atividade Física tiver mais de dois níveis ordenados (como “Nenhuma”, “Moderada”, “Alta”). Ele generaliza a correlação bisserial para uma variável qualitativa com categorias ordenadas e mede a associação entre uma variável contínua e uma qualitativa ordinal, assumindo uma normalidade latente subjacente.

# Exemplo de dados para correlação polissérica
# Suponha uma variável contínua Y e uma variável ordinal X 

polyserial_corr <- polyserial(dados$IMC,dados$Atividade_Fisica )

polyserial_corr
[1] 0.09627237
Interpretação dos Coeficientes de Correlação
  1. Correlação Polissérica : O coeficiente polissérico mede a associação entre uma variável contínua e uma variável ordinal, assumindo que a variável ordinal representa uma discretização de uma distribuição normal subjacente.
  • Valores altos (próximos de 1 ou -1) indicam uma associação forte entre a variável contínua e a variável ordinal, sugerindo uma mudança substancial nos valores médios ou na distribuição da variável contínua conforme as categorias da variável ordinal.

  • Valores baixos (próximos de 0) indicam uma associação fraca ou inexistente, sugerindo que as categorias da variável ordinal não correspondem a variações sistemáticas na variável contínua.

Testes de Significância

Para verificar a significância desses coeficientes, você pode aplicar testes estatísticos apropriados que avaliam a hipótese nula de que a correlação é zero (ou seja, que não há associação entre as variáveis).

  1. Correlação Polissérica:

    • A significância do coeficiente de correlação polissérica é normalmente testada via**estimativas de erro padrão*obtidas durante o ajuste da correlação. Essas estimativas podem ser usadas para construir um teste z:

      z=rpErroP

    O coeficiente polissérico. Esse teste z pode ser usado para calcular o valor-p, assumindo uma distribuição normal padrão para o teste de significância.

    No pacote polycorem R, a função polyserial()fornece uma estimativa do erro padrão para a correlação polissérica, permitindo realizar o teste de significância.

Esses métodos ajudam a avaliar se os coeficientes são estatisticamente diferentes de zero, confirmando a existência de uma associação significativa entre as variáveis contínua e qualitativa.

# Extraia o valor de r_poly e o erro padrão

# Extraia o valor de r_b
r_p <- polyserial_corr

# Tamanho da amostra
n <- length(dados$IMC)

# Calcule o valor do teste t para r_b
t_value <- r_p*sqrt((n - 2)/(1 - r_p^2))

# Calcule o valor-p para o teste t
p_value <- 2 * pt(-abs(t_value), df = n - 2)

# Resultados
cat("Correlação Polisserial aproximada (r_p):", r_p, "\n")
Correlação Polisserial aproximada (r_p): 0.09627237 
cat("Valor t:", t_value, "\n")
Valor t: 1.17667 
cat("Valor-p:", p_value, "\n")
Valor-p: 0.2412165 

#Escolhido o nível de significância, geralmente 5%(0,05)

Hipotese do Teste:

Ho: rp=0

H1:rp diferente de 0

Possíveis Interpretações

Se o valor p<0,05, rejeita-se H_0 e conclui-se que o coeficiente de correlação polissério estimado é estatisticamente significativo

Se o valor p>0,05, não rejeita-se H_0 e conclui-se que o coeficiente de correlação polissério estimado não é estatisticamente significativo

De acordo com o teste t, não rejeitamos a hipótese de que o coeficiente polissérico estudado é igual a 0, logo concluímos que a correlação estimada não é estatisticamente significativa.

Correlação bisserial

Esse coeficiente é adequado se Fumante for dicotômica (com dois níveis, como “Sim” e “Não”). Ele mede a associação entre uma variável contínua (como IMC) e uma variável binária que se supõe representar uma divisão de uma variável latente normal subjacente. O coeficiente bisserial estima a correlação subjacente assumindo que a variável dicotômica resulta de uma “dichotomização” de uma distribuição normal.

library(ltm)
Warning: pacote 'ltm' foi compilado no R versão 4.4.2
Carregando pacotes exigidos: MASS

Anexando pacote: 'MASS'
O seguinte objeto é mascarado por 'package:plotly':

    select
O seguinte objeto é mascarado por 'package:dplyr':

    select
Carregando pacotes exigidos: msm
Warning: pacote 'msm' foi compilado no R versão 4.4.2
Carregando pacotes exigidos: MASS
 Anexando pacote: 'MASS'
O seguinte objeto é mascarado por 'package:plotly':      select
O seguinte objeto é mascarado por 'package:dplyr':      select
Carregando pacotes exigidos: msm
# Exemplo de dados para correlação bisserial
# Suponha uma variável contínua Y e uma variável dicotômica X
biserial_corr <- biserial.cor(dados$IMC, dados$Fumante)

biserial_corr
[1] 0.01596333

Testando a significância

# Extraia o valor de r_poly e o erro padrão

# Extraia o valor de r_p
r_b<- biserial_corr

# Tamanho da amostra
n <- length(dados$IMC)

# Calcule o valor do teste t para r_b
t_value <- r_b*sqrt((n - 2)/(1 - r_b^2))

# Calcule o valor-p para o teste t
p_value <- 2 * pt(-abs(t_value), df = n - 2)

# Resultados
cat("Correlação Polisserial aproximada (r_pa):", r_b, "\n")
Correlação Polisserial aproximada (r_pa): 0.01596333 
cat("Valor t:", t_value, "\n")
Valor t: 0.1942271 
cat("Valor-p:", p_value, "\n")
Valor-p: 0.8462644 

Testando a hipótese de Associação entre o hábito de fumar e atividade física - Teste Qui-quadrado

Pressuposições do Teste Qui-Quadrado

O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:

  1. Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.

  2. Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.

  3. Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.

  4. Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.

Essas hipóteses e pressuposições são essenciais para realizar o teste qui-quadrado de forma correta e interpretar seus resultados adequadamente.

Hipóteses e Pressuposições para o Teste Qui-Quadrado

Hipóteses do Teste Qui-Quadrado

O teste qui-quadrado é utilizado para verificar se há uma associação entre duas variáveis qualitativas. No caso deste estudo, estamos interessados em avaliar a relação entre ser fumante e o nível de atividade física.

  • Hipótese Nula (H₀): As variáveis “Fumar” e “Atividade Física” são independentes, ou seja, a proporção de fumantes não difere entre os diferentes níveis de atividade física.

$ H_0:$ O hábito de fumar e Atividade Física são independentes. (Associação não significativa)

$ H_1:$ O hábito de fumar e Atividade Física são dependentes. (Associação significativa)

tabela_contingencia <- table(dados$Fumante, dados$Atividade_Fisica)
 tabela_contingencia
     
      Alta Baixa Moderada
  Não   26    24       21
  Sim   26    23       30

Teste do Qui-Quadrado para verificar associação entre Fumar e Atividade Física

teste_qui <- chisq.test(tabela_contingencia)
teste_qui

    Pearson's Chi-squared test

data:  tabela_contingencia
X-squared = 1.1862, df = 2, p-value = 0.5526

Interpretação dos Resultados

Após realizar o teste qui-quadrado, avaliamos o valor-p obtido:

Relação entre Variáveis Quantitativas

ggplot(dados, aes(x = Colesterol, y = Pressão_Arterial)) + geom_point() + geom_smooth(method = “lm”, col = “blue”, se = FALSE) + labs(title = “Gráfico de Dispersão: Colesterol vs Pressão Arterial”, x = “Colesterol”, y = “Pressão Arterial”) + theme_minimal()

#Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula, o que indica que existe uma associação significativa entre “Fumar” e “Atividade Física”.

#Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, ou seja, não temos evidências suficientes para concluir que as variáveis são dependentes.

A hipótese nula não sera rejeitada pois o valor de de p foi superior a 0,05 ou seja as variáveis são indepentes.

Conclusão: De acordo com teste qui-quadrado , o hábito de fumo não está associado com Atividade física ao nível de 5 % de significância .

Realação entre Variáveis Quantitativas

Neste exemplo, presentamos três tipos de relação linear: Correlação Positiva, Correlação Negativa e Auseância de Correlação.

Abaixo as figuras são exibidas lado a lado para facilitar a visualização

{fig-align= “center” width=“90%” fig-cap = “NUT105/Bioesatistica/correlacao}

ggplot(dados, aes(x = Colesterol, y = Pressão_Arterial)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue ", se = FALSE) +
  labs(title = "Gráfico de Dispersão: Colesterol vs Pressão Arterial",
       x = "Colesterol",
       y = "Pressão Arterial") +
  theme_minimal()
`geom_smooth()` using formula = 'y ~ x'

Correlação de Pearson

# Correlação de Pearson entre Colesterol e Pressão Arterial
correlacao <- cor(dados$Colesterol, dados$Pressão_Arterial)
correlacao
[1] 0.09856814

Hipóteses e Pressuposições para a Correlação de Pearson

Nesta seção, descrevemos as hipóteses e pressuposições para a aplicação da correlação de Pearson, que é usada para medir a relação linear entre duas variáveis quantitativas.

No exemplo, investigamos a relação entre as variáveis “Colesterol” e “Pressão Arterial”.

Hipóteses da Correlação de Pearson

A correlação de Pearson avalia a força e a direção da relação linear entre duas variáveis contínuas. Suas hipóteses são definidas da seguinte maneira:

  • Hipótese Nula (H₀): Não existe correlação linear entre as duas variáveis; o coeficiente de correlação populacional é igual a zero.

  • Hipótese Alternativa (H₁): Existe uma correlação linear entre as duas variáveis; o coeficiente de correlação populacional é diferente de zero.

Nesta seção, descrevemos as hipóteses e pressuposições para a aplicação da correlação de Pearson, que é usada para medir a relação linear entre duas variáveis quantitativas. No exemplo, investigamos a relação entre as variáveis “Colesterol” e “Pressão Arterial”.

Pressuposições da Correlação de Pearson

Para que a correlação de Pearson seja aplicada corretamente, as seguintes pressuposições devem ser atendidas:

  1. Linearidade: As duas variáveis devem apresentar uma relação linear. Isso pode ser verificado visualmente com um gráfico de dispersão. Se a relação entre as variáveis for não-linear, a correlação de Pearson não é adequada.

  2. Normalidade: As duas variáveis devem ser aproximadamente normalmente distribuídas, especialmente se o tamanho da amostra for pequeno. Essa pressuposição pode ser verificada através de testes de normalidade ou gráficos como o Q-Q plot.

  3. Teste de Shapiro Wilk

O teste de Shapiro-Wilk é usado para verificar a normalidade de uma distribuição, e ele testa as seguintes hipóteses:

  • Hipótese Nula (H₀): Os dados seguem uma distribuição normal.

  • Hipótese Alternativa(H1): Os dados não seguem uma distribuição normal.

    # Q-Q plot
                qqnorm(dados$Colesterol, main = "Q-Q Plot para Verificação de Normalidade")
                qqline(dados$Colesterol, col = "red", lwd = 2)  # Adiciona a linha de referência

# Exemplo de código em R para o teste de Shapiro-Wilk
shapiro.test(dados$Colesterol)

    Shapiro-Wilk normality test

data:  dados$Colesterol
W = 0.99304, p-value = 0.6833
shapiro.test(dados$Pressão_Arterial)

    Shapiro-Wilk normality test

data:  dados$Pressão_Arterial
W = 0.99097, p-value = 0.4551
  1. Homocedasticidade: A variância dos valores ao longo da linha de regressão deve ser constante, ou seja, a dispersão dos pontos deve ser similar para todos os valores das variáveis. Caso contrário, pode haver heterocedasticidade, o que viola esta pressuposição.
  # Aplicando o teste de Bartlett
  bartlett.test(dados$Colesterol~dados$Atividade_Fisica)

    Bartlett test of homogeneity of variances

data:  dados$Colesterol by dados$Atividade_Fisica
Bartlett's K-squared = 0.466, df = 2, p-value = 0.7922

H0: afirma que todas as variâncias dos grupos são iguais. H1: sugere que pelo menos uma das variâncias é diferente.

Escala de Medição: Ambas as variáveis devem ser medidas em uma escala intervalar ou de razão (QUANTITATIVAS).

Cálculo e Interpretação da Correlação de Pearson

O coeficiente de correlação de Pearson (( r )) varia entre -1 e 1:

( r = 1 ): Correlação linear perfeita positiva.

( r = -1 ): Correlação linear perfeita negativa.

( r = 0 ): Nenhuma correlação linear.

Interpretação dos Resultados

A magnitude e a direção da correlação são determinadas pelo valor de ( r ):

Correlação forte: Quando ( r ) está próximo de -1 ou 1, indicando uma forte relação linear.

Correlação fraca: Quando ( r ) está próximo de 0, indicando uma fraca ou inexistente relação linear.

Significado do sinal: Se ( r ) for positivo, a relação entre as variáveis é direta (aumento de uma variável corresponde ao aumento da outra). Se ( r ) for negativo, a relação é inversa (aumento de uma variável corresponde à diminuição da outra.

Essas hipóteses e pressuposições são fundamentais para realizar a análise de correlação de Pearson corretamente e interpretar seus resultados de forma adequadaConclusão : O gráfico de pontos e coeficiente de correlação de Pearson (r) indicam que a correlação entre o nível de Colesterol e a Pressão arterial é fraca.

# Testa se existe correlacao entre o consumo de sorvete e a temperatura
cor.test(
  x = dados$Colesterol, 
  y = dados$Pressão_Arterial, 
  method = "pearson"
)

    Pearson's product-moment correlation

data:  dados$Colesterol and dados$Pressão_Arterial
t = 1.205, df = 148, p-value = 0.2301
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.06268358  0.25480460
sample estimates:
       cor 
0.09856814 

Após calcular a correlação, o valor-p associado ao teste pode ser utilizado para verificar a significância estatística:

Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula e concluímos que existe uma correlação linear significativa entre as duas variáveis.

Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, o que indica que não há evidências suficientes de uma correlação linear significativa entre as variáveis.

Conclusão : De acordo com o teste de correlação, as variáveis Colesterol e Pressão arterial não estão correlacionadas significativamente, ao nível de 5% de significância.

Matriz de correlação - Variáveis Misturadas

#Transformando todas as variáveis em numéricas

dados$Idade <- as.numeric(dados$Idade)
dados$IMC <- as.numeric(dados$IMC)
dados$Atividade_Fisica <- as.numeric(dados$Atividade_Fisica)
dados$Fumante <-  as.numeric(dados$Fumante)
dados$Colesterol <- as.numeric(dados$Colesterol)
dados$Pressão_Arterial <- as.numeric(dados$Pressão_Arterial)
 names(dados)
[1] "Idade"            "IMC"              "Atividade_Fisica" "Fumante"         
[5] "Colesterol"       "Pressão_Arterial"
library(psych)
Warning: pacote 'psych' foi compilado no R versão 4.4.2

Anexando pacote: 'psych'
O seguinte objeto é mascarado por 'package:ltm':

    factor.scores
O seguinte objeto é mascarado por 'package:polycor':

    polyserial
Os seguintes objetos são mascarados por 'package:ggplot2':

    %+%, alpha
Anexando pacote: 'psych'
O seguinte objeto é mascarado por 'package:ltm':      factor.scores
O seguinte objeto é mascarado por 'package:polycor':      polyserial
Os seguintes objetos são mascarados por 'package:ggplot2':      %+%, alpha
Mmixed <- mixedCor(data=dados, p=3, c= c(1,2,5,6),d=4, smooth = F,correct = 0)
Mmixed
Call: mixedCor(data = dados, c = c(1, 2, 5, 6), p = 3, d = 4, smooth = F, 
    correct = 0)
Warning in abbreviate(colnames(R), minlength = minlength): abbreaviate usado
com caracteres não-ASCII
                 Idade IMC   Atv_F Fumnt Clstr Prs_A
Idade             1.00                              
IMC              -0.16  1.00                        
Atividade_Fisica  0.11  0.10  1.00                  
Fumante           0.05 -0.02  0.10  1.00            
Colesterol        0.07 -0.13  0.09  0.02  1.00      
Pressão_Arterial -0.02 -0.02  0.07  0.05  0.10  1.00
str(Mmixed)
List of 6
 $ rho  : num [1:6, 1:6] 1 -0.162 0.1075 0.0484 0.0688 ...
  ..- attr(*, "dimnames")=List of 2
  .. ..$ : chr [1:6] "Idade" "IMC" "Atividade_Fisica" "Fumante" ...
  .. ..$ : chr [1:6] "Idade" "IMC" "Atividade_Fisica" "Fumante" ...
 $ rx   : 'psych' num [1:4, 1:4] 1 -0.162 0.0688 -0.0164 -0.162 ...
  ..- attr(*, "dimnames")=List of 2
  .. ..$ : chr [1:4] "Idade" "IMC" "Colesterol" "Pressão_Arterial"
  .. ..$ : chr [1:4] "Idade" "IMC" "Colesterol" "Pressão_Arterial"
 $ poly :List of 2
  ..$ rho: num 1
  ..$ tau: NULL
 $ tetra:List of 2
  ..$ rho: num 1
  ..$ tau: NULL
 $ rpd  : num [1, 1] 0.103
  ..- attr(*, "dimnames")=List of 2
  .. ..$ : chr "Atividade_Fisica"
  .. ..$ : chr "Fumante"
 $ Call : language mixedCor(data = dados, c = c(1, 2, 5, 6), p = 3, d = 4, smooth = F, correct = 0)
 - attr(*, "class")= chr [1:2] "psych" "mixed"

Observação: Variáveis Poli, são variáveis categóricas com mais de dois níveis

A função mixedCor requer que todas as variáveis sejam de natureza numérica (Quantitativa).

Argumentos da função mixedCor:

p = posição de variáveis categóricas com mais de 2 níveis presentes no conjunto de dados;

c = posição variáveis contínuas no conjunto de dados;

d = posição variáveis categóricas com 2 níveis (dicotômica) presentes no conjuntos de dados.

Rho<-Mmixed[["rho"]] #Considerando apenas os coeficientes de correlação (rho)
Rho<-round(Rho, 2) #Considerar 2 casas após a vírgula
Rho<-as.data.frame(Rho) #Transformando o conjunto com os valores do coenficiente em "planilha".
library(ggcorrplot)
Warning: pacote 'ggcorrplot' foi compilado no R versão 4.4.2
Correlogram<-ggcorrplot(Rho, type = "upper", lab = TRUE)

library(plotly)
Correlogram<-ggplotly(Correlogram)
Correlogram