AULA ESTATÍSTICA BIVARIADA

Author

Marana Luiza Duarte Avelar

Published

Invalid Date

Code
library(rmarkdown)
library(ggplot2)
library(dplyr)

Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':

    filter, lag
Os seguintes objetos são mascarados por 'package:base':

    intersect, setdiff, setequal, union
Code
library(plotly)

Anexando pacote: 'plotly'
O seguinte objeto é mascarado por 'package:ggplot2':

    last_plot
O seguinte objeto é mascarado por 'package:stats':

    filter
O seguinte objeto é mascarado por 'package:graphics':

    layout
Code
library(corrplot)
corrplot 0.95 loaded
Code
library(ggcorrplot)
library(psych)

Anexando pacote: 'psych'
Os seguintes objetos são mascarados por 'package:ggplot2':

    %+%, alpha
Code
library(polycor)

Anexando pacote: 'polycor'
O seguinte objeto é mascarado por 'package:psych':

    polyserial
Code
library(ltm)
Carregando pacotes exigidos: MASS

Anexando pacote: 'MASS'
O seguinte objeto é mascarado por 'package:plotly':

    select
O seguinte objeto é mascarado por 'package:dplyr':

    select
Carregando pacotes exigidos: msm

Anexando pacote: 'ltm'
O seguinte objeto é mascarado por 'package:psych':

    factor.scores

Introdução

Nesta aula, vamos investigar as relações entre variáveis qualitativas e quantitativas, qualitativa e qualitativa, e quantitativa e quantitativa em um conjunto de dados relacionados à saúde e nutrição. Utilizaremos tabelas de contingência, gráficos e medidas estatísticas apropriadas para realizar esta análise.

Code
# Definindo semente para reprodutibilidade
set.seed(1234)

# Criando conjunto de dados simulado
n <- 150
dados <- data.frame(
  Idade = round(rnorm(n, mean = 40, sd = 15)),
  IMC = round(rnorm(n, mean = 25, sd = 4), 1),
  Atividade_Fisica = factor(sample(c("Baixa", "Moderada", "Alta"), n, replace = TRUE)),
  Fumante = factor(sample(c("Sim", "Não"), n, replace = TRUE)),
  Colesterol = round(rnorm(n, mean = 200, sd = 30)),
  Pressão_Arterial = round(rnorm(n, mean = 120, sd = 15))
)

# Visualizando as primeiras linhas do conjunto de dados
head(dados)
  Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1    22 23.5         Moderada     Sim        173              107
2    44 25.4         Moderada     Não        191              110
3    56 31.6         Moderada     Sim        242              136
4     5 21.5         Moderada     Não        227              125
5    46 25.5         Moderada     Não        208              107
6    48 30.4            Baixa     Sim        183              120
Code
dados
    Idade  IMC Atividade_Fisica Fumante Colesterol Pressão_Arterial
1      22 23.5         Moderada     Sim        173              107
2      44 25.4         Moderada     Não        191              110
3      56 31.6         Moderada     Sim        242              136
4       5 21.5         Moderada     Não        227              125
5      46 25.5         Moderada     Não        208              107
6      48 30.4            Baixa     Sim        183              120
7      31 24.1             Alta     Não        199              129
8      32 20.8             Alta     Sim        216              146
9      32 21.5            Baixa     Sim        185              107
10     27 23.4            Baixa     Sim        232              114
11     33 21.6            Baixa     Sim        233              135
12     25 24.0             Alta     Sim        165              113
13     28 23.3             Alta     Não        178              142
14     41 24.3            Baixa     Não        236              136
15     54 26.6         Moderada     Não        149               95
16     38 27.5             Alta     Sim        213              126
17     32 31.7            Baixa     Não        207               99
18     26 24.7            Baixa     Não        296               98
19     27 23.7            Baixa     Sim        118              121
20     76 30.9             Alta     Sim        175              121
21     42 31.8            Baixa     Não        220              120
22     33 25.2             Alta     Sim        250              139
23     33 23.7         Moderada     Não        225              124
24     47 17.7            Baixa     Não        157              110
25     30 30.6            Baixa     Sim        267              122
26     18 21.6            Baixa     Sim        147              112
27     49 20.5             Alta     Não        167              119
28     25 37.2             Alta     Não        199              103
29     40 25.9         Moderada     Não        267              118
30     26 24.9             Alta     Não        215              122
31     57 14.1         Moderada     Não        222              109
32     33 24.6            Baixa     Não        252              121
33     29 28.9            Baixa     Sim        230              110
34     32 26.7            Baixa     Sim        163              110
35     16 28.6         Moderada     Sim        221              117
36     22 32.9         Moderada     Sim        197              127
37      7 29.7            Baixa     Não        253              117
38     20 23.0         Moderada     Sim        193              123
39     36 27.8         Moderada     Sim        154              135
40     33 24.2         Moderada     Sim        215              116
41     62 22.8            Baixa     Sim        211              118
42     24 13.6            Baixa     Não        199              128
43     27 21.8             Alta     Não        168              101
44     36 27.0         Moderada     Não        175              128
45     25 33.7         Moderada     Sim        200              112
46     25 27.0         Moderada     Sim        231              103
47     23 27.5         Moderada     Não        189               93
48     21 21.1             Alta     Não        174              109
49     32 25.7             Alta     Sim        119              102
50     33 16.7            Baixa     Não        215              102
51     13 26.9             Alta     Não        213              144
52     31 27.8         Moderada     Não        239              102
53     23 25.7         Moderada     Sim        244              135
54     25 27.8             Alta     Sim        196              128
55     38 26.2             Alta     Sim        239              107
56     48 28.0         Moderada     Sim        200              111
57     65 32.4         Moderada     Sim        180              114
58     28 29.4         Moderada     Sim        175              123
59     64 25.1             Alta     Não        190              115
60     23 20.5             Alta     Sim        207              132
61     50 26.7             Alta     Não        199              116
62     78 23.4            Baixa     Sim        206               88
63     39 31.0             Alta     Não        206              119
64     30 18.6            Baixa     Sim        221               92
65     40 23.3            Baixa     Não        192              134
66     67 26.7            Baixa     Não        249              109
67     23 24.4         Moderada     Não        213              103
68     61 22.6             Alta     Sim        164              111
69     60 23.8             Alta     Sim        192              129
70     45 27.5         Moderada     Não        215               91
71     40 28.6         Moderada     Sim        188              124
72     33 27.6             Alta     Não        210              105
73     35 34.1             Alta     Sim        213              120
74     50 29.7            Baixa     Sim        239              130
75     71 26.2            Baixa     Não        180              129
76     38 22.4            Baixa     Não        199              143
77     19 36.7             Alta     Sim        183              122
78     29 27.7         Moderada     Não        166              109
79     44 22.3         Moderada     Sim        145              152
80     35 25.7         Moderada     Não        206              115
81     37 23.7            Baixa     Não        218              132
82     37 23.9         Moderada     Não        219              134
83     19 21.3             Alta     Não        158              127
84     37 25.5             Alta     Sim        166              141
85     53 26.3         Moderada     Não        166              117
86     50 20.7             Alta     Sim        179              102
87     48 12.1         Moderada     Sim        205              115
88     34 24.0             Alta     Não        218              112
89     37 25.1         Moderada     Não        176              125
90     22 27.4             Alta     Não        114              106
91     39 25.2            Baixa     Sim        229              130
92     44 26.7             Alta     Não        218              103
93     66 20.6             Alta     Não        179              146
94     55 27.8             Alta     Sim        168              142
95     33 27.9             Alta     Não        191              113
96     45 26.0             Alta     Sim        203              122
97     23 30.4            Baixa     Sim        222              114
98     53 26.6         Moderada     Sim        242              102
99     55 26.1            Baixa     Sim        175               80
100    72 26.1             Alta     Sim        209              120
101    46 26.7         Moderada     Não        240              119
102    33 29.2             Alta     Sim        173              145
103    41 26.8         Moderada     Sim        193               90
104    32 27.7             Alta     Sim        147              110
105    28 20.5            Baixa     Não        209              133
106    43 23.5            Baixa     Não        181              125
107    27 30.9             Alta     Sim        172              122
108    43 20.1             Alta     Sim        177              111
109    45 26.0             Alta     Não        213              123
110    39 26.6         Moderada     Não        135              116
111    37 28.9             Alta     Sim        187              122
112    30 23.6             Alta     Sim        170              111
113    23 25.6         Moderada     Sim        171              138
114    53 17.9             Alta     Sim        214              136
115    40 26.4             Alta     Sim        211              140
116    52 22.3            Baixa     Sim        197              114
117    21 24.0            Baixa     Sim        216              115
118    43 20.2            Baixa     Sim        182              115
119    50 26.5         Moderada     Não        139              141
120    40 27.7            Baixa     Não        235              116
121    37 23.8            Baixa     Não        193              121
122    28 32.3             Alta     Sim        189              126
123    71 27.7             Alta     Sim        205              130
124    51 28.8         Moderada     Sim        223              116
125    67 33.2             Alta     Sim        213              155
126    41 22.4             Alta     Não        228              106
127    31 28.2            Baixa     Sim        201               99
128    17 28.9         Moderada     Sim        185              121
129    30 25.0         Moderada     Sim        191              147
130    43 26.3            Baixa     Não        225              121
131    55 21.0             Alta     Não        175              122
132    44 26.9            Baixa     Sim        171              133
133    22 22.2             Alta     Sim        209              119
134    50 28.3            Baixa     Não        218              122
135    15 21.8         Moderada     Não        149              138
136    35 26.3            Baixa     Não        224              121
137    35 21.6            Baixa     Sim        200              109
138    11 24.0             Alta     Não        195              126
139    54 18.8         Moderada     Sim        233              104
140    31 25.5            Baixa     Não        244               98
141    35 28.9             Alta     Não        166              118
142    61 25.7         Moderada     Sim        230              103
143    50 17.9         Moderada     Não        181              129
144    38 22.5             Alta     Não        204              118
145    48 31.6            Baixa     Sim        214              109
146    46 32.2            Baixa     Não        204              144
147    65 20.3             Alta     Não        156              118
148    44 23.5            Baixa     Sim        185              141
149    48 26.4            Baixa     Sim        246              118
150    45 26.3             Alta     Não        205              115

Observações:

  1. As medidas descritivas MÉDIA, MODA, MEDIANA, QUARTIS e PERCENTIS devem ser calculados a partir de variáveis QUANTITATIVAS.

  2. Para variável QUALITATIVA ou CATEGÓRICA pode-se aplicar a MODA como medida descritiva.

Relação entre Variáveis Qualitativas e Quantitativas

Exemplo: Relação entre Atividade Física e IMC

Para investigar a relação entre uma variável qualitativa (Atividade_Fisica) e uma quantitativa (IMC), podemos calcular estatísticas descritivas de IMC para cada nível de Atividade_Física.

Code
# Estatísticas descritivas do IMC por nível de Atividade Física
library(dplyr)
dados %>%
  group_by(Atividade_Fisica) %>%
  summarise(
    Média_IMC = mean(IMC),
    Mediana_IMC = median(IMC),
    Desvio_Padrão_IMC = sd(IMC)
  )
# A tibble: 3 × 4
  Atividade_Fisica Média_IMC Mediana_IMC Desvio_Padrão_IMC
  <fct>                <dbl>       <dbl>             <dbl>
1 Alta                  25.7        25.8              4.20
2 Baixa                 25.0        24.6              4.13
3 Moderada              25.7        26.4              4.15

Gráfico de boxplot para IMC por nível de Atividade Física

Code
# Gráfico de boxplot para IMC por nível de Atividade Física
library(ggplot2)

p<-ggplot(dados, aes(x = Atividade_Fisica, y = IMC, fill = Atividade_Fisica)) +
  geom_boxplot() +
  labs(title = "Boxplot de IMC por Nível de Atividade Física",
       x = "Nível de Atividade Física",
       y = "IMC") +
  theme_minimal() 

p1<-ggplotly(p)
p1

Gráfico 1: Boxplot de IMC por Nível de Atividade Física

Interpretação:

O gráfico de boxplot exibe a distribuição do Índice de Massa Corporal (IMC) para cada nível de atividade física (“Baixa”, “Moderada”, “Alta”). Ele mostra os seguintes pontos principais:

  • Mediana (linha central): Representa o valor mediano de IMC em cada grupo de atividade física.

    • Os indivíduos com atividade física alta tendem a ter um IMC mediano um pouco menor (25,8) do que aqueles com atividade física moderada (26,4). No entanto quando comparados aos individos com atividade fisica baixa (24,65) o IMC mediano é maior.
  • Dispersão (caixa e bigodes): Indica a variação do IMC em cada grupo.

    • atividade física alta (sd = 4,20) apresenta uma maior variação no IMC, sugerindo que pessoas com atividade física alta têm IMCs mais variados, enquanto a atividade física baixa  tem a menor dispersão (sd = 4,13).

    • Outliers (pontos fora da caixa e dos bigodes): Indivíduos com valores de IMC muito acima ou abaixo do esperado para cada grupo.

      • Alguns outliers são visíveis no grupo de atividade física alta, baixa e moderada, indicando a presença de indivíduos com IMC muito altos para atividade física alta e moderada. O gráfico indica também a presença de Indivíduos com IMC muito baixo para atividade física baixa e moderada

    Conclusão: Há uma leve tendência de que, conforme aumenta o nível de atividade física, o IMC tende a diminuir. No entanto, a variação significativa observada dentro de cada grupo indica que outros fatores podem estar influenciando esses resultados.

IMC está associado com a frequência de atividade física ?

Para investigar a associação entre uma variável qualitativa (como Atividade Física, caso seja dicotômica ou ordinal) e uma variável quantitativa contínua (como IMC), o coeficientie de correlação bisserial ou correlação polissérica são apropriados. Para calcular esses coeficientes no R, você pode usar pacotes como polycor, que oferece funções para obter tanto a correlação bisserial quanto a polissérica.

Correlação polissérica

Esse coeficiente é indicado se Atividade Física tiver mais de dois níveis ordenados (como “Nenhuma”, “Moderada”, “Alta”). Ele generaliza a correlação bisserial para uma variável qualitativa com categorias ordenadas e mede a associação entre uma variável contínua e uma qualitativa ordinal, assumindo uma normalidade latente subjacente.

Code
# Exemplo de dados para correlação polissérica
# Suponha uma variável contínua Y e uma variável ordinal X
polyserial_corr <- polyserial(dados$IMC,dados$Atividade_Fisica )

polyserial_corr
[1] -0.009846785

Interpretação dos Coeficientes de Correlação

Para interpretar os coeficientes de correlação bisserial e polissérica e testar sua significância, segue:

  1. **Correlação Polissérica ( $r_poly$): O coeficiente polissérico mede a associação entre uma variável contínua e uma variável ordinal, assumindo que a variável ordinal representa uma discretização de uma distribuição normal subjacente.
  • Valores altos de $r_ply$ (próximos de 1 ou -1) indicam uma associação forte entre a variável contínua e a variável ordinal, sugerindo uma mudança substancial nos valores médios ou na distribuição da variável contínua conforme as categorias da variável ordinal.

  • Valores baixos (próximos de 0) indicam uma associação fraca ou inexistente, sugerindo que as categorias da variável ordinal não correspondem a variações sistemáticas na variável contínua.

Testes de Significância

Para verificar a significância desses coeficientes, você pode aplicar testes estatísticos apropriados que avaliam a hipótese nula de que a correlação é zero (ou seja, que não há associação entre as variáveis).

  1. Correlação Polissérica:

    • A significância do coeficiente de correlação polissérica é normalmente testada via estimativas de erro padrão obtidas durante o ajuste da correlação. Essas estimativas podem ser usadas para construir um teste z:

      \(Z=\frac{r_p}{ErroP}\)

      O coeficiente polissérico. Esse teste z pode ser usado para calcular o valor-p, assumindo uma distribuição normal padrão para o teste de significância.

      No pacote polycor em R, a função polyserial() fornece uma estimativa do erro padrão para a correlação polissérica, permitindo realizar o teste de significância.

Esses métodos ajudam a avaliar se os coeficientes são estatisticamente diferentes de zero, confirmando a existência de uma associação significativa entre as variáveis contínua e qualitativa.

Code
# Extraia o valor de r_poly e o erro padrão

# Extraia o valor de r_p
r_p<- polyserial_corr

# Tamanho da amostra
n <- length(dados$IMC)

# Calcule o valor do teste t para r_b
t_value <- r_p*sqrt((n - 2)/(1 - r_p^2))

# Calcule o valor-p para o teste t
p_value <- 2 * pt(-abs(t_value), df = n - 2)

# Resultados
cat("Correlação Polisserial aproximada (r_pa):", r_p, "\n")
Correlação Polisserial aproximada (r_pa): -0.009846785 
Code
cat("Valor t:", t_value, "\n")
Valor t: -0.1197971 
Code
cat("Valor-p:", p_value, "\n")
Valor-p: 0.9048063 

Escolhido o nível de sgnificância geralmente 5% (0,05).

Hipótese do teste:

\(H_0: r_p=0\)

\(H_1:r_p\neq1\)

Possíveis interpretações

Se o valor \(p\<0,05\) , rejeita-se \(H_0\) e conclui-se que o coeficiente de correlação polissérico estimado é estattísticamente significativo .

Se o valor \(p 0,05\) , NÃO rejeita-se \(H_0\) e conclui-se que o coeficiente de correlação polissérico estimado NÃO É estatísticamente significativo .

Conclusão para o teste aplicado: De acordo com o teste t , não reijeitamos a hipótese de que o coeficiente polissérico estimado é igual a zero , logo , concluímos que a correlação estimada não é estatisticamente significativa, obtendo um valor p = 0.9.

Correlação bisserial

Esse coeficiente é adequado se Fumante for dicotômica (com dois níveis, como “Sim” e “Não”). Ele mede a associação entre uma variável contínua (como IMC) e uma variável binária que se supõe representar uma divisão de uma variável latente normal subjacente. O coeficiente bisserial estima a correlação subjacente assumindo que a variável dicotômica resulta de uma “dichotomização” de uma distribuição normal.

Code
library(ltm)
# Exemplo de dados para correlação bisserial
# Suponha uma variável contínua Y e uma variável dicotômica X
biserial_corr <- biserial.cor(dados$IMC, dados$Fumante)

biserial_corr
[1] -0.1428736
Code
# Exemplo de dados para correlação bisserial
# Suponha uma variável contínua Y e uma variável dicotômica X
biserial_corr <- biserial.cor(dados$IMC, dados$Fumante)

biserial_corr
[1] -0.1428736

#### Testando a significância

Code
# Extraia o valor de r_poly e o erro padrão
r_b<- biserial_corr

# Tamanho da amostra
n <- length(dados$IMC)

# Calcule o valor do teste t para r_b
t_value <- r_b*sqrt((n - 2)/(1 - r_b^2))

# Calcule o valor-p para o teste t
p_value <- 2 * pt(-abs(t_value), df = n - 2)

# Resultados
cat("Correlação Bisserial aproximada (r_b):", r_b, "\n")
Correlação Bisserial aproximada (r_b): -0.1428736 
Code
cat("Valor t:", t_value, "\n")
Valor t: -1.756149 
Code
cat("Valor-p:", p_value, "\n")
Valor-p: 0.08113143 

Conclusão para o teste aplicado: De acordo com o teste t , reijeitamos a hipótese de que o coeficiente biserial estimado é igual a zero , logo , concluímos que a correlação estimada é estatisticamente significativa.

Testando a hipotese de associação entre o hábito de fumar e atividade física - Teste Qui-Quadrado

Pressuposições do Teste Qui-Quadrado

O teste qui-quadrado possui algumas pressuposições importantes que devem ser verificadas para garantir a validade do teste. Essas pressuposições são as seguintes:

  1. Amostra Aleatória: A amostra de dados deve ser obtida por um processo de amostragem aleatória, garantindo que cada observação seja independente das outras.

  2. Tamanho da Amostra Adequado: As frequências esperadas em cada célula da tabela de contingência devem ser maiores ou iguais a 5. Caso contrário, o teste qui-quadrado pode não ser apropriado.

  3. Medida de Associação: O teste qui-quadrado mede a associação entre as variáveis, mas não indica a direção ou a magnitude dessa associação.

  4. Variáveis Categóricas: As variáveis analisadas devem ser qualitativas (categóricas), e a análise se dá por meio de uma tabela de contingência.

Essas hipóteses e pressuposições são essenciais para realizar o teste qui-quadrado de forma correta e interpretar seus resultados adequadamente.

Hipóteses e Pressuposições para o Teste Qui-Quadrado

Nesta seção, descrevemos as hipóteses e as pressuposições envolvidas no teste qui-quadrado, aplicado para investigar a associação entre as variáveis “Fumar” e “Atividade Física”.

Hipóteses do Teste Qui-Quadrado

O teste qui-quadrado é utilizado para verificar se há uma associação entre duas variáveis qualitativas. No caso deste estudo, estamos interessados em avaliar a relação entre ser fumante e o nível de atividade física.

  • Hipótese Nula (H₀): As variáveis “Fumar” e “Atividade Física” são independentes, ou seja, a proporção de fumantes não difere entre os diferentes níveis de atividade física.

[ H_0: ]

  • Hipótese Alternativa (H₁): O habito de fumar “Fumar” e “Atividade Física” não são independentes (estão associadas)

    [ H_1: ]

Code
tabela_contingencia <- table(dados$Fumante, dados$Atividade_Fisica)
 tabela_contingencia
     
      Alta Baixa Moderada
  Não   26    23       22
  Sim   30    25       24
Code
# Teste do Qui-Quadrado para verificar associação entre Fumar e Atividade Física
teste_qui <- chisq.test(tabela_contingencia)
teste_qui

    Pearson's Chi-squared test

data:  tabela_contingencia
X-squared = 0.029421, df = 2, p-value = 0.9854

Interpretação dos Resultados

Após realizar o teste qui-quadrado, avaliamos o valor-p obtido:

  • Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula, o que indica que existe uma associação significativa entre “Fumar” e “Atividade Física”.

  • Se o valor-p for maior a 0,05, não rejeitamos a hipótese nula, ou seja, não temos evidências suficientes para concluir que as variáveis são independentes.

Conclusão: De acordo com teste qui-quadrado (valor p = 0,9854), indica que não temos evidências suficientes para concluir que as variáveis são dependentes. Ou seja, o hábito de fumo não está associado com Atividade física ao nível de 5 % de significância.

Relação entre Variáveis Quantitativas

Neste exemplo, apresentamos três tipos de relação linear: Correlação PositivaCorrelação Negativa e Ausência de Correlação. Abaixo, as figuras são exibidas lado a lado para facilitar a visualização. 

GERAÇÃO DAS FIGURAS NO R.

Correlação entre colesterol e pressão arterial

Code
ggplot(dados, aes(x = Colesterol, y = Pressão_Arterial)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Gráfico de Dispersão: Colesterol vs Pressão Arterial",
       x = "Colesterol",
       y = "Pressão Arterial") +
  theme_minimal()
`geom_smooth()` using formula = 'y ~ x'

Correlação de Pearson

Code
# Correlação de Pearson entre Colesterol e Pressão Arterial
correlacao <- cor(dados$Colesterol, dados$Pressão_Arterial)
correlacao
[1] -0.07319944

Hipóteses e Pressuposições para a Correlação de Pearson

Nesta seção, descrevemos as hipóteses e pressuposições para a aplicação da correlação de Pearson, que é usada para medir a relação linear entre duas variáveis quantitativas. No exemplo, investigamos a relação entre as variáveis “Colesterol” e “Pressão Arterial”.

Hipóteses da Correlação de Pearson

A correlação de Pearson avalia a força e a direção da relação linear entre duas variáveis contínuas. Suas hipóteses são definidas da seguinte maneira:

  • Hipótese Nula (H₀): Não existe correlação linear entre as duas variáveis; o coeficiente de correlação populacional é igual a zero.

  • Hipótese Alternativa (H₁): Existe uma correlação linear entre as duas variáveis; o coeficiente de correlação populacional é diferente de zero.

    Code
    # Q-Q plot
                qqnorm(dados$Colesterol, main = "Q-Q Plot para Verificação de Normalidade")
                qqline(dados$Colesterol, col = "red", lwd = 2)  # Adiciona a linha de referência

    Gráfico Q-Q: Apresenta os quantis da amostra em comparação com os quantis de uma distribuição normal teórica. Como os pontos estão alinhados próximos à linha vermelha, isso sugere que os dados seguem uma distribuição normal.

    Code
    # Exemplo de código em R para o teste de Shapiro-Wilk
    shapiro.test(dados$Colesterol)
    
        Shapiro-Wilk normality test
    
    data:  dados$Colesterol
    W = 0.99371, p-value = 0.7606

    Conclusão: Com base no valor-p do teste de Shapiro-Wilk (0,7606), e na análise do gráfico Q-Q, podemos concluir que os dados de colesterol seguem uma distribuição normal, ou pelo menos não há evidências suficientes para rejeitar a normalidade.

    Code
    shapiro.test(dados$Pressão_Arterial)
    
        Shapiro-Wilk normality test
    
    data:  dados$Pressão_Arterial
    W = 0.99392, p-value = 0.7836
    1. Homocedasticidade: A variância dos valores ao longo da linha de regressão deve ser constante, ou seja, a dispersão dos pontos deve ser similar para todos os valores das variáveis. Caso contrário, pode haver heterocedasticidade, o que viola esta pressuposição.
    Code
      # Aplicando o teste de Bartlett
      bartlett.test(dados$Colesterol~dados$Atividade_Fisica)
    
        Bartlett test of homogeneity of variances
    
    data:  dados$Colesterol by dados$Atividade_Fisica
    Bartlett's K-squared = 2.6258, df = 2, p-value = 0.269

    H0: afirma que todas as variâncias dos grupos são iguais.

    H1: sugere que pelo menos uma das variâncias é diferente.

    Como o valor-p (0,269) é maior que 0,05, não há evidências estatísticas suficientes para rejeitar a hipótese nula de que as variâncias são iguais entre os grupos. Isso Com base nesses dados, podemos assumir homogeneidade de variâncias para os grupos de atividade física em relação aos níveis de colesterol.

    Escala de Medição: Ambas as variáveis devem ser medidas em uma escala intervalar ou de razão (QUANTITATIVAS).

    Cálculo e Interpretação da Correlação de Pearson

    O coeficiente de correlação de Pearson (( r )) varia entre -1 e 1:

    • ( r = 1 ): Correlação linear perfeita positiva.

    • ( r = -1 ): Correlação linear perfeita negativa.

    • ( r = 0 ): Nenhuma correlação linear.

    Interpretação dos Resultados

A magnitude e a direção da correlação são determinadas pelo valor de ( r ):

  • Correlação forte: Quando ( r ) está próximo de -1 ou 1, indicando uma forte relação linear.

  • Correlação fraca: Quando ( r ) está próximo de 0, indicando uma fraca ou inexistente relação linear.

  • Significado do sinal: Se ( r ) for positivo, a relação entre as variáveis é direta (aumento de uma variável corresponde ao aumento da outra). Se ( r ) for negativo, a relação é inversa (aumento de uma variável corresponde à diminuição da outra).

Essas hipóteses e pressuposições são fundamentais para realizar a análise de correlação de Pearson corretamente e interpretar seus resultados de forma adequada

Conclusão : O gráfico de pontos e coeficiente de correlação de Pearson (r) indicam que a correlação entre o nível de Colesterol e a Pressão arterial é fraca. O valor negativo indica que a relação entre essas variaveis é inversa, o aumento do Colesterol corresponde a diminiução da Pressão arterial.

Code
# Testa se existe correlacao entre o consumo de sorvete e a temperatura
cor.test(
  x = dados$Colesterol, 
  y = dados$Pressão_Arterial, 
  method = "pearson"
)

    Pearson's product-moment correlation

data:  dados$Colesterol and dados$Pressão_Arterial
t = -0.8929, df = 148, p-value = 0.3734
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.23075398  0.08809554
sample estimates:
        cor 
-0.07319944 

Após calcular a correlação, o valor-p associado ao teste pode ser utilizado para verificar a significância estatística:

  • Se o valor-p for menor que o nível de significância (geralmente 0,05), rejeitamos a hipótese nula e concluímos que existe uma correlação linear significativa entre as duas variáveis.

  • Se o valor-p for maior ou igual a 0,05, não rejeitamos a hipótese nula, o que indica que não há evidências suficientes de uma correlação linear significativa entre as variáveis.

Conclusão : De acordo com o teste de correlação, as variáveis Colesterol e Pressão arterial não estão correlacionadas significativamente, ao nível de 5% de significância.

Matriz de correlação - Variáveis Misturadas

Code
#Transformando todas as variáveis em numéricas

dados$Idade <- as.numeric(dados$Idade)
dados$IMC <- as.numeric(dados$IMC)
dados$Atividade_Fisica <- as.numeric(dados$Atividade_Fisica)
dados$Fumante <-  as.numeric(dados$Fumante)
dados$Colesterol <- as.numeric(dados$Colesterol)
dados$Pressão_Arterial <- as.numeric(dados$Pressão_Arterial)
 names(dados)
[1] "Idade"            "IMC"              "Atividade_Fisica" "Fumante"         
[5] "Colesterol"       "Pressão_Arterial"
  • Code
    library(psych)
    Code
    Mmixed <- mixedCor(data=dados, p=3, c= c(1,2,5,6),d=4, smooth = F,correct = 0)
    Code
    Mmixed
    Call: mixedCor(data = dados, c = c(1, 2, 5, 6), p = 3, d = 4, smooth = F, 
        correct = 0)
    Warning in abbreviate(colnames(R), minlength = minlength): abbreaviate usado
    com caracteres não-ASCII
                     Idade IMC   Atv_F Fumnt Clstr Prs_A
    Idade             1.00                              
    IMC              -0.04  1.00                        
    Atividade_Fisica -0.07 -0.01  1.00                  
    Fumante           0.07  0.18 -0.02  1.00            
    Colesterol       -0.01  0.08  0.14 -0.06  1.00      
    Pressão_Arterial -0.01  0.01 -0.14  0.07 -0.07  1.00
    Code
    str(Mmixed)
    List of 6
     $ rho  : num [1:6, 1:6] 1 -0.0419 -0.0659 0.0655 -0.0064 ...
      ..- attr(*, "dimnames")=List of 2
      .. ..$ : chr [1:6] "Idade" "IMC" "Atividade_Fisica" "Fumante" ...
      .. ..$ : chr [1:6] "Idade" "IMC" "Atividade_Fisica" "Fumante" ...
     $ rx   : 'psych' num [1:4, 1:4] 1 -0.0419 -0.0064 -0.0134 -0.0419 ...
      ..- attr(*, "dimnames")=List of 2
      .. ..$ : chr [1:4] "Idade" "IMC" "Colesterol" "Pressão_Arterial"
      .. ..$ : chr [1:4] "Idade" "IMC" "Colesterol" "Pressão_Arterial"
     $ poly :List of 2
      ..$ rho: num 1
      ..$ tau: NULL
     $ tetra:List of 2
      ..$ rho: num 1
      ..$ tau: NULL
     $ rpd  : num [1, 1] -0.0169
      ..- attr(*, "dimnames")=List of 2
      .. ..$ : chr "Atividade_Fisica"
      .. ..$ : chr "Fumante"
     $ Call : language mixedCor(data = dados, c = c(1, 2, 5, 6), p = 3, d = 4, smooth = F, correct = 0)
     - attr(*, "class")= chr [1:2] "psych" "mixed"

    Observação: Variáveis Poli, são variáveis categóricas com mais de dois níveis

    A função mixedCor requer que todas as variáveis sejam de natureza numérica (Quantitativa).

    Argumentos da função mixedCor:

    p = posição de variáveis categóricas com mais de 2 níveis presentes no conjunto de dados;

    c = posição variáveis contínuas no conjunto de dados;

    d = posição variáveis categóricas com 2 níveis (dicotômica) presentes no conjuntos de dados.

    Code
    Rho<-Mmixed[["rho"]] #Considerando apenas os coeficientes de correlação (rho)
    Rho<-round(Rho, 2) #Considerar 2 casas após a vírgula
    Rho<-as.data.frame(Rho) #Transformando o conjunto com os valores do coenficiente em "planilha".
    Code
    library(ggcorrplot)
    Correlogram<-ggcorrplot(Rho, type = "upper", lab = TRUE)
    
    library(plotly)
    Correlogram<-ggplotly(Correlogram)
    Correlogram

    Comparação entre grupos

    Hipóteses do Teste t para Amostras Independentes

    O teste t de Student é utilizado para comparar as médias de dois grupos independentes. As hipóteses nula e alternativa para o teste t são definidas da seguinte forma:

    Hipótese Nula (H₀):

    A hipótese nula postula que não há diferença entre as médias dos dois grupos, ou seja, as médias são estatisticamente iguais.

    [ $H_0: _1 = _2 ]

    Onde: - ( _1 ) é a média do Grupo 1. - ( _2 ) é a média do Grupo 2.

    Hipótese Alternativa (H₁):

    A hipótese alternativa postula que há uma diferença entre as médias dos dois grupos. Ela pode ser:

    1. Teste bicaudal (bilateral):

    Sugere que as médias dos grupos são diferentes, mas sem especificar a direção da diferença.

    [ H_1: _1 _2 ]

    2. Teste unicaudal à direita (direcional):

    Sugere que a média do Grupo 1 é maior do que a do Grupo 2.

    [ H_1: _1 > _2 ]

    3. Teste unicaudal à esquerda (direcional):

    Sugere que a média do Grupo 1 é menor do que a do Grupo 2.

    [ H_1: _1 < _2 ]

    Relação entre Variáveis Qualitativa e Qualitativa

    Exemplo: Relação entre Fumar e Atividade Física

    Para investigar a relação entre duas variáveis qualitativas, podemos usar uma tabela de contingência entre as variáveis Fumante e Atividade_Física.

    Tabela de Contingência - Relação entre Fumar e Atividade Física

    Code
    # Tabela de contingência entre Fumar e Atividade Física
    tabela_contingencia <- table(dados$Fumante, dados$Atividade_Fisica)
    tabela_contingencia
    
         1  2  3
      1 26 23 22
      2 30 25 24

    Interpretação:

    A tabela de contingência fornece a contagem de fumantes e não fumantes dentro de cada nível de atividade física. A partir dessa tabela, podemos observar:

    • Atividade Física Alta: Parece ter uma proporção maior de fumantes (30) comparado aos níveis de atividade física moderada (24) e baixa (25)

    Essas observações podem indicar uma possível associação entre fumar e o nível de atividade física. Indivíduos com alta atividade física tendem a fumar mais.