1 Associação entre variáveis quantitativas

Existe correlação entre:

  • Intensidade luminosa de uma planta e seu desenvolvimento;
  • Qualidade da alimentação e o nível de colesterol no sangue;
  • Quantidade de água parada e o desenvolvimento das larvas do mosquito da dengue;
  • Reclamação de clientes e a qualidade do produto;
  • Popularidade de um governo e indicadores econômicos.

1.1 Tipos de correlação

Tipos de correlação

1.2 Gráfico de dispersão

Usado para ter visualizar uma possível relação entre X e Y, em que os pares ordenados são representados como um ponto no plano cartesiano.

Exemplo: Dados Íris de Fisher, do Estatístico britânico Ronald Fisher, com dados referentes ao comprimento e largura das pétalas de três espécies da flor íris. Este bando de dados (BD) já vem no R. Para carregá-lo basta usar a função data.

data("iris")
head(iris) # mostra as 6 primeiras linhas de um BD
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa
tail(iris) # mostra as 6 última linhas de um BD
##     Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
## 145          6.7         3.3          5.7         2.5 virginica
## 146          6.7         3.0          5.2         2.3 virginica
## 147          6.3         2.5          5.0         1.9 virginica
## 148          6.5         3.0          5.2         2.0 virginica
## 149          6.2         3.4          5.4         2.3 virginica
## 150          5.9         3.0          5.1         1.8 virginica

Tudo no R pode ser feito de diversas maneiras. Apresentamos aqui duas formas de fazer um gráfico de dispersão. A primeira e mais simples e a partir da função plot.

plot(iris$Petal.Length,iris$Petal.Width)

# note que o símbolo $ seleciona a variável Petal.Length do BD iris.

Com a função plot podemos acrescentar o nosmes dos eixos X e Y, além de outras particularidades desta função. Contudo, o pacote ggplot e ggplot2 são muito mais completos e com uma infinidade de possibilidades para melhorar a visualização de um gráfico.

# Caso não tenha ainda instalado a função, use: install.packages("ggplot2").
# depois basta carregar pacote e usar suas funções:

library(ggplot2)
ggplot(iris, aes(y = Petal.Length, x = Petal.Width)) +
geom_point()+
xlab("Largura das Pétalas (mm)") +
ylab("Comprimento das Pétalas (cm)")

Pode-se verificar a partir destes gráficos um certo padrão: Quanto maior a largura, maior também o comprimento das pétalas. Visualmente podemos dizer que há uma relação diretamente proporcional entres estas variáveis

1.3 Coeficiente de correlação de Pearson (1896)

Na prática os gráficos de dispersão servem para visualizar uma possível correlação entre duas variáveis quantitativas. Contudo, uma estatística que mensure tal correlação se faz necessária para realmente afirmar se as variáveis são correlacionadas ou não.

\[\begin{equation} r = \frac{n\sum xy - (\sum x)(\sum y)}{\sqrt{n\sum x^{2}-(\sum x)^{2}}\sqrt{n\sum y^{2}-(\sum y)^{2}}} \end{equation}\]

O coeficiente de correlação amostral de Pearson varia entre -1 e 1. A correlação pode ser positiva, negativa ou nula. Ela é perfeita se r = -1 ou r = 1.

Exemplo: Exemplo: As famosas cocadeiras baianas costumam produzir suas próprias quitandas. Para isso, elas cumprem a difícil tarefa de quebrar dezenas de cocos por dia. Querendo evitar trabalho desnecessário, elas desejam quebrar apenas aqueles frutos que contêm uma grande quantidade de polpa. Portanto, procedem da seguinte maneira: furam o coco, medem sua quantidade de água e, com base em sua experiência, decidem se vale a pena quebrá-lo. Como esse procedimento é impreciso, as trabalhadoras desejam a nossa ajuda. Considerando os dados apresentados na tabela abaixo, vamos ajustar um modelo adequado para predizer o volume de polpa de frutos de coco (Y) a partir de sua quantidade de água (X).

Ferreira, Eric Batista, 2020.

# inserindo os dados
polpa<-c(9.02,13.10,14.76,21.54,15.62,18.34,20.23,8.88,14.06,23.59,16.62,21.93,10.56,12.28,20.68,9.53,13.73,5.73,15.08,21.57)

agua<-c(17.87,13.75,12.72,6.98,11.01,10.48,10.19,19.11,12.72,0.45,10.67,1.59,14.91,14.14,9.40,16.23,12.74,20.64,12.34,6.44)
# colocando os dados no formato dataframe
coco = data.frame(polpa,agua)
polpa agua
9.02 17.87
13.10 13.75
14.76 12.72
21.54 6.98
15.62 11.01
18.34 10.48
20.23 10.19
8.88 19.11
14.06 12.72
23.59 0.45
16.62 10.67
21.93 1.59
10.56 14.91
12.28 14.14
20.68 9.40
9.53 16.23
13.73 12.74
5.73 20.64
15.08 12.34
21.57 6.44

Pode-se verificar a partir do gráfico que a medida que aumenta o volume de água, diminui o volume da polpa do coco. O coefiente de correlação de Pearson é forte e negativo (\(r\approx\)-0,95) - obtido a partir da função cor() -, corroborando com as conclusões feitas visualmente.

# gráfico de dispersão
ggplot(coco, aes(y = polpa, x = agua)) +
  geom_point()+
  xlab("Volume de água") + 
  ylab("Volume de polpa")

# correlação de Pearson
cor(agua,polpa)
## [1] -0.9452613

Vimos a partir do gráfico de dispersão e do coeficiente de correlação que há uma forte correlação negativa entre o volume da polpa e volume de água do coco, ou seja, quanto maior a quantidade de água, menor será o volume da polpa. Contudo, pode-se dizer que esta correlação é significativa?

Figura reproduzida de Bussab e Morettin, 2017.

1.3.1 Teste para o coeficiente de correlação

  • Hipóteses:

\(H_{0}: \rho = 0 \;\Leftrightarrow \text{(Não há correlação entre as variáveis)};\)

\(H_{1}: \rho \neq 0 \;\Leftrightarrow (\; \text{Há correlação entre as variáveis}).\)

  • Estatística de teste
\[\begin{equation} T = r\sqrt{\dfrac{n-2}{1-r^{2}}} \sim t_{n-2} \end{equation}\]

Lembre-se: o teste para o coeficiente de correlação é um teste paramétrico, portanto, precisa-se verificar esta premissa.

Para verificar a normalidade dos dados utiliza-se a função shapiro.test(). Note para ambas variáveis o valor-p foi maior que o nível de significância (usualmente \(\alpha = 0,05\)), logo, os dados são normais.

shapiro.test(polpa)
## 
##  Shapiro-Wilk normality test
## 
## data:  polpa
## W = 0.9598, p-value = 0.5399
shapiro.test(agua)
## 
##  Shapiro-Wilk normality test
## 
## data:  agua
## W = 0.96005, p-value = 0.5449

O teste para o coeficiente de correlação é feito a partir da função cor.test(). Agora sim, pode-se concluir com 95% de confiabilidade que há forte correlação negativa entre o volume de polpa e volume de água (valor-p < 0,05).

cor.test(polpa,agua)
## 
##  Pearson's product-moment correlation
## 
## data:  polpa and agua
## t = -12.29, df = 18, p-value = 3.433e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.9784843 -0.8642575
## sample estimates:
##        cor 
## -0.9452613

2 Análise de variância - ANOVA (resumo)

Para comparação de mais de duas amostras, a ANOVA, apesar de calcular variâncias, faz comparação de médias, decompondo a variação total das unidades experimentais em duas partes: variação devida aos tratamentos; e variação devida ao acaso (ou resíduos).

Considere o modelo estatístico decomposto em duas componentes: sistemática e aleatória:

\[\begin{eqnarray} \begin{array}{c} Y = \mu + e. \end{array} \end{eqnarray}\]

Em que \(Y\) é a observação associada a uma unidade experimental; \(\mu\) é a média populacional e \(e\) é a parte aleatória. Suponha que queiramos comparar as médias de \(K\) populações, isto é:

\[\begin{eqnarray*} \begin{array}{ll} & H_{0} : \mu_{1} = \mu_{2},...,\mu_{K};\\ & H_{1} : \text{pelo menos uma das médias }\mu_{i} \text{ é diferente das demais}.\\ \end{array} \end{eqnarray*}\]

Para \(K\) amostras independentes, com \(m\) indivíduos em cada uma delas, temos

\[\begin{eqnarray} \begin{array}{c} \label{mod1} Y_{ij} = \mu_{i} + e_{ij}, \; i=1,2,...,K; \; j=1,2,...,m. \end{array} \end{eqnarray}\]

Caso \(H_{0}\) seja verdadeira, o modelo acima pode ser escrito como

\[\begin{eqnarray} \begin{array}{c} \label{mod0} Y_{ij} = \mu + e_{ij}^{*}, \; i=1,2,...,K; \; j=1,2,...,m. \end{array} \end{eqnarray}\]

Uma maneira de quantificar a parte aleatória é a partir das somas de quadrado

\[\begin{eqnarray*} \begin{array}{cc} \displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} e_{ij}^{2} = \displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} \left( Y_{ij} - \mu_{i} \right)^{2} & \text{e} \;\; \displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} (e_{ij}^{*})^{2} = \displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} \left( Y_{ij} - \mu \right)^{2}, \end{array} \end{eqnarray*}\]

em que

\[\begin{eqnarray*} \begin{array}{c} \widehat{\mu}_{i} = \dfrac{1}{m} \displaystyle \sum_{j=1}^{m} Y_{ij} = \bar{Y}_{i}, \; i = 1,...,K, \end{array} \end{eqnarray*}\]

e \[\begin{eqnarray*} \begin{array}{c} \widehat{\mu} = \dfrac{1}{mK} \displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} Y_{ij} = \bar{Y}. \end{array} \end{eqnarray*}\]

Substituindo estas estimativas nas somas de quadrados, temos a soma de quadrados dentro (SQD) e soma de quadrados total (SQT) dadas respectivamente por

\[\begin{eqnarray} \begin{array}{llll} \text{SQD} = &\displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} \left( Y_{ij} - \widehat{\mu}_{i} \right)^{2} = & \displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} \left( Y_{ij} - \bar{Y}_{i} \right)^{2} = & \displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} Y_{ij}^{2} - m\sum_{i=1}^{K}\bar{Y}^{2}_{i}; \\ \text{SQT} = &\displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} \left( Y_{ij} - \widehat{\mu} \right)^{2} = & \displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} \left( Y_{ij} - \bar{Y} \right)^{2} = & \displaystyle \sum_{i=1}^{K}\sum_{j=1}^{m} Y_{ij}^{2} - mK\bar{Y}^{2}. \end{array} \end{eqnarray}\]

Temos ainda a soma dos quadrados entre (SQE) dada por

\[\begin{eqnarray} \text{SQE} = \text{SQT} - \text{SQD} = \displaystyle m\sum_{i=1}^{K}\left( Y_{i} - \bar{Y} \right)^{2} = m\left( \displaystyle \sum_{i=1}^{K} \bar{Y}_{i}^{2} - K\bar{Y}^{2} \right). \end{eqnarray}\]

Define-se também os quadrados médios total (QMT), dentro (QMD) e entre (QME) da seguinte maneira:

\[\begin{eqnarray} \begin{array}{ll} & \text{QMT} = \dfrac{\text{SQT}}{Km-1} \\ & \text{QMD} = \dfrac{\text{SQD}}{K(m-1)} \\ & \text{QME} = \dfrac{\text{SQE}}{m-1}. \end{array} \end{eqnarray}\]

Definimos então a quantidade

\[\begin{eqnarray} F = \dfrac{\text{QME}}{\text{QMD}}, \end{eqnarray}\]

quanto maior for o valor de \(F\), maior será \(QME\) comparado a \(QMD\) e, assim, maiores as evidências contra \(H_{0}\).

2.1 Pressupostos

Dadas as seguintes suposições

  • \(Y_{ij}\) são variáveis aleatórias independentes;

  • \(Y_{ij}\) é Normal com média \(\mu_{i}\), \(i=1,2,...,K\) e \(j=1,2,...,m\);

  • todas as \(K\) populações têm variâncias iguais a \(\sigma^{2}\),

pode ser mostrado que

\[\begin{eqnarray*} F \sim F(K-1,K(m-1)), \end{eqnarray*}\]

isto é, \(F\) tem distribuição Fisher-Snedecor (ou apenas F-Snedecor) com \(K-1\) e \(K(m-1)\) graus de liberdade.

2.2 Tabela ANOVA

Fonte de variação Graus de liberdade Soma de quadrados Quadrado médio F
Entre K-1 SQE QME QME/QMD
Dentro K(m-1) SQD QMD
Total Km-1 SQT - -

2.2.1 Exemplo

A gerência de um depósito que armazena cargas aéreas de pequeno porte está estudando o peso das cargas que chegam ao seu terminal no interior de São Paulo. Usualmente, o terminal recebe 4 tipos de cargas: doméstica (D), administrativa (A), equipamentos industriais (E) e outros tipos (O). Deseja-se verificar se, em média, existem diferenças entre os pesos dos 4 tipos de cargas. Ao longo de um mês, cargas foram colhidas aleatoriamente e seus pesos foram anotados, fornecendo os dados (em kg):

D A E O
24,9 27,9 38,4 23,8
20,4 28,1 38,6 25,3
24,2 28,4 41,2 23,5
22,3 25,3 43,9 27,6
20,3 29,3 40,2 25,5
24,0 28,5 40,2 23,9
23,5 27,9 37,3 22,6

Solução

\[\begin{eqnarray*} \begin{array}{ll} &\bar{Y}_{i} = (22,8; 27,9; 40,0; 24,6) \;\;\longrightarrow\text{média de cada tratamento.}\\ & \bar{Y} = 28,2 \;\;\longrightarrow \text{média geral.} \end{array} \end{eqnarray*}\] \[\begin{eqnarray*} \begin{array}{ll} & \text{SQD} = (24,9-22,8)^{2} + (27,9-27,9)^{2} +...+(22,6 - 24,6)^{2} = 75,1 \\ & \text{SQT} = (24,9-28,2)^{2} + (27,9-28,2)^{2} +...+(22,6 - 28,2)^{2} = 1329,7 \\ & \text{SQE} = 1254,6 \end{array} \end{eqnarray*}\]
Fonte de variação Graus de liberdade Soma de quadrados Quadrado médio F Valor-p
Entre 3 1254,6 418,2 133,6 0,000
Dentro 24 75,1 3,1
Total 27 1329,7 - - -

2.3 Solução no R

Primeiramente deve-se verificar se os dados são normais a partir da função shapiro.test(). Hipóteses testadas:

\(H_{0}: \text{os dados são normais};\)

\(H_{1}: \text{caso contrário (c.c.).}\)

    # inserindo os dados
    
    D = c(24.9,20.4,24.2,22.3,20.3,24.0,23.5)
    A = c(27.9,28.1,28.4,25.3,29.3,28.5,27.9)
    E = c(38.4,38.6,41.2,43.9,40.2,40.2,37.3)
    O = c(23.8,25.3,23.5,27.6,25.5,23.9,22.6)
    
    ###
    y = c(D,A,E,O) # Variável resposta
    x = rep(c("D","A","E","O"),each=7) # Variável explicativa (categórica)
    dados1 = data.frame(y,x) # formato de banco de dados
    dados1
##       y x
## 1  24.9 D
## 2  20.4 D
## 3  24.2 D
## 4  22.3 D
## 5  20.3 D
## 6  24.0 D
## 7  23.5 D
## 8  27.9 A
## 9  28.1 A
## 10 28.4 A
## 11 25.3 A
## 12 29.3 A
## 13 28.5 A
## 14 27.9 A
## 15 38.4 E
## 16 38.6 E
## 17 41.2 E
## 18 43.9 E
## 19 40.2 E
## 20 40.2 E
## 21 37.3 E
## 22 23.8 O
## 23 25.3 O
## 24 23.5 O
## 25 27.6 O
## 26 25.5 O
## 27 23.9 O
## 28 22.6 O
  • Verificando os pressupostos:
  1. Normalidade
    # verificando a normalidade dos dados
    
    shapiro.test(D)
## 
##  Shapiro-Wilk normality test
## 
## data:  D
## W = 0.88171, p-value = 0.2341
    shapiro.test(A)
## 
##  Shapiro-Wilk normality test
## 
## data:  A
## W = 0.80417, p-value = 0.04503
    shapiro.test(E)
## 
##  Shapiro-Wilk normality test
## 
## data:  E
## W = 0.94281, p-value = 0.6642
    shapiro.test(O)
## 
##  Shapiro-Wilk normality test
## 
## data:  O
## W = 0.92972, p-value = 0.5485

Como o valor-p para todas as varáveis é maior que o nível de significância (0,05), não rejeitamos a hipótese nula e concluímos que os dados são normais.

  1. Homogenidade das variâncias

Agora a homogeneidade das variâncias com função barllet.test(), em que as hipóteses testadas são:

\(H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2} = ... = \sigma_{k}^{2}; \text{(variâncias homogêneas)}\)

\(H_{1}: \text{caso contrário (c.c.).}\)

bartlett.test(y ~ x, dados1)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  y by x
## Bartlett's K-squared = 1.7203, df = 3, p-value = 0.6324

Como o valor-p é maior que o nível de significância (0,05), não rejeitamos a hipótese nula e concluímos que as variâncias são homogêneas.

Observados os pressupostos podemos fazer a ANOVA a partir das funções aov(), lm() e anova(). Utilizaremos a função lm (linear models) para observarmos a ANOVA no formato mostrado anteriormente

    m1 = lm(y ~ x, dados1)
    m1.anova = anova(m1)
    m1.anova
## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## x          3 1254.6  418.19  133.64 4.136e-15 ***
## Residuals 24   75.1    3.13                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como o valor-p foi menor que o nível de significância, pode-se concluir que há diferenças significativas entre os tipos de cargas.

Como há diferenças significativas entre os tratamentos, podemos seguir com a análise verificando quais tratamentos diferem entre si. Para tanto usa-se o teste de Tukey a partir da função TukeyHSD().

Observe que apenas a diferença entre os tratamentos O e D não foram significativas.

    # verificando diferenças entre os 
    # tratamentos
    m2.anova = aov(m1)
    tukey = TukeyHSD(m2.anova)
    tukey
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = m1)
## 
## $x
##           diff         lwr         upr     p adj
## D-A  -5.114286  -7.7227128  -2.5058586 0.0000827
## E-A  12.057143   9.4487158  14.6655699 0.0000000
## O-A  -3.314286  -5.9227128  -0.7058586 0.0091926
## E-D  17.171429  14.5630015  19.7798557 0.0000000
## O-D   1.800000  -0.8084271   4.4084271 0.2531057
## O-E -15.371429 -17.9798557 -12.7630015 0.0000000
    plot(tukey)

3 Regressão Linear Simples (resumo)

Imagine agora a seguinte situação: um médico deseja verificar se a idade de 20 pacientes do sexo masculino tem alguma influência na pressão arterial diastólica (P.A.D) dos mesmos.

Y (P.A.D) X (idade)
80 35
70 37
76 45
80 53
80 67
87 72
82 40
80 50
82 60
84 65
75 54
70 43
68 39
75 66
85 67
90 72
75 40
70 50
82 60
85 65

Existe relação (correlação) entre as variáveis Y e X? Se afirmativo, essa relação é fraca ou forte? Positiva ou negativa? Existindo correlação entre as variáveis, pode-se estabelecer um modelo do tipo:

\[\begin{eqnarray} \begin{array}{c}\label{reg1} Y = \beta_{0} + \beta_{1}X + e_{i}, \end{array} \end{eqnarray}\]

em que, Y é a variável dependente (ou variável resposta); X a variável independente (também chamada de explicativa ou covariável); \(\beta_{0}\) e \(\beta_{1}\) são parâmetros que devem ser estimados; e \(e_{i}\) é o erro aleatório.

A partir de métodos de estimação, pode-se chegar ao seguinte modelo

\[\begin{eqnarray} \begin{array}{c} \hat{y}_{i} = \hat{\beta}_{0} + \hat{\beta}_{1}x, \end{array} \end{eqnarray}\]

em que \(\hat{\beta}_{0}\) e \(\hat{\beta}_{1}\) são os estimadores dos parâmetros do modelo de regressão e são dados por

\[\begin{eqnarray} \begin{array}{c} \hat{\beta}_{0} = \bar{y} -\hat{\beta}_{1}\bar{x} \end{array} \end{eqnarray}\] \[\begin{eqnarray} \begin{array}{c} \hat{\beta}_{1} = \dfrac{ \sum_{i = 1}^{n}x_{i}y_{i}-n\bar{x}\bar{y}}{ \sum_{i = 1}^{n}x_{i}^{2}-n\bar{x}^{2}} \end{array} \end{eqnarray}\]

Pressupostos: os erros tem distribuição normal, ou seja, \(e_{i} \sim N(0,\sigma^{2})\) o que implica que \(Y_{i} \sim N(\beta_{0} + \beta_{1}X_{i}, \sigma^{2})\).

Para verificar se existe correlação entre as variáveis Y (P.A.D) e X (idade) do exemplo anterior a partir da análise de regressão linear simples, estaríamos testando as seguintes hipóteses:

\[\begin{eqnarray} \begin{array}{ll} H_{0}: & \text{a P.A.D dos homens não sofre alterações com a idade.} \\ H_{1}: & \text{a P.A.D dos homens é alterada com a idade.} \end{array} \end{eqnarray}\]

Ou de forma equivalente:

\[\begin{eqnarray} \begin{array}{ll} H_{0}: & \beta_{1} = 0;\\ H_{1}: & \beta_{1} \neq 0. \end{array} \end{eqnarray}\]

3.1 Solução no R

Inicialmente vamos inserir os dados e colocá-los no formato data.frame().

### inserindo os dados
    
y1 = c(80,70,76,80,80,87,82,80,82,84,75,70,68,75,85,90,75,70,82,85)

x1 = c(35,37,45,53,67,72,40,50,60,65,54,43,39,66,67,72,40,50,60,65)

dados_reg = data.frame(y1,x1) ### formato de banco de dados
dados_reg
##    y1 x1
## 1  80 35
## 2  70 37
## 3  76 45
## 4  80 53
## 5  80 67
## 6  87 72
## 7  82 40
## 8  80 50
## 9  82 60
## 10 84 65
## 11 75 54
## 12 70 43
## 13 68 39
## 14 75 66
## 15 85 67
## 16 90 72
## 17 75 40
## 18 70 50
## 19 82 60
## 20 85 65

Agora o ajuste do modelo a partir da função lm(). Note que tanto \(\beta_{0}\) quanto \(\beta_{1}\) são significativos (valor-p <0,05). Além disso, o valor da estatística F também foi significativo, desta forma rejeitamos a hipótese de nulidade e aceitamos a hopótese alternativa que indica que há regressão (\(\beta_{1} \neq 0\)).

### estimativas dos parâmetros
ajuste1 = lm(y1~x1, dados_reg) 
print(ajuste1)
## 
## Call:
## lm(formula = y1 ~ x1, data = dados_reg)
## 
## Coefficients:
## (Intercept)           x1  
##     60.2501       0.3435
summary(ajuste1) ### resumo dos ajustes do modelo
## 
## Call:
## lm(formula = y1 ~ x1, data = dados_reg)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -7.922 -3.399  1.139  2.118  8.009 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 60.25010    4.71942  12.766 1.85e-10 ***
## x1           0.34352    0.08527   4.029 0.000788 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.628 on 18 degrees of freedom
## Multiple R-squared:  0.4741, Adjusted R-squared:  0.4449 
## F-statistic: 16.23 on 1 and 18 DF,  p-value: 0.000788

Feito o ajuste do modelo, observado a significância dos parâmetros e da hipótese de regressão, verifica-se se os resíduos tem distribuição Normal, \(e_{i} \sim N(0,\sigma^{2}_{a})\) a partir da função shapiro.teste. Note que o nível descritivo (valor-p = 0,2675) do teste foi maior que o nível de significância (\(\alpha = 0,05\)), indicando que os resíduos são distribuídos Normalmente.

shapiro.test(residuals(ajuste1))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(ajuste1)
## W = 0.94252, p-value = 0.2675

Podemos plotar o gráfico com os dados e a reta do modelo ajustado a partir dos seguintes comandos:

### gráfico com a reta ajustada
plot(x1,y1)
abline(ajuste1,col = "blue")

Neste caso a estatística de regressão F=16,23 foi significativa (valor-p = 0,000788). Portanto, pode-se concluir com 95% de confiabilidade que a P.A.D. aumenta a medida que avança a idade dos pacientes deste estudo.

O ``\(r^{2}\)’’ (R-square = 0,4741) é denominado de coeficiente de correlação de Pearson que varia entre -1 e 1. Este resultado mostra o grau de associação entre as variáveis X (P.A.D) e Y (idade) que neste caso é moderada e positiva.

Observa-se a partir do coeficiente de determinação ajustado (Ajusted R-square = 0,4449), que aproximadamente 44,49% da variável dependente (P.A.D.) é explicada pela variável preditiva (idade).

Em linhas gerais, pode concluir com 95% de confiabilidade que a variável idade é uma variável importante e significativa para predizer os valores da P.A.D de um paciente do sexo masculino

Como exemplo, pode-se agora estimar a pressão de um paciente com 33 anos a partir do modelo ajustado.

\[\begin{eqnarray}\nonumber \hat{y} = 60,25 + 0,34\times 33 = 71,47. \end{eqnarray}\]

Referências

