1) Exemplo de análise de correlação linear simples usando o R

Vamos verificar se existe correlação entre o número de faltas dos alunos (x) e a nota final em uma disciplina (y)

A seguir, os vetores com os respectivos dados.

x <- c(8, 2, 5, 12, 15, 9, 6)

y <- c(78, 92, 90, 58, 43, 74, 81)

A primeira coisa a ser feita é o Diagrama de Dispersão. É uma ferramenta descritiva que nos mostra, visualmente, se há alguma relação entre as variáveis.

plot(x, y)

O coeficiente de correlação pode ser calculado da seguinte forma:

cor(x, y)
## [1] -0.9747632

Exemplo 2: Vamos usar a base de dados “cars”, que mostra a velocidade e distância de parada. Os dados dão a velocidade dos carros e as distâncias percorridas para parar. Note-se que os dados foram registrados na década de 1920.

cars
##    speed dist
## 1      4    2
## 2      4   10
## 3      7    4
## 4      7   22
## 5      8   16
## 6      9   10
## 7     10   18
## 8     10   26
## 9     10   34
## 10    11   17
## 11    11   28
## 12    12   14
## 13    12   20
## 14    12   24
## 15    12   28
## 16    13   26
## 17    13   34
## 18    13   34
## 19    13   46
## 20    14   26
## 21    14   36
## 22    14   60
## 23    14   80
## 24    15   20
## 25    15   26
## 26    15   54
## 27    16   32
## 28    16   40
## 29    17   32
## 30    17   40
## 31    17   50
## 32    18   42
## 33    18   56
## 34    18   76
## 35    18   84
## 36    19   36
## 37    19   46
## 38    19   68
## 39    20   32
## 40    20   48
## 41    20   52
## 42    20   56
## 43    20   64
## 44    22   66
## 45    23   54
## 46    24   70
## 47    24   92
## 48    24   93
## 49    24  120
## 50    25   85

Primeiro, vamos construir o diagrama de dispersão.

plot(cars$speed, cars$dist)

O coeficiente de correlação é:

cor(cars$speed, cars$dist)
## [1] 0.8068949

O coeficiente de correlação 0.8068949, indica uma forte correlação positiva entre as velocidades “speed” e “dist”, o que indica que, quanto maior a a velocidade do veículo, maior a distância percorrida após a frenagem.

Agora, podemos afirma que esta correlação é significativamente maior que zero? Para podermos fazer esta afirmação precisamos fazer o teste de hipótese para o coeficiente de correlação r.

# Correlação de Pearson

cor.test(cars$speed, cars$dist,
         method="pearson", 
         alternative="two.sided", 
         conf.level = 0.95)
## 
##  Pearson's product-moment correlation
## 
## data:  cars$speed and cars$dist
## t = 9.464, df = 48, p-value = 1.49e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6816422 0.8862036
## sample estimates:
##       cor 
## 0.8068949
# Correlação de Kendall

cor.test(cars$speed, cars$dist,
         method="kendall", 
         alternative="two.sided", 
         conf.level = 0.95)
## 
##  Kendall's rank correlation tau
## 
## data:  cars$speed and cars$dist
## z = 6.6655, p-value = 2.638e-11
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.6689901
# Correlação de Kendall

cor.test(cars$speed, cars$dist,
         method="spearman", 
         alternative="two.sided", 
         conf.level = 0.95)
## Warning in cor.test.default(cars$speed, cars$dist, method = "spearman", :
## Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  cars$speed and cars$dist
## S = 3532.8, p-value = 8.825e-14
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.8303568

Avaliação parcial em grupo (AG)

  1. Os dados mostrados a seguir expressam X = o conteúdo de água na neve, em 1 de abril, e Y = o campo (em polegadas), de abril a julho, nas encostas do Snake River em Wyoming, de 1919 a 1935. (Os dados foram retirados de um artigo em Research Notes, Vol. 61, 1950, Estação Experimental da Floresta Situada na Faixa Noroeste do Pacífico (Pacific Northwest Forest Range Experiment Station, Oregon.)
knitr::include_graphics("../imagens/cor1.png" )