Aula Prática-Correlação Linear de Pearson

Roberval Lima

2018-08-19

Capítulo 1. Correlação Linear de Pearson

Disponível em: http://rpubs.com/roberval/413419

Revisão - Medidas de Tendência Central

1.1 Média amostral aritmética (sample mean)

É o centro de massa de um conjunto de dados, cuja regra de formação é dada por uma progresão aritmética. É representada por \(\mu \) quando se refere à população e por \(\bar{x}\), quando se refere à amostra.

DEFINIÇÃO

Se as n observações em uma amostra são denotadas por x1, x2,…, xn, a média amostral é:

\(\bar{x}\) = \(\frac{x_1+x_2+ ...+ x_n}{n}\) = \(\frac{\sum_{i=1}^n}{n}\)

Exemplo 1.1

Considere 8 observações coletadas de um protótipo de conectores de engenharia. As oito obervações são x1=12,6; x2=12,9; x3=13,4; x4=12,3; x5=13,6; x6=15,5; x7=12,6 e x8=13,1. A média amostral é:

\(\bar{x}\) = \(\frac{x_1+x_2+ ...+ x_8}{8}\) = \(\frac{\sum_{i=1}^8}{8}\)

\(=\frac{104}{8}\) = 13,0 gramas

PROGRAMA R

A média pode ser obtida facilmente no R com o comando mean().

 #Resolvendo o exemplo 4.1 no programa R:

x<-c(12.6, 12.9, 13.4, 12.3, 13.6, 13.5, 12.6, 13.1) #criando um vetor
mean(x)                 #obtendo a média
## [1] 13

Em algumas situações é possível haver um ou mais dados ausentes (representados no R por “NA”) em seu conjunto de dados.

Neste caso, basta usar o argumento na.rm=T para que o R desconsidere os elementos NA no cálculo da média.

 #Exemplo com dados ausentes:

y<-c(12.6, 12.9, 13.4, NA, 13.6, 13.5) #criando um vetor
y                       # exbindo y
## [1] 12.6 12.9 13.4   NA 13.6 13.5
mean(y)                 #cálculo inapropriado
## [1] NA
mean(y, na.rm=T)        #cálculo correto
## [1] 13.2

1.2 Mediana da amostra

A mediana (md) é um valor que caracteriza o centro da distribuição de frequências. É o valor que ocupa a posição central do conjunto dos dados ordenados.

Se o conjunto de dados é impar, existe um único valor na posição central. Esse valor é a mediana. Por exemplo, dados:

Exemplo Mediana 3,5,9,12,14

A mediana é 9.

Se o número de dados é par, existem dois valores na posição central. Então a mediana é a média desses dois valores. Por exemplo, dados:

3,5,7,9

A mediana é 6, isto é a média de 5 e 7.

Observação: quando ocorrem dados discrepantes (valores muito maiores ou menores do que os demais), o mais correto é usar a mediana para descrever a tendência central dos dados.

 #Resolvendo o exemplo no programa R:

x<-c(3, 5, 9, 12, 14)#criando um vetor
median(x)                 #obtendo a mediana
## [1] 9

Revisão - Medidas de variabilidade

As principais medidas de dispersão são: amplitude, variância, desvio-padrão e coeficiente de variação.

2.1 Amplitude

Amplitude é a diferença entre o valor máximo e mínimo de um conjunto de dados.

Fórmula:

\(amplitude = máximo - mínimo\)

A amplitude é fácil de calcular e de interpretar, mas não mede bem a variabilidade dos dados, pois usam-se apenas dois valores extremos.

Isto significa que:

2.2 Variância amostral

Quando a média é usada como medida de tendência central, podemos calcular o desvio de cada observação em relação à média como segue:

\(desvio = observação - média\)

\(desvio = x - \bar{x}\)

Se os desvios em relação à média são pequenos, podemos concluir que as observações estão aglomeradas em torno da média. A variabilidade dos dados é, portanto, pequena. Se os desvios são grandes, os dados estão muito dispersos. Logo, a variabilidade dos dados é grande. A variância é uma medida de variabilidade que capta essas duas situações.

**Exemplo 2.1*

São fornecidas as idades, em anos completos, de cinco máquinas:

\({3,6,5,7 e 9}\)

Como a média é 6 anos, os desvios em relação à média são os valores apresentados na tabela 5.1.

Tabela 5.1 Cálculo dos desvios

Observação (x) Desvio (x-\(\bar{x}\))
3 3-6=-3
6 6-6=0
5 5-6=-1
7 7-6=2
9 9-6=3

A média dos desvios poderia ser uma boa medida de variabilidade se a sua somatória não fosse zero (-3 + 0 -1 + 1 + 3). Aliás, esse é o motivo de a média aritmética ser uma boa medidads de tendência central: o “peso” dos desvios negativos é igual ao peso dos positivos.

Para obter uma medida de variabilidade, é preciso eliminar os sinais dos desvios antes de calcular a média. Para isso eleva-se os desvios ao quadrado. A medida de variabilidade assim obtida é chamada de variância, que se indica por \((s^2)\).

DEFINIÇÃO

Define-se variância do conjunto X como o momento de 2a. ordem centrado em sua média aritmética (pode-se centrar o momento em qualquer valor; o centrado na média aritmética é o menor deles).

Fórmula. Variância populacional de X.

Dados discretos:

\(\sigma^2 = \sum p(x - \mu)^{2}\) (Geral)

\(\sigma^2 = \frac{1}{N}\) \([\sum x^2 - \frac{(\sum x)^2}{N}]\) (Sem a média)

Dados Contínuos \(\sigma^2 = \int(x-\mu)f(x)dx\)

Fórmula. Variância amostral de X.

\(s^2 = \frac{1}{n-1}\) \(\sum (x - \bar{x})^2\) (Geral)

\(s^2 = \frac{1}{n-1}\) \([\sum x^2\) - \(\frac{(\sum x)^2}{n}]\) (Sem a média)

Fórmula. Variância amostral de X, dados agrupados.

\(s^2 = \frac{1}{n-1}\) \(\sum f(x - \bar{x})^2\) (Geral)

\(s^2 = \frac{1}{n-1}\) \([\sum (f.x^2)\) - \(\frac{(\sum f.x)^2}{n}]\) (Sem a média)

onde \(n = \sum f\)

Exemplo 2.2

Calcule a amplitude do conjunto de dados A = {2,4,7,10,27,32,59,147,271,599}

Solução

Amp = 599 - 2 = 597 ( ou de 2 a 599)

A <- c(2,4,7,10,27,32,59,147,271,599)
A
##  [1]   2   4   7  10  27  32  59 147 271 599
max(A)
## [1] 599
min(A)
## [1] 2
Amp <- max(A) - min(A)
Amp
## [1] 597

Exemplo 2.3

Calcule a variância do conjunto de dados: {2,4,7,9,11,15}

\(\bar{x} = 8\)

\(s^2=\frac{(2-8)^2+(4-8)^2+(7-8)^2+(9-8^2+(11-8)^2+(15-8)^2)}{6-1}\)

\(s^2=22,4\)

x<-c(2,4,7,9,11,15)
n<-length(x)
varx<-(sum(x^2)-(sum(x)^2/n))/(n-1)
varx
## [1] 22.4
##Aplicando a fórmula implementada no R:
var(x)
## [1] 22.4

Exemplo 2.4

Determine a variância para a distribuição de frequências dada na tabela 5.2

Tabela 5.2 Distribuição de frequência

x f x.f \(x^2\) \(x^2.f\)
56 6 336 3136 18816
57 2 114 3249 6498
58 9 522 3364 30276
59 5 295 3481 17405
60 3 180 3600 10800
61 1 61 3721 3721
62 4 248 3844 15376
total 30 1756 102892

\(\sigma^2 = \frac{1}{n-1}\) \([\sum (f.x^2)\) - \(\frac{(\sum f.x){^2}}{n}]\)

\(\sigma^2 = \frac{1}{30-1}\) \((102892 - \frac{1756{^2}}{30})\)

\(\sigma^2 = \frac{107,46}{29} = 3,71\)

2.3 Desvio-padrão

O cálculo da variância envolve quadrados de desvios. Então a unidade de medida da variância é igual ao quadrado da medida das observações.

Para obter uma medida de variabilidade na mesma unidade de medida dos dados, extrai-se a raiz quadrada da variância. Obtém-se, assim, o desvio padrão.

Desvio-padrão é a raíz quadrada da variância, com sinal positivo.

DEFINIÇÃO

Desvio-padrão é a média quadrática de X centrado em \(\mu\). É indicado por \(\sigma\) ou por “s”, conforme se refira a populações ou a amostras.

Fórmula:

Desvio-padrão amostral:

\(s =\sqrt{variância} = \sqrt{s^2}\)

Exemplo 2.5

Determinar o desvio-padrão para os dados do exemplo 5.3

\(s = \sqrt{variância} = \sqrt{22,4} = 4,7\)

x<-c(2,4,7,9,11,15)
n<-length(x)
varx<-(sum(x^2)-(sum(x)^2/n))/(n-1)
varx
## [1] 22.4
s = sqrt(varx)

##Aplicando a fórmula implementada no R:
sd(x)  # sd = standart desviation
## [1] 4.732864

5.4 Dispersão relativa

Por dispersão relativa entende-se a relação entre uma medida de dispersão e outra de centro. As medidas mais comuns são a variância relativa (variância por unidade de esperança) e o coeficiente de variação, em cujos denominadores está a média aritmética. Assim, a variancia relativa compara a variância com o quadrado da média aritmética e o coeficiente de variação, compara o desvio-padrão com a mesma média aritmética. Outra medida de dispersão relativa é a proporção, que indica o peso relativo de x em X.

Fórmulas

+Variância relativa

\(v^2 = \frac{s^2}{\bar{x}{^2}}\)

+Coeficiente de variação

\(cv = \frac{s}{\bar{x}}\)

+Proporção

\(p = \frac{f}{n}\)

Operacionalmente, é fácil perceber que o coeficiente de variação é igual à raiz quadrada da variância relativa e que, multiplicando-se os resultados por 100, as medidas resultam expressas em porcentagem.

Exemplo 2.6

A seguir são dadas as alturas (em cm) de 8 atletas. Determine o coeficiente de variação e a variância relativa.

Solução

Tabela auxiliar:

n x
1 178 31684
2 180 32400
3 192 36864
4 180 32400
5 190 36100
6 179 32041
7 180 32400
8 191 36481
total 1470 270370

\(s^2 = \frac{1}{8-1} (270370 - \frac{1470^{2}}{8})\)

\(s^2 = \frac{257,5}{7} = 36,78\)

\(s = \sqrt{36,78} = 6,06\)

\(\bar{x} = \frac{1470}{8} = 183,75\)

Coeficiente de variação:

\(cv = \frac{6,06}{183,75} . 100\) = 3,3%

Variância relativa:

\(v^2 = \frac{36,78}{183,75^{2}}.100\) = 0,11%

x<-c(178, 180, 192, 180, 190, 179, 180, 191)
somax<-sum(x)
somax
## [1] 1470
somax2<-sum(x^2)
somax2
## [1] 270370
var(x)
## [1] 36.78571
mean(x)
## [1] 183.75
sd(x)
## [1] 6.065123
#Coeficiente de variação
cv<-sd(x)/mean(x)*100
cv
## [1] 3.300747
#Variância relativa
v2<-(var(x)/mean(x)^2)*100
v2
## [1] 0.1089493

Exercícios- Programa R

  1. Foram feitas oito medidas do diâmetro (em mm) interno de anéis forjados de pistão de um motor de um automóvel. Os dados codificados são: 1, 3, 15, 0, 5, 2, 5 e 4. Calcule a média e o desvio-padrão da amostra.

  2. Em applied Life Daa Analysis (Wiley, 1982), Waine Nelson apresenta o tempo de esgotamento de um fluido isolante entre eletrodos a 34 kV. Os tempos, em minutos, são: 0,19; 0,78; 0,96; 1,31; 2,78; 3,16; 4,15; 4,67; 4,85; 6,50; 7,35; 8,01; 8,27; 12,06; 31,75; 32,52; 33,91; 36,71 e 72,89. Calcule a média, a variância e o desvio-padrão da amostra.

  3. Sete medidas da espessura de óxido em pastilhas são estudadas para verificar a qualidade em um processo de fabricação de semicondutores. Os dados (em angstrons) são: 1264, 1280, 1301, 1300, 1292, 1307 e 1275. Calcule a média e o coeficiente de variação da amostra.

Capítulo 1. Correlação Linear de Pearson

Fórmulas \(r = \frac{SQxy}{\sqrt(SQxx*SQyy)}\)

\(SQxy = [\sum xy - \frac{(\sum x).(\sum y)}{n}]\) \(SQxx = [\sum x^2 - \frac{(\sum x^2)}{n}]\) \(SQyy = [\sum y^2 - \frac{(\sum y^2)}{n}]\)

Passos: 1. Obtenha soma dos valores de x (\(\sum x\)) 2. Obtenha soma dos valores de y (\(\sum y\)) 3. Multiplique cada valor x por seu valor y correspondente e determine a soma de xy (\(\sum xy\)) 4. Eleve ao quadrado cada valor de x e obtenha a soma de x ao quadrado (\(\sum x^2\)) 5. Eleve ao quadrado cada valor de y e obtenha a soma de y ao quadrado (\(\sum y^2\)) g. finalmente, use cinco somatórias e calcule o coeficiente de regressão (r).

diagrama de dispersão

Sempre antes de cada análise faça os estudos exploratórias. Uma boa ferramenta é fazer o gráfico da dispersão de y vs x.

Exemplo 2.7

No processo de queima de massa cerâmica para pavimento, corpos de prova foram avaliados por três variáveis: x = retração linear (%), y = resistência mecânica (MPa), z = absorção de água (%). Os resultados de 18 ensaios são apresentados a seguir:

Ensaio \(x\) \(y\) \(z\)
1 8,70 38,42 5,54
2 11,68 46,93 2,83
3 8,30 38,05 5,58
4 12,00 47,04 1,10
5 9,50 50,90 0,64
6 8,58 34,10 7,25
7 10,68 48,23 1,88
8 6,32 27,74 9,92
9 8,20 39,20 5,63
10 13,24 60,24 0,58
11 9,10 40,58 3,64
12 8,33 41,07 5,87
13 11,34 41,94 3,32
14 7,48 35,53 6,00
15 12,68 38,42 0,36
16 8,76 45,26 4,14
17 9,93 40,70 5,48
18 6,50 29,66 8,98

Solução no R

x<-c(8.70, 11.68,8.30,12.0,9.50,8.58, 10.68,6.32,8.20, 13.24, 9.10, 8.33, 11.34, 7.48, 12.68,8.76, 9.93, 6.50)
y<- c(38.42, 46.93, 38.05, 47.04, 50.90, 34.10, 48.23, 27.74, 39.20, 60.24, 40.58, 41.07, 41.94, 35.53, 38.42, 45.26, 40.70, 29.66)
length (x)  # tamanho n da amostra x
## [1] 18
length(y)   # tamanho n da amostra y
## [1] 18
# Diagrama de dispersão
plot (x,y)

plot (x,y, main="Diagrama de dispersão x vs y", xlab = "Retração linear (%)", ylab = "resistência mecânica (MPa)", col="blue")

plot (x,y, main="Diagrama de dispersão x vs y", xlab = "Retração linear (%)", ylab = "resistência mecânica (MPa)", col="blue", bty="l")

help(plot)  # para saber mais sobre "plot"

#Cálculos para correlação
n>-length(x)
## [1] TRUE
somaxy<-sum(x*y)
somaxy
## [1] 7281.59
somax<-sum(x)
somax
## [1] 171.32
somay<-sum(y)
somay
## [1] 744.01
somax2<-sum(x^2)
somax2
## [1] 1700.531
# SQxy
sqxy<-somaxy - (somax*somay)/n
# SQx
sqx <-somax - (somax^2)/n
# SQy
sqy <- somay - (somay^2)/n
# r
r <- sqxy/sqrt(sqx*sqy) 
r
## [1] -0.6717742
# funçao implementada no Rv2<-(var(x)/mean(x)^2)*100
cor (x,y)
## [1] 0.7510241
help(cor)  # para mais informações sobre o comando "cor"

Exercícios- Faça primeiro usando as fórmulas e depois noPrograma R

  1. Faça o diagrama de dispersão e calcule o coeficiente de correlaçao de Pearson entre relação linear (%) e resistência mecânica (MPa) para as primeiras 10 observações do exemplo 2.7.

  2. Sejam x = nota na prova do vestibular de matemática e y = nota final na disciplina de cálculo, Essas variáveis foram observadas em 18 alunos, ao final do primeiro período letivo do curso de engenharia. Os dados são apresentados a seguir:

x y x y
39 65 28 73
57 92 35 50
34 56 80 90
40 70 64 82
43 78 75 98
47 89 30 50
52 75 32 58
70 50 65 88
21 52 47 71
  1. Construa o diagrama de dispersão e verifique se algum aluno foge ao comportamento feral dos demais (ponto discrepante).
  2. Calcule a corelação entre a nota no vestibular de matemática e a nota na disciplina de cálculo. Interprete o resultado.
  3. Retire o valor discrepante detectado no item (a) e calcule novamente p coeficiente r. Interprete.