17 de Agosto de 2015

Análise Bivariada

Associação entre duas variáveis

Sua opinião sobre o comportamento de uma variável muda na presença de informação de uma segunda variável?

A distribuição conjunta das duas variáveis descreve a associação existente entre elas.

Grau de dependência: como uma variável "explica" ou se "associa" a outra.

Temos três casos:

  • as duas variáveis são quantitativas
  • as duas variáveis são qualitativas
  • uma variável é quantitativa e a outra qualitativa

Associação entre duas variáveis qualitativas

Exemplo: Grau de instrução X Procedência

Queremos estudar o comportamento conjunto de duas variáveis: Grau de Instrução (\(X\)) e Região de Procedência (\(Y\)).

Ensino Fundamental Ensino Médio Ensino Superior Total
Capital 4 5 2 11
Interior 3 7 2 12
Outra 5 6 2 13
Total 12 18 6 36
  • 4 pessoas da capital com ensino fundamental.
  • Na última coluna: frequência de cada nível da variável \(Y\).
  • Na última linha: frequência de cada nível da variável \(X\).
  • Parte interna da tabela: frequências conjuntas entre \(X\) e \(Y\).

Podemos considerar também proporções condicionais (frequências relativas):

  • em relação ao total de elementos;
  • em relação ao total de cada linha;
  • em relação ao total de cada coluna.

A proporção condicional escolhida depende do estudo que pretendemos fazer.

Distribuição das frequências relativas ao total da amostra.

Total da amostra é 36.

Ensino Fundamental Ensino Médio Ensino Superior Sum
Capital 0.1111111 0.1388889 0.0555556 0.3055556
Interior 0.0833333 0.1944444 0.0555556 0.3333333
Outra 0.1388889 0.1666667 0.0555556 0.3611111
Sum 0.3333333 0.5000000 0.1666667 1.0000000

11% dos funcionários são da capital e possuem ensino fundamental.

Distribuição das frequências relativas ao total de cada coluna.

Ensino Fundamental Ensino Médio Ensino Superior
Capital 0.3333333 0.2777778 0.3333333
Interior 0.2500000 0.3888889 0.3333333
Outra 0.4166667 0.3333333 0.3333333
Sum 1.0000000 1.0000000 1.0000000

Entre os funcionários com ensino médio:

  • \(28\%\) são da capital.

  • \(39\%\) são do interior.

  • \(33\%\) são de outros locais.

Permite comparar a distribuição de \(Y\) (procedência) conforme o grau de instrução (\(X\)).

Observando o gráfico e a tabela de proporções parece haver evidências de associação entre o grau de instrução e a procedência do funcionário.

Distribuição das frequências relativas ao total de cada linha.

Ensino Fundamental Ensino Médio Ensino Superior Sum
Capital 0.3636364 0.4545455 0.1818182 1
Interior 0.2500000 0.5833333 0.1666667 1
Outra 0.3846154 0.4615385 0.1538462 1

Entre os funcionários do interior:

  • \(25\%\) possuem Ensino Fundamental

  • \(58\%\) possuem Ensino Médio.

  • \(17\%\) possuem Ensino Superior.

Permite comparar a distribuição do grau de instrução (\(X\)) conforme a procedência (\(Y\)).

Exemplo: Escolha da carreira

Existe dependência entre o sexo (\(X\)) e a carreira escolhida (\(Y\)) por 200 alunos de Economia e Administração?

Masculino Feminino Total
Economia 85 35 120
Administração 55 25 80
Total 140 60 200

Se quisermos estudar se a proporção de mulheres escolhendo Economia é similar à proporção de homens que escolhem Economia, devemos avaliar:

  • Distribuição das frequências relativas ao total de cada coluna?

  • Distribuição das frequências relativas ao total de cada linha?

  • A proporção de alunos em Economia é similar para cada sexo?
  • Ser similar em cada sexo não quer dizer que seja 50% na Economia e 50% na Administração em cada sexo.
  • Queremos saber se o padrão das proporções dos cursos é parecido ou não entre os sexos.
  • Usaremos a distribuição das frequências relativas ao total de cada coluna.

Masculino Feminino Total
Economia 0.61 0.58 0.6
Administração 0.39 0.42 0.4
Sum 1.00 1.00 1.0
  • No geral (última coluna), sem considerar os sexos, temos que \(60\%\) dos estudantes preferem economia e \(40\%\) administração.
  • Se sexo e carreira escolhida forem independentes (sem associação), espera-se que, para cada sexo, a escolha das carreiras tenha essas mesmas proporções.
  • Sexo masculino: \(61\%\) dos estudantes na carreira de economia e \(39\%\) na de administração.
  • Sexo feminino: \(58\%\) dos estudantes na carreira de economia e \(42\%\) na de administração.
  • Os dados indicam que não há associação entre as variáveis.

Observando o gráfico e a tabela de proporções condicionais parece não haver evidências de associação entre gênero e escolha da carreira.

Exemplo: Pesticidas

Uma pesquisa foi feita para investigar a presença de pesticidas em alimentos orgânicos e convencionais.

Pesticida Presente Pesticida Ausente Total
Orgânico 29 98 127
Convencional 19485 7086 26571
Total 19514 7184 26698

Qual a proporção de alimentos com pesticida?

\(19514/26698=0.731\).

Qual a proporção de alimentos com pesticidas dentre os orgânicos?

\(29/127=0.228\).

Qual a proporção de alimentos com pesticidas dentre os convencionais?

\(19484/26571=0.733\).

Proporção condicional: condicionalmente à informação de uma variável, observamos a proporção da outra variável.

  • Qual a proporção de pesticidas entre alimentos orgânicos?
  • Qual a proporção de pesticidas entre alimentos convencionais?
Pesticida Presente Pesticida Ausente Sum
Orgânico 0.23 0.77 1
Convencional 0.73 0.27 1

Observando o gráfico e a tabela de proporções condicionais parece haver evidências de associação entre presença de pesticida e tipo de alimento.

Exemplo: Renda e Felicidade

Pesquisa da GSS de 2002.

  • Você se considera feliz?

  • Comparando com as demais famílias dos EUA, como você considera sua renda familiar?

    Não muito feliz Fel iz Mui to feliz Tot al
    Acima da média 17 90 51 158
    Na média 45 265 143 453
    Abaixo da média 31 139 71 241
    Total 93 494 265 852

Não muito feliz Feliz Muito feliz Total
Acima da média 17 90 51 158
Na média 45 265 143 453
Abaixo da média 31 139 71 241
Total 93 494 265 852

No geral, qual a proporção de pessoas diz que está Muito feliz?

\[\frac{265}{852}=0.31\]

Será que o nível de felicidade muda para cada tipo de renda? Como comparar?

Proporções condicionais do nível de felicidade para cada nível de renda:

Não muito feliz Feliz Muito feliz Sum
Acima da média 0.11 0.57 0.32 1
Na média 0.10 0.58 0.32 1
Abaixo da média 0.13 0.58 0.29 1

Observando o gráfico e a tabela de proporções condicionais parece não haver evidências de associação entre nível de felicidade e nível de renda.

Exemplo: Bebidas alcoólicas

A Escola de Saúde Pública da Harvard fez uma pesquisa com 200 cursos de graduação em 2001.

A pesquisa pergunta aos alunos sobre hábitos relacionados à bebida.

  • 4 drinks seguidos, entre mulheres, é classificado como bebida em excesso.

  • 5 drinks seguidos, entre homens, é classificado como bebida em excesso.

Bebida em excesso - Sim Bebida em excesso - Não Total
Masculino 1908 2017 3925
Feminino 2854 4125 6979
Total 4762 6142 10904

Qual o número de alunos:

  • do sexo masculino e beberam em excesso?

  • do sexo feminino e beberam em excesso?

Usando diretamente a tabela, podemos responder à pergunta: Há diferença entre homens e mulheres na proporção de ocorrência de bebida em excesso?

Proporções condicionais de ocorrência de bebida em excesso por gênero:

Bebida em excesso - Sim Bebida em excesso - Não Sum
Masculino 0.49 0.51 1
Feminino 0.41 0.59 1

Proporção de ocorrência de bebida em excesso entre homens: \(\frac{1908}{3925}=0,49\).

Proporção de ocorrência de bebida em excesso entre mulheres: \(\frac{2854}{4125}=0,41\).

Observando o gráfico e a tabela de proporções condicionais parece haver evidências de associação entre gênero e bebida em excesso.

Exemplo: Tipo de risada e gênero

Exemplo: Tipo de risada e cidade

Associação entre duas variáveis quantitativas

Associação entre duas variáveis qualitativas: comparar proporções condicionais.

Associação entre duas variáveis quantitativas: comparamos como a mudança de uma variável afeta a outra variável.

Diagrama de dispersão

Exemplo: Tempo de serviço e total de clientes

Agente Anos de Serviço (\(X\)) \(N^{o}\) de Clientes (\(Y\))
A 2 48
B 4 56
C 5 64
D 6 60
E 8 72
Total 25 300

O gráfico indica uma possível dependência linear positiva entre as variáveis anos de serviço e número de clientes.

Exemplo: Renda e gasto com assistência médica

  • Renda Mensal Bruta (\(X\))

  • \(\%\) da Renda gasta com Assistência Médica (\(Y\))

##    Familia  X   Y
## 1        A 12 7.2
## 2        B 16 7.4
## 3        C 18 7.0
## 4        D 20 6.5
## 5        E 28 6.6
## 6        F 30 6.7
## 7        G 40 6.0
## 8        H 48 5.6
## 9        I 50 6.0
## 10       J 54 5.5

Nesse caso, a dependência entre \(X\) e \(Y\) parece ser linear negativa.

Coeficiente de Correlação

  • Objetivo: obter uma medida que permita quantificar a dependência que pode existir entre duas variáveis (positiva, negativa, muita ou pouca).
  • Dado \(n\) pares de observações \((x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\): \[Corr(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}\left(\frac{x_{i}-\bar{x}}{s_x}\right)\left(\frac{y_{i}-\bar{y}}{s_y}\right)\] onde \(s_x\) é o desvio padrão de \(X\) e \(s_y\) é o desvio padrão de \(Y\).
  • Essa medida leva em consideração todos os desvios \((x_{i}-\bar{x})\) e \((y_{i}-\bar{y})\) padronizados da forma \(\frac{x_{i}-\bar{x}}{s_x}\) e \(\frac{y_{i}-\bar{y}}{s_y}\).
  • \(z_{x_i}=\frac{x_i-\bar{x}}{s_x}\). Interpretação: \(z_{x_i}\) indica o número de desvios-padrão que a observação \(x_i\) está afastada da média de X.

Propriedades

  • \(-1 \leq Corr(X,Y) \leq 1\)
  • \(Corr(X,Y)\) próxima de 1: \(X\) e \(Y\) estão positivamente associadas e o tipo de associação entre as variáveis é linear.
  • \(Corr(X,Y)\) próxima de -1: \(X\) e \(Y\) estão negativamente associadas e o tipo de associação entre as variáveis é linear.

Se \(z_{x}\) e \(z_y\) têm o mesmo sinal, estamos somando um termo positivo na expressão da correlação.

Se \(z_{x}\) e \(z_y\) têm sinais opostos, estamos somando um termo negativo na expressão da correlação.

Correlação é a média dos produtos de \(z_x\) e \(z_y\).

Exemplo: Tempo de serviço e total de clientes

Agente Anos de Serviço (\(X\)) \(N^{o}\) de Clientes (\(Y\))
A 2 48
B 4 56
C 5 64
D 6 60
E 8 72
Total 25 300
  • \(\bar{x}=5\)
  • \(s_x=2,24\)
  • \(\bar{y}=60\)
  • \(s_y=8,94\)

Agente \(X\) \(Y\) \(z_x=\frac{x_{i}-\bar{x}}{s_x}\) \(z_y=\frac{y_{i}-\bar{y}}{s_y}\) \(z_x\times z_y\)
A 2 48 -1.34 -1.34 1.8
B 4 56 -0.45 -0.45 0.2
C 5 64 0 0.45 0
D 6 60 0.45 0 0
E 8 72 1.34 1.34 1.8

\[Corr(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}z_{x_i}z_{y_i}=\frac{3.8}{5-1}=0.95\]

Exemplo: Fitbit

Número de passos diários foram coletados para uma pessoa usando um durante 297 dias.

Qual é maior? Média ou mediana?

Média é 9154 e mediana é 8597.

Além do total de passos, Fitbit também registra o tempo gasto em cada tipo de atividade.

Há relação entre o total de passos e o tempo gasto em ativiade intensa?

Correlação: 0.76.

Diagrama de dispersão: número de passos e tempo de sedentarismo.

Correlação: -0.76.

Baseado na altura, peso e gênero, o Fitbit estima o comprimento de cada passo.

Diagrama de dispersão: número de passos e distância percorrida.

Correlação: 1.

Compartilhei, pois li e achei legal!

Dados: 10 mil notícias. Para cada notícia calcula-se o número de compartilhamentos e o tempo médio gasto pelo leitor naquela notícia.

Você fica surpreso com este gráfico? O que ele está mostrando?

Cuidado: correlação e outliers

Cuidado: correlação não implica causa!

Taxa de analfabetismo e mortalidade infantil

Mortalidade: número de mortes de crianças de até 5 anos por mil nascidos vivos.

Analfabetismo: % de analfabetos na população de 18 anos ou mais.

Fonte

Google Correlate

Quais os termos de busca mais se correlacionam a outros?

Exemplo:

Associação entre qualitativa e quantitativa

Exemplo: Acidentes de carro em NY

Exemplo: Tipo de risada e idade

Leituras