INTRODUÇÃO À ESTATÍSTICA

SEMANA 8: ANÁLISE BIVARIADA PARTE III

PROF. GUILHERME AUGUSTO VELOSO

PRIMEIRO SEMESTRE DE 2023

Nesta terceira parte da análise bivariada, consideramos a situação em que temos duas variáveis quantitativas. Nesse tipo de análise, as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados que nas aulas anteriores.

1 Motivações Práticas

Para a aula prática de hoje utilizaremos as seguintes situações práticas motivadoras:

1.1 Regiões Intermediárias de MG

As regiões intermediárias brasileiras foram instituídas em 2017 para a atualização da divisão regional e correspondem a uma revisão das antigas mesorregiões, que estavam em vigor desde o quadro criado em 1989.

Para a elaboração dessas regiões, foram levadas em consideração a conexão de cidades próximas através de relações de dependência e deslocamento da população em busca de bens, prestação de serviços e trabalho.

No estado de Minas Gerais, há 13 regiões intermediárias conforme a figura a seguir:

Para cada regiao intermediária de Minas Gerais em 2018, foi calculado:

Percentual de mudança da taxa de mortalidade por causas externas por 100 mil habitantes entre 2000-2018.
Índice Brasileiro de Privação (IBP).
Produto interno bruto (PIB) per capita.
Percentual de jovens (18 a 24 anos) com escolaridade incompleta.

As causas externas são traumatismos, lesões ou quaisquer outros agravos à saúde – intencionais ou não – de início súbito e como consequência imediata de violência ou outra causa exógena.

O Índice Brasileiro de Privação (IBP), criado em 2018, é uma medida que informa níveis de privação material ou, de um modo mais geral, níveis de posição socioeconômica, em diferentes áreas geográficas do Brasil. Quanto mais negativo for o IBP menos privado é a localidade.

A base de dados está armazenada no objeto Dados.csv e pode ser lida com os comandos abaixo:

# Carregando o universo tidyverse
library("tidyverse")

## Warning: package 'tidyverse' was built under R version 4.2.3

## Warning: package 'readr' was built under R version 4.2.3

## Warning: package 'forcats' was built under R version 4.2.3

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.0     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.1     ✔ tibble    3.1.8
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors

# Carregando a biblioteca readr
library("readr")
# Lendo a base de dados no formato .csv
dados = read_csv("Dados.csv")

## Rows: 13 Columns: 5
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): Regiao_Intermediaria
## dbl (4): PC, PIB, EDUC, IBP
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

1.2 SDI e Analfabetismo no Brasil

Para exemplificar o gráfico de série temporal, esse exemplo trás o Índice Sociodemográfico SDI e Analfabetismo medidos para o Brasil, entre os anos de 1996 e 2017.

Expresso em uma escala de 0 a 1, o SDI considera a renda per capita, nível educacional médio e taxas de fertilidade. Quanto mais próximo de 1 mais desenvolvida é a localidade.

O Analfabetismo representa o percentual de pessoas com mais de 15 anos que não sabe ler e/ou escrever.

A base de dados está armazenada no objeto Dados2.csv e pode ser lida com os comandos abaixo:

dados2 = read_csv("Dados2.csv")

## Rows: 22 Columns: 3
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (3): Ano, SDI, Analfabetismo
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

2 Gráficos

Vimos em sala de aula que, para representar graficamente o comportamento conjunto de duas variáveis quantitativas podemos usar os seguintes gráficos:

Gráfico de Dispersão
Série Temporal

As próximas linhas dão detalhes de como esses gráficos podem ser construídos no R.

2.1 Gráfico de Dispersão

Um dispositivo bastante útil para verificar a associação entre duas variáveis quantitativas, ou entre dois conjuntos de dados, é o gráfico de dispersão. Nesse gráfico, temos os possíveis pares de valores na ordem que aparecem.

Para exemplificar, será considerado o exemplo da análise do comportamento conjunto entre os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Indice Brasileiro de Privação, ambos coletados em 2018.

No R, para fazer o gráfico de dispersão, utilizamos a função geom_point do pacote ggplot2, conforme os comandos a seguir:

ggplot(dados, mapping = aes(x=IBP, y=PC)) +
  geom_point()+
  theme_bw()+
  xlab("Índice Brasileiro de Privação")+
  ylab("Percentual de Mudança (%)")

Os argumentos size, shape e color são usados para aumentar o tamanho dos pontos, o formato e cor. Existem diferentes shapes disponíveis conforme a figura a seguir:

Seguem os códigos abaixo para fazer essa personalização:

ggplot(dados, mapping = aes(x=IBP, y=PC)) +
  geom_point(size=5,shape=18,color="blue")+
  theme_bw()+
  xlab("Índice Brasileiro de Privação")+
  ylab("Percentual de Mudança (%)")

Para acrescentar uma label com o nome das regiões, basta usar o comando geom_text:

ggplot(dados, mapping = aes(x=IBP, y=PC)) +
  geom_point(size=5,shape=18,color="blue")+
  theme_bw()+
  geom_text(label=dados$Regiao_Intermediaria,vjust = 0, nudge_y = 1)+
  xlab("Índice Brasileiro de Privação")+
  ylab("Percentual de Mudança (%)")

2.1.1 Exercícios

Faça o gráfico de dispersão para investigar o comportamento conjunto entre:

Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Percentual de Jovens com educação incompleta, ambos coletados em 2018
Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o PIB per capita, ambos coletados em 2018

2.2 Série Temporal

Um caso especial de um gráfico de dispersão é um gráfico de série temporal onde o tempo é a variável x. No R, para fazer gráficos de série temporal, utilizamos a função geom_line do pacote ggplot2.

Para ilustrar, considere a evolução do SDI ao longo dos anos para o Brasil. Seguem os códigos:

ggplot(data=dados2, aes(x=Ano, y=SDI)) +
  geom_line()+
  geom_point()+
  theme_bw()

2.2.1 Exercícios

Faça uma série temporal para retratar a evolução do analfabetismo no Brasil.

3 Coeficiente de Correlação de Pearson

A partir dos gráficos de dispersão apresentados, verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas.

Entretanto, é muito útil quantificar essa associação. Existem muitos tipos de associações possíveis, e aqui iremos apresentar o tipo de relação mais simples, que é a linear.

Em sala, definimos o coeficiente de correlação linear de Pearson. Essa medida é definida de modo a variar num intervalo finito, especificamente, de -1 a +1.

Quanto mais próximo de 1 mais direta é a associação entre as variáveis.
Quanto mais próximo de -1 mais indireta é a associação entre as variáveis.

No R, para calcular esse coeficiente, basta utilizar a função cor. Os comandos a seguir exemplificam o cálculo desse coeficiente para a análise do comportamento conjunto entre os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Indice Brasileiro de Privação, ambos coletados em 2018.

cor(dados$PC,dados$IBP)

## [1] 0.7708954

3.1 Exercícios

Calcule o coeficiente de correlação de Pearson para

Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Percentual de Jovens com educação incompleta, ambos coletados em 2018
Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o PIB per capita, ambos coletados em 2018

4 Modelo de Regressão Linear Simples

Os modelos de regressão tem por objetivo relacionar, por meio de um modelo matemático, a variável resposta \(y\) com o conjunto de variáveis explicativas.

Tal relacionamento visa o controle, determinação de algum parâmetro ou mesmo fazer previsão acerca do comportamento da variável resposta.

Nesse curso, vamos modelar, matematicamente, a relação entre duas variáveis. As relações mais simples entre duas variáveis são as relações lineares. A variável explicativa \(x\) é relacionada com a variável resposta \(y\) por meio de uma equação linear.

No R, o modelo de regressão linear simples é ajustado com a função lm. Os comandos a seguir exemplificam o cálculo da equação ajustada a análise do comportamento conjunto entre os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Indice Brasileiro de Privação, ambos coletados em 2018:

## Modelo de Regressão Linear Simples
## variavel y ~ variavel x
mod = lm(data=dados,PC~IBP)
mod$coefficients

## (Intercept)         IBP 
##    16.60462    20.01676

Logo, a equação de reta ajustada é \(y\) = 16.60462 + 20.01676 \(x\).

Para visualizar a reta ajustada, acrescentamos a função geom_smooth nos comandos anteriores:

ggplot(dados, mapping = aes(x=IBP, y=PC)) +
  geom_point(size=5,shape=18,color="blue")+
  geom_smooth(method=lm, se=FALSE)+
  theme_bw()+
  xlab("Índice Brasileiro de Privação")+
  ylab("Percentual de Mudança (%)")

## `geom_smooth()` using formula = 'y ~ x'

4.1 Exercícios

Ajuste o modelo de regressão linear simples para

Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Percentual de Jovens com educação incompleta, ambos coletados em 2018
Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o PIB per capita, ambos coletados em 2018