PROF. GUILHERME AUGUSTO VELOSO
PRIMEIRO SEMESTRE DE 2023
Nesta terceira parte da análise bivariada, consideramos a situação em que temos duas variáveis quantitativas. Nesse tipo de análise, as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados que nas aulas anteriores.
Para a aula prática de hoje utilizaremos as seguintes situações práticas motivadoras:
As regiões intermediárias brasileiras foram instituídas em 2017 para a atualização da divisão regional e correspondem a uma revisão das antigas mesorregiões, que estavam em vigor desde o quadro criado em 1989.
Para a elaboração dessas regiões, foram levadas em consideração a conexão de cidades próximas através de relações de dependência e deslocamento da população em busca de bens, prestação de serviços e trabalho.
No estado de Minas Gerais, há 13 regiões intermediárias conforme a figura a seguir:
Para cada regiao intermediária de Minas Gerais em 2018, foi calculado:
As causas externas são traumatismos, lesões ou quaisquer outros agravos à saúde – intencionais ou não – de início súbito e como consequência imediata de violência ou outra causa exógena.
O Índice Brasileiro de Privação (IBP), criado em 2018, é uma medida que informa níveis de privação material ou, de um modo mais geral, níveis de posição socioeconômica, em diferentes áreas geográficas do Brasil. Quanto mais negativo for o IBP menos privado é a localidade.
A base de dados está armazenada no objeto Dados.csv e
pode ser lida com os comandos abaixo:
# Carregando o universo tidyverse
library("tidyverse")
## Warning: package 'tidyverse' was built under R version 4.2.3
## Warning: package 'readr' was built under R version 4.2.3
## Warning: package 'forcats' was built under R version 4.2.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.0 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.1 ✔ tibble 3.1.8
## ✔ lubridate 1.9.2 ✔ tidyr 1.3.0
## ✔ purrr 1.0.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
# Carregando a biblioteca readr
library("readr")
# Lendo a base de dados no formato .csv
dados = read_csv("Dados.csv")
## Rows: 13 Columns: 5
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (1): Regiao_Intermediaria
## dbl (4): PC, PIB, EDUC, IBP
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Para exemplificar o gráfico de série temporal, esse exemplo trás o Índice Sociodemográfico SDI e Analfabetismo medidos para o Brasil, entre os anos de 1996 e 2017.
Expresso em uma escala de 0 a 1, o SDI considera a renda per capita, nível educacional médio e taxas de fertilidade. Quanto mais próximo de 1 mais desenvolvida é a localidade.
O Analfabetismo representa o percentual de pessoas com mais de 15 anos que não sabe ler e/ou escrever.
A base de dados está armazenada no objeto Dados2.csv e
pode ser lida com os comandos abaixo:
dados2 = read_csv("Dados2.csv")
## Rows: 22 Columns: 3
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (3): Ano, SDI, Analfabetismo
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Vimos em sala de aula que, para representar graficamente o comportamento conjunto de duas variáveis quantitativas podemos usar os seguintes gráficos:
As próximas linhas dão detalhes de como esses gráficos podem ser
construídos no R.
Um dispositivo bastante útil para verificar a associação entre duas variáveis quantitativas, ou entre dois conjuntos de dados, é o gráfico de dispersão. Nesse gráfico, temos os possíveis pares de valores na ordem que aparecem.
Para exemplificar, será considerado o exemplo da análise do comportamento conjunto entre os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Indice Brasileiro de Privação, ambos coletados em 2018.
No R, para fazer o gráfico de
dispersão, utilizamos a função geom_point do
pacote ggplot2, conforme os comandos a seguir:
ggplot(dados, mapping = aes(x=IBP, y=PC)) +
geom_point()+
theme_bw()+
xlab("Índice Brasileiro de Privação")+
ylab("Percentual de Mudança (%)")
Os argumentos size, shape e
color são usados para aumentar o tamanho dos pontos, o
formato e cor. Existem diferentes shapes
disponíveis conforme a figura a seguir:
Seguem os códigos abaixo para fazer essa personalização:
ggplot(dados, mapping = aes(x=IBP, y=PC)) +
geom_point(size=5,shape=18,color="blue")+
theme_bw()+
xlab("Índice Brasileiro de Privação")+
ylab("Percentual de Mudança (%)")
Para acrescentar uma label com o
nome das regiões, basta usar o comando
geom_text:
ggplot(dados, mapping = aes(x=IBP, y=PC)) +
geom_point(size=5,shape=18,color="blue")+
theme_bw()+
geom_text(label=dados$Regiao_Intermediaria,vjust = 0, nudge_y = 1)+
xlab("Índice Brasileiro de Privação")+
ylab("Percentual de Mudança (%)")
Faça o gráfico de dispersão para investigar o comportamento conjunto entre:
Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Percentual de Jovens com educação incompleta, ambos coletados em 2018
Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o PIB per capita, ambos coletados em 2018
Um caso especial de um gráfico de dispersão é um gráfico de
série temporal onde o tempo é a variável x. No
R, para fazer gráficos de série temporal,
utilizamos a função geom_line do pacote
ggplot2.
Para ilustrar, considere a evolução do SDI ao longo dos anos para o Brasil. Seguem os códigos:
ggplot(data=dados2, aes(x=Ano, y=SDI)) +
geom_line()+
geom_point()+
theme_bw()
Faça uma série temporal para retratar a evolução do analfabetismo no Brasil.
A partir dos gráficos de dispersão apresentados, verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas.
Entretanto, é muito útil quantificar essa associação. Existem muitos tipos de associações possíveis, e aqui iremos apresentar o tipo de relação mais simples, que é a linear.
Em sala, definimos o coeficiente de correlação linear de Pearson. Essa medida é definida de modo a variar num intervalo finito, especificamente, de -1 a +1.
Quanto mais próximo de 1 mais direta é a associação entre as variáveis.
Quanto mais próximo de -1 mais indireta é a associação entre as variáveis.
No R, para calcular esse coeficiente,
basta utilizar a função cor. Os comandos a
seguir exemplificam o cálculo desse coeficiente para a análise do
comportamento conjunto entre os percentuais de mudança das taxas de
mortalidade por causas externas nas 13 regiões intermediárias de MG e o
Indice Brasileiro de Privação, ambos coletados em 2018.
cor(dados$PC,dados$IBP)
## [1] 0.7708954
Calcule o coeficiente de correlação de Pearson para
Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Percentual de Jovens com educação incompleta, ambos coletados em 2018
Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o PIB per capita, ambos coletados em 2018
Os modelos de regressão tem por objetivo relacionar, por meio de um modelo matemático, a variável resposta \(y\) com o conjunto de variáveis explicativas.
Tal relacionamento visa o controle, determinação de algum parâmetro ou mesmo fazer previsão acerca do comportamento da variável resposta.
Nesse curso, vamos modelar, matematicamente, a relação entre duas variáveis. As relações mais simples entre duas variáveis são as relações lineares. A variável explicativa \(x\) é relacionada com a variável resposta \(y\) por meio de uma equação linear.
No R, o modelo de regressão linear simples é
ajustado com a função lm. Os comandos a seguir
exemplificam o cálculo da equação ajustada a análise do comportamento
conjunto entre os percentuais de mudança das taxas de mortalidade por
causas externas nas 13 regiões intermediárias de MG e o Indice
Brasileiro de Privação, ambos coletados em 2018:
## Modelo de Regressão Linear Simples
## variavel y ~ variavel x
mod = lm(data=dados,PC~IBP)
mod$coefficients
## (Intercept) IBP
## 16.60462 20.01676
Logo, a equação de reta ajustada é \(y\) = 16.60462 + 20.01676 \(x\).
Para visualizar a reta ajustada, acrescentamos a
função geom_smooth nos comandos anteriores:
ggplot(dados, mapping = aes(x=IBP, y=PC)) +
geom_point(size=5,shape=18,color="blue")+
geom_smooth(method=lm, se=FALSE)+
theme_bw()+
xlab("Índice Brasileiro de Privação")+
ylab("Percentual de Mudança (%)")
## `geom_smooth()` using formula = 'y ~ x'
Ajuste o modelo de regressão linear simples para
Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o Percentual de Jovens com educação incompleta, ambos coletados em 2018
Os percentuais de mudança das taxas de mortalidade por causas externas nas 13 regiões intermediárias de MG e o PIB per capita, ambos coletados em 2018