Estágio SAInf

Introdução

Esse documento tem como objetivo responder às perguntas propostas na segunda etapa do processo seletivo de Estágio da FGV IBRE, área: SAInf. A pesquisa, realizada pelo IPEA, intitulada “Tolerância social à violência contra a mulher” foi realizada durante os meses de Maio e Junho de 2013 e abrange todo o território brasileiro. Esses dados foram obtidos através de uma amostragem, e esse pequeno conjunto, servirá de base para que as questões propostas sejam respondidas.

Análise e Discussão

a) Defina o seu diretório de trabalho para o local onde se encontra a base de dados.

getwd()

## [1] "/cloud/project"

Os dados foram analisados em nuvem através da aplicação Rcloud.

b) Importe a base de dados base_ipea.csv para o software escolhido.

R foi o software escolhido.

c) A base é composta por quantas linhas e colunas?

nrow(base_ipea)

## [1] 3810

ncol(base_ipea)

## [1] 40

A base é composta por 3810 linhas e 40 colunas.

d) Calcule a frequência de pessoas em cada região do Brasil.

Usando a função summary como consulta, podemos facilmente calcular as frequencias e apresenta-las em um pequeno gráfico com as respectivas porcentagens:

summary(base_ipea$regiao_onde_foi_realizada_a_entrevista)

## CENTRO-OESTE     NORDESTE        NORTE      SUDESTE          SUL 
##          285         1065          300         1605          555

frequenciaPorRegiao <- tibble(Regioes = c("Centro-Oeste", "Nordeste", "Norte", "Sudeste", "Sul"),
                              Frequencias = c(((285/3810)*100),((1065/3810)*100),((300/3810)*100),((1605/3810)*100),((555/3810)*100)))

frequenciaPorRegiao

## # A tibble: 5 x 2
##   Regioes      Frequencias
##   <chr>              <dbl>
## 1 Centro-Oeste        7.48
## 2 Nordeste           28.0 
## 3 Norte               7.87
## 4 Sudeste            42.1 
## 5 Sul                14.6

library(ggplot2)

ggplot(frequenciaPorRegiao) +
 aes(x = Regioes, weight = Frequencias) +
 geom_bar(fill = "#d8576b") +
 labs(y = "%", title = "Frequência por Região") +
 theme_minimal()

e) Qual é a região mais frequente (moda)?

A Região mais frequente é a região Sudeste. Essa informação pode ser visualizada no gráfico anterior.

f) Qual é a idade da pessoa mais nova nessa amostra? E da mais velha?

summary(base_ipea$idade)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   28.00   41.00   42.32   56.00   88.00

Novamente com o auxílio da função summary podemos ver que a pessoa mais nova possui 16 anos, e a mais velha possui 88.

g) Calcule a média, a mediana e a moda para a variável idade. A partir disso, o que você pode dizer sobre a distribuição dessa variável (assimétrica positiva, assimétrica negativa ou simétrica)?

mean(base_ipea$idade)

## [1] 42.31785

median(base_ipea$idade)

## [1] 41

# Criando uma função que calcule a moda
getmode <- function(v) {
  uniqv <- unique(v)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}

getmode(base_ipea$idade)

## [1] 18

Nosso conjunto de dados possui individuos que possuem, em média, 42 anos, com mediana 41, e moda 18. A simetria dessa variável, pode ser visualizada no gráfico densidade abaixo:

library(ggplot2)

ggplot(base_ipea) +
 aes(x = idade) +
 geom_density(adjust = 0.7, fill = "#d8576b") +
 labs(y = "Idade") +
 theme_minimal()

O gráfico densidade da variável Idade nos mostra que essa variável possui assimetria à direita. Logo, assimétrica positiva.

h) Classifique as idades de acordo com as faixas etárias a seguir. (Crie uma nova coluna no data frame para essa classificação). A amostra é composta de mais Jovens, Adultos ou Idosos?

#criando nova coluna

base_ipea <- base_ipea %>%
  mutate(Faixa_Etaria = case_when(idade <= 29 ~ "Jovens",
                                  idade >= 30 & idade <= 59 ~ "Adultos",
                                  idade >= 60 ~ "Idosos"))

# Apresentando graficamente
library(ggplot2)

ggplot(base_ipea) +
 aes(x = Faixa_Etaria) +
 geom_bar(fill = "#d8576b") +
 labs(x = "Faixa Etária", y = "Contagem") +
 theme_minimal()

No gráfico acima, podemos perceber que a amostra é composta majoritariamente por adultos.

i) Calcule a média, a mediana, o primeiro quartil, o terceiro quartil e os valores máximo e mínimo para a variável “renda total de todos os moradores, parentes e agregados no último mês”. Comente os resultados.

summary(base_ipea$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##     150     800    1400    1801    2150   19000     527

O valor mínimo da variável em questão é 150. Isso que significa que, pelomenos um lar, declarou uma renda total, com todos os seus integrantes somados de apenas R$150,00 no ultimo mês. O que indica uma situação de grave vulnerabilidade socioeconomica.

O primeiro quartil possui o valor 800. Isso significa que 25% das observações possuem renda total familiar inferior a R$800,00.

A mediana possui o valor de 1400 e representa o nosso valor central. 50% das observações declararam uma renda inferior a R$1400,00 e 50% declarou ter recebido uma renda superior a R$1400,00 no ultimo mês.

As observações declararam ter recebido, em média, uma renda familiar total igual a R$ 1801 no último mês.

O nosso terceiro quartil possui o valor de 2150, e significa que 75% das observações declararam ter recebido uma quantia menor que R$2150,00 no ultimo mês.

O valor maximo declarado foi R$19000, todos os outros valores declarados em nosso banco de dados está abaixo desse valor.

O valor 527 NA’s indica que há 527 dados faltantes.

j) Interprete o primeiro e o terceiro quartis encontrados no item anterior.

O valor 800 representa o primeiro quartil, esse resultado nos diz que 25% das nossa observações declararam renda familiar total inferior a R$800,00 no último mês. Logo, 75% declararam renda superior a R$800,00 no ultimo mês.

O valor 2150 representa o terceiro quartil, esse resultado nos diz que 75% das nossas observações declararam renda familiar total inferior a R$2150,00 no ultimo mês. Ou seja, apenas 25% das nossas observações declararam renda superior a R$2150,00 no ultimo mês.

k) Crie uma função que calcule o coeficiente de variação.

coeficienteVar <- function(x){
  coeficiente <- sd(x, na.rm = T)/mean(x, na.rm = T)*100
  return(coeficiente)}

l) Calcule o coeficiente de variação para a variável idade e renda. Compare os dois coeficientes de variação.

coeficienteVar(base_ipea$idade) #cv Idade

## [1] 39.97406

coeficienteVar(base_ipea$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes) # Renda Total

## [1] 85.51214

coeficienteVar(base_ipea$renda_total_do_chefe_da_família_no_ultimo_mes) # Renda do chefe de família

## [1] 78.53877

Todos os coeficientes de variação observados possuem valor maior que 30%, isso significa que os dados estão dispersos em torno da média, ou seja, são dados heterogêneos. A variável Idade possui o menor dos valores observados: 39,97%. Ainda assim, excede a tolerância para que a amostra seja considerada homogenea.

m) Calcule o desvio-padrão para a renda de acordo com cada região do Brasil. Qual é a região que possui um comportamento mais homogêneo em relação à renda?

Nosso banco de dados possui duas variáveis que dizem respeito a renda. A renda total familiar, e a renda do chefe familiar. Como não foi especificada, usarei a renda total como objeto.

library(dplyr)
library(magrittr)

# CENTRO-OESTE 
CO <- base_ipea %>%
  select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
  filter(regiao_onde_foi_realizada_a_entrevista == "CENTRO-OESTE")

desvCO <- sd(CO$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)

# NORTE 
N <- base_ipea %>%
  select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
  filter(regiao_onde_foi_realizada_a_entrevista == "NORTE")

desvN <- sd(N$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)

# NORDESTE 
NO <- base_ipea %>%
  select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
  filter(regiao_onde_foi_realizada_a_entrevista == "NORDESTE")

desvNO <- sd(NO$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)

# SUL
SUL <- base_ipea %>%
  select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
  filter(regiao_onde_foi_realizada_a_entrevista == "SUL")

desvSUL <- sd(SUL$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)

# SUDESTE 
SUD<- base_ipea %>%
  select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
  filter(regiao_onde_foi_realizada_a_entrevista == "SUDESTE")

desvSUD <- sd(SUD$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)

desviosPorRegiao <- tibble(Regioes = c("Norte", "Sudeste","Centro-Oeste", "Sul", "Nordeste"),
                           desvios = c(desvN, desvSUD, desvCO, desvSUL, desvNO))

# Representação gráfica

library(ggplot2)

ggplot(desviosPorRegiao) +
 aes(x = Regioes, weight = desvios) +
 geom_bar(fill = "#d8576b") +
 labs(x = "Regiões", y = "Desvios") +
 theme_minimal()

A Região Nordeste possui o menor desvio, consequentemente um comportamento mais homogeneo em relação a renda.