Esse documento tem como objetivo responder às perguntas propostas na segunda etapa do processo seletivo de Estágio da FGV IBRE, área: SAInf. A pesquisa, realizada pelo IPEA, intitulada “Tolerância social à violência contra a mulher” foi realizada durante os meses de Maio e Junho de 2013 e abrange todo o território brasileiro. Esses dados foram obtidos através de uma amostragem, e esse pequeno conjunto, servirá de base para que as questões propostas sejam respondidas.
getwd()
## [1] "/cloud/project"
Os dados foram analisados em nuvem através da aplicação Rcloud.
R foi o software escolhido.
nrow(base_ipea)
## [1] 3810
ncol(base_ipea)
## [1] 40
A base é composta por 3810 linhas e 40 colunas.
Usando a função summary como consulta, podemos facilmente calcular as frequencias e apresenta-las em um pequeno gráfico com as respectivas porcentagens:
summary(base_ipea$regiao_onde_foi_realizada_a_entrevista)
## CENTRO-OESTE NORDESTE NORTE SUDESTE SUL
## 285 1065 300 1605 555
frequenciaPorRegiao <- tibble(Regioes = c("Centro-Oeste", "Nordeste", "Norte", "Sudeste", "Sul"),
Frequencias = c(((285/3810)*100),((1065/3810)*100),((300/3810)*100),((1605/3810)*100),((555/3810)*100)))
frequenciaPorRegiao
## # A tibble: 5 x 2
## Regioes Frequencias
## <chr> <dbl>
## 1 Centro-Oeste 7.48
## 2 Nordeste 28.0
## 3 Norte 7.87
## 4 Sudeste 42.1
## 5 Sul 14.6
library(ggplot2)
ggplot(frequenciaPorRegiao) +
aes(x = Regioes, weight = Frequencias) +
geom_bar(fill = "#d8576b") +
labs(y = "%", title = "Frequência por Região") +
theme_minimal()
A Região mais frequente é a região Sudeste. Essa informação pode ser visualizada no gráfico anterior.
summary(base_ipea$idade)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 16.00 28.00 41.00 42.32 56.00 88.00
Novamente com o auxílio da função summary podemos ver que a pessoa mais nova possui 16 anos, e a mais velha possui 88.
mean(base_ipea$idade)
## [1] 42.31785
median(base_ipea$idade)
## [1] 41
# Criando uma função que calcule a moda
getmode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
getmode(base_ipea$idade)
## [1] 18
Nosso conjunto de dados possui individuos que possuem, em média, 42 anos, com mediana 41, e moda 18. A simetria dessa variável, pode ser visualizada no gráfico densidade abaixo:
library(ggplot2)
ggplot(base_ipea) +
aes(x = idade) +
geom_density(adjust = 0.7, fill = "#d8576b") +
labs(y = "Idade") +
theme_minimal()
O gráfico densidade da variável Idade nos mostra que essa variável possui assimetria à direita. Logo, assimétrica positiva.
#criando nova coluna
base_ipea <- base_ipea %>%
mutate(Faixa_Etaria = case_when(idade <= 29 ~ "Jovens",
idade >= 30 & idade <= 59 ~ "Adultos",
idade >= 60 ~ "Idosos"))
# Apresentando graficamente
library(ggplot2)
ggplot(base_ipea) +
aes(x = Faixa_Etaria) +
geom_bar(fill = "#d8576b") +
labs(x = "Faixa Etária", y = "Contagem") +
theme_minimal()
No gráfico acima, podemos perceber que a amostra é composta majoritariamente por adultos.
summary(base_ipea$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 150 800 1400 1801 2150 19000 527
O valor mínimo da variável em questão é 150. Isso que significa que, pelomenos um lar, declarou uma renda total, com todos os seus integrantes somados de apenas R$150,00 no ultimo mês. O que indica uma situação de grave vulnerabilidade socioeconomica.
O primeiro quartil possui o valor 800. Isso significa que 25% das observações possuem renda total familiar inferior a R$800,00.
A mediana possui o valor de 1400 e representa o nosso valor central. 50% das observações declararam uma renda inferior a R$1400,00 e 50% declarou ter recebido uma renda superior a R$1400,00 no ultimo mês.
As observações declararam ter recebido, em média, uma renda familiar total igual a R$ 1801 no último mês.
O nosso terceiro quartil possui o valor de 2150, e significa que 75% das observações declararam ter recebido uma quantia menor que R$2150,00 no ultimo mês.
O valor maximo declarado foi R$19000, todos os outros valores declarados em nosso banco de dados está abaixo desse valor.
O valor 527 NA’s indica que há 527 dados faltantes.
O valor 800 representa o primeiro quartil, esse resultado nos diz que 25% das nossa observações declararam renda familiar total inferior a R$800,00 no último mês. Logo, 75% declararam renda superior a R$800,00 no ultimo mês.
O valor 2150 representa o terceiro quartil, esse resultado nos diz que 75% das nossas observações declararam renda familiar total inferior a R$2150,00 no ultimo mês. Ou seja, apenas 25% das nossas observações declararam renda superior a R$2150,00 no ultimo mês.
coeficienteVar <- function(x){
coeficiente <- sd(x, na.rm = T)/mean(x, na.rm = T)*100
return(coeficiente)}
coeficienteVar(base_ipea$idade) #cv Idade
## [1] 39.97406
coeficienteVar(base_ipea$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes) # Renda Total
## [1] 85.51214
coeficienteVar(base_ipea$renda_total_do_chefe_da_família_no_ultimo_mes) # Renda do chefe de família
## [1] 78.53877
Todos os coeficientes de variação observados possuem valor maior que 30%, isso significa que os dados estão dispersos em torno da média, ou seja, são dados heterogêneos. A variável Idade possui o menor dos valores observados: 39,97%. Ainda assim, excede a tolerância para que a amostra seja considerada homogenea.
Nosso banco de dados possui duas variáveis que dizem respeito a renda. A renda total familiar, e a renda do chefe familiar. Como não foi especificada, usarei a renda total como objeto.
library(dplyr)
library(magrittr)
# CENTRO-OESTE
CO <- base_ipea %>%
select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
filter(regiao_onde_foi_realizada_a_entrevista == "CENTRO-OESTE")
desvCO <- sd(CO$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)
# NORTE
N <- base_ipea %>%
select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
filter(regiao_onde_foi_realizada_a_entrevista == "NORTE")
desvN <- sd(N$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)
# NORDESTE
NO <- base_ipea %>%
select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
filter(regiao_onde_foi_realizada_a_entrevista == "NORDESTE")
desvNO <- sd(NO$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)
# SUL
SUL <- base_ipea %>%
select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
filter(regiao_onde_foi_realizada_a_entrevista == "SUL")
desvSUL <- sd(SUL$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)
# SUDESTE
SUD<- base_ipea %>%
select(renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, regiao_onde_foi_realizada_a_entrevista) %>%
filter(regiao_onde_foi_realizada_a_entrevista == "SUDESTE")
desvSUD <- sd(SUD$renda_total_de_todos_os_moradores_parentes_e_agregados_no_ultimo_mes, na.rm = T)
desviosPorRegiao <- tibble(Regioes = c("Norte", "Sudeste","Centro-Oeste", "Sul", "Nordeste"),
desvios = c(desvN, desvSUD, desvCO, desvSUL, desvNO))
# Representação gráfica
library(ggplot2)
ggplot(desviosPorRegiao) +
aes(x = Regioes, weight = desvios) +
geom_bar(fill = "#d8576b") +
labs(x = "Regiões", y = "Desvios") +
theme_minimal()
A Região Nordeste possui o menor desvio, consequentemente um comportamento mais homogeneo em relação a renda.