Bibliotecas utilizadas

library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.3     v purrr   0.3.4
## v tibble  3.1.1     v dplyr   1.0.6
## v tidyr   1.1.3     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
require(dplyr)
require(readxl)
## Loading required package: readxl
library(rstatix)
## 
## Attaching package: 'rstatix'
## The following object is masked from 'package:stats':
## 
##     filter
library(geobr)
## Loading required namespace: sf
library(ggplot2)
library(crul)
library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
## The following object is masked from 'package:purrr':
## 
##     some
library(GGally)
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
library(kableExtra)
## 
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows

Leitura dos dados

#Dados estados
estados <- read_state(code_state = "all")
## Using year 2010
## Loading data for the whole country
#Base de dados
BasesEstados <- read_excel("C:/Users/Notebook/Downloads/BasesEstados.xlsx",  sheet = "dados")

Modificações na Base de Dados

#Através da função "select" filtramos as variáveis que serão uteis para a nossa análise
uteis <- BasesEstados %>% 
  select(Estado, 
         Região, 
         CodigoReg, 
         Gini, 
         IDH,
         Taxa_analfabetismo, 
         Expectativa_anos_de_estudo,
         Renda_per_capita,
         Perc_pobres)

#Modificação necessária para juntar as bases de forma correta quando usar a função "full_join". Mudamos a letra "d" do item "Mato Grosso 'do' Sul" para "D" no "Mato Grosso 'Do' Sul" para futuramente quando for juntar a base "estados" onde temos as informações dos polígonos dos estados do Brasil e a base referente a esse trabalho.
uteis$Estado[uteis$Estado == "Mato Grosso do Sul"] <- "Mato Grosso Do Sul"
uteis$Estado[uteis$Estado == "Rio de Janeiro"] <- "Rio De Janeiro"
uteis$Estado[uteis$Estado == "Rio Grande do Norte"] <- "Rio Grande Do Norte"
uteis$Estado[uteis$Estado == "Rio Grande do Sul"] <- "Rio Grande Do Sul"

Introdução aos dados

uteis %>%
  kbl(caption = "Base de Dados") %>%
  kable_classic(full_width = F, html_font = "")%>% 
  scroll_box(width = "100%", height = "300px")
Base de Dados
Estado Região CodigoReg Gini IDH Taxa_analfabetismo Expectativa_anos_de_estudo Renda_per_capita Perc_pobres
Acre Norte N 0.63 0.663 21.29 8.69 522.15 29.46
Alagoas Nordeste NE 0.63 0.631 30.57 9.07 432.56 34.29
Amazonas Norte N 0.65 0.674 12.30 8.54 539.80 30.78
Amapa Norte N 0.60 0.708 11.20 9.44 598.98 24.07
Bahia Nordeste NE 0.62 0.660 20.92 8.63 496.73 28.72
Ceara Nordeste NE 0.61 0.682 23.95 9.82 460.63 30.32
Distrito Federal Centro-Oeste MW 0.63 0.824 4.31 9.87 1715.11 4.93
Espirito Santo Sudeste SE 0.56 0.740 10.15 9.36 815.43 9.53
Goias Centro-Oeste MW 0.55 0.735 10.06 9.72 810.97 7.59
Maranhao Nordeste NE 0.62 0.639 27.15 9.26 360.34 39.53
Minas Gerais Sudeste SE 0.56 0.731 10.36 9.38 749.69 10.97
Mato Grosso Do Sul Centro-Oeste MW 0.56 0.729 9.72 10.08 799.34 9.92
Mato Grosso Centro-Oeste MW 0.55 0.725 10.82 9.29 762.52 10.52
Para Norte N 0.62 0.646 14.98 8.49 446.76 32.33
Paraiba Nordeste NE 0.61 0.658 27.42 9.24 474.94 28.93
Pernambuco Nordeste NE 0.62 0.673 22.23 9.13 525.64 27.17
Piaui Nordeste NE 0.61 0.646 29.16 9.23 416.93 34.11
Parana Sul S 0.53 0.749 7.86 10.43 890.89 6.46
Rio De Janeiro Sudeste SE 0.59 0.761 5.07 9.17 1039.30 7.23
Rio Grande Do Norte Nordeste NE 0.60 0.684 23.16 9.54 545.42 23.79
Rondonia Norte N 0.56 0.690 11.46 9.20 670.82 14.80
Roraima Norte N 0.63 0.707 13.07 8.69 605.59 26.65
Rio Grande Do Sul Sul S 0.54 0.746 5.44 10.00 959.24 6.37
Santa Catarina Sul S 0.49 0.774 5.11 10.24 983.90 3.65
Sergipe Nordeste NE 0.62 0.665 23.30 9.01 523.53 27.89
Sao Paulo Sudeste SE 0.56 0.783 5.21 10.33 1084.46 4.66
Tocantins Norte N 0.60 0.699 17.14 9.80 586.62 22.15

O banco de dados utilizado corresponde a dados relacionando os estados do Brasil. Nele possuíamos 9 variáveis e 27 observações. As variáveis são:

  • Gini: O Índice de Gini, criado pelo matemático Conrado Gini, é um instrumento para medir o grau de concentração de renda em determinado grupo. Ele aponta a diferença entre os rendimentos dos mais pobres e dos mais ricos. Assim, o Índice de Gini varia de zero a um. O valor zero representa a situação de igualdade, ou seja, todos têm a mesma renda. O valor um está no extremo oposto, isto é, uma só pessoa detém toda a riqueza.

  • IDH: O Índice de Desenvolvimento Humano (IDH) compara indicadores de países nos itens riqueza, alfabetização, educação, esperança de vida, natalidade e outros, com o intuito de avaliar o bem-estar de uma população, especialmente das crianças. Não reflete a desigualdade social, mede a qualidade de vida em relação ao índice de saúde, educação e renda per capita.

Análise exploratória dos dados

ggcorr(uteis, label=T)  + 
  labs(title = "Figura 1: Matriz de correlação.")
## Warning in ggcorr(uteis, label = T): data in column(s) 'Estado', 'Região',
## 'CodigoReg' are not numeric and were ignored

Através da matriz de correlação acima observamos que as variáveis mais correlacionadas positivamente são IDH com Renda per capita, e o coeficiente de Gini e a Taxa de analfabetismo com o percentual de pobreza.

O IDH com Renda per capita possuem uma forte correlação de 0.9. Como o IDH tem o intuito de avaliar o bem-estar de uma população vemos que quando o IDH aumenta, a renda per capita do estado também aumenta, ou seja, estados com a renda per capita maior possuem uma melhor qualidade de vida.

Já o coeficiente de Gini com o percentual de pobreza possuem uma forte correlação de 0.8. Sabe-se que o coeficiente de Gini reflete a desigualdade social. Ou seja, vemos que quanto maior o coeficiente de Gini maior o percentual de pobreza de determinado estado. Para a taxa de analfabetismo e o percentual de pobreza, elas possuem uma forte correlação de 0.9. Ou seja, quanto maior a taxa de analfabetismo, maior o percentual de pobreza dos estados.

Através da matriz de correlação, também podemos observar as variáveis que são mais correlacionadas negativamente, são elas, IDH com a taxa de analfabetismo e percentual de pobreza, elas possuem uma forte correlação de -0.9. Quanto maior o IDH menor a taxa de analfabetismo e o percentual de pobreza. Isso é esperado uma vez que o IDH avalia o bem-estar de uma população, então estados com uma maior qualidade de vida possuem menos pessoas analfabetas e pobres.

Também vemos que a taxa de analfabetismo com a renda per capita possuem uma forte correlação negativa de -0.8. Ou seja, estados com uma maior renda per capita possuem uma menor taxa de analfabetismo.

Observe também que o IDH e coeficiente de Gini possuem uma moderada correlação negativa de -0.6. Então estados com o IDH alto, ou seja, maior qualidade de vida, possuem um menor coeficiente de Gini, ou seja, uma menor desigualdade social.

Através dos gráficos de disperção das figuras 2 a 5 podemos ver como se comportam o coeficiente de Gini e o IDH em relação a taxa de analfabetismo, o percentual de pobres, a expectativa de anos de estudo e a renda per capita.

ggplot(uteis, na.rm = T, aes(x=Taxa_analfabetismo, y= Gini))+ 
  geom_point(aes(col="Gini")) + 
  geom_point(aes(y=IDH, col= "IDH")) +
  theme_classic()+ 
  labs(title = "Figura 2: Gráfico de dispersão para o coeficiente de Gini e \n IDH segundo a Taxa de analfabetismo.", 
       x="Taxa de analfabetismo",
       y="",
       colour="")

Na Figura 2 observe que quanto maior a taxa de analfabetismo maior o coeficiente de Gini e menor o IDH. Ou seja, estados brasileiros onde a taxa de analfabetismo é maior, maior tende a ser a desigualdade social e menor tende a ser a qualidade de vida.

ggplot(uteis, na.rm = T, aes(x=Perc_pobres, y= Gini))+ 
  geom_point(aes(col="Gini")) + 
  geom_point(aes(y=IDH, col= "IDH")) +
  theme_classic()+ 
  labs(title = "Figura 3: Gráfico de dispersão para o coeficiente de Gini e \n IDH segundo o Percentual de pobres.", 
       x="Percentual de pobres",
       y="",
       colour="")

Na Figura 3 observe que quanto maior o percentual de pobres no estado maior o coeficiente de Gini e menor o IDH. Ou seja, estados brasileiros onde o percentual de pobres é maior, maior tende a ser a desigualdade social e menor tende a ser a qualidade de vida.

ggplot(uteis, na.rm = T, aes(x=Expectativa_anos_de_estudo, y= Gini))+ 
  geom_point(aes(col="Gini")) + 
  geom_point(aes(y=IDH, col= "IDH")) +
  theme_classic()+ 
  labs(title = "Figura 4: Gráfico de dispersão para o coeficiente de Gini e \n IDH segundo a Expectativa de anos de estudo.", 
       x="Expectativa de anos de estudo",
       y="",
       colour="")

Na Figura 4 observe que quanto maior a expectativa de anos de estudo no estado maior o IDH e menor o coeficiente de Gini. Ou seja, estados brasileiros onde a expectativa de anos de estudo é maior, menor será a desigualdade social e maior será a qualidade de vida.

ggplot(uteis, na.rm = T, aes(x=Renda_per_capita, y= Gini))+ 
  geom_point(aes(col="Gini")) + 
  geom_point(aes(y=IDH, col= "IDH")) +
  theme_classic()+ 
  labs(title = "Figura 5: Gráfico de dispersão para o coeficiente de Gini e \n IDH segundo a Renda per capita.", 
       x="Renda per capita",
       y="",
       colour="")

Na Figura 5 observe que quanto maior a renda per capita no estado maior o IDH e menor o coeficiente de Gini. Ou seja, estados brasileiros onde a renda per capita é maior, menor será a desigualdade social e maior será a qualidade de vida.

uteis %>% 
  group_by(Estado, Região) %>% 
  ggplot(aes(x = Estado, y = Renda_per_capita, fill = Região)) + 
  geom_bar(stat = "identity") +
  labs(title = "Figura 6: Gráfico de barras da renda per capita por estados brasileiros.",          
       subtitle = "",
       x="Estados",
       y="Renda per capita")

Através da figura 6 percebemos que as regiões Centro-Oeste, Sul e Sudeste são as que possuem uma maior renda per capita. Observe que para a região Centro-Oeste há um estado com um renda per capita bem elevada. Muito provavelmente, esse estado corresponde ao Distrito Federal onde se localiza o Congresso Nacional.

uteis %>% 
  ggplot(aes(x=Região, y=Expectativa_anos_de_estudo, fill=Região))+
  geom_boxplot(alpha = 0.8) + 
  labs(title = "Figura 7: Boxplot da Expectativa de anos de \n estudo segundo a região.",
       x="",
       y="Expectativa de anos de estudo",
       fill="Região")

aux <- uteis %>% filter(Região == "Sul")
tabela_Sul <- summary(aux$Expectativa_anos_de_estudo)
aux <- uteis %>% filter(Região == "Norte")
tabela_Norte <- summary(aux$Expectativa_anos_de_estudo)
aux <- uteis %>% filter(Região == "Nordeste")
tabela_Nordeste <- summary(aux$Expectativa_anos_de_estudo)

tabela_Sul
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.00   10.12   10.24   10.22   10.34   10.43
tabela_Norte
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.490   8.615   8.690   8.979   9.320   9.800
tabela_Nordeste
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.630   9.070   9.230   9.214   9.260   9.820

Através da Figura 7 percebemos que a região sul é a que possui uma maior expectativa de anos de estudo, enquanto as regiões norte e nordeste, são as que possuem uma menor expectativa de anos de estudo. Através do “summary” das regiões Sul, Norte e Nordeste, vemos que a média da expectativa de anos de estudo para a região sul é de 10.22 anos enquanto que para a região Norte e Nordeste é de 8.979 anos e 9.214 anos respectivamente. O boxplot para a região Norte possui uma assimetria a direita com mediana de 8.690, ou seja, 50% dos estados da região Norte possuem uma expectativa de anos de estudo menor que 8.690 anos. Já para a região Sul, vemos que ela possui um simetria nos dados.

Para criação de mapas, primeiro, iremos realizar algumas modificações na base. Para conseguir juntar as bases, é necessário ter uma coluna idêntica em ambas as bases na qual vamos usa-la como chave. Essa coluna será a variável “Estado” na base uteis. Por isso foi feita aquela modificação em alguns estados lá no início. Agora, antes de juntar essas duas bases, vamos remover os acentos presentes na variável “name_state” da base “estados” e depois renomear “name_state” para “Estado”. Assim teremos duas variáveis idênticas em ambas as bases que vão nos auxiliar na junção dessas bases de dados.

para remover os acentos e conseguir juntar as bases de dados para conseguir fazer os mapas utilizei a função disponível no site

##Remover acento
rm_accent <- function(str,pattern="all") {
  if(!is.character(str))
    str <- as.character(str)
  pattern <- unique(pattern)
  if(any(pattern=="Ç"))
    pattern[pattern=="Ç"] <- "ç"
  symbols <- c(
    acute = "áéíóúÁÉÍÓÚýÝ",
    grave = "àèìòùÀÈÌÒÙ",
    circunflex = "âêîôûÂÊÎÔÛ",
    tilde = "ãõÃÕñÑ",
    umlaut = "äëïöüÄËÏÖÜÿ",
    cedil = "çÇ"
  )
  nudeSymbols <- c(
    acute = "aeiouAEIOUyY",
    grave = "aeiouAEIOU",
    circunflex = "aeiouAEIOU",
    tilde = "aoAOnN",
    umlaut = "aeiouAEIOUy",
    cedil = "cC"
  )
  accentTypes <- c("´","`","^","~","¨","ç")
  if(any(c("all","al","a","todos","t","to","tod","todo")%in%pattern)) # opcao retirar todos
    return(chartr(paste(symbols, collapse=""), paste(nudeSymbols, collapse=""), str))
  for(i in which(accentTypes%in%pattern))
    str <- chartr(symbols[i],nudeSymbols[i], str)
  return(str)
}
#Removendo acento
estados_sem_acento <- rm_accent(estados$name_state)
# Subistituindo a coluna sem os acentos no Data Frame
estados$name_state <- estados_sem_acento
#Para conseguir juntar os dados através da função "full_join" é necessário que a coluna com as informações dos estados estejam com o mesmo nome. Para isso, renomeamos a coluna "name_state" da base estados para "Estado".
estados <- estados %>% rename(Estado=name_state)
names(estados)
## [1] "code_state"   "abbrev_state" "Estado"       "code_region"  "name_region" 
## [6] "geom"
#Juntando bases a partir da coluna "Estado".
Juntos <- full_join(estados,uteis, by="Estado")
ggplot(Juntos) +
  geom_sf(aes(fill=Gini)) + 
  labs(title = "Figura 8: Coeficiente de Gini por região do Brasil.",
              fill="Gini")

Como o coeficiente de Gini reflete a desigualdade social, podemos observar que através da Figura 8 que as regiões que possuem uma maior desigualdade social são aquelas do Norte e Nordeste, maior coeficiente de Gini. Com maior destaque para o estado do Amazonas que possui o maior coeficiente de Gini, ou seja, dentre os estados brasileiros é o que possui uma maior desigualdade social. Também destaca-se o estado de Santa Catarina, que possui um menor coeficiente de Gini, ou seja, dentre os estados brasileiros é o que possui uma menor desigualdade social.

ggplot(Juntos) +
  geom_sf(aes(fill=IDH))+ 
  labs(title = "Figura 9: IDH por região do Brasil.",
              fill="IDH")

O IDH mede a qualidade de vida em relação a saúde, educação e renda p/ capta. Podemos observar através da Figura 9 que as regiões que possuem uma maior qualidade de vida são as do Centro-Oeste, Sudeste e Sul. Os estados que se destacam são o Pará, Maranhão e Alagoas com o IDH baixo, baixa qualidade de vida. Já o estado de Santa Catarina, São Paulo e o Distrito Federal se destacam por um IDH alto, ou seja, são estados onde há uma boa qualidade de vida.

Teste ANOVA

Através do teste da ANOVA, vamos testar a hipótese que a Taxa de analfabetismo dentre as Regiões do Brasil são iguais.

#Teste ANOVA 
model <- aov(Taxa_analfabetismo ~ Região, data = uteis)
summary(model)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Região       4 1563.7   390.9   37.84 1.46e-09 ***
## Residuals   22  227.3    10.3                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Observe que como o valor-p foi menor que 0.05, significativo. Então podemos afirmar com 95% de confiança que as médias da taxa de analfabetismo difere dentre as Regiões do Brasil.

Mas antes de verificar essa diferença, vamos analisar se os pressupostos do teste da ANOVA. Para que o teste da anova tenha validade é necessário que exista homogeneidade nas amostras e normalidade nos resíduos.

#Testando Homogeneidade das amostras
#library(car)
leveneTest(Taxa_analfabetismo ~ Região, data = uteis)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  4  0.5034 0.7336
##       22

Através do teste de Levene observamos que o valor de p foi 0.7336, ou seja, maior que 0.05. Logo, podemos afirmar com 95% de confiança que há homogeneidade nas amaostras.

#Testando normalidade
shapiro.test(resid(model))
## 
##  Shapiro-Wilk normality test
## 
## data:  resid(model)
## W = 0.95283, p-value = 0.2509

Através do teste de Shapiro-Wilk verificamos que o valor de p foi 0.2509, ou seja, maior que 0.05. Logo, podemos afirmar com 95% de confiança que há normalidade nos resíduos.

Com os pressupostos atendidos, partimos para as análises.

Através do Teste de Tukey, iremos fazer uma comparação de médias par-a-par.

TukeyHSD(model)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Taxa_analfabetismo ~ Região, data = uteis)
## 
## $Região
##                             diff         lwr         upr     p adj
## Nordeste-Centro-Oeste  16.590278  10.8596759  22.3208796 0.0000002
## Norte-Centro-Oeste      5.763929  -0.2132625  11.7411196 0.0623046
## Sudeste-Centro-Oeste   -1.030000  -7.7731809   5.7131809 0.9906760
## Sul-Centro-Oeste       -2.590833  -9.8743012   4.6926345 0.8267612
## Norte-Nordeste        -10.826349 -15.6321916  -6.0205068 0.0000093
## Sudeste-Nordeste      -17.620278 -23.3508796 -11.8896759 0.0000001
## Sul-Nordeste          -19.181111 -25.5386430 -12.8235792 0.0000001
## Sudeste-Norte          -6.793929 -12.7711196  -0.8167375 0.0207500
## Sul-Norte              -8.354762 -14.9354326  -1.7740912 0.0084610
## Sul-Sudeste            -1.560833  -8.8443012   5.7226345 0.9674865

Através do teste de Tukey observamos que as diferenças foram significativas entre as regiões Centro-Oeste e Nordeste, Norte e Nordeste, Sudeste e Nordeste, Sul e Nordeste e Sul e Norte já que o valor de p foi menor que 0.05.

A média das taxas de analfabetismo da região Nordeste foi 16.59 maior que a taxa da região Centro-Oeste, 10.82 maior que a taxa da região Norte, 17.62 maior que a taxa região Sudeste e 19.18 maior que a taxa da região Sul. Ou seja, a média das taxas de analfabetismo da região Nordeste foi significativamente superior a média das taxas de analfabetismo de todas as outras regiões do Brasil.

Já para as regiões Sul e Norte, temos que a média das taxas de analfabetismo da região norte é 8.35 maior que a média do Sul.

Para as regiões Norte e Centro-Oeste, Sudeste e Centro-Oeste, Sul e Centro-Oeste e Sul e Sudeste as médias das taxas de analfabetismo entre essas regiões foram significativamente iguais, já que o valor de p foi maior que 0.05.

uteis %>% 
  ggplot(aes(x=Região, y=Taxa_analfabetismo, fill=Região))+
  geom_boxplot(alpha = 0.8) + 
  labs(title = "Figura 10: Boxplot do índice da Taxa de analfabetismo segundo a região.",
       x="",
       y="Taxa de analfabetismo",
       fill="Região")

Através da figura 10 podemos observar gráficamente o que comentamos anteriormente. A região com uma maior taxa de analfabetismo é a região Nordeste, seguida da região Norte. A região Sul e Sudeste são as regiões que possuem uma menor taxa no indíce de analfabetismo.

Conclusão

Este trabalho visa contribuir para a formulação de políticas públicas de combate à pobreza extrema no país, que é um dos problemas mais graves da população brasileira. Além disso, possui como objetivo analisar o abismo social que existe atualmente no Brasil. As técnicas estatísticas usadas para obter e analisar informações podem ser controladas e adequadamente pesquisadas para fornecer variantes.

Sendo assim, podemos entender a extensão do analfabetismo, pobreza e qualidade de vida. Esta pesquisa tem como objetivo fornecer resultados estatísticos para lidar com questões sociais. Em geral, podemos ver que o IDH no Nordeste e no Norte do Brasil é baixo, enquanto o IDH no Sudeste e no Sul do Brasil é alto. O coeficiente de Gini, correspondente ao índice de pobreza, é maior nas regiões Norte e Nordeste, portanto, devido à menor qualidade de vida, essas regiões demandam maiores investimentos em educação, saúde e segurança pública.

Portanto, ao analisar o índice de pobreza, é possível obter dados estatísticos para melhor alocar recursos no combate à pobreza. Com o fito de minimizar esse problema, o ideal é investir em ações de assistência social para as camadas de baixa renda de uma sociedade em condições de pobreza, qualidade de vida precária e saneamento básico. Espera-se que, por meio desta análise, possamos compreender certas variáveis que caracterizam a qualidade de vida da população brasileira e, com isso, auxiliar na formulação de políticas públicas mais eficazes, que possam reduzir consequências adversas.