library(readxl)
library(readr)
library(flextable)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(kableExtra)
## 
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows
## The following objects are masked from 'package:flextable':
## 
##     as_image, footnote
library(shinythemes)

1. Proposta

O Índice de Progresso Social (IPS) é uma abordagem de mensuração direta do desenvolvimento humano a partir de indicadores selecionados em três dimensões e 12 componentes definidos globalmente. A seleção das dimensões e componentes foi realizada pelo Social Progress Imperative com apoio de acadêmicos nas universidades de Harvard e do Massachusetts Institute of Technology (MIT) com o objetivo de cobrir um gama abrangente de temas, sempre tentando responder em que medida cada território é capaz de prover condições mínimas para seus habitantes. Na abordagem que escolhemos, vamos com investigar se os dados constatados no IPS correspondem à realidade do acesso das pessoas à educação e oportunidades, cruzando esses dados com as variáveis relacionadas ao acesso à educação básica, ao acesso ao ensino superior, evasão do ensino médio, oportunidades e nível de alfabetização de cada de cada zona do Município do Rio de Janeiro, usando os dados do ano de 2020, que é o ano mais recente presente na base de dados. Para isso, será necessário criar uma nova variável na base de dados original: a zona.

2. Fonte dos dados

A fonte utilizada foi uma base de dados do IPS Rio, que contém informações sobre população, indicadores sociais e econômicos dos bairros cariocas, com cobertura temporal de 2016 a 2020, porém neste trabalho vamos analisar apenas os dados do ano de 2020.

Link da fonte: https://basedosdados.org/dataset/57c5dc55-10cb-44f9-9f13-6a2fb24392ed?table=d5751ecb-5d8c-4c74-934b-2a715dbc2450

Carregando base de dados

IPSData <- read.csv("/Users/Marcos/Downloads/dimensoes_componentes_editado_2020(excel).csv")
View(IPSData)
kable(IPSData, row.names = FALSE)%>%
  kable_styling( full_width = T,bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                 position = "center", fixed_thead = T) %>%
  scroll_box(width = "900px", height = "600px")
ano zona regiao_administrativa ips_geral necessidades_humanas_basicas_nota_dimensao nutricao_cuidados_medicos_basicos agua_saneamento moradia seguranca_pessoal fundamentos_bem_estar_nota_dimensao acesso_conhecimento_basico acesso_informacao saude_bem_estar qualidade_meio_ambiente oportunidades_nota_dimensao direitos_individuais liberdades_individuais tolerancia_inclusao acesso_educacao_superior
2020 Geral Rio De Janeiro 60.79 74.13 66.12 83.68 79.57 67.14 51.63 66.19 50.89 53.08 36.37 56.62 54.33 62.72 77.05 32.36
2020 Centro Portuaria 42.06 59.67 64.32 80.80 71.06 22.49 36.00 59.51 20.73 19.20 44.55 30.52 25.66 50.76 40.23 5.43
2020 Centro Centro 55.59 59.23 56.64 74.18 91.60 14.52 50.26 61.97 56.00 37.26 45.82 57.26 41.68 87.28 51.84 48.26
2020 Norte Rio Comprido 55.50 68.27 72.61 84.36 73.29 42.82 50.81 68.72 42.08 39.33 53.10 47.42 37.76 60.82 68.64 22.48
2020 Sul Botafogo 85.03 91.66 89.92 98.49 99.07 79.18 77.09 80.70 86.52 78.58 62.56 86.32 56.63 89.80 99.48 99.39
2020 Sul Copacabana 80.23 92.03 92.01 99.32 96.84 79.97 68.93 77.01 81.95 72.40 44.36 79.73 56.72 80.14 98.53 83.53
2020 Sul Lagoa 79.02 85.05 67.40 98.86 96.28 77.66 70.24 69.58 89.06 75.07 47.23 81.76 50.12 96.77 98.57 81.59
2020 Norte São Cristovão 51.86 69.14 65.35 86.36 74.47 50.36 40.80 66.57 34.65 31.01 30.98 45.63 50.37 52.92 62.40 16.83
2020 Norte Tijuca 71.61 85.47 85.23 84.62 95.54 76.49 51.37 58.84 80.32 18.84 47.48 78.00 51.76 85.53 95.88 78.82
2020 Norte Vila Isabel 73.05 82.68 68.21 94.21 87.11 81.17 64.52 62.50 74.99 65.02 55.58 71.95 57.34 65.11 92.14 73.20
2020 Norte Ramos 57.04 72.69 64.90 94.92 70.96 59.99 45.63 51.91 52.42 40.99 37.20 52.79 57.34 52.68 76.76 24.39
2020 Norte Penha 56.96 74.39 43.14 97.56 85.59 71.27 45.01 56.40 43.90 49.68 30.08 51.49 51.27 51.93 79.57 23.19
2020 Norte Inhaúma 56.92 74.43 64.39 92.05 83.13 58.16 38.92 42.06 45.07 38.13 30.40 57.41 59.00 63.36 76.47 30.81
2020 Norte Méier 64.61 77.15 64.71 91.26 88.36 64.28 55.32 58.57 64.58 51.50 46.61 61.37 47.76 65.29 84.63 47.82
2020 Norte Iraja 64.57 79.80 66.97 97.73 90.95 63.56 50.33 62.03 54.65 53.61 31.04 63.58 57.00 75.16 84.04 38.14
2020 Norte Madureira 55.61 68.86 53.76 89.36 82.89 49.43 45.89 46.84 45.83 47.33 43.56 52.08 50.03 58.83 74.38 25.08
2020 Oeste Jacarepaguá 61.94 74.38 73.37 68.78 73.59 81.76 52.36 59.65 54.36 55.89 39.56 59.07 57.85 64.54 79.79 34.08
2020 Oeste Bangu 51.84 70.87 66.52 89.96 74.32 52.69 37.74 54.89 33.54 29.48 33.04 46.90 51.39 51.57 70.19 14.45
2020 Oeste Campo Grande 58.68 77.91 70.78 78.76 76.78 85.31 42.89 61.34 40.10 37.71 32.40 55.24 61.65 60.83 79.22 19.26
2020 Oeste Santa Cruz 50.82 71.47 57.91 71.21 65.96 90.79 31.87 54.53 18.98 38.62 15.34 49.11 77.58 41.51 71.03 6.31
2020 Norte Ilha Do Governador 62.97 78.37 67.06 89.27 87.80 69.35 50.89 64.99 57.87 60.86 19.82 59.64 49.11 62.51 83.26 43.68
2020 Norte Anchieta 55.72 72.83 74.81 86.42 76.82 53.29 42.92 45.22 36.94 51.63 37.90 51.39 56.59 63.67 68.30 17.01
2020 Centro Santa Teresa 63.26 77.57 81.49 84.64 81.14 63.03 64.04 82.54 59.89 63.44 50.28 48.16 18.80 69.64 69.94 34.25
2020 Oeste Barra Da Tijuca 69.70 70.61 78.49 50.75 84.87 68.34 67.87 73.69 78.51 73.12 46.15 70.62 52.94 78.85 82.94 67.74
2020 Norte Pavuna 42.97 60.94 51.21 87.31 64.53 40.71 27.58 33.39 26.54 49.49 0.89 40.38 45.28 49.89 55.39 10.97
2020 Oeste Guaratiba 43.54 54.92 64.71 17.54 59.45 77.99 31.07 53.26 22.15 14.52 34.36 44.61 77.06 50.47 45.24 5.68
2020 Sul Rocinha 52.27 68.69 68.66 78.11 37.80 90.18 43.53 50.63 24.13 61.61 37.74 44.60 60.89 51.67 64.04 1.81
2020 Norte Jacarezinho 45.15 54.61 37.52 85.73 21.52 73.69 37.11 41.14 0.00 73.51 33.80 43.72 58.33 42.94 71.29 2.34
2020 Norte Complexo Do Alemão 43.68 57.18 51.47 92.98 39.64 44.62 36.94 31.00 12.85 64.32 39.59 36.93 44.41 39.29 63.52 0.52
2020 Norte Maré 47.20 66.22 54.12 82.18 69.04 59.56 34.85 33.74 15.34 75.46 14.86 40.52 46.13 52.13 61.57 2.26
2020 Norte Vigário Geral 54.93 72.03 54.17 88.64 71.39 73.91 45.77 46.77 36.45 55.32 44.55 46.99 56.26 48.21 70.56 12.94
2020 Oeste Realengo 55.76 72.07 64.96 87.40 81.21 54.72 43.49 65.58 42.68 39.23 26.47 51.70 50.41 66.58 68.86 20.97
2020 Oeste Cidade De Deus 47.84 73.68 55.73 93.43 65.41 80.15 31.47 40.38 23.50 26.84 35.17 38.37 55.32 25.47 68.20 4.50

3. Dicionário de dados - codebook

codebook = data.frame(
variável = c("ano","zona",                                      
"regiao_administrativa",                      "ips_geral",                                 
"necessidades_humanas_basicas_nota_dimensao", "nutricao_cuidados_medicos_basicos"         
,"agua_saneamento"                 ,           "moradia"                                   
,"seguranca_pessoal"              ,            "fundamentos_bem_estar_nota_dimensao"       
, "acesso_conhecimento_basico"   ,              "acesso_informacao"                         
, "saude_bem_estar"             ,               "qualidade_meio_ambiente"                   
, "oportunidades_nota_dimensao",                "direitos_individuais"                      
, "liberdades_individuais",                     "tolerancia_inclusao"                       
, "acesso_educacao_superior" ),descrição = c("ano de referencia","zona da cidade","regiao adm da prefeitura", "índice de progressão social",
              "necessidades humanas básicas", "acesso à cuidados médicos básicos", "saneamento básico", "moradia",
              "segurança", "fundamentos do bem estar","acesso ao conhecimento básico", "acesso à informação", "saúde",
              "qualidade do meio ambiente", "oportunidades", "direitos individuais", "liberdades individuais", "inclusão social",
              "acesso ao ensino superior"))

codebook %>% flextable()

variável

descrição

ano

ano de referencia

zona

zona da cidade

regiao_administrativa

regiao adm da prefeitura

ips_geral

índice de progressão social

necessidades_humanas_basicas_nota_dimensao

necessidades humanas básicas

nutricao_cuidados_medicos_basicos

acesso à cuidados médicos básicos

agua_saneamento

saneamento básico

moradia

moradia

seguranca_pessoal

segurança

fundamentos_bem_estar_nota_dimensao

fundamentos do bem estar

acesso_conhecimento_basico

acesso ao conhecimento básico

acesso_informacao

acesso à informação

saude_bem_estar

saúde

qualidade_meio_ambiente

qualidade do meio ambiente

oportunidades_nota_dimensao

oportunidades

direitos_individuais

direitos individuais

liberdades_individuais

liberdades individuais

tolerancia_inclusao

inclusão social

acesso_educacao_superior

acesso ao ensino superior

4. Número de observações (número de linhas do banco de dados)

A base de dados que vamos utilizar para a análise possui 33 linhas e 19 colunas. Dentre elas, temos 17 variáveis quantitativas e 2 variáveis qualitativas. Eliminamos a linha da variável “ips_geral” para otimizar as demonstrações gráficas.

IPSData = IPSData %>% filter(zona !='Geral')

5. Metodologia - parte teórica

Como a proposta deste trabalho é a representação e análise de dados pelo software R, não precisamos discutir sobre o programa a ser utilizado. Por ser um ambiente livre, ele nos proporciona a autonomia na programação. No ambiente do software utilizamos uma ferramenta muito importante, o R-Markdown, que permite escolher o output de suas análises no R .

As Variáveis de interesse utilizado no estudo são:

• Acesso ao conhecimento básico;

• Acesso à educação superior;

• Oportunidade;

• Acesso ao saneamento básico.

As Hipóteses de interesse utilizado no estudo são:

• Se moradores das zonas-RJ tiveram acesso ao conhecimento básico;

• Se os moradores das zonas-RJ tiveram acesso à educação superior;

• Se os moradores das zonas-RJ tiveram acesso às oportunidades;

• Se os moradores das zonas-RJ tiveram acesso ao saneamento básico;

• Se o acesso ao saneamento básico nas zonas-RJ interfere no conhecimento básico.

A Análise será apresentada por região, bem como seus comparativos e interferência de uma variável sobre a outra estudada. Desta forma será permitido chegar às conclusões quais fatores podem interferir na progressão social e também comparar as regiões de acordo com seu desenvolvimento.

Faremos exposição das seguintes análises:

• Zona por conhecimento básico;

• Zona por conhecimento superior;

• Zona por oportunidade;

• Zona por saneamento básico;

• Saneamento por conhecimento básico.

Utilizaremos os seguintes métodos para análise:

• Análise Descritiva das variáveis utilizadas (média, mediana e desvio padrão);

• Histograma do IPS geral;

• Boxplots;

IPS por Zonas

Zona e Acesso à educação superior

Acesso à educação básica por zonas

Oportunidades por zonas

Saneamento básico por zonas

• Matriz de correlação;

• Diagrama de dispersão.

Apresentação e Possíveis Conclusões Obtidas

No final deste projeto apresentaremos os resultados obtidos sobre correlação entre a zona e as variáveis relacionadas à educação; e a resposta conclusiva sobre se o acesso ao saneamento básico influencia na educação sendo este demonstrado por meio do diagrama de dispersão e do teste de hipóteses. Além disso, teremos condições de observar o índice de correlação das variáveis agua_saneamento e acesso_conhecimento_basico, e o teste da seguinte hipótese para responder a pergunta: O acesso ao saneamento básico nas zonas/RJ interfere no conhecimento básico?

Fontes

Informações sobre o IPS:

https://basedosdados.org/dataset/57c5dc55-10cb-44f9-9f13-6a2fb24392ed?table=1ed7e730-dd1d-4b1c-bbcb-7ddf74541eb6

Estudo sobre a relação entre saneamento e educação:

https://tratabrasil.org.br/pesquisa-trata-brasil-saneamento-educacao-trabalho-e-turismo/

6. Metodologia - parte prática

Histograma

hist(IPSData$ips_geral, col = "lightblue",ylim = c(0,30), main = "Histograma do IPS Geral", labels = TRUE, freq = TRUE, border = "lightblue", xlab = "IPS Geral", ylab = "Quantidade")

O histograma do IPS Geral é uma representação da distribuição da quantidade de bairros de acordo com o ips geral. Podemos observar que a maior parte dos bairros possue um IPS entre 50 e 60. Sua simetria é classificada como assimétrica à direita.

Boxplots

# IPS por Zonas
boxplot(ips_geral ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), 
        main="Boxplot 1 \n IPS Total por Zonas \n", ylab = "IPS", xlab = "Zonas do Rio de Janeiro")

No primeiro boxplot, temos a relação das variáveis Zona e Ips_geral. Através dele é possível verificar que a região da zona central possui um dos IPS mais baixos de todas as regiões e a zona sul possui o maior IPS. A Zona Central tem uma assimetria negativa. Na Zona Norte, a assimetria é positiva. A Zona Oeste é a que mais se aproxima de uma simetria. A Zona Sul possui uma grande dispersão, pois seu intervalo interquatílico são muito significante, e sua assimetria é negativa. Nesse gráfico não temos outliers.

# Zona e Acesso à educação básica
boxplot(acesso_conhecimento_basico ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), 
        main="Boxplot 2 \n Acesso à educação básica \n", ylab = "Índice de acesso à educação básica", xlab = "Zonas")

No segundo boxplot, temos a relação entre as variáveis Zona e Acesso_conhecimento_basico. O maior índice de educação básica é do bairro Santa Teresa, que pertence à região central. A Zona Norte é a região com os índices de educação básica mais baixos. A Zona Norte possui grande simetria. Nesse gráfico não temos outliers.

# Zona e Acesso à educação superior
boxplot(acesso_educacao_superior ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), 
        main="Boxplot 3 \n Acesso ao ensino superior \n", ylab = "Índice de acesso ao ensino superior", xlab = "Zonas do Rio de Janeiro")

O terceiro boxplot representa a relação entre as variáveis Zona e Acesso_educacao_superior. A Zona Sul é a região com o maior índice de acesso ao ensino superior, porém também é a zona com a maior distribuição, pois apesar da concentração dos bairros se encontrar no topo do gráfico, a sua calda se extende até a parte inferior. Embora a região com o menor índice seja a Zona Norte, todos os bairros da Zona Oeste se encontram abaixo de 40, com exceção de um outlier. A Zona Norte também possui um outlier.

# Oportunidades
boxplot( oportunidades_nota_dimensao ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), 
        main="Boxplot 4 \n Oportunidades \n", ylab = "Oportunidades", xlab = "Zonas")

No quarto boxplot temos a relação Oportunidades por Zona e, a partir de sua análise, observamos que a Zona Sul se destaca com os maiores índices, seguida da Zona Norte. A região central possui os índices de oportunidades mais baixos. Nesse gráfico não temos outliers.

# Saneamento básico
boxplot( agua_saneamento ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"), 
         main="Boxplot 5 \n Acesso ao saneamento básico \n", ylab = "Nível de saneamento dos bairros", xlab = "Zonas")

No quinto e último boxplot, temos a relação das variáveis agua_saneamento e zona. A Zona Sul é a região com o maior índice de sanemanto básico. Apesar o máximo da zona central estar abaixo do máximo da zona oeste, esta possui muitos bairros com índices abaixo de 60. Essa zona também possui simetria.

Matriz de correlação

library(corrplot)
## corrplot 0.92 loaded
IPSData %>% select(acesso_conhecimento_basico,acesso_educacao_superior,oportunidades_nota_dimensao,agua_saneamento) %>% 
  cor() %>% corrplot(method = "circle")

De acordo com a matriz de correlação das variáveis acesso_conhecimento_basico,acesso_educacao_superior,oportunidades_nota_dimensao,agua_saneamento, as variáves que possuem a correlação mais forte são acesso_educacao_superior e oportunidades_nota_dimensao. Essa correlação é positiva e forte, ou seja, quanto maior o grau de instrução, mais oportunidades os indivíduos terão.

Existe impacto do saneamento básico na educação?

Segundo a matriz de correlação essas variáveis não possuem relação, porém vamos conferir a veracidade dessa afirmação por outros métodos.

Índice de correlação das variáveis

cor(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento)
## [1] -0.007066667
# resultado = -0.007066667

O valor absoluto da correlação é próximo de 0, o que indica uma correlação fraca entre as variáveis. O valor negativo indica uma correlação negativa fraca. Isso significa que, em geral, quando a variável “acesso_conhecimento_basico” aumenta, a variável “agua_saneamento” tende a diminuir levemente, e vice-versa. No entanto, a correlação é tão próxima de zero que essa relação é praticamente inexistente.

Diagrama de dispersão

plot(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento, col="orange",
     pch=19,main="Diagrama de dispersão",
     xlab="Acesso à educação",
     ylab="Saneamento")
abline(lsfit(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento),col="purple")

A partir da análise do diagrama de dispersão podemos concluir que as variáveis agua_saneamento e acesso_conhecimento_basico possuem relação fraca, quase inexistente. Há uma ausência de relação linear entre as variáveis. Por fim, o teste de hipóteses trará a conclusão final.