Ethienne Cruz – 20222520003 – Isabel Lengruber – 20211520018 – Maria Carolina de Lima – 20222520044 – Reyson Gomes Thiago Vieira – 20222520027 –

library(readxl)
library(readr)
library(flextable)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(kableExtra)
## Warning in !is.null(rmarkdown::metadata$output) && rmarkdown::metadata$output
## %in% : 'length(x) = 2 > 1' in coercion to 'logical(1)'
## 
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows
## The following objects are masked from 'package:flextable':
## 
##     as_image, footnote
library(shinythemes)

Folha de Rosto

Sumário executivo

Trabalho de conclusão da matéria Estatística aplicada às ciências sociais apresentado como um dos requisitos para aprovação na matéria.

Fonte dos dados

A fonte utilizada foi uma base de dados do IPS Rio, que contém informações sobre população, indicadores sociais e econômicos dos bairros cariocas, com cobertura temporal de 2016 a 2020, porém neste trabalho vamos analisar apenas os dados do ano de 2020.

Link da fonte: https://basedosdados.org/dataset/57c5dc55-10cb-44f9-9f13-6a2fb24392ed?table=d5751ecb-5d8c-4c74-934b-2a715dbc2450

Carregando a base de dados

IPSData <- read.csv("/Users/Marcos/Downloads/dimensoes_componentes_editado_2020(excel).csv")
   View(IPSData)
kable(IPSData, row.names = FALSE)%>%
  kable_styling( full_width = T,bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                 position = "center", fixed_thead = T) %>%
  scroll_box(width = "900px", height = "600px")
ano zona regiao_administrativa ips_geral necessidades_humanas_basicas_nota_dimensao nutricao_cuidados_medicos_basicos agua_saneamento moradia seguranca_pessoal fundamentos_bem_estar_nota_dimensao acesso_conhecimento_basico acesso_informacao saude_bem_estar qualidade_meio_ambiente oportunidades_nota_dimensao direitos_individuais liberdades_individuais tolerancia_inclusao acesso_educacao_superior
2020 Geral Rio De Janeiro 60.79 74.13 66.12 83.68 79.57 67.14 51.63 66.19 50.89 53.08 36.37 56.62 54.33 62.72 77.05 32.36
2020 Centro Portuaria 42.06 59.67 64.32 80.80 71.06 22.49 36.00 59.51 20.73 19.20 44.55 30.52 25.66 50.76 40.23 5.43
2020 Centro Centro 55.59 59.23 56.64 74.18 91.60 14.52 50.26 61.97 56.00 37.26 45.82 57.26 41.68 87.28 51.84 48.26
2020 Norte Rio Comprido 55.50 68.27 72.61 84.36 73.29 42.82 50.81 68.72 42.08 39.33 53.10 47.42 37.76 60.82 68.64 22.48
2020 Sul Botafogo 85.03 91.66 89.92 98.49 99.07 79.18 77.09 80.70 86.52 78.58 62.56 86.32 56.63 89.80 99.48 99.39
2020 Sul Copacabana 80.23 92.03 92.01 99.32 96.84 79.97 68.93 77.01 81.95 72.40 44.36 79.73 56.72 80.14 98.53 83.53
2020 Sul Lagoa 79.02 85.05 67.40 98.86 96.28 77.66 70.24 69.58 89.06 75.07 47.23 81.76 50.12 96.77 98.57 81.59
2020 Norte São Cristovão 51.86 69.14 65.35 86.36 74.47 50.36 40.80 66.57 34.65 31.01 30.98 45.63 50.37 52.92 62.40 16.83
2020 Norte Tijuca 71.61 85.47 85.23 84.62 95.54 76.49 51.37 58.84 80.32 18.84 47.48 78.00 51.76 85.53 95.88 78.82
2020 Norte Vila Isabel 73.05 82.68 68.21 94.21 87.11 81.17 64.52 62.50 74.99 65.02 55.58 71.95 57.34 65.11 92.14 73.20
2020 Norte Ramos 57.04 72.69 64.90 94.92 70.96 59.99 45.63 51.91 52.42 40.99 37.20 52.79 57.34 52.68 76.76 24.39
2020 Norte Penha 56.96 74.39 43.14 97.56 85.59 71.27 45.01 56.40 43.90 49.68 30.08 51.49 51.27 51.93 79.57 23.19
2020 Norte Inhaúma 56.92 74.43 64.39 92.05 83.13 58.16 38.92 42.06 45.07 38.13 30.40 57.41 59.00 63.36 76.47 30.81
2020 Norte Méier 64.61 77.15 64.71 91.26 88.36 64.28 55.32 58.57 64.58 51.50 46.61 61.37 47.76 65.29 84.63 47.82
2020 Norte Iraja 64.57 79.80 66.97 97.73 90.95 63.56 50.33 62.03 54.65 53.61 31.04 63.58 57.00 75.16 84.04 38.14
2020 Norte Madureira 55.61 68.86 53.76 89.36 82.89 49.43 45.89 46.84 45.83 47.33 43.56 52.08 50.03 58.83 74.38 25.08
2020 Oeste Jacarepaguá 61.94 74.38 73.37 68.78 73.59 81.76 52.36 59.65 54.36 55.89 39.56 59.07 57.85 64.54 79.79 34.08
2020 Oeste Bangu 51.84 70.87 66.52 89.96 74.32 52.69 37.74 54.89 33.54 29.48 33.04 46.90 51.39 51.57 70.19 14.45
2020 Oeste Campo Grande 58.68 77.91 70.78 78.76 76.78 85.31 42.89 61.34 40.10 37.71 32.40 55.24 61.65 60.83 79.22 19.26
2020 Oeste Santa Cruz 50.82 71.47 57.91 71.21 65.96 90.79 31.87 54.53 18.98 38.62 15.34 49.11 77.58 41.51 71.03 6.31
2020 Norte Ilha Do Governador 62.97 78.37 67.06 89.27 87.80 69.35 50.89 64.99 57.87 60.86 19.82 59.64 49.11 62.51 83.26 43.68
2020 Norte Anchieta 55.72 72.83 74.81 86.42 76.82 53.29 42.92 45.22 36.94 51.63 37.90 51.39 56.59 63.67 68.30 17.01
2020 Centro Santa Teresa 63.26 77.57 81.49 84.64 81.14 63.03 64.04 82.54 59.89 63.44 50.28 48.16 18.80 69.64 69.94 34.25
2020 Oeste Barra Da Tijuca 69.70 70.61 78.49 50.75 84.87 68.34 67.87 73.69 78.51 73.12 46.15 70.62 52.94 78.85 82.94 67.74
2020 Norte Pavuna 42.97 60.94 51.21 87.31 64.53 40.71 27.58 33.39 26.54 49.49 0.89 40.38 45.28 49.89 55.39 10.97
2020 Oeste Guaratiba 43.54 54.92 64.71 17.54 59.45 77.99 31.07 53.26 22.15 14.52 34.36 44.61 77.06 50.47 45.24 5.68
2020 Sul Rocinha 52.27 68.69 68.66 78.11 37.80 90.18 43.53 50.63 24.13 61.61 37.74 44.60 60.89 51.67 64.04 1.81
2020 Norte Jacarezinho 45.15 54.61 37.52 85.73 21.52 73.69 37.11 41.14 0.00 73.51 33.80 43.72 58.33 42.94 71.29 2.34
2020 Norte Complexo Do Alemão 43.68 57.18 51.47 92.98 39.64 44.62 36.94 31.00 12.85 64.32 39.59 36.93 44.41 39.29 63.52 0.52
2020 Norte Maré 47.20 66.22 54.12 82.18 69.04 59.56 34.85 33.74 15.34 75.46 14.86 40.52 46.13 52.13 61.57 2.26
2020 Norte Vigário Geral 54.93 72.03 54.17 88.64 71.39 73.91 45.77 46.77 36.45 55.32 44.55 46.99 56.26 48.21 70.56 12.94
2020 Oeste Realengo 55.76 72.07 64.96 87.40 81.21 54.72 43.49 65.58 42.68 39.23 26.47 51.70 50.41 66.58 68.86 20.97
2020 Oeste Cidade De Deus 47.84 73.68 55.73 93.43 65.41 80.15 31.47 40.38 23.50 26.84 35.17 38.37 55.32 25.47 68.20 4.50


2. INTRODUÇÃO

No Brasil, a desigualdade social é um fato que favorece um grupo pequeno de cidadãos, a maioria da população tem os recursos limitados e as necessidades básicas não sanadas. Esse aspecto é visto em todos os Estados do território brasileiro, sendo a região Norte e Nordeste as mais afetadas com essa concentração de renda, o que não significa que as outras regiões não são afetadas fortemente com este problema.
 
Em todos os estados há favelização, desigualdade alimentar, falta de saneamento básico, falta de acesso à educação superior e ao conhecimento básico o que faz com que o Brasil ocupe o 8º lugar no ranking mundial da desigualdade social de acordo com a ONU.
  
Ao analisar um determinado território pode se deparar com indicadores sócio ambientais que pode mostrar a desigualdade social, bem como a origem da mesma. Surge, então, o questionamento como esses indicadores e em que grau pode interferir no progresso Social.
Apesar deste cenário, há a expectativa que o progresso social seja vivido por todos. A política sócio econômica de um país deve impulsionar a evolução da sociedade em direção a um cenário ideal e proporcionar um melhor padrão de vida aos indivíduos ao ponto de ter às necessidades elementares bem atendidas.

É possível medir o Índice de Progresso Social (IPS) de uma região ao abordar e mensurar indicadores e compará-los à outras regiões em escala global. Vale ressaltar que se mede o quanto houve avanço no desenvolvimento social, mas nesta análise não é considerada a economicidade da região. O IPS permite analisar o desenvolvimento social e relacionar às suas disparidades geográficas.
  
Este levantamento foi realizado em diversos países. No Brasil, a definição de indicadores foi realizada por meio de processos participativos que envolveu o governo, universidades e o Instituto de Pesquisa Pereira Passos (IPP). 
  
O IPP foi o organizador desta pesquisa, a qual tem a cobertura temporal do ano de 2016 a 2020. Porém, neste trabalho apresentaremos amostras apenas o ano de 2020.
  
Neste levantamento, observa-se a mensuração direta do desenvolvimento humano a partir de indicadores selecionados em 3 dimensões e 12 componentes definidos globalmente. São estas dimensões as necessidades humanas básicas, os fundamentos do bem estar e a oportunidade. As quais podem ser vistas com seus agrupamentos a seguir.



3. Objetivos

Este trabalho visa apresentar a análise de dados proveniente do levantamento do índice de progresso (IPS) da cidade do Rio de Janeiro e apresentar a conclusão de como uma variável urbana pode contribuir ou não no desenvolvimento das regiões administrativas: zona norte, zona sul e zona oeste e desse jeito conhecer as demandas e proporcionar conteúdo acadêmico para nortear políticas públicas.
  
4. Marco Teórico

O levantamento de dados deu-se primeiro pela seleção dos componentes e dimensões a serem estudadas e foi realizada pelo Social Progress Imperative com apoio de acadêmicos na Universidade de Havard e do Massachusetts Institute of Technology com o objetivo de cobrir uma gama abrangente de temas.

Deste levantamento surgiu o banco de dados do IPS Rio o qual substanciou toda a presente análise.

Na comparação entre os resultados de 2018 e 2020, houve um aumento da pontuação em duas dimensões: Necessidades Humanas Básicas, de 73,49 para 74,13 pontos, e Fundamentos do Bem-Estar, de 50,45 para 51,63 pontos. Em Oportunidades, a cidade apresentou uma queda de 1,98 pontos, caindo de 58,60 para 56,62 pontos. Entre os doze componentes do IPS, apenas dois tiveram melhorias. 

Apesar de existir na bibliografia um grande volume de conteúdo e análise do IPS Rio, o qual vemos em parte neste marco teórico, o nosso objetivo é discutir a correlação de alguns componentes com a educação da cidade do Rio de Janeiro e o quanto o acesso do saneamento contribui ao conhecimento básico da educação.
  
# 5.Metodologia

  _Etapa 1- A Escolha da Base de Dados_
  
  Nesta etapa escolhemos a melhor base conforme riqueza de dados e aplicabilidade para análise estatística. Buscamos uma base com muitas variáveis e bem apresentada, além de prezarmos pela origem e confiabilidade da fonte.
  Após esta vasta pesquisa e análise decidimos apresentar e analisar os fatores sobre o índice de Progressão social (IPS) da cidade do Rio de Janeiro. 
Nesta base, observa-se a mensuração direta do desenvolvimento humano a partir de indicadores selecionados em 3 dimensões e 12 componentes definidos globalmente.
  Nela é observável como cada região consegue prover condições mínimas a seus habitantes. O interesse é medir o investimento com indicadores de resultados, como a exposição à violência, o nível de bem estar social, o acesso a serviços básicos como de saúde e também à educação, dentre outros, permitindo assim o comparativo à cada região. 
  
  A metodologia do levantamento de dados deu-se primeiro pela seleção dos componentes e dimensões a serem estudadas e foi realizada pelo Social Progress Imperative com apoio de acadêmicos na Universidade de Havard e do Massachusetts Institute of Technology com o objetivo de cobrir uma gama abrangente de temas. 
  Este levantamento foi realizado em diversos países. No Brasil, a definição de indicadores foi realizada por meio de processos participativos que envolveu o governo, universidades e o Instituto de Pesquisa Pereira Passos (IPP). 
O IPP foi o organizador desta pesquisa, a qual tem a cobertura temporal do ano de 2016 a 2020. Porém, neste trabalho apresentaremos amostras apenas do ano de 2020.

  _Etapa 2- Tratamento dos Dados_
 
  Como a proposta deste trabalho é a representação e análise de dados pelo software R, não precisamos discutir sobre o programa a ser utilizado. Por ser um ambiente livre, ele nos proporciona a autonomia na programação. 
No ambiente do software utilizamos uma ferramenta muito importante, o R-Markdown, que permite escolher o output de suas análises no RStudio.

# 5.1. Descrição da Base de Dados

  Como a proposta deste trabalho é a representação e análise de dados pelo software R, não precisamos discutir sobre o programa a ser utilizado. Por ser um ambiente livre, ele nos proporciona a autonomia na programação. 
  No ambiente do software utilizamos uma ferramenta muito importante, o R-Markdown, que permite escolher o output de suas análises no RStudio.
  
  a)    Descrição de todas as variáveis da base de dados (dicionário de dados - codebook)
  

```r
codebook = data.frame(
variável = c("ano","zona",                                      
"regiao_administrativa",                      "ips_geral",                                 
"necessidades_humanas_basicas_nota_dimensao", "nutricao_cuidados_medicos_basicos"         
,"agua_saneamento"                 ,           "moradia"                                   
,"seguranca_pessoal"              ,            "fundamentos_bem_estar_nota_dimensao"       
, "acesso_conhecimento_basico"   ,              "acesso_informacao"                         
, "saude_bem_estar"             ,               "qualidade_meio_ambiente"                   
, "oportunidades_nota_dimensao",                "direitos_individuais"                      
, "liberdades_individuais",                     "tolerancia_inclusao"                       
, "acesso_educacao_superior" ),descrição = c("ano de referencia","zona da cidade","regiao adm da prefeitura", "índice de progressão social",
              "necessidades humanas básicas", "acesso à cuidados médicos básicos", "saneamento básico", "moradia",
              "segurança", "fundamentos do bem estar","acesso ao conhecimento básico", "acesso à informação", "saúde",
              "qualidade do meio ambiente", "oportunidades", "direitos individuais", "liberdades individuais", "inclusão social",
              "acesso ao ensino superior"))

codebook %>% flextable()

variável

descrição

ano

ano de referencia

zona

zona da cidade

regiao_administrativa

regiao adm da prefeitura

ips_geral

índice de progressão social

necessidades_humanas_basicas_nota_dimensao

necessidades humanas básicas

nutricao_cuidados_medicos_basicos

acesso à cuidados médicos básicos

agua_saneamento

saneamento básico

moradia

moradia

seguranca_pessoal

segurança

fundamentos_bem_estar_nota_dimensao

fundamentos do bem estar

acesso_conhecimento_basico

acesso ao conhecimento básico

acesso_informacao

acesso à informação

saude_bem_estar

saúde

qualidade_meio_ambiente

qualidade do meio ambiente

oportunidades_nota_dimensao

oportunidades

direitos_individuais

direitos individuais

liberdades_individuais

liberdades individuais

tolerancia_inclusao

inclusão social

acesso_educacao_superior

acesso ao ensino superior

  1. O tamanho da amostra (número de linhas do banco de dados), n.

A base de dados que vamos utilizar para a análise possui 33 linhas e 19 colunas. Dentre elas, temos 17 variáveis quantitativas e 2 variáveis qualitativas. Eliminamos a linha da variável “ips_geral” para otimizar as demonstrações gráficas.

  1. Como foram construídos os indicadores

Como a proposta deste trabalho é a representação e análise de dados pelo software R, não precisamos discutir sobre o programa a ser utilizado. Por ser um ambiente livre, ele nos proporciona a autonomia na programação. No ambiente do software utilizamos uma ferramenta muito importante, o R-Markdown, que permite escolher o output de suas análises no R .

As Variáveis de interesse utilizado no estudo são:

• Acesso ao conhecimento básico;

• Acesso à educação superior;

• Oportunidade;

• Acesso ao saneamento básico.

As Hipóteses de interesse utilizado no estudo são:

• Se moradores das zonas-RJ tiveram acesso ao conhecimento básico;

• Se os moradores das zonas-RJ tiveram acesso à educação superior;

• Se os moradores das zonas-RJ tiveram acesso às oportunidades;

• Se os moradores das zonas-RJ tiveram acesso ao saneamento básico;

• Se o acesso ao saneamento básico nas zonas-RJ interfere no conhecimento básico.

A Análise será apresentada por região, bem como seus comparativos e interferência de uma variável sobre a outra estudada. Desta forma será permitido chegar às conclusões quais fatores podem interferir na progressão social e também comparar as regiões de acordo com seu desenvolvimento.

Faremos exposição das seguintes análises:

• Conhecimento básico por zona;

• Conhecimento superior por zona;

• Oportunidade por zona;

• Saneamento básico por zona;

• Conhecimento básico por saneamento.

Utilizaremos os seguintes métodos para análise:

• Análise Descritiva das variáveis utilizadas (média, mediana e desvio padrão);

• Histograma do IPS geral;

• Boxplots;

• Matriz de correlação;

• Diagrama de dispersão;

• Teste de Hipóteses.

Estudo sobre a relação entre saneamento e educação:

https://tratabrasil.org.br/pesquisa-trata-brasil-saneamento-educacao-trabalho-e-turismo/

Análise de resultados

Análise Preliminar

Achando a média, mediana e desvio-padrão das variáveis:

  • Acesso ao conhecimento básico;

  • Acesso à educação superior;

  • Oportunidade;

  • Acesso ao saneamento básico.

Acesso ao Conhecimento Básico

mean(IPSData$acesso_conhecimento_basico)
## [1] 57.03455
median(IPSData$acesso_conhecimento_basico)
## [1] 58.84
sd(IPSData$acesso_conhecimento_basico)
## [1] 13.20953

Resultado obtido

Média : 57,0345

Mediana : 58,84

Desvio Padrão : 13,20953

Com base nos resultados apresentados, podemos dizer que há uma distribuição um pouco assimétrica à esquerda, com alguns valores abaixo da média puxando-a para baixo. Além disso, o desvio padrão de 13,2 indica que os valores estão dispersos ao redor da média.

Média, mediana e desvio padrão da variavél Acesso à Educação Superior

mean(IPSData$acesso_educacao_superior)
## [1] 31.21485
median(IPSData$acesso_educacao_superior)
## [1] 23.19
sd(IPSData$acesso_educacao_superior)
## [1] 27.44889

Resultado obtido

Média : 31,21485

Mediana : 23,19

Desvio Padrão : 27,44889

Como uma média de 31,21 e mediana em 23,19, entendemos que há uma distribuição um tanto assimétrica à direita, com alguns valores acima da mediana puxando-a para cima. Além disso, o desvio padrão de 27,44 indica que os valores estão relativamente dispersos ao redor da média, indicando uma variabilidade significativa nos dados obtidos.

Média, mediana e desvio padrão da variavél Oportunidades

mean(IPSData$acesso_educacao_superior)
## [1] 31.21485
median(IPSData$acesso_educacao_superior)
## [1] 23.19
sd(IPSData$acesso_educacao_superior)
## [1] 27.44889

Resultado obtido

Média : 31,21485

Mediana : 23,19

Desvio Padrão : 27,4489

Com base nos resultados apresentados, podemos dizer que a média de oportunidades é de 54,6, enquanto a mediana é de 51,7. Isso sugere uma distribuição um tanto assimétrica à direita, com alguns valores acima da mediana puxando-a para cima. Além disso, o desvio padrão de 13,58404 indica que os valores estão relativamente dispersos ao redor da média, o que indica pouca variabilidade de Oportunidades.

Média, mediana e desvio padrão da variavél Acesso ao saneamento Básico

mean(IPSData$acesso_educacao_superior)
## [1] 31.21485
median(IPSData$acesso_educacao_superior)
## [1] 23.19
sd(IPSData$acesso_educacao_superior)
## [1] 27.44889

Média : 84,26879

Mediana : 87,31

Desvio Padrão : 15,59991

Com os resultados obtidos da média e mediana podemos concluir que há uma distribuição um tanto assimétrica à esquerda, com alguns valores abaixo da mediana puxando-a para baixo. Além disso, o desvio padrão de 15,59 indica que os valores estão relativamente dispersos ao redor da média, indicando baixa variabilidade da variável Acesso ao Saneamento Básico.

Demonstração de resultados

Histograma

IPSData = IPSData %>% filter(zona !='Geral')
hist(IPSData$ips_geral, col = "lightblue",ylim = c(0,30), main = "Histograma do IPS Geral", labels = TRUE, freq = TRUE, border = "lightblue", xlab = "IPS Geral", ylab = "Quantidade")

O histograma do IPS Geral é uma representação da distribuição da quantidade de bairros de acordo com o ips geral. Podemos observar que a maior parte dos bairros possue um IPS entre 50 e 60. Sua simetria é classificada como assimétrica à direita.

Boxplots

# IPS por Zonas
boxplot(ips_geral ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"), 
        main="Boxplot 1 \n IPS Total por Zonas \n", ylab = "IPS", xlab = "Zonas do Rio de Janeiro")

No primeiro boxplot, temos a relação das variáveis Zona e Ips_geral. Através dele é possível verificar que a região da zona central possui um dos IPS mais baixos de todas as regiões e a zona sul possui o maior IPS. A Zona Central tem uma assimetria negativa. Na Zona Norte, a assimetria é positiva. A Zona Oeste é a que mais se aproxima de uma simetria. A Zona Sul possui uma grande dispersão, pois seu intervalo interquatílico são muito significante, e sua assimetria é negativa. Nesse gráfico não temos outliers.

# Zona e Acesso à educação básica
boxplot(acesso_conhecimento_basico ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"), 
        main="Boxplot 2 \n Acesso à educação básica \n", ylab = "Índice de acesso à educação básica", xlab = "Zonas")

No segundo boxplot, temos a relação entre as variáveis Zona e Acesso_conhecimento_basico. O maior índice de educação básica é do bairro Santa Teresa, que pertence à região central. A Zona Norte é a região com os índices de educação básica mais baixos. A Zona Norte possui grande simetria. Nesse gráfico não temos outliers.

# Zona e Acesso à educação superior
boxplot(acesso_educacao_superior ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"), 
        main="Boxplot 3 \n Acesso ao ensino superior \n", ylab = "Índice de acesso ao ensino superior", xlab = "Zonas do Rio de Janeiro")

O terceiro boxplot representa a relação entre as variáveis Zona e Acesso_educacao_superior. A Zona Sul é a região com o maior índice de acesso ao ensino superior, porém também é a zona com a maior distribuição, pois apesar da concentração dos bairros se encontrar no topo do gráfico, a sua calda se extende até a parte inferior. Embora a região com o menor índice seja a Zona Norte, todos os bairros da Zona Oeste se encontram abaixo de 40, com exceção de um outlier. A Zona Norte também possui um outlier.

# Oportunidades
boxplot( oportunidades_nota_dimensao ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"), 
        main="Boxplot 4 \n Oportunidades \n", ylab = "Oportunidades", xlab = "Zonas")

No quarto boxplot temos a relação Oportunidades por Zona e, a partir de sua análise, observamos que a Zona Sul se destaca com os maiores índices, seguida da Zona Norte. A região central possui os índices de oportunidades mais baixos. Nesse gráfico não temos outliers.

# Saneamento básico
boxplot( agua_saneamento ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"), 
         main="Boxplot 5 \n Acesso ao saneamento básico \n", ylab = "Nível de saneamento dos bairros", xlab = "Zonas")

No quinto e último boxplot, temos a relação das variáveis agua_saneamento e zona. A Zona Sul é a região com o maior índice de sanemanto básico. Apesar o máximo da zona central estar abaixo do máximo da zona oeste, esta possui muitos bairros com índices abaixo de 60. Essa zona também possui simetria.

Matriz de correlação

library(corrplot)
## corrplot 0.92 loaded
IPSData %>% select(acesso_conhecimento_basico,acesso_educacao_superior,oportunidades_nota_dimensao,agua_saneamento) %>% 
  cor() %>% corrplot(method = "circle")

De acordo com a matriz de correlação das variáveis acesso_conhecimento_basico,acesso_educacao_superior,oportunidades_nota_dimensao,agua_saneamento, as variáves que possuem a correlação mais forte são acesso_educacao_superior e oportunidades_nota_dimensao. Essa correlação é positiva e forte, ou seja, quanto maior o grau de instrução, mais oportunidades os indivíduos terão.

Existe impacto do saneamento básico na educação?

Segundo a matriz de correlação essas variáveis não possuem relação, porém vamos conferir a veracidade dessa afirmação por outros métodos.

Índice de correlação das variáveis

cor(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento)
## [1] -0.007066667
# resultado = -0.007066667

O valor absoluto da correlação é próximo de 0, o que indica uma correlação fraca entre as variáveis. O valor negativo indica uma correlação negativa fraca. Isso significa que, em geral, quando a variável “acesso_conhecimento_basico” aumenta, a variável “agua_saneamento” tende a diminuir levemente, e vice-versa. No entanto, a correlação é tão próxima de zero que essa relação é praticamente inexistente.

Diagrama de dispersão

plot(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento, col="orange",
     pch=19,main="Diagrama de dispersão",
     xlab="Acesso à educação",
     ylab="Saneamento")
abline(lsfit(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento),col="purple")

A partir da análise do diagrama de dispersão podemos concluir que as variáveis agua_saneamento e acesso_conhecimento_basico possuem relação fraca, quase inexistente. Há uma ausência de relação linear entre as variáveis. Por fim, o teste de hipóteses trará a conclusão final.

Teste de Hipóteses

  1. Os moradores das zonas/RJ tiveram acesso ao conhecimento básico?
  2. Os moradores das zonas/RJ tiveram acesso a educação superior?
  3. Os moradores das zonas/RJ tiveram acesso à oportunidades ?
  4. Os moradores das zonas/RJ tiveram acesso ao saneamento básico?
  5. O acesso à saneamento básico nas zonas/RJ interfere no conhecimento básico?

1) Acesso ao conhecimento básico por zona

Avaliando Pressuposto de Normalidade

modelo = aov(acesso_conhecimento_basico ~ zona, data=IPSData)
residuos = residuals(modelo)

Hipótese 0: Os resíduos tem uma distribuição normal?

Hipótese 1: Os resíduos não tem uma distribuição normal

alpha: 0,05

se pvalor é <= a alpha REJEITA H0

se pvalor é > a alpha NÃO REJEITA H0

shapiro.test(residuos)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.9482, p-value = 0.1281

P-valor = 0.1281

Tem distribuição normal

pressuposto de normalidade atendido, NÃO REJEITA H0

Avaliando Igualdade de Variâncias

H0: variancia_T = variancia_NT

H1: variancia_T != variancia_NT

alpha: 0,05

bartlett.test(IPSData$acesso_conhecimento_basico~IPSData$zona)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  IPSData$acesso_conhecimento_basico by IPSData$zona
## Bartlett's K-squared = 0.54133, df = 3, p-value = 0.9097

p-value = 0.9097

pvalor maior que alpha

não rejeito H0

as 2 variancias são iguais

Avaliando Variâncias

ANOVA

summary(modelo)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## zona         3   1560   519.9   3.697 0.0233 *
## Residuals   28   3938   140.6                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

pvalor 0.0233

pvalor < alpha

Rejeito H0

As médias são diferentes

              Df Sum Sq Mean Sq F value Pr(>F)  

Zona 3 1560 519.9 3.697 0.0233 * Residuals 28 3938 140.6

Comparação par – a - par

TukeyHSD(modelo)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = acesso_conhecimento_basico ~ zona, data = IPSData)
## 
## $zona
##                    diff         lwr       upr     p adj
## Norte-Centro -16.789608 -37.0655886  3.486373 0.1318361
## Oeste-Centro -10.091667 -32.0117743 11.828441 0.5969673
## Sul-Centro     1.473333 -23.2558832 26.202550 0.9984303
## Oeste-Norte    6.697941  -7.1840739 20.579956 0.5599514
## Sul-Norte     18.262941   0.2697932 36.256089 0.0456750
## Sul-Oeste     11.565000  -8.2624834 31.392483 0.3989802

pvalor < alpha

Diferença significativa, rejeito H0

Zona Sul tem melhor índice de acesso ao conhecimento básico do que a zona Norte.

#‐‐——————————————————

2) Acesso a educação superior por zona

Avaliando Pressuposto de Normalidade

modelo1 = aov(acesso_educacao_superior ~ zona, data=IPSData)
residuos1 = residuals(modelo1)

Hipótese 0: Os resíduos tem uma distribuição normal?

Hipótese 1: Os resíduos não tem uma distribuição normal

alpha: 0,05

se pvalor é <= a alpha REJEITA H0

se pvalor é > a alpha NÃO REJEITA H0

shapiro.test(residuos1)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos1
## W = 0.95886, p-value = 0.2555

p-value = 0.2555

tem distribuição normal

pressuposto de normalidade atendido, NÃO REJEITA H0

Avaliando Igualdade de Variâncias

H0: variancia_T = variancia_NT

H1: variancia_T != variancia_NT

alpha: 0,05

bartlett.test(IPSData$acesso_educacao_superior~IPSData$zona)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  IPSData$acesso_educacao_superior by IPSData$zona
## Bartlett's K-squared = 3.1912, df = 3, p-value = 0.3631

p-value = 0.3631

pvalor maior que alpha

não rejeito H0

as 2 variancias são iguais

Avaliando Variâncias

Anova

summary(modelo1)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## zona         3   5962  1987.5   3.067 0.0442 *
## Residuals   28  18146   648.1                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

pvalor 0.0442

pvalor < alpha

Rejeito H0

As médias são diferentes

              Df Sum Sq Mean Sq F value Pr(>F)  

Zona 3 5962 1987.5 3.067 0.0442 * Residuals 28 18146 648.1

Comparação par – a – par

TukeyHSD(modelo1)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = acesso_educacao_superior ~ zona, data = IPSData)
## 
## $zona
##                   diff        lwr      upr     p adj
## Norte-Centro -1.638039 -45.164875 41.88880 0.9996018
## Oeste-Centro -7.689583 -54.745898 39.36673 0.9698215
## Sul-Centro   37.266667 -15.820015 90.35335 0.2441662
## Oeste-Norte  -6.051544 -35.852331 23.74924 0.9445609
## Sul-Norte    38.904706   0.278471 77.53094 0.0478767
## Sul-Oeste    44.956250   2.392212 87.52029 0.0354686

pvalor < alpha

Diferença significativa, rejeito H0

Zona Sul tem melhor índice de acesso à educação superior do que a Zona Oeste.

3) Oportunidade por zona

Avaliando Pressuposto de Normalidade

modelo2= aov(oportunidades_nota_dimensao ~ zona, data=IPSData)
residuos2 = residuals(modelo2)

Hipótese 0: Os resíduos tem uma distribuição normal?

Hipótese 1: Os resíduos não tem uma distribuição normal

alpha: 0,05

se pvalor é <= a alpha REJEITA H0

se pvalor é > a alpha NÃO REJEITA H0

shapiro.test(residuos2)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos2
## W = 0.99099, p-value = 0.9937

p-value = 0.9937

tem distribuição normal

pressuposto de normalidade atendido, NÃO REJEITA H0

Avaliando Pressuposto de Normalidade

H0: variancia_T = variancia_NT

H1: variancia_T != variancia_NT

alpha: 0,05

bartlett.test(IPSData$oportunidades_nota_dimensao~IPSData$zona)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  IPSData$oportunidades_nota_dimensao by IPSData$zona
## Bartlett's K-squared = 2.2657, df = 3, p-value = 0.5191

p-value = 0.5191

pvalor maior que alpha

Não rejeito H0

As 2 variancias são iguais

Avaliando Variâncias

Anova

summary(modelo2)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## zona         3   1727   575.5   3.861 0.0198 *
## Residuals   28   4174   149.1                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

pvalor 0.0198

pvalor < alpha

Rejeito H0

As médias são diferentes

             Df Sum Sq Mean Sq F value Pr(>F)  

Zona 3 1727 575.5 3.861 0.0198 * Residuals 28 4174 149.1

Comparação par – a – par

TukeyHSD(modelo2)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = oportunidades_nota_dimensao ~ zona, data = IPSData)
## 
## $zona
##                   diff         lwr      upr     p adj
## Norte-Centro  7.703725 -13.1718734 28.57932 0.7463366
## Oeste-Centro  6.639167 -15.9291806 29.20751 0.8523406
## Sul-Centro   27.789167   2.3286372 53.24970 0.0284340
## Oeste-Norte  -1.064559 -15.3571044 13.22799 0.9969518
## Sul-Norte    20.085441   1.5601849 38.61070 0.0297647
## Sul-Oeste    21.150000   0.7361618 41.56384 0.0401659

pvalor 0.028 < alpha

Diferença significativa, rejeito H0

Zona Sul tem melhores índice de oportunidades do que o Centro.

4) Saneamento por zona

Avaliando Pressuposto de Normalidade

modelo3 = aov(agua_saneamento ~ zona, data=IPSData)
residuos3 = residuals(modelo3)

Hipótese 0:Os resíduos tem uma distribuição normal?

Hipótese 1:Os resíduos não tem uma distribuição normal

alpha: 0,05

se pvalor é <= a alpha REJEITA H0

se pvalor é > a alpha NÃO REJEITA H0

shapiro.test(residuos3)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos3
## W = 0.81428, p-value = 7.652e-05

p-valor = 7.652e-05 (=0.00007652)

não possui distribuição normal, rejeito H0

Avaliando Pressuposto de Normalidade

H0: variancia_T = variancia_NT

H1: variancia_T != variancia_NT

alpha: 0,05

bartlett.test(IPSData$agua_saneamento~IPSData$zona)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  IPSData$agua_saneamento by IPSData$zona
## Bartlett's K-squared = 27.881, df = 3, p-value = 3.848e-06

p-value = 3.848e-06 (= 0,003848)

pvalor menor que alpha

rejeito H0

as 2 variancias são diferentes

Avaliando Variâncias

Anova

summary(modelo3)
##             Df Sum Sq Mean Sq F value  Pr(>F)   
## zona         3   2607   868.9   4.697 0.00886 **
## Residuals   28   5180   185.0                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

pvalor 0.00886**

pvalor < alpha

Rejeito H0

As médias são diferentes

             Df Sum Sq Mean Sq F value  Pr(>F)   

Zona 3 2607 868.9 4.697 0.00886** Residuals 28 5180 185.0

Comparação par – a – par

TukeyHSD(modelo3)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = agua_saneamento ~ zona, data = IPSData)
## 
## $zona
##                    diff        lwr       upr     p adj
## Norte-Centro   9.830196 -13.426067 33.086459 0.6599189
## Oeste-Centro -10.144583 -35.286636 14.997470 0.6914685
## Sul-Centro    13.821667 -14.542394 42.185728 0.5519372
## Oeste-Norte  -19.974779 -35.897254 -4.052305 0.0097517
## Sul-Norte      3.991471 -16.646415 24.629356 0.9515523
## Sul-Oeste     23.966250   1.224407 46.708093 0.0359927

pvalor 0.009 < alpha

Diferença significativa, rejeito H0

Zona Oeste tem menor índice acesso ao saneamento do que a Zona Norte.

5) Saneamento por conhecimento básico

Avaliando Pressuposto de Normalidade

modelo4 = aov(agua_saneamento ~ acesso_conhecimento_basico, data=IPSData)
residuos4 = residuals(modelo4)

Hipótese 0:Os resíduos tem uma distribuição normal?

Hipótese 1:Os resíduos não tem uma distribuição normal

alpha: 0,05

se pvalor é <= a alpha REJEITA H0

se pvalor é > a alpha NÃO REJEITA H0

shapiro.test(residuos4)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos4
## W = 0.72318, p-value = 1.968e-06

p-value = 1.968e-06 (= 0.000001968)

não tem distribuição normal, rejeito H0

Teste de correlação

cor.test(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento)
## 
##  Pearson's product-moment correlation
## 
## data:  IPSData$acesso_conhecimento_basico and IPSData$agua_saneamento
## t = -0.038707, df = 30, p-value = 0.9694
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3548862  0.3424712
## sample estimates:
##          cor 
## -0.007066667

pvalor = 0.9694

cor = 0.007066667

correlação = 0, não rejeito H0

correlação nula ou fraca

não há correlação significativa nas análise de saneamento comparado a educação.

Conclusão

A partir da presente análise estatística, foi constatado que as zonas exercem influência direta nas variáveis de educação básica, ensino superior, oportunidades e saneamento básico, refletindo disparidades socioeconômicas e ambientais que impactam a vida dos cidadãos em cada região.

Os dados analisados revelaram que a Zona Sul apresenta condições mais favoráveis de educação básica e ensino superior, o que pode estar associado a maiores investimentos em infraestrutura educacional e à disponibilidade de recursos nesses locais. Entretanto, as outras regiões, principalmente a Zona Oeste, demonstraram carência nessas áreas essenciais. Além disso, a análise indicou que algumas zonas oferecem mais oportunidades de emprego e desenvolvimento econômico, enquanto outras carecem de iniciativas para promover o crescimento sustentável e a igualdade de oportunidades para seus habitantes.

Outro aspecto relevante identificado foi a falta de correlação entre o saneamento básico e a educação. Segundo a Pesquisa Trata Brasil, realizada pelo Instituto Trata Brasil com o apoio da FGV, “dados comprovaram que crianças que vivem em áreas sem saneamento apresentam redução de 18% no aproveitamento escolar quando comparadas com crianças que vivem em áreas saneadas.”

Porém, a partir das análises realizadas, como matriz de correlação, índice de correlação das variáveis, teste de hipóteses, os resultados nos mostram o contrário. A relação dessas variáveis, para a cidade do Rio de Janeiro no ano de 2020, é fraca ou nula, sugerindo que as duas variáveis não têm uma relação linear significativa.

Diante dos resultados encontrados, sugerimos a implementação de políticas públicas efetivas e focadas para enfrentar as disparidades identificadas e promover uma distribuição mais equitativa da qualidade de vida em todo o Rio de Janeiro.

Propomos a criação de um programa abrangente de desenvolvimento educacional, com investimentos específicos nas zonas menos privilegiadas, visando elevar a qualidade da educação básica e promover a expansão do acesso ao ensino superior nessas áreas. Além disso, é essencial a implementação de medidas que incentivem a geração de empregos e o crescimento econômico nas regiões menos favorecidas, proporcionando oportunidades igualitárias para todos.

É importante ressaltar que a viabilidade e o sucesso das políticas propostas dependerão da colaboração entre os setores público e privado, bem como do engajamento ativo da sociedade civil e das organizações não governamentais.

REFERÊNCIAS BIBLIOGRÁFICAS

Informações sobre o IPS:

https://basedosdados.org/dataset/57c5dc55-10cb-44f9-9f13-6a2fb24392ed?table=1ed7e730-dd1d-4b1c-bbcb-7ddf74541eb6

Estudo sobre a relação entre saneamento e educação:

https://tratabrasil.org.br/pesquisa-trata-brasil-saneamento-educacao-trabalho-e-turismo/ , acesso em 15/07/2023

https://ips-rio-pcrj.hub.arcgis.com/pages/metodologia2, acesso em 17/07/2023