Ethienne Cruz – 20222520003 – ethiennegeologa@gmail.com Isabel Lengruber – 20211520018 – isalengruber@gmail.com Maria Carolina de Lima – 20222520044 – maria.carolina@edu.unirio.br Reyson Gomes Thiago Vieira – 20222520027 – thiago.vieira@edu.unirio.br
library(readxl)
library(readr)
library(flextable)
library(dplyr)##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(kableExtra)## Warning in !is.null(rmarkdown::metadata$output) && rmarkdown::metadata$output
## %in% : 'length(x) = 2 > 1' in coercion to 'logical(1)'
##
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
##
## group_rows
## The following objects are masked from 'package:flextable':
##
## as_image, footnote
library(shinythemes)Trabalho de conclusão da matéria Estatística aplicada às ciências sociais apresentado como um dos requisitos para aprovação na matéria.
A fonte utilizada foi uma base de dados do IPS Rio, que contém informações sobre população, indicadores sociais e econômicos dos bairros cariocas, com cobertura temporal de 2016 a 2020, porém neste trabalho vamos analisar apenas os dados do ano de 2020.
Link da fonte: https://basedosdados.org/dataset/57c5dc55-10cb-44f9-9f13-6a2fb24392ed?table=d5751ecb-5d8c-4c74-934b-2a715dbc2450
IPSData <- read.csv("/Users/Marcos/Downloads/dimensoes_componentes_editado_2020(excel).csv")
View(IPSData)kable(IPSData, row.names = FALSE)%>%
kable_styling( full_width = T,bootstrap_options = c("striped", "hover", "condensed", "responsive"),
position = "center", fixed_thead = T) %>%
scroll_box(width = "900px", height = "600px")| ano | zona | regiao_administrativa | ips_geral | necessidades_humanas_basicas_nota_dimensao | nutricao_cuidados_medicos_basicos | agua_saneamento | moradia | seguranca_pessoal | fundamentos_bem_estar_nota_dimensao | acesso_conhecimento_basico | acesso_informacao | saude_bem_estar | qualidade_meio_ambiente | oportunidades_nota_dimensao | direitos_individuais | liberdades_individuais | tolerancia_inclusao | acesso_educacao_superior |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2020 | Geral | Rio De Janeiro | 60.79 | 74.13 | 66.12 | 83.68 | 79.57 | 67.14 | 51.63 | 66.19 | 50.89 | 53.08 | 36.37 | 56.62 | 54.33 | 62.72 | 77.05 | 32.36 |
| 2020 | Centro | Portuaria | 42.06 | 59.67 | 64.32 | 80.80 | 71.06 | 22.49 | 36.00 | 59.51 | 20.73 | 19.20 | 44.55 | 30.52 | 25.66 | 50.76 | 40.23 | 5.43 |
| 2020 | Centro | Centro | 55.59 | 59.23 | 56.64 | 74.18 | 91.60 | 14.52 | 50.26 | 61.97 | 56.00 | 37.26 | 45.82 | 57.26 | 41.68 | 87.28 | 51.84 | 48.26 |
| 2020 | Norte | Rio Comprido | 55.50 | 68.27 | 72.61 | 84.36 | 73.29 | 42.82 | 50.81 | 68.72 | 42.08 | 39.33 | 53.10 | 47.42 | 37.76 | 60.82 | 68.64 | 22.48 |
| 2020 | Sul | Botafogo | 85.03 | 91.66 | 89.92 | 98.49 | 99.07 | 79.18 | 77.09 | 80.70 | 86.52 | 78.58 | 62.56 | 86.32 | 56.63 | 89.80 | 99.48 | 99.39 |
| 2020 | Sul | Copacabana | 80.23 | 92.03 | 92.01 | 99.32 | 96.84 | 79.97 | 68.93 | 77.01 | 81.95 | 72.40 | 44.36 | 79.73 | 56.72 | 80.14 | 98.53 | 83.53 |
| 2020 | Sul | Lagoa | 79.02 | 85.05 | 67.40 | 98.86 | 96.28 | 77.66 | 70.24 | 69.58 | 89.06 | 75.07 | 47.23 | 81.76 | 50.12 | 96.77 | 98.57 | 81.59 |
| 2020 | Norte | São Cristovão | 51.86 | 69.14 | 65.35 | 86.36 | 74.47 | 50.36 | 40.80 | 66.57 | 34.65 | 31.01 | 30.98 | 45.63 | 50.37 | 52.92 | 62.40 | 16.83 |
| 2020 | Norte | Tijuca | 71.61 | 85.47 | 85.23 | 84.62 | 95.54 | 76.49 | 51.37 | 58.84 | 80.32 | 18.84 | 47.48 | 78.00 | 51.76 | 85.53 | 95.88 | 78.82 |
| 2020 | Norte | Vila Isabel | 73.05 | 82.68 | 68.21 | 94.21 | 87.11 | 81.17 | 64.52 | 62.50 | 74.99 | 65.02 | 55.58 | 71.95 | 57.34 | 65.11 | 92.14 | 73.20 |
| 2020 | Norte | Ramos | 57.04 | 72.69 | 64.90 | 94.92 | 70.96 | 59.99 | 45.63 | 51.91 | 52.42 | 40.99 | 37.20 | 52.79 | 57.34 | 52.68 | 76.76 | 24.39 |
| 2020 | Norte | Penha | 56.96 | 74.39 | 43.14 | 97.56 | 85.59 | 71.27 | 45.01 | 56.40 | 43.90 | 49.68 | 30.08 | 51.49 | 51.27 | 51.93 | 79.57 | 23.19 |
| 2020 | Norte | Inhaúma | 56.92 | 74.43 | 64.39 | 92.05 | 83.13 | 58.16 | 38.92 | 42.06 | 45.07 | 38.13 | 30.40 | 57.41 | 59.00 | 63.36 | 76.47 | 30.81 |
| 2020 | Norte | Méier | 64.61 | 77.15 | 64.71 | 91.26 | 88.36 | 64.28 | 55.32 | 58.57 | 64.58 | 51.50 | 46.61 | 61.37 | 47.76 | 65.29 | 84.63 | 47.82 |
| 2020 | Norte | Iraja | 64.57 | 79.80 | 66.97 | 97.73 | 90.95 | 63.56 | 50.33 | 62.03 | 54.65 | 53.61 | 31.04 | 63.58 | 57.00 | 75.16 | 84.04 | 38.14 |
| 2020 | Norte | Madureira | 55.61 | 68.86 | 53.76 | 89.36 | 82.89 | 49.43 | 45.89 | 46.84 | 45.83 | 47.33 | 43.56 | 52.08 | 50.03 | 58.83 | 74.38 | 25.08 |
| 2020 | Oeste | Jacarepaguá | 61.94 | 74.38 | 73.37 | 68.78 | 73.59 | 81.76 | 52.36 | 59.65 | 54.36 | 55.89 | 39.56 | 59.07 | 57.85 | 64.54 | 79.79 | 34.08 |
| 2020 | Oeste | Bangu | 51.84 | 70.87 | 66.52 | 89.96 | 74.32 | 52.69 | 37.74 | 54.89 | 33.54 | 29.48 | 33.04 | 46.90 | 51.39 | 51.57 | 70.19 | 14.45 |
| 2020 | Oeste | Campo Grande | 58.68 | 77.91 | 70.78 | 78.76 | 76.78 | 85.31 | 42.89 | 61.34 | 40.10 | 37.71 | 32.40 | 55.24 | 61.65 | 60.83 | 79.22 | 19.26 |
| 2020 | Oeste | Santa Cruz | 50.82 | 71.47 | 57.91 | 71.21 | 65.96 | 90.79 | 31.87 | 54.53 | 18.98 | 38.62 | 15.34 | 49.11 | 77.58 | 41.51 | 71.03 | 6.31 |
| 2020 | Norte | Ilha Do Governador | 62.97 | 78.37 | 67.06 | 89.27 | 87.80 | 69.35 | 50.89 | 64.99 | 57.87 | 60.86 | 19.82 | 59.64 | 49.11 | 62.51 | 83.26 | 43.68 |
| 2020 | Norte | Anchieta | 55.72 | 72.83 | 74.81 | 86.42 | 76.82 | 53.29 | 42.92 | 45.22 | 36.94 | 51.63 | 37.90 | 51.39 | 56.59 | 63.67 | 68.30 | 17.01 |
| 2020 | Centro | Santa Teresa | 63.26 | 77.57 | 81.49 | 84.64 | 81.14 | 63.03 | 64.04 | 82.54 | 59.89 | 63.44 | 50.28 | 48.16 | 18.80 | 69.64 | 69.94 | 34.25 |
| 2020 | Oeste | Barra Da Tijuca | 69.70 | 70.61 | 78.49 | 50.75 | 84.87 | 68.34 | 67.87 | 73.69 | 78.51 | 73.12 | 46.15 | 70.62 | 52.94 | 78.85 | 82.94 | 67.74 |
| 2020 | Norte | Pavuna | 42.97 | 60.94 | 51.21 | 87.31 | 64.53 | 40.71 | 27.58 | 33.39 | 26.54 | 49.49 | 0.89 | 40.38 | 45.28 | 49.89 | 55.39 | 10.97 |
| 2020 | Oeste | Guaratiba | 43.54 | 54.92 | 64.71 | 17.54 | 59.45 | 77.99 | 31.07 | 53.26 | 22.15 | 14.52 | 34.36 | 44.61 | 77.06 | 50.47 | 45.24 | 5.68 |
| 2020 | Sul | Rocinha | 52.27 | 68.69 | 68.66 | 78.11 | 37.80 | 90.18 | 43.53 | 50.63 | 24.13 | 61.61 | 37.74 | 44.60 | 60.89 | 51.67 | 64.04 | 1.81 |
| 2020 | Norte | Jacarezinho | 45.15 | 54.61 | 37.52 | 85.73 | 21.52 | 73.69 | 37.11 | 41.14 | 0.00 | 73.51 | 33.80 | 43.72 | 58.33 | 42.94 | 71.29 | 2.34 |
| 2020 | Norte | Complexo Do Alemão | 43.68 | 57.18 | 51.47 | 92.98 | 39.64 | 44.62 | 36.94 | 31.00 | 12.85 | 64.32 | 39.59 | 36.93 | 44.41 | 39.29 | 63.52 | 0.52 |
| 2020 | Norte | Maré | 47.20 | 66.22 | 54.12 | 82.18 | 69.04 | 59.56 | 34.85 | 33.74 | 15.34 | 75.46 | 14.86 | 40.52 | 46.13 | 52.13 | 61.57 | 2.26 |
| 2020 | Norte | Vigário Geral | 54.93 | 72.03 | 54.17 | 88.64 | 71.39 | 73.91 | 45.77 | 46.77 | 36.45 | 55.32 | 44.55 | 46.99 | 56.26 | 48.21 | 70.56 | 12.94 |
| 2020 | Oeste | Realengo | 55.76 | 72.07 | 64.96 | 87.40 | 81.21 | 54.72 | 43.49 | 65.58 | 42.68 | 39.23 | 26.47 | 51.70 | 50.41 | 66.58 | 68.86 | 20.97 |
| 2020 | Oeste | Cidade De Deus | 47.84 | 73.68 | 55.73 | 93.43 | 65.41 | 80.15 | 31.47 | 40.38 | 23.50 | 26.84 | 35.17 | 38.37 | 55.32 | 25.47 | 68.20 | 4.50 |
2. INTRODUÇÃO
No Brasil, a desigualdade social é um fato que favorece um grupo pequeno de cidadãos, a maioria da população tem os recursos limitados e as necessidades básicas não sanadas. Esse aspecto é visto em todos os Estados do território brasileiro, sendo a região Norte e Nordeste as mais afetadas com essa concentração de renda, o que não significa que as outras regiões não são afetadas fortemente com este problema.
Em todos os estados há favelização, desigualdade alimentar, falta de saneamento básico, falta de acesso à educação superior e ao conhecimento básico o que faz com que o Brasil ocupe o 8º lugar no ranking mundial da desigualdade social de acordo com a ONU.
Ao analisar um determinado território pode se deparar com indicadores sócio ambientais que pode mostrar a desigualdade social, bem como a origem da mesma. Surge, então, o questionamento como esses indicadores e em que grau pode interferir no progresso Social.
Apesar deste cenário, há a expectativa que o progresso social seja vivido por todos. A política sócio econômica de um país deve impulsionar a evolução da sociedade em direção a um cenário ideal e proporcionar um melhor padrão de vida aos indivíduos ao ponto de ter às necessidades elementares bem atendidas.
É possível medir o Índice de Progresso Social (IPS) de uma região ao abordar e mensurar indicadores e compará-los à outras regiões em escala global. Vale ressaltar que se mede o quanto houve avanço no desenvolvimento social, mas nesta análise não é considerada a economicidade da região. O IPS permite analisar o desenvolvimento social e relacionar às suas disparidades geográficas.
Este levantamento foi realizado em diversos países. No Brasil, a definição de indicadores foi realizada por meio de processos participativos que envolveu o governo, universidades e o Instituto de Pesquisa Pereira Passos (IPP).
O IPP foi o organizador desta pesquisa, a qual tem a cobertura temporal do ano de 2016 a 2020. Porém, neste trabalho apresentaremos amostras apenas o ano de 2020.
Neste levantamento, observa-se a mensuração direta do desenvolvimento humano a partir de indicadores selecionados em 3 dimensões e 12 componentes definidos globalmente. São estas dimensões as necessidades humanas básicas, os fundamentos do bem estar e a oportunidade. As quais podem ser vistas com seus agrupamentos a seguir.
3. Objetivos
Este trabalho visa apresentar a análise de dados proveniente do levantamento do índice de progresso (IPS) da cidade do Rio de Janeiro e apresentar a conclusão de como uma variável urbana pode contribuir ou não no desenvolvimento das regiões administrativas: zona norte, zona sul e zona oeste e desse jeito conhecer as demandas e proporcionar conteúdo acadêmico para nortear políticas públicas.
4. Marco Teórico
O levantamento de dados deu-se primeiro pela seleção dos componentes e dimensões a serem estudadas e foi realizada pelo Social Progress Imperative com apoio de acadêmicos na Universidade de Havard e do Massachusetts Institute of Technology com o objetivo de cobrir uma gama abrangente de temas.
Deste levantamento surgiu o banco de dados do IPS Rio o qual substanciou toda a presente análise.
Na comparação entre os resultados de 2018 e 2020, houve um aumento da pontuação em duas dimensões: Necessidades Humanas Básicas, de 73,49 para 74,13 pontos, e Fundamentos do Bem-Estar, de 50,45 para 51,63 pontos. Em Oportunidades, a cidade apresentou uma queda de 1,98 pontos, caindo de 58,60 para 56,62 pontos. Entre os doze componentes do IPS, apenas dois tiveram melhorias.
Apesar de existir na bibliografia um grande volume de conteúdo e análise do IPS Rio, o qual vemos em parte neste marco teórico, o nosso objetivo é discutir a correlação de alguns componentes com a educação da cidade do Rio de Janeiro e o quanto o acesso do saneamento contribui ao conhecimento básico da educação.
# 5.Metodologia
_Etapa 1- A Escolha da Base de Dados_
Nesta etapa escolhemos a melhor base conforme riqueza de dados e aplicabilidade para análise estatística. Buscamos uma base com muitas variáveis e bem apresentada, além de prezarmos pela origem e confiabilidade da fonte.
Após esta vasta pesquisa e análise decidimos apresentar e analisar os fatores sobre o índice de Progressão social (IPS) da cidade do Rio de Janeiro.
Nesta base, observa-se a mensuração direta do desenvolvimento humano a partir de indicadores selecionados em 3 dimensões e 12 componentes definidos globalmente.
Nela é observável como cada região consegue prover condições mínimas a seus habitantes. O interesse é medir o investimento com indicadores de resultados, como a exposição à violência, o nível de bem estar social, o acesso a serviços básicos como de saúde e também à educação, dentre outros, permitindo assim o comparativo à cada região.
A metodologia do levantamento de dados deu-se primeiro pela seleção dos componentes e dimensões a serem estudadas e foi realizada pelo Social Progress Imperative com apoio de acadêmicos na Universidade de Havard e do Massachusetts Institute of Technology com o objetivo de cobrir uma gama abrangente de temas.
Este levantamento foi realizado em diversos países. No Brasil, a definição de indicadores foi realizada por meio de processos participativos que envolveu o governo, universidades e o Instituto de Pesquisa Pereira Passos (IPP).
O IPP foi o organizador desta pesquisa, a qual tem a cobertura temporal do ano de 2016 a 2020. Porém, neste trabalho apresentaremos amostras apenas do ano de 2020.
_Etapa 2- Tratamento dos Dados_
Como a proposta deste trabalho é a representação e análise de dados pelo software R, não precisamos discutir sobre o programa a ser utilizado. Por ser um ambiente livre, ele nos proporciona a autonomia na programação.
No ambiente do software utilizamos uma ferramenta muito importante, o R-Markdown, que permite escolher o output de suas análises no RStudio.
# 5.1. Descrição da Base de Dados
Como a proposta deste trabalho é a representação e análise de dados pelo software R, não precisamos discutir sobre o programa a ser utilizado. Por ser um ambiente livre, ele nos proporciona a autonomia na programação.
No ambiente do software utilizamos uma ferramenta muito importante, o R-Markdown, que permite escolher o output de suas análises no RStudio.
a) Descrição de todas as variáveis da base de dados (dicionário de dados - codebook)
```r
codebook = data.frame(
variável = c("ano","zona",
"regiao_administrativa", "ips_geral",
"necessidades_humanas_basicas_nota_dimensao", "nutricao_cuidados_medicos_basicos"
,"agua_saneamento" , "moradia"
,"seguranca_pessoal" , "fundamentos_bem_estar_nota_dimensao"
, "acesso_conhecimento_basico" , "acesso_informacao"
, "saude_bem_estar" , "qualidade_meio_ambiente"
, "oportunidades_nota_dimensao", "direitos_individuais"
, "liberdades_individuais", "tolerancia_inclusao"
, "acesso_educacao_superior" ),descrição = c("ano de referencia","zona da cidade","regiao adm da prefeitura", "índice de progressão social",
"necessidades humanas básicas", "acesso à cuidados médicos básicos", "saneamento básico", "moradia",
"segurança", "fundamentos do bem estar","acesso ao conhecimento básico", "acesso à informação", "saúde",
"qualidade do meio ambiente", "oportunidades", "direitos individuais", "liberdades individuais", "inclusão social",
"acesso ao ensino superior"))
codebook %>% flextable()
variável | descrição |
|---|---|
ano | ano de referencia |
zona | zona da cidade |
regiao_administrativa | regiao adm da prefeitura |
ips_geral | índice de progressão social |
necessidades_humanas_basicas_nota_dimensao | necessidades humanas básicas |
nutricao_cuidados_medicos_basicos | acesso à cuidados médicos básicos |
agua_saneamento | saneamento básico |
moradia | moradia |
seguranca_pessoal | segurança |
fundamentos_bem_estar_nota_dimensao | fundamentos do bem estar |
acesso_conhecimento_basico | acesso ao conhecimento básico |
acesso_informacao | acesso à informação |
saude_bem_estar | saúde |
qualidade_meio_ambiente | qualidade do meio ambiente |
oportunidades_nota_dimensao | oportunidades |
direitos_individuais | direitos individuais |
liberdades_individuais | liberdades individuais |
tolerancia_inclusao | inclusão social |
acesso_educacao_superior | acesso ao ensino superior |
A base de dados que vamos utilizar para a análise possui 33 linhas e 19 colunas. Dentre elas, temos 17 variáveis quantitativas e 2 variáveis qualitativas. Eliminamos a linha da variável “ips_geral” para otimizar as demonstrações gráficas.
Como a proposta deste trabalho é a representação e análise de dados pelo software R, não precisamos discutir sobre o programa a ser utilizado. Por ser um ambiente livre, ele nos proporciona a autonomia na programação. No ambiente do software utilizamos uma ferramenta muito importante, o R-Markdown, que permite escolher o output de suas análises no R .
As Variáveis de interesse utilizado no estudo são:
• Acesso ao conhecimento básico;
• Acesso à educação superior;
• Oportunidade;
• Acesso ao saneamento básico.
As Hipóteses de interesse utilizado no estudo são:
• Se moradores das zonas-RJ tiveram acesso ao conhecimento básico;
• Se os moradores das zonas-RJ tiveram acesso à educação superior;
• Se os moradores das zonas-RJ tiveram acesso às oportunidades;
• Se os moradores das zonas-RJ tiveram acesso ao saneamento básico;
• Se o acesso ao saneamento básico nas zonas-RJ interfere no conhecimento básico.
A Análise será apresentada por região, bem como seus comparativos e interferência de uma variável sobre a outra estudada. Desta forma será permitido chegar às conclusões quais fatores podem interferir na progressão social e também comparar as regiões de acordo com seu desenvolvimento.
Faremos exposição das seguintes análises:
• Conhecimento básico por zona;
• Conhecimento superior por zona;
• Oportunidade por zona;
• Saneamento básico por zona;
• Conhecimento básico por saneamento.
Utilizaremos os seguintes métodos para análise:
• Análise Descritiva das variáveis utilizadas (média, mediana e desvio padrão);
• Histograma do IPS geral;
• Boxplots;
• Matriz de correlação;
• Diagrama de dispersão;
• Teste de Hipóteses.
Estudo sobre a relação entre saneamento e educação:
https://tratabrasil.org.br/pesquisa-trata-brasil-saneamento-educacao-trabalho-e-turismo/
Achando a média, mediana e desvio-padrão das variáveis:
Acesso ao conhecimento básico;
Acesso à educação superior;
Oportunidade;
Acesso ao saneamento básico.
mean(IPSData$acesso_conhecimento_basico)## [1] 57.03455
median(IPSData$acesso_conhecimento_basico)## [1] 58.84
sd(IPSData$acesso_conhecimento_basico)## [1] 13.20953
Média : 57,0345
Mediana : 58,84
Desvio Padrão : 13,20953
Com base nos resultados apresentados, podemos dizer que há uma distribuição um pouco assimétrica à esquerda, com alguns valores abaixo da média puxando-a para baixo. Além disso, o desvio padrão de 13,2 indica que os valores estão dispersos ao redor da média.
mean(IPSData$acesso_educacao_superior)## [1] 31.21485
median(IPSData$acesso_educacao_superior)## [1] 23.19
sd(IPSData$acesso_educacao_superior)## [1] 27.44889
Média : 31,21485
Mediana : 23,19
Desvio Padrão : 27,44889
Como uma média de 31,21 e mediana em 23,19, entendemos que há uma distribuição um tanto assimétrica à direita, com alguns valores acima da mediana puxando-a para cima. Além disso, o desvio padrão de 27,44 indica que os valores estão relativamente dispersos ao redor da média, indicando uma variabilidade significativa nos dados obtidos.
mean(IPSData$acesso_educacao_superior)## [1] 31.21485
median(IPSData$acesso_educacao_superior)## [1] 23.19
sd(IPSData$acesso_educacao_superior)## [1] 27.44889
Média : 31,21485
Mediana : 23,19
Desvio Padrão : 27,4489
Com base nos resultados apresentados, podemos dizer que a média de oportunidades é de 54,6, enquanto a mediana é de 51,7. Isso sugere uma distribuição um tanto assimétrica à direita, com alguns valores acima da mediana puxando-a para cima. Além disso, o desvio padrão de 13,58404 indica que os valores estão relativamente dispersos ao redor da média, o que indica pouca variabilidade de Oportunidades.
mean(IPSData$acesso_educacao_superior)## [1] 31.21485
median(IPSData$acesso_educacao_superior)## [1] 23.19
sd(IPSData$acesso_educacao_superior)## [1] 27.44889
Média : 84,26879
Mediana : 87,31
Desvio Padrão : 15,59991
Com os resultados obtidos da média e mediana podemos concluir que há uma distribuição um tanto assimétrica à esquerda, com alguns valores abaixo da mediana puxando-a para baixo. Além disso, o desvio padrão de 15,59 indica que os valores estão relativamente dispersos ao redor da média, indicando baixa variabilidade da variável Acesso ao Saneamento Básico.
IPSData = IPSData %>% filter(zona !='Geral')hist(IPSData$ips_geral, col = "lightblue",ylim = c(0,30), main = "Histograma do IPS Geral", labels = TRUE, freq = TRUE, border = "lightblue", xlab = "IPS Geral", ylab = "Quantidade")O histograma do IPS Geral é uma representação da distribuição da quantidade de bairros de acordo com o ips geral. Podemos observar que a maior parte dos bairros possue um IPS entre 50 e 60. Sua simetria é classificada como assimétrica à direita.
# IPS por Zonas
boxplot(ips_geral ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"),
main="Boxplot 1 \n IPS Total por Zonas \n", ylab = "IPS", xlab = "Zonas do Rio de Janeiro")No primeiro boxplot, temos a relação das variáveis Zona e Ips_geral. Através dele é possível verificar que a região da zona central possui um dos IPS mais baixos de todas as regiões e a zona sul possui o maior IPS. A Zona Central tem uma assimetria negativa. Na Zona Norte, a assimetria é positiva. A Zona Oeste é a que mais se aproxima de uma simetria. A Zona Sul possui uma grande dispersão, pois seu intervalo interquatílico são muito significante, e sua assimetria é negativa. Nesse gráfico não temos outliers.
# Zona e Acesso à educação básica
boxplot(acesso_conhecimento_basico ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"),
main="Boxplot 2 \n Acesso à educação básica \n", ylab = "Índice de acesso à educação básica", xlab = "Zonas")No segundo boxplot, temos a relação entre as variáveis Zona e Acesso_conhecimento_basico. O maior índice de educação básica é do bairro Santa Teresa, que pertence à região central. A Zona Norte é a região com os índices de educação básica mais baixos. A Zona Norte possui grande simetria. Nesse gráfico não temos outliers.
# Zona e Acesso à educação superior
boxplot(acesso_educacao_superior ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"),
main="Boxplot 3 \n Acesso ao ensino superior \n", ylab = "Índice de acesso ao ensino superior", xlab = "Zonas do Rio de Janeiro")O terceiro boxplot representa a relação entre as variáveis Zona e Acesso_educacao_superior. A Zona Sul é a região com o maior índice de acesso ao ensino superior, porém também é a zona com a maior distribuição, pois apesar da concentração dos bairros se encontrar no topo do gráfico, a sua calda se extende até a parte inferior. Embora a região com o menor índice seja a Zona Norte, todos os bairros da Zona Oeste se encontram abaixo de 40, com exceção de um outlier. A Zona Norte também possui um outlier.
# Oportunidades
boxplot( oportunidades_nota_dimensao ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"),
main="Boxplot 4 \n Oportunidades \n", ylab = "Oportunidades", xlab = "Zonas")No quarto boxplot temos a relação Oportunidades por Zona e, a partir de sua análise, observamos que a Zona Sul se destaca com os maiores índices, seguida da Zona Norte. A região central possui os índices de oportunidades mais baixos. Nesse gráfico não temos outliers.
# Saneamento básico
boxplot( agua_saneamento ~ zona, data=IPSData, col=c("lightblue","pink","violet","magenta","purple"),
main="Boxplot 5 \n Acesso ao saneamento básico \n", ylab = "Nível de saneamento dos bairros", xlab = "Zonas")No quinto e último boxplot, temos a relação das variáveis agua_saneamento e zona. A Zona Sul é a região com o maior índice de sanemanto básico. Apesar o máximo da zona central estar abaixo do máximo da zona oeste, esta possui muitos bairros com índices abaixo de 60. Essa zona também possui simetria.
library(corrplot)## corrplot 0.92 loaded
IPSData %>% select(acesso_conhecimento_basico,acesso_educacao_superior,oportunidades_nota_dimensao,agua_saneamento) %>%
cor() %>% corrplot(method = "circle")De acordo com a matriz de correlação das variáveis acesso_conhecimento_basico,acesso_educacao_superior,oportunidades_nota_dimensao,agua_saneamento, as variáves que possuem a correlação mais forte são acesso_educacao_superior e oportunidades_nota_dimensao. Essa correlação é positiva e forte, ou seja, quanto maior o grau de instrução, mais oportunidades os indivíduos terão.
Existe impacto do saneamento básico na educação?
Segundo a matriz de correlação essas variáveis não possuem relação, porém vamos conferir a veracidade dessa afirmação por outros métodos.
cor(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento)## [1] -0.007066667
# resultado = -0.007066667O valor absoluto da correlação é próximo de 0, o que indica uma correlação fraca entre as variáveis. O valor negativo indica uma correlação negativa fraca. Isso significa que, em geral, quando a variável “acesso_conhecimento_basico” aumenta, a variável “agua_saneamento” tende a diminuir levemente, e vice-versa. No entanto, a correlação é tão próxima de zero que essa relação é praticamente inexistente.
plot(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento, col="orange",
pch=19,main="Diagrama de dispersão",
xlab="Acesso à educação",
ylab="Saneamento")
abline(lsfit(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento),col="purple")A partir da análise do diagrama de dispersão podemos concluir que as variáveis agua_saneamento e acesso_conhecimento_basico possuem relação fraca, quase inexistente. Há uma ausência de relação linear entre as variáveis. Por fim, o teste de hipóteses trará a conclusão final.
modelo = aov(acesso_conhecimento_basico ~ zona, data=IPSData)
residuos = residuals(modelo)Hipótese 0: Os resíduos tem uma distribuição normal?
Hipótese 1: Os resíduos não tem uma distribuição normal
alpha: 0,05
se pvalor é <= a alpha REJEITA H0
se pvalor é > a alpha NÃO REJEITA H0
shapiro.test(residuos)##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.9482, p-value = 0.1281
P-valor = 0.1281
Tem distribuição normal
pressuposto de normalidade atendido, NÃO REJEITA H0
H0: variancia_T = variancia_NT
H1: variancia_T != variancia_NT
alpha: 0,05
bartlett.test(IPSData$acesso_conhecimento_basico~IPSData$zona)##
## Bartlett test of homogeneity of variances
##
## data: IPSData$acesso_conhecimento_basico by IPSData$zona
## Bartlett's K-squared = 0.54133, df = 3, p-value = 0.9097
p-value = 0.9097
pvalor maior que alpha
não rejeito H0
as 2 variancias são iguais
ANOVA
summary(modelo)## Df Sum Sq Mean Sq F value Pr(>F)
## zona 3 1560 519.9 3.697 0.0233 *
## Residuals 28 3938 140.6
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
pvalor 0.0233
pvalor < alpha
Rejeito H0
As médias são diferentes
Df Sum Sq Mean Sq F value Pr(>F)
Zona 3 1560 519.9 3.697 0.0233 * Residuals 28 3938 140.6
TukeyHSD(modelo)## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = acesso_conhecimento_basico ~ zona, data = IPSData)
##
## $zona
## diff lwr upr p adj
## Norte-Centro -16.789608 -37.0655886 3.486373 0.1318361
## Oeste-Centro -10.091667 -32.0117743 11.828441 0.5969673
## Sul-Centro 1.473333 -23.2558832 26.202550 0.9984303
## Oeste-Norte 6.697941 -7.1840739 20.579956 0.5599514
## Sul-Norte 18.262941 0.2697932 36.256089 0.0456750
## Sul-Oeste 11.565000 -8.2624834 31.392483 0.3989802
pvalor < alpha
Diferença significativa, rejeito H0
Zona Sul tem melhor índice de acesso ao conhecimento básico do que a zona Norte.
#‐‐——————————————————
modelo1 = aov(acesso_educacao_superior ~ zona, data=IPSData)
residuos1 = residuals(modelo1)Hipótese 0: Os resíduos tem uma distribuição normal?
Hipótese 1: Os resíduos não tem uma distribuição normal
alpha: 0,05
se pvalor é <= a alpha REJEITA H0
se pvalor é > a alpha NÃO REJEITA H0
shapiro.test(residuos1)##
## Shapiro-Wilk normality test
##
## data: residuos1
## W = 0.95886, p-value = 0.2555
p-value = 0.2555
tem distribuição normal
pressuposto de normalidade atendido, NÃO REJEITA H0
H0: variancia_T = variancia_NT
H1: variancia_T != variancia_NT
alpha: 0,05
bartlett.test(IPSData$acesso_educacao_superior~IPSData$zona)##
## Bartlett test of homogeneity of variances
##
## data: IPSData$acesso_educacao_superior by IPSData$zona
## Bartlett's K-squared = 3.1912, df = 3, p-value = 0.3631
p-value = 0.3631
pvalor maior que alpha
não rejeito H0
as 2 variancias são iguais
Anova
summary(modelo1)## Df Sum Sq Mean Sq F value Pr(>F)
## zona 3 5962 1987.5 3.067 0.0442 *
## Residuals 28 18146 648.1
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
pvalor 0.0442
pvalor < alpha
Rejeito H0
As médias são diferentes
Df Sum Sq Mean Sq F value Pr(>F)
Zona 3 5962 1987.5 3.067 0.0442 * Residuals 28 18146 648.1
TukeyHSD(modelo1)## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = acesso_educacao_superior ~ zona, data = IPSData)
##
## $zona
## diff lwr upr p adj
## Norte-Centro -1.638039 -45.164875 41.88880 0.9996018
## Oeste-Centro -7.689583 -54.745898 39.36673 0.9698215
## Sul-Centro 37.266667 -15.820015 90.35335 0.2441662
## Oeste-Norte -6.051544 -35.852331 23.74924 0.9445609
## Sul-Norte 38.904706 0.278471 77.53094 0.0478767
## Sul-Oeste 44.956250 2.392212 87.52029 0.0354686
pvalor < alpha
Diferença significativa, rejeito H0
Zona Sul tem melhor índice de acesso à educação superior do que a Zona Oeste.
modelo2= aov(oportunidades_nota_dimensao ~ zona, data=IPSData)
residuos2 = residuals(modelo2)Hipótese 0: Os resíduos tem uma distribuição normal?
Hipótese 1: Os resíduos não tem uma distribuição normal
alpha: 0,05
se pvalor é <= a alpha REJEITA H0
se pvalor é > a alpha NÃO REJEITA H0
shapiro.test(residuos2)##
## Shapiro-Wilk normality test
##
## data: residuos2
## W = 0.99099, p-value = 0.9937
p-value = 0.9937
tem distribuição normal
pressuposto de normalidade atendido, NÃO REJEITA H0
H0: variancia_T = variancia_NT
H1: variancia_T != variancia_NT
alpha: 0,05
bartlett.test(IPSData$oportunidades_nota_dimensao~IPSData$zona)##
## Bartlett test of homogeneity of variances
##
## data: IPSData$oportunidades_nota_dimensao by IPSData$zona
## Bartlett's K-squared = 2.2657, df = 3, p-value = 0.5191
p-value = 0.5191
pvalor maior que alpha
Não rejeito H0
As 2 variancias são iguais
Anova
summary(modelo2)## Df Sum Sq Mean Sq F value Pr(>F)
## zona 3 1727 575.5 3.861 0.0198 *
## Residuals 28 4174 149.1
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
pvalor 0.0198
pvalor < alpha
Rejeito H0
As médias são diferentes
Df Sum Sq Mean Sq F value Pr(>F)
Zona 3 1727 575.5 3.861 0.0198 * Residuals 28 4174 149.1
TukeyHSD(modelo2)## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = oportunidades_nota_dimensao ~ zona, data = IPSData)
##
## $zona
## diff lwr upr p adj
## Norte-Centro 7.703725 -13.1718734 28.57932 0.7463366
## Oeste-Centro 6.639167 -15.9291806 29.20751 0.8523406
## Sul-Centro 27.789167 2.3286372 53.24970 0.0284340
## Oeste-Norte -1.064559 -15.3571044 13.22799 0.9969518
## Sul-Norte 20.085441 1.5601849 38.61070 0.0297647
## Sul-Oeste 21.150000 0.7361618 41.56384 0.0401659
pvalor 0.028 < alpha
Diferença significativa, rejeito H0
Zona Sul tem melhores índice de oportunidades do que o Centro.
modelo3 = aov(agua_saneamento ~ zona, data=IPSData)
residuos3 = residuals(modelo3)Hipótese 0:Os resíduos tem uma distribuição normal?
Hipótese 1:Os resíduos não tem uma distribuição normal
alpha: 0,05
se pvalor é <= a alpha REJEITA H0
se pvalor é > a alpha NÃO REJEITA H0
shapiro.test(residuos3)##
## Shapiro-Wilk normality test
##
## data: residuos3
## W = 0.81428, p-value = 7.652e-05
p-valor = 7.652e-05 (=0.00007652)
não possui distribuição normal, rejeito H0
H0: variancia_T = variancia_NT
H1: variancia_T != variancia_NT
alpha: 0,05
bartlett.test(IPSData$agua_saneamento~IPSData$zona)##
## Bartlett test of homogeneity of variances
##
## data: IPSData$agua_saneamento by IPSData$zona
## Bartlett's K-squared = 27.881, df = 3, p-value = 3.848e-06
p-value = 3.848e-06 (= 0,003848)
pvalor menor que alpha
rejeito H0
as 2 variancias são diferentes
Anova
summary(modelo3)## Df Sum Sq Mean Sq F value Pr(>F)
## zona 3 2607 868.9 4.697 0.00886 **
## Residuals 28 5180 185.0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
pvalor 0.00886**
pvalor < alpha
Rejeito H0
As médias são diferentes
Df Sum Sq Mean Sq F value Pr(>F)
Zona 3 2607 868.9 4.697 0.00886** Residuals 28 5180 185.0
TukeyHSD(modelo3)## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = agua_saneamento ~ zona, data = IPSData)
##
## $zona
## diff lwr upr p adj
## Norte-Centro 9.830196 -13.426067 33.086459 0.6599189
## Oeste-Centro -10.144583 -35.286636 14.997470 0.6914685
## Sul-Centro 13.821667 -14.542394 42.185728 0.5519372
## Oeste-Norte -19.974779 -35.897254 -4.052305 0.0097517
## Sul-Norte 3.991471 -16.646415 24.629356 0.9515523
## Sul-Oeste 23.966250 1.224407 46.708093 0.0359927
pvalor 0.009 < alpha
Diferença significativa, rejeito H0
Zona Oeste tem menor índice acesso ao saneamento do que a Zona Norte.
modelo4 = aov(agua_saneamento ~ acesso_conhecimento_basico, data=IPSData)
residuos4 = residuals(modelo4)Hipótese 0:Os resíduos tem uma distribuição normal?
Hipótese 1:Os resíduos não tem uma distribuição normal
alpha: 0,05
se pvalor é <= a alpha REJEITA H0
se pvalor é > a alpha NÃO REJEITA H0
shapiro.test(residuos4)##
## Shapiro-Wilk normality test
##
## data: residuos4
## W = 0.72318, p-value = 1.968e-06
p-value = 1.968e-06 (= 0.000001968)
não tem distribuição normal, rejeito H0
cor.test(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento)##
## Pearson's product-moment correlation
##
## data: IPSData$acesso_conhecimento_basico and IPSData$agua_saneamento
## t = -0.038707, df = 30, p-value = 0.9694
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3548862 0.3424712
## sample estimates:
## cor
## -0.007066667
pvalor = 0.9694
cor = 0.007066667
correlação = 0, não rejeito H0
correlação nula ou fraca
não há correlação significativa nas análise de saneamento comparado a educação.
A partir da presente análise estatística, foi constatado que as zonas exercem influência direta nas variáveis de educação básica, ensino superior, oportunidades e saneamento básico, refletindo disparidades socioeconômicas e ambientais que impactam a vida dos cidadãos em cada região.
Os dados analisados revelaram que a Zona Sul apresenta condições mais favoráveis de educação básica e ensino superior, o que pode estar associado a maiores investimentos em infraestrutura educacional e à disponibilidade de recursos nesses locais. Entretanto, as outras regiões, principalmente a Zona Oeste, demonstraram carência nessas áreas essenciais. Além disso, a análise indicou que algumas zonas oferecem mais oportunidades de emprego e desenvolvimento econômico, enquanto outras carecem de iniciativas para promover o crescimento sustentável e a igualdade de oportunidades para seus habitantes.
Outro aspecto relevante identificado foi a falta de correlação entre o saneamento básico e a educação. Segundo a Pesquisa Trata Brasil, realizada pelo Instituto Trata Brasil com o apoio da FGV, “dados comprovaram que crianças que vivem em áreas sem saneamento apresentam redução de 18% no aproveitamento escolar quando comparadas com crianças que vivem em áreas saneadas.”
Porém, a partir das análises realizadas, como matriz de correlação, índice de correlação das variáveis, teste de hipóteses, os resultados nos mostram o contrário. A relação dessas variáveis, para a cidade do Rio de Janeiro no ano de 2020, é fraca ou nula, sugerindo que as duas variáveis não têm uma relação linear significativa.
Diante dos resultados encontrados, sugerimos a implementação de políticas públicas efetivas e focadas para enfrentar as disparidades identificadas e promover uma distribuição mais equitativa da qualidade de vida em todo o Rio de Janeiro.
Propomos a criação de um programa abrangente de desenvolvimento educacional, com investimentos específicos nas zonas menos privilegiadas, visando elevar a qualidade da educação básica e promover a expansão do acesso ao ensino superior nessas áreas. Além disso, é essencial a implementação de medidas que incentivem a geração de empregos e o crescimento econômico nas regiões menos favorecidas, proporcionando oportunidades igualitárias para todos.
É importante ressaltar que a viabilidade e o sucesso das políticas propostas dependerão da colaboração entre os setores público e privado, bem como do engajamento ativo da sociedade civil e das organizações não governamentais.
REFERÊNCIAS BIBLIOGRÁFICAS
Informações sobre o IPS:
Estudo sobre a relação entre saneamento e educação:
https://tratabrasil.org.br/pesquisa-trata-brasil-saneamento-educacao-trabalho-e-turismo/ , acesso em 15/07/2023
https://ips-rio-pcrj.hub.arcgis.com/pages/metodologia2, acesso em 17/07/2023