library(readxl)
library(readr)
library(flextable)
library(dplyr)##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(kableExtra)##
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
##
## group_rows
## The following objects are masked from 'package:flextable':
##
## as_image, footnote
library(shinythemes)O Índice de Progresso Social (IPS) é uma abordagem de mensuração direta do desenvolvimento humano a partir de indicadores selecionados em três dimensões e 12 componentes definidos globalmente. A seleção das dimensões e componentes foi realizada pelo Social Progress Imperative com apoio de acadêmicos nas universidades de Harvard e do Massachusetts Institute of Technology (MIT) com o objetivo de cobrir um gama abrangente de temas, sempre tentando responder em que medida cada território é capaz de prover condições mínimas para seus habitantes. Na abordagem que escolhemos, vamos com investigar se os dados constatados no IPS correspondem à realidade do acesso das pessoas à educação e oportunidades, cruzando esses dados com as variáveis relacionadas ao acesso à educação básica, ao acesso ao ensino superior, evasão do ensino médio, oportunidades e nível de alfabetização de cada de cada zona do Município do Rio de Janeiro, usando os dados do ano de 2020, que é o ano mais recente presente na base de dados. Para isso, será necessário criar uma nova variável na base de dados original: a zona.
A fonte utilizada foi uma base de dados do IPS Rio, que contém informações sobre população, indicadores sociais e econômicos dos bairros cariocas, com cobertura temporal de 2016 a 2020, porém neste trabalho vamos analisar apenas os dados do ano de 2020.
Link da fonte: https://basedosdados.org/dataset/57c5dc55-10cb-44f9-9f13-6a2fb24392ed?table=d5751ecb-5d8c-4c74-934b-2a715dbc2450
IPSData <- read.csv("/Users/Marcos/Downloads/dimensoes_componentes_editado_2020(excel).csv")
View(IPSData)kable(IPSData, row.names = FALSE)%>%
kable_styling( full_width = T,bootstrap_options = c("striped", "hover", "condensed", "responsive"),
position = "center", fixed_thead = T) %>%
scroll_box(width = "900px", height = "600px")| ano | zona | regiao_administrativa | ips_geral | necessidades_humanas_basicas_nota_dimensao | nutricao_cuidados_medicos_basicos | agua_saneamento | moradia | seguranca_pessoal | fundamentos_bem_estar_nota_dimensao | acesso_conhecimento_basico | acesso_informacao | saude_bem_estar | qualidade_meio_ambiente | oportunidades_nota_dimensao | direitos_individuais | liberdades_individuais | tolerancia_inclusao | acesso_educacao_superior |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2020 | Geral | Rio De Janeiro | 60.79 | 74.13 | 66.12 | 83.68 | 79.57 | 67.14 | 51.63 | 66.19 | 50.89 | 53.08 | 36.37 | 56.62 | 54.33 | 62.72 | 77.05 | 32.36 |
| 2020 | Centro | Portuaria | 42.06 | 59.67 | 64.32 | 80.80 | 71.06 | 22.49 | 36.00 | 59.51 | 20.73 | 19.20 | 44.55 | 30.52 | 25.66 | 50.76 | 40.23 | 5.43 |
| 2020 | Centro | Centro | 55.59 | 59.23 | 56.64 | 74.18 | 91.60 | 14.52 | 50.26 | 61.97 | 56.00 | 37.26 | 45.82 | 57.26 | 41.68 | 87.28 | 51.84 | 48.26 |
| 2020 | Norte | Rio Comprido | 55.50 | 68.27 | 72.61 | 84.36 | 73.29 | 42.82 | 50.81 | 68.72 | 42.08 | 39.33 | 53.10 | 47.42 | 37.76 | 60.82 | 68.64 | 22.48 |
| 2020 | Sul | Botafogo | 85.03 | 91.66 | 89.92 | 98.49 | 99.07 | 79.18 | 77.09 | 80.70 | 86.52 | 78.58 | 62.56 | 86.32 | 56.63 | 89.80 | 99.48 | 99.39 |
| 2020 | Sul | Copacabana | 80.23 | 92.03 | 92.01 | 99.32 | 96.84 | 79.97 | 68.93 | 77.01 | 81.95 | 72.40 | 44.36 | 79.73 | 56.72 | 80.14 | 98.53 | 83.53 |
| 2020 | Sul | Lagoa | 79.02 | 85.05 | 67.40 | 98.86 | 96.28 | 77.66 | 70.24 | 69.58 | 89.06 | 75.07 | 47.23 | 81.76 | 50.12 | 96.77 | 98.57 | 81.59 |
| 2020 | Norte | São Cristovão | 51.86 | 69.14 | 65.35 | 86.36 | 74.47 | 50.36 | 40.80 | 66.57 | 34.65 | 31.01 | 30.98 | 45.63 | 50.37 | 52.92 | 62.40 | 16.83 |
| 2020 | Norte | Tijuca | 71.61 | 85.47 | 85.23 | 84.62 | 95.54 | 76.49 | 51.37 | 58.84 | 80.32 | 18.84 | 47.48 | 78.00 | 51.76 | 85.53 | 95.88 | 78.82 |
| 2020 | Norte | Vila Isabel | 73.05 | 82.68 | 68.21 | 94.21 | 87.11 | 81.17 | 64.52 | 62.50 | 74.99 | 65.02 | 55.58 | 71.95 | 57.34 | 65.11 | 92.14 | 73.20 |
| 2020 | Norte | Ramos | 57.04 | 72.69 | 64.90 | 94.92 | 70.96 | 59.99 | 45.63 | 51.91 | 52.42 | 40.99 | 37.20 | 52.79 | 57.34 | 52.68 | 76.76 | 24.39 |
| 2020 | Norte | Penha | 56.96 | 74.39 | 43.14 | 97.56 | 85.59 | 71.27 | 45.01 | 56.40 | 43.90 | 49.68 | 30.08 | 51.49 | 51.27 | 51.93 | 79.57 | 23.19 |
| 2020 | Norte | Inhaúma | 56.92 | 74.43 | 64.39 | 92.05 | 83.13 | 58.16 | 38.92 | 42.06 | 45.07 | 38.13 | 30.40 | 57.41 | 59.00 | 63.36 | 76.47 | 30.81 |
| 2020 | Norte | Méier | 64.61 | 77.15 | 64.71 | 91.26 | 88.36 | 64.28 | 55.32 | 58.57 | 64.58 | 51.50 | 46.61 | 61.37 | 47.76 | 65.29 | 84.63 | 47.82 |
| 2020 | Norte | Iraja | 64.57 | 79.80 | 66.97 | 97.73 | 90.95 | 63.56 | 50.33 | 62.03 | 54.65 | 53.61 | 31.04 | 63.58 | 57.00 | 75.16 | 84.04 | 38.14 |
| 2020 | Norte | Madureira | 55.61 | 68.86 | 53.76 | 89.36 | 82.89 | 49.43 | 45.89 | 46.84 | 45.83 | 47.33 | 43.56 | 52.08 | 50.03 | 58.83 | 74.38 | 25.08 |
| 2020 | Oeste | Jacarepaguá | 61.94 | 74.38 | 73.37 | 68.78 | 73.59 | 81.76 | 52.36 | 59.65 | 54.36 | 55.89 | 39.56 | 59.07 | 57.85 | 64.54 | 79.79 | 34.08 |
| 2020 | Oeste | Bangu | 51.84 | 70.87 | 66.52 | 89.96 | 74.32 | 52.69 | 37.74 | 54.89 | 33.54 | 29.48 | 33.04 | 46.90 | 51.39 | 51.57 | 70.19 | 14.45 |
| 2020 | Oeste | Campo Grande | 58.68 | 77.91 | 70.78 | 78.76 | 76.78 | 85.31 | 42.89 | 61.34 | 40.10 | 37.71 | 32.40 | 55.24 | 61.65 | 60.83 | 79.22 | 19.26 |
| 2020 | Oeste | Santa Cruz | 50.82 | 71.47 | 57.91 | 71.21 | 65.96 | 90.79 | 31.87 | 54.53 | 18.98 | 38.62 | 15.34 | 49.11 | 77.58 | 41.51 | 71.03 | 6.31 |
| 2020 | Norte | Ilha Do Governador | 62.97 | 78.37 | 67.06 | 89.27 | 87.80 | 69.35 | 50.89 | 64.99 | 57.87 | 60.86 | 19.82 | 59.64 | 49.11 | 62.51 | 83.26 | 43.68 |
| 2020 | Norte | Anchieta | 55.72 | 72.83 | 74.81 | 86.42 | 76.82 | 53.29 | 42.92 | 45.22 | 36.94 | 51.63 | 37.90 | 51.39 | 56.59 | 63.67 | 68.30 | 17.01 |
| 2020 | Centro | Santa Teresa | 63.26 | 77.57 | 81.49 | 84.64 | 81.14 | 63.03 | 64.04 | 82.54 | 59.89 | 63.44 | 50.28 | 48.16 | 18.80 | 69.64 | 69.94 | 34.25 |
| 2020 | Oeste | Barra Da Tijuca | 69.70 | 70.61 | 78.49 | 50.75 | 84.87 | 68.34 | 67.87 | 73.69 | 78.51 | 73.12 | 46.15 | 70.62 | 52.94 | 78.85 | 82.94 | 67.74 |
| 2020 | Norte | Pavuna | 42.97 | 60.94 | 51.21 | 87.31 | 64.53 | 40.71 | 27.58 | 33.39 | 26.54 | 49.49 | 0.89 | 40.38 | 45.28 | 49.89 | 55.39 | 10.97 |
| 2020 | Oeste | Guaratiba | 43.54 | 54.92 | 64.71 | 17.54 | 59.45 | 77.99 | 31.07 | 53.26 | 22.15 | 14.52 | 34.36 | 44.61 | 77.06 | 50.47 | 45.24 | 5.68 |
| 2020 | Sul | Rocinha | 52.27 | 68.69 | 68.66 | 78.11 | 37.80 | 90.18 | 43.53 | 50.63 | 24.13 | 61.61 | 37.74 | 44.60 | 60.89 | 51.67 | 64.04 | 1.81 |
| 2020 | Norte | Jacarezinho | 45.15 | 54.61 | 37.52 | 85.73 | 21.52 | 73.69 | 37.11 | 41.14 | 0.00 | 73.51 | 33.80 | 43.72 | 58.33 | 42.94 | 71.29 | 2.34 |
| 2020 | Norte | Complexo Do Alemão | 43.68 | 57.18 | 51.47 | 92.98 | 39.64 | 44.62 | 36.94 | 31.00 | 12.85 | 64.32 | 39.59 | 36.93 | 44.41 | 39.29 | 63.52 | 0.52 |
| 2020 | Norte | Maré | 47.20 | 66.22 | 54.12 | 82.18 | 69.04 | 59.56 | 34.85 | 33.74 | 15.34 | 75.46 | 14.86 | 40.52 | 46.13 | 52.13 | 61.57 | 2.26 |
| 2020 | Norte | Vigário Geral | 54.93 | 72.03 | 54.17 | 88.64 | 71.39 | 73.91 | 45.77 | 46.77 | 36.45 | 55.32 | 44.55 | 46.99 | 56.26 | 48.21 | 70.56 | 12.94 |
| 2020 | Oeste | Realengo | 55.76 | 72.07 | 64.96 | 87.40 | 81.21 | 54.72 | 43.49 | 65.58 | 42.68 | 39.23 | 26.47 | 51.70 | 50.41 | 66.58 | 68.86 | 20.97 |
| 2020 | Oeste | Cidade De Deus | 47.84 | 73.68 | 55.73 | 93.43 | 65.41 | 80.15 | 31.47 | 40.38 | 23.50 | 26.84 | 35.17 | 38.37 | 55.32 | 25.47 | 68.20 | 4.50 |
codebook = data.frame(
variável = c("ano","zona",
"regiao_administrativa", "ips_geral",
"necessidades_humanas_basicas_nota_dimensao", "nutricao_cuidados_medicos_basicos"
,"agua_saneamento" , "moradia"
,"seguranca_pessoal" , "fundamentos_bem_estar_nota_dimensao"
, "acesso_conhecimento_basico" , "acesso_informacao"
, "saude_bem_estar" , "qualidade_meio_ambiente"
, "oportunidades_nota_dimensao", "direitos_individuais"
, "liberdades_individuais", "tolerancia_inclusao"
, "acesso_educacao_superior" ),descrição = c("ano de referencia","zona da cidade","regiao adm da prefeitura", "índice de progressão social",
"necessidades humanas básicas", "acesso à cuidados médicos básicos", "saneamento básico", "moradia",
"segurança", "fundamentos do bem estar","acesso ao conhecimento básico", "acesso à informação", "saúde",
"qualidade do meio ambiente", "oportunidades", "direitos individuais", "liberdades individuais", "inclusão social",
"acesso ao ensino superior"))
codebook %>% flextable()variável | descrição |
|---|---|
ano | ano de referencia |
zona | zona da cidade |
regiao_administrativa | regiao adm da prefeitura |
ips_geral | índice de progressão social |
necessidades_humanas_basicas_nota_dimensao | necessidades humanas básicas |
nutricao_cuidados_medicos_basicos | acesso à cuidados médicos básicos |
agua_saneamento | saneamento básico |
moradia | moradia |
seguranca_pessoal | segurança |
fundamentos_bem_estar_nota_dimensao | fundamentos do bem estar |
acesso_conhecimento_basico | acesso ao conhecimento básico |
acesso_informacao | acesso à informação |
saude_bem_estar | saúde |
qualidade_meio_ambiente | qualidade do meio ambiente |
oportunidades_nota_dimensao | oportunidades |
direitos_individuais | direitos individuais |
liberdades_individuais | liberdades individuais |
tolerancia_inclusao | inclusão social |
acesso_educacao_superior | acesso ao ensino superior |
A base de dados que vamos utilizar para a análise possui 33 linhas e 19 colunas. Dentre elas, temos 17 variáveis quantitativas e 2 variáveis qualitativas. Eliminamos a linha da variável “ips_geral” para otimizar as demonstrações gráficas.
IPSData = IPSData %>% filter(zona !='Geral')Como a proposta deste trabalho é a representação e análise de dados pelo software R, não precisamos discutir sobre o programa a ser utilizado. Por ser um ambiente livre, ele nos proporciona a autonomia na programação. No ambiente do software utilizamos uma ferramenta muito importante, o R-Markdown, que permite escolher o output de suas análises no R .
As Variáveis de interesse utilizado no estudo são:
• Acesso ao conhecimento básico;
• Acesso à educação superior;
• Oportunidade;
• Acesso ao saneamento básico.
As Hipóteses de interesse utilizado no estudo são:
• Se moradores das zonas-RJ tiveram acesso ao conhecimento básico;
• Se os moradores das zonas-RJ tiveram acesso à educação superior;
• Se os moradores das zonas-RJ tiveram acesso às oportunidades;
• Se os moradores das zonas-RJ tiveram acesso ao saneamento básico;
• Se o acesso ao saneamento básico nas zonas-RJ interfere no conhecimento básico.
A Análise será apresentada por região, bem como seus comparativos e interferência de uma variável sobre a outra estudada. Desta forma será permitido chegar às conclusões quais fatores podem interferir na progressão social e também comparar as regiões de acordo com seu desenvolvimento.
Faremos exposição das seguintes análises:
• Zona por conhecimento básico;
• Zona por conhecimento superior;
• Zona por oportunidade;
• Zona por saneamento básico;
• Saneamento por conhecimento básico.
Utilizaremos os seguintes métodos para análise:
• Análise Descritiva das variáveis utilizadas (média, mediana e desvio padrão);
• Histograma do IPS geral;
• Boxplots;
IPS por Zonas
Zona e Acesso à educação superior
Acesso à educação básica por zonas
Oportunidades por zonas
Saneamento básico por zonas
• Matriz de correlação;
• Diagrama de dispersão.
No final deste projeto apresentaremos os resultados obtidos sobre correlação entre a zona e as variáveis relacionadas à educação; e a resposta conclusiva sobre se o acesso ao saneamento básico influencia na educação sendo este demonstrado por meio do diagrama de dispersão e do teste de hipóteses. Além disso, teremos condições de observar o índice de correlação das variáveis agua_saneamento e acesso_conhecimento_basico, e o teste da seguinte hipótese para responder a pergunta: O acesso ao saneamento básico nas zonas/RJ interfere no conhecimento básico?
Fontes
Informações sobre o IPS:
Estudo sobre a relação entre saneamento e educação:
https://tratabrasil.org.br/pesquisa-trata-brasil-saneamento-educacao-trabalho-e-turismo/
hist(IPSData$ips_geral, col = "lightblue",ylim = c(0,30), main = "Histograma do IPS Geral", labels = TRUE, freq = TRUE, border = "lightblue", xlab = "IPS Geral", ylab = "Quantidade")O histograma do IPS Geral é uma representação da distribuição da quantidade de bairros de acordo com o ips geral. Podemos observar que a maior parte dos bairros possue um IPS entre 50 e 60. Sua simetria é classificada como assimétrica à direita.
# IPS por Zonas
boxplot(ips_geral ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"),
main="Boxplot 1 \n IPS Total por Zonas \n", ylab = "IPS", xlab = "Zonas do Rio de Janeiro")No primeiro boxplot, temos a relação das variáveis Zona e Ips_geral. Através dele é possível verificar que a região da zona central possui um dos IPS mais baixos de todas as regiões e a zona sul possui o maior IPS. A Zona Central tem uma assimetria negativa. Na Zona Norte, a assimetria é positiva. A Zona Oeste é a que mais se aproxima de uma simetria. A Zona Sul possui uma grande dispersão, pois seu intervalo interquatílico são muito significante, e sua assimetria é negativa. Nesse gráfico não temos outliers.
# Zona e Acesso à educação básica
boxplot(acesso_conhecimento_basico ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"),
main="Boxplot 2 \n Acesso à educação básica \n", ylab = "Índice de acesso à educação básica", xlab = "Zonas")No segundo boxplot, temos a relação entre as variáveis Zona e Acesso_conhecimento_basico. O maior índice de educação básica é do bairro Santa Teresa, que pertence à região central. A Zona Norte é a região com os índices de educação básica mais baixos. A Zona Norte possui grande simetria. Nesse gráfico não temos outliers.
# Zona e Acesso à educação superior
boxplot(acesso_educacao_superior ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"),
main="Boxplot 3 \n Acesso ao ensino superior \n", ylab = "Índice de acesso ao ensino superior", xlab = "Zonas do Rio de Janeiro")O terceiro boxplot representa a relação entre as variáveis Zona e Acesso_educacao_superior. A Zona Sul é a região com o maior índice de acesso ao ensino superior, porém também é a zona com a maior distribuição, pois apesar da concentração dos bairros se encontrar no topo do gráfico, a sua calda se extende até a parte inferior. Embora a região com o menor índice seja a Zona Norte, todos os bairros da Zona Oeste se encontram abaixo de 40, com exceção de um outlier. A Zona Norte também possui um outlier.
# Oportunidades
boxplot( oportunidades_nota_dimensao ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"),
main="Boxplot 4 \n Oportunidades \n", ylab = "Oportunidades", xlab = "Zonas")No quarto boxplot temos a relação Oportunidades por Zona e, a partir de sua análise, observamos que a Zona Sul se destaca com os maiores índices, seguida da Zona Norte. A região central possui os índices de oportunidades mais baixos. Nesse gráfico não temos outliers.
# Saneamento básico
boxplot( agua_saneamento ~ zona, data=IPSData, col=c("red","#faa005","#1bc704","#0f8efc","yellow"),
main="Boxplot 5 \n Acesso ao saneamento básico \n", ylab = "Nível de saneamento dos bairros", xlab = "Zonas")No quinto e último boxplot, temos a relação das variáveis agua_saneamento e zona. A Zona Sul é a região com o maior índice de sanemanto básico. Apesar o máximo da zona central estar abaixo do máximo da zona oeste, esta possui muitos bairros com índices abaixo de 60. Essa zona também possui simetria.
library(corrplot)## corrplot 0.92 loaded
IPSData %>% select(acesso_conhecimento_basico,acesso_educacao_superior,oportunidades_nota_dimensao,agua_saneamento) %>%
cor() %>% corrplot(method = "circle")De acordo com a matriz de correlação das variáveis acesso_conhecimento_basico,acesso_educacao_superior,oportunidades_nota_dimensao,agua_saneamento, as variáves que possuem a correlação mais forte são acesso_educacao_superior e oportunidades_nota_dimensao. Essa correlação é positiva e forte, ou seja, quanto maior o grau de instrução, mais oportunidades os indivíduos terão.
Segundo a matriz de correlação essas variáveis não possuem relação, porém vamos conferir a veracidade dessa afirmação por outros métodos.
cor(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento)## [1] -0.007066667
# resultado = -0.007066667O valor absoluto da correlação é próximo de 0, o que indica uma correlação fraca entre as variáveis. O valor negativo indica uma correlação negativa fraca. Isso significa que, em geral, quando a variável “acesso_conhecimento_basico” aumenta, a variável “agua_saneamento” tende a diminuir levemente, e vice-versa. No entanto, a correlação é tão próxima de zero que essa relação é praticamente inexistente.
plot(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento, col="orange",
pch=19,main="Diagrama de dispersão",
xlab="Acesso à educação",
ylab="Saneamento")
abline(lsfit(IPSData$acesso_conhecimento_basico,IPSData$agua_saneamento),col="purple")A partir da análise do diagrama de dispersão podemos concluir que as variáveis agua_saneamento e acesso_conhecimento_basico possuem relação fraca, quase inexistente. Há uma ausência de relação linear entre as variáveis. Por fim, o teste de hipóteses trará a conclusão final.