Carregando o Banco de Dados

Banco de dados encontrado no DataRio: http://www.data.rio/search?q=871

Introdução

O objetivo da pesquisa é a análise da quantidade de pessoas com alguma dificuldade de locomoção e sua respectiva proposta de intervenção. Nós iremos nos ater se há alguma ligação da zona em que a pessoa reside com a quantidade de pessoas com alguma dificuldade, pois esse fato pode estar ligado a condição sócio demográfica. Abaixo estão representados dados e gráficos que irão auxiliar o leitor a entender e ser guiado às estatísticas do trabalho proposto. Para melhor manipulação da base de dados criamos a coluna “zonas” e dividimos da seguinte forma:

  1. Zona Sul
  2. Centro
  3. Zona Oeste
  4. Zona Norte
  5. Zona Portuária
  6. Ilha de Paquetá

Objetivos

A proposta de termos escolhido esse banco de dados é para provarmos que as regiões mais carentes possuem mais pessoas que precisam de uma estrutura especial para atingir seu direito de ir e vir no seu bairro, e ainda correlacionarmos se nas zonas mais pobres se obtém essa estrutura tanto de mobilidade, quanto médico-assistencial.

Método

Descrição do Banco de Dados: A base de dados que será analisada contém 14 colunas e 34 linhas, que são relativas às áreas estudadas e pesquisadas pela prefeitura do município do Rio de Janeiro, com sua última atualização no dia 29 de Maio de 2019. Abrange a quantidade total de pessoas com alguma dificuldade de locomoção (caminhar/andar) por zonas específicas e suas porcentagens.

Métodos Utilizados:

Boxplot: é uma ferramenta gráfica para representar a variação de dados observados de uma variável (QualixQuanti) por meio de quartis (primeiro, segundo e terceiro quartil). O boxplot tem uma reta que se estende verticalmente ou horizontalmente a partir da caixa, indicando a simetria fora do quartil superior e do quartil inferior. Os outliers (valores discrepantes) podem ser plotados como pontos individuais. Em resumo, o boxplot identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.

Gráfico de Barras: Um gráfico de barras é uma forma de resumir um conjunto de dados categóricos. Ele mostra os dados utilizando um número de barras de mesma largura, cada uma delas representando uma categoria particular. A altura de cada barra é proporcional a uma agregação específica (por ex., quantidade de pessoas com dificuldade de locomoção/zona).

Summary: é um resumo sobre as informações encontradas em um gráfico boxplot, contendo mínimo, máximo, média, mediana, primeiro quartil e terceiro quartil.

Teste de Normalidade: Em estatística, os testes de normalidade são usados para determinar se um conjunto de dados de uma dada variável aleatória, é bem modelada por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída. Mais precisamente, os testes são uma forma de seleção de modelos, e podem ser interpretados de várias maneiras, dependendo de como cada um interpreta as probabilidades: Exemplo de aplicações: Testar a normalidade dos resíduos de uma regressão linear. A regressão linear só deve ser usada se os erros são normais, portanto, caso o teste aponte que esta premissa é inválida, os resultados da regressão (intervalos de confiança, etc) não podem ser usados. Neste caso, o modelo deve ser modificado (introduzindo outras variáveis explanatórias, ou mudando o modelo) para que os erros se comportem como uma variável normal.

Testes utilizados neste trabalho:

Teste de Shapiro – Wilk: O teste de Shapiro-Wilk é um teste de normalidade nas estatísticas frequentistas. Foi publicado em 1965 por Samuel Sanford Shapiro e Martin Wilk. O teste de Shapiro-Wilk testa a hipótese nula de que uma amostra x 1 , …, x n veio de uma população normalmente distribuída . A estatística do teste é constituído pelos valores esperados das estatísticas da ordem de variáveis aleatórias independentes e identicamente distribuídas, amostradas a partir da distribuição normal padrão; finalmente, é a matriz de covariância dessas estatísticas de ordem normal.

Teste de Kruscal – Wallis: É usado para comparar duas ou mais amostras independentes de tamanhos iguais ou diferentes. Ele estende o teste U de Mann-Whitney quando há mais de dois grupos. O equivalente paramétrico do teste de Kruskal-Wallis é o teste F usado na análise de variância de um fator. Um teste de Kruskal-Wallis significante indica que ao menos uma amostra domina estocasticamente outra amostra. O teste não identifica onde esta dominância estocástica ocorre ou para quantos pares de grupos se obtém dominância estocástica. Por ser um método não paramétrico, o teste de Kruskal-Wallis não assume uma distribuição normal dos resíduos, diferentemente da análoga análise de variância de um fator. Se o pesquisador puder assumir os pressupostos menos rigorosos de uma distribuição com forma e escala idênticas para todos os grupos, exceto para qualquer diferença nas medianas, então, a hipótese nula é de que as medianas de todos os grupos são iguais e a hipótese alternativa é de que ao menos a mediana de população de um grupo é diferente da mediana de população de ao menos outro grupo.

Os testes utilizados se justificam pelas variáveis quantitativas e qualitativas do banco de dados estudado e paramétricas. Testamos a normalidade (Shapiro - Wilk) dos resíduos para analisar se os erros são normais, caso o teste aponte que essa premissa é inválida, os resultados da regressão não podem ser utilizados. Neste caso, o modelo deve ser modificado, mudando o modelo (Teste de Kruscal), para que os erros não se comportem como uma variável normal. Valor de α: 0.05 (5%)

Análise dos Resultados

No gráfico de barras acima, podemos observar que as Zonas Oeste e Norte são as que mais possuem pessoas com dificuldade de locomoção, com uma população de mais de 5 mil e mais de 15 mil pessoas, respectivamente. Em contrapartida, as Zonas Central, Sul, Portuária e Ilha são lugares onde possuem uma população inferior a 5 mil pessoas.

No boxplot acima, podemos observar as Zonas Oeste, Norte e Sul como relevantes. Na Zona Oeste, a amplitude da distribuição é elevada (entre 100 mil e 250 mil pessoas), não possuindo uma simetria, com valor máximo de 300 mil pessoas. Na Zona Norte, a amplitude da distribuição está entre 50 mil e um pouco mais de 100 mil pessoas, com um outlier do bairro do Méier de 230.408 pessoas, não possuindo simetria na sua distribuição. Na Zona Sul, a amplitude da distribuição de pessoas deficientes é entre 100 mil e 150 mil, com valor máximo próximo de 200 mil pessoas e um outlier do bairro da Rocinha de 26.672 pessoas.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   4.000   3.364   4.000   6.000
##           1           2           3           4           5           6 
##  1.36102441 -1.62689971  0.41796340 -2.03390261 -2.25655384 -2.21731507 
##           7           8           9          10          11          12 
##  0.40706911  0.76675353  0.75315715  0.56265714  0.61225879  0.51383063 
##          13          14          15          16          17          18 
##  1.10747519  0.66622058  0.89868635  0.37527267 -0.13682996  0.09468799 
##          19          20          21          22          23          24 
## -0.26845561  0.72229274  2.29312799  0.51534170 -1.63541483  0.07717733 
##          25          26          27          28          29          30 
##  0.55354539 -0.53428889 -2.61840245  0.33096029  0.36701121  0.47034009 
##          31          32          33 
##  0.48121402 -0.34056844 -0.67943629
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos_Modelo
## W = 0.88204, p-value = 0.001881

p-value< α – rejeita h0: dados não são normalmente distribuídos.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  X871$Zonas and X871$PopulacaoBranca
## Kruskal-Wallis chi-squared = 32, df = 32, p-value = 0.4667

p-value_<(menor ou igual) α: Há evidência de dominância. As diferenças entre algumas medianas são estatisticamente significativas, rejeita a hipótese nula e conclui – se que nem todas as medianas são iguais.

No boxplot acima, podemos analisar as Zonas Oeste e Norte como localidades com um número relevante de população preta com alguma dificuldade de andar/caminhar. Na Zona Oeste, a amplitude da distribuição é alta entre 10 mil e 60 mil pessoas, com máximo de mais de 60 mil e assimetria distributiva. Na Zona Norte, a amplitude de distribuição é baixa entre um pouco mais de 10 mil e mais de 20 mil pessoas, com assimetria e dois outliers dos bairros Méier (42.426) e Madureira (50.325).

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   4.000   3.364   4.000   6.000
##           1           2           3           4           5           6 
## -17085.1642 -16645.3824  -9712.8268  -8558.1380 -11732.4402 -12398.8157 
##           7           8           9          10          11          12 
##  -7094.2190 -10759.4286  -5912.3719  -6797.6316   3377.1254  -3672.7836 
##          13          14          15          16          17          18 
##  20406.7892   1692.5586  28305.0899  35308.2410  39863.7929  45079.8117 
##          19          20          21          22          23          24 
##  31657.4668  -5568.4752 -23444.9993   -192.1656 -15668.0896  -7819.3795 
##          25          26          27          28          29          30 
##  10309.2812  -8647.3417 -11929.6112 -13304.4215 -10988.6129  -7678.2316 
##          31          32          33 
##    544.1682  12664.9860 -13598.7807
## 
##  Shapiro-Wilk normality test
## 
## data:  residuosModelo2
## W = 0.83461, p-value = 0.0001589

p-value< α – rejeita h0: dados não são normalmente distribuídos.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  X871$Zonas and X871$PopulacaoPreta
## Kruskal-Wallis chi-squared = 32, df = 32, p-value = 0.4667

p-value_<(menor ou igual) α: Há evidência de dominância. As diferenças entre algumas medianas são estatisticamente significativas, rejeita a hipótese nula e conclui – se que nem todas as medianas são iguais.

No referido gráfico, analisaremos as Zonas com populações de número relevante (mais de 5 mil pessoas deficientes) que são as Zonas Oeste, Norte e Sul da cidade do RJ. Na Zona Oeste, a amplitude de distribuição é alta entre 1.500 e mais de 3.500 pessoas, possuindo assimetria. Na Zona Norte, a amplitude de distribuição é baixa entre 1.000 e 1.500 pessoas, com assimetria, número máximo de 2.000 pessoas e dois bairros com outliers, Pavuna (2.075 pessoas) e Jacarezinho (322 pessoas). E por último , a Zona Sul com uma amplitude de distribuição entre mais de 500 pessoas e um pouco mais de 1.000 pessoas, com número máximo de 1.500 pessoas e com assimetria.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   4.000   3.364   4.000   6.000
##           1           2           3           4           5           6 
##  -968.99413 -1248.76033  -157.94864    51.14406  -483.44242  -825.97372 
##           7           8           9          10          11          12 
##  -144.80388  -472.13058  -169.79918  -335.71905   109.63876  -546.50023 
##          13          14          15          16          17          18 
##   699.44786   281.57945   840.72023  2257.35627  1375.94487  2317.28064 
##          19          20          21          22          23          24 
##  2412.69758    21.28645 -1262.63667   -17.50845  -978.16766   386.01332 
##          25          26          27          28          29          30 
##   712.53190  -421.01154  -956.00975 -1040.11939  -885.96813    82.83116 
##          31          32          33 
##    92.86832   248.93805  -974.78515
## 
##  Shapiro-Wilk normality test
## 
## data:  residuosModelo3
## W = 0.89081, p-value = 0.003102

p-value< α – rejeita h0: dados não são normalmente distribuídos.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  X871$Zonas and X871$PopulacaoAmarela
## Kruskal-Wallis chi-squared = 32, df = 32, p-value = 0.4667

p-value_<(menor ou igual) α: Há evidência de dominância. As diferenças entre algumas medianas são estatisticamente significativas, rejeita a hipótese nula e conclui – se que nem todas as medianas são iguais.

No gráfico acima, iremos analisar as Zonas relevantes (mais de 50.000 pessoas pardas deficientes). Na Zona Norte, o número máximo de pessoas pardas deficientes é de mais de 50.000 e o mínimo menos de 50.000, com assimetria na distribuição e um outlier de 147.414 pessoas pardas deficientes em Madureira. Na Zona Oeste, a amplitude de distribuição é elevada entre 55.000 e 200.000 pessoas pardas deficientes, com um número máximo de 250.000 pessoas, possuindo assimetria.

## Length  Class   Mode 
##      0   NULL   NULL
##           1           2           3           4           5           6 
## -49321.4935 -56920.0325 -42158.1554 -33100.2195 -45357.4335 -48704.6640 
##           7           8           9          10          11          12 
## -35707.0918 -35751.6529 -29673.6977 -11188.2213  -3138.6533 -19233.5124 
##          13          14          15          16          17          18 
##  52066.6606    292.8743  76913.9351 136262.1410 131144.0424 174571.0309 
##          19          20          21          22          23          24 
## 116538.1480   1804.6736 -70072.2866    302.3030 -55941.2084  -7309.1175 
##          25          26          27          28          29          30 
##  28773.9513 -10855.3717 -34703.1042 -54158.0361 -35470.6529  -8344.3200 
##          31          32          33 
## -13062.6409  32627.7609 -51125.9551
## 
##  Shapiro-Wilk normality test
## 
## data:  residuosModelo4
## W = 0.82073, p-value = 8.231e-05

p-value< α – rejeita h0: dados não são normalmente distribuídos.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  X871$Zonas and X871$PopulacaoParda
## Kruskal-Wallis chi-squared = 32, df = 32, p-value = 0.4667

p-value_<(menor ou igual) α: Há evidência de dominância. As diferenças entre algumas medianas são estatisticamente significativas, rejeita a hipótese nula e conclui – se que nem todas as medianas são iguais.

No gráfico acima, analisaremos as Zonas relevantes (acima de 5 pessoas) para a população indígena deficiente (dificuldade de andar/caminhar). Na Zona sul, a amplitude de distribuição é entre 10 e 20 pessoas, com mediana de 15 pessoas e possui assimetria, com valor mínimo de 10 pessoas e máximo de 20 pessoas. Na Zona Central (centro), a amplitude de distribuição é entre 10 e 15 pessoas, com valor mínimo de 10 pessoas e máximo de 15 pessoas, com valores simétricos. Na Zona Oeste, a amplitude de distribuição é entre um pouco mais de 20 pessoas e um pouco menos de 30 pessoas, com valor mínimo de 20 pessoas e máximo de um pouco mais de 30 pessoas, possuindo um outlier de zero o bairro da Cidade de Deus. Na Zona Portuária, com 25 pessoas indígenas deficientes em apenas um bairro. ** Única população que variou nos resultados dos testes**

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   17.43  127.02  165.17  199.35  267.06  502.39       3
##             1             2             3             4             5 
##  -98.52448978  -31.01884575  -30.76499838   89.06774268   10.03627384 
##             6             7             8             9            10 
##  -64.20780918  -27.57365206  -43.27851617   25.21197453  -52.95135148 
##            11            12            13            14            15 
## -105.62816980  -45.29576611  140.20343494   65.68787654   41.38100874 
##            16            17            18            19            20 
##  295.34467207  222.64386765  270.83483483  151.69094330  -40.89688171 
##            22            23            24            25            26 
##  -45.84169614  -83.73999144   85.00934232   23.16156553 -123.24067225 
##            27            29            30            31            32 
## -247.31673258 -150.16309126   -0.01760983  -95.78503546 -134.02822759
## 
##  Shapiro-Wilk normality test
## 
## data:  residuosModelo5
## W = 0.94768, p-value = 0.1464

p-value> α – não rejeita h0: dados são normalmente distribuídos. *** único resultado diferente.***

## 
##  Kruskal-Wallis rank sum test
## 
## data:  X871$Zonas and X871$PopulacaoIndigena
## Kruskal-Wallis chi-squared = 29, df = 29, p-value = 0.4651

p-value_<(menor ou igual) α: Há evidência de dominância. As diferenças entre algumas medianas são estatisticamente significativas, rejeita a hipótese nula e conclui – se que nem todas as medianas são iguais.

Conclusão

Concluímos com os estudos supracitados, que os nossos objetivos de pesquisa são relevantes, ou seja, existem sim Zonas no município do Rio de Janeiro que precisam de mais atenção nas políticas públicas de mobilidades especiais. E esses lugares são as Zonas Oeste e Norte, pois em relação a todas as populações divididas em raças estudadas, são os bairros dessas Zonas que mais possuem pessoas com dificuldade de andar/caminhar. Com esses estudos em mãos, podemos enviar à Prefeitura do Rio de Janeiro com a intenção de ajudá-los a promover políticas públicas de pavimentação adequadas (como rampas para acesso de cadeirantes, eliminação de buracos nas ruas, calçadas de tamanho padrão, etc) e também assistência médico-hospitalar, para que as necessidades dessas populações sejam sanadas.

Referências Bibliográficas

https://pt.wikipedia.org/wiki/Teste_de_normalidade#Exemplos_de_testes

https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk_test

https://support.minitab.com/pt-br/minitab/19/help-and-how-to/statistics/nonparametrics/how-to/kruskal-wallis-test/interpret-the-results/key-results/

https://pt.m.wikipedia.org/wiki/Teste_de_Kruskal-Wallis