author: Marcelo de Oliveira Silva Guimarães
date: 09/01/2017
Encontrar e explicitar características significativas nos dados das escolas do RJ que produza um melhor entendimento do estágio de desenvolvimento educacional no ano de 2013.
Os dados utilizados para análise foram obtidos através do seguinte:
[link](http://dadosabertos.rio.rj.gov.br/apiEducacao/apresentacao/csv/escolas__.csv).Outras fontes relevantes:
[ideb-2013](http://academia.qedu.org.br/ideb/ideb-2013/)[inep-planilhas](http://portal.inep.gov.br/web/portal-ideb/planilhas-para-download)Após instalar e configurar a máquina virtual com o sistema hpcc, o arquivo escolas.csv foi enviado ao servidor e subsequentemente distribuido, como pode ser visto na imagem:
Distribuição de arquivos
Um código foi desenvolvido no ecl watch playground para obter as tabelas utilizadas nas análises estatísticas:
Codigo
Cada tabela foi desenhada para responder uma das perguntas: - Quais bairros tem menos escolas?
## [1] "-ITANHANGÁ "
## [2] "Abolição "
## [3] "Alto da Boa Vista "
## [4] "Andaraí - Jamelão "
## [5] "Andaraí - Morro do Andaraí "
## [6] "Anil -Jacarepaguá "
Quais bairros tem mais escolas? ##
##
## bairro total percentual
## ----------- ------ -----------
## Santa Cruz 78 5.256065
##
##
## bairro total percentual
## -------- ------ -----------
## Catumbi 2 0.1347709
##
##
## cpedagogico total __fileposition__
## ------------ ------ -----------------
## 537 0
Existem 537 escolas sem informação sobre o coordenador pedagógico. Utilizando as informações da fonte principal não foi possível encontrar o mesmo coordenador atuando em mais de uma escola.
##
##
## seguimento media_ideb meta_2013 % Meta
## ----------- ----------- ---------- ---------
## Primeiro 2.522035 4.9 79.82456
## Segundo 1.069946 4.4 53.22129
Podemos ver na tabela que pŕoximo de 80% das escolas do Rio de Janeiro atingiram a meta nacional do ideb de 2013 para o primeiro seguimento do ensino fundamental e 53% atingiram a meta para o segundo seguimento.
Pelas demonstrações anteriores podemos ver que várias manipulações podem ser feitas nos dados utilizando a plataforma HPCC. Essa plataforma permite exportar o resultado dessas manipulações em planilhas menores que podem ser tratadas facilmente utilizando a programação R.
## Warning in `[<-.data.table`(`*tmp*`, 8, , value = 1484): Coerced 'double'
## RHS to 'character' to match the column's type; may have truncated
## precision. Either change the target column to 'double' first (by creating
## a new 'double' vector length 8 (nrows of entire table) and assign that;
## i.e. 'replace' column), or coerce RHS to 'character' (e.g. 1L, NA_[real|
## integer]_, as.*, etc) to make your intent clear and for speed. Or, set the
## column type correctly up front when you create the table and stick to it,
## please.
| Variável | Ideb1 | Ideb2 | Lat | Lon |
|---|---|---|---|---|
| Min. | 2.500 | 3.000 | -23.07 | -43.72 |
| 1st Qu. | 5.000 | 4.000 | -22.92 | -43.47 |
| Median | 5.500 | 4.400 | -22.89 | -43.34 |
| Mean | 5.472 | 4.448 | -22.89 | -43.38 |
| 3rd Qu. | 5.900 | 4.800 | -22.86 | -43.26 |
| Max. | 8.500 | 6.600 | -22.75 | -43.11 |
| NA’s | 800.000 | 1127.000 | 59.00 | 59.00 |
| Número de Registros | 1484.000 | 1484.000 | 1484.00 | 1484.00 |
## -------------------------------------------------------------------------
## data.table + dplyr code now lives in dtplyr.
## Please library(dtplyr)!
## -------------------------------------------------------------------------
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:data.table':
##
## between, first, last
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Warning: Removed 2045 rows containing non-finite values (stat_boxplot).
## Google Maps API Terms of Service: http://developers.google.com/maps/terms.
## Please cite ggmap if you use it: see citation("ggmap") for details.
##
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
##
## select
## Source : https://maps.googleapis.com/maps/api/staticmap?center=-22.910127,-43.354677&zoom=11&size=640x640&scale=2&maptype=terrain&language=en-EN
## Warning: Removed 209 rows containing non-finite values (stat_density2d).
## Warning: Removed 209 rows containing non-finite values (stat_density2d).
## Warning: Removed 182 rows containing missing values (geom_point).
O resultado do teste anova para diferença entre o resultado se uma escola atinge a meta em função da latitude e longitude é dado abaixo:
## Response lon :
## Df Sum Sq Mean Sq F value Pr(>F)
## as.integer(AtingiuMeta) 1 0.0476 0.047572 2.3687 0.1243
## Residuals 682 13.6974 0.020084
##
## Response lat :
## Df Sum Sq Mean Sq F value Pr(>F)
## as.integer(AtingiuMeta) 1 0.00905 0.0090499 3.9981 0.04595 *
## Residuals 682 1.54375 0.0022636
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
O resultado resumidamente:
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | sig |
|---|---|---|---|---|---|
| 1 | 0.0475724 | 0.0475724 | 2.368658 | 0.1242572 | FALSE |
| 1 | 0.0090499 | 0.0090499 | 3.998097 | 0.0459479 | TRUE |
| indic | a que há uma | diferença s | ignificativ | a da quanti | dade de escolas que atingiram a meta nacional em função da sua latitude. |