Estudo de do grau de desempenho das escolas de RJ

author: Marcelo de Oliveira Silva Guimarães
date: 09/01/2017

Objetivo

Encontrar e explicitar características significativas nos dados das escolas do RJ que produza um melhor entendimento do estágio de desenvolvimento educacional no ano de 2013.

Fonte principal de dados:

Os dados utilizados para análise foram obtidos através do seguinte:

Outras fontes relevantes:

HPCC - Distribuição (spraying)

Após instalar e configurar a máquina virtual com o sistema hpcc, o arquivo escolas.csv foi enviado ao servidor e subsequentemente distribuido, como pode ser visto na imagem:

Distribuição de arquivos

Distribuição de arquivos

HPCC - Código (ECL playground)

Um código foi desenvolvido no ecl watch playground para obter as tabelas utilizadas nas análises estatísticas:

Codigo

Codigo

HPCC - Saída (ECL playground)

Cada tabela foi desenhada para responder uma das perguntas: - Quais bairros tem menos escolas?

## [1] "-ITANHANGÁ                              "
## [2] "Abolição                                "
## [3] "Alto da Boa Vista                       "
## [4] "Andaraí - Jamelão                       "
## [5] "Andaraí - Morro do Andaraí              "
## [6] "Anil -Jacarepaguá                       "

HPCC - Saída (ECL playground)

## 
## 
## bairro        total   percentual
## -----------  ------  -----------
## Santa Cruz       78     5.256065
## 
## 
## bairro     total   percentual
## --------  ------  -----------
## Catumbi        2    0.1347709

HPCC - Saída (ECL playground)

## 
## 
## cpedagogico    total   __fileposition__
## ------------  ------  -----------------
##                  537                  0

Existem 537 escolas sem informação sobre o coordenador pedagógico. Utilizando as informações da fonte principal não foi possível encontrar o mesmo coordenador atuando em mais de uma escola.

HPCC - Saída (ECL playground)

## 
## 
## seguimento    media_ideb   meta_2013     % Meta
## -----------  -----------  ----------  ---------
## Primeiro        2.522035         4.9   79.82456
## Segundo         1.069946         4.4   53.22129

Podemos ver na tabela que pŕoximo de 80% das escolas do Rio de Janeiro atingiram a meta nacional do ideb de 2013 para o primeiro seguimento do ensino fundamental e 53% atingiram a meta para o segundo seguimento.

HPCC - Saída (Visualização)

Tratamento estatístico (Programação R)

Pelas demonstrações anteriores podemos ver que várias manipulações podem ser feitas nos dados utilizando a plataforma HPCC. Essa plataforma permite exportar o resultado dessas manipulações em planilhas menores que podem ser tratadas facilmente utilizando a programação R.

Tratamento estatístico - Análise descritiva

## Warning in `[<-.data.table`(`*tmp*`, 8, , value = 1484): Coerced 'double'
## RHS to 'character' to match the column's type; may have truncated
## precision. Either change the target column to 'double' first (by creating
## a new 'double' vector length 8 (nrows of entire table) and assign that;
## i.e. 'replace' column), or coerce RHS to 'character' (e.g. 1L, NA_[real|
## integer]_, as.*, etc) to make your intent clear and for speed. Or, set the
## column type correctly up front when you create the table and stick to it,
## please.
Variável Ideb1 Ideb2 Lat Lon
Min. 2.500 3.000 -23.07 -43.72
1st Qu. 5.000 4.000 -22.92 -43.47
Median 5.500 4.400 -22.89 -43.34
Mean 5.472 4.448 -22.89 -43.38
3rd Qu. 5.900 4.800 -22.86 -43.26
Max. 8.500 6.600 -22.75 -43.11
NA’s 800.000 1127.000 59.00 59.00
Número de Registros 1484.000 1484.000 1484.00 1484.00

Tratamento estatístico - Análise descritiva

## -------------------------------------------------------------------------
## data.table + dplyr code now lives in dtplyr.
## Please library(dtplyr)!
## -------------------------------------------------------------------------
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:data.table':
## 
##     between, first, last
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Warning: Removed 2045 rows containing non-finite values (stat_boxplot).

Tratamento estatístico - Análise descritiva

Tratamento estatístico - Distribuiçao das escolas por bairro.

## Google Maps API Terms of Service: http://developers.google.com/maps/terms.
## Please cite ggmap if you use it: see citation("ggmap") for details.
## 
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
## 
##     select
## Source : https://maps.googleapis.com/maps/api/staticmap?center=-22.910127,-43.354677&zoom=11&size=640x640&scale=2&maptype=terrain&language=en-EN
## Warning: Removed 209 rows containing non-finite values (stat_density2d).

## Warning: Removed 209 rows containing non-finite values (stat_density2d).
## Warning: Removed 182 rows containing missing values (geom_point).

Tratamento estatístico - Correlação Local x Nota

O resultado do teste anova para diferença entre o resultado se uma escola atinge a meta em função da latitude e longitude é dado abaixo:

##  Response lon :
##                          Df  Sum Sq  Mean Sq F value Pr(>F)
## as.integer(AtingiuMeta)   1  0.0476 0.047572  2.3687 0.1243
## Residuals               682 13.6974 0.020084               
## 
##  Response lat :
##                          Df  Sum Sq   Mean Sq F value  Pr(>F)  
## as.integer(AtingiuMeta)   1 0.00905 0.0090499  3.9981 0.04595 *
## Residuals               682 1.54375 0.0022636                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Tratamento estatístico - Correlação Local x Nota

O resultado resumidamente:

Df Sum Sq Mean Sq F value Pr(>F) sig
1 0.0475724 0.0475724 2.368658 0.1242572 FALSE
1 0.0090499 0.0090499 3.998097 0.0459479 TRUE
indic a que há uma diferença s ignificativ a da quanti dade de escolas que atingiram a meta nacional em função da sua latitude.