R Markdown

2ª entrega do trabalho final de estatística (26/01/2023)

Ana Carolina Vilela (20221520044) -

Emilyn Machado (20221520053) -

Luisa Ferraro (20221520006) -

Maria Eduarda Rodrigues (20221520046) -

Objetivo geral

Estudar a desigualdade no que tange os desempenho dos estudantes no enem.

Objetivo específico

1 - A região geográfica influencia no desempenho.

2 - O número de matrículas por docente no ensino médio influencia no desempenho

Fonte dos dados:

INEP, 2018 apud Kaggle, 2022

Dicionário de dados:

Ano = ano em que a prova foi realizada

Região Geográfica = região em que a prova foi realizada

Unidade da Federação = Unidade da Federação em que a prova foi realizada

Área Territorial - km² = Área territorial em quilômetros quadrados das unidades federativas em que a prova foi realizada

Pop_estimada = População estimada

Inc_ENEM = Inscrições ENEM

MAT_Edu_Infantil = Matrículas na educação infantil

MAT_Ens_Fundamental = Matrículas no ensino fundamental

MAT_Ens_Médio = Matrículas no ensino médio

MAT_Educ_Prof_Técnica_Médio = Matrículas na Educação Profissional Técnica de Nível Médio

MAT_Educ_Profissional (FIC) = Matrículas na educação Profissional de Formação Inicial e Continua

MAT_EJA = Matrículas na Educação de Jovens e Adultos

MAT_Educ_Especial = Matrículas na Educação Especial

DOCENTE_Infantil = Docentes na educação infantil

DOCENTES_Fundamental = Docentes no ensino fundamental

DOCENTES_Médio = Docentes no ensino médio

DOCENTE_Profissional (FIC) = Docentes na educação profissional de formação inicial e continua

DOCENTE_EJA = Docentes na educação de Jovens e adultos

DOCENTE_Especial = Docente na educação especial

Mediana_CN = Mediana de ciências da natureza

Mediana_CH = Mediana de ciências humanas

Mediana_LN = Mediana de linguagens códigos e suas tecnologias

Mediana_MT = Mediana de matemática e suas tecnologias

Mediana_RD = Mediana de Redação

Número de observações: 27 observações

library(readr)
desempenho_ENEM <- read_delim("~/Base_de_dados-master/desempenho_ENEM.csv", 
                              delim = ";", escape_double = FALSE, trim_ws = TRUE)

library(readxl)
library(flextable)
library(dplyr)
library(RColorBrewer)
library(geobr)
library(ggplot2)
library(leaflet)
library(corrplot)

# Tabelas sem outlier das medianas
desempenho_ENEM_sem_outliers_CN=desempenho_ENEM %>% filter(Mediana_CN<=10000)
desempenho_ENEM_sem_outliers_CH=desempenho_ENEM %>% filter(Mediana_CH<=10000)
desempenho_ENEM_sem_outliers_LN=desempenho_ENEM %>% filter(Mediana_LN<=10000)
desempenho_ENEM_sem_outliers_MT=desempenho_ENEM %>% filter(Mediana_MT<=10000)
desempenho_ENEM_sem_outliers_RD=desempenho_ENEM %>% filter(Mediana_RD<=10000)

MAPA COM OUTLIER - DA MEDIANA DE CIÊNCIAS DA NATUREZA

estado=read_state(code_state="all",year=2019,showProgress=FALSE)
## Using year 2019
estado$name_state = gsub("Amazônas","Amazonas",estado$name_state)
estado$name_state = gsub(" Do "," do ",estado$name_state)
estado$name_state = gsub(" De "," de ",estado$name_state)

names(desempenho_ENEM)
##  [1] "ano"                         "Região Geográfica"          
##  [3] "Unidade da Federação"        "Área Territorial - km²"     
##  [5] "Pop_estimada"                "Inc_ENEM"                   
##  [7] "MAT_Edu_ Infantil"           "MAT_Ens_Fundamental"        
##  [9] "MAT_Ens_ Médio"              "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)"  "MAT_EJA"                    
## [13] "MAT_Educ_ Especial"          "QTD_Edu_ Infantil"          
## [15] "QTD_Ens_Fundamental"         "QTD_Ens_ Médio"             
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)" 
## [19] "QTD_EJA"                     "QTD_Educ_ Especial"         
## [21] "DOCENTE_ Infantil"           "DOCENTE_Fundamental"        
## [23] "DOCENTE_ Médio"              "DOCENTE_Prof_Técnica_Médio" 
## [25] "DOCENTE_Profissional(FIC)"   "DOCENTE_EJA"                
## [27] "DOCENTE_Especial"            "Mediana_CN"                 
## [29] "Mediana_CH"                  "Mediana_LN"                 
## [31] "Mediana_MT"                  "Mediana_RD"
names(estado)
## [1] "code_state"   "abbrev_state" "name_state"   "code_region"  "name_region" 
## [6] "geom"
colnames(desempenho_ENEM)[3] = 'name_state'

dados_para_mapa = estado %>% left_join(desempenho_ENEM)
## Joining, by = "name_state"
ggplot() +
  geom_sf(data=dados_para_mapa, aes(fill=Mediana_CN))+
  scale_fill_distiller(palette = "Oranges",direction = 1, name="CN", limits = c(0,60000))+labs(title="Mapa das medianas em Ciências da Natureza")

MAPA SEM OUTLIER - DA MEDIANA DE CIÊNCIAS DA NATUREZA

names(desempenho_ENEM_sem_outliers_CN)
##  [1] "ano"                         "Região Geográfica"          
##  [3] "Unidade da Federação"        "Área Territorial - km²"     
##  [5] "Pop_estimada"                "Inc_ENEM"                   
##  [7] "MAT_Edu_ Infantil"           "MAT_Ens_Fundamental"        
##  [9] "MAT_Ens_ Médio"              "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)"  "MAT_EJA"                    
## [13] "MAT_Educ_ Especial"          "QTD_Edu_ Infantil"          
## [15] "QTD_Ens_Fundamental"         "QTD_Ens_ Médio"             
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)" 
## [19] "QTD_EJA"                     "QTD_Educ_ Especial"         
## [21] "DOCENTE_ Infantil"           "DOCENTE_Fundamental"        
## [23] "DOCENTE_ Médio"              "DOCENTE_Prof_Técnica_Médio" 
## [25] "DOCENTE_Profissional(FIC)"   "DOCENTE_EJA"                
## [27] "DOCENTE_Especial"            "Mediana_CN"                 
## [29] "Mediana_CH"                  "Mediana_LN"                 
## [31] "Mediana_MT"                  "Mediana_RD"
names(estado)
## [1] "code_state"   "abbrev_state" "name_state"   "code_region"  "name_region" 
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_CN)[3] = 'name_state'

dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_CN)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_CN))+
  scale_fill_distiller(palette = "Oranges",direction = 1, name="CN", limits = c(0,11000))+
  labs(title="Mapa das medianas sem outliers em Ciências da Natureza")

MAPA COM OUTLIER - DA MEDIANA DE CIÊNCIAS HUMANAS

ggplot() +
  geom_sf(data=dados_para_mapa, aes(fill=Mediana_CH))+
  scale_fill_distiller(palette = "Blues",direction = 1, name="CH", limits = c(0,60000))+labs(title="Mapa das medianas em Ciências Humanas")

MAPA SEM OUTLIER - DA MEDIANA DE CIÊNCIAS HUMANAS

names(desempenho_ENEM_sem_outliers_CH)
##  [1] "ano"                         "Região Geográfica"          
##  [3] "Unidade da Federação"        "Área Territorial - km²"     
##  [5] "Pop_estimada"                "Inc_ENEM"                   
##  [7] "MAT_Edu_ Infantil"           "MAT_Ens_Fundamental"        
##  [9] "MAT_Ens_ Médio"              "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)"  "MAT_EJA"                    
## [13] "MAT_Educ_ Especial"          "QTD_Edu_ Infantil"          
## [15] "QTD_Ens_Fundamental"         "QTD_Ens_ Médio"             
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)" 
## [19] "QTD_EJA"                     "QTD_Educ_ Especial"         
## [21] "DOCENTE_ Infantil"           "DOCENTE_Fundamental"        
## [23] "DOCENTE_ Médio"              "DOCENTE_Prof_Técnica_Médio" 
## [25] "DOCENTE_Profissional(FIC)"   "DOCENTE_EJA"                
## [27] "DOCENTE_Especial"            "Mediana_CN"                 
## [29] "Mediana_CH"                  "Mediana_LN"                 
## [31] "Mediana_MT"                  "Mediana_RD"
names(estado)
## [1] "code_state"   "abbrev_state" "name_state"   "code_region"  "name_region" 
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_CH)[3] = 'name_state'

dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_CH)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_CH))+
  scale_fill_distiller(palette = "Blues",direction = 1, name="CH", limits = c(0,11000))+labs(title="Mapa das medianas sem outliers em Ciências da Humanas")

MAPA COM OUTLIER - DA MEDIANA DE LINGUAGENS, CÓDIGOS E SUAS TECNOLOGIAS

ggplot() +
  geom_sf(data=dados_para_mapa, aes(fill=Mediana_LN))+
  scale_fill_distiller(palette = "Greens",direction = 1, name="LN", limits = c(0,60000))+labs(title="Mapa das medianas em Linguagens, Códigos e suas Tecnologias")

MAPA SEM OUTLIER - DA MEDIANA DE LINGUAGENS, CÓDIGOS E SUAS TECNOLOGIAS

names(desempenho_ENEM_sem_outliers_LN)
##  [1] "ano"                         "Região Geográfica"          
##  [3] "Unidade da Federação"        "Área Territorial - km²"     
##  [5] "Pop_estimada"                "Inc_ENEM"                   
##  [7] "MAT_Edu_ Infantil"           "MAT_Ens_Fundamental"        
##  [9] "MAT_Ens_ Médio"              "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)"  "MAT_EJA"                    
## [13] "MAT_Educ_ Especial"          "QTD_Edu_ Infantil"          
## [15] "QTD_Ens_Fundamental"         "QTD_Ens_ Médio"             
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)" 
## [19] "QTD_EJA"                     "QTD_Educ_ Especial"         
## [21] "DOCENTE_ Infantil"           "DOCENTE_Fundamental"        
## [23] "DOCENTE_ Médio"              "DOCENTE_Prof_Técnica_Médio" 
## [25] "DOCENTE_Profissional(FIC)"   "DOCENTE_EJA"                
## [27] "DOCENTE_Especial"            "Mediana_CN"                 
## [29] "Mediana_CH"                  "Mediana_LN"                 
## [31] "Mediana_MT"                  "Mediana_RD"
names(estado)
## [1] "code_state"   "abbrev_state" "name_state"   "code_region"  "name_region" 
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_LN)[3] = 'name_state'

dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_LN)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_LN))+
  scale_fill_distiller(palette = "Greens",direction = 1, name="LN", limits = c(0,11000))+labs(title="Mapa das medianas sem outliers em Linguagens, Códigos e suas Tecnologias")

MAPA COM OUTLIER - DA MEDIANA DE MATEMÁTICA E SUAS TECNOLOGIAS

ggplot() +
  geom_sf(data=dados_para_mapa, aes(fill=Mediana_MT))+
  scale_fill_distiller(palette = "PuRd",direction = 1, name="MT", limits = c(0,60000))+labs(title="Mapa das medianas em Matemática e suas Tecnologias")

MAPA SEM OUTLIER - DA MEDIANA DE MATEMÁTICA E SUAS TECNOLOGIAS

names(desempenho_ENEM_sem_outliers_MT)
##  [1] "ano"                         "Região Geográfica"          
##  [3] "Unidade da Federação"        "Área Territorial - km²"     
##  [5] "Pop_estimada"                "Inc_ENEM"                   
##  [7] "MAT_Edu_ Infantil"           "MAT_Ens_Fundamental"        
##  [9] "MAT_Ens_ Médio"              "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)"  "MAT_EJA"                    
## [13] "MAT_Educ_ Especial"          "QTD_Edu_ Infantil"          
## [15] "QTD_Ens_Fundamental"         "QTD_Ens_ Médio"             
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)" 
## [19] "QTD_EJA"                     "QTD_Educ_ Especial"         
## [21] "DOCENTE_ Infantil"           "DOCENTE_Fundamental"        
## [23] "DOCENTE_ Médio"              "DOCENTE_Prof_Técnica_Médio" 
## [25] "DOCENTE_Profissional(FIC)"   "DOCENTE_EJA"                
## [27] "DOCENTE_Especial"            "Mediana_CN"                 
## [29] "Mediana_CH"                  "Mediana_LN"                 
## [31] "Mediana_MT"                  "Mediana_RD"
names(estado)
## [1] "code_state"   "abbrev_state" "name_state"   "code_region"  "name_region" 
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_MT)[3] = 'name_state'

dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_MT)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_MT))+
  scale_fill_distiller(palette = "PuRd",direction = 1, name="MT", limits = c(0,11000))+labs(title="Mapa das medianas sem outliers em Matemática e suas Tecnologias")

MAPA COM OUTLIER - DA MEDIANA DE REDAÇÃO

ggplot() +
  geom_sf(data=dados_para_mapa, aes(fill=Mediana_RD))+
  scale_fill_distiller(palette = "Greys",direction = 1, name="RD", limits = c(0,60000))+labs(title="Mapa das medianas em Redação")

MAPA SEM OUTLIER - DA MEDIANA DE REDAÇÃO

names(desempenho_ENEM_sem_outliers_RD)
##  [1] "ano"                         "Região Geográfica"          
##  [3] "Unidade da Federação"        "Área Territorial - km²"     
##  [5] "Pop_estimada"                "Inc_ENEM"                   
##  [7] "MAT_Edu_ Infantil"           "MAT_Ens_Fundamental"        
##  [9] "MAT_Ens_ Médio"              "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)"  "MAT_EJA"                    
## [13] "MAT_Educ_ Especial"          "QTD_Edu_ Infantil"          
## [15] "QTD_Ens_Fundamental"         "QTD_Ens_ Médio"             
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)" 
## [19] "QTD_EJA"                     "QTD_Educ_ Especial"         
## [21] "DOCENTE_ Infantil"           "DOCENTE_Fundamental"        
## [23] "DOCENTE_ Médio"              "DOCENTE_Prof_Técnica_Médio" 
## [25] "DOCENTE_Profissional(FIC)"   "DOCENTE_EJA"                
## [27] "DOCENTE_Especial"            "Mediana_CN"                 
## [29] "Mediana_CH"                  "Mediana_LN"                 
## [31] "Mediana_MT"                  "Mediana_RD"
names(estado)
## [1] "code_state"   "abbrev_state" "name_state"   "code_region"  "name_region" 
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_RD)[3] = 'name_state'

dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_RD)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_RD))+
  scale_fill_distiller(palette = "Greys",direction = 1, name="RD", limits = c(0,11000))+labs(title="Mapa das medianas sem outliers em Redação")

BOXPLOT COM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM CIÊNCIAS DA NATUREZA

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_CN~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,50000),xlab="Região Geográfica",ylab="Mediana CN",main="Gráfico boxplot região geográfica por mediana em ciências da natureza")

BOXPLOT SEM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM CIÊNCIAS DA NATUREZA

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM_sem_outliers_CN$Mediana_CN~desempenho_ENEM_sem_outliers_CN$`Região Geográfica`,col=COR,ylim=c(0,20000),xlab="Região Geográfica",ylab="Mediana CN",main="Boxplot - sem outlier - região geográfica por mediana em ciências da natureza")

BOXPLOT COM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM CIÊNCIAS HUMANAS

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_CH~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,60000),xlab="Região Geográfica",ylab="Mediana ciências humanas",main="Gráfico boxplot região geográfica por mediana em ciências humanas")

BOXPLOT SEM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM CIÊNCIAS HUMANAS

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM_sem_outliers_CH$Mediana_CH~desempenho_ENEM_sem_outliers_CH$`Região Geográfica`,col=COR,ylim=c(0,20000),xlab="Região Geográfica",ylab="Mediana ciências humanas",main="Boxplot - sem outlier - região geográfica por mediana em ciências humanas")

BOXPLOT COM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM LINGUAGEM, CÓDIGOS E SUAS TECNOLOGIAS

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_LN~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,60000),xlab="Região Geográfica",ylab="Mediana de linguagens códigos e suas tecnologias",main="Gráfico boxplot região geográfica por mediana de linguagens códigos e suas tecnologias")

BOXPLOT SEM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM LINGUAGEM, CÓDIGOS E SUAS TECNOLOGIAS

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM_sem_outliers_LN$Mediana_LN~desempenho_ENEM_sem_outliers_LN$`Região Geográfica`,col=COR,ylim=c(0,20000),xlab="Região Geográfica",ylab="Mediana de linguagens códigos e suas tecnologias",main="Boxplot - sem outlier - região geográfica por mediana de linguagens códigos e suas tecnologias")

BOXPLOT COM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM MATEMÁTICA E SUAS TECNOLOGIAS

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_MT~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,60000),xlab="Região Geográfica",ylab="Mediana de matemática e suas tecnologias",main="Gráfico boxplot região geográfica por mediana de matemática e suas tecnologias")

BOXPLOT SEM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM MATEMÁTICA E SUAS TECNOLOGIAS

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM_sem_outliers_MT$Mediana_MT~desempenho_ENEM_sem_outliers_MT$`Região Geográfica`,col=COR,ylim=c(0,20000),xlab="Região Geográfica",ylab="Mediana de matemática e suas tecnologias",main="Boxplot - sem outlier - região geográfica por mediana de matemática e suas tecnologias")

BOXPLOT COM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM REDAÇÃO

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_RD~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,60000),xlab="Região Geográfica",ylab="Mediana de Redação",main="Gráfico boxplot região geográfica por mediana de redação")

BOXPLOT SEM OUTLIER - REGIÃO GEOGRÁFICA / MEDIANA EM REDAÇÃO

COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
##  [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
##  [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_RD~desempenho_ENEM_sem_outliers_RD$`Região Geográfica`,col=COR,ylim=c(0,20000),xlab="Região Geográfica",ylab="Mediana de Redação",main="Boxplot - sem outlier - região geográfica por mediana de redação")

Matrículas no ensino médio por docentes no ensino médio - alunos por professor

desempenho_ENEM$aluno_por_prof =  (desempenho_ENEM$`MAT_Ens_ Médio`/desempenho_ENEM$`DOCENTE_ Médio`)
summary(desempenho_ENEM$aluno_por_prof)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.43   15.49   17.09   18.66   20.90   28.57

Relação entre alunos por professor e desempenho em ciências da natureza

plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CN)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CN))

cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CN)
## [1] 0.3208605

Relação entre alunos por professor e desempenho em ciências humanas

plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CH)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CH))

cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CH)
## [1] -0.2382173

Relação entre alunos por professor e desempenho em linguagens, códigos e suas tecnologias

plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_LN)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_LN))

cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_LN)
## [1] -0.2579081

Relação entre alunos por professor e desempenho em matemática e suas tecnologias

plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_MT)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_MT))

cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_MT)
## [1] -0.4088898

Relação entre alunos por professor e desempenho em redação

plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_RD)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_RD))

cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_RD)
## [1] 0.217438

Matriz de correlação das medianas por disciplina e alunos por professor

desemp = desempenho_ENEM[,c("Mediana_CN","Mediana_CH","Mediana_LN","Mediana_MT","Mediana_RD","aluno_por_prof")]
corrplot(cor(desemp))

Relação entre a região geográfica e os alunos por professor

boxplot(desempenho_ENEM$aluno_por_prof ~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,30),xlab="Região Geográfica",ylab="Alunos por professor",main="Gráfico boxplot da quantidade de alunos por professor dentre as 5 região geográfica")

Teste de normalidade - mediana ciências da natureza

shapiro.test(desempenho_ENEM_sem_outliers_CN$Mediana_CN)
## 
##  Shapiro-Wilk normality test
## 
## data:  desempenho_ENEM_sem_outliers_CN$Mediana_CN
## W = 0.4419, p-value = 6.87e-09
options(scipen = 999)

Teste de normalidade - mediana ciências humanas

shapiro.test(desempenho_ENEM_sem_outliers_CH$Mediana_CH)
## 
##  Shapiro-Wilk normality test
## 
## data:  desempenho_ENEM_sem_outliers_CH$Mediana_CH
## W = 0.46478, p-value = 0.0000000171
options(scipen = 999)

Teste de normalidade - mediana linguagens, códigos e suas tecnologias

shapiro.test(desempenho_ENEM_sem_outliers_LN$Mediana_LN)
## 
##  Shapiro-Wilk normality test
## 
## data:  desempenho_ENEM_sem_outliers_LN$Mediana_LN
## W = 0.59864, p-value = 0.0000002852
options(scipen = 999)

Teste de normalidade - mediana matemática e suas tecnologias

shapiro.test(desempenho_ENEM_sem_outliers_MT$Mediana_MT)
## 
##  Shapiro-Wilk normality test
## 
## data:  desempenho_ENEM_sem_outliers_MT$Mediana_MT
## W = 0.89209, p-value = 0.008857
options(scipen = 999)

Teste de normalidade - mediana redação

shapiro.test(desempenho_ENEM_sem_outliers_RD$Mediana_RD)
## 
##  Shapiro-Wilk normality test
## 
## data:  desempenho_ENEM_sem_outliers_RD$Mediana_RD
## W = 0.78999, p-value = 0.00009228
options(scipen = 999)

Teste de normalidade - alunos por professor

shapiro.test(desempenho_ENEM$aluno_por_prof)
## 
##  Shapiro-Wilk normality test
## 
## data:  desempenho_ENEM$aluno_por_prof
## W = 0.89548, p-value = 0.01056
options(scipen = 999)

Teste de hipótese - região geográfica / mediana ciências da natureza

kruskal.test(desempenho_ENEM_sem_outliers_CN$Mediana_CN~desempenho_ENEM_sem_outliers_CN$`Região Geográfica`)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  desempenho_ENEM_sem_outliers_CN$Mediana_CN by desempenho_ENEM_sem_outliers_CN$`Região Geográfica`
## Kruskal-Wallis chi-squared = 12.562, df = 4, p-value = 0.01362

Teste de hipótese - região geográfica / mediana ciências humanas

kruskal.test(desempenho_ENEM_sem_outliers_CH$Mediana_CH~desempenho_ENEM_sem_outliers_CH$`Região Geográfica`)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  desempenho_ENEM_sem_outliers_CH$Mediana_CH by desempenho_ENEM_sem_outliers_CH$`Região Geográfica`
## Kruskal-Wallis chi-squared = 11.291, df = 4, p-value = 0.02348

Teste de hipótese - região geográfica / mediana linguagens, códigos e suas tecnologias

kruskal.test(desempenho_ENEM_sem_outliers_LN$Mediana_LN~desempenho_ENEM_sem_outliers_LN$`Região Geográfica`)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  desempenho_ENEM_sem_outliers_LN$Mediana_LN by desempenho_ENEM_sem_outliers_LN$`Região Geográfica`
## Kruskal-Wallis chi-squared = 11.203, df = 4, p-value = 0.02438

Teste de hipótese - região geográfica / mediana matemática e suas tecnologias

kruskal.test(desempenho_ENEM_sem_outliers_MT$Mediana_MT~desempenho_ENEM_sem_outliers_MT$`Região Geográfica`)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  desempenho_ENEM_sem_outliers_MT$Mediana_MT by desempenho_ENEM_sem_outliers_MT$`Região Geográfica`
## Kruskal-Wallis chi-squared = 19.318, df = 4, p-value = 0.0006805

Teste de hipótese - região geográfica / mediana redação

kruskal.test(desempenho_ENEM_sem_outliers_RD$Mediana_RD~desempenho_ENEM_sem_outliers_RD$`Região Geográfica`)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  desempenho_ENEM_sem_outliers_RD$Mediana_RD by desempenho_ENEM_sem_outliers_RD$`Região Geográfica`
## Kruskal-Wallis chi-squared = 5.665, df = 4, p-value = 0.2256

Teste de hipótese - região geográfica / aluno por professor

kruskal.test(desempenho_ENEM$aluno_por_prof ~desempenho_ENEM$`Região Geográfica`)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  desempenho_ENEM$aluno_por_prof by desempenho_ENEM$`Região Geográfica`
## Kruskal-Wallis chi-squared = 8.5144, df = 4, p-value = 0.07445

Teste de hipótese - alunos por professor / mediana ciências da natureza

desempenho_ENEM_sem_outliers_CN$aluno_por_prof_CN =  (desempenho_ENEM_sem_outliers_CN$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_CN$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_CN$aluno_por_prof_CN)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.43   15.34   17.01   18.43   20.17   28.57
cor.test(desempenho_ENEM_sem_outliers_CN$aluno_por_prof_CN, desempenho_ENEM_sem_outliers_CN$Mediana_CN, method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  desempenho_ENEM_sem_outliers_CN$aluno_por_prof_CN and desempenho_ENEM_sem_outliers_CN$Mediana_CN
## S = 3874, p-value = 0.1061
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.3244444

Teste de hipótese - alunos por professor / mediana ciências humanas

desempenho_ENEM_sem_outliers_CH$aluno_por_prof_CH =  (desempenho_ENEM_sem_outliers_CH$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_CH$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_CH$aluno_por_prof_CH)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.43   15.79   17.12   18.90   21.62   28.57
cor.test(desempenho_ENEM_sem_outliers_CH$aluno_por_prof_CH, desempenho_ENEM_sem_outliers_CH$Mediana_CH, method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  desempenho_ENEM_sem_outliers_CH$aluno_por_prof_CH and desempenho_ENEM_sem_outliers_CH$Mediana_CH
## S = 3764, p-value = 0.02591
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.4476923

Teste de hipótese - alunos por professor / mediana linguagens códigos e suas tecnologias

desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN =  (desempenho_ENEM_sem_outliers_LN$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_LN$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.43   16.02   17.11   18.82   21.26   28.57
cor.test(desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN, desempenho_ENEM_sem_outliers_LN$Mediana_LN, method = "spearman")
## Warning in cor.test.default(desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN, :
## Impossível calcular o valor exato de p com empates
## 
##  Spearman's rank correlation rho
## 
## data:  desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN and desempenho_ENEM_sem_outliers_LN$Mediana_LN
## S = 4258.2, p-value = 0.01928
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.4558044

Teste de hipótese - alunos por professor / mediana matemática e suas tecnologias

desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT =  (desempenho_ENEM_sem_outliers_MT$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_MT$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.43   15.49   17.09   18.66   20.90   28.57
cor.test(desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT, desempenho_ENEM_sem_outliers_MT$Mediana_MT, method = "spearman")
## Warning in cor.test.default(desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT, :
## Impossível calcular o valor exato de p com empates
## 
##  Spearman's rank correlation rho
## 
## data:  desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT and desempenho_ENEM_sem_outliers_MT$Mediana_MT
## S = 4548.2, p-value = 0.04531
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.3883377

Teste de hipótese - alunos por professor / mediana redação

desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD =  (desempenho_ENEM_sem_outliers_RD$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_RD$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.43   15.49   17.09   18.66   20.90   28.57
cor.test(desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD, desempenho_ENEM_sem_outliers_RD$Mediana_RD, method = "spearman")
## Warning in cor.test.default(desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD, :
## Impossível calcular o valor exato de p com empates
## 
##  Spearman's rank correlation rho
## 
## data:  desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD and desempenho_ENEM_sem_outliers_RD$Mediana_RD
## S = 2743.4, p-value = 0.4178
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.1625813