Ana Carolina Vilela (20221520044) - ana.vilela@edu.unirio.br
Emilyn Machado (20221520053) - emilyn.machado@edu.unirio.br
Luisa Ferraro (20221520006) - luisa.ferraro@edu.unirio.br
Maria Eduarda Rodrigues (20221520046) - maria.rodrigues03@edu.unirio.br
Este trabalho analisou dados do ENEM (Exame Nacional do Ensino Médio) de 2010, publicados pelo INEP (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira), visando aferir como diferentes variáveis afetam o desempenho do estudante no ENEM. Para iniciar o estudo, nos atentamos às divergências socioeconômicas e educacionais pré-existentes entre Nordeste, Norte, Centro-Oeste, Sudeste e Sul, e seus estados. Desse modo, criamos uma variável a partir da relação entre discentes e docentes, para avaliarmos como a quantidade de alunos por professor afeta o desempenho dos estudantes, também foi analisado o nível de desenvolvimento na educação, tendo em vista, que algumas regiões possuem estrutura educacional precária e esse fator pode vir a interferir na performance dos indivíduos que prestaram o exame. Assim sendo, verificamos a partir dos diagramas de dispersão, matriz de correlação e testes de hipóteses, que a quantidade de discentes por professor só não influencia no desempenho em ciências da natureza e redação, ademais, a única área do conhecimento não influenciada pelas regiões, é a redação. Vale ressaltar, que o diagrama de caixas, sem outlier, não foi passível de uma análise completa. A fim de diminuir a divergência no desempenho, sugerimos algumas propostas de intervenção. No geral, garantimos a importância desse estudo para reflexões e pesquisas futuras.
O ENEM foi criado em 1998, visando avaliar o desempenho dos estudantes, tinha-se por objetivo levantar dados para que fosse possível melhorar a qualidade de ensino da educação básica. A partir do ano de 2009, este exame passou a ser também um instrumento de seleção para o ingresso no ensino superior.No cenário atual brasileiro, o ENEM é a principal forma de ingresso de estudantes ao ensino superior, desse modo, mais de cinco milhões de pessoas fazem a prova todo ano, visando conquistar uma vaga em faculdades públicas ou privadas (com bolsa de até 100%). Entretanto, ao avaliar o Brasil como um todo, por uma única prova, o exame carece de métodos mais inclusivos, devido aos abismos socioeducacionais presentes em algumas regiões, sendo esses, por exemplo, a alta demanda de aluno por professor e o nível de desenvolvimento na educação. Nossa pesquisa tem como principal objetivo expor algumas variáveis que podem ou não afetar o desempenho de um cidadão no exame, dentro de uma determinada região, além de mostrar quais áreas do conhecimento apresentam melhor e pior performance entre os estudantes.
2.1 Objetivo geral
Estudar a desigualdade no que tange os desempenho dos estudantes no enem.
2.2 Objetivo específico
1 - A região geográfica influencia no desempenho.
2 - O número de matrículas por docente no ensino médio influencia no desempenho.
3.1 Descrição da base de dados e ferramentas de análise
Os dados utilizados neste relatório são oriundos de uma base de dados chamada “desempenho_ENEM.csv”, essa foi retirada do site “Kaggle datasets”, em dezembro de 2022, tendo como fonte de dados o INEP, 2018. A base de dados possui 27 linhas e 32 variáveis e possui informações sobre o Exame Nacional do Ensino Médio de 2010.
Entre os elementos de análise da base de dados, estão presentes: o ano que a prova foi realizada; a região geográfica; a unidade federativa; a área territorial em quilômetros quadrados; a população estimada; as inscrições no ENEM; o número de matrículas e docentes por segmento de ensino (educação infantil, ensino médio, educação profissional técnica de nível médio, educação profissional de formação inicial e continuada; educação para jovens e adultos e na educação especial); além das medianas por disciplina (ciências da natureza, ciências humanas, linguagens códigos e suas tecnologias, matemática e suas tecnologias e Redação).
Foi necessário para esse trabalho a criação de um indicador da relação entre discentes e docentes, denominada alunos_por_prof, essa foi feita por meio de uma divisão das variáveis matrículas no ensino médio por números de docentes no ensino médio.
Para a análise das variáveis listadas acima foi utilizada a ferramenta de programação denominada R, por meio desse instrumento foram feitos gráficos e tabelas que auxiliaram no estudo, dentre eles estão: o boxplot, mapa coroplético, diagrama de dispersão, matriz de correlação, shapiro wilk, teste do coeficiente de correlação de Spearman e o teste de Kruskal-Wallis.
O boxplot, também conhecido como diagrama de caixa, é uma ferramenta gráfica utilizada para ilustrar um conjunto de dados. Por meio dele, é possível visualizar a distribuição de dados. Foi utilizado para relacionar a região geográfica (variável qualitativa) com a mediana por disciplina (variável quantitativa), com e sem outlier, e a quantidade de alunos por docente (variável quantitativa) com as regiões geográficas.
O Choropleth maps ou mapas coropléticos são aqueles que usam diferentes tons de cores para codificar valores quantitativos de uma área. Ele foi feito para evidenciar as medianas disciplinas nas diferentes regiões geográficas.
O Diagrama de Dispersão, também conhecido como Gráfico de Dispersão, é identificado como um gráfico de eixos verticais e horizontais, correlacionando a causa e o efeito. Com isso, com esses dados correlacionados, é possível perceber neste Diagrama se existe ou não relação de causa e efeito entre as variáveis. ele foi feito para analisar se existia uma correlação entre o números de alunos por professor e o desempenho em cada uma das disciplinas.
Uma matriz de correlação é uma tabela que indica os coeficientes de conexão entre os fatores a serem analisados. Cada célula da tabela mostra a conexão entre os dois fatores. Uma grade de conexão é utilizada para delinear informações. Foi realizado com o objetivo de evidenciar a relação entre as medianas de cada disciplina entre si e com a quantidade de discentes por docentes.
O Teste de Normalidade de Shapiro Wilk é utilizado para verificar se a distribuição segue uma distribuição normal, ou seja, é o teste responsável por conferir a normalidade dos dados. Esse foi usado para averiguar a normalidade das variáveis quantitativas das medianas por disciplina e da quantitativa de alunos por professor.
O teste de hipóteses é importante para determinar se há efeitos estatisticamente significativos. Os métodos para teste de hipótese em sua maioria se baseia no p-valor para descobrir se a hipótese nula deve ser rejeitada (p-valor menor ou igual a 0,05) ou não (p-valor maior do que 0,05). Para esse estudo foi utilizado o teste Kruskal-Wallis e o teste do coeficiente de correlação de Spearman. O primeiro é utilizado para variáveis quantitativas, a mediana por disciplina e variáveis qualitativas, região geográfica. Já o segundo é realizado quando as duas variáveis são quantitativas, no caso a quantidade de discentes por docentes e às mediana para cada uma das matérias do exame. Ambos os testes foram realizados com base no teste de normalidade citado anteriormente.
3.2 Dicionário de dados (codebook)
Ano = ano em que a prova foi realizada.
Região Geográfica = região em que a prova foi realizada.
Unidade da Federação = Unidade da Federação em que a prova foi realizada.
Área Territorial - km² = Área territorial em quilômetros quadrados das unidades federativas em que a prova foi realizada.
Pop_estimada = População estimada.
Inc_ENEM = Inscrições ENEM.
MAT_Edu_Infantil = Matrículas na educação infantil.
MAT_Ens_Fundamental = Matrículas no ensino fundamental.
MAT_Educ_Prof_Técnica_Médio = Matrículas na Educação Profissional Técnica de Nível Médio.
MAT_Educ_Profissional (FIC) = Matrículas na educação Profissional de Formação Inicial e Continuada.
MAT_EJA = Matrículas na Educação de Jovens e Adultos.
MAT_Educ_Especial = Matrículas na Educação Especial.
DOCENTE_Infantil = Docentes na educação infantil.
DOCENTES_Fundamental = Docentes no ensino fundamental.
DOCENTES_Médio = Docentes no ensino médio.
DOCENTE_Profissional (FIC) = Docentes na educação profissional de formação inicial e continuada.
DOCENTE_EJA = Docentes na educação de Jovens e adultos.
DOCENTE_Especial = Docente na educação especial.
Mediana_CN = Mediana de ciências da natureza.
Mediana_CH = Mediana de ciências humanas.
Mediana_LN = Mediana de linguagens códigos e suas tecnologias.
Mediana_MT = Mediana de matemática e suas tecnologias.
Mediana_RD = Mediana de Redação.
library(readr)
desempenho_ENEM <- read_delim("Base_de_dados-master/desempenho_ENEM.csv",
delim = ";", escape_double = FALSE, trim_ws = TRUE)
library(readxl)
library(flextable)
library(dplyr)
library(RColorBrewer)
library(geobr)
library(ggplot2)
library(leaflet)
library(corrplot)
# Tabelas sem outlier das medianas
desempenho_ENEM_sem_outliers_CN=desempenho_ENEM %>% filter(Mediana_CN<=10000)
desempenho_ENEM_sem_outliers_CH=desempenho_ENEM %>% filter(Mediana_CH<=10000)
desempenho_ENEM_sem_outliers_LN=desempenho_ENEM %>% filter(Mediana_LN<=10000)
desempenho_ENEM_sem_outliers_MT=desempenho_ENEM %>% filter(Mediana_MT<=10000)
desempenho_ENEM_sem_outliers_RD=desempenho_ENEM %>% filter(Mediana_RD<=10000)
# Criação da variável aluno por professor
desempenho_ENEM$aluno_por_prof = (desempenho_ENEM$`MAT_Ens_ Médio`/desempenho_ENEM$`DOCENTE_ Médio`)
summary(desempenho_ENEM$aluno_por_prof)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.43 15.49 17.09 18.66 20.90 28.57
1) MAPA - COM OUTLIER - DA MEDIANA DE CIÊNCIAS DA NATUREZA
estado=read_state(code_state="all",year=2019,showProgress=FALSE)
## Using year 2019
estado$name_state = gsub("Amazônas","Amazonas",estado$name_state)
estado$name_state = gsub(" Do "," do ",estado$name_state)
estado$name_state = gsub(" De "," de ",estado$name_state)
names(desempenho_ENEM)
## [1] "ano" "Região Geográfica"
## [3] "Unidade da Federação" "Área Territorial - km²"
## [5] "Pop_estimada" "Inc_ENEM"
## [7] "MAT_Edu_ Infantil" "MAT_Ens_Fundamental"
## [9] "MAT_Ens_ Médio" "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)" "MAT_EJA"
## [13] "MAT_Educ_ Especial" "QTD_Edu_ Infantil"
## [15] "QTD_Ens_Fundamental" "QTD_Ens_ Médio"
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)"
## [19] "QTD_EJA" "QTD_Educ_ Especial"
## [21] "DOCENTE_ Infantil" "DOCENTE_Fundamental"
## [23] "DOCENTE_ Médio" "DOCENTE_Prof_Técnica_Médio"
## [25] "DOCENTE_Profissional(FIC)" "DOCENTE_EJA"
## [27] "DOCENTE_Especial" "Mediana_CN"
## [29] "Mediana_CH" "Mediana_LN"
## [31] "Mediana_MT" "Mediana_RD"
## [33] "aluno_por_prof"
names(estado)
## [1] "code_state" "abbrev_state" "name_state" "code_region" "name_region"
## [6] "geom"
colnames(desempenho_ENEM)[3] = 'name_state'
dados_para_mapa = estado %>% left_join(desempenho_ENEM)
## Joining, by = "name_state"
ggplot() +
geom_sf(data=dados_para_mapa, aes(fill=Mediana_CN))+
scale_fill_distiller(palette = "Oranges",direction = 1, name="CN", limits = c(0,60000))+labs(title="Mapa das medianas em Ciências da Natureza")
Realizando a análise do mapa das medianas em Ciências da Natureza, percebe-se que Alagoas é o estado em que se possui um melhor desempenho. E os estados de São Paulo e Paraíba são os dois que possuem um menor desempenho nesta disciplina.
2) MAPA - SEM OUTLIER - DA MEDIANA DE CIÊNCIAS DA NATUREZA
names(desempenho_ENEM_sem_outliers_CN)
## [1] "ano" "Região Geográfica"
## [3] "Unidade da Federação" "Área Territorial - km²"
## [5] "Pop_estimada" "Inc_ENEM"
## [7] "MAT_Edu_ Infantil" "MAT_Ens_Fundamental"
## [9] "MAT_Ens_ Médio" "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)" "MAT_EJA"
## [13] "MAT_Educ_ Especial" "QTD_Edu_ Infantil"
## [15] "QTD_Ens_Fundamental" "QTD_Ens_ Médio"
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)"
## [19] "QTD_EJA" "QTD_Educ_ Especial"
## [21] "DOCENTE_ Infantil" "DOCENTE_Fundamental"
## [23] "DOCENTE_ Médio" "DOCENTE_Prof_Técnica_Médio"
## [25] "DOCENTE_Profissional(FIC)" "DOCENTE_EJA"
## [27] "DOCENTE_Especial" "Mediana_CN"
## [29] "Mediana_CH" "Mediana_LN"
## [31] "Mediana_MT" "Mediana_RD"
names(estado)
## [1] "code_state" "abbrev_state" "name_state" "code_region" "name_region"
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_CN)[3] = 'name_state'
dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_CN)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_CN))+
scale_fill_distiller(palette = "Oranges",direction = 1, name="CN", limits = c(0,11000))+
labs(title="Mapa das medianas sem outlier em Ciências da Natureza")
Neste exemplo, há um caso particular em que o estado de Alagoas ficou excluído por uma restrição ao delimitar o máximo da palheta em 10.000, e seus valores seriam próximos de 60.000. Logo, eles são outliers, “um ponto fora da curva”.
3) MAPA - COM OUTLIER - DA MEDIANA DE CIÊNCIAS HUMANAS
ggplot() +
geom_sf(data=dados_para_mapa, aes(fill=Mediana_CH))+
scale_fill_distiller(palette = "Blues",direction = 1, name="CH", limits = c(0,60000))+labs(title="Mapa das medianas em Ciências Humanas")
4) MAPA - SEM OUTLIER - DA MEDIANA DE CIÊNCIAS HUMANAS
names(desempenho_ENEM_sem_outliers_CH)
## [1] "ano" "Região Geográfica"
## [3] "Unidade da Federação" "Área Territorial - km²"
## [5] "Pop_estimada" "Inc_ENEM"
## [7] "MAT_Edu_ Infantil" "MAT_Ens_Fundamental"
## [9] "MAT_Ens_ Médio" "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)" "MAT_EJA"
## [13] "MAT_Educ_ Especial" "QTD_Edu_ Infantil"
## [15] "QTD_Ens_Fundamental" "QTD_Ens_ Médio"
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)"
## [19] "QTD_EJA" "QTD_Educ_ Especial"
## [21] "DOCENTE_ Infantil" "DOCENTE_Fundamental"
## [23] "DOCENTE_ Médio" "DOCENTE_Prof_Técnica_Médio"
## [25] "DOCENTE_Profissional(FIC)" "DOCENTE_EJA"
## [27] "DOCENTE_Especial" "Mediana_CN"
## [29] "Mediana_CH" "Mediana_LN"
## [31] "Mediana_MT" "Mediana_RD"
names(estado)
## [1] "code_state" "abbrev_state" "name_state" "code_region" "name_region"
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_CH)[3] = 'name_state'
dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_CH)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_CH))+
scale_fill_distiller(palette = "Blues",direction = 1, name="CH", limits = c(0,11000))+labs(title="Mapa das medianas sem outlier em Ciências da Humanas")
Neste exemplo, há um caso particular em que os estados de Roraima e Tocantins ficaram excluídos por uma restrição ao delimitar o máximo da palheta em 10.000, e seus valores seriam próximos de 60.000. Logo, eles são outliers, “um ponto fora da curva”.
5) MAPA - COM OUTLIER - DA MEDIANA DE LINGUAGENS, CÓDIGOS E SUAS TECNOLOGIAS
ggplot() +
geom_sf(data=dados_para_mapa, aes(fill=Mediana_LN))+
scale_fill_distiller(palette = "Greens",direction = 1, name="LN", limits = c(0,60000))+labs(title="Mapa das medianas em Linguagens, Códigos e suas Tecnologias")
Realizando a análise do mapa das medianas em Linguagens, Códigos e suas Tecnologias, percebe-se que o estado de Roraima possui um melhor desempenho. E os estados de Santa Catarina, Mato Grosso, Rondônia e Acre são os que possuem um menor desempenho nesta disciplina.
6) MAPA - SEM OUTLIER - DA MEDIANA DE LINGUAGENS, CÓDIGOS E SUAS TECNOLOGIAS
names(desempenho_ENEM_sem_outliers_LN)
## [1] "ano" "Região Geográfica"
## [3] "Unidade da Federação" "Área Territorial - km²"
## [5] "Pop_estimada" "Inc_ENEM"
## [7] "MAT_Edu_ Infantil" "MAT_Ens_Fundamental"
## [9] "MAT_Ens_ Médio" "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)" "MAT_EJA"
## [13] "MAT_Educ_ Especial" "QTD_Edu_ Infantil"
## [15] "QTD_Ens_Fundamental" "QTD_Ens_ Médio"
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)"
## [19] "QTD_EJA" "QTD_Educ_ Especial"
## [21] "DOCENTE_ Infantil" "DOCENTE_Fundamental"
## [23] "DOCENTE_ Médio" "DOCENTE_Prof_Técnica_Médio"
## [25] "DOCENTE_Profissional(FIC)" "DOCENTE_EJA"
## [27] "DOCENTE_Especial" "Mediana_CN"
## [29] "Mediana_CH" "Mediana_LN"
## [31] "Mediana_MT" "Mediana_RD"
names(estado)
## [1] "code_state" "abbrev_state" "name_state" "code_region" "name_region"
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_LN)[3] = 'name_state'
dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_LN)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_LN))+
scale_fill_distiller(palette = "Greens",direction = 1, name="LN", limits = c(0,11000))+labs(title="Mapa das medianas sem outlier em Linguagens, Códigos e suas Tecnologias")
Neste exemplo, há um caso particular em que o estado de Roraima ficou excluído por uma restrição ao delimitar o máximo da palheta em 10.000, e seus valores seriam próximos de 60.000. Logo, eles são outliers, “um ponto fora da curva”.
7) MAPA - COM OUTLIER - DA MEDIANA DE MATEMÁTICA E SUAS TECNOLOGIAS
ggplot() +
geom_sf(data=dados_para_mapa, aes(fill=Mediana_MT))+
scale_fill_distiller(palette = "PuRd",direction = 1, name="MT", limits = c(0,60000))+labs(title="Mapa das medianas em Matemática e suas Tecnologias")
Realizando a análise do mapa das medianas em Matemática e suas Tecnologias, percebe-se que há um desempenho muito parecido em todos os estados do Brasil.
8) MAPA - SEM OUTLIER - DA MEDIANA DE MATEMÁTICA E SUAS TECNOLOGIAS
names(desempenho_ENEM_sem_outliers_MT)
## [1] "ano" "Região Geográfica"
## [3] "Unidade da Federação" "Área Territorial - km²"
## [5] "Pop_estimada" "Inc_ENEM"
## [7] "MAT_Edu_ Infantil" "MAT_Ens_Fundamental"
## [9] "MAT_Ens_ Médio" "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)" "MAT_EJA"
## [13] "MAT_Educ_ Especial" "QTD_Edu_ Infantil"
## [15] "QTD_Ens_Fundamental" "QTD_Ens_ Médio"
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)"
## [19] "QTD_EJA" "QTD_Educ_ Especial"
## [21] "DOCENTE_ Infantil" "DOCENTE_Fundamental"
## [23] "DOCENTE_ Médio" "DOCENTE_Prof_Técnica_Médio"
## [25] "DOCENTE_Profissional(FIC)" "DOCENTE_EJA"
## [27] "DOCENTE_Especial" "Mediana_CN"
## [29] "Mediana_CH" "Mediana_LN"
## [31] "Mediana_MT" "Mediana_RD"
names(estado)
## [1] "code_state" "abbrev_state" "name_state" "code_region" "name_region"
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_MT)[3] = 'name_state'
dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_MT)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_MT))+
scale_fill_distiller(palette = "PuRd",direction = 1, name="MT", limits = c(0,11000))+labs(title="Mapa das medianas sem outlier em Matemática e suas Tecnologias")
Neste exemplo, houve uma restrição ao delimitar o máximo de palheta em 10.000. Logo, os estados que antes estavam com uma cor mais baixa representando um desempenho menor porque a palheta ia até 60.000, agora ficaram com uma cor mais escura pois se aproximam do valor máximo da palheta que é 10.000.
9) MAPA - COM OUTLIER - DA MEDIANA DE REDAÇÃO
ggplot() +
geom_sf(data=dados_para_mapa, aes(fill=Mediana_RD))+
scale_fill_distiller(palette = "Greys",direction = 1, name="RD", limits = c(0,60000))+labs(title="Mapa das medianas em Redação")
Realizando a análise do mapa das medianas em Redação, percebe-se que há um desempenho muito parecido em todos os estados do Brasil.
10) MAPA - SEM OUTLIER - DA MEDIANA DE REDAÇÃO
names(desempenho_ENEM_sem_outliers_RD)
## [1] "ano" "Região Geográfica"
## [3] "Unidade da Federação" "Área Territorial - km²"
## [5] "Pop_estimada" "Inc_ENEM"
## [7] "MAT_Edu_ Infantil" "MAT_Ens_Fundamental"
## [9] "MAT_Ens_ Médio" "MAT_Educ_Prof_Técnica_Médio"
## [11] "MAT_Educ_Profissional(FIC)" "MAT_EJA"
## [13] "MAT_Educ_ Especial" "QTD_Edu_ Infantil"
## [15] "QTD_Ens_Fundamental" "QTD_Ens_ Médio"
## [17] "QTD_Educ_Prof_Técnica_Médio" "QTD_Educ_Profissional(FIC)"
## [19] "QTD_EJA" "QTD_Educ_ Especial"
## [21] "DOCENTE_ Infantil" "DOCENTE_Fundamental"
## [23] "DOCENTE_ Médio" "DOCENTE_Prof_Técnica_Médio"
## [25] "DOCENTE_Profissional(FIC)" "DOCENTE_EJA"
## [27] "DOCENTE_Especial" "Mediana_CN"
## [29] "Mediana_CH" "Mediana_LN"
## [31] "Mediana_MT" "Mediana_RD"
names(estado)
## [1] "code_state" "abbrev_state" "name_state" "code_region" "name_region"
## [6] "geom"
colnames(desempenho_ENEM_sem_outliers_RD)[3] = 'name_state'
dados_para_mapa_sem_out = estado %>% left_join(desempenho_ENEM_sem_outliers_RD)
## Joining, by = "name_state"
ggplot() + geom_sf(data=dados_para_mapa_sem_out, aes(fill=Mediana_RD))+
scale_fill_distiller(palette = "Greys",direction = 1, name="RD", limits = c(0,11000))+labs(title="Mapa das medianas sem outlier em Redação")
Neste exemplo, houve uma restrição ao delimitar o máximo da palheta em 10.000. Logo, os estados que antes estavam com uma cor mais clara representando um desempenho menor por a palheta ia até 60.000, agora ficaram com uma cor mais escura pois se aproximam do valor máximo da palheta que é 10.000.
11) BOXPLOT - MEDIANA EM CIÊNCIAS DA NATUREZA / REGIÃO GEOGRÁFICA
COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
## [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
## [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_CN~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,50000),xlab="Região Geográfica",ylab="Mediana CN",main="Boxplot da mediana em ciências da natureza por região geográfica")
Analisando o gráfico, nota-se que a região Sudeste é assimétrica e possui maior variabilidade na mediana de Ciências da Natureza que as demais, mesmo sendo uma variabilidade muito pequena, e consequentemente possui uma maior dispersão nos dados. Contém outlier no Nordeste, logo, a região, em 2 estados, oferece dados discrepantes nas notas em ciências da natureza, sendo muito alta e muito baixa. Acrescenta-se a análise o tamanho da mediana do sul, que é levemente maior que as demais. Conclui-se que as regiões sem outliers não possuem discrepância nos dados, ao contrário do nordeste, indicando que os estados nas outras regiões possuem mais ou menos as mesmas notas em ciências da natureza.
12) BOXPLOT - MEDIANA EM CIÊNCIAS HUMANAS / REGIÃO GEOGRÁFICA
COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
## [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
## [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_CH~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,60000),xlab="Região Geográfica",ylab="Mediana ciências humanas",main="Boxplot da mediana em ciências humanas por região geográfica")
Analisando o gráfico, nota-se que as regiões Norte e Sudeste são assimétricas e possuem maior variabilidade, respectivamente, na mediana de ciências humanas que as demais, e consequentemente possuem uma maior dispersão nos dados. Contém outlier no Nordeste, logo, a região, em 1 estado, oferece dados discrepantes nas notas em ciências humanas, sendo essa muito baixa. Conclui-se que as regiões sem outliers não possuem discrepância nos dados, ao contrário do nordeste, indicando que os estados nas outras regiões possuem mais ou menos as mesmas notas em ciências da natureza.
13) BOXPLOT - MEDIANA EM LINGUAGEM, CÓDIGOS E SUAS TECNOLOGIAS / REGIÃO GEOGRÁFICA
COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
## [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
## [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_LN~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,60000),xlab="Região Geográfica",ylab="Mediana de linguagens códigos e suas tecnologias",main="Boxplot da mediana de linguagens códigos e suas tecnologias por região geográfica")
Analisando o gráfico, nota-se que a região Centro oeste é simétrica e possui maior variabilidade na mediana de linguagens, códigos e suas tecnologias que as demais, e consequentemente possui uma maior dispersão nos dados. Contém outlier no Norte e no Nordeste, logo, a região Norte, em 1 estado, oferece dados discrepantes nas notas em linguagens, sendo muito alta, já a região Nordeste, em 1 estado, oferece dados discrepantes nas notas de linguagens, sendo muito baixa e fora do padrão. Acrescenta-se a análise o tamanho da mediana do Sudeste, que é levemente maior que as demais. Conclui-se que as regiões sem outliers não possuem discrepância nos dados, ao contrário do Norte e Nordeste, indicando que os estados nas outras regiões possuem mais ou menos as mesmas notas em linguagens, códigos e suas tecnologias.
14) BOXPLOT - MEDIANA EM MATEMÁTICA E SUAS TECNOLOGIAS REGIÃO GEOGRÁFICA
COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
## [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
## [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_MT~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,60000),xlab="Região Geográfica",ylab="Mediana de matemática e suas tecnologias",main="Boxplot da mediana de matemática e suas tecnologias por região geográfica")
Analisando o gráfico, nota-se que todas as regiões possuem pouca ou nenhuma variabilidade na mediana de matemática, e consequentemente possuem pouca dispersão nos dados. Acrescenta-se a análise o tamanho da mediana do Sudeste, que é levemente maior que as demais.
15) BOXPLOT - MEDIANA EM REDAÇÃO / REGIÃO GEOGRÁFICA
COR=brewer.pal(15,"Set3")
## Warning in brewer.pal(15, "Set3"): n too large, allowed maximum for palette Set3 is 12
## Returning the palette you asked for with that many colors
COR
## [1] "#8DD3C7" "#FFFFB3" "#BEBADA" "#FB8072" "#80B1D3" "#FDB462" "#B3DE69"
## [8] "#FCCDE5" "#D9D9D9" "#BC80BD" "#CCEBC5" "#FFED6F"
par(cex=0.5)
boxplot(desempenho_ENEM$Mediana_RD~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,60000),xlab="Região Geográfica",ylab="Mediana de Redação",main="Boxplot da mediana de redação por região geográfica")
Analisando o gráfico, nota-se que todas as regiões possuem pouca ou nenhuma variabilidade na mediana de redação, e consequentemente possuem pouca dispersao nos dados. Acrescenta-se a análise, que o tamanho da mediana, de todas as regiões citadas, é parecido ou igual.
16) DIAGRAMA DE DISPERSÃO - RELAÇÃO ENTRE ALUNOS POR PROFESSOR E DESEMPENHO EM CIÊNCIAS DA NATUREZA
plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CN)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CN))
cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CN)
## [1] 0.3208605
Segundo a análise do diagrama de dispersão, nota-se que a correlação é nula, ou seja, a quantidade de aluno por professor não interfere no desempenho em Ciências da Natureza.
17) DIAGRAMA DE DISPERSÃO - RELAÇÃO ENTRE ALUNOS POR PROFESSOR E DESEMPENHO EM CIÊNCIAS HUMANAS
plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CH)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CH))
cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_CH)
## [1] -0.2382173
Segundo a análise do diagrama de dispersão, nota-se que a correlação é negativa fraca, ou seja, a quantidade de aluno por professor interfere muito pouco no desempenho em Ciências Humanas.
18) DIAGRAMA DE DISPERSÃO - RELAÇÃO ENTRE ALUNOS POR PROFESSOR E DESEMPENHO EM LINGUAGENS, CÓDIGOS E SUAS TECNOLOGIAS
plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_LN)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_LN))
cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_LN)
## [1] -0.2579081
Segundo a análise do diagrama de dispersão, nota-se que a correlação é negativa fraca, ou seja, a quantidade de aluno por professor muito pouco interfere no desempenho em Linguagens, códigos e suas tecnologias.
19) DIAGRAMA DE DISPERSÃO - RELAÇÃO ENTRE ALUNOS POR PROFESSOR E DESEMPENHO EM MATEMÁTICA E SUAS TECNOLOGIAS
plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_MT)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_MT))
cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_MT)
## [1] -0.4088898
Segundo a análise do diagrama de dispersão, nota-se que a correlação é negativa fraca, ou seja, a quantidade de aluno por professor interfere pouco no desempenho em Matemática e suas tecnologias.
20) DIAGRAMA DE DISPERSÃO - RELAÇÃO ENTRE ALUNOS POR PROFESSOR E DESEMPENHO EM REDAÇÃO
plot(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_RD)
abline(lsfit(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_RD))
cor(desempenho_ENEM$aluno_por_prof,desempenho_ENEM$Mediana_RD)
## [1] 0.217438
Segundo a análise do diagrama de dispersão, nota-se que a correlação é nula, ou seja, a quantidade de aluno por professor não interfere no desempenho em Redação.
21) MATRIZ DE CORRELAÇÃO DAS MEDIANAS POR DISCIPLINA E ALUNOS POR PROFESSOR
desemp = desempenho_ENEM[,c("Mediana_CN","Mediana_CH","Mediana_LN","Mediana_MT","Mediana_RD","aluno_por_prof")]
corrplot(cor(desemp))
Pela análise da matriz de correlação, percebe-se que quanto maior o círculo maior a correlação entre as variáveis. Além disso, quanto mais azul escuro, mais próxima a correlação fica de 1, o que significa que além de forte a correlação é positiva. Equivalentemente quanto mais próximo de vermelho escuro, mais próxima a correlação fica de -1, o que significa que além de forte a correlação é negativa.
22) BOXPLOT DA QUANTIDADE DE ALUNOS POR PROFESSOR E A REGIÃO GEOGRÁFICA
boxplot(desempenho_ENEM$aluno_por_prof ~desempenho_ENEM$`Região Geográfica`,col=COR,ylim=c(0,30),xlab="Região Geográfica",ylab="Alunos por professor",main="Gráfico boxplot da quantidade de alunos por professor dentre as região geográfica")
Analisando o gráfico, nota-se que a região Sudeste é simétrica, enquanto a Norte possui maior variabilidade na mediana de linguagens, códigos e suas tecnologias que as demais, e consequentemente possui uma maior dispersão nos dados. Acrescenta-se a análise o tamanho da mediana do Norte, que é maior que as demais.
TESTE DE NORMALIDADE Teste de normalidade - mediana ciências da natureza
shapiro.test(desempenho_ENEM_sem_outliers_CN$Mediana_CN)
##
## Shapiro-Wilk normality test
##
## data: desempenho_ENEM_sem_outliers_CN$Mediana_CN
## W = 0.4419, p-value = 6.87e-09
options(scipen = 999)
Teste de normalidade - mediana ciências humanas
shapiro.test(desempenho_ENEM_sem_outliers_CH$Mediana_CH)
##
## Shapiro-Wilk normality test
##
## data: desempenho_ENEM_sem_outliers_CH$Mediana_CH
## W = 0.46478, p-value = 0.0000000171
options(scipen = 999)
Teste de normalidade - mediana linguagens, códigos e suas tecnologias
shapiro.test(desempenho_ENEM_sem_outliers_LN$Mediana_LN)
##
## Shapiro-Wilk normality test
##
## data: desempenho_ENEM_sem_outliers_LN$Mediana_LN
## W = 0.59864, p-value = 0.0000002852
options(scipen = 999)
Teste de normalidade - mediana matemática e suas tecnologias
shapiro.test(desempenho_ENEM_sem_outliers_MT$Mediana_MT)
##
## Shapiro-Wilk normality test
##
## data: desempenho_ENEM_sem_outliers_MT$Mediana_MT
## W = 0.89209, p-value = 0.008857
options(scipen = 999)
Teste de normalidade - mediana redação
shapiro.test(desempenho_ENEM_sem_outliers_RD$Mediana_RD)
##
## Shapiro-Wilk normality test
##
## data: desempenho_ENEM_sem_outliers_RD$Mediana_RD
## W = 0.78999, p-value = 0.00009228
options(scipen = 999)
Teste de normalidade - alunos por professor
shapiro.test(desempenho_ENEM$aluno_por_prof)
##
## Shapiro-Wilk normality test
##
## data: desempenho_ENEM$aluno_por_prof
## W = 0.89548, p-value = 0.01056
options(scipen = 999)
TESTE DE HIPÓTESE
Hipóteses:
A quantidade de alunos por professor influencia na desempenho por disciplina.
A região geográfica influência no desempenho por disciplina.
H0 : As Variáveis não estão relacionadas
H1 : As Variáveis são relacionadas
Teste de hipótese - mediana ciências da natureza / região geográfica
kruskal.test(desempenho_ENEM_sem_outliers_CN$Mediana_CN~desempenho_ENEM_sem_outliers_CN$`Região Geográfica`)
##
## Kruskal-Wallis rank sum test
##
## data: desempenho_ENEM_sem_outliers_CN$Mediana_CN by desempenho_ENEM_sem_outliers_CN$`Região Geográfica`
## Kruskal-Wallis chi-squared = 12.562, df = 4, p-value = 0.01362
Pelo valor da estatística do teste, rejeitamos a hipótese nula de que a região geográfica influencia na mediana de ciências da natureza. Logo, as variáveis estão relacionadas.
Teste de hipótese - mediana ciências humanas / região geográfica
kruskal.test(desempenho_ENEM_sem_outliers_CH$Mediana_CH~desempenho_ENEM_sem_outliers_CH$`Região Geográfica`)
##
## Kruskal-Wallis rank sum test
##
## data: desempenho_ENEM_sem_outliers_CH$Mediana_CH by desempenho_ENEM_sem_outliers_CH$`Região Geográfica`
## Kruskal-Wallis chi-squared = 11.291, df = 4, p-value = 0.02348
Pelo valor da estatística do teste, rejeitamos a hipótese nula de que a região geográfica influencia na mediana de ciências humanas. Logo, as variáveis estão relacionadas.
Teste de hipótese - mediana linguagens, códigos e suas tecnologias / região geográfica
kruskal.test(desempenho_ENEM_sem_outliers_LN$Mediana_LN~desempenho_ENEM_sem_outliers_LN$`Região Geográfica`)
##
## Kruskal-Wallis rank sum test
##
## data: desempenho_ENEM_sem_outliers_LN$Mediana_LN by desempenho_ENEM_sem_outliers_LN$`Região Geográfica`
## Kruskal-Wallis chi-squared = 11.203, df = 4, p-value = 0.02438
Pelo valor da estatística do teste, rejeitamos a hipótese nula de que a região geográfica influencia na mediana de linguagens, códigos e suas tecnologias. Logo, as variáveis estão relacionadas.
Teste de hipótese - mediana matemática e suas tecnologias / região geográfica
kruskal.test(desempenho_ENEM_sem_outliers_MT$Mediana_MT~desempenho_ENEM_sem_outliers_MT$`Região Geográfica`)
##
## Kruskal-Wallis rank sum test
##
## data: desempenho_ENEM_sem_outliers_MT$Mediana_MT by desempenho_ENEM_sem_outliers_MT$`Região Geográfica`
## Kruskal-Wallis chi-squared = 19.318, df = 4, p-value = 0.0006805
Pelo valor da estatística do teste, rejeitamos a hipótese nula de que a região geográfica influencia na mediana de matemática e suas tecnologias. Logo, as variáveis estão relacionadas.
Teste de hipótese - mediana redação / região geográfica
kruskal.test(desempenho_ENEM_sem_outliers_RD$Mediana_RD~desempenho_ENEM_sem_outliers_RD$`Região Geográfica`)
##
## Kruskal-Wallis rank sum test
##
## data: desempenho_ENEM_sem_outliers_RD$Mediana_RD by desempenho_ENEM_sem_outliers_RD$`Região Geográfica`
## Kruskal-Wallis chi-squared = 5.665, df = 4, p-value = 0.2256
Pelo valor da estatística do teste, não rejeitamos a hipótese nula de que a região geográfica influencia na mediana de redação. Logo, as variáveis não estão relacionadas.
Teste de hipótese - alunos por professor / mediana ciências da natureza
desempenho_ENEM_sem_outliers_CN$aluno_por_prof_CN = (desempenho_ENEM_sem_outliers_CN$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_CN$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_CN$aluno_por_prof_CN)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.43 15.34 17.01 18.43 20.17 28.57
cor.test(desempenho_ENEM_sem_outliers_CN$aluno_por_prof_CN, desempenho_ENEM_sem_outliers_CN$Mediana_CN, method = "spearman")
##
## Spearman's rank correlation rho
##
## data: desempenho_ENEM_sem_outliers_CN$aluno_por_prof_CN and desempenho_ENEM_sem_outliers_CN$Mediana_CN
## S = 3874, p-value = 0.1061
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.3244444
Pelo valor da estatística do teste, não rejeitamos a hipótese nula de que a quantidade de alunos por professor influencia na mediana de ciências da natureza. Ou seja, as variáveis não estão relacionadas.
Teste de hipótese - alunos por professor / mediana ciências humanas
desempenho_ENEM_sem_outliers_CH$aluno_por_prof_CH = (desempenho_ENEM_sem_outliers_CH$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_CH$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_CH$aluno_por_prof_CH)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.43 15.79 17.12 18.90 21.62 28.57
cor.test(desempenho_ENEM_sem_outliers_CH$aluno_por_prof_CH, desempenho_ENEM_sem_outliers_CH$Mediana_CH, method = "spearman")
##
## Spearman's rank correlation rho
##
## data: desempenho_ENEM_sem_outliers_CH$aluno_por_prof_CH and desempenho_ENEM_sem_outliers_CH$Mediana_CH
## S = 3764, p-value = 0.02591
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.4476923
Pelo valor da estatística do teste, rejeitamos a hipótese nula de que a quantidade de alunos por professor influencia na mediana de ciências humanas. Ou seja, as variáveis estão relacionadas.
Teste de hipótese - alunos por professor / mediana linguagens, códigos e suas tecnologias
desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN = (desempenho_ENEM_sem_outliers_LN$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_LN$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.43 16.02 17.11 18.82 21.26 28.57
cor.test(desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN, desempenho_ENEM_sem_outliers_LN$Mediana_LN, method = "spearman")
## Warning in cor.test.default(desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN, :
## Impossível calcular o valor exato de p com empates
##
## Spearman's rank correlation rho
##
## data: desempenho_ENEM_sem_outliers_LN$aluno_por_prof_LN and desempenho_ENEM_sem_outliers_LN$Mediana_LN
## S = 4258.2, p-value = 0.01928
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.4558044
Pelo valor da estatística do teste, rejeitamos a hipótese nula de que a quantidade de alunos por professor influencia na mediana de linguagens, códigos e suas tecnologias. Ou seja, as variáveis estão relacionadas.
Teste de hipótese - alunos por professor / mediana matemática e suas tecnologias
desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT = (desempenho_ENEM_sem_outliers_MT$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_MT$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.43 15.49 17.09 18.66 20.90 28.57
cor.test(desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT, desempenho_ENEM_sem_outliers_MT$Mediana_MT, method = "spearman")
## Warning in cor.test.default(desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT, :
## Impossível calcular o valor exato de p com empates
##
## Spearman's rank correlation rho
##
## data: desempenho_ENEM_sem_outliers_MT$aluno_por_prof_MT and desempenho_ENEM_sem_outliers_MT$Mediana_MT
## S = 4548.2, p-value = 0.04531
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.3883377
Pelo valor da estatística do teste, rejeitamos a hipótese nula de que a quantidade de alunos por professor influencia na mediana de matemática e suas tecnologias. Ou seja, as variáveis estão relacionadas.
Teste de hipótese - alunos por professor / mediana redação
desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD = (desempenho_ENEM_sem_outliers_RD$`MAT_Ens_ Médio`/desempenho_ENEM_sem_outliers_RD$`DOCENTE_ Médio`)
summary(desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.43 15.49 17.09 18.66 20.90 28.57
cor.test(desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD, desempenho_ENEM_sem_outliers_RD$Mediana_RD, method = "spearman")
## Warning in cor.test.default(desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD, :
## Impossível calcular o valor exato de p com empates
##
## Spearman's rank correlation rho
##
## data: desempenho_ENEM_sem_outliers_RD$aluno_por_prof_RD and desempenho_ENEM_sem_outliers_RD$Mediana_RD
## S = 2743.4, p-value = 0.4178
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.1625813
Pelo valor da estatística do teste, não rejeitamos a hipótese nula de que a quantidade de alunos por professor influencia na mediana de redação. Ou seja, as variáveis não estão relacionadas.
Logo, percebemos que a região geográfica só não influencia a mediana da disciplina de Redação, e que a quantidade de alunos por professor não influencia as medianas das disciplinas de Ciências da Natureza e de Redação.
A partir das diferenças socioeducacionais entre as regiões, encontramos, dentro das variáveis, os seguintes fatores que afetam o desempenho do estudante no exame: a quantidade de alunos por professor e a região em que o cidadão teve seu desenvolvimento educacional. Levando em conta os resultados obtidos, é possível concluir que há um destaque para dois estados da região Norte do Brasil com um melhor desempenho na mediana de Ciências Humanas e Linguagens, Códigos e suas Tecnologias. Já em relação à mediana de Ciências da Natureza, o estado de Alagoas é a região nordeste que possui a melhor atuação. Diferentemente em relação a mediana de Matemática e suas Tecnologias e Redação que todas as regiões do país possuem um desempenho muito próximo, ou seja, há um equilíbrio. Vale ressaltar, que o boxplot sem outlier não foi passível de uma análise completa e por isso não está presente nesse trabalho.
Em relação ao primeiro teste de hipótese, que seria se a região geográfica influência na mediana por disciplina, concluímos que apenas o desempenho da mediana de Redação não é influenciada pela região geográfica. Já em relação à segunda hipótese, sobre a quantidade de alunos por professor influenciar na mediana por disciplina, nota-se que o desempenho das medianas de Ciências da Natureza e de Redação não são influenciadas.
Uma possível forma de combater o problema causado pelo excesso de alunos em classe, é a criação de uma lei que restrinja a quantidade de discentes por turma, de modo a limitar a quantidade de alunos por docentes. Além disso, para reduzir o déficit dos estudantes relacionado às diferentes áreas de conhecimento, o recomendado é a criação e divulgação de oficinas complementares e monitorias, em escolas e faculdades públicas, com o objetivo de auxiliar os indivíduos que prestarão vestibular e aprimorar o conhecimento geral dos estudantes.
Por meio das competências exigidas, o ENEM convoca o ensino a partir de posturas críticas, vinculando os saberes construídos em sala de aula às realidades do indivíduo, com o objetivo de realizar mudanças significativas no currículo escolar. Portanto, há uma necessidade de redobrar as diretrizes para os parâmetros curriculares nacionais. Portanto, um ensino que inclua uma formação integral é necessário para orientar a educação desde as competências genéricas até todas as áreas do conhecimento avaliadas pelo ENEM. Mudanças educacionais são necessárias para incentivar a participação social e exigir uma postura para provocar mudanças sociais.
DUTT-ROSS,S. Manual de Análise de Dados. Rio de Janeiro. 2020. mimeo. Disponível em: http://livro.metodosquantitativos.com/docs/bookdown.pdf Acesso em 07/01/2023
Como fazer um boxplot básico. Geo krigagem. Disponível em: https://geokrigagem.com.br/geoestatistica-no-r-licao-12-ggplot2-boxplot-tutorial Acesso 14/01/2023
Como interpretar um Boxplot?. icmc júnior. Disponível em: https://icmcjunior.com.br/como-interpretar-um-grafico-boxplot. Acesso em: 14/01/2023
Boxplot. Opencadd. Disponível em: https://opencadd.com.br/box-plot-o-que-e-e-para-que-serve/. Acesso em: 23/01/23
Produções de Mapas. Smolski. Disponível em:https://smolski.github.io/livroavancado/producao-de-mapas.html Acesso em: 23/01/2023
Correlação e visualizações de matrizes de correlação no R. RPUBS. Disponível em: https://rstudio-pubs-static.s3.amazonaws.com/437792_df39a5ff0a55491fb71f0f4a0f5cd0bf.html Acesso em 23/01/2023
Teste de Hipóteses. Instituto de informática-ufsc. Disponível em: https://www.inf.ufsc.br/~andre.zibetti/probabilidade/teste-de-hipoteses.htmles Acesso em: 24/01/2023
Mapa coroplético. Conceitos. Disponível em:https://conceitos.com/mapa-coropletico/. Acesso em: 24/01/2023
Diagrama de dispersão. Voitto. Disponível em: https://www.voitto.com.br/blog/artigo/diagrama-de-dispersao. Acesso em: 25/01/23
Teste de Normalidade. Medium. Disponível em: https://medium.com/dados-e-saude/testes-de-normalidade-9dc9068bcf80. Acesso em: 27/01/2023
Shapiro-Wilk. Psicometriaonline. Disponível em: https://psicometriaonline.com.br/o-que-e-o-teste-de-shapiro-wilk/. Acesso em: 27/01/2023
Como mexer no RMarkdown. Pet-estatistica .Disponível em: https://pet-estatistica.github.io/site/download/posts/postJAYME2.html. Acesso em: 01/02/2023