Relatório Atividade 3 (Regressão logística a partir de dados do IDEB 2023)

Pré-processamento

Bibliotecas utilizadas no Relatório

library(readr)     #para ler dados
library(dplyr)     #para tratamento de dados
library(ggplot2)   #para gerar e tratar gráficos
library(gtsummary) #para tratamento de análises estatísticas e relatórios
library(sjPlot)    #para plotar gráficos do modelo de regressão

Carregando o Data Set

dados <-read.csv("ideb.csv")

Escolas abaixo e acima da média geral do IDEB

## Média IDEB geral: 4.58
## 
## % de escolas que não atingiram a média     % de escolas que atingiram a média 
##                               50.92713                               49.07287

Algumas considerações

Com base nos dados apresentados, podemos observar que 50,93% das escolas não atingiram amédia geral do IDEB e 49,07% atingiu.

Possíveis variáveis independentes observadas na Base de Dados:

Considerando que o IDEB é uma avaliação para mensurar o desenvolvimento da educação básica: Taxa de aprovação: indica se os alunos estão progredindo no curso da educação básica, o que pode ser um reflexo direto da qualidade do ensino oferecido. Nota SAEB de matemática: desempenhos melhores em matemática indicam maior domínio dessa área, o que tende a melhorar a média geral da escola e, consequentemente, o seu desempenho no IDEB. Nota SAEB de língua portuguesa: o domínio dessa disciplina impacta diretamente no entendimento de outras áreas do conhecimento, e, por isso, uma boa nota em língua portuguesa pode estar fortemente correlacionada com uma escola que atinge ou supera a meta do IDEB. Tipo de rede: rede de ensino (pública {municipal, estadual ou federal} ou privada) como uma variável pode refletir diferenças importantes na gestão, nos recursos disponíveis e nas políticas educacionais aplicadas.

Regressão Logística (Média IDEB ~ SAEB Protuguês + SAEB Matemática + Taxa de Aprovação + Tipo de Rede de Ensino)

regressao_logistica_ideb <- glm(atingiuMediaIdeb ~ nota_saeb_lingua_portuguesa +
                                nota_saeb_matematica + taxa_aprovacao + rede,
                                data = dados, family = binomial)

# Exibe os resultados do modelo
summary(regressao_logistica_ideb)
## 
## Call:
## glm(formula = atingiuMediaIdeb ~ nota_saeb_lingua_portuguesa + 
##     nota_saeb_matematica + taxa_aprovacao + rede, family = binomial, 
##     data = dados)
## 
## Coefficients:
##                               Estimate Std. Error  z value Pr(>|z|)    
## (Intercept)                 -3.367e+01  8.210e-02 -410.064   <2e-16 ***
## nota_saeb_lingua_portuguesa -5.344e-02  3.464e-04 -154.259   <2e-16 ***
## nota_saeb_matematica         9.021e-02  4.107e-04  219.644   <2e-16 ***
## taxa_aprovacao               2.660e-01  6.842e-04  388.704   <2e-16 ***
## redefederal                  1.422e+00  1.528e-01    9.306   <2e-16 ***
## redemunicipal                1.047e+00  8.165e-03  128.234   <2e-16 ***
## redeprivada                 -4.054e-01  1.614e-01   -2.512    0.012 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 977500  on 705291  degrees of freedom
## Residual deviance: 495936  on 705285  degrees of freedom
##   (459215 observations deleted due to missingness)
## AIC: 495950
## 
## Number of Fisher Scoring iterations: 6

Algumas considerações:

Todos os preditores são significativos, com valores de p abaixo de 0,05, sugerindo que eles têm um impacto real na probabilidade de atingir ou não a meta do IDEB.

Regressão Logistica expressa em tabela (a partir do pacote gtsummary)

summary_model <- tbl_regression(
  regressao_logistica_ideb,
  label = list(
    nota_saeb_lingua_portuguesa ~ "Nota SAEB Língua Portuguesa",
    nota_saeb_matematica ~ "Nota SAEB Matemática",
    taxa_aprovacao ~ "Taxa de Aprovação"
  )
)

summary_model
Characteristic log(OR)1 95% CI1 p-value
Nota SAEB Língua Portuguesa -0.05 -0.05, -0.05 <0.001
Nota SAEB Matemática 0.09 0.09, 0.09 <0.001
Taxa de Aprovação 0.27 0.26, 0.27 <0.001
rede


    estadual
    federal 1.4 1.1, 1.7 <0.001
    municipal 1.0 1.0, 1.1 <0.001
    privada -0.41 -0.71, -0.08 0.012
1 OR = Odds Ratio, CI = Confidence Interval

Gráfico dos coeficientes

plot_model(regressao_logistica_ideb,
           type = "est",
           show.values = TRUE,
           value.offset = 0.3,
           title = "Coeficientes da Regressão Logística",
           axis.labels = c("Rede Privada", "Rede Municipal","Rede Federal",
                           "Taxa de Aprovação", "Nota SAEB Matemática",
                           "Nota SAEB Língua Portuguesa"),
           ci.method = "wald") +  # Usando o método Wald para CI
  theme_minimal()

## Algumas considerações Notas de Matemática têm o maior impacto positivo na chance de atingir o objetivo, seguidas pelas notas de Língua Portuguesa. Taxa de Aprovação também tem uma influência positiva considerável. A rede municipal parece ter um impacto levemente negativo (OR < 1), enquanto a rede federal aumenta ligeiramente as chances de sucesso. Todos os efeitos são significativos (indicado pelos asteriscos ***), com destaque para os efeitos das notas e da taxa de aprovação.

Tabela com Odds Ratios a partir dos coeficientes do modelo

summary_model <- tbl_regression(regressao_logistica_ideb,
                                exponentiate = TRUE,  # Para mostrar os Odds Ratios
                                label = list(nota_saeb_lingua_portuguesa ~ "Nota SAEB Língua Portuguesa",
                                             nota_saeb_matematica ~ "Nota SAEB Matemática",
                                             taxa_aprovacao ~ "Taxa de Aprovação",
                                             rede ~ "Tipo de Rede"))  # Para os rótulos das variáveis

summary_model
Characteristic OR1 95% CI1 p-value
Nota SAEB Língua Portuguesa 0.95 0.95, 0.95 <0.001
Nota SAEB Matemática 1.09 1.09, 1.10 <0.001
Taxa de Aprovação 1.30 1.30, 1.31 <0.001
Tipo de Rede


    estadual
    federal 4.15 3.09, 5.63 <0.001
    municipal 2.85 2.80, 2.90 <0.001
    privada 0.67 0.49, 0.92 0.012
1 OR = Odds Ratio, CI = Confidence Interval

Algumas coniserações

Taxa de aprovação e Tipo de rede(mais especificamente Federal e Municipal) são os odds ratios para as variáveis independentes mais significativas.

Considerações finais:

O modelo de regressão logística analisou a probabilidade de uma escola atingir ou não a meta do IDEB, com base em variáveis independentes como nota SAEB de Língua Portuguesa, Nota SAEB de Matemática, Taxa de Aprovação, Tipo de Rede de Ensino (privada, municipal, federal): Notas de Matemática tiveram o maior impacto positivo na probabilidade de atingir a meta do IDEB; Notas de Língua Portuguesa também influenciaram positivamente a probabilidade de sucesso, embora com um impacto menor do que Matemática; Taxa de Aprovação foi outro fator importante, com impacto positivo; Tipo de Rede de Ensino mostrou uma variação: enquanto escolas da rede federal tendem a aumentar ligeiramente as chances de sucesso, as escolas da rede privada tiveram uma influência negativa. Com base nos resultados do modelo, podemos concluir que escolas com melhor desempenho nas provas de Matemática e Língua Portuguesa, além de uma taxa de aprovação mais alta, têm maiores chances de atingir a meta do IDEB. A rede de ensino também influencia.