Relatório Rio Memórias.Lab: o que afeta a entrega de trabalhos?

Autor

William Melo

Data

26 de fevereiro de 2023

Análises sobre entrega de trabalho 2022.2

Esta é uma análise focada em entender o que afeta a probabilidade de um estudante entregar o trabalho final das oficinas “Rio dos Estudantes.”

Para isso, foram coletados 313 no ato da inscrição das oficinas, fazendo com que poudéssemos analisar as variáveis como Receber ou não auxílio Brasil, Raça, Gênero, variáveis sobre conhecimentos locais e percepções sobre o território.

Além disso, cada oficineiro responsável pelas escolas inputou no formulário de inscrição se cada estudante entregou ou não o trabalho final, fazendo com que obtivéssemos um banco de dados assim:

Percentual de trabalhos entregues por escola

A primeira análise foi no sentido de entender qual a média de entregas por escola, ou seja, o percentual de estudantes que entregou dentro de cada escola participante no segundo semestre de 2022. Podemos ver essa informação na tabela a seguir:

escola

Percentual de entrega

CE Soares Pereira

16.00%

CE Gomes Freire

77.97%

CE Reverendo Tucker

69.70%

CE Rodolpho Fernandes

16.49%

Fatores que afetam a probabilidade de entregar o trabalho

A questão é que muitos fatores podem afetar as probabilidades de entregar o trabalho e esses fatores podem ter correlação com cada escola, com cada turma… pra resolver esse problema, realizamos um modelo multivariado que considera estrutura de níveis: estudantes em escolas em turmas.

Tabela 1: Estatísticas descritivas de acordo com a entrega de trabalho
não entregou
(N=206)
entregou
(N=105)
Overall
(N=311)
idade
Mean (SD) 17.1 (3.62) 17.5 (3.21) 17.3 (3.49)
Median [Min, Max] 16.0 [10.0, 53.0] 17.0 [15.0, 40.0] 17.0 [10.0, 53.0]
raca
branco ou amarelo 49 (23.8%) 39 (37.1%) 88 (28.3%)
indigena 7 (3.4%) 2 (1.9%) 9 (2.9%)
negro 148 (71.8%) 63 (60.0%) 211 (67.8%)
Missing 2 (1.0%) 1 (1.0%) 3 (1.0%)
genero_bin
feminino 88 (42.7%) 56 (53.3%) 144 (46.3%)
masculino 101 (49.0%) 46 (43.8%) 147 (47.3%)
Missing 17 (8.3%) 3 (2.9%) 20 (6.4%)
escolaridade_mae
ensino fundamental anos iniciais incompleto 24 (11.7%) 12 (11.4%) 36 (11.6%)
ensino fundamental anos iniciais completo 30 (14.6%) 18 (17.1%) 48 (15.4%)
ensino fundamental completo 47 (22.8%) 24 (22.9%) 71 (22.8%)
ensino medio completo 65 (31.6%) 38 (36.2%) 103 (33.1%)
ensino superior completo 6 (2.9%) 3 (2.9%) 9 (2.9%)
pos graduacao completa 3 (1.5%) 1 (1.0%) 4 (1.3%)
Missing 31 (15.0%) 9 (8.6%) 40 (12.9%)
auxilio_brasil_ou_bolsa_familia
Mean (SD) 0.583 (0.494) 0.495 (0.503) 0.552 (0.498)
Median [Min, Max] 1.00 [0, 1.00] 0 [0, 1.00] 1.00 [0, 1.00]
Missing 19 (9.2%) 6 (5.7%) 25 (8.0%)
conhecimento_bairro_dummy
Mean (SD) 0.257 (0.438) 0.257 (0.439) 0.257 (0.438)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
capacidade_contar_historias_bairro_dummy
Mean (SD) 0.224 (0.418) 0.183 (0.388) 0.210 (0.408)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 1 (0.5%) 1 (1.0%) 2 (0.6%)
conhecimento_rio_dummy
Mean (SD) 0.222 (0.416) 0.192 (0.396) 0.212 (0.409)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 3 (1.5%) 1 (1.0%) 4 (1.3%)
capacidade_contar_historias_cidade_dummy
Mean (SD) 0.259 (0.439) 0.295 (0.458) 0.271 (0.445)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 1 (0.5%) 0 (0%) 1 (0.3%)
importancia_historia_dummy
Mean (SD) 0.716 (0.452) 0.865 (0.343) 0.766 (0.424)
Median [Min, Max] 1.00 [0, 1.00] 1.00 [0, 1.00] 1.00 [0, 1.00]
Missing 2 (1.0%) 1 (1.0%) 3 (1.0%)
representatividade_livros_dummy
Mean (SD) 0.327 (0.470) 0.311 (0.465) 0.321 (0.468)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 7 (3.4%) 2 (1.9%) 9 (2.9%)
conhecimento_escola_dummy
Mean (SD) 0.137 (0.345) 0.0381 (0.192) 0.104 (0.305)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 2 (1.0%) 0 (0%) 2 (0.6%)
escola
CE Soares Pereira 21 (10.2%) 4 (3.8%) 25 (8.0%)
CE Gomes Freire 13 (6.3%) 46 (43.8%) 59 (19.0%)
CE Reverendo Tucker 10 (4.9%) 23 (21.9%) 33 (10.6%)
CE Rodolpho Fernandes 162 (78.6%) 32 (30.5%) 194 (62.4%)

As escolas estão claramente correlacionadas com várias das variáveis e, inclusive, com a entrega dos trabalhos…

Tabela 2: Estatísticas descritivas de acordo com a escola
CE Soares Pereira
(N=25)
CE Gomes Freire
(N=59)
CE Reverendo Tucker
(N=34)
CE Rodolpho Fernandes
(N=195)
Overall
(N=313)
entrega_trabalho
não entregou 21 (84.0%) 13 (22.0%) 10 (29.4%) 162 (83.1%) 206 (65.8%)
entregou 4 (16.0%) 46 (78.0%) 23 (67.6%) 32 (16.4%) 105 (33.5%)
Missing 0 (0%) 0 (0%) 1 (2.9%) 1 (0.5%) 2 (0.6%)
idade
Mean (SD) 17.4 (1.38) 17.6 (0.893) 15.7 (0.906) 17.4 (4.28) 17.3 (3.48)
Median [Min, Max] 17.0 [15.0, 20.0] 17.0 [16.0, 20.0] 15.5 [15.0, 19.0] 16.0 [10.0, 53.0] 17.0 [10.0, 53.0]
raca
branco ou amarelo 5 (20.0%) 25 (42.4%) 13 (38.2%) 47 (24.1%) 90 (28.8%)
indigena 2 (8.0%) 0 (0%) 2 (5.9%) 5 (2.6%) 9 (2.9%)
negro 18 (72.0%) 34 (57.6%) 19 (55.9%) 140 (71.8%) 211 (67.4%)
Missing 0 (0%) 0 (0%) 0 (0%) 3 (1.5%) 3 (1.0%)
genero_bin
feminino 11 (44.0%) 33 (55.9%) 14 (41.2%) 88 (45.1%) 146 (46.6%)
masculino 11 (44.0%) 24 (40.7%) 18 (52.9%) 94 (48.2%) 147 (47.0%)
Missing 3 (12.0%) 2 (3.4%) 2 (5.9%) 13 (6.7%) 20 (6.4%)
escolaridade_mae
ensino fundamental anos iniciais incompleto 4 (16.0%) 7 (11.9%) 3 (8.8%) 23 (11.8%) 37 (11.8%)
ensino fundamental anos iniciais completo 2 (8.0%) 7 (11.9%) 4 (11.8%) 35 (17.9%) 48 (15.3%)
ensino fundamental completo 1 (4.0%) 11 (18.6%) 9 (26.5%) 50 (25.6%) 71 (22.7%)
ensino medio completo 10 (40.0%) 21 (35.6%) 11 (32.4%) 62 (31.8%) 104 (33.2%)
ensino superior completo 2 (8.0%) 3 (5.1%) 0 (0%) 4 (2.1%) 9 (2.9%)
pos graduacao completa 0 (0%) 2 (3.4%) 1 (2.9%) 1 (0.5%) 4 (1.3%)
Missing 6 (24.0%) 8 (13.6%) 6 (17.6%) 20 (10.3%) 40 (12.8%)
auxilio_brasil_ou_bolsa_familia
Mean (SD) 0.364 (0.492) 0.327 (0.474) 0.333 (0.479) 0.674 (0.470) 0.549 (0.498)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 1.00 [0, 1.00] 1.00 [0, 1.00]
Missing 3 (12.0%) 7 (11.9%) 1 (2.9%) 14 (7.2%) 25 (8.0%)
conhecimento_bairro_dummy
Mean (SD) 0.280 (0.458) 0.237 (0.429) 0.382 (0.493) 0.236 (0.426) 0.256 (0.437)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
capacidade_contar_historias_bairro_dummy
Mean (SD) 0.208 (0.415) 0.172 (0.381) 0.324 (0.475) 0.205 (0.405) 0.212 (0.410)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 1 (4.0%) 1 (1.7%) 0 (0%) 0 (0%) 2 (0.6%)
conhecimento_rio_dummy
Mean (SD) 0.0800 (0.277) 0.203 (0.406) 0.281 (0.457) 0.218 (0.414) 0.210 (0.408)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 0 (0%) 0 (0%) 2 (5.9%) 2 (1.0%) 4 (1.3%)
capacidade_contar_historias_cidade_dummy
Mean (SD) 0.200 (0.408) 0.322 (0.471) 0.424 (0.502) 0.241 (0.429) 0.272 (0.446)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 0 (0%) 0 (0%) 1 (2.9%) 0 (0%) 1 (0.3%)
importancia_historia_dummy
Mean (SD) 0.720 (0.458) 0.897 (0.307) 0.848 (0.364) 0.722 (0.449) 0.768 (0.423)
Median [Min, Max] 1.00 [0, 1.00] 1.00 [0, 1.00] 1.00 [0, 1.00] 1.00 [0, 1.00] 1.00 [0, 1.00]
Missing 0 (0%) 1 (1.7%) 1 (2.9%) 1 (0.5%) 3 (1.0%)
representatividade_livros_dummy
Mean (SD) 0.333 (0.482) 0.224 (0.421) 0.394 (0.496) 0.333 (0.473) 0.319 (0.467)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 1 (4.0%) 1 (1.7%) 1 (2.9%) 6 (3.1%) 9 (2.9%)
conhecimento_escola_dummy
Mean (SD) 0.160 (0.374) 0.0169 (0.130) 0.121 (0.331) 0.119 (0.324) 0.103 (0.304)
Median [Min, Max] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00] 0 [0, 1.00]
Missing 0 (0%) 0 (0%) 1 (2.9%) 1 (0.5%) 2 (0.6%)

Modelos lineares incompletos

Adicionando modelo com escola…

Adicionando tudo, inclusive as turmas

Ok, mas esses modelos não consideram estrutura de níveis, o que quebra um pressuposto da regressão que é a independência entre as observações. É de se esperar que exista correlação entre o que um aluno de uma escola responde e outro… da mesma escola. Por isso, é comum que boas análises em Educação produzam estimativas cujas variâncias (incertezas) possuem suas componentes “clusterizadas”, ou seja, agrupadas. No caso, em turmas e em escolas. E aí, procedemos do mesmo jeito: modelo incompleto e depois modelo com escola e turma. Aqui pelo menos a escola sempre precisa ter pois esse tipo de modelo se diferencia do anterior justamente pela possibilidade de incluir os chamados “efeitos aleatórios”, que são, resumidamente, obtidos pelas estruturas de grupos.

Primeiro os incompletos. Na próxima aba, o completo.

Dessa forma, podemos construir um modelo em que a entrega de trabalho é explicada por uma série de características do estudante, incluisive sua turma e sua escola. Ao fazer isso, obtivemos

  entrega trabalho
Predictors Estimates CI p
(Intercept) 0.26 -0.23 – 0.75 0.291
idade 0.01 -0.01 – 0.03 0.204
raca [indigena] -0.13 -0.48 – 0.22 0.466
raca [negro] -0.06 -0.19 – 0.06 0.302
genero bin [masculino] -0.05 -0.16 – 0.06 0.420
escolaridade mae [ensino
fundamental anos iniciais
completo]
0.13 -0.06 – 0.33 0.183
escolaridade mae [ensino
fundamental completo]
0.02 -0.17 – 0.20 0.862
escolaridade mae [ensino
medio completo]
0.09 -0.09 – 0.26 0.338
escolaridade mae [ensino
superior completo]
0.01 -0.30 – 0.31 0.953
escolaridade mae [pos
graduacao completa]
-0.30 -0.73 – 0.12 0.159
auxilio brasil ou bolsa
familia
0.08 -0.04 – 0.19 0.182
conhecimento bairro dummy 0.05 -0.08 – 0.19 0.441
capacidade contar
historias bairro dummy
-0.09 -0.24 – 0.06 0.239
conhecimento rio dummy -0.09 -0.23 – 0.05 0.198
capacidade contar
historias cidade dummy
-0.02 -0.16 – 0.11 0.717
importancia historia
dummy
0.10 -0.03 – 0.24 0.143
representatividade livros
dummy
0.03 -0.09 – 0.15 0.613
conhecimento escola dummy -0.14 -0.32 – 0.04 0.129
Random Effects
σ2 0.14
τ00 turma 0.02
τ00 escola 0.10
ICC 0.44
N turma 23
N escola 4
Observations 225
Marginal R2 / Conditional R2 0.062 / 0.473

Uma forma gráfica de apresentar o mesmo modelo é:

Figura 1: Modelo multinível de probabilidade

A interpretação, nesse tipo de modelo, é em ganhos percentuais de acordo com a variação em uma unidade de cada variável considerada. Parece complicado mas é bem simples. Por exemplo, para variáveis binárias, que se trata de “ser” ou “não ser”, cada valor no gráfico representa o ganho ou perda em probabilidade de entregar o trabalho final de acordo com ser ou ter aquela característica. Achar a história importante, por exemplo, que é a variável importancia_historia_dummy está associado com o ganho de 10.1627142 pontos percentuais sobre a probabilidade de fazer o trabalho.

Mesmo que pareça complexo e completo, o modelo multinível de probabilidade ainda ignora o fato de que a variável de interesse aqui tem só dois valores: 1 e 0, entregou ou não entregou o trabalho final. Isso cria alguns entraves para os modelos anteriores pois eles partem da premissa de que a distribuição da variável de interesse é contínua, ou seja, não possui limites finitos entre os valores e, ainda, que possui distribuição normal, que é assim:

Mas, na verdade, a distribuição da variável analisada é assim:

Claro, ou entregou ou não entregou, não há um espectro entre uma coisa e outra. Na verdade, não é adequado mais usar um modelo linear, mas nós utilizamos uma função matemática para permitir tornar linear o que, a princípio, não era. Esses são os chamados modelos lineares generalizados. Eles usam uma função de ligação, que permitem linearizar o processo. Essa função comumente usada é a logit, que calcula os efeitos das variáveis do modelo sobre o log da chance do fenômeno ocorrer, ou seja, calcula o efeito sobre log(p/(1-p)). Chance é, exatamente, p/(1-p), onde p é a probabilidade de o fenômeno ocorrer.

Na próxima aba ajustamos, então, um modelo multinível igual ao que ajustamos aqui, mas com link logit, ou seja, um modelo linear generalizado. Existem várias formas de interpretar.

Aqui a ideia é, então, estimar o efeito daquelas variáveis todas sobre o log da chance de um estudante entregar trabalho.

  entrega trabalho
Predictors Log-Odds CI p
(Intercept) -1.53 -4.68 – 1.63 0.344
idade 0.06 -0.04 – 0.16 0.239
raca [indigena] -1.22 -3.98 – 1.54 0.386
raca [negro] -0.46 -1.35 – 0.44 0.317
genero bin [masculino] -0.43 -1.24 – 0.38 0.299
escolaridade mae [ensino
fundamental anos iniciais
completo]
1.10 -0.43 – 2.63 0.159
escolaridade mae [ensino
fundamental completo]
0.02 -1.38 – 1.43 0.976
escolaridade mae [ensino
medio completo]
0.60 -0.72 – 1.91 0.373
escolaridade mae [ensino
superior completo]
-0.21 -2.54 – 2.11 0.857
escolaridade mae [pos
graduacao completa]
-2.83 -6.14 – 0.49 0.094
auxilio brasil ou bolsa
familia
0.75 -0.14 – 1.64 0.100
conhecimento bairro dummy 0.41 -0.56 – 1.38 0.407
capacidade contar
historias bairro dummy
-0.82 -1.93 – 0.30 0.152
conhecimento rio dummy -0.78 -1.82 – 0.26 0.140
capacidade contar
historias cidade dummy
-0.20 -1.24 – 0.84 0.709
importancia historia
dummy
0.91 -0.15 – 1.96 0.092
representatividade livros
dummy
0.10 -0.74 – 0.94 0.818
conhecimento escola dummy -1.36 -2.77 – 0.05 0.058
Random Effects
σ2 3.29
τ00 turma 1.12
τ00 escola 2.62
ICC 0.53
N turma 23
N escola 4
Observations 225
Marginal R2 / Conditional R2 0.159 / 0.607

A literatura internacional prefere interpretar em odds, que é cada valor da tabela anterior de forma chance, ou seja: odds de 1 significa que não há mudança nas chances de um grupo com relação au outro de entregar trabalho. Odds maior que 1, há maior chance. Odds menor que 1, há menor chance. Odds de 2, por exemplo, significa uma chance de 2x maior de entregar trabalho se a pessoa tem aquela característica ou um ponto a mais naquela variável.

  entrega trabalho
Predictors Odds Ratios CI p
(Intercept) 0.22 0.01 – 5.13 0.344
idade 1.06 0.96 – 1.17 0.239
raca [indigena] 0.30 0.02 – 4.66 0.386
raca [negro] 0.63 0.26 – 1.55 0.317
genero bin [masculino] 0.65 0.29 – 1.46 0.299
escolaridade mae [ensino
fundamental anos iniciais
completo]
3.00 0.65 – 13.81 0.159
escolaridade mae [ensino
fundamental completo]
1.02 0.25 – 4.16 0.976
escolaridade mae [ensino
medio completo]
1.82 0.49 – 6.77 0.373
escolaridade mae [ensino
superior completo]
0.81 0.08 – 8.27 0.857
escolaridade mae [pos
graduacao completa]
0.06 0.00 – 1.62 0.094
auxilio brasil ou bolsa
familia
2.11 0.87 – 5.15 0.100
conhecimento bairro dummy 1.51 0.57 – 3.96 0.407
capacidade contar
historias bairro dummy
0.44 0.14 – 1.35 0.152
conhecimento rio dummy 0.46 0.16 – 1.29 0.140
capacidade contar
historias cidade dummy
0.82 0.29 – 2.32 0.709
importancia historia
dummy
2.48 0.86 – 7.13 0.092
representatividade livros
dummy
1.10 0.48 – 2.56 0.818
conhecimento escola dummy 0.26 0.06 – 1.05 0.058
Random Effects
σ2 3.29
τ00 turma 1.12
τ00 escola 2.62
ICC 0.53
N turma 23
N escola 4
Observations 225
Marginal R2 / Conditional R2 0.159 / 0.607

Aviso

Não confundir 2x na chance com aumentar em 100 pontos percentuais na probabilidade. São coisas completamente diferentes. Quando uma taxa varia de 10% para 20%, ela aumentou 2x, ou seja, aumentou 100%, mas só cresceu 10 pontos percentuais! Então esse é o perigo de olhar para o odds, porque ele pode fazer parecer que um efeito é muito grande ou muito pequeno. As probabilidades de o fenômeno ocorrer podem ser muito grandes ou muito pequenas naturalmente, por exemplo. Então é mais interessante olhar para o ganho ou perda em probabilidade PREDITA. Veja como.

Todo modelo de regressão possibilidade produzir valores preditos a partir dos valores observados das variávels independentes, ou seja, a partir daquilo tudo que usamos para estimar e prever o fenômeno de interesse. E não é diferente com a regressão logística. Todos aqueles coeficientes dos gráficos e tabelas podem ser usados para produzir probabilidades preditas de entregar trabalho, o que nos permite visualizar em gráfico:

Legal, né? Dá até pra desagregar mais:

Uma outra forma de mostrar o efeito das variáveis é criando cenários simulados e variando as variáveis cujo efeito se quer medir e fixando as demais. A partir disso, se criam probabilidades preditas para a entrega de trabalho, por exemplo. Abaixo, isso foi feito para importância da história e raça, bem como para a verificar uma possível interação entre as duas variáveis.