Como os erros são identificados a partir dos comentários feitos pelos professores no código dos alunos, primeiro iremos investigar se existe alguma relação entre o desempenho dos alunos e a quantidade de palavras dos comentários.
Parece existir uma relação negativa entre as variáveis.
Os coeficientes de correlação são métodos estatÃsticos utilizados para medir as relações entre variáveis. A partir dos valores deles é possÃvel identificar a força e o sinal da relação. Iremos, aqui, utilizar 3 desses coeficientes:
O coeficiente de correlação de Pearson, também chamado de correlação linear ou r de Pearson, é um grau de relação entre duas variáveis quantitativas e exprime o grau de correlação através de valores situados entre -1 e 1.
O coeficiente de correlação de postos de Spearman é uma medida de correlação não paramétrica também avaliado no intervalo entre -1 e 1.
O coeficiente de correlação de Kendall é uma medida de associação para variáveis ordinais.
Vejamos, então, os valores dos coeficientes para nossas variáveis nota e n_palavras.
## # A tibble: 1 x 3
## Pearson Spearman Kendall
## <dbl> <dbl> <dbl>
## 1 -0.441 -0.466 -0.339
Encontramos valores semelhantes para os 3 coeficientes.
Confirmando nossas suspeitas levantadas pelo gráfico, podemos concluir que existe uma relação fraca e negativa entre nota e n_palavras. Ou seja, quanto mais palavras no comentário dos professores, menor o desempenho dos alunos, embora essa relação seja razoavelmente fraca. Isso aumenta a suspeita de que os comentários dos professores contém realmente informações sobre os erros dos alunos.
Vejamos quais as palavras mais citadas pelos professores:
As palavras mais comentadas são referentes à especificação da atividade, logo em seguida algumas palavras que parecem indicar equÃvocos na implementação dos alunos. Vamos usar essas palavras para decidir qual tipo de erro o código dos alunos apresenta.
Algumas visualizações que mostram a quantidade de cada tipo de erro identificados nos comentários dos professores