A avaliação de docentes por parte dos alunos é uma prática amplamente utilizada em diversas universidades do mundo para determinar a qualidade da instituição e de seus professores. Entretanto, a eficácia desse método de avaliação é frequentemente questionada, visto que este se baseia em parâmetros subjetivos que nem sempre estão relacionados com a docência ou podem refletir as habilidades do professor, como, por exemplo, a aparência fisica.
Tendo como motivação o artigo intitulado “Beauty in the classroom: instructors’ pulchritude and putative pedagogical productivity” (Hamermesh & Parker, 2005), que descreve como professores que são considerados de melhor aparência recebem avaliações mais altas, será apresentada neste relatório uma breve análise da relação entre os resultados obtidos pelos professores em suas avaliações discentes e as suas características avaliadas, incluindo a percepção dos seus avaliadores com relação a sua aparência física. Para tanto, serão estudados os mesmo dados utilizados na elaboração do artigo citado, que consistem em 463 avaliações discentes de professores da Universidade do Texas, além de avaliações referentes à aparência destes mesmos professores, realizadas por 6 alunos.
Inicialmente, será investigada a existência de indícios de que a classificação de beleza de um professor é, de alguma forma, impactante na avaliação de sua docência, ainda que este impacto seja pouco significativo.
Para uma visualização geral dos dados, afim de observar a dispersão, assimetria e detectar valores discrepantes na base de dados, considere o output da função summary, o boxplot e o cálculo do coeficiente de correlação abaixo.
library(dplyr)
library(ggplot2)
data <- read.csv(file = "evals.csv", header=TRUE, sep=",")
score_and_beauty <- data %>% select(score, bty_avg)
summary(score_and_beauty)
## score bty_avg
## Min. :2.300 Min. :1.667
## 1st Qu.:3.800 1st Qu.:3.167
## Median :4.300 Median :4.333
## Mean :4.175 Mean :4.418
## 3rd Qu.:4.600 3rd Qu.:5.500
## Max. :5.000 Max. :8.167
qplot(x=bty_avg, y = score, data=data, geom=c("boxplot", "jitter"),
color=bty_avg, formula=max)
cor(score_and_beauty$score, score_and_beauty$bty_avg, method = "pearson")
## [1] 0.1871424
A partir do boxplot, é possível perceber alguns outliers com valores de score inferiores a 2,5. Entretanto, nesta análise, optou-se por não retirá-los do conjunto de dados, visto que eles não causam tato impacto nos resultados. É interessante observar, também, que 75% dos professores receberam scores superiores a 3.8 (em uma escala de 0 a 5).
Analisando o resultado do cálculo do coeficiente de correlação de Pearson, tem-se que o valor obtido (0.1871424) está muito próximo de 0, o que indica uma fraca correlação positiva entre as variáveis. Para entender melhor a influência da variável bty_avg sobre a variável score, observemos os resultados obtidos com a utilização de regressão linear, conforme exposto abaixo.
mod <- lm(score ~ bty_avg, data = score_and_beauty)
summary(mod)
##
## Call:
## lm(formula = score ~ bty_avg, data = score_and_beauty)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.9246 -0.3690 0.1420 0.3977 0.9309
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.88034 0.07614 50.96 < 2e-16 ***
## bty_avg 0.06664 0.01629 4.09 5.08e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5348 on 461 degrees of freedom
## Multiple R-squared: 0.03502, Adjusted R-squared: 0.03293
## F-statistic: 16.73 on 1 and 461 DF, p-value: 5.083e-05
A primeira informação obtida através dos resultados da regressão é a respeito dos resíduos, que podem ser definidos como a diferença entre os valores reais da variável que estamos tentando prever e os valores estimados resultantes da nossa regressão. É possível observar, por exemplo, quais foram os resíduos máximo e mínimo encontrados e a sua média. Se o valor da média for próximo de 0, isso indica que os resíduos são normalmente distribuídos.
Em seguida, são apresentados alguns coeficientes e, ao lado direito das variáveis, a significância em estrelas. Esta significância é dada de acordo com o p-valor e varia de 0 a 3 estrelas. O p-valor, por sua vez, é a probabilidade de que uma variável NÃO seja relevante, ou seja, é desejável que este seja um número muito pequeno.
Os nossos resultados apresentam uma significância de 3 estrelas e um p-valor pequeno (5.083e-05), o que sugere que a probabilidade de que não exista relação entre as variáveis analisadas é pequena, ou seja, que é improvável que a aparência física de um professor não tenha nenhuma influência no score de avaliação de sua docência.
Apesar de existirem indícios de que exista relação entre as variáveis analisadas, o valor de R-squared (0.03293) indica que a aparência física de um professor incluencia em apenas 3% na sua avaliação. Desta forma, acredita-se que devem existir outros fatores que impactam na avaliação a serem considerados.
Segue abaixo o gráfico com a reta gerada pela regressao linear.
ggplot(mod, aes(score, bty_avg)) +
geom_point() + geom_smooth(method="lm") + theme_bw()
Em busca de novas explicações a respeito de quais fatores poderiam influenciar a avaliação de docentes, foram incluídas na análise as seguintes variáveis:
mod2 <- data %>% select(score, rank, ethnicity, gender, language, age, cls_level, bty_avg, pic_outfit, pic_color)
summary(mod2)
## score rank ethnicity gender
## Min. :2.300 teaching :102 minority : 64 female:195
## 1st Qu.:3.800 tenure track:108 not minority:399 male :268
## Median :4.300 tenured :253
## Mean :4.175
## 3rd Qu.:4.600
## Max. :5.000
## language age cls_level bty_avg
## english :435 Min. :29.00 lower:157 Min. :1.667
## non-english: 28 1st Qu.:42.00 upper:306 1st Qu.:3.167
## Median :48.00 Median :4.333
## Mean :48.37 Mean :4.418
## 3rd Qu.:57.00 3rd Qu.:5.500
## Max. :73.00 Max. :8.167
## pic_outfit pic_color
## formal : 77 black&white: 78
## not formal:386 color :385
##
##
##
##
Para iniciar a análise, façamos um primeiro modelo com todas as variáveis juntas.
mod2 <- lm(score ~ rank + ethnicity+ gender + language + age + cls_level + bty_avg + pic_outfit + pic_color, data = data)
summary(mod2)
##
## Call:
## lm(formula = score ~ rank + ethnicity + gender + language + age +
## cls_level + bty_avg + pic_outfit + pic_color, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.73861 -0.35924 0.09748 0.38920 0.97549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.796261 0.259090 18.512 < 2e-16 ***
## ranktenure track -0.214049 0.083743 -2.556 0.010913 *
## ranktenured -0.191401 0.064477 -2.969 0.003151 **
## ethnicitynot minority 0.013005 0.076609 0.170 0.865276
## gendermale 0.237876 0.053070 4.482 9.37e-06 ***
## languagenon-english -0.270691 0.114432 -2.366 0.018426 *
## age -0.009869 0.003222 -3.063 0.002324 **
## cls_levelupper 0.002074 0.054690 0.038 0.969772
## bty_avg 0.039156 0.017611 2.223 0.026688 *
## pic_outfitnot formal -0.114661 0.070914 -1.617 0.106597
## pic_colorcolor -0.241711 0.071488 -3.381 0.000784 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5142 on 452 degrees of freedom
## Multiple R-squared: 0.1255, Adjusted R-squared: 0.1062
## F-statistic: 6.488 on 10 and 452 DF, p-value: 2.19e-09
Neste modelo, as variáveis que apresentaram maior significância foram o gênero e a cor da foto do professor, seguidos da idade e rank. Isto significa que há indícios de que é pouco provável que o fato de um professor ser do sexo masculino não influencie na sua avaliação, inclusive esta variável apresenta um p-valor baixíssimo (9.37e-06), quando comparado com os das outras variáveis.
O mesmo ocorre com a cor da foto, existem indícios de que é improvável que o fato da cor da foto ser colorida não impacte na avaliação do professor, entretanto, esta variável apresenta um p-valor (0.000784) menor do que a variável gênero.
A idade do professor e o tipo de vínculo com a universidade (assistente, horista ou titular) também influenciam, embora de forma mais moderada. Segundo o modelo, o fato de um professor ser titular influencia mais do que ele ser assitente.
A língua falada pelo professor impacta levemente no resultado da avaliação e o nível da disciplina ensinada e a etnia do professor não apresentaram pouco ou nenhum impacto. Outra informação interessante é que, neste modelo, a beleza do professor não tem o mesmo impacto visualizado na análise feita anteriormente com esta variável isolada.
Analisando o R-Squared, pode-se dizer que neste modelotemos uma influência de aproximadamente 10% sobre os scores das avaliações discentes.
Uma curiosidade detectada é que, ao retirarmos a variável “cor da foto” do modelo, a variável beleza volta a ser muito significativa. Isso pode nos levar a fazer várias afirmações diferentes como, por exemplo, que é provável que um aluno julgue melhor um professor que apresente fotos coloridas (com melhor qualidade), ou que os alunos tendem a achar mais bonitos os professores que apresentam fotos coloridas.
Segue abaixo o modelo de regressão sem a variável “cor da foto”.
mod3 <- lm(score ~ rank + ethnicity+ gender + language + age + cls_level + bty_avg + pic_outfit, data = data)
summary(mod3)
##
## Call:
## lm(formula = score ~ rank + ethnicity + gender + language + age +
## cls_level + bty_avg + pic_outfit, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.79003 -0.36457 0.09747 0.39298 0.94875
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.444645 0.240021 18.518 < 2e-16 ***
## ranktenure track -0.195908 0.084528 -2.318 0.020911 *
## ranktenured -0.167139 0.064810 -2.579 0.010225 *
## ethnicitynot minority 0.065241 0.075895 0.860 0.390453
## gendermale 0.201333 0.052553 3.831 0.000146 ***
## languagenon-english -0.205614 0.114093 -1.802 0.072184 .
## age -0.008486 0.003233 -2.625 0.008961 **
## cls_levelupper -0.043801 0.053587 -0.817 0.414137
## bty_avg 0.057030 0.016992 3.356 0.000856 ***
## pic_outfitnot formal -0.126905 0.071632 -1.772 0.077129 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5201 on 453 degrees of freedom
## Multiple R-squared: 0.1034, Adjusted R-squared: 0.08559
## F-statistic: 5.805 on 9 and 453 DF, p-value: 1.164e-07
Retirando variáveis que parecem ter pouca ou nenhuma influência nos resultado, chegamos a um quarto modelo de regressão apresentado abaixo.
mod4 <- lm(score ~ rank + gender + language + age + bty_avg + pic_color, data = data)
summary(mod4)
##
## Call:
## lm(formula = score ~ rank + gender + language + age + bty_avg +
## pic_color, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.74683 -0.35305 0.09572 0.40367 0.95031
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.629925 0.216816 21.354 < 2e-16 ***
## ranktenure track -0.195338 0.082101 -2.379 0.017759 *
## ranktenured -0.165657 0.061556 -2.691 0.007383 **
## gendermale 0.240509 0.051979 4.627 4.84e-06 ***
## languagenon-english -0.239751 0.104810 -2.287 0.022626 *
## age -0.008878 0.003145 -2.823 0.004971 **
## bty_avg 0.043737 0.017292 2.529 0.011764 *
## pic_colorcolor -0.249764 0.068289 -3.657 0.000285 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.514 on 455 degrees of freedom
## Multiple R-squared: 0.1203, Adjusted R-squared: 0.1067
## F-statistic: 8.886 on 7 and 455 DF, p-value: 2.846e-10
Neste modelo, gênero masculino e foto colorida se mantêm como fatores mais impactantes, dentre os analisados, nos resultados das avaliações discentes e o R-Squared (0.1067) indica uma influência de aproximadamente 10% deste modelo nos scores das avaliações.
Algumas informações que podem ser obtidas através dos gráficos abaixo, onde confrontamos as variáveis idade, gênero e score:
library(GGally)
ggpairs(select(data, gender, age, score))
Diferente do que foi suposto anteriormente, os comparativos abaixo mostram que professores que possuem fotos em preto e branco tendem a serem classificados como mais bonitos e a receberem maiores scores de avaliação. Também pode-se perceber que professoras do sexo feminino possuem uma mediana de beleza media suavemente maior do que a de professores do sexo masculino e, ainda assim, possuem uma mediana de score de avaliação menor dos mesmos.
library(GGally)
ggpairs(select(data, gender, bty_avg, pic_color, score))
Após todas as análises, pode-se concluir que o fator beleza de um professor influencia fracamente (3%) e positivamente na avaliação de sua docência, mas que existem uma série de outros fatores que também podem influenciar. Neste relatório foi possivel montar um modelo capaz de explicar 10% das influências nas avaliações, o que indica este é um estudo complexo que não pode ser completamente explicado apenas com as variáveis que analisamos.