Vários cursos universitários dão aos alunos a oportunidade de avaliar o curso e o professor de maneira anônima ao final do semestre. Contudo, o uso das avaliações dos alunos como um indicador da qualidade do curso e a eficácia do ensino é frequentemente criticado porque essas medidas podem refletir a influência de características não relacionadas à docência, tal como a aparência física do professor. Neste laboratório analisaremos os dados de um estudo que coletou dados para examinar a hipótese de que a beleza do professor influencia na percepção de competência dos alunos.
Os dados foram coletados a partir das avaliações discentes de final de semestre de uma grande amostra de professores da Universidade do Texas em Austin. Além disso, seis estudantes avaliaram a aparência física dos professores. O resultado é um banco de dados no qual cada linha contém diferentes disciplinas e cada coluna representa as variáveis sobre as disciplinas e os professores. As variáveis contidas nele são as seguintes:
Variáveis | Descrição |
---|---|
score | pontuação média da avaliação do docente |
rank | nível do professor |
ethnicity | etnia do professor |
gender | sexo do professor |
language | língua da universidade frequentada pelo professor |
age | idade do professor |
cls_perc_eval | percentual de alunos na turma que completaram a avaliação |
cls_did_eval | número de alunos na turma que completaram a avaliação |
cls_students | número total de alunos na turma |
cls_level | nível da disciplina: introdutória ou avançada |
cls_profs | número de professores ministrando módulos na disciplina dentro da amostra |
cls_credits | número de créditos da disciplina: um crédito, múltiplos créditos |
bty_f1lower | avaliação da beleza do professor por aluna de nível inicial |
bty_f1upper | avaliação da beleza do professor por aluna de nível avançado |
bty_f2upper | avaliação da beleza do professor por segunda aluna de nível avançado |
bty_m1lower | avaliação da beleza do professor por aluno de nível inicial |
bty_m1upper | avaliação da beleza do professor por aluno de nível avançado |
bty_m2upper | avaliação da beleza do professor por segundo aluno de nível avançado |
bty_avg | média da avaliação da beleza do professor |
pic_outfit | roupa do professor na foto avaliada: informal, formal |
pic_color | cor da foto avaliada: colorida, preto e branco |
A Questão 1 será apresentada no tópico 2.2. A questão é:
Para realizar esta análise através do R (ferramenta para estatística computacional), os seguintes pacotes foram utilizados:
# Bibliotecas utilizadas na análise
library(ggplot2)
library(dplyr)
library(knitr)
library(gridExtra)
library(GGally)
library(broom)
library(ggfortify)
library(car)
A importação dos dados pertinentes para este problema foi realizada da seguinte maneira:
# Link p/ realizar o download.
datasetsURL <- "http://bit.ly/1UOBQ7r"
# nome do arquivo csv
nomeDoArquivo <- "evals.csv"
# verifica se o arquivo já existe
if(!file.exists(nomeDoArquivo)) {
# caso não exista, realiza o download
download.file(url = datasetsURL, destfile = nomeDoArquivo)
}
# inicia a base de dados bruta
dados.brutos <- read.csv (nomeDoArquivo)
Essa amostra contém 463 dados (como verificado abaixo) onde primeiramente, foi verificado como está a distribuição das variáveis score(pontuação média do docente) e bty_avg (média da avaliação da beleza do professor), como apresentado nas Figura 1 e Figura 2, respectivamente.
# gráfico de barras da média da avaliação da beleza do professor
grafico.barra.bty <- ggplot(dados.brutos, aes(bty_avg)) + geom_bar()+
labs(y = "Quantidade", x = "Média das pontuações de beleza") +
ggtitle("Figura 1. Avaliações de beleza do \n docente")
# gráfico de barras da pontuação média do docente
grafico.barra.score <-ggplot(dados.brutos, aes(score)) + geom_bar()+
labs(y = "Quantidade", x = "Média pontuação do docente") +
ggtitle("Figura 2. Avaliações do docente\n")
# organiza os gráficos ao lado do outro
grid.arrange(grafico.barra.bty, grafico.barra.score,nrow=1)
Ao observar a Figura 1, é possível notar que as avaliações de beleza dos docentes apresentam uma grande variação de acordo com a quantidade das médias.
#sumário das avaliações de beleza e pontuação do docente
kable( summary(select (dados.brutos, bty_avg, score)), digits=2,
caption = "Estatísticas das variáveis de beleza e pontuação do docente")
bty_avg | score | |
---|---|---|
Min. :1.667 | Min. :2.300 | |
1st Qu.:3.167 | 1st Qu.:3.800 | |
Median :4.333 | Median :4.300 | |
Mean :4.418 | Mean :4.175 | |
3rd Qu.:5.500 | 3rd Qu.:4.600 | |
Max. :8.167 | Max. :5.000 |
Os valores da Figura 1, como apresentado no código acima, possui: médiana de 4.33, média de 4.41, valor mínimo de 1.66 e valor máximo de 8.16. Através da Figura 2, é possível notar uma distribuição assimétrica à esquerda, pois a média aritmética é menor que a mediana que, por sua vez, é menor que a moda. Além disso, apresenta um valor mínimo de 2.30 e um valor máximo de 5.00.
Após isso, foi verificado como os dados estão dispostos nos dados qualitativos.
# separa os dados qualitativos
dados.qualitativos.analise <- select (dados.brutos, score, ethnicity, gender, language,
pic_color )
#plota os gráficos
ggpairs.qualitativo <- ggpairs(dados.qualitativos.analise, columns=1:3,
title = "Figura 3. Dados de etnia e gênero")
ggpairs.qualitativo
Através da Figura 3 percebe-se que: apesar da quantidade de não minorias ser bem maior que as minorias, a mediana desses tipos são similares. Além disso, alguns outliers são apresentados no boxplot com alguns scores baixos; o número de professores do gênero masculino é superior ao feminino, e apresentam medianas aproximadas. Alguns outliers também são apresentados devido a baixos scores quando relacionados ao gênero.
# separa os dados qualitativos
dados.qualitativos.analise <- select (dados.brutos, score, language, pic_color )
#plota os gráficos
ggpairs.qualitativo <- ggpairs(dados.qualitativos.analise, columns=1:3,
title = "Figura 4. Dados de linguagem e cor da foto")
ggpairs.qualitativo
Pode ser notado através da Figura 4 que: a quantidade de professores nos quais suas universidades têm a língua inglesa como nativa é bem superior a quantidade instituições que não têm a língua inglesa. Devido a isso, a mediana do score das instituições com língua inglesa, é maior do que as com outras línguas; o número de fotos coloridas é superior ao de fotos preto e branco, e aparentemente apresentam medianas aproximadas.
# separa os dados
dados.qualitativos.analise <- select (dados.brutos, score, cls_level, cls_profs )
#plota os gráficos
ggpairs.qualitativo <- ggpairs(dados.qualitativos.analise, columns=1:3,
title = "Figura 5. Nível da disciplina e número de professores")
ggpairs.qualitativo
Através da Figura 5 é possível perceber que o número de disciplinas avançadas é superior ao nível de disciplinas introdutória e, apresenta também uma mediana superior. Além disso, o número de múltiplos professores apresentando módulos na disciplina é maior do que a quantidade de módulos apresentados por apenas um único professor.
Após isso, foi verificado como as variáveis quantitativas estão disposas e se existe possiveis correlações entre elas.
# separa os dados
dados.quantitativo.analise <- select (dados.brutos, score, age, cls_perc_eval )
#plota os gráficos
ggpairs.quantitativo <- ggpairs(dados.quantitativo.analise, columns=1:3,
title = "Figura 6. Idades e percentual das turmas que completaram a avaliação")
ggpairs.quantitativo
Como observado na Figura 6 aparentemente não existe relação entre as variáveis envolvidas, que são: score (pontuação), age (idade) e cls_perc_eval (percentual de alunos na turma que completaram a avaliação). Entretanto, percebe que ocorre uma assimetria nos valores do cls_perc_eval e uma possível simetria nos valores referentes a idade.
# separa os dados
dados.quantitativo.analise <- select (dados.brutos, score, cls_did_eval, cls_students )
#plota os gráficos
ggpairs.quantitativo <- ggpairs(dados.quantitativo.analise, columns=1:3,
title = "Figura 7. Número de alunos que completaram a avaliação e total de alunos")
ggpairs.quantitativo
Através da Figura 7 é possível perceber uma relação (meio óbvia) entre o número total de alunos na turma com o número de alunos que completaram a avaliação. Além disso, as duas variáveis apresentam uma distribuição assimétrica.
# separa os dados
dados.quantitativo.analise1 <- select (dados.brutos, score, bty_avg )
#plota os gráficos
ggpairs.quantitativo1 <- ggpairs(dados.quantitativo.analise1, columns=1:2,
title = "Figura 8. Score e Média da avaliação de beleza")
ggpairs.quantitativo1
Por meio da Figura 8 nota-se que aparentemente existe uma baixa correlação entre o bty_avg (média da beleza) e o score total do professor.
As Questão 2 e 3 serão apresentadas nos tópicos 3.1 e 3.2, respectavamente. Tais questões são:
Questão 2: Utilize regressão linear simples para avaliar a relação entre beleza e score quando consideramos apenas essa variável. Comente a significância estatística e a significância prática da relação que você está investigando. Os pressupostos da regressão foram atendidos? Alguma medida a ser tomada nesse ponto?
Questão 3: Queremos agora avaliar se o efeito da beleza é significativo quando levamos em conta outras variáveis que podem explicar a variação de avaliações que observamos. Antes de fazer o modelo, pense sobre cada uma delas e anote quais você espera que tenham um efeito significativo e quais teriam efeito positivo ou negativo. Em seguida, construa seu modelo e avalie os resultados encontrados. Comente os efeitos dos preditores, o fit do modelo e que implicações você acha que ele tem. Nos diga qual sua conclusão sobre o efeito da beleza na avaliação da docência dos professores.
A abordagem será através de uma resposta quantitativa Y na base de uma única variável X. Assume-se que existe uma relação linear entre X e Y que matematicamente, pode ser descrita como:
\[ Y\approx \beta _0 + \beta _1X \]
No caso dessa questão, o X representa bty_avg (média da beleza do professor) e o Y que representa a pontuação média da avaliação do docente. Então, será feita a regressão de média da beleza no score do professor, com o seguinte modelo:
\[ \mathit{score} \approx \beta_0 + \beta_1 \textit{bty-avg} \]
Primeiramente, foi aplicado a regressão nas variáveis.
#calcula a regressao
mod <- lm(score ~ bty_avg, data = dados.brutos)
Os dados gerados através de modelo foram:
# constrói um quadro de dados que resume as conclusões estatísticas do modelo. Isto
# inclui coeficientes e os valores de p para cada
kable(tidy(mod, conf.int = TRUE))
term | estimate | std.error | statistic | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
(Intercept) | 3.880338 | 0.0761430 | 50.961213 | 0.00e+00 | 3.7307076 | 4.0299683 |
bty_avg | 0.066637 | 0.0162912 | 4.090382 | 5.08e-05 | 0.0346229 | 0.0986512 |
# constroi um resumo conciso do modelo. Isso normalmente contém valores como R^2,
# R^2 ajustado, e erro padrão residual que são computados uma vez para todo o modelo
kable(glance(mod, conf.int = TRUE)[1:5])
r.squared | adj.r.squared | sigma | statistic | p.value |
---|---|---|---|---|
0.0350223 | 0.032929 | 0.5348351 | 16.73123 | 5.08e-05 |
Através dos dados mostrados anteriormente e com uma significância estatística de 95% é notado que a avaliação média da beleza do professor apresenta baixas evidências que exista relação entre a beleza de um professor e seu score. Por meio de um R-squared de 0.035 pode ser concluído que essa variável não representa significativamente a variação dos dados.
Abaixo é apresentado (Figura 9) o gráfico de dispersão com a regressão linear e o intervalo de confiança.
#plota gráfico com a linha de regressao
ggplot(mod, aes(bty_avg, score)) +
geom_point(alpha = 0.4) +
#plota o modelo linear e o intervalo de confiança
geom_smooth(method="lm",colour="#CC0000", se=TRUE) +
ggtitle("Figura 9. Gráfico de Dispersão com Regressão Linear")
Levando em consideração a significância prática, a média da beleza e o score aparentemente não possuem relação significativa.
#plota graficos
plot(mod)
Os Pressupostos da Regressão, foram analisados, onde: (i) o gráfico de Residuals vs Fitted, apresenta a dispersão dos resíduos no eixo y os valores no eixo x. Esse gráfico é gerado a partir da regressão linear da beleza no score no conjunto de dados. A linha vermelha é um bom ajuste para os resíduos, que é exibido, a fim de torná-lo mais fácil de identificar quaisquer tendências. Dessa forma, é possível notar que a regressão linear dessas variáveis não apresentam padrões não-lineres nos resíduos; (ii) por meio do Normal Q-Q foi verificado a suposição que os dados apresentam uma distribuição Normal. Aparentemente, os dados possuem uma tendência normal. Lembrando que, é apenas uma verificação visual, que permite ver de relance, se a suposição de normalidade é violada. (iii) através do Scale-Location pode ser verificado o pressuposto da igualdade de variância (homocedasticidade). (iv) por fim, através da análise Residuals vs Levarage buscou-se encontrar valores influentes na linha de regressão, pois nem sempre valores extremos são influentes (os resultados não seriam tão diferentes se tais valores não estivessem presentes na análise). Normalmente, é verificado as extremidades em buscas de valores fora do Cook (casos influentes na regressão). Dessa forma, por meio da análise, é possível perceber que não ocorre nenhum caso influente, pois os valores não ultrapassam a linha do Cook (creio que ela não foi plotada devido a falta de valores). Além disso, é apresentado alguns outliers que são valores extremos (40, 165 e 332) nas avaliações.
Para avaliar se a beleza possui um efeito significativo no score dos professores é levando em consideração outros fatores. Dessa forma, acredito que as seguintes variáveis tenham um efeito significativo no score:
Em seguida, foi construido o seguinte modelo:
\[ score = \beta_0 + \beta_1 * bty.avg + \beta_2 * ethnicity + \beta_3 * gender + \beta_4 * language + \beta_5 * cls.credits + \beta_6 * cls.perc.eval \]
Os seguintes resultados foram encontrados:
#calculando a regressão
mlm <- lm(score ~ bty_avg + ethnicity + gender + language + cls_credits + cls_perc_eval, data = dados.brutos)
# constrói um quadro de dados que resume as conclusões estatísticas do modelo. Isto
# inclui coeficientes e os valores de p para cada
kable(tidy(mlm, conf.int = TRUE))
term | estimate | std.error | statistic | p.value | conf.low | conf.high |
---|---|---|---|---|---|---|
(Intercept) | 3.1797603 | 0.1485898 | 21.399584 | 0.0000000 | 2.8877546 | 3.4717661 |
bty_avg | 0.0736110 | 0.0157459 | 4.674945 | 0.0000039 | 0.0426676 | 0.1045545 |
ethnicitynot minority | 0.1968547 | 0.0748178 | 2.631122 | 0.0087986 | 0.0498243 | 0.3438851 |
gendermale | 0.1608036 | 0.0484462 | 3.319217 | 0.0009751 | 0.0655980 | 0.2560092 |
languagenon-english | -0.1653276 | 0.1034977 | -1.597403 | 0.1108686 | -0.3687193 | 0.0380641 |
cls_creditsone credit | 0.5233144 | 0.1050814 | 4.980087 | 0.0000009 | 0.3168105 | 0.7298182 |
cls_perc_eval | 0.0051933 | 0.0014410 | 3.603870 | 0.0003480 | 0.0023614 | 0.0080252 |
# constrói um quadro de dados que resume as conclusões estatísticas do modelo. Isto
# inclui coeficientes e os valores de p para cada
kable(glance(mlm, conf.int = TRUE)[1:5])
r.squared | adj.r.squared | sigma | statistic | p.value |
---|---|---|---|---|
0.1507161 | 0.1395413 | 0.5044937 | 13.48715 | 0 |
Por meio da regressão linear múltipla que foi realizada, é possível perceber que language non-english é a única que apresenta uma estimativa negativa, entretanto seus efeitos não são significativos por conter 0 em seu intervalo de confiança. As outras variáveis apresentam suas estimativas e intervalos de confiança com efeitos positivos.
Para verificar a colinearidade da regressão multivariada foi utilizado o vif (Variance Inflation Factors). Através dele, é possível notar que os valores estão dentro do recomendado (vif < 10).
#detecta colinearidade
kable(as.data.frame(vif (mlm)))
vif(mlm) | |
---|---|
bty_avg | 1.049924 |
ethnicity | 1.213026 |
gender | 1.040872 |
language | 1.107176 |
cls_credits | 1.103086 |
cls_perc_eval | 1.058369 |
Através da observação dos aspectos apresentados, é concluído que a hipótese de que a beleza do professor influencia na percepção de competência dos alunos é nula. Pois, através da análise realizada é possível perceber que os efeitos da beleza dos professores pouco influenciam na variação do score (como pode ser notado através de um R^2 de 0.15). Dessa forma, existem outras variáveis que não estão presentes na análise que explicam melhor a variação do resultado final.