1. Sobre os Dados

Vários cursos universitários dão aos alunos a oportunidade de avaliar o curso e o professor de maneira anônima ao final do semestre. Contudo, o uso das avaliações dos alunos como um indicador da qualidade do curso e a eficácia do ensino é frequentemente criticado porque essas medidas podem refletir a influência de características não relacionadas à docência, tal como a aparência física do professor. Neste laboratório analisaremos os dados de um estudo que coletou dados para examinar a hipótese de que a beleza do professor influencia na percepção de competência dos alunos.

Os dados foram coletados a partir das avaliações discentes de final de semestre de uma grande amostra de professores da Universidade do Texas em Austin. Além disso, seis estudantes avaliaram a aparência física dos professores. O resultado é um banco de dados no qual cada linha contém diferentes disciplinas e cada coluna representa as variáveis sobre as disciplinas e os professores. As variáveis contidas nele são as seguintes:

Descrição das Variáveis
Variáveis Descrição
score pontuação média da avaliação do docente
rank nível do professor
ethnicity etnia do professor
gender sexo do professor
language língua da universidade frequentada pelo professor
age idade do professor
cls_perc_eval percentual de alunos na turma que completaram a avaliação
cls_did_eval número de alunos na turma que completaram a avaliação
cls_students número total de alunos na turma
cls_level nível da disciplina: introdutória ou avançada
cls_profs número de professores ministrando módulos na disciplina dentro da amostra
cls_credits número de créditos da disciplina: um crédito, múltiplos créditos
bty_f1lower avaliação da beleza do professor por aluna de nível inicial
bty_f1upper avaliação da beleza do professor por aluna de nível avançado
bty_f2upper avaliação da beleza do professor por segunda aluna de nível avançado
bty_m1lower avaliação da beleza do professor por aluno de nível inicial
bty_m1upper avaliação da beleza do professor por aluno de nível avançado
bty_m2upper avaliação da beleza do professor por segundo aluno de nível avançado
bty_avg média da avaliação da beleza do professor
pic_outfit roupa do professor na foto avaliada: informal, formal
pic_color cor da foto avaliada: colorida, preto e branco

2. Análise Descritiva dos Dados

A Questão 1 será apresentada no tópico 2.2. A questão é:

2.1 Importando os Dados

Para realizar esta análise através do R (ferramenta para estatística computacional), os seguintes pacotes foram utilizados:

# Bibliotecas utilizadas na análise
library(ggplot2)
library(dplyr)
library(knitr)
library(gridExtra)
library(GGally)
library(broom)
library(ggfortify)
library(car)

A importação dos dados pertinentes para este problema foi realizada da seguinte maneira:

# Link p/ realizar o download.
datasetsURL <- "http://bit.ly/1UOBQ7r"
# nome do arquivo csv
nomeDoArquivo <- "evals.csv"
# verifica se o arquivo já existe
if(!file.exists(nomeDoArquivo)) {
    # caso não exista, realiza o download
    download.file(url = datasetsURL, destfile = nomeDoArquivo)
}
# inicia a base de dados bruta
dados.brutos <- read.csv (nomeDoArquivo)

2.2 Análise dos Dados

Essa amostra contém 463 dados (como verificado abaixo) onde primeiramente, foi verificado como está a distribuição das variáveis score(pontuação média do docente) e bty_avg (média da avaliação da beleza do professor), como apresentado nas Figura 1 e Figura 2, respectivamente.

# gráfico de barras da média da avaliação da beleza do professor
grafico.barra.bty <- ggplot(dados.brutos, aes(bty_avg)) + geom_bar()+ 
labs(y = "Quantidade", x = "Média das pontuações de beleza") + 
ggtitle("Figura 1. Avaliações de beleza do \n docente")
# gráfico de barras da pontuação média do docente
grafico.barra.score <-ggplot(dados.brutos, aes(score)) + geom_bar()+ 
labs(y = "Quantidade", x = "Média pontuação do docente") + 
ggtitle("Figura 2. Avaliações do docente\n") 
# organiza os gráficos ao lado do outro
grid.arrange(grafico.barra.bty, grafico.barra.score,nrow=1)

Ao observar a Figura 1, é possível notar que as avaliações de beleza dos docentes apresentam uma grande variação de acordo com a quantidade das médias.

#sumário das avaliações de beleza e pontuação do docente
kable( summary(select (dados.brutos, bty_avg, score)), digits=2, 
caption = "Estatísticas das variáveis de beleza e pontuação do docente")
Estatísticas das variáveis de beleza e pontuação do docente
bty_avg score
Min. :1.667 Min. :2.300
1st Qu.:3.167 1st Qu.:3.800
Median :4.333 Median :4.300
Mean :4.418 Mean :4.175
3rd Qu.:5.500 3rd Qu.:4.600
Max. :8.167 Max. :5.000

Os valores da Figura 1, como apresentado no código acima, possui: médiana de 4.33, média de 4.41, valor mínimo de 1.66 e valor máximo de 8.16. Através da Figura 2, é possível notar uma distribuição assimétrica à esquerda, pois a média aritmética é menor que a mediana que, por sua vez, é menor que a moda. Além disso, apresenta um valor mínimo de 2.30 e um valor máximo de 5.00.

Após isso, foi verificado como os dados estão dispostos nos dados qualitativos.

# separa os dados qualitativos
dados.qualitativos.analise <- select (dados.brutos, score, ethnicity, gender, language,
pic_color )
#plota os gráficos
ggpairs.qualitativo <- ggpairs(dados.qualitativos.analise, columns=1:3,
title = "Figura 3. Dados de etnia e gênero")
ggpairs.qualitativo

Através da Figura 3 percebe-se que: apesar da quantidade de não minorias ser bem maior que as minorias, a mediana desses tipos são similares. Além disso, alguns outliers são apresentados no boxplot com alguns scores baixos; o número de professores do gênero masculino é superior ao feminino, e apresentam medianas aproximadas. Alguns outliers também são apresentados devido a baixos scores quando relacionados ao gênero.

# separa os dados qualitativos
dados.qualitativos.analise <- select (dados.brutos, score,  language, pic_color )
#plota os gráficos
ggpairs.qualitativo <- ggpairs(dados.qualitativos.analise, columns=1:3,
title = "Figura 4. Dados de linguagem e cor da foto")
ggpairs.qualitativo 

Pode ser notado através da Figura 4 que: a quantidade de professores nos quais suas universidades têm a língua inglesa como nativa é bem superior a quantidade instituições que não têm a língua inglesa. Devido a isso, a mediana do score das instituições com língua inglesa, é maior do que as com outras línguas; o número de fotos coloridas é superior ao de fotos preto e branco, e aparentemente apresentam medianas aproximadas.

# separa os dados 
dados.qualitativos.analise <- select (dados.brutos, score,  cls_level, cls_profs )
#plota os gráficos
ggpairs.qualitativo <- ggpairs(dados.qualitativos.analise, columns=1:3,
title = "Figura 5. Nível da disciplina e número de professores")
ggpairs.qualitativo 

Através da Figura 5 é possível perceber que o número de disciplinas avançadas é superior ao nível de disciplinas introdutória e, apresenta também uma mediana superior. Além disso, o número de múltiplos professores apresentando módulos na disciplina é maior do que a quantidade de módulos apresentados por apenas um único professor.

Após isso, foi verificado como as variáveis quantitativas estão disposas e se existe possiveis correlações entre elas.

# separa os dados
dados.quantitativo.analise <- select (dados.brutos, score,  age, cls_perc_eval )
#plota os gráficos
ggpairs.quantitativo <- ggpairs(dados.quantitativo.analise, columns=1:3,
title = "Figura 6. Idades e percentual das turmas que completaram a avaliação")
ggpairs.quantitativo 

Como observado na Figura 6 aparentemente não existe relação entre as variáveis envolvidas, que são: score (pontuação), age (idade) e cls_perc_eval (percentual de alunos na turma que completaram a avaliação). Entretanto, percebe que ocorre uma assimetria nos valores do cls_perc_eval e uma possível simetria nos valores referentes a idade.

# separa os dados 
dados.quantitativo.analise <- select (dados.brutos, score,  cls_did_eval, cls_students )
#plota os gráficos
ggpairs.quantitativo <- ggpairs(dados.quantitativo.analise, columns=1:3,
title = "Figura 7. Número de alunos que completaram a avaliação e total de alunos")
ggpairs.quantitativo 

Através da Figura 7 é possível perceber uma relação (meio óbvia) entre o número total de alunos na turma com o número de alunos que completaram a avaliação. Além disso, as duas variáveis apresentam uma distribuição assimétrica.

# separa os dados
dados.quantitativo.analise1 <- select (dados.brutos, score,  bty_avg )
#plota os gráficos
ggpairs.quantitativo1 <- ggpairs(dados.quantitativo.analise1, columns=1:2,
title = "Figura 8. Score e Média da avaliação de beleza")
ggpairs.quantitativo1 

Por meio da Figura 8 nota-se que aparentemente existe uma baixa correlação entre o bty_avg (média da beleza) e o score total do professor.

3. Regressão

As Questão 2 e 3 serão apresentadas nos tópicos 3.1 e 3.2, respectavamente. Tais questões são:

3.1 Linear Simples

A abordagem será através de uma resposta quantitativa Y na base de uma única variável X. Assume-se que existe uma relação linear entre X e Y que matematicamente, pode ser descrita como:

\[ Y\approx \beta _0 + \beta _1X \]

No caso dessa questão, o X representa bty_avg (média da beleza do professor) e o Y que representa a pontuação média da avaliação do docente. Então, será feita a regressão de média da beleza no score do professor, com o seguinte modelo:

\[ \mathit{score} \approx \beta_0 + \beta_1 \textit{bty-avg} \]

Primeiramente, foi aplicado a regressão nas variáveis.

#calcula a regressao
mod <- lm(score ~ bty_avg, data = dados.brutos)

Os dados gerados através de modelo foram:

# constrói um quadro de dados que resume as conclusões estatísticas do modelo. Isto
# inclui coeficientes e os valores de p para cada
kable(tidy(mod, conf.int = TRUE))
term estimate std.error statistic p.value conf.low conf.high
(Intercept) 3.880338 0.0761430 50.961213 0.00e+00 3.7307076 4.0299683
bty_avg 0.066637 0.0162912 4.090382 5.08e-05 0.0346229 0.0986512
# constroi um resumo conciso do modelo. Isso normalmente contém valores como R^2, 
# R^2 ajustado, e erro padrão residual que são computados uma vez para todo o modelo
kable(glance(mod, conf.int = TRUE)[1:5])
r.squared adj.r.squared sigma statistic p.value
0.0350223 0.032929 0.5348351 16.73123 5.08e-05

Através dos dados mostrados anteriormente e com uma significância estatística de 95% é notado que a avaliação média da beleza do professor apresenta baixas evidências que exista relação entre a beleza de um professor e seu score. Por meio de um R-squared de 0.035 pode ser concluído que essa variável não representa significativamente a variação dos dados.

Abaixo é apresentado (Figura 9) o gráfico de dispersão com a regressão linear e o intervalo de confiança.

#plota gráfico com a linha de regressao
ggplot(mod, aes(bty_avg, score)) +
geom_point(alpha = 0.4) +
#plota o modelo linear e o intervalo de confiança
geom_smooth(method="lm",colour="#CC0000", se=TRUE) + 
ggtitle("Figura 9. Gráfico de Dispersão com Regressão Linear") 

Levando em consideração a significância prática, a média da beleza e o score aparentemente não possuem relação significativa.

#plota graficos
plot(mod)

Os Pressupostos da Regressão, foram analisados, onde: (i) o gráfico de Residuals vs Fitted, apresenta a dispersão dos resíduos no eixo y os valores no eixo x. Esse gráfico é gerado a partir da regressão linear da beleza no score no conjunto de dados. A linha vermelha é um bom ajuste para os resíduos, que é exibido, a fim de torná-lo mais fácil de identificar quaisquer tendências. Dessa forma, é possível notar que a regressão linear dessas variáveis não apresentam padrões não-lineres nos resíduos; (ii) por meio do Normal Q-Q foi verificado a suposição que os dados apresentam uma distribuição Normal. Aparentemente, os dados possuem uma tendência normal. Lembrando que, é apenas uma verificação visual, que permite ver de relance, se a suposição de normalidade é violada. (iii) através do Scale-Location pode ser verificado o pressuposto da igualdade de variância (homocedasticidade). (iv) por fim, através da análise Residuals vs Levarage buscou-se encontrar valores influentes na linha de regressão, pois nem sempre valores extremos são influentes (os resultados não seriam tão diferentes se tais valores não estivessem presentes na análise). Normalmente, é verificado as extremidades em buscas de valores fora do Cook (casos influentes na regressão). Dessa forma, por meio da análise, é possível perceber que não ocorre nenhum caso influente, pois os valores não ultrapassam a linha do Cook (creio que ela não foi plotada devido a falta de valores). Além disso, é apresentado alguns outliers que são valores extremos (40, 165 e 332) nas avaliações.

3.2 Linear Múltipla

Para avaliar se a beleza possui um efeito significativo no score dos professores é levando em consideração outros fatores. Dessa forma, acredito que as seguintes variáveis tenham um efeito significativo no score:

  • bty_avg: média da avaliação da beleza do professor terá um efeito positivo no score.
  • ethnicity: acredito que a não-minoria apresenta um efeito positivo;
  • gender: o sexo feminino possivelmente apresentará maiores efeitos do que o masculino;
  • language: língua inglesa da universidade frequentada pelo professor terá um efeito positivo;
  • cls_credits: número de créditos da disciplina: um crédito, múltiplos créditos;
  • cls_perc_eval: percentual de alunos na turma que completaram a avaliação.

Em seguida, foi construido o seguinte modelo:

\[ score = \beta_0 + \beta_1 * bty.avg + \beta_2 * ethnicity + \beta_3 * gender + \beta_4 * language + \beta_5 * cls.credits + \beta_6 * cls.perc.eval \]

Os seguintes resultados foram encontrados:

#calculando a regressão
mlm <- lm(score ~ bty_avg + ethnicity + gender + language + cls_credits + cls_perc_eval, data = dados.brutos)
# constrói um quadro de dados que resume as conclusões estatísticas do modelo. Isto
# inclui coeficientes e os valores de p para cada
kable(tidy(mlm, conf.int = TRUE))
term estimate std.error statistic p.value conf.low conf.high
(Intercept) 3.1797603 0.1485898 21.399584 0.0000000 2.8877546 3.4717661
bty_avg 0.0736110 0.0157459 4.674945 0.0000039 0.0426676 0.1045545
ethnicitynot minority 0.1968547 0.0748178 2.631122 0.0087986 0.0498243 0.3438851
gendermale 0.1608036 0.0484462 3.319217 0.0009751 0.0655980 0.2560092
languagenon-english -0.1653276 0.1034977 -1.597403 0.1108686 -0.3687193 0.0380641
cls_creditsone credit 0.5233144 0.1050814 4.980087 0.0000009 0.3168105 0.7298182
cls_perc_eval 0.0051933 0.0014410 3.603870 0.0003480 0.0023614 0.0080252
# constrói um quadro de dados que resume as conclusões estatísticas do modelo. Isto
# inclui coeficientes e os valores de p para cada
kable(glance(mlm, conf.int = TRUE)[1:5])
r.squared adj.r.squared sigma statistic p.value
0.1507161 0.1395413 0.5044937 13.48715 0

Por meio da regressão linear múltipla que foi realizada, é possível perceber que language non-english é a única que apresenta uma estimativa negativa, entretanto seus efeitos não são significativos por conter 0 em seu intervalo de confiança. As outras variáveis apresentam suas estimativas e intervalos de confiança com efeitos positivos.

Para verificar a colinearidade da regressão multivariada foi utilizado o vif (Variance Inflation Factors). Através dele, é possível notar que os valores estão dentro do recomendado (vif < 10).

#detecta colinearidade
kable(as.data.frame(vif (mlm)))
vif(mlm)
bty_avg 1.049924
ethnicity 1.213026
gender 1.040872
language 1.107176
cls_credits 1.103086
cls_perc_eval 1.058369

Através da observação dos aspectos apresentados, é concluído que a hipótese de que a beleza do professor influencia na percepção de competência dos alunos é nula. Pois, através da análise realizada é possível perceber que os efeitos da beleza dos professores pouco influenciam na variação do score (como pode ser notado através de um R^2 de 0.15). Dessa forma, existem outras variáveis que não estão presentes na análise que explicam melhor a variação do resultado final.