Os dados fonte desse documento são dados sobre a avaliação de professores tendo em vista métricas como a beleza e a idade. Foram dados carregados de um CSV que pode ser encontrado nesse link. Para mais referencias, acessar esse link.
profsNa coleta desses dados, foi feita uma avaliação do quão o professor ensina bem em conjunto com a beleza desse professr a partir de uma foto. Além disso, foi coletado as condições dessa avaliação: Se a foto era colorida ou não, o tipo de roupa que o professor estava vestindo, qual a idade desse professor e qual o genero dele.
O proposito dessa coleta de dados foi em saber se haveria uma influencia da estetica na percepção do quão bem o professor ensina.
tibble(colunas = colnames(profs))Nesse conjunto de dados temos as seguintes colunas:
score: A avaliação quanto ao ensino do professor.age: A idade do professor.gender: O genero do professor.bty_avg: A média de beleza avaliada.pic_outfit: Qual o tipo do traje que o professor estava usando na foto, se era formal ou não.pic_color: Se a foto mostrada era colorida ou não.Para saber se as métricas coletadas podem modelar o comportamento do score, podemos analisa-las individualmente.
Primeiramente, transformaremos as variaveis categoricas em variaveis númericas:
numeric_profs = profs %>%
mutate(is_male = as.numeric(gender == "male")) %>%
mutate(is_formal = as.numeric(pic_outfit == "formal")) %>%
mutate(is_color = as.numeric(pic_color == "color")) %>%
select(-gender, -pic_outfit, -pic_color)
numeric_profsApós isso, calcularemos para cada uma das variaveis, o modelo:
calcula_lm = function (metrica) {
modelo_lm = lm(score ~ metrica, data = numeric_profs)
tidy(modelo_lm) %>%
select(term, estimate) %>%
spread(term, estimate) %>%
rename(
slope = metrica
) %>%
cbind(
glance(modelo_lm) %>%
select(r.squared)
)
}
calcula_cor = function (metrica) {
numeric_profs %>%
summarise(correlacao = cor(metrica, score))
}
monta_linha = function (metrica) {
cbind(
calcula_cor(metrica),
calcula_lm(metrica)
)
}
tibble(metrica = colnames(numeric_profs)) %>%
filter(metrica != "score") %>%
mutate(correlacao = map(numeric_profs[metrica], monta_linha)) %>%
unnest(cols = c(correlacao))Como podemos observar todos os modelos montados conseguem expressar muito pouco o que acontece com o score. Percebe-se isso pelo R2 (r.squared), que se apresenta baixissimo em todos os casos. Além disso, pode-se perceber, através do coeficiente de correlação, que essas variaveis tem muito pouca relação com o score.
Quanto a influencia, que pode ser medida pelo slope, todas possuem uma influencia muito baixa. Considerando as variaveis que representam valores booleanos, por exemplo, o máximo que elas conseguem alterar o score, para o modelo montado, é em 0.22, o que é baixissimo, visto que o score vai de 1 até 5. Isso quer dizer que você não consegue representar os valores 1 e o 5 no mesmo modelo, já que esses dois valores possuem uma diferença maior que 0.22.
Tendo em vista as variaveis númericas, a mesma coisa ocorre. Com o bty_avg, por exemplo, sabendo que ele vai de 1 até 5, o máximo que ele pode alterar o score é em 0.33.
Como tentativa de melhorar o modelo do score, podemos criar um modelo com multiplas variaveis, ou seja, tentar modelar o score a partir de várias métricas ao mesmo tempo:
format_model = function (model) {
tidy(model) %>%
select(term, estimate) %>%
spread(term, estimate) %>%
cbind(
glance(model) %>%
select(r.squared)
)
}
modelo_todos = lm(score ~ age + bty_avg + is_male + is_formal + is_color, data = numeric_profs)
format_model(modelo_todos)Como se pode ver, o r.squared aumentou, isso quer dizer que com esse novo modelo conseguimos representar o score melhor do que com apenas uma variavel.
Mesmo assim esse modelo apresenta um r.squared baixissimo (0.08). Isso quer dizer que mesmo ele sendo melhor que os outros modelos montados anteriormente, ele ainda não consegue modelar bem o score, ou seja, vão existir pontos que não serão representados.
Tendo em vista o r.squared baixo (0.08, ou seja, esse modelo pode no máximo pode representar uma diferença de 0.08) mesmo na regressão multipla, pode-se afirmar que não existe relação da qualidade do ensino com a beleza do professor.