Primeiramente, iremos importar a base de dados “Questionario_Estresse”.
library(readxl)
QE <- read_excel("C:/Users/18744968701/Downloads/Questionario_Estresse.xls")
Depois, criaremos o diagrama de dispersão das variáveis Desempenho e Horas de estudo, e calcularemos o coeficiente de correlação.
plot(QE$Desempenho,QE$Horas_estudo,
main="Diagrama de dispersao entre as variaveis desempenho e horas de estudo",
xlab = "Desempenho", ylab = "Horas de estudo", pch=20, col="darkblue")
abline(lsfit(QE$Desempenho,QE$Horas_estudo), col="skyblue")
cor(QE$Desempenho, QE$Horas_estudo)
## [1] 0.2231532
Para auxiliar na análise de dados, definiremos a média do desempenho e das horas de estudo, respectivamente, para medidas de comparação:
mean(QE$Desempenho)
## [1] 8.593789
mean(QE$Horas_estudo)
## [1] 30.72632
Por meio da análise do diagrama e do cálculo do coeficiente de correlação entre as variáveis analisadas, podemos notar que as variáveis desempenho e horas de estudo possuem uma correlação positiva fraca de 0.2231532. Isso quer significa que, até certo ponto, quanto mais horas de estudo, maior o desempenho do aluno.
Por último, uma avaliação preliminar sobre a dispersão inclui a presença de dois outliers, em que alunos que afirmam estudar por 59 e 60 horas se destacam por apresentarem valores atípicos, se comparados a média de 8,6 em desempenho e 30,7 horas de estudo.