O presente trabalho possui como foco a construção de um Diagrama de dispersão e uma Matriz de Correlação de duas variáveis quantitativas da base de dados chamada “Questionario_Estresse.xlsx”..
library(readxl)
Questionario_Estresse <- read_excel("C:/Users/DELL/Downloads/Base_de_dados-master/Questionario_Estresse.xls")
par(bg = "lightgray")
par(cex=0.9)
plot(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Desempenho, pch = 16, col = "blue",
main = " Gráfico 1 - Diagrama de dispersão entre Desempenho por horas estudadas",
xlab = "Horas estudadas",
ylab = "Desempenho")
abline(lsfit(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Desempenho),col="darkblue")
cor(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Desempenho)
## [1] 0.2231532
selecao1 = c('Desempenho', 'Horas_estudo')
cor_estresse = cor(Questionario_Estresse[,selecao1])
library(corrplot)
## corrplot 0.92 loaded
par(bg = "lightgray")
par(cex=0.9)
corrplot(cor_estresse,method = "number")
Primeiramente, é possível idealizar uma teoria a ser analisada entre as duas variáveis, onde quanto mais horas estudadas pelo aluno, melhor será o seu desempenho. No que concerne os dados coletados, pode-se afirmar que em relação ao Diagrama de dispersão, não há correlação entre as duas variáveis, dado que existe um número concentrado de pontos no canto superior esquerdo e no meio, com diversos pontos espalhados pela parte inferior e poucos pela direita.
Todavia, ao estudar a matriz correlação, podemos chegar a dados mais precisos, onde é possível sim ver uma correlação entre as duas variáveis, embora tal intensidade seja classificada em 0.22, com em um grau positivo e fraco de associação. Logo, em relação a teoria, podemos concluir que embora idealizado no inicio que quanto mais horas fossem estudadas pelo aluno, melhor seria o seu desempenho, os dados nos mostram o contrário, uma vez que diversos alunos, mesmo com poucas horas de estudo, possuem um ótimo desempenho.