# Carregar a Base de Dados
library(readxl)
QE = read_excel("C:/Users/berna_y/Documents/#Mestrado UFF/1º Período/Estatística Aplicada à Engenharia/Base_de_dados-master/Questionario_Estresse.xls")
head(QE)
## # A tibble: 6 × 10
## Aluno Turma Mora_pais RJ Namorado_a Traba…¹ Desem…² Estre…³ Crédi…⁴ Horas…⁵
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 1 2 2 2 2 8.89 23 27 27
## 2 2 1 1 1 2 2 8.8 24 28 28
## 3 3 1 2 2 2 2 8 25 25 25
## 4 4 1 2 2 1 1 8.8 38 21 30
## 5 5 1 2 2 2 1 8.9 41 18 20
## 6 6 1 2 2 1 1 8.1 25 29 32
## # … with abbreviated variable names ¹Trabalha, ²Desempenho, ³Estresse,
## # ⁴Créditos, ⁵Horas_estudo
# Tratamento dos Dados
QE$Mora_pais = ifelse(QE$Mora_pais==1,"Sim","Nao")
QE$RJ = ifelse(QE$RJ==1,"Sim","Nao")
QE$Namorado_a = ifelse(QE$Namorado_a==1,"Sim","Nao")
QE$Trabalha = ifelse(QE$Trabalha==1,"Sim","Nao")
str(QE)
## tibble [95 × 10] (S3: tbl_df/tbl/data.frame)
## $ Aluno : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
## $ Turma : num [1:95] 1 1 1 1 1 1 1 1 1 1 ...
## $ Mora_pais : chr [1:95] "Nao" "Sim" "Nao" "Nao" ...
## $ RJ : chr [1:95] "Nao" "Sim" "Nao" "Nao" ...
## $ Namorado_a : chr [1:95] "Nao" "Nao" "Nao" "Sim" ...
## $ Trabalha : chr [1:95] "Nao" "Nao" "Nao" "Sim" ...
## $ Desempenho : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
## $ Estresse : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
## $ Créditos : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
## $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...
Serão analisados os seguintes aspectos:
# Diagrama de Dispersão - Desempenho x Horas de Estudo
plot(QE$Horas_estudo, QE$Desempenho, pch=19,
main="Gráfico 1 - Desempenho x Horas de Estudo",
xlab="Horas de Estudo",
ylab="Nota",
col="blue")
abline(lsfit(QE$Horas_estudo, QE$Desempenho), col="red")
Coeficiente de Correlação: c1 = 0,22
correlacao1 = cor(QE$Horas_estudo, QE$Desempenho)
correlacao1
## [1] 0.2231532
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
QE %>% select(-Mora_pais,-RJ,-Namorado_a,-Trabalha,-Créditos) %>% cor() %>% View()
library(corrplot)
## corrplot 0.92 loaded
QE %>% select(-Mora_pais,-RJ,-Namorado_a,-Trabalha,-Créditos) %>% cor() %>% corrplot(method = "number")
Coeficiente de Correlação: c2 = 0,30
correlacao2 = cor(QE$Horas_estudo, QE$Estresse)
correlacao2
## [1] 0.303917
A partir do carregamento da base de dados observou-se que esta se tratava de uma pesquisa de dados que relaciona diversos aspectos relacionados a uma amostra de estudantes, como: nível de estresse, desempenho acadêmico, horas de estudo, se trabalha, se mora com os pais, entre outros. A partir da análise dos dados, foi elaborada uma tabela de quantidades para verificação dos dados, e não foi necessário realizar o tratamento dos dados. Na sequência, escolheu-se analisar a relação da variável “Horas de Estudo” com as variáveis “Desempenho” e “Estresse”.
Em seguida, foi elaborado um gráfico de dispersão do “Desempenho” pelo número de “Horas de Estudo”, onde foi possível verificar que, a partir do padrão linear evidenciado pelo gráfico e o coeficiente de correlação entre os dados (c1 = 0,22), pode-se dizer que há um grau muito moderado de associação entre as variáveis, ou seja, correlação positiva fraca.
Para entendimento da correlação entre o nível de “Estresse” de cada aluno de acordo com o número de “Horas de Estudo”, foi montada uma matriz de correlação entre as duas variáveis e um gráfico a partir da matriz de correlação, este contemplando outras variáveis. Desse modo, a partir do gráfico e do coeficiente de correlação entre os dados (c2 = 0,30), observou-se também um grau muito moderado de associação entre as variáveis, ou seja, correlação positiva fraca.
Dessa forma, conclui-se que para as duas variáveis analisadas não há indicativo de forte associação entre os dados analisados, o que sinaliza que o número de horas de estudo influencia muito pouco no desempenho médio dos alunos e no nível de estresse.
R Core Team (2022). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.