Carregamento do Banco de Dados

# Carregar a Base de Dados

library(readxl)
QE = read_excel("C:/Users/berna_y/Documents/#Mestrado UFF/1º Período/Estatística Aplicada à Engenharia/Base_de_dados-master/Questionario_Estresse.xls")
head(QE)

## # A tibble: 6 × 10
##   Aluno Turma Mora_pais    RJ Namorado_a Traba…¹ Desem…² Estre…³ Crédi…⁴ Horas…⁵
##   <dbl> <dbl>     <dbl> <dbl>      <dbl>   <dbl>   <dbl>   <dbl>   <dbl>   <dbl>
## 1     1     1         2     2          2       2    8.89      23      27      27
## 2     2     1         1     1          2       2    8.8       24      28      28
## 3     3     1         2     2          2       2    8         25      25      25
## 4     4     1         2     2          1       1    8.8       38      21      30
## 5     5     1         2     2          2       1    8.9       41      18      20
## 6     6     1         2     2          1       1    8.1       25      29      32
## # … with abbreviated variable names ¹Trabalha, ²Desempenho, ³Estresse,
## #   ⁴Créditos, ⁵Horas_estudo

Tratamento dos Dados

# Tratamento dos Dados

QE$Mora_pais = ifelse(QE$Mora_pais==1,"Sim","Nao")
QE$RJ = ifelse(QE$RJ==1,"Sim","Nao")
QE$Namorado_a = ifelse(QE$Namorado_a==1,"Sim","Nao")
QE$Trabalha = ifelse(QE$Trabalha==1,"Sim","Nao")
str(QE)

## tibble [95 × 10] (S3: tbl_df/tbl/data.frame)
##  $ Aluno       : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Turma       : num [1:95] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Mora_pais   : chr [1:95] "Nao" "Sim" "Nao" "Nao" ...
##  $ RJ          : chr [1:95] "Nao" "Sim" "Nao" "Nao" ...
##  $ Namorado_a  : chr [1:95] "Nao" "Nao" "Nao" "Sim" ...
##  $ Trabalha    : chr [1:95] "Nao" "Nao" "Nao" "Sim" ...
##  $ Desempenho  : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
##  $ Estresse    : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
##  $ Créditos    : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
##  $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...

Análise dos Dados

Serão analisados os seguintes aspectos:

A relação entre o Desempenho do aluno e o número de Horas de Estudo
A relação entre o nível de Estresse do aluno e o número de Horas de Estudo

Diagrama de Dispersão - Desempenho x Horas de Estudo

# Diagrama de Dispersão - Desempenho x Horas de Estudo

plot(QE$Horas_estudo, QE$Desempenho, pch=19,
     main="Gráfico 1 - Desempenho x Horas de Estudo",
     xlab="Horas de Estudo",
     ylab="Nota",
     col="blue")

abline(lsfit(QE$Horas_estudo, QE$Desempenho), col="red")

Coeficiente de Correlação: c1 = 0,22

correlacao1 = cor(QE$Horas_estudo, QE$Desempenho)
correlacao1

## [1] 0.2231532

Matriz e Gráfico de Correlação - Estresse x Horas de Estudo

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

QE %>% select(-Mora_pais,-RJ,-Namorado_a,-Trabalha,-Créditos) %>% cor() %>% View()

library(corrplot)

## corrplot 0.92 loaded

QE %>% select(-Mora_pais,-RJ,-Namorado_a,-Trabalha,-Créditos) %>% cor() %>% corrplot(method = "number")

Coeficiente de Correlação: c2 = 0,30

correlacao2 = cor(QE$Horas_estudo, QE$Estresse)
correlacao2

## [1] 0.303917

Conclusão

A partir do carregamento da base de dados observou-se que esta se tratava de uma pesquisa de dados que relaciona diversos aspectos relacionados a uma amostra de estudantes, como: nível de estresse, desempenho acadêmico, horas de estudo, se trabalha, se mora com os pais, entre outros. A partir da análise dos dados, foi elaborada uma tabela de quantidades para verificação dos dados, e não foi necessário realizar o tratamento dos dados. Na sequência, escolheu-se analisar a relação da variável “Horas de Estudo” com as variáveis “Desempenho” e “Estresse”.

Em seguida, foi elaborado um gráfico de dispersão do “Desempenho” pelo número de “Horas de Estudo”, onde foi possível verificar que, a partir do padrão linear evidenciado pelo gráfico e o coeficiente de correlação entre os dados (c1 = 0,22), pode-se dizer que há um grau muito moderado de associação entre as variáveis, ou seja, correlação positiva fraca.

Para entendimento da correlação entre o nível de “Estresse” de cada aluno de acordo com o número de “Horas de Estudo”, foi montada uma matriz de correlação entre as duas variáveis e um gráfico a partir da matriz de correlação, este contemplando outras variáveis. Desse modo, a partir do gráfico e do coeficiente de correlação entre os dados (c2 = 0,30), observou-se também um grau muito moderado de associação entre as variáveis, ou seja, correlação positiva fraca.

Dessa forma, conclui-se que para as duas variáveis analisadas não há indicativo de forte associação entre os dados analisados, o que sinaliza que o número de horas de estudo influencia muito pouco no desempenho médio dos alunos e no nível de estresse.

Bibliografia

R Core Team (2022). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

Atividade 06 - Quanti vs Quanti

Bernardo Quinet Barra

2022-10-12