Passo 1 - Importar os dados do Excel

library(readxl)
Questionario_Estresse <- read_excel("C:/Users/cardi/Base_de_dados-master/Questionario_Estresse.xls", 
                                    sheet = "Dados")

Passo 2 - Inspecionar os dados

str(Questionario_Estresse)
## tibble [95 x 10] (S3: tbl_df/tbl/data.frame)
##  $ Aluno       : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Turma       : num [1:95] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Mora_pais   : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
##  $ RJ          : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
##  $ Namorado_a  : num [1:95] 2 2 2 1 2 1 2 1 2 2 ...
##  $ Trabalha    : num [1:95] 2 2 2 1 1 1 2 1 1 1 ...
##  $ Desempenho  : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
##  $ Estresse    : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
##  $ Créditos    : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
##  $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...
summary(Questionario_Estresse)
##      Aluno          Turma         Mora_pais           RJ          Namorado_a   
##  Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :48.0   Median :2.000   Median :2.000   Median :2.000   Median :2.000  
##  Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653   Mean   :1.505  
##  3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000   Max.   :2.000  
##                                                                                
##     Trabalha       Desempenho       Estresse        Créditos    
##  Min.   :1.000   Min.   :5.820   Min.   :12.00   Min.   :15.00  
##  1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50   1st Qu.:23.00  
##  Median :2.000   Median :8.700   Median :27.00   Median :24.00  
##  Mean   :1.621   Mean   :8.594   Mean   :27.82   Mean   :24.95  
##  3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00   3rd Qu.:27.00  
##  Max.   :2.000   Max.   :9.700   Max.   :44.00   Max.   :49.00  
##                                                  NA's   :1      
##   Horas_estudo  
##  Min.   :19.00  
##  1st Qu.:25.00  
##  Median :30.00  
##  Mean   :30.73  
##  3rd Qu.:35.00  
##  Max.   :60.00  
## 
  • Com essa inspeção fica evidente a presenta de alguns dados que não correspondem a suas próprias naturezas, como por exemplo o dado “Namorado_a” onde é representado por números o que não faz sentido.

Passo 3 - Transformação de dados

  • Este passo, consiste em corrigir os dados que estão errados.
Questionario_Estresse$Mora_pais <- ifelse(Questionario_Estresse$Mora_pais==1,"sim","não")
Questionario_Estresse$RJ <- ifelse(Questionario_Estresse$RJ==1,"sim","não")
Questionario_Estresse$Namorado_a <- ifelse(Questionario_Estresse$Namorado_a==1,"namora","solteiro")
Questionario_Estresse$Trabalha <- ifelse(Questionario_Estresse$Trabalha==1,"trabalha","desempregado")

Passo 4 - Diagrama de Dispersão

  • Diagrama de dispersão é uma ferramenta que permite a análise entre duas variáveis quantitativas. -Neste trabalho estarão sendo analisados os seguintes dados: Estresse e Horas_estudo. É importante salientar que o dado “Estresse” trata-se do grau de estresse de cada aluno e “Horas_estudo” número médio de horas de estudo semanal de cada aluno.
par(bg="lightyellow")
par(cex=1.4)
plot(Questionario_Estresse$Estresse,Questionario_Estresse$Horas_estudo,pch=16,col="blue",main = "Diagrama de dispersão entre Estresse \n e Horas de Estudo",ylab = "Horas de Estudo",xlab = "Estresse")

abline(lsfit(Questionario_Estresse$Estresse,Questionario_Estresse$Horas_estudo),col="darkred")

  • À partir da visualização da relação destes dois dados quantitativos, fica evindente um Diagrama de Dispersão- sem correlação. Portanto, uma variável não exerce tanto impacto sobre a outra.

Passo 5 - Cálculo da correlação

  • Correlação seria uma forma de medir a direção do grafíco (positivo ou negativo)e também a intensidade/força da relação entre as duas variáveis. cor(Questionario_Estresse\(Estresse,Questionario_Estresse\)Horas_estudo)
cor(Questionario_Estresse$Estresse,Questionario_Estresse$Horas_estudo)
## [1] 0.303917
  • No estudo da correlação o máximo positivo é 1 e o máximo negativo é -1. Assim, quanto mais próximo de zero for a relação entre duas variáveis quantitativas, menor será o grau de associação delas. Tendo isso em mente, é possível afirmar que a intensidade da relação entre Estresse e Horas de Estudo é fraca/moderada, pois o valor da correlação está entre 0,2< r <0,7

Passo 6 - Matriz de correlação

  • Neste passo, será feita uma tabela que mostra o valor da correlação entre as variáveis quantitativas desta base de dados.
names(Questionario_Estresse)
##  [1] "Aluno"        "Turma"        "Mora_pais"    "RJ"           "Namorado_a"  
##  [6] "Trabalha"     "Desempenho"   "Estresse"     "Créditos"     "Horas_estudo"
library(corrplot)
## corrplot 0.92 loaded
selecao<-c("Estresse","Desempenho","Horas_estudo")
cor_Questionario_estresse<-cor(Questionario_Estresse[,selecao])
cor_Questionario_estresse
##                Estresse Desempenho Horas_estudo
## Estresse     1.00000000 0.08257246    0.3039170
## Desempenho   0.08257246 1.00000000    0.2231532
## Horas_estudo 0.30391699 0.22315316    1.0000000
par(cex=1.4)
corrplot(cor_Questionario_estresse)

corrplot(cor_Questionario_estresse,method="number")

Passo 7 - Considerações finais

Levando em consideração as correlações vistas na Matriz de correlação, fica evidente que em geral o grau de associação das variáveis deste banco de dados é fraco. Entretanto, ainda sim é possível afirmar que a relação entre as variáveis estresse e horas de estudo possuem uma maior intensidade de correlação se comparado com a relação entre estresse e desempenho. Enquanto estresse X hora de estudo a correlação é de 0,3 (grau fraco/moderado), a de estresse X desemepenho é 0,08 (grau baixo ou nenhuma associação). Portanto, pode-se concluir que enquanto a variável hora de estudo possui um algum impacto sobre estresse, não se pode afirmar o mesmo da varíavel desempenho sobre estresse, já que nessa o impacto é insignificante.