Cruzamento de duas variáveis quantitativas

Passo 1- Carregar a base de dados

library(readxl)
Questionario_Estresse <- read_excel("C:/Users/admin/Desktop/Base_de_dados-master/Questionario_Estresse.xls")
View(Questionario_Estresse)

Passo 2- Conferir dados

summary(Questionario_Estresse)
##      Aluno          Turma         Mora_pais           RJ          Namorado_a   
##  Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :48.0   Median :2.000   Median :2.000   Median :2.000   Median :2.000  
##  Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653   Mean   :1.505  
##  3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000   Max.   :2.000  
##                                                                                
##     Trabalha       Desempenho       Estresse        Créditos    
##  Min.   :1.000   Min.   :5.820   Min.   :12.00   Min.   :15.00  
##  1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50   1st Qu.:23.00  
##  Median :2.000   Median :8.700   Median :27.00   Median :24.00  
##  Mean   :1.621   Mean   :8.594   Mean   :27.82   Mean   :24.95  
##  3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00   3rd Qu.:27.00  
##  Max.   :2.000   Max.   :9.700   Max.   :44.00   Max.   :49.00  
##                                                  NA's   :1      
##   Horas_estudo  
##  Min.   :19.00  
##  1st Qu.:25.00  
##  Median :30.00  
##  Mean   :30.73  
##  3rd Qu.:35.00  
##  Max.   :60.00  
## 

Passo 3- Matriz

names(Questionario_Estresse)
##  [1] "Aluno"        "Turma"        "Mora_pais"    "RJ"           "Namorado_a"  
##  [6] "Trabalha"     "Desempenho"   "Estresse"     "Créditos"     "Horas_estudo"
selecao = c("Mora_pais","Estresse","Namorado_a","Desempenho")
cor_questionario <- cor(Questionario_Estresse[,selecao])
cor_questionario
##              Mora_pais    Estresse  Namorado_a  Desempenho
## Mora_pais   1.00000000 -0.03623445 -0.11688930  0.11323063
## Estresse   -0.03623445  1.00000000 -0.07694459  0.08257246
## Namorado_a -0.11688930 -0.07694459  1.00000000 -0.20424880
## Desempenho  0.11323063  0.08257246 -0.20424880  1.00000000

Matriz de correlação

dados <-data.frame(x=c(2,3,4,5,5,6,7,8),
                   y=c(4,7,9,10,11,11,13,15))
cor(dados$x,dados$y)
## [1] 0.980871
cor(Questionario_Estresse$Desempenho,Questionario_Estresse$Horas_estudo)
## [1] 0.2231532
library(corrplot)
## corrplot 0.92 loaded

Matriz

par(cex=0.5)
corrplot(cor_questionario)

corrplot(cor_questionario, method="number")

Passo 4 - Diagrama de dispersao entre o Desempenho e Horas de Estudo

par(bg="lightyellow")
par(cex=1.0)
plot(Questionario_Estresse$Desempenho, Questionario_Estresse$Horas_estudo, pch=17, col="purple",
     main = "Diagrama de dispersão entre desempenho e horas de estudo",
     ylab = "Horas de estudo", xlab = "Desempenho")
abline(lsfit(Questionario_Estresse$Desempenho, Questionario_Estresse$Horas_estudo), col="red")

Parecer dos Dados

Ao analisarmos os dados do “Questionario_Estresse”, podemos perceber que ao cruzarmos as variáveis do Desempenho e das Horas de Estudo, é notável a percepção de um maior desempenho ligado a um menor tempo de estudo utilizado pelos estudantes. Uma relação estranha, pois, em tese, quanto mais você estuda melhor deveria ser o desempenho no geral.

Na matriz de correlação, conseguimos observar o alto desempenho relacionado com o fato dos alunos morarem com os pais e visualizar o baixo desempenho por conta de namorado(a).