Importação da base de dados questionário estresse

library(readxl)
questionario <- read_excel("~/mari/Base_de_dados-master/Base_de_dados-master/Questionario_Estresse.xls")
library(knitr)
kable(questionario)
Aluno Turma Mora_pais RJ Namorado(a) Trabalha Desempenho Estresse Créditos Horas_estudo
1 1 2 2 2 2 8.89 23 27 27
2 1 1 1 2 2 8.80 24 28 28
3 1 2 2 2 2 8.00 25 25 25
4 1 2 2 1 1 8.80 38 21 30
5 1 2 2 2 1 8.90 41 18 20
6 1 2 2 1 1 8.10 25 29 32
7 1 2 2 2 2 9.20 41 26 25
8 1 1 1 1 1 8.50 20 24 25
9 1 1 1 2 1 8.70 26 20 25
10 1 1 1 2 1 8.30 36 49 59
11 1 1 1 1 1 8.50 37 28 26
12 1 2 2 1 1 9.10 26 23 35
13 1 2 2 2 1 9.03 30 20 35
14 1 1 2 1 2 9.36 31 26 60
15 1 1 1 2 1 8.60 26 30 35
16 1 2 2 2 1 8.53 31 28 33
17 1 2 2 2 1 8.00 27 20 25
18 1 2 2 2 2 9.08 21 27 35
19 1 1 1 2 2 8.50 26 26 30
20 1 1 1 2 1 8.50 25 26 30
21 1 2 2 1 2 8.50 27 24 30
22 1 2 2 1 2 8.50 17 24 24
23 1 2 2 1 2 8.50 20 28 28
24 1 2 2 2 1 8.80 20 24 24
25 1 1 1 2 1 8.00 21 30 33
26 1 1 1 2 2 7.50 24 24 24
27 1 1 1 1 2 9.40 29 24 44
28 1 2 2 1 2 8.50 38 24 44
29 2 1 1 1 2 8.10 35 24 30
30 2 1 2 1 2 8.70 38 26 40
31 2 2 2 1 1 9.50 39 26 40
32 2 1 1 2 2 7.70 30 30 36
33 2 2 2 1 2 8.70 32 30 40
34 2 1 1 2 2 8.94 32 28 36
35 2 2 2 1 2 8.96 31 20 35
36 2 1 1 1 2 9.29 26 28 40
37 2 1 1 2 1 8.79 26 24 30
38 2 2 2 1 2 8.55 25 20 29
39 2 2 2 2 1 5.90 35 20 36
40 2 1 1 2 2 8.50 37 20 30
41 2 1 1 2 2 8.90 26 28 44
42 2 1 2 1 1 9.09 32 24 30
43 2 1 2 2 2 7.80 34 23 40
44 2 2 2 2 2 9.00 29 24 32
45 2 2 2 1 2 8.80 35 23 30
46 2 1 2 2 2 8.90 19 NA 28
47 2 2 2 1 2 9.00 23 25 30
48 2 2 2 2 2 9.12 28 27 33
49 2 2 2 1 2 8.50 30 27 30
50 2 2 2 1 1 9.07 24 26 40
51 2 2 2 2 2 8.89 21 28 40
52 2 2 2 1 2 9.33 30 28 33
53 2 2 1 1 2 8.50 33 26 30
54 2 2 2 2 2 9.20 33 28 30
55 2 2 2 1 2 9.29 16 28 30
56 2 1 1 1 2 9.36 44 26 28
57 2 2 2 2 2 8.64 25 29 40
58 2 1 1 2 1 8.50 26 19 26
59 2 2 2 1 2 8.40 34 27 33
60 2 2 2 1 2 8.80 42 27 33
61 3 1 1 1 1 9.40 25 20 36
62 3 1 2 1 2 9.60 31 24 36
63 3 2 2 1 2 9.00 33 28 32
64 3 1 1 1 2 6.00 24 28 32
65 3 1 2 2 1 7.00 40 17 20
66 3 2 1 1 1 7.00 18 26 24
67 3 1 1 2 2 8.80 30 24 24
68 3 1 1 2 2 8.50 42 24 28
69 3 1 1 2 2 8.82 31 24 29
70 3 1 2 2 2 6.50 22 23 28
71 3 2 2 2 2 8.30 13 20 20
72 3 1 2 2 2 8.40 21 28 21
73 3 2 2 2 2 8.80 20 32 30
74 3 2 2 1 1 9.00 29 24 30
75 3 1 1 2 1 9.00 28 24 30
76 3 1 2 1 1 8.48 30 23 25
77 3 2 2 1 2 8.60 20 23 26
78 3 2 1 1 2 8.80 23 23 30
79 3 1 1 1 1 5.82 16 24 20
80 3 1 2 2 2 6.60 17 20 20
81 3 1 1 1 2 8.50 33 24 29
82 3 2 2 2 2 8.00 32 24 29
83 3 2 2 2 1 8.00 44 20 32
84 3 2 2 2 2 8.20 37 24 25
85 3 2 2 1 1 9.45 33 15 19
86 3 1 2 1 1 9.70 34 27 35
87 3 2 2 2 1 9.39 21 21 25
88 3 2 2 2 1 8.70 13 23 20
89 3 2 2 2 2 8.60 17 24 23
90 3 1 1 1 1 9.30 15 27 23
91 3 2 2 1 1 8.60 22 23 25
92 3 1 1 2 2 9.30 12 27 26
93 3 2 2 1 1 9.40 16 27 24
94 3 1 2 1 2 9.44 27 24 36
95 3 1 2 1 2 9.60 29 24 34

O gráfico de dispersão

library(ggplot2)
ggplot(questionario) +
 aes(x = Desempenho, y = Horas_estudo) +
 geom_point(size = 2.78, colour = "#fba29d") +
 geom_smooth(span = 0.75) +
 labs(x = "Desempenho", y = "Horas de estudo ", title = "Horas de estudo X Desempenho", subtitle = "Gráfico quanti x quanti relacionando essas duas variáveis ") +
 theme_minimal()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Neste gráfico, é possivel perceber através da linha de tendência que a maioria dos alunos estudam por volta de 30 horas e possuem um desempenho semelhante, contudo, existem pontos fora da curva como quem estuda 20 horas e quem estuda 60 horas. Além disso, é aparente que a média geral dos alunos está entre os números 8,5 e 9,5 do eixo X (esse fato é perceptível pelo fato do acúmulo de pontos, os quais representam os alunos, nessa região).

O gráfico inédito: Matriz de gráficos

Com a imagem acima é possível observar os gráficos de dispersão para cada par de variáveis e entender melhor os números que aparecem na matriz de correlação. Porém, esta matriz é redundante ao repetir informação nas diagonais, deixando de lado informações interessantes. Por exemplo, é possível colocar histogramas de frequência nas diagonais para visualizar a distribuição dos dados em cada variável, como foi feito acima.