Atividade 5- Fazer e interpretar o diagrama de dispersão, o coeficiente de correlação (um coeficiente, uma matriz ou o corrplot), o boxplot e as estatísticas por grupo (média e desvio padrão) na base de dados Questionario_Estresse.xls.
1- Carregando a base de dados
library(readxl)
Questionario_Estresse<-read_excel("D:/MESTRADO UFF 2020/Academico 2020/CIVIL/Estatistica/Base_de_dados-master/Questionario_Estresse.xls")
3-Análise Exploratoria dos de dados e criação dos Boxplot
Esse tipo de gráfico deve ser utilizado para mostrar a tendência central, a dispersão (observações entre o primeiro e o terceiro quartil), e os dados que apresentam valores extremos. Esse conjunto de informações é útil para comparar variáveis que apresentam ampla variabilidade, mostrando graficamente os outliers
Variáveis quantitativas escolhidas: Horas de estudo, Estresse e Desempenho
Variáveis qualitativas:Trabalha e Mora com pais
3.1 Boxplot Desempenho x Trabalha
boxplot(Questionario_Estresse$Desempenho ~ Questionario_Estresse$Trabalha,
horizontal = T,col=c("Skyblue","green"),main="BOXPLOT 1: INFLUÊNCIA DA VARIÁVEL TRABALHA NO DESEMPENHO",
xlab = "Desempenho",
ylab = "Trabalha")

3.1.1- Interpretação: Os menores e maiores desempenhos foram de quem trabalha embora a mediana da população que não trabalha tenha sido maior que a mediana dos que trabalham. Identificando assim, uma quantidade maior de individuos que não trabalham performando de forma melhor, quando comparados aos que trabalham.
3.2 Boxplot Horas de estudo x Estresse
boxplot(Questionario_Estresse$Desempenho ~ Questionario_Estresse$Horas_estudo,
horizontal = T,col=c("blue","red"),main="BOXPLOT 2: INFLUENCIA DAS HORAS DE ESTUDO NO DESEMPENHO",
xlab = "Desempenho",
ylab = "Horas Estudadas")

3.2.1 Interpretação:Podemos observar que na população analisada, aqueles que estudam pouco e os que estudam muito apresentam representações assemelhadas, com amplo distanciamento entre o primeiro e tereiro quartis, indicando que o desempenho pode variar muito, independentemente do aluno estudar muito ou pouco. A mediana no entanto difere nestes dois extremos, sugerindo que os alunos que estudam muito tendem aos melhores desempenhos enquanto a mediana representativa dos alunos que estudam pouco aproxima-se mais da média.
4- Dispersão e coeficiente de correlação
4.1 Primeiro Gráfico: Diagrama de dispersão horas estudo x Estresse
plot(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Estresse,pch=19,col="blue",
xlab = "Horas de estudo",
ylab = "Nivel de Estresse",
main = "Gráfico 3 - Diagrama de dispersão")
abline(lsfit(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Estresse),
col="red")

cor(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Estresse)
## [1] 0.303917
4.1.1 Interpretação:O diagrama de dispersão mostra que na amostra apresentada, em primeiro momento, na faixa de 20 a 40 horas de estudo, aparente inexistencia de correlação, indicando que variados são os niveis de estresse independente do aluno estudar muito ou pouco.Entretanto, na faixa de 40 a 60 horas de estudo, observamos existencia de correlação indicando que quem mais estuda tem menor estresse.
4.1.2 Correlação levemente positiva
4.2 Segundo Grafico: Diagrama de dispersão Creditos cursados x Desempenho
plot(Questionario_Estresse$Créditos,Questionario_Estresse$Desempenho,pch=19,col="blue",
xlab = "Creditos cursados",
ylab = "Desempenho",
main = "Gráfico 4 - Diagrama de dispersão")
abline(lsfit(Questionario_Estresse$Créditos,Questionario_Estresse$Desempenho),
col="red")
## Warning in lsfit(Questionario_Estresse$Créditos,
## Questionario_Estresse$Desempenho): 1 missing value deleted

4.2.1 Interpretação: Consideradas as características da amostra e os limites máximos possíveis de créditos a serem cursados, observamos que os alunos que cursaram entre 20 e 30 créditos foram também aqueles que tiveram, majoritariamente, os melhores desempenhos, com maior variação de desempenho entre aqueles com desempenho inferior a 8,5(aprox) e menor variação de desempenho para aqueles alunos com desempenho acima de 8,5(aprox).
4.2.2 Correlação nula
cor(Questionario_Estresse$Créditos,Questionario_Estresse$Desempenho)
## [1] NA
5 Matriz de correlação
names(Questionario_Estresse)
## [1] "Aluno" "Turma" "Mora_pais" "RJ" "Namorado(a)"
## [6] "Trabalha" "Desempenho" "Estresse" "Créditos" "Horas_estudo"
variaveis_quanti<-c("Horas_estudo","Desempenho","Estresse")
Questionario_Estresse[,variaveis_quanti]
## # A tibble: 95 x 3
## Horas_estudo Desempenho Estresse
## <dbl> <dbl> <dbl>
## 1 27 8.89 23
## 2 28 8.8 24
## 3 25 8 25
## 4 30 8.8 38
## 5 20 8.9 41
## 6 32 8.1 25
## 7 25 9.2 41
## 8 25 8.5 20
## 9 25 8.7 26
## 10 59 8.3 36
## # ... with 85 more rows
Questionario_Estresse[,variaveis_quanti]
## # A tibble: 95 x 3
## Horas_estudo Desempenho Estresse
## <dbl> <dbl> <dbl>
## 1 27 8.89 23
## 2 28 8.8 24
## 3 25 8 25
## 4 30 8.8 38
## 5 20 8.9 41
## 6 32 8.1 25
## 7 25 9.2 41
## 8 25 8.5 20
## 9 25 8.7 26
## 10 59 8.3 36
## # ... with 85 more rows
cor(Questionario_Estresse[,variaveis_quanti])
## Horas_estudo Desempenho Estresse
## Horas_estudo 1.0000000 0.22315316 0.30391699
## Desempenho 0.2231532 1.00000000 0.08257246
## Estresse 0.3039170 0.08257246 1.00000000
library(corrplot)
## corrplot 0.84 loaded
correlacao_QuestionarioEstresse<-cor(Questionario_Estresse[,variaveis_quanti])
correlacao_QuestionarioEstresse
## Horas_estudo Desempenho Estresse
## Horas_estudo 1.0000000 0.22315316 0.30391699
## Desempenho 0.2231532 1.00000000 0.08257246
## Estresse 0.3039170 0.08257246 1.00000000
par(mfrow=c(1,1))
corrplot(correlacao_QuestionarioEstresse,method = "pie")

5.1 Interpretação: Ao analisarmos a matriz de correlação, construída objetivando entendimento da correlação entre as variaveis quantitativas: Horas de estudo, Desempenho e Estresse, observamos que a correlação mais forte é a de Horas de Estudo-Estresse, seguida pela Desempenho-Horas de estudo e a mais fraca Desempenho-Estresse.
6 Analise de média e desvio padrão:
6.1 Horas de Estudo x Trabalha
library(psych)
describeBy(Questionario_Estresse$Horas_estudo ~ Trabalha, Questionario_Estresse)
##
## Descriptive statistics by group
## Trabalha: Não
## vars n mean sd median trimmed mad min max range skew
## Aluno 1 59 49.31 24.57 49.0 49.55 28.17 1 95.0 94.0 -0.05
## Turma* 2 59 1.78 0.42 2.0 1.84 0.00 1 2.0 1.0 -1.32
## Mora_pais* 3 59 1.46 0.50 1.0 1.45 0.00 1 2.0 1.0 0.17
## RJ* 4 59 1.32 0.47 1.0 1.29 0.00 1 2.0 1.0 0.74
## Namorado(a)* 5 59 1.49 0.50 1.0 1.49 0.00 1 2.0 1.0 0.03
## Trabalha* 6 59 1.00 0.00 1.0 1.00 0.00 1 1.0 0.0 NaN
## Desempenho 7 59 8.63 0.70 8.8 8.72 0.44 6 9.6 3.6 -1.68
## Estresse 8 59 27.93 7.38 29.0 27.88 7.41 12 44.0 32.0 0.02
## Créditos 9 58 25.43 2.68 25.5 25.54 2.22 20 32.0 12.0 -0.15
## Horas_estudo 10 59 31.56 6.93 30.0 31.06 4.45 20 60.0 40.0 1.27
## kurtosis se
## Aluno -0.86 3.20
## Turma* -0.27 0.05
## Mora_pais* -2.01 0.07
## RJ* -1.47 0.06
## Namorado(a)* -2.03 0.07
## Trabalha* NaN 0.00
## Desempenho 3.60 0.09
## Estresse -0.57 0.96
## Créditos -0.29 0.35
## Horas_estudo 3.11 0.90
## ------------------------------------------------------------
## Trabalha: Sim
## vars n mean sd median trimmed mad min max range skew
## Aluno 1 36 45.86 32.14 40.5 45.40 44.48 4.00 93.0 89.00 0.12
## Turma* 2 36 1.58 0.50 2.0 1.60 0.00 1.00 2.0 1.00 -0.32
## Mora_pais* 3 36 1.47 0.51 1.0 1.47 0.00 1.00 2.0 1.00 0.11
## RJ* 4 36 1.39 0.49 1.0 1.37 0.00 1.00 2.0 1.00 0.44
## Namorado(a)* 5 36 1.50 0.51 1.5 1.50 0.74 1.00 2.0 1.00 0.00
## Trabalha* 6 36 1.00 0.00 1.0 1.00 0.00 1.00 1.0 0.00 NaN
## Desempenho 7 36 8.54 0.90 8.7 8.67 0.56 5.82 9.7 3.88 -1.55
## Estresse 8 36 27.64 7.90 26.0 27.53 8.15 13.00 44.0 31.00 0.15
## Créditos 9 36 24.17 5.62 24.0 23.70 4.45 15.00 49.0 34.00 2.19
## Horas_estudo 10 36 29.36 7.72 30.0 28.63 7.41 19.00 59.0 40.00 1.46
## kurtosis se
## Aluno -1.68 5.36
## Turma* -1.95 0.08
## Mora_pais* -2.04 0.08
## RJ* -1.86 0.08
## Namorado(a)* -2.05 0.08
## Trabalha* NaN 0.00
## Desempenho 2.21 0.15
## Estresse -0.84 1.32
## Créditos 8.08 0.94
## Horas_estudo 3.69 1.29
Interpretação: Entre aqueles alunos que não trabalham temos, para a variavel estuda, média de 31,56 e desvio padrão de 6,93, enquanto entre os alunos que trabalham temos média de 29,36 e desvio padrão de 7,72, indicando que, em média, os alunos que não trabalham estudam mais.
6.2 Estresse x Namora
describeBy(Questionario_Estresse$Estresse ~ Namorado(a), Questionario_Estresse)
##
## Descriptive statistics by group
## Namorado(a): Não
## vars n mean sd median trimmed mad min max range skew
## Aluno 1 48 45.19 28.36 43.50 45.05 38.55 1.0 92.00 91.00 0.04
## Turma* 2 48 1.65 0.48 2.00 1.68 0.00 1.0 2.00 1.00 -0.59
## Mora_pais* 3 48 1.52 0.50 2.00 1.52 0.00 1.0 2.00 1.00 -0.08
## RJ* 4 48 1.40 0.49 1.00 1.38 0.00 1.0 2.00 1.00 0.41
## Namorado(a)* 5 48 1.00 0.00 1.00 1.00 0.00 1.0 1.00 0.00 NaN
## Trabalha* 6 48 1.38 0.49 1.00 1.35 0.00 1.0 2.00 1.00 0.50
## Desempenho 7 48 8.44 0.74 8.62 8.55 0.47 5.9 9.39 3.49 -1.57
## Estresse 8 48 27.25 7.79 26.00 27.12 7.41 12.0 44.00 32.00 0.21
## Créditos 9 47 25.00 5.08 24.00 24.62 5.93 17.0 49.00 32.00 2.06
## Horas_estudo 10 48 29.67 7.29 29.00 29.02 5.93 20.0 59.00 39.00 1.40
## kurtosis se
## Aluno -1.39 4.09
## Turma* -1.68 0.07
## Mora_pais* -2.03 0.07
## RJ* -1.87 0.07
## Namorado(a)* NaN 0.00
## Trabalha* -1.79 0.07
## Desempenho 2.35 0.11
## Estresse -0.55 1.12
## Créditos 8.20 0.74
## Horas_estudo 3.51 1.05
## ------------------------------------------------------------
## Namorado(a): Sim
## vars n mean sd median trimmed mad min max range skew
## Aluno 1 47 50.87 26.74 52.0 51.00 34.10 4.00 95.0 91.00 -0.01
## Turma* 2 47 1.77 0.43 2.0 1.82 0.00 1.00 2.0 1.00 -1.22
## Mora_pais* 3 47 1.40 0.50 1.0 1.38 0.00 1.00 2.0 1.00 0.38
## RJ* 4 47 1.30 0.46 1.0 1.26 0.00 1.00 2.0 1.00 0.86
## Namorado(a)* 5 47 1.00 0.00 1.0 1.00 0.00 1.00 1.0 0.00 NaN
## Trabalha* 6 47 1.38 0.49 1.0 1.36 0.00 1.00 2.0 1.00 0.47
## Desempenho 7 47 8.75 0.79 8.8 8.87 0.44 5.82 9.7 3.88 -2.04
## Estresse 8 47 28.40 7.31 29.0 28.44 7.41 15.00 44.0 29.00 -0.06
## Créditos 9 47 24.89 2.81 24.0 25.13 2.97 15.00 30.0 15.00 -0.92
## Horas_estudo 10 47 31.81 7.18 30.0 31.31 5.93 19.00 60.0 41.00 1.25
## kurtosis se
## Aluno -1.17 3.90
## Turma* -0.53 0.06
## Mora_pais* -1.90 0.07
## RJ* -1.29 0.07
## Namorado(a)* NaN 0.00
## Trabalha* -1.82 0.07
## Desempenho 4.99 0.12
## Estresse -0.79 1.07
## Créditos 1.58 0.41
## Horas_estudo 3.19 1.05
Interpretação: Entre aqueles alunos que não namoram temos, para a variavel estresse, média de 27,25 e desvio padrão de 7,79, enquanto entre os alunos que namoram temos média de 28,40 e desvio padrão de 7,31, indicando que quem namora apresenta estresse maior do que quem não namora.