Atividade 5
Fazer e interpretar o diagrama de dispersão, o coeficiente de correlação (um coeficiente, uma matriz ou o corrplot), o boxplot e as estatísticas por grupo (média e desvio padrão) na base de dados Questionario_Estresse.xls.
Fase 1 - Carregando a base de dados
Nesta fase iremos carregar o banco de dados para ser realizada as análises.
library(readxl)
Questionario_Estresse <- read_excel("C:/Users/Cristiane/Desktop/Estatistica aplicada a engenharia I/Base_de_dados-master/Questionario_Estresse.xls",
sheet = "Dados")
Fase 2 - Diagrama de dispersão e coeficiente de correlação
O Gráfico I a seguir trata de um diagrama de dispersão onde esta sendo analisado as variáveis estresse x desempenho do aluno.
plot(Questionario_Estresse$Estresse,Questionario_Estresse$Desempenho, pch=19, col="blue", xlab = "NIVEL DE ESTRESSE", ylab = "DESEMPENHO", main = "Gráfico I - Diagrama de Dispersão")
abline(lsfit(Questionario_Estresse$Estresse,Questionario_Estresse$Desempenho),col="#e80909")

cor(Questionario_Estresse$Estresse,Questionario_Estresse$Desempenho)
## [1] 0.08257246
Interpretação - ao analisar os dados acima pode-se verificar que existe uma correlação levemente positiva apesar de estar proxima a zero.
Que apesar do alto nivel de estresse dos alunos o seu desempenho esta elevado.
plot(Questionario_Estresse$Estresse,Questionario_Estresse$Horas_estudo,pch=19,col="#e32222",
xlab = "NIVEL DE ESTRESSE",
ylab = "HORAS DE ESTUDO",
main = "Gráfico II - Diagrama de dispersão")
abline(lsfit(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Estresse),
col="#0a0000")

cor(Questionario_Estresse$Estresse,Questionario_Estresse$Horas_estudo)
## [1] 0.303917
Interpretação - o gráfico III demonstra que apesar de muitos alunos estudarem por mais horas existem tambem vários alunos que tambem tem um bom desempenho. Correlação levemente positiva.
Fase 3 - Matriz de correlação
Listaremos abaixo o nomes utilizados no banco de dados:
names(Questionario_Estresse)
## [1] "Aluno" "Turma" "Mora_pais" "RJ" "Namorado(a)"
## [6] "Trabalha" "Desempenho" "Estresse" "Créditos" "Horas_estudo"
Utilizaremos as variáveis “Horas de Estudo”; “Desempenho” e “Estresse”.
variaveis_quanti<-c("Horas_estudo","Desempenho","Estresse")
Questionario_Estresse[,variaveis_quanti]
## # A tibble: 95 x 3
## Horas_estudo Desempenho Estresse
## <dbl> <dbl> <dbl>
## 1 27 8.89 23
## 2 28 8.8 24
## 3 25 8 25
## 4 30 8.8 38
## 5 20 8.9 41
## 6 32 8.1 25
## 7 25 9.2 41
## 8 25 8.5 20
## 9 25 8.7 26
## 10 59 8.3 36
## # ... with 85 more rows
Fase 4 - Corrplot
par(mfrow=c(1,1))
corrplot(correlacao_QuestionarioEstresse,method = "circle")

Interpretação: Podemos observar através do gráfico IV que de acrodo com a legenda a matriz de correlação vai do 1,00 ao menos 1,00 e que o tamanho da esfera e a cor aplicada a ela demonstra se a correlação é positva ou negativa, contudo neste caso pode ser verificado que todas as cores são azuis e que o tamanho do circulo altera de acordo com a correlação dela.
Fase 5 - Boxplot
No gráfico abaixo estamos utilizando as váriaveis desempenho e trabalha
boxplot(Questionario_Estresse$Desempenho ~ Questionario_Estresse$Trabalha,
horizontal = T,col=c("#2be809","#525951"),main="Gráfico VI: Desempenho X Trabalha",
xlab = "DESEMPENHO",
ylab = "TRABALHA")

Interpretação: Podemos observar que a presença de outliers e notamos que o desempenho dos alunos que trabalham e que não trabalham estão próximos.
No gráfico abaixo estamos utilizando as váriaveis desempenho e horas de estudo.
boxplot(Questionario_Estresse$Desempenho ~ Questionario_Estresse$Horas_estudo,
horizontal = T,col=c("#55c4c9","#2d3333"),main="Gráifco VII - Horas de Estudo X Desempenho",
xlab = "DESEMPENHO",
ylab = "NUMERO DE HORAS DE ESTUDO")

Interpretação: Ao analisarmos o grafico podemos observar que uma variação em relação ao desempenho em relação aos alunos que estudam pouco e os que estudam muito.
Fase 6 - Média e Desvio Padrão
Utilizaremos as variaveis abaixo:
Desempenho X Trabalha
describeBy(Questionario_Estresse$Desempenho ~ Trabalha, Questionario_Estresse)
##
## Descriptive statistics by group
## Trabalha: Não
## vars n mean sd median trimmed mad min max range skew
## Aluno 1 59 49.31 24.57 49.0 49.55 28.17 1 95.0 94.0 -0.05
## Turma* 2 59 1.78 0.42 2.0 1.84 0.00 1 2.0 1.0 -1.32
## Mora_pais* 3 59 1.46 0.50 1.0 1.45 0.00 1 2.0 1.0 0.17
## RJ* 4 59 1.32 0.47 1.0 1.29 0.00 1 2.0 1.0 0.74
## Namorado(a)* 5 59 1.49 0.50 1.0 1.49 0.00 1 2.0 1.0 0.03
## Trabalha* 6 59 1.00 0.00 1.0 1.00 0.00 1 1.0 0.0 NaN
## Desempenho 7 59 8.63 0.70 8.8 8.72 0.44 6 9.6 3.6 -1.68
## Estresse 8 59 27.93 7.38 29.0 27.88 7.41 12 44.0 32.0 0.02
## Créditos 9 58 25.43 2.68 25.5 25.54 2.22 20 32.0 12.0 -0.15
## Horas_estudo 10 59 31.56 6.93 30.0 31.06 4.45 20 60.0 40.0 1.27
## kurtosis se
## Aluno -0.86 3.20
## Turma* -0.27 0.05
## Mora_pais* -2.01 0.07
## RJ* -1.47 0.06
## Namorado(a)* -2.03 0.07
## Trabalha* NaN 0.00
## Desempenho 3.60 0.09
## Estresse -0.57 0.96
## Créditos -0.29 0.35
## Horas_estudo 3.11 0.90
## ------------------------------------------------------------
## Trabalha: Sim
## vars n mean sd median trimmed mad min max range skew
## Aluno 1 36 45.86 32.14 40.5 45.40 44.48 4.00 93.0 89.00 0.12
## Turma* 2 36 1.58 0.50 2.0 1.60 0.00 1.00 2.0 1.00 -0.32
## Mora_pais* 3 36 1.47 0.51 1.0 1.47 0.00 1.00 2.0 1.00 0.11
## RJ* 4 36 1.39 0.49 1.0 1.37 0.00 1.00 2.0 1.00 0.44
## Namorado(a)* 5 36 1.50 0.51 1.5 1.50 0.74 1.00 2.0 1.00 0.00
## Trabalha* 6 36 1.00 0.00 1.0 1.00 0.00 1.00 1.0 0.00 NaN
## Desempenho 7 36 8.54 0.90 8.7 8.67 0.56 5.82 9.7 3.88 -1.55
## Estresse 8 36 27.64 7.90 26.0 27.53 8.15 13.00 44.0 31.00 0.15
## Créditos 9 36 24.17 5.62 24.0 23.70 4.45 15.00 49.0 34.00 2.19
## Horas_estudo 10 36 29.36 7.72 30.0 28.63 7.41 19.00 59.0 40.00 1.46
## kurtosis se
## Aluno -1.68 5.36
## Turma* -1.95 0.08
## Mora_pais* -2.04 0.08
## RJ* -1.86 0.08
## Namorado(a)* -2.05 0.08
## Trabalha* NaN 0.00
## Desempenho 2.21 0.15
## Estresse -0.84 1.32
## Créditos 8.08 0.94
## Horas_estudo 3.69 1.29
Interpretação: Podemos observar que a média de quem trabalha é de 8,54 com um desvio padrão de 0,90 e de quem não trabalha é de 8,63 com um desvio padrão de 0,70.
E que se formos observar Trabalha x Estresse a média de estresse de quem trabalha é de 27,64 com um desvio padrão de 7,90 e de quem não trabalha é de 27,93 com um desvio padrão de 7,38.
Interpretação: Podemos observar que a média de estresse de quem mora com os pais é de 28,11 com um desvio padrão de 7,16 e de quem não mora com os pais é de 27,57 com um desvio padrão de 7,92.
E que se formos observar Desemprenho x Mora com os pais a média de desempenho de quem mora com os pais é de 8,50 com um desvio padrão de 0,93 e de quem não mora com os pais é de 8,67 com um desvio padrão de 0,61.