Este post apresenta os resultados da atividade 8 da disciplina Estatística aplicada à Ciências Humanas em que foram utilizados os recursos para:
carregar uma BD no formato xls;
elaborar um diagrama de dispersão com duas variáveis numéricas; e
elaborar uma matriz de correlação com variáveis numéricas da BD selecionada.
#---------
#Passo 1 - Carregamento das bibliotecas e da BD
#---------
library(dplyr)
Attaching package: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
library(corrplot)corrplot 0.90 loaded
library(rio)
library(readxl)A BD carregada e utilizada na atividade foi a seguinte:
Quest_Estres <- read_excel("D:/Curso Adm Publica/Semestre 8/Estatistica/Base_de_dados-master/Questionario_Estresse.xls")
head(Quest_Estres)# A tibble: 6 x 10
Aluno Turma Mora_pais RJ Namorado_a Trabalha Desempenho Estresse Créditos
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 1 2 2 2 2 8.89 23 27
2 2 1 1 1 2 2 8.8 24 28
3 3 1 2 2 2 2 8 25 25
4 4 1 2 2 1 1 8.8 38 21
5 5 1 2 2 2 1 8.9 41 18
6 6 1 2 2 1 1 8.1 25 29
# ... with 1 more variable: Horas_estudo <dbl>
Foi elaborado um diagrama de dispersão com as variáveis Estresse x Horas_estudo, obtendo-se o seguinte resultado:
#---------
#Passo 2 - Diagrama de dispersão
#---------
plot(Quest_Estres$Horas_estudo, Quest_Estres$Estresse,
pch=19,col="red",
main="Gráfico 1 - Relação entre o Estresse dos alunos e as Horas de Estudo",ylab = "Estresse",
xlab = "Horas de Estudo")
abline(lsfit(Quest_Estres$Horas_estudo,
Quest_Estres$Estresse),col="yellow")cor(Quest_Estres$Horas_estudo,Quest_Estres$Estresse)[1] 0.303917
Posteriormente, foi elaborada uma matriz de correlação entre as variáveis numéricas existentes na BD selecionada. No gráfico a seguir pode ser verificado o resultado alcançado:
#---------
#Passo 3 - Matriz de correlação
#---------
MC<-Quest_Estres %>%
select(Desempenho, Estresse, Horas_estudo) %>%
cor()
MC Desempenho Estresse Horas_estudo
Desempenho 1.00000000 0.08257246 0.2231532
Estresse 0.08257246 1.00000000 0.3039170
Horas_estudo 0.22315316 0.30391699 1.0000000
corrplot.mixed(MC,main="Gráfico 2 - Matriz de Correlação entre as variáveis numéricas da BD")A partir do gráfico 1, verifica-se que o Estresse dos alunos aumenta com a quantidade de Horas de Estudo, muito embora a correlação entre essas variáveis seja fraca, haja vista o valor de r², de 0,304. De fato, observando-se o referido gráfico percebe-se uma certa dispersão dos dados, o que confere o baixo valor do coeficiente de correlação (r²).
No gráfico 2, em que se observa a matriz de correlação das variáveis Estresse, Desempenho e Horas_estudo, foi verificado que o melhor coeficiente de correlação é justamente entre as variáveis Estresse e Horas_estudo. O valor do coeficiente de correlação entre Desempenho e Estresse é de 0,083 e entre Desempenho e Horas_estudo é de 0,223, demonstrando baixa ou nenhuma associação entre esses pares de variáveis.
Ressalta-se que existe outra variável (Crédito) da BD selecionada que parece ser numérica, mas existe um registro sem valor para essa variável, constando N/A, razão pela qual não foi possível inclui-la na análise de correlação.