Introdução

Este post apresenta os resultados da atividade 8 da disciplina Estatística aplicada à Ciências Humanas em que foram utilizados os recursos para:

  • carregar uma BD no formato xls;

  • elaborar um diagrama de dispersão com duas variáveis numéricas; e

  • elaborar uma matriz de correlação com variáveis numéricas da BD selecionada.

Fases da Atividade

Carregamento das bibliotecas e da BD

#---------
#Passo 1 - Carregamento das bibliotecas e da BD
#---------
library(dplyr)

Attaching package: 'dplyr'
The following objects are masked from 'package:stats':

    filter, lag
The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union
library(corrplot)
corrplot 0.90 loaded
library(rio)
library(readxl)

A BD carregada e utilizada na atividade foi a seguinte:

Quest_Estres <- read_excel("D:/Curso Adm Publica/Semestre 8/Estatistica/Base_de_dados-master/Questionario_Estresse.xls")
head(Quest_Estres)
# A tibble: 6 x 10
  Aluno Turma Mora_pais    RJ Namorado_a Trabalha Desempenho Estresse Créditos
  <dbl> <dbl>     <dbl> <dbl>      <dbl>    <dbl>      <dbl>    <dbl>    <dbl>
1     1     1         2     2          2        2       8.89       23       27
2     2     1         1     1          2        2       8.8        24       28
3     3     1         2     2          2        2       8          25       25
4     4     1         2     2          1        1       8.8        38       21
5     5     1         2     2          2        1       8.9        41       18
6     6     1         2     2          1        1       8.1        25       29
# ... with 1 more variable: Horas_estudo <dbl>

Diagrama de disperão

Foi elaborado um diagrama de dispersão com as variáveis Estresse x Horas_estudo, obtendo-se o seguinte resultado:

#---------
#Passo 2 - Diagrama de dispersão
#---------
plot(Quest_Estres$Horas_estudo, Quest_Estres$Estresse,
     pch=19,col="red",
     main="Gráfico 1 - Relação entre o Estresse dos alunos e as Horas de Estudo",ylab = "Estresse",
     xlab = "Horas de Estudo")
abline(lsfit(Quest_Estres$Horas_estudo,
             Quest_Estres$Estresse),col="yellow")

cor(Quest_Estres$Horas_estudo,Quest_Estres$Estresse)
[1] 0.303917

Matriz de Correlação

Posteriormente, foi elaborada uma matriz de correlação entre as variáveis numéricas existentes na BD selecionada. No gráfico a seguir pode ser verificado o resultado alcançado:

#---------
#Passo 3 - Matriz de correlação
#---------

MC<-Quest_Estres %>% 
        select(Desempenho, Estresse, Horas_estudo) %>%
  cor()
MC
             Desempenho   Estresse Horas_estudo
Desempenho   1.00000000 0.08257246    0.2231532
Estresse     0.08257246 1.00000000    0.3039170
Horas_estudo 0.22315316 0.30391699    1.0000000
corrplot.mixed(MC,main="Gráfico 2 - Matriz de Correlação entre as variáveis numéricas da BD")

Interpretação dos resultados

A partir do gráfico 1, verifica-se que o Estresse dos alunos aumenta com a quantidade de Horas de Estudo, muito embora a correlação entre essas variáveis seja fraca, haja vista o valor de r², de 0,304. De fato, observando-se o referido gráfico percebe-se uma certa dispersão dos dados, o que confere o baixo valor do coeficiente de correlação (r²).

No gráfico 2, em que se observa a matriz de correlação das variáveis Estresse, Desempenho e Horas_estudo, foi verificado que o melhor coeficiente de correlação é justamente entre as variáveis Estresse e Horas_estudo. O valor do coeficiente de correlação entre Desempenho e Estresse é de 0,083 e entre Desempenho e Horas_estudo é de 0,223, demonstrando baixa ou nenhuma associação entre esses pares de variáveis.

Ressalta-se que existe outra variável (Crédito) da BD selecionada que parece ser numérica, mas existe um registro sem valor para essa variável, constando N/A, razão pela qual não foi possível inclui-la na análise de correlação.