Introdução

Este post apresenta os resultados da atividade 5 da disciplina Estatística aplicada à Ciências Humanas em que foram utilizados os recursos para:

  • carregar uma BD no formato csv;

  • elaborar um diagrama de dispersão com duas variáveis quantitativas; e

  • elaborar uma matriz de correlação com variáveis quantitativas da BD selecionada.

Fases da Atividade

Carregamento das bibliotecas e da BD

#---------
#Passo 1 - Carregamento das bibliotecas e da BD
#---------
library(dplyr)

Attaching package: 'dplyr'
The following objects are masked from 'package:stats':

    filter, lag
The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union
library(corrplot)
corrplot 0.90 loaded
library(rio)
library(readr)
library(flextable) 

A BD carregada e utilizada na atividade foi a seguinte:

Escola_DMQ <- read_csv2("D:/Curso Adm Publica/Semestre 8/Estatistica/Base_de_dados-master/Escola_Oliveira_p_Livro_DMQ.csv")
i Using "','" as decimal and "'.'" as grouping mark. Use `read_delim()` for more control.

-- Column specification --------------------------------------------------------
cols(
  id = col_double(),
  grau_pagamento = col_double(),
  sexo = col_double(),
  raca = col_double(),
  casado = col_double(),
  idade = col_double(),
  anos_trabalho = col_double(),
  desempenho = col_double(),
  salario = col_double()
)
# As primeiras linhas do banco de dados
Escola_DMQ %>% head() %>% data.frame() %>% flextable()  

Diagrama de disperão

Foi elaborado um diagrama de dispersão com as variáveis Salario x Desempenho, obtendo-se o seguinte resultado:

#---------
#Passo 2 - Diagrama de dispersão
#---------
plot(Escola_DMQ$desempenho, Escola_DMQ$salario,
     pch=19,col="red",
     main="Grafico 1 - Diagrama de dispersão",ylab = "Salario",
     xlab = "Desempenho")
abline(lsfit(Escola_DMQ$desempenho,
             Escola_DMQ$salario),col="yellow")

cor(Escola_DMQ$desempenho,Escola_DMQ$salario)
[1] 0.8346379

Matriz de Correlação

Posteriormente, foi elaborada uma matriz de correlação entre as variáveis numéricas existentes na BD selecionada. No gráfico a seguir pode ser verificado o resultado alcançado:

#---------
#Passo 3 - Matriz de correlação
#---------

MC <- Escola_DMQ %>% 
        select(anos_trabalho, desempenho, salario) %>% cor()
MC
              anos_trabalho desempenho   salario
anos_trabalho     1.0000000  0.8563059 0.7510329
desempenho        0.8563059  1.0000000 0.8346379
salario           0.7510329  0.8346379 1.0000000
corrplot.mixed(MC,main="Gráfico 2 - Matriz de Correlação entre as variáveis numéricas da BD")

Interpretação dos resultados

A partir do gráfico 1, verifica-se que o Salário das pessoas relacionadas na BD aumenta com o desempenho, ou seja, uma relação positiva, observando-se uma forte correlação entre essas variáveis, haja vista que o valor de r² é de 0,834. De fato, observando-se o referido gráfico, percebe-se que a dispersão dos dados é pequena, o que confere o alto valor do coeficiente de correlação (r²).

No gráfico 2, em que se observa a matriz de correlação das variáveis anos_trabalho, desempenho e salario, foi verificado que o melhor coeficiente de correlação é entre as variáveis anos_trabalho e desempenho, cujo valor é de 0,86 (0,856).

Ainda de acordo com os resultados da matriz de correlação observa-se que O valor do coeficiente de correlação entre anos_trabalho e salario é de 0,751.

Interessante notar que os valores maoires para a variável salario parecem ser mais influenciados pelo desempenho, e não pelos anos de trabalho, dado que o coeficiente de correlação entre salario e desempenho é maior que aquele entre salario e anos_trabalho. De qualquer forma, vale lembrar que o desempenho aumenta com os anos de trabalho, conforme verificado anteriormente a partir do excelente valor do coeficiente de correlação entre essas duas variáveis.