Este post apresenta os resultados da atividade 5 da disciplina Estatística aplicada à Ciências Humanas em que foram utilizados os recursos para:
carregar uma BD no formato csv;
elaborar um diagrama de dispersão com duas variáveis quantitativas; e
elaborar uma matriz de correlação com variáveis quantitativas da BD selecionada.
#---------
#Passo 1 - Carregamento das bibliotecas e da BD
#---------
library(dplyr)
Attaching package: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
library(corrplot)corrplot 0.90 loaded
library(rio)
library(readr)
library(flextable) A BD carregada e utilizada na atividade foi a seguinte:
Escola_DMQ <- read_csv2("D:/Curso Adm Publica/Semestre 8/Estatistica/Base_de_dados-master/Escola_Oliveira_p_Livro_DMQ.csv")i Using "','" as decimal and "'.'" as grouping mark. Use `read_delim()` for more control.
-- Column specification --------------------------------------------------------
cols(
id = col_double(),
grau_pagamento = col_double(),
sexo = col_double(),
raca = col_double(),
casado = col_double(),
idade = col_double(),
anos_trabalho = col_double(),
desempenho = col_double(),
salario = col_double()
)
# As primeiras linhas do banco de dados
Escola_DMQ %>% head() %>% data.frame() %>% flextable() id | grau_pagamento | sexo | raca | casado | idade | anos_trabalho | desempenho | salario |
1 | 1 | 1 | 1 | 0 | 0.5 | 2 | 890 | |
2 | 1 | 1 | 0 | 0 | 25 | 2.4 | 3 | 1,100 |
3 | 2 | 1 | 0 | 0 | 23 | 3.6 | 7 | 1,070 |
4 | 1 | 0 | 1 | 0 | 26 | 1.9 | 3 | 1,190 |
5 | 2 | 1 | 0 | 1 | 22 | 3.4 | 6 | 1,290 |
6 | 1 | 1 | 1 | 1 | 23 | 2.8 | 4 | 1,010 |
Foi elaborado um diagrama de dispersão com as variáveis Salario x Desempenho, obtendo-se o seguinte resultado:
#---------
#Passo 2 - Diagrama de dispersão
#---------
plot(Escola_DMQ$desempenho, Escola_DMQ$salario,
pch=19,col="red",
main="Grafico 1 - Diagrama de dispersão",ylab = "Salario",
xlab = "Desempenho")
abline(lsfit(Escola_DMQ$desempenho,
Escola_DMQ$salario),col="yellow")cor(Escola_DMQ$desempenho,Escola_DMQ$salario)[1] 0.8346379
Posteriormente, foi elaborada uma matriz de correlação entre as variáveis numéricas existentes na BD selecionada. No gráfico a seguir pode ser verificado o resultado alcançado:
#---------
#Passo 3 - Matriz de correlação
#---------
MC <- Escola_DMQ %>%
select(anos_trabalho, desempenho, salario) %>% cor()
MC anos_trabalho desempenho salario
anos_trabalho 1.0000000 0.8563059 0.7510329
desempenho 0.8563059 1.0000000 0.8346379
salario 0.7510329 0.8346379 1.0000000
corrplot.mixed(MC,main="Gráfico 2 - Matriz de Correlação entre as variáveis numéricas da BD")A partir do gráfico 1, verifica-se que o Salário das pessoas relacionadas na BD aumenta com o desempenho, ou seja, uma relação positiva, observando-se uma forte correlação entre essas variáveis, haja vista que o valor de r² é de 0,834. De fato, observando-se o referido gráfico, percebe-se que a dispersão dos dados é pequena, o que confere o alto valor do coeficiente de correlação (r²).
No gráfico 2, em que se observa a matriz de correlação das variáveis anos_trabalho, desempenho e salario, foi verificado que o melhor coeficiente de correlação é entre as variáveis anos_trabalho e desempenho, cujo valor é de 0,86 (0,856).
Ainda de acordo com os resultados da matriz de correlação observa-se que O valor do coeficiente de correlação entre anos_trabalho e salario é de 0,751.
Interessante notar que os valores maoires para a variável salario parecem ser mais influenciados pelo desempenho, e não pelos anos de trabalho, dado que o coeficiente de correlação entre salario e desempenho é maior que aquele entre salario e anos_trabalho. De qualquer forma, vale lembrar que o desempenho aumenta com os anos de trabalho, conforme verificado anteriormente a partir do excelente valor do coeficiente de correlação entre essas duas variáveis.