R Markdown

Dataframe

library(readr)
EO <- read_delim("~/bases_curso_estatistica/Base_de_dados-master/Escola_Oliveira_p_Livro_DMQ.csv", 
                 delim = ";", escape_double = FALSE, locale = locale(encoding = "WINDOWS-1252"), 
                 trim_ws = TRUE)
## Rows: 420 Columns: 9
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## chr (1): anos_trabalho
## dbl (8): id, grau_pagamento, sexo, raca, casado, idade, desempenho, salario
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(EO)

Diagrama de dispersão de duas variáveis quantitativas.

plot(EO$idade,EO$desempenho,pch=19,col="blue",
     main="Dispersão de idades por desempenho",
     xlab = "Idade",
     ylab = "Desempenho")
abline(lsfit(EO$idade,EO$desempenho),col="red")
## Warning in lsfit(EO$idade, EO$desempenho): 3 missing values deleted

Carregamento

library(corrplot)
## Warning: package 'corrplot' was built under R version 4.2.2
## corrplot 0.92 loaded
library(flextable)
## Warning: package 'flextable' was built under R version 4.2.2
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.2.2
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Matriz de Correlação de duas variáveis quantitativas.

selecao = c("grau_pagamento","desempenho")
EO %>% select(selecao) %>% 
  cor() %>% corrplot(method="number")
## Warning: Using an external vector in selections was deprecated in tidyselect 1.1.0.
## ℹ Please use `all_of()` or `any_of()` instead.
##   # Was:
##   data %>% select(selecao)
## 
##   # Now:
##   data %>% select(all_of(selecao))
## 
## See <https://tidyselect.r-lib.org/reference/faq-external-vector.html>.

INTERPRETAÇÃO

Ao selecionar a base de dados Escola_Oliveira_p_Livro_DMQ.csv os dados idade e desempenho são escolhidos para dar início a criação do diagrama de dispersao de duas variaveis quantitativas.O diagrama recebe o título de Dispersão de idades por desempenho.

É nótorio que a uma grande dispersão entre idades, mas também é perceptível que por mais que alguns sejam mais velhos o desempenho ainda é maior do que alguns que possuem menos idade,

Ao criar uma matriz de correlação de duas variável quantitativas, sendo eles o grau de pagamento(grau_pagamento) e desempenho, foi utilizado o método númerico,pois como são valores muito próximos, quase não é visível a diferença de cores.

Mas fora essa questão os valores de desempenho e grau de pagamento são positivos e estão quase equilibrados.