Análise Bi-variada

Fazer uma publicação no RPUBS com:

1 - para duas variáveis qualitativas - uma tabela cruzada, uma tabela de proporção e um gráfico de barras;

2 - para uma variável qualitativa e uma variável quantitativa - um boxplot e uma análise descritiva [pelo menos a média e o desvio-padrão];

3 - atividade opcional - fazer uma análise sobre os outliers dessa base de dados.

Esses resultados devem ser construidos a partir da base de dados chamada “Questionario_Estresse.xls”

Importação do banco de dados

library(readxl)
Estresse <- read_excel("C:/Users/renato/Desktop/Base_de_dados-master/Questionario_Estresse.xls")
View(Estresse)

1- Duas variáveis qualitativas

Visualização do banco de dados

head(Estresse)
## # A tibble: 6 x 10
##   Aluno Turma Mora_pais    RJ Namorado_a Trabalha Desempenho Estresse Créditos
##   <dbl> <dbl>     <dbl> <dbl>      <dbl>    <dbl>      <dbl>    <dbl>    <dbl>
## 1     1     1         2     2          2        2       8.89       23       27
## 2     2     1         1     1          2        2       8.8        24       28
## 3     3     1         2     2          2        2       8          25       25
## 4     4     1         2     2          1        1       8.8        38       21
## 5     5     1         2     2          2        1       8.9        41       18
## 6     6     1         2     2          1        1       8.1        25       29
## # ... with 1 more variable: Horas_estudo <dbl>

As variaveis escolhidas foram “Mora_pais” e “Trabalha”

Tratamento das variáveis escolhidas

Estresse$Mora_pais <- ifelse(Estresse$Mora_pais==1,'Mora Pais','Não Mora Pais')
Estresse$Trabalha <- ifelse(Estresse$Trabalha==1,'Trabalha','Não Trabalha')
head(Estresse)
## # A tibble: 6 x 10
##   Aluno Turma Mora_pais     RJ Namorado_a Trabalha  Desempenho Estresse Créditos
##   <dbl> <dbl> <chr>      <dbl>      <dbl> <chr>          <dbl>    <dbl>    <dbl>
## 1     1     1 Não Mora ~     2          2 Não Trab~       8.89       23       27
## 2     2     1 Mora Pais      1          2 Não Trab~       8.8        24       28
## 3     3     1 Não Mora ~     2          2 Não Trab~       8          25       25
## 4     4     1 Não Mora ~     2          1 Trabalha        8.8        38       21
## 5     5     1 Não Mora ~     2          2 Trabalha        8.9        41       18
## 6     6     1 Não Mora ~     2          1 Trabalha        8.1        25       29
## # ... with 1 more variable: Horas_estudo <dbl>

Tabela cruzada

tabela_1 <- table(Estresse$Mora_pais,Estresse$Trabalha)
tabela_1
##                
##                 Não Trabalha Trabalha
##   Mora Pais               27       17
##   Não Mora Pais           32       19

Tabela de proporção

A tabela de proporção foi elaborada tomando por base a variável “Mora_pais” (linha).

round(prop.table(tabela_1,1)*100,1)
##                
##                 Não Trabalha Trabalha
##   Mora Pais             61.4     38.6
##   Não Mora Pais         62.7     37.3

Gráfico de barras

barplot(tabela_1, main = 'Gráfico 1: Mora c/ pais vs Trabalha',
        beside = TRUE, col = c('red','blue'),
        ylim = c(0,35),
        legend = rownames(tabela_1))

2- Uma variável qualitativa e uma variável quantitativa

As variáveis escolhidas foram “Trabalha” (qualitativa) e “Desempenho” (quantitativa).

Boxplot

boxplot(Desempenho~Trabalha,data = Estresse, 
        main='Gráfico 2: Desempenho vs Trabalha',
        col = c('red','blue'), 
        horizontal = T)

Análise descritiva

O gráfico 2 acima (boxplot) apresenta a representação das “cinco estatística” para a variável quantitativa “Desempenho”, associada à variável qualitativa “Trabalha”.

Inicialmente, podemos verificar que existe presença de outliers, tanto para o grupo de alunos que trabalha, quanto para o grupo de alunos que não trabalha.

A mediana para ambos os grupos é semelhante (entre 8 e 9), onde a mediana do grupo que não trabalha é ligeiramente maior que a do grupo que trabalha.

Observando os tamanhos das caixas, podemos concluir que a variância do grupo que trabalha é maior que a do grupo que não trabalha, demonstrando uma maior dispersão dos dados. Sendo assim, o desvio padrão do grupo que trabalha é maior que a do grupo que não trabalha.

Tabela da média, mediana e desvio padrão

library(flextable)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
Estresse %>% select(Desempenho,Trabalha) %>% group_by(Trabalha) %>% 
  summarise(media = round(mean(Desempenho),2),
            mediana = round(median(Desempenho),2),
            desvio_padrao = round(sd(Desempenho),2)) %>% 
              flextable()