Introdução

Tendo como referencial a base de dados “Questionario_Estresse” cujo domínio é xls, é possível fazer uma análise e extrair um gráfico de barras com duas variáveis qualitativas.

Carregando a base de dados

library(readxl)
Questionario_Estresse <- read_excel("C:/Users/DELL/Downloads/Base_de_dados-master/Questionario_Estresse.xls", 
                                    sheet = "Dados")

Inspecionando a base de dados

summary(Questionario_Estresse)
##      Aluno          Turma         Mora_pais           RJ          Namorado_a   
##  Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :48.0   Median :2.000   Median :2.000   Median :2.000   Median :2.000  
##  Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653   Mean   :1.505  
##  3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000   Max.   :2.000  
##                                                                                
##     Trabalha       Desempenho       Estresse        Créditos    
##  Min.   :1.000   Min.   :5.820   Min.   :12.00   Min.   :15.00  
##  1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50   1st Qu.:23.00  
##  Median :2.000   Median :8.700   Median :27.00   Median :24.00  
##  Mean   :1.621   Mean   :8.594   Mean   :27.82   Mean   :24.95  
##  3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00   3rd Qu.:27.00  
##  Max.   :2.000   Max.   :9.700   Max.   :44.00   Max.   :49.00  
##                                                  NA's   :1      
##   Horas_estudo  
##  Min.   :19.00  
##  1st Qu.:25.00  
##  Median :30.00  
##  Mean   :30.73  
##  3rd Qu.:35.00  
##  Max.   :60.00  
## 
str(Questionario_Estresse)
## tibble [95 x 10] (S3: tbl_df/tbl/data.frame)
##  $ Aluno       : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Turma       : num [1:95] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Mora_pais   : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
##  $ RJ          : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
##  $ Namorado_a  : num [1:95] 2 2 2 1 2 1 2 1 2 2 ...
##  $ Trabalha    : num [1:95] 2 2 2 1 1 1 2 1 1 1 ...
##  $ Desempenho  : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
##  $ Estresse    : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
##  $ Créditos    : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
##  $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...

Transformação de dados

Questionario_Estresse$Mora_pais = ifelse(Questionario_Estresse$Mora_pais==1,"Mora com os pais","Não mora com os pais")

Questionario_Estresse$RJ = ifelse(Questionario_Estresse$RJ==1,"Natural do RJ","Natural de outras cidade")

Questionario_Estresse$Namorado_a = ifelse(Questionario_Estresse$Namorado_a==1,"Namora","Não namora")

Questionario_Estresse$Trabalha = ifelse(Questionario_Estresse$Trabalha==1,"Trabalha","Não trabalha")

Questionario_Estresse$Turma = ifelse(Questionario_Estresse$Turma==1,"2007_2",                             ifelse(Questionario_Estresse$Turma==2,"2008_1","2008_2"))

Olhando os dados de novo

summary(Questionario_Estresse)
##      Aluno         Turma            Mora_pais              RJ           
##  Min.   : 1.0   Length:95          Length:95          Length:95         
##  1st Qu.:24.5   Class :character   Class :character   Class :character  
##  Median :48.0   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :48.0                                                           
##  3rd Qu.:71.5                                                           
##  Max.   :95.0                                                           
##                                                                         
##   Namorado_a          Trabalha           Desempenho       Estresse    
##  Length:95          Length:95          Min.   :5.820   Min.   :12.00  
##  Class :character   Class :character   1st Qu.:8.500   1st Qu.:22.50  
##  Mode  :character   Mode  :character   Median :8.700   Median :27.00  
##                                        Mean   :8.594   Mean   :27.82  
##                                        3rd Qu.:9.050   3rd Qu.:33.00  
##                                        Max.   :9.700   Max.   :44.00  
##                                                                       
##     Créditos      Horas_estudo  
##  Min.   :15.00   Min.   :19.00  
##  1st Qu.:23.00   1st Qu.:25.00  
##  Median :24.00   Median :30.00  
##  Mean   :24.95   Mean   :30.73  
##  3rd Qu.:27.00   3rd Qu.:35.00  
##  Max.   :49.00   Max.   :60.00  
##  NA's   :1

Tabela

trabalha1 = table(Questionario_Estresse$Trabalha)
trabalha1
## 
## Não trabalha     Trabalha 
##           59           36
mora1 = table(Questionario_Estresse$Mora_pais)
mora1
## 
##     Mora com os pais Não mora com os pais 
##                   44                   51

Tabela de proporção

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
prop.table(trabalha1)*100 %>% round(2)
## 
## Não trabalha     Trabalha 
##     62.10526     37.89474
prop.table(mora1)*100 %>% round(2)
## 
##     Mora com os pais Não mora com os pais 
##             46.31579             53.68421

Tabela com duas variáveis

tabela_paisetrabalha = table(Questionario_Estresse$Mora_pais, Questionario_Estresse$Trabalha)
tabela_paisetrabalha
##                       
##                        Não trabalha Trabalha
##   Mora com os pais               27       17
##   Não mora com os pais           32       19

Tabela de proporção com duas variáveis

prop.table(tabela_paisetrabalha,1) %>% round(2)*100
##                       
##                        Não trabalha Trabalha
##   Mora com os pais               61       39
##   Não mora com os pais           63       37

Gráfico de barras com duas variáveis

grafico <- barplot(tabela_paisetrabalha,beside=T,
                   col= c("#1d3557","#ae2012"),
                   main= "Mora com os pais x Trabalha",
                   legend = rownames(tabela_paisetrabalha),
                   ylim=c(0,40),
                  args.legend = list(x = "topright"))

percentual <- prop.table(tabela_paisetrabalha,1) %>% round(2)*100
percentual
##                       
##                        Não trabalha Trabalha
##   Mora com os pais               61       39
##   Não mora com os pais           63       37
rotulo <- paste0(percentual,"%")
rotulo
## [1] "61%" "63%" "39%" "37%"
text(grafico, 0, rotulo,cex=1,pos=3,col = "white")

Conclusão

Através das informações coletadas das duas variáveis — mora com os pais e trabalha — pode-se observar que 36 pessoas trabalham e 59 não, enquanto 44 moram com os pais e 51 não. Outrossim, trazendo as porcentagens acerca desses dados, temos por evidência que daqueles que moram com os pais, 61% não trabalham, ao passo que 39% trabalham. Também, é possível ter como base, que daqueles que não moram com os pais, 63% não trabalham e 37% sim.

Portanto, pode-se concluir que embora seja possível deduzir que ao sair da casa dos pais, a porcentagem de pessoas trabalhando tenderia a subir, o gráfico demonstra que tal teoria é falsa, uma vez que os índices daqueles que não moram com os pais em relação com a variável “não trabalha”, ultrapassa 60% dos entrevistados.