Atividade 4

Carregar os dados

#----------------------------
# Passo 1 - carregar dados
#----------------------------

library(readxl)
Questionario_Estresse <- read_excel("C:/Users/Bruna/Desktop/Base_de_dados-master/Questionario_Estresse.xls")

Inspecionar os dados

#-----------------------------
# Passo 2 - analisar os dados
#-----------------------------

str(Questionario_Estresse)

## tibble [95 x 10] (S3: tbl_df/tbl/data.frame)
##  $ Aluno       : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Turma       : num [1:95] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Mora_pais   : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
##  $ RJ          : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
##  $ Namorado_a  : num [1:95] 2 2 2 1 2 1 2 1 2 2 ...
##  $ Trabalha    : num [1:95] 2 2 2 1 1 1 2 1 1 1 ...
##  $ Desempenho  : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
##  $ Estresse    : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
##  $ Créditos    : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
##  $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...

summary(Questionario_Estresse)

##      Aluno          Turma         Mora_pais           RJ          Namorado_a   
##  Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :48.0   Median :2.000   Median :2.000   Median :2.000   Median :2.000  
##  Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653   Mean   :1.505  
##  3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000   Max.   :2.000  
##                                                                                
##     Trabalha       Desempenho       Estresse        Créditos    
##  Min.   :1.000   Min.   :5.820   Min.   :12.00   Min.   :15.00  
##  1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50   1st Qu.:23.00  
##  Median :2.000   Median :8.700   Median :27.00   Median :24.00  
##  Mean   :1.621   Mean   :8.594   Mean   :27.82   Mean   :24.95  
##  3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00   3rd Qu.:27.00  
##  Max.   :2.000   Max.   :9.700   Max.   :44.00   Max.   :49.00  
##                                                  NA's   :1      
##   Horas_estudo  
##  Min.   :19.00  
##  1st Qu.:25.00  
##  Median :30.00  
##  Mean   :30.73  
##  3rd Qu.:35.00  
##  Max.   :60.00  
##

Corrigir os dados

#-----------------------------
# Passo 3 - corrigir os dados
#-----------------------------

Questionario_Estresse$Mora_pais <- ifelse(Questionario_Estresse$Mora_pais==1, "sim","não")
Questionario_Estresse$RJ <- ifelse(Questionario_Estresse$RJ==1, "mora no rj", "mora em outra cidade")
Questionario_Estresse$Namorado_a <- ifelse(Questionario_Estresse$Namorado_a==1, "sim", "não")
Questionario_Estresse$Trabalha <- ifelse(Questionario_Estresse$Trabalha==1, "sim", "não")

Ver os dados novamente

#----------------------------------------
# Passo 4 - analisar os dados novamente
#----------------------------------------

str(Questionario_Estresse)

## tibble [95 x 10] (S3: tbl_df/tbl/data.frame)
##  $ Aluno       : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Turma       : num [1:95] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Mora_pais   : chr [1:95] "não" "sim" "não" "não" ...
##  $ RJ          : chr [1:95] "mora em outra cidade" "mora no rj" "mora em outra cidade" "mora em outra cidade" ...
##  $ Namorado_a  : chr [1:95] "não" "não" "não" "sim" ...
##  $ Trabalha    : chr [1:95] "não" "não" "não" "sim" ...
##  $ Desempenho  : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
##  $ Estresse    : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
##  $ Créditos    : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
##  $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...

summary(Questionario_Estresse)

##      Aluno          Turma        Mora_pais              RJ           
##  Min.   : 1.0   Min.   :1.000   Length:95          Length:95         
##  1st Qu.:24.5   1st Qu.:1.000   Class :character   Class :character  
##  Median :48.0   Median :2.000   Mode  :character   Mode  :character  
##  Mean   :48.0   Mean   :2.074                                        
##  3rd Qu.:71.5   3rd Qu.:3.000                                        
##  Max.   :95.0   Max.   :3.000                                        
##                                                                      
##   Namorado_a          Trabalha           Desempenho       Estresse    
##  Length:95          Length:95          Min.   :5.820   Min.   :12.00  
##  Class :character   Class :character   1st Qu.:8.500   1st Qu.:22.50  
##  Mode  :character   Mode  :character   Median :8.700   Median :27.00  
##                                        Mean   :8.594   Mean   :27.82  
##                                        3rd Qu.:9.050   3rd Qu.:33.00  
##                                        Max.   :9.700   Max.   :44.00  
##                                                                       
##     Créditos      Horas_estudo  
##  Min.   :15.00   Min.   :19.00  
##  1st Qu.:23.00   1st Qu.:25.00  
##  Median :24.00   Median :30.00  
##  Mean   :24.95   Mean   :30.73  
##  3rd Qu.:27.00   3rd Qu.:35.00  
##  Max.   :49.00   Max.   :60.00  
##  NA's   :1

Tabela e tabela de proporção dos alunos que namoram

#---------------------------------------------------------------
# Passo 5 - tabela e tabela de proporção de pessoas que namoram
#---------------------------------------------------------------

tabela_namora <- table(Questionario_Estresse$Namorado_a)
prop.table(tabela_namora)*100

## 
##      não      sim 
## 50.52632 49.47368

percentual <- prop.table(tabela_namora)*100
percentual

## 
##      não      sim 
## 50.52632 49.47368

Gráfico de barras dos alunos que namoram

#----------------------------------------------------
# Passo 6 - gráfico de barras de alunos que namoram
#----------------------------------------------------

gráfico_1 <- barplot(tabela_namora, legend= rownames(tabela_namora),main = "Gráfico 1: alunos que namoram", 
                     horiz = FALSE,beside = TRUE, ylim = c(0,100),
                     col = c("lightpink", "lightgreen"), args.legend = list(x= "topright"))

rotulo <- paste0(format(round(percentual,0),nsmall = 0), "%")
rotulo

## [1] "51%" "49%"

Tabela e tabela de proporção de alunos que moram no RJ

#-----------------------------------------------------------------
# Passo 7- tabela e tabela de proporção de alunos que moram no RJ
#------------------------------------------------------------------

tabela_mora_no_RJ <- table(Questionario_Estresse$RJ)
prop.table(tabela_mora_no_RJ)*100

## 
## mora em outra cidade           mora no rj 
##             65.26316             34.73684

percentual <- prop.table(tabela_mora_no_RJ)*100
percentual

## 
## mora em outra cidade           mora no rj 
##             65.26316             34.73684

Gráfico de barras de alunos que moram no RJ

#--------------------------------------------------------
# Passo 8 - gráfico de barras de alunos que moram no RJ
#--------------------------------------------------------

gráfico_2 <- barplot(tabela_mora_no_RJ, legend= rownames(tabela_mora_no_RJ), main = "Gráfico 2: alunos que moram no RJ",
                     horiz = FALSE, beside = TRUE, ylim = c(0,100),
                     col = c("yellow", "lightblue"), args.legend = list(x= "topright"))

rotulo <- paste0(format(round(percentual,0),nsmall = 0), "%")
rotulo

## [1] "65%" "35%"

Encontro de tabelas

tabela_namora_RJ <- table(Questionario_Estresse$Namorado_a, Questionario_Estresse$RJ)
View(tabela_namora_RJ)

prop.table(tabela_namora_RJ)*100

##      
##       mora em outra cidade mora no rj
##   não             30.52632   20.00000
##   sim             34.73684   14.73684

Verificar a tese

barplot(round(prop.table(table(Questionario_Estresse$Namorado_a, Questionario_Estresse$RJ),1),1)*100)

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Tabelas em números absolutos e em proporção

tabela_classe <- Questionario_Estresse %>% select(Namorado_a, RJ) %>% table()
tabela_classe

##           RJ
## Namorado_a mora em outra cidade mora no rj
##        não                   29         19
##        sim                   33         14

tabela_classe_prop <- Questionario_Estresse %>% select(Namorado_a, RJ) %>% table() %>% 
  prop.table(1) %>% round(2)
tabela_classe_prop

##           RJ
## Namorado_a mora em outra cidade mora no rj
##        não                  0.6        0.4
##        sim                  0.7        0.3

tabela_classe_prop*100

##           RJ
## Namorado_a mora em outra cidade mora no rj
##        não                   60         40
##        sim                   70         30

Gráfico de barras por grupo

#------------------------------------------
# Passo 12 - gráfico de barras por grupo
#------------------------------------------

tabela_classe %>% barplot(beside=T,
                          col= c("purple", "darkblue"),
                          main= "Gráfico Geral",
                          legend= rownames(tabela_classe),
                          ylim=c(0,100),
                          args.legend= list(x= "topright"))

Interpretação dos resultados

Nessa atividade a base de dados utilizada foi a “Questionario_Estresse.xls” e as variáveis qualitativas escolhidas foram “Namorado_a” e “RJ”, na qual a primeira analisa a quantidade de alunos que namoram e a segunda os alunos que moram no Rio de Janeiro. Ao analisar os dados ,usando os comandos do R script, analisei que eles precisavam ser corrigidos, para que eu pudesse criar as tabelas e por seguinte os gráficos de barras. Assim, ao olhar a base de dados parecia bem dividio as pessoas que namoram e que moram no rio e as que não namoram e não moram no rio. Contudo, ao final da monatgem dos gráficos de barra foi possível observar que realmente a diferença era pouca e os dois beiravam os 50%.