ANÁLISE BI-VARIADA

1 - Análise de dados de duas variáveis qualitativas

Carregar a base de dados

Para o trabalho foi carregada a base de dados do arquivo: Questionario_Estresse.xls.

library(readxl)
Questionario <- read_excel("C:/Users/Rodolfo/Desktop/Base_de_dados-master/Questionario_Estresse.xls", 
                           sheet = "Dados")

Inspecionar os dados, transformando 2 variáveis quantitativas em qualitativas

A base de dados não possuia variáveis qualitativas disponíveis, por isso se fez necessário a transformação de pelo menos duas variáveis quantitativas em 2 variáveis qualitativas. Optou-se em selecionar as variáveis para fazer as mundanças: “Mora com os pais” e “RJ”.

Questionario$Mora_pais <- factor(Questionario$Mora_pais, levels = c("1","2"), labels=c("Sim", "Não"))
Questionario$RJ <- factor(Questionario$RJ, levels = c("1","2"), labels=c("Natural do RJ", "Natural de outras cidades"))

head(Questionario)

# A tibble: 6 x 10
  Aluno Turma Mora_pais RJ      Namorado_a Trabalha Desempenho Estresse Créditos
  <dbl> <dbl> <fct>     <fct>        <dbl>    <dbl>      <dbl>    <dbl>    <dbl>
1     1     1 Não       Natura~          2        2       8.89       23       27
2     2     1 Sim       Natura~          2        2       8.8        24       28
3     3     1 Não       Natura~          2        2       8          25       25
4     4     1 Não       Natura~          1        1       8.8        38       21
5     5     1 Não       Natura~          2        1       8.9        41       18
6     6     1 Não       Natura~          1        1       8.1        25       29
# ... with 1 more variable: Horas_estudo <dbl>

str(Questionario)

tibble [95 x 10] (S3: tbl_df/tbl/data.frame)
 $ Aluno       : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
 $ Turma       : num [1:95] 1 1 1 1 1 1 1 1 1 1 ...
 $ Mora_pais   : Factor w/ 2 levels "Sim","Não": 2 1 2 2 2 2 2 1 1 1 ...
 $ RJ          : Factor w/ 2 levels "Natural do RJ",..: 2 1 2 2 2 2 2 1 1 1 ...
 $ Namorado_a  : num [1:95] 2 2 2 1 2 1 2 1 2 2 ...
 $ Trabalha    : num [1:95] 2 2 2 1 1 1 2 1 1 1 ...
 $ Desempenho  : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
 $ Estresse    : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
 $ Créditos    : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
 $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...

Tabelas

Tabelas usando o flextable foram feitas porém não puderam ser executadas no Rmarkdown por execução interrompida ” flextable was built under R version 4.1.2 - Execução interrompida”. Seguem abaixo os dados obtidos nas tabelas pela operação flextable dando os resultados que seguem:

Da operação flextable podemos extrair os dados que, dos estudantes de psicologia entrevistados que moram com os pais correspondem a 46,4% e que não moram 53,6%. Quanto a origem dos estudantes de psicologia que responderam a pesquisa obtivemos a informação que 34,7% são naturais do RJ, enquanto 65,3% são de outras cidades.

tabela1 <- table(Questionario$Mora_pais)
tabela2 <- table(Questionario$RJ)

tabela3 <- table(Questionario$Mora_pais,Questionario$RJ)
tabela4 <- table(Questionario$Trabalha,Questionario$RJ)

Tabela de proporção

Naturalidade dos estudantes de psicologia que trabalham. Dos 100% dos alunos dos curso de psicologia que responderam a pesquisa sobre o grau de estresse e que são natural do RJ, 42,4% desses alunos trabalham e 57,6% não trabalham. De outras cidades que não RJ, 35,5% trabalham e 64,5% não trabalham.

round(prop.table(table(Questionario$Trabalha,Questionario$RJ),2)*100,1)

   
    Natural do RJ Natural de outras cidades
  1          42.4                      35.5
  2          57.6                      64.5

Verificação dos alunos que moram ou não com os pais x a sua naturalidade

par(mfrow=c(1,1))
barplot(tabela3)

barplot(tabela3, main = "Naturalidade dos estudantes que moram com os pais",
        beside = TRUE, col = c("red","blue"),
        ylim = c(0,60),
        legend = rownames(tabela3))

barplot(tabela4)

barplot(tabela4, main = "Naturalidade dos estudantes que trabalham",
                beside = TRUE, col = c("red","blue"),
                ylim = c(0,60),
                legend = rownames(tabela4))

2 - Duas variáveis, qualitativa x quantitativa

summary(Questionario$Horas_estudo)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  19.00   25.00   30.00   30.73   35.00   60.00

## Verificar a média de horas semanais estudadas de acordo 
## com a procedência, ou seja, se são do RJ ou não

boxplot(Horas_estudo~RJ, data = Questionario, main="Horas de estudo por procedência do estudante entrevistado",
        col=c("red","green"),horizontal = T,xlab = "Média de horas de estudo semanal", ylab = "Procedência do estudante")

3 - Conclusão

Olhando o boxplot acima podemos observar que, as horas médias de estudo semanal pelos estudantes do curso de psicologia que responderam o “Questionario_Estresse” por local de sua procedêcia tem praticamente a mesma mediana, ou seja, tem praticamente a mesma quantidade média horas de estudo semanal. Temos 3 outliers , sendo dois deles com valores muito aproximados (próximo a 60 horas de estudo) sendo um aluno para naturalidade de RJ e outro de outra cidade. Observamos uma diferença maior no terceiro quartil nos estudantes naturais de outras cidades comparado aos estudantes do RJ. O desvio padrão das horas de estudo, dos estudantes naturais de outras cidades é maior comparado aos estudantes do RJ. Temos uma distribuição simétrica nas horas de estudos tanto para os estudantes do RJ quanto para os estudantes do RJ.

Atividade04

Shirley Garcia

24/11/2021