introdução

vamos olhar a base de dado0s, corrigir os problemas e postar os resultados

importar um arquivo do excel no R

para importar u,m arquivo vamos usar a função read_excel da bliblioteca readxl.

library(readxl)

## Warning: package 'readxl' was built under R version 4.2.3

Questionario_Estresse <- read_excel("C:/Users/12389905412/Desktop/Base_de_dados-master/Questionario_Estresse.xls")

olhar a base de dados

aqui vamos usar as funções summery, view e head para olhar a base de dados

head(Questionario_Estresse)

## # A tibble: 6 × 10
##   Aluno Turma Mora_pais    RJ Namorado_a Trabalha Desempenho Estresse Créditos
##   <dbl> <dbl>     <dbl> <dbl>      <dbl>    <dbl>      <dbl>    <dbl>    <dbl>
## 1     1     1         2     2          2        2       8.89       23       27
## 2     2     1         1     1          2        2       8.8        24       28
## 3     3     1         2     2          2        2       8          25       25
## 4     4     1         2     2          1        1       8.8        38       21
## 5     5     1         2     2          2        1       8.9        41       18
## 6     6     1         2     2          1        1       8.1        25       29
## # ℹ 1 more variable: Horas_estudo <dbl>

summary(Questionario_Estresse)

##      Aluno          Turma         Mora_pais           RJ          Namorado_a   
##  Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :48.0   Median :2.000   Median :2.000   Median :2.000   Median :2.000  
##  Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653   Mean   :1.505  
##  3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000   Max.   :2.000  
##                                                                                
##     Trabalha       Desempenho       Estresse        Créditos    
##  Min.   :1.000   Min.   :5.820   Min.   :12.00   Min.   :15.00  
##  1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50   1st Qu.:23.00  
##  Median :2.000   Median :8.700   Median :27.00   Median :24.00  
##  Mean   :1.621   Mean   :8.594   Mean   :27.82   Mean   :24.95  
##  3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00   3rd Qu.:27.00  
##  Max.   :2.000   Max.   :9.700   Max.   :44.00   Max.   :49.00  
##                                                  NA's   :1      
##   Horas_estudo  
##  Min.   :19.00  
##  1st Qu.:25.00  
##  Median :30.00  
##  Mean   :30.73  
##  3rd Qu.:35.00  
##  Max.   :60.00  
##

str(Questionario_Estresse)

## tibble [95 × 10] (S3: tbl_df/tbl/data.frame)
##  $ Aluno       : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Turma       : num [1:95] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Mora_pais   : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
##  $ RJ          : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
##  $ Namorado_a  : num [1:95] 2 2 2 1 2 1 2 1 2 2 ...
##  $ Trabalha    : num [1:95] 2 2 2 1 1 1 2 1 1 1 ...
##  $ Desempenho  : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
##  $ Estresse    : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
##  $ Créditos    : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
##  $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...

transformar variaveis qualitativas

tudo que tiver 1 e 2 vai virar sim ou não, alem disso, as turmas 1, 2 e 3 devem virar A, B e C

Questionario_Estresse$Trabalha= ifelse(Questionario_Estresse$Trabalha==1,"sim","não")
Questionario_Estresse$Mora_pais= ifelse(Questionario_Estresse$Mora_pais==1,"sim","não")
Questionario_Estresse$RJ= ifelse(Questionario_Estresse$RJ==1,"sim","não")
Questionario_Estresse$Namorado_a= ifelse(Questionario_Estresse$Namorado_a==1,"sim","não")
Questionario_Estresse$Turma=ifelse(Questionario_Estresse$Turma==1,"turma a",ifelse(Questionario_Estresse$Turma==2,"turma b","turma C"))

o problema foi resolvido?

str(Questionario_Estresse)

## tibble [95 × 10] (S3: tbl_df/tbl/data.frame)
##  $ Aluno       : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Turma       : chr [1:95] "turma a" "turma a" "turma a" "turma a" ...
##  $ Mora_pais   : chr [1:95] "não" "sim" "não" "não" ...
##  $ RJ          : chr [1:95] "não" "sim" "não" "não" ...
##  $ Namorado_a  : chr [1:95] "não" "não" "não" "sim" ...
##  $ Trabalha    : chr [1:95] "não" "não" "não" "sim" ...
##  $ Desempenho  : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
##  $ Estresse    : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
##  $ Créditos    : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
##  $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...

head(Questionario_Estresse)

## # A tibble: 6 × 10
##   Aluno Turma   Mora_pais RJ    Namorado_a Trabalha Desempenho Estresse Créditos
##   <dbl> <chr>   <chr>     <chr> <chr>      <chr>         <dbl>    <dbl>    <dbl>
## 1     1 turma a não       não   não        não            8.89       23       27
## 2     2 turma a sim       sim   não        não            8.8        24       28
## 3     3 turma a não       não   não        não            8          25       25
## 4     4 turma a não       não   sim        sim            8.8        38       21
## 5     5 turma a não       não   não        sim            8.9        41       18
## 6     6 turma a não       não   sim        sim            8.1        25       29
## # ℹ 1 more variable: Horas_estudo <dbl>

#desenho de pesquisa

variavel explicada

desempenho do aluno

variavel explicativa

trabalha, namora, mora com os pais e turma

questionamentos

quem namora tem um desempenho pior? quem trabalha tem um desempenho pior? quem mora com os pais tem um desempenho pior? a turma b é melhor que as outras turmas no desempenho?

análise de dados

vamos fazer uma média por grupos. assim, farenmos o desempenho médio de quem trabalha e de quem não trabalha

library(dplyr) #para criar as estatisticas
library(flextable)#para criar as tabelas no rmarkdown

Questionario_Estresse%>%select(Trabalha,Desempenho)%>%group_by(Trabalha)%>%summarise(media=mean(Desempenho),desvio_padrao=sd(Desempenho)) %>% flextable()%>% theme_tron_legacy()

Trabalha	media	desvio_padrao
não	8.626441	0.698167
sim	8.540278	0.895511

quem trabalha tem media 8,5 e quem não trabalha tem nota 8,6

Questionario_Estresse%>%select(Namorado_a,Desempenho)%>%group_by(Namorado_a)%>%summarise(media=mean(Desempenho),desvio_padrao=sd(Desempenho)) %>% flextable()%>% theme_tron_legacy()

Namorado_a	media	desvio_padrao
não	8.437917	0.7373557
sim	8.752979	0.7884269

quem namora tem media…

Questionario_Estresse%>%select(Mora_pais,Desempenho)%>%group_by(Mora_pais)%>%summarise(media=mean(Desempenho),desvio_padrao=sd(Desempenho)) %>% flextable()%>% theme_tron_legacy()

Mora_pais	media	desvio_padrao
não	8.674902	0.6096372
sim	8.499773	0.9300900

Questionario_Estresse%>%select(Turma,Desempenho)%>%group_by(Turma)%>%summarise(media=mean(Desempenho),desvio_padrao=sd(Desempenho)) %>% flextable()%>% theme_tron_legacy()

Turma	media	desvio_padrao
turma C	8.474286	1.0388095
turma a	8.610357	0.4413320
turma b	8.710000	0.6627509

conclusão

não devemos impedir estudantes de trabalhar
o ministério do namoro deve ser criado imediatamente, já que quem namora tem uma média 3décimos maior que quem não namora

revisão geral

Gabriela Leite

2023-09-26