1º Passo - Importar dados

Comandos usados - library e head

Aqui estamos utilizando a base de dados Questionario_Estresse

library(readxl)
Questionario_Estresse <- read_excel("C:/Users/User/Desktop/Faculdade/Adm P/8 Periodo/Estatistica/Base_de_dados-master/Base_de_dados-master/Questionario_Estresse.xls")
head(Questionario_Estresse)
# A tibble: 6 x 10
  Aluno Turma Mora_pais    RJ Namorado_a Trabalha Desempenho Estresse Créditos
  <dbl> <dbl>     <dbl> <dbl>      <dbl>    <dbl>      <dbl>    <dbl>    <dbl>
1     1     1         2     2          2        2       8.89       23       27
2     2     1         1     1          2        2       8.8        24       28
3     3     1         2     2          2        2       8          25       25
4     4     1         2     2          1        1       8.8        38       21
5     5     1         2     2          2        1       8.9        41       18
6     6     1         2     2          1        1       8.1        25       29
# ... with 1 more variable: Horas_estudo <dbl>

2º Passo - Realizar um Summary

Comandos usados - summary

Aqui podemos perceber que o mínimo de alunos é 1 e o máximo é 95, a média e a mediana são iguais com o valor de 48, primeiro e terceiro quartil representam 24.5 e 71,5. Em geral das tabelas de Turma, Mora_pais, RJ, Namorado_a, Trabalha não possuem valor de máximo acima de 3, suas medianas e primeiros quartis são iguais, com valor 2 e 1 respectivamente.

summary(Questionario_Estresse)
     Aluno          Turma         Mora_pais           RJ          Namorado_a   
 Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
 1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
 Median :48.0   Median :2.000   Median :2.000   Median :2.000   Median :2.000  
 Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653   Mean   :1.505  
 3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:2.000  
 Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000   Max.   :2.000  
                                                                               
    Trabalha       Desempenho       Estresse        Créditos    
 Min.   :1.000   Min.   :5.820   Min.   :12.00   Min.   :15.00  
 1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50   1st Qu.:23.00  
 Median :2.000   Median :8.700   Median :27.00   Median :24.00  
 Mean   :1.621   Mean   :8.594   Mean   :27.82   Mean   :24.95  
 3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00   3rd Qu.:27.00  
 Max.   :2.000   Max.   :9.700   Max.   :44.00   Max.   :49.00  
                                                 NA's   :1      
  Horas_estudo  
 Min.   :19.00  
 1st Qu.:25.00  
 Median :30.00  
 Mean   :30.73  
 3rd Qu.:35.00  
 Max.   :60.00  
                

3º Passo - Inspecionar os dados

Comandos usados - str

Aqui podemos perceber que os dados são inicialmente todos númericos dentro da importação de base de dados

str(Questionario_Estresse)
tibble [95 x 10] (S3: tbl_df/tbl/data.frame)
 $ Aluno       : num [1:95] 1 2 3 4 5 6 7 8 9 10 ...
 $ Turma       : num [1:95] 1 1 1 1 1 1 1 1 1 1 ...
 $ Mora_pais   : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
 $ RJ          : num [1:95] 2 1 2 2 2 2 2 1 1 1 ...
 $ Namorado_a  : num [1:95] 2 2 2 1 2 1 2 1 2 2 ...
 $ Trabalha    : num [1:95] 2 2 2 1 1 1 2 1 1 1 ...
 $ Desempenho  : num [1:95] 8.89 8.8 8 8.8 8.9 8.1 9.2 8.5 8.7 8.3 ...
 $ Estresse    : num [1:95] 23 24 25 38 41 25 41 20 26 36 ...
 $ Créditos    : num [1:95] 27 28 25 21 18 29 26 24 20 49 ...
 $ Horas_estudo: num [1:95] 27 28 25 30 20 32 25 25 25 59 ...

4º Passo - Transformar e Refinar os dados

Comandos usados - ifelse e table

Aqui nós colocamos condições para facilitar a leitura e a tabulação dos dados no R, através de ifelse, com dados que indicam sim ou não. Usamos os dados para quem Namora, Mora com os Pais, Mora no RJ e quem Trabalha

Questionario_Estresse$Namorado_a <- ifelse(Questionario_Estresse$Namorado_a==2,"Namora", "Solteiro")
table_Solteiros <- table(Questionario_Estresse$Turma, Questionario_Estresse$Namorado_a)

Questionario_Estresse$Mora_pais <- ifelse(Questionario_Estresse$Mora_pais==2, "Moram com os Pais", "Moram sem os pais")
table_Moradia <- table(Questionario_Estresse$Turma, Questionario_Estresse$Mora_pais)

Questionario_Estresse$RJ <- ifelse(Questionario_Estresse$RJ==2, "Moram no RJ", "Moram fora do RJ")
table_MoraRj <- table(Questionario_Estresse$Turma, Questionario_Estresse$RJ)

Questionario_Estresse$Trabalha <- ifelse(Questionario_Estresse$Trabalha==2, "Trabalha", "Desempregado")
table_trabalho <- table(Questionario_Estresse$Turma, Questionario_Estresse$Trabalha)

5º Passo - Gerar Tabelas com os dados refinados

Comandos usados - table, par, rainbow, barplot e legend

Aqui nos temos a vizualização dos dados obtidos em forma de tabelas. Nesta tabelas podemos analisar elas da seguinte forma. Para cada variavél existem 3 tabelas. a 1ª sendo a tabela númerica dos alunos, a 2ª a Proporção Percentual de Alunos por grupos diferentes para cada Turma e temos a 3ª tabela que mostra Proporção Percentual por mesmo tipo de grupo de todas as Turmas.

Solteiro ou Namorado

Neste conjunto de dados nós temos que em termos de proporção a turma com maior proporção de pessoas que namoram é da Turma 1 e 3 com 17 alunos cada e com 35.412% cada, e em relação somente a Turma 1, as pessoas que namoram detem 60.714% da sala. Já os Solteiros eles em proporção se encontram em maior quantidade na Turma 2 e 3 com 18 alunos cada e com 38.297% cada, enquanto que somente na Turma 2, eles detêm a maior porcentagem de Solteiros, que é de 56.250%. Isso nós mostra que por pouco os Namoradeiros não ganham dos Solteiros em números.

table_Solteiros
   
    Namora Solteiro
  1     17       11
  2     14       18
  3     17       18
prop.table(table_Solteiros, 1)*100
   
      Namora Solteiro
  1 60.71429 39.28571
  2 43.75000 56.25000
  3 48.57143 51.42857
prop.table(table_Solteiros, 2)*100
   
      Namora Solteiro
  1 35.41667 23.40426
  2 29.16667 38.29787
  3 35.41667 38.29787
par(bg = "#FFBF00")
par(cex = 0.8)
COL <- rainbow(3)
barplot(table_Solteiros, col = COL, ylim = c(0,60), beside = TRUE)
legend("top", c("Turma 1", "Turma 2", "Turma 3"), cex = 1.0,
       fill = c(COL))

Moram com os Pais ou Moram sem os Pais

Aqui nós temos que as Turmas com as maiores porcentagens de pessoas que moram com os pais é da Turma 2 com 19 alunos e com 37.254%. E dentro da Turma 2 nós temos que a porcentagem de pessoas que moram com os pais é de 59.375%. Já as pessoas que não moram com os pais as maiores porcentagens entre as turmas se encontram na Turma 3 com 19 alunos e com 43.181%, e Dentro da turma 3, a porcentagem de pessoas que não moram com os pais é de 54.285%. O que nós mostra que a maior parte dos alunos moram com os pais.

table_Moradia
   
    Moram com os Pais Moram sem os pais
  1                16                12
  2                19                13
  3                16                19
prop.table(table_Moradia, 1)*100
   
    Moram com os Pais Moram sem os pais
  1          57.14286          42.85714
  2          59.37500          40.62500
  3          45.71429          54.28571
prop.table(table_Moradia, 2)*100
   
    Moram com os Pais Moram sem os pais
  1          31.37255          27.27273
  2          37.25490          29.54545
  3          31.37255          43.18182
par(bg = "#FFBF00")
par(cex = 0.8)
COL <- rainbow(3)
barplot(table_Moradia,col = COL, ylim = c(0,60), beside = TRUE)
legend("top", c("Turma 1", "Turma 2", "Turma 3"), cex = 1.0,
       fill = c(COL))

Moram no RJ ou não moram no RJ

Aqui nós temos dentre as turmas, que as pessoas que moram no RJ em grande parte se encontram em peso na Turma 3 com 23 alunos e com 37.096% e dentro desta turma a porcentagem de pessoas que moram no RJ, é de 65.714%. Já para quem não mora no RJ, as turmas com as maiores proporções de pessoas desse tipo são da Turma 3 com 12, e nela temos que a porcentagem de pessoas que não moram no RJ é de 34.285%. O que nós mostra que em peso temos mais pessoas que moram no RJ do que pessoas de fora do RJ.

table_MoraRj
   
    Moram fora do RJ Moram no RJ
  1               11          17
  2               10          22
  3               12          23
prop.table(table_MoraRj, 1)*100
   
    Moram fora do RJ Moram no RJ
  1         39.28571    60.71429
  2         31.25000    68.75000
  3         34.28571    65.71429
prop.table(table_MoraRj, 2)*100
   
    Moram fora do RJ Moram no RJ
  1         33.33333    27.41935
  2         30.30303    35.48387
  3         36.36364    37.09677
par(bg = "#FFBF00")
par(cex = 0.8)
COL <- rainbow(3)
barplot(table_MoraRj, col = COL, ylim = c(0,60), beside = TRUE)
legend("top", c("Turma 1", "Turma 2", "Turma 3"), cex = 1.0,
       fill = c(COL))

Trabalham ou não Trabalham

Aqui temos que dentre todas as turmas, as proporções de pessoas que trabalham vem da Turma 2 com 26 alunos e com 44.067%. E dentro da Turma 2, a porcentagem de alunos que trabalham é de 81.250%. Para os desempregados, dentre todas as Turmas, as maiores porcentagens vem das Turmas 1 e 2 com 41.666%. E dentro da Turma 1, a proporção de Desempregados é de 53.571%. Podemos dizer que a maior proporção de alunos é de pessoas que trabalham.

table_trabalho
   
    Desempregado Trabalha
  1           15       13
  2            6       26
  3           15       20
prop.table(table_trabalho, 1)*100
   
    Desempregado Trabalha
  1     53.57143 46.42857
  2     18.75000 81.25000
  3     42.85714 57.14286
prop.table(table_trabalho, 2)*100
   
    Desempregado Trabalha
  1     41.66667 22.03390
  2     16.66667 44.06780
  3     41.66667 33.89831
par(bg = "#FFBF00")
par(cex = 0.8)
COL <- rainbow(3)
barplot(table_trabalho, col = COL, ylim = c(0,60), beside = TRUE)
legend("top", c("Turma 1", "Turma 2", "Turma 3"), cex = 1.0,
       fill = c(COL))

6º Passo - Conclusões

Podemos dizer que em tese é mais provavel que caso você escolha 1 aluno aleatoriamente, você acabe por escolher alguém que Namora, ou Moram com os Pais, ou Moram no RJ ou que Trabalham, já que as maiores proporções destas três turmas indicaram maiores números destes tipos de alunos. Então de acordo com esta análise de dados. Nesta amostra é perceptível que os alunos possuem uma carga pesada de compromissos como trabalho, relacionamento e ainda assim existe grupos que vivem com os pais ou então que moram no RJ, e este último grupo tem um sentido lógico-estatistico já que a amostra destes dados trata de uma escola no RJ.