Atividade 5- Fazer e interpretar o diagrama de dispersão, o coeficiente de correlação (um coeficiente, uma matriz ou o corrplot), o boxplot e as estatísticas por grupo (média e desvio padrão) na base de dados Questionario_Estresse.xls.

1- Carregando a base de dados

library(readxl)

Questionario_Estresse<-read_excel("D:/MESTRADO UFF 2020/Academico 2020/CIVIL/Estatistica/Base_de_dados-master/Questionario_Estresse.xls")

2-Transformando variaveis qualitativas

summary(Questionario_Estresse)
##      Aluno          Turma         Mora_pais           RJ         Namorado(a)   
##  Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :48.0   Median :2.000   Median :2.000   Median :2.000   Median :2.000  
##  Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653   Mean   :1.505  
##  3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000   Max.   :2.000  
##                                                                                
##     Trabalha       Desempenho       Estresse        Créditos    
##  Min.   :1.000   Min.   :5.820   Min.   :12.00   Min.   :15.00  
##  1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50   1st Qu.:23.00  
##  Median :2.000   Median :8.700   Median :27.00   Median :24.00  
##  Mean   :1.621   Mean   :8.594   Mean   :27.82   Mean   :24.95  
##  3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00   3rd Qu.:27.00  
##  Max.   :2.000   Max.   :9.700   Max.   :44.00   Max.   :49.00  
##                                                  NA's   :1      
##   Horas_estudo  
##  Min.   :19.00  
##  1st Qu.:25.00  
##  Median :30.00  
##  Mean   :30.73  
##  3rd Qu.:35.00  
##  Max.   :60.00  
## 
Questionario_Estresse$Mora_pais<-ifelse(Questionario_Estresse$Mora_pais==1,"Sim","Não")
Questionario_Estresse$Trabalha<-ifelse(Questionario_Estresse$Trabalha==1,"Sim","Não")
Questionario_Estresse$RJ<-ifelse(Questionario_Estresse$RJ==1,"Sim","Não")
Questionario_Estresse$`Namorado(a)`<-ifelse(Questionario_Estresse$`Namorado(a)`==1,"Sim","Não")
Questionario_Estresse$Turma<-ifelse(Questionario_Estresse$Turma==1,"2007_2","Não")

summary(Questionario_Estresse)
##      Aluno         Turma            Mora_pais              RJ           
##  Min.   : 1.0   Length:95          Length:95          Length:95         
##  1st Qu.:24.5   Class :character   Class :character   Class :character  
##  Median :48.0   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :48.0                                                           
##  3rd Qu.:71.5                                                           
##  Max.   :95.0                                                           
##                                                                         
##  Namorado(a)          Trabalha           Desempenho       Estresse    
##  Length:95          Length:95          Min.   :5.820   Min.   :12.00  
##  Class :character   Class :character   1st Qu.:8.500   1st Qu.:22.50  
##  Mode  :character   Mode  :character   Median :8.700   Median :27.00  
##                                        Mean   :8.594   Mean   :27.82  
##                                        3rd Qu.:9.050   3rd Qu.:33.00  
##                                        Max.   :9.700   Max.   :44.00  
##                                                                       
##     Créditos      Horas_estudo  
##  Min.   :15.00   Min.   :19.00  
##  1st Qu.:23.00   1st Qu.:25.00  
##  Median :24.00   Median :30.00  
##  Mean   :24.95   Mean   :30.73  
##  3rd Qu.:27.00   3rd Qu.:35.00  
##  Max.   :49.00   Max.   :60.00  
##  NA's   :1

3-Análise Exploratoria dos de dados e criação dos Boxplot

Esse tipo de gráfico deve ser utilizado para mostrar a tendência central, a dispersão (observações entre o primeiro e o terceiro quartil), e os dados que apresentam valores extremos. Esse conjunto de informações é útil para comparar variáveis que apresentam ampla variabilidade, mostrando graficamente os outliers

Variáveis quantitativas escolhidas: Horas de estudo, Estresse e Desempenho

Variáveis qualitativas:Trabalha e Mora com pais

3.1 Boxplot Desempenho x Trabalha

boxplot(Questionario_Estresse$Desempenho ~ Questionario_Estresse$Trabalha,
        horizontal = T,col=c("Skyblue","green"),main="BOXPLOT 1:  INFLUÊNCIA DA VARIÁVEL TRABALHA NO DESEMPENHO",
        xlab = "Desempenho",
        ylab = "Trabalha") 

3.1.1- Interpretação: Os menores e maiores desempenhos foram de quem trabalha embora a mediana da população que não trabalha tenha sido maior que a mediana dos que trabalham. Identificando assim, uma quantidade maior de individuos que não trabalham performando de forma melhor, quando comparados aos que trabalham.

3.2 Boxplot Horas de estudo x Estresse

boxplot(Questionario_Estresse$Desempenho ~ Questionario_Estresse$Horas_estudo,
        horizontal = T,col=c("blue","red"),main="BOXPLOT 2: INFLUENCIA DAS HORAS DE ESTUDO NO DESEMPENHO",
        xlab = "Desempenho",
        ylab = "Horas Estudadas") 

3.2.1 Interpretação:Podemos observar que na população analisada, aqueles que estudam pouco e os que estudam muito apresentam representações assemelhadas, com amplo distanciamento entre o primeiro e tereiro quartis, indicando que o desempenho pode variar muito, independentemente do aluno estudar muito ou pouco. A mediana no entanto difere nestes dois extremos, sugerindo que os alunos que estudam muito tendem aos melhores desempenhos enquanto a mediana representativa dos alunos que estudam pouco aproxima-se mais da média.

4- Dispersão e coeficiente de correlação

4.1 Primeiro Gráfico: Diagrama de dispersão horas estudo x Estresse

plot(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Estresse,pch=19,col="blue",
     xlab = "Horas de estudo",
     ylab = "Nivel de Estresse",
     main = "Gráfico 3 - Diagrama de dispersão")
abline(lsfit(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Estresse),
       col="red")

cor(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Estresse)
## [1] 0.303917

4.1.1 Interpretação:O diagrama de dispersão mostra que na amostra apresentada, em primeiro momento, na faixa de 20 a 40 horas de estudo, aparente inexistencia de correlação, indicando que variados são os niveis de estresse independente do aluno estudar muito ou pouco.Entretanto, na faixa de 40 a 60 horas de estudo, observamos existencia de correlação indicando que quem mais estuda tem menor estresse.

4.1.2 Correlação levemente positiva

4.2 Segundo Grafico: Diagrama de dispersão Creditos cursados x Desempenho

plot(Questionario_Estresse$Créditos,Questionario_Estresse$Desempenho,pch=19,col="blue",
     xlab = "Creditos cursados",
     ylab = "Desempenho",
     main = "Gráfico 4 - Diagrama de dispersão")
abline(lsfit(Questionario_Estresse$Créditos,Questionario_Estresse$Desempenho),
       col="red")
## Warning in lsfit(Questionario_Estresse$Créditos,
## Questionario_Estresse$Desempenho): 1 missing value deleted

4.2.1 Interpretação: Consideradas as características da amostra e os limites máximos possíveis de créditos a serem cursados, observamos que os alunos que cursaram entre 20 e 30 créditos foram também aqueles que tiveram, majoritariamente, os melhores desempenhos, com maior variação de desempenho entre aqueles com desempenho inferior a 8,5(aprox) e menor variação de desempenho para aqueles alunos com desempenho acima de 8,5(aprox).

4.2.2 Correlação nula

cor(Questionario_Estresse$Créditos,Questionario_Estresse$Desempenho)
## [1] NA

5 Matriz de correlação

names(Questionario_Estresse)
##  [1] "Aluno"        "Turma"        "Mora_pais"    "RJ"           "Namorado(a)" 
##  [6] "Trabalha"     "Desempenho"   "Estresse"     "Créditos"     "Horas_estudo"
variaveis_quanti<-c("Horas_estudo","Desempenho","Estresse")
Questionario_Estresse[,variaveis_quanti]
## # A tibble: 95 x 3
##    Horas_estudo Desempenho Estresse
##           <dbl>      <dbl>    <dbl>
##  1           27       8.89       23
##  2           28       8.8        24
##  3           25       8          25
##  4           30       8.8        38
##  5           20       8.9        41
##  6           32       8.1        25
##  7           25       9.2        41
##  8           25       8.5        20
##  9           25       8.7        26
## 10           59       8.3        36
## # ... with 85 more rows
Questionario_Estresse[,variaveis_quanti]
## # A tibble: 95 x 3
##    Horas_estudo Desempenho Estresse
##           <dbl>      <dbl>    <dbl>
##  1           27       8.89       23
##  2           28       8.8        24
##  3           25       8          25
##  4           30       8.8        38
##  5           20       8.9        41
##  6           32       8.1        25
##  7           25       9.2        41
##  8           25       8.5        20
##  9           25       8.7        26
## 10           59       8.3        36
## # ... with 85 more rows
cor(Questionario_Estresse[,variaveis_quanti])
##              Horas_estudo Desempenho   Estresse
## Horas_estudo    1.0000000 0.22315316 0.30391699
## Desempenho      0.2231532 1.00000000 0.08257246
## Estresse        0.3039170 0.08257246 1.00000000
library(corrplot)
## corrplot 0.84 loaded
correlacao_QuestionarioEstresse<-cor(Questionario_Estresse[,variaveis_quanti])
correlacao_QuestionarioEstresse
##              Horas_estudo Desempenho   Estresse
## Horas_estudo    1.0000000 0.22315316 0.30391699
## Desempenho      0.2231532 1.00000000 0.08257246
## Estresse        0.3039170 0.08257246 1.00000000
par(mfrow=c(1,1))
corrplot(correlacao_QuestionarioEstresse,method = "pie")

5.1 Interpretação: Ao analisarmos a matriz de correlação, construída objetivando entendimento da correlação entre as variaveis quantitativas: Horas de estudo, Desempenho e Estresse, observamos que a correlação mais forte é a de Horas de Estudo-Estresse, seguida pela Desempenho-Horas de estudo e a mais fraca Desempenho-Estresse.

6 Analise de média e desvio padrão:

6.1 Horas de Estudo x Trabalha

library(psych)

describeBy(Questionario_Estresse$Horas_estudo ~ Trabalha, Questionario_Estresse)
## 
##  Descriptive statistics by group 
## Trabalha: Não
##              vars  n  mean    sd median trimmed   mad min  max range  skew
## Aluno           1 59 49.31 24.57   49.0   49.55 28.17   1 95.0  94.0 -0.05
## Turma*          2 59  1.78  0.42    2.0    1.84  0.00   1  2.0   1.0 -1.32
## Mora_pais*      3 59  1.46  0.50    1.0    1.45  0.00   1  2.0   1.0  0.17
## RJ*             4 59  1.32  0.47    1.0    1.29  0.00   1  2.0   1.0  0.74
## Namorado(a)*    5 59  1.49  0.50    1.0    1.49  0.00   1  2.0   1.0  0.03
## Trabalha*       6 59  1.00  0.00    1.0    1.00  0.00   1  1.0   0.0   NaN
## Desempenho      7 59  8.63  0.70    8.8    8.72  0.44   6  9.6   3.6 -1.68
## Estresse        8 59 27.93  7.38   29.0   27.88  7.41  12 44.0  32.0  0.02
## Créditos        9 58 25.43  2.68   25.5   25.54  2.22  20 32.0  12.0 -0.15
## Horas_estudo   10 59 31.56  6.93   30.0   31.06  4.45  20 60.0  40.0  1.27
##              kurtosis   se
## Aluno           -0.86 3.20
## Turma*          -0.27 0.05
## Mora_pais*      -2.01 0.07
## RJ*             -1.47 0.06
## Namorado(a)*    -2.03 0.07
## Trabalha*         NaN 0.00
## Desempenho       3.60 0.09
## Estresse        -0.57 0.96
## Créditos        -0.29 0.35
## Horas_estudo     3.11 0.90
## ------------------------------------------------------------ 
## Trabalha: Sim
##              vars  n  mean    sd median trimmed   mad   min  max range  skew
## Aluno           1 36 45.86 32.14   40.5   45.40 44.48  4.00 93.0 89.00  0.12
## Turma*          2 36  1.58  0.50    2.0    1.60  0.00  1.00  2.0  1.00 -0.32
## Mora_pais*      3 36  1.47  0.51    1.0    1.47  0.00  1.00  2.0  1.00  0.11
## RJ*             4 36  1.39  0.49    1.0    1.37  0.00  1.00  2.0  1.00  0.44
## Namorado(a)*    5 36  1.50  0.51    1.5    1.50  0.74  1.00  2.0  1.00  0.00
## Trabalha*       6 36  1.00  0.00    1.0    1.00  0.00  1.00  1.0  0.00   NaN
## Desempenho      7 36  8.54  0.90    8.7    8.67  0.56  5.82  9.7  3.88 -1.55
## Estresse        8 36 27.64  7.90   26.0   27.53  8.15 13.00 44.0 31.00  0.15
## Créditos        9 36 24.17  5.62   24.0   23.70  4.45 15.00 49.0 34.00  2.19
## Horas_estudo   10 36 29.36  7.72   30.0   28.63  7.41 19.00 59.0 40.00  1.46
##              kurtosis   se
## Aluno           -1.68 5.36
## Turma*          -1.95 0.08
## Mora_pais*      -2.04 0.08
## RJ*             -1.86 0.08
## Namorado(a)*    -2.05 0.08
## Trabalha*         NaN 0.00
## Desempenho       2.21 0.15
## Estresse        -0.84 1.32
## Créditos         8.08 0.94
## Horas_estudo     3.69 1.29

Interpretação: Entre aqueles alunos que não trabalham temos, para a variavel estuda, média de 31,56 e desvio padrão de 6,93, enquanto entre os alunos que trabalham temos média de 29,36 e desvio padrão de 7,72, indicando que, em média, os alunos que não trabalham estudam mais.

6.2 Estresse x Namora

describeBy(Questionario_Estresse$Estresse ~ Namorado(a), Questionario_Estresse)
## 
##  Descriptive statistics by group 
## Namorado(a): Não
##              vars  n  mean    sd median trimmed   mad  min   max range  skew
## Aluno           1 48 45.19 28.36  43.50   45.05 38.55  1.0 92.00 91.00  0.04
## Turma*          2 48  1.65  0.48   2.00    1.68  0.00  1.0  2.00  1.00 -0.59
## Mora_pais*      3 48  1.52  0.50   2.00    1.52  0.00  1.0  2.00  1.00 -0.08
## RJ*             4 48  1.40  0.49   1.00    1.38  0.00  1.0  2.00  1.00  0.41
## Namorado(a)*    5 48  1.00  0.00   1.00    1.00  0.00  1.0  1.00  0.00   NaN
## Trabalha*       6 48  1.38  0.49   1.00    1.35  0.00  1.0  2.00  1.00  0.50
## Desempenho      7 48  8.44  0.74   8.62    8.55  0.47  5.9  9.39  3.49 -1.57
## Estresse        8 48 27.25  7.79  26.00   27.12  7.41 12.0 44.00 32.00  0.21
## Créditos        9 47 25.00  5.08  24.00   24.62  5.93 17.0 49.00 32.00  2.06
## Horas_estudo   10 48 29.67  7.29  29.00   29.02  5.93 20.0 59.00 39.00  1.40
##              kurtosis   se
## Aluno           -1.39 4.09
## Turma*          -1.68 0.07
## Mora_pais*      -2.03 0.07
## RJ*             -1.87 0.07
## Namorado(a)*      NaN 0.00
## Trabalha*       -1.79 0.07
## Desempenho       2.35 0.11
## Estresse        -0.55 1.12
## Créditos         8.20 0.74
## Horas_estudo     3.51 1.05
## ------------------------------------------------------------ 
## Namorado(a): Sim
##              vars  n  mean    sd median trimmed   mad   min  max range  skew
## Aluno           1 47 50.87 26.74   52.0   51.00 34.10  4.00 95.0 91.00 -0.01
## Turma*          2 47  1.77  0.43    2.0    1.82  0.00  1.00  2.0  1.00 -1.22
## Mora_pais*      3 47  1.40  0.50    1.0    1.38  0.00  1.00  2.0  1.00  0.38
## RJ*             4 47  1.30  0.46    1.0    1.26  0.00  1.00  2.0  1.00  0.86
## Namorado(a)*    5 47  1.00  0.00    1.0    1.00  0.00  1.00  1.0  0.00   NaN
## Trabalha*       6 47  1.38  0.49    1.0    1.36  0.00  1.00  2.0  1.00  0.47
## Desempenho      7 47  8.75  0.79    8.8    8.87  0.44  5.82  9.7  3.88 -2.04
## Estresse        8 47 28.40  7.31   29.0   28.44  7.41 15.00 44.0 29.00 -0.06
## Créditos        9 47 24.89  2.81   24.0   25.13  2.97 15.00 30.0 15.00 -0.92
## Horas_estudo   10 47 31.81  7.18   30.0   31.31  5.93 19.00 60.0 41.00  1.25
##              kurtosis   se
## Aluno           -1.17 3.90
## Turma*          -0.53 0.06
## Mora_pais*      -1.90 0.07
## RJ*             -1.29 0.07
## Namorado(a)*      NaN 0.00
## Trabalha*       -1.82 0.07
## Desempenho       4.99 0.12
## Estresse        -0.79 1.07
## Créditos         1.58 0.41
## Horas_estudo     3.19 1.05

Interpretação: Entre aqueles alunos que não namoram temos, para a variavel estresse, média de 27,25 e desvio padrão de 7,79, enquanto entre os alunos que namoram temos média de 28,40 e desvio padrão de 7,31, indicando que quem namora apresenta estresse maior do que quem não namora.