Atividade 5

Fazer e interpretar o diagrama de dispersão, o coeficiente de correlação (um coeficiente, uma matriz ou o corrplot), o boxplot e as estatísticas por grupo (média e desvio padrão) na base de dados Questionario_Estresse.xls.

Fase 1 - Carregando a base de dados

Nesta fase iremos carregar o banco de dados para ser realizada as análises.

library(readxl)
Questionario_Estresse <- read_excel("C:/Users/Cristiane/Desktop/Estatistica aplicada a engenharia I/Base_de_dados-master/Questionario_Estresse.xls", 
    sheet = "Dados")

Fase 2 - Trabalhando com os dados:

summary(Questionario_Estresse)
##      Aluno          Turma         Mora_pais           RJ         Namorado(a)   
##  Min.   : 1.0   Min.   :1.000   Min.   :1.000   Min.   :1.000   Min.   :1.000  
##  1st Qu.:24.5   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000  
##  Median :48.0   Median :2.000   Median :2.000   Median :2.000   Median :2.000  
##  Mean   :48.0   Mean   :2.074   Mean   :1.537   Mean   :1.653   Mean   :1.505  
##  3rd Qu.:71.5   3rd Qu.:3.000   3rd Qu.:2.000   3rd Qu.:2.000   3rd Qu.:2.000  
##  Max.   :95.0   Max.   :3.000   Max.   :2.000   Max.   :2.000   Max.   :2.000  
##                                                                                
##     Trabalha       Desempenho       Estresse        Créditos    
##  Min.   :1.000   Min.   :5.820   Min.   :12.00   Min.   :15.00  
##  1st Qu.:1.000   1st Qu.:8.500   1st Qu.:22.50   1st Qu.:23.00  
##  Median :2.000   Median :8.700   Median :27.00   Median :24.00  
##  Mean   :1.621   Mean   :8.594   Mean   :27.82   Mean   :24.95  
##  3rd Qu.:2.000   3rd Qu.:9.050   3rd Qu.:33.00   3rd Qu.:27.00  
##  Max.   :2.000   Max.   :9.700   Max.   :44.00   Max.   :49.00  
##                                                  NA's   :1      
##   Horas_estudo  
##  Min.   :19.00  
##  1st Qu.:25.00  
##  Median :30.00  
##  Mean   :30.73  
##  3rd Qu.:35.00  
##  Max.   :60.00  
## 
Questionario_Estresse$Turma<-ifelse(Questionario_Estresse$Turma==1,"2007_2","Não")
Questionario_Estresse$RJ<-ifelse(Questionario_Estresse$RJ==1,"Sim","Não")
Questionario_Estresse$Mora_pais<-ifelse(Questionario_Estresse$Mora_pais==1,"Sim","Não")
Questionario_Estresse$`Namorado(a)`<-ifelse(Questionario_Estresse$`Namorado(a)`==1,"Sim","Não")
Questionario_Estresse$Trabalha<-ifelse(Questionario_Estresse$Trabalha==1,"Sim","Não")

library(corrplot)
## corrplot 0.84 loaded
library(psych)

Fase 2 - Diagrama de dispersão e coeficiente de correlação

O Gráfico I a seguir trata de um diagrama de dispersão onde esta sendo analisado as variáveis estresse x desempenho do aluno.

plot(Questionario_Estresse$Estresse,Questionario_Estresse$Desempenho, pch=19, col="blue", xlab = "NIVEL DE ESTRESSE", ylab = "DESEMPENHO", main = "Gráfico I - Diagrama de Dispersão")
abline(lsfit(Questionario_Estresse$Estresse,Questionario_Estresse$Desempenho),col="#e80909")

cor(Questionario_Estresse$Estresse,Questionario_Estresse$Desempenho) 
## [1] 0.08257246

Interpretação - ao analisar os dados acima pode-se verificar que existe uma correlação levemente positiva apesar de estar proxima a zero.

Que apesar do alto nivel de estresse dos alunos o seu desempenho esta elevado.

plot(Questionario_Estresse$Estresse,Questionario_Estresse$Horas_estudo,pch=19,col="#e32222",
     xlab = "NIVEL DE ESTRESSE",
     ylab = "HORAS DE ESTUDO",
     main = "Gráfico II - Diagrama de dispersão")
abline(lsfit(Questionario_Estresse$Horas_estudo,Questionario_Estresse$Estresse),
       col="#0a0000")

cor(Questionario_Estresse$Estresse,Questionario_Estresse$Horas_estudo)
## [1] 0.303917

Interpretação - o gráfico II demonstra que quanto maior as horas dedicadas ao estudo maior é o nível de estresse dos alunos com uma correlação levemente positiva.

plot(Questionario_Estresse$Desempenho,Questionario_Estresse$Horas_estudo,pch=19,col="#09e86a",
     xlab = "DESEMPENHO",
     ylab = "HORAS DE ESTUDO",
     main = "Gráfico III - Diagrama de dispersão")
abline(lsfit(Questionario_Estresse$Desempenho,Questionario_Estresse$Horas_estudo),
       col="#0a0000")

cor(Questionario_Estresse$Desempenho,Questionario_Estresse$Horas_estudo)
## [1] 0.2231532

Interpretação - o gráfico III demonstra que apesar de muitos alunos estudarem por mais horas existem tambem vários alunos que tambem tem um bom desempenho. Correlação levemente positiva.

Fase 3 - Matriz de correlação

Listaremos abaixo o nomes utilizados no banco de dados:

names(Questionario_Estresse)
##  [1] "Aluno"        "Turma"        "Mora_pais"    "RJ"           "Namorado(a)" 
##  [6] "Trabalha"     "Desempenho"   "Estresse"     "Créditos"     "Horas_estudo"

Utilizaremos as variáveis “Horas de Estudo”; “Desempenho” e “Estresse”.

variaveis_quanti<-c("Horas_estudo","Desempenho","Estresse")
Questionario_Estresse[,variaveis_quanti]
## # A tibble: 95 x 3
##    Horas_estudo Desempenho Estresse
##           <dbl>      <dbl>    <dbl>
##  1           27       8.89       23
##  2           28       8.8        24
##  3           25       8          25
##  4           30       8.8        38
##  5           20       8.9        41
##  6           32       8.1        25
##  7           25       9.2        41
##  8           25       8.5        20
##  9           25       8.7        26
## 10           59       8.3        36
## # ... with 85 more rows

Somente podemos utilizar a matriz de correlação com variáveis quantitativas.

cor(Questionario_Estresse[,variaveis_quanti])
##              Horas_estudo Desempenho   Estresse
## Horas_estudo    1.0000000 0.22315316 0.30391699
## Desempenho      0.2231532 1.00000000 0.08257246
## Estresse        0.3039170 0.08257246 1.00000000
correlacao_QuestionarioEstresse<-cor(Questionario_Estresse[,variaveis_quanti])
correlacao_QuestionarioEstresse
##              Horas_estudo Desempenho   Estresse
## Horas_estudo    1.0000000 0.22315316 0.30391699
## Desempenho      0.2231532 1.00000000 0.08257246
## Estresse        0.3039170 0.08257246 1.00000000

Fase 4 - Corrplot

par(mfrow=c(1,1))
corrplot(correlacao_QuestionarioEstresse,method = "circle")

Interpretação: Podemos observar através do gráfico IV que de acrodo com a legenda a matriz de correlação vai do 1,00 ao menos 1,00 e que o tamanho da esfera e a cor aplicada a ela demonstra se a correlação é positva ou negativa, contudo neste caso pode ser verificado que todas as cores são azuis e que o tamanho do circulo altera de acordo com a correlação dela.

Segue abaixo o gráfico V com as mesmas variáveis com com uma representação numerica.

par(mfrow=c(1,1))
corrplot(correlacao_QuestionarioEstresse,method = "number")

Fase 5 - Boxplot

No gráfico abaixo estamos utilizando as váriaveis desempenho e trabalha

boxplot(Questionario_Estresse$Desempenho ~ Questionario_Estresse$Trabalha,
        horizontal = T,col=c("#2be809","#525951"),main="Gráfico VI: Desempenho X Trabalha",
        xlab = "DESEMPENHO",
        ylab = "TRABALHA") 

Interpretação: Podemos observar que a presença de outliers e notamos que o desempenho dos alunos que trabalham e que não trabalham estão próximos.

No gráfico abaixo estamos utilizando as váriaveis desempenho e horas de estudo.

boxplot(Questionario_Estresse$Desempenho ~ Questionario_Estresse$Horas_estudo,
        horizontal = T,col=c("#55c4c9","#2d3333"),main="Gráifco VII - Horas de Estudo X Desempenho",
        xlab = "DESEMPENHO",
        ylab = "NUMERO DE HORAS DE ESTUDO") 

Interpretação: Ao analisarmos o grafico podemos observar que uma variação em relação ao desempenho em relação aos alunos que estudam pouco e os que estudam muito.

Fase 6 - Média e Desvio Padrão

Utilizaremos as variaveis abaixo:

Desempenho X Trabalha

describeBy(Questionario_Estresse$Desempenho ~ Trabalha, Questionario_Estresse)
## 
##  Descriptive statistics by group 
## Trabalha: Não
##              vars  n  mean    sd median trimmed   mad min  max range  skew
## Aluno           1 59 49.31 24.57   49.0   49.55 28.17   1 95.0  94.0 -0.05
## Turma*          2 59  1.78  0.42    2.0    1.84  0.00   1  2.0   1.0 -1.32
## Mora_pais*      3 59  1.46  0.50    1.0    1.45  0.00   1  2.0   1.0  0.17
## RJ*             4 59  1.32  0.47    1.0    1.29  0.00   1  2.0   1.0  0.74
## Namorado(a)*    5 59  1.49  0.50    1.0    1.49  0.00   1  2.0   1.0  0.03
## Trabalha*       6 59  1.00  0.00    1.0    1.00  0.00   1  1.0   0.0   NaN
## Desempenho      7 59  8.63  0.70    8.8    8.72  0.44   6  9.6   3.6 -1.68
## Estresse        8 59 27.93  7.38   29.0   27.88  7.41  12 44.0  32.0  0.02
## Créditos        9 58 25.43  2.68   25.5   25.54  2.22  20 32.0  12.0 -0.15
## Horas_estudo   10 59 31.56  6.93   30.0   31.06  4.45  20 60.0  40.0  1.27
##              kurtosis   se
## Aluno           -0.86 3.20
## Turma*          -0.27 0.05
## Mora_pais*      -2.01 0.07
## RJ*             -1.47 0.06
## Namorado(a)*    -2.03 0.07
## Trabalha*         NaN 0.00
## Desempenho       3.60 0.09
## Estresse        -0.57 0.96
## Créditos        -0.29 0.35
## Horas_estudo     3.11 0.90
## ------------------------------------------------------------ 
## Trabalha: Sim
##              vars  n  mean    sd median trimmed   mad   min  max range  skew
## Aluno           1 36 45.86 32.14   40.5   45.40 44.48  4.00 93.0 89.00  0.12
## Turma*          2 36  1.58  0.50    2.0    1.60  0.00  1.00  2.0  1.00 -0.32
## Mora_pais*      3 36  1.47  0.51    1.0    1.47  0.00  1.00  2.0  1.00  0.11
## RJ*             4 36  1.39  0.49    1.0    1.37  0.00  1.00  2.0  1.00  0.44
## Namorado(a)*    5 36  1.50  0.51    1.5    1.50  0.74  1.00  2.0  1.00  0.00
## Trabalha*       6 36  1.00  0.00    1.0    1.00  0.00  1.00  1.0  0.00   NaN
## Desempenho      7 36  8.54  0.90    8.7    8.67  0.56  5.82  9.7  3.88 -1.55
## Estresse        8 36 27.64  7.90   26.0   27.53  8.15 13.00 44.0 31.00  0.15
## Créditos        9 36 24.17  5.62   24.0   23.70  4.45 15.00 49.0 34.00  2.19
## Horas_estudo   10 36 29.36  7.72   30.0   28.63  7.41 19.00 59.0 40.00  1.46
##              kurtosis   se
## Aluno           -1.68 5.36
## Turma*          -1.95 0.08
## Mora_pais*      -2.04 0.08
## RJ*             -1.86 0.08
## Namorado(a)*    -2.05 0.08
## Trabalha*         NaN 0.00
## Desempenho       2.21 0.15
## Estresse        -0.84 1.32
## Créditos         8.08 0.94
## Horas_estudo     3.69 1.29

Interpretação: Podemos observar que a média de quem trabalha é de 8,54 com um desvio padrão de 0,90 e de quem não trabalha é de 8,63 com um desvio padrão de 0,70.

E que se formos observar Trabalha x Estresse a média de estresse de quem trabalha é de 27,64 com um desvio padrão de 7,90 e de quem não trabalha é de 27,93 com um desvio padrão de 7,38.

Estresse X Mora com os Pais

describeBy(Questionario_Estresse$Estresse ~ Mora_pais, Questionario_Estresse)
## 
##  Descriptive statistics by group 
## Mora_pais: Não
##              vars  n  mean    sd median trimmed   mad  min  max range  skew
## Aluno           1 51 47.14 27.95   49.0   47.24 37.06  1.0 93.0  92.0 -0.01
## Turma*          2 51  1.69  0.47    2.0    1.73  0.00  1.0  2.0   1.0 -0.78
## Mora_pais*      3 51  1.00  0.00    1.0    1.00  0.00  1.0  1.0   0.0   NaN
## RJ*             4 51  1.06  0.24    1.0    1.00  0.00  1.0  2.0   1.0  3.64
## Namorado(a)*    5 51  1.55  0.50    2.0    1.56  0.00  1.0  2.0   1.0 -0.19
## Trabalha*       6 51  1.37  0.49    1.0    1.34  0.00  1.0  2.0   1.0  0.51
## Desempenho      7 51  8.67  0.61    8.8    8.74  0.44  5.9  9.5   3.6 -2.13
## Estresse        8 51 27.57  7.92   27.0   27.41  8.90 13.0 44.0  31.0  0.13
## Créditos        9 51 24.59  3.41   24.0   24.71  4.45 15.0 32.0  17.0 -0.41
## Horas_estudo   10 51 30.00  5.81   30.0   29.85  7.41 19.0 44.0  25.0  0.22
##              kurtosis   se
## Aluno           -1.25 3.91
## Turma*          -1.42 0.07
## Mora_pais*        NaN 0.00
## RJ*             11.48 0.03
## Namorado(a)*    -2.00 0.07
## Trabalha*       -1.77 0.07
## Desempenho       6.97 0.09
## Estresse        -0.89 1.11
## Créditos        -0.16 0.48
## Horas_estudo    -0.44 0.81
## ------------------------------------------------------------ 
## Mora_pais: Sim
##              vars  n  mean    sd median trimmed   mad   min  max range  skew
## Aluno           1 44 49.00 27.41  44.50   48.78 35.58  2.00 95.0 93.00  0.02
## Turma*          2 44  1.73  0.45   2.00    1.78  0.00  1.00  2.0  1.00 -0.99
## Mora_pais*      3 44  1.00  0.00   1.00    1.00  0.00  1.00  1.0  0.00   NaN
## RJ*             4 44  1.68  0.47   2.00    1.72  0.00  1.00  2.0  1.00 -0.75
## Namorado(a)*    5 44  1.43  0.50   1.00    1.42  0.00  1.00  2.0  1.00  0.27
## Trabalha*       6 44  1.39  0.49   1.00    1.36  0.00  1.00  2.0  1.00  0.45
## Desempenho      7 44  8.50  0.93   8.65    8.63  0.59  5.82  9.7  3.88 -1.27
## Estresse        8 44 28.11  7.16  27.50   28.14  5.93 12.00 44.0 32.00  0.01
## Créditos        9 43 25.37  4.76  24.00   25.03  2.97 17.00 49.0 32.00  2.60
## Horas_estudo   10 44 31.57  8.67  30.00   30.58  7.41 20.00 60.0 40.00  1.42
##              kurtosis   se
## Aluno           -1.31 4.13
## Turma*          -1.05 0.07
## Mora_pais*        NaN 0.00
## RJ*             -1.46 0.07
## Namorado(a)*    -1.97 0.08
## Trabalha*       -1.84 0.07
## Desempenho       1.13 0.14
## Estresse        -0.36 1.08
## Créditos        11.64 0.73
## Horas_estudo     2.53 1.31

Interpretação: Podemos observar que a média de estresse de quem mora com os pais é de 28,11 com um desvio padrão de 7,16 e de quem não mora com os pais é de 27,57 com um desvio padrão de 7,92.

E que se formos observar Desemprenho x Mora com os pais a média de desempenho de quem mora com os pais é de 8,50 com um desvio padrão de 0,93 e de quem não mora com os pais é de 8,67 com um desvio padrão de 0,61.