1 Estatistica Aplicada - AULA 2

1.1 Pacotes

library(descr)
library(kableExtra)
library(car)
library(carData)
library(sciplot)
library(tidyverse)
library(dplyr)
library(ggplot2)
library(plotly)
library(ExpDes.pt)
library(DT)
library(readxl)

1.2 Estimacao de Parametros - Media

1.2.1 Exemplo 1 - Para estimar um parametro de media:

Pretende-se avaliar a quantidade media de paginas acessadas por alunos de primeiro ano do ensino medio de um colegio ao ser solicitada uma pesquisa. Uma amostra aleatoria de 19 alunos dessas turmas gerou as respostas abaixo para a variavel numero de paginas acessadas.

exemplo1 <- c(34,25,34,37,35,32,31,33,33,32,34,35,36,37,36,34,35,36,32)

Dados do exemplo1: 34, 25, 34, 37, 35, 32, 31, 33, 33, 32, 34, 35, 36, 37, 36, 34, 35, 36, 32.

O tamanho da amostra e igual a 19 alunos.

length(exemplo1)
## [1] 19

A media amostral de numero de paginas acessadas e igual a 33.7368421.

mean(exemplo1)
## [1] 33.73684

Teste T para estimar a media com intervalo de conficanca de 0,95.

resultado.exemplo1 <- t.test(exemplo1, conf.level = 0.95)
resultado.exemplo1
## 
##  One Sample t-test
## 
## data:  exemplo1
## t = 53.562, df = 18, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  32.41353 35.06015
## sample estimates:
## mean of x 
##  33.73684

Conclusao: Com 95% de confianca, o numero populacional medio de paginas acessadas pelos alunos de primeiro ano do ensino medio do colegio, ao ser solicitada a pesquisa, esta entre 32.4135323, 35.0601519 paginas.

Valor de p : 2.649422710^{-21}.

1.2.2 Exercicio 1 - Para estimar um parametro de media:

Um empreendedor esta avaliando o potencial de uma regiao para a implantacao de uma distribuidora. Verificou, a partir de uma amostra aleatoria de 30 industrias, que os respectivos gastos com frete eram os descritos abaixo (em R$1000,00).

Qual a estimativa populacional de gasto medio com fretes das industrias da regiao, com 95% de confianca? Conclua formalmente.

exercicio1 <- c(15,28,20,21,27,33,17,21,20,16,21,30,29,28,25,24,26,29,21,20,26,24,29,31,25,24,26,28,25,24)

Dados do exercicio1: 15, 28, 20, 21, 27, 33, 17, 21, 20, 16, 21, 30, 29, 28, 25, 24, 26, 29, 21, 20, 26, 24, 29, 31, 25, 24, 26, 28, 25, 24.

O tamanho da amostra e igual a 30 industrias.

length(exercicio1)
## [1] 30

A media amostral de gasto mensal com fretes e igual a 24.4333333.

mean(exercicio1)
## [1] 24.43333

Teste T para estimar a media dos gastos mensal com fretes, com intervalo de conficanca de 0,95.

resultado.exercicio1 <- t.test(exercicio1, conf.level = 0.95)
resultado.exercicio1
## 
##  One Sample t-test
## 
## data:  exercicio1
## t = 29.787, df = 29, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  22.75570 26.11096
## sample estimates:
## mean of x 
##  24.43333

Conclusao: Com 95% de confianca, o gasto medio mensal com fretes das industrias da regiao esta entre 22.7557023, 26.1109643 mil reais.

Valor de p : 2.684991310^{-23}.

1.3 Estimacao de Parametros - Proporcao

1.3.1 Exemplo 2 - Para estimar um parametro de proporcao:

Pretende-se avaliar a proporcao de alunos do ensino medio de um colegio que ao ser solicitada uma pesquisa, utiliza o proprio celular. Uma amostra aleatoria de 200 alunos dessas turmas teve 150 que utilizaram celular e outros 50 que nao.

Qual o intervalo de 95% de confianca para a estimativa de proporcao populacional?

exemplo2<- 150/200
exemplo2
## [1] 0.75

A proporcao da amostra e 0.75.

Teste de proporcao para estimar a proporcao populacional, com intervalo de conficanca de 0,95.

resultado.exemplo2 <- prop.test(150,200,exemplo2)
resultado.exemplo2
## 
##  1-sample proportions test without continuity correction
## 
## data:  150 out of 200, null probability exemplo2
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.75
## 95 percent confidence interval:
##  0.6856590 0.8049183
## sample estimates:
##    p 
## 0.75

Conclusao: Com 95% de confianca, a proporcao de alunos do ensino medio que utiliza celular ao ser solicitada uma pesquisa esta entre 0.685659, 0.8049183.

1.3.2 Exercicio 2 - Para estimar um parametro de proporcao:

Um diretor de RH esta querendo saber se os funcionarios se sentem beneficiados com uma proposta de ferias coletivas num periodo de crise economica. Numa pesquisa com uma amostra de 500 funcionarios, observou que 350 deles eram a favor da proposta.

Estime, com 90% de confianca, a proporcao populacional de funcionarios que sao a favor da proposta.

exercicio2<- 350/500
exercicio2
## [1] 0.7

A proporcao da amostra e 0.7.

Teste de proporcao para estimar a proporcao populacional, com intervalo de conficanca de 0,95.

resultado.exercicio2 <- prop.test(350,500,exercicio2)
resultado.exercicio2
## 
##  1-sample proportions test without continuity correction
## 
## data:  350 out of 500, null probability exercicio2
## X-squared = 5.3853e-30, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.7
## 95 percent confidence interval:
##  0.6584322 0.7385181
## sample estimates:
##   p 
## 0.7

Conclusao: Com 95% de confianca, a proporcao de funcionarios da empresa esta em favor da proposta esta entre 0.6584322, 0.7385181.

1.4 Teste de hipoteses

1.4.1 Exemplo 3 - Teste de hipoteses para uma (1) media:

E esperado que numa populacao de funcionarios de uma empresa, eles gastem em media 3 horas do seu tempo no celular. Sera feito um teste em que a hipotese de estudo sera: os funcionarios utilizam o celular num tempo medio diferente de 3 horas. Uma amostra de 36 funcionarios teve tempo medio amostral de 3,4 horas com desvio padrao amostral S= 1,1 horas.

Deve ser testado se os funcionarios utilizam o celular num tempo medio diferente de 3 horas, com nivel de significancia de 5%.

H0 : O tempo medio amostral e igual a 3 horas.

H1 : O tempo medio amostral difere de 3 horas.

exemplo3 <- c(1.2, 0.7, 3.0, 2.5, 2.8, 4.3, 3, 2, 4, 3, 2, 5, 3.1, 3.5, 3.4, 3.3,
         5, 5.2, 4.6, 4, 3.2, 3.8, 3.9, 4.3, 4.9, 2.3, 5, 3.7, 3.8, 3.3,
         3.2, 3.4,3.5, 3.2, 3.3, 2)

Dados do exemplo3: 1.2, 0.7, 3, 2.5, 2.8, 4.3, 3, 2, 4, 3, 2, 5, 3.1, 3.5, 3.4, 3.3, 5, 5.2, 4.6, 4, 3.2, 3.8, 3.9, 4.3, 4.9, 2.3, 5, 3.7, 3.8, 3.3, 3.2, 3.4, 3.5, 3.2, 3.3, 2.

O tamanho da amostra e igual a 36 funcionarios.

length(exemplo3)
## [1] 36

A media amostral de tempo medio foi de 3.4.

mean(exemplo3)
## [1] 3.4

Pressuposto da Normalidade dos dados, inspecao visual.

qqnorm(exemplo3, pch=16)
qqline(exemplo3, lty=2, col="red")

Pressuposto da Normalidade dos dados - Teste de Shapiro Wilk.

Se p>0,05 os dados apresentam normalidade.

shapiro.test.ex3 <- shapiro.test(exemplo3)
shapiro.test.ex3
## 
##  Shapiro-Wilk normality test
## 
## data:  exemplo3
## W = 0.9641, p-value = 0.2867
p.value.shapiro.test.ex3 <- shapiro.test.ex3$p.value

Os dados apresentam normalidade atraves do teste de Shapiro Wilk, o valor de p = 0.2867325.

Teste T para estimar se o tempo medio de uso do celular pelos funcionarios difere de 3 horas, com intervalo de conficanca de 0,95.

resultado.exemplo3 <- t.test(exemplo3, mu=3, conf.level = 0.95, 
                             alternative = "two.sided")
resultado.exemplo3
## 
##  One Sample t-test
## 
## data:  exemplo3
## t = 2.2812, df = 35, p-value = 0.02873
## alternative hypothesis: true mean is not equal to 3
## 95 percent confidence interval:
##  3.04403 3.75597
## sample estimates:
## mean of x 
##       3.4

Conclusao: Ha evidencias de que os funcionarios dessa empresa utilizam o celular num tempo medio diferente e superior a 3 horas (valor-p= 0.0287325).

1.4.2 Exemplo 4 - Teste de hipoteses para duas (2) medias de populacoes independentes:

No exemplo anterior, os 18 primeiros casos eram de mulheres e o restante de homens. Deve ser testado se os funcionarios homens e mulheres diferem quanto ao tempo medio que utilizam o celular, com nivel de significancia de 5%.

H0 : O tempo medio populacional igual entre homens e mulheres.

H1 : O tempo medio populacional difere entre homens e mulheres.

tempo <- c(1.2, 0.7, 3.0, 2.5, 2.8, 4.3, 3, 2, 4, 3, 2, 5, 3.1, 3.5, 3.4, 3.3,
         5, 5.2, 4.6, 4, 3.2, 3.8, 3.9, 4.3, 4.9, 2.3, 5, 3.7, 3.8, 3.3,
         3.2, 3.4,3.5, 3.2, 3.3, 2)
genero <- c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2)
genero <- factor(genero)
exemplo4 <- data.frame(tempo,genero)

Dados do exemplo4.

exemplo4
##    tempo genero
## 1    1.2      1
## 2    0.7      1
## 3    3.0      1
## 4    2.5      1
## 5    2.8      1
## 6    4.3      1
## 7    3.0      1
## 8    2.0      1
## 9    4.0      1
## 10   3.0      1
## 11   2.0      1
## 12   5.0      1
## 13   3.1      1
## 14   3.5      1
## 15   3.4      1
## 16   3.3      1
## 17   5.0      1
## 18   5.2      1
## 19   4.6      2
## 20   4.0      2
## 21   3.2      2
## 22   3.8      2
## 23   3.9      2
## 24   4.3      2
## 25   4.9      2
## 26   2.3      2
## 27   5.0      2
## 28   3.7      2
## 29   3.8      2
## 30   3.3      2
## 31   3.2      2
## 32   3.4      2
## 33   3.5      2
## 34   3.2      2
## 35   3.3      2
## 36   2.0      2

Boxplot das medidas de tempo entre homens e mulheres.

box_exemplo4 <- compmeans(exemplo4$tempo, exemplo4$genero)

Pressuposto da Normalidade dos dados, inspecao visual.

qqnorm(exemplo4$tempo, pch=16)
qqline(exemplo4$tempo, lty=2, col="red")

Pressuposto da Normalidade dos dados, para genero, inspecao visual.

par(mfrow=c(1,2))
qqnorm(exemplo4$tempo[exemplo4$genero=="1"], pch=16, main = "1")
qqline(exemplo4$tempo[exemplo4$genero=="1"], lty=2, col="red")
qqnorm(exemplo4$tempo[exemplo4$genero=="2"], pch=16, main = "2")
qqline(exemplo4$tempo[exemplo4$genero=="2"], lty=2, col="red")

Pressuposto da Normalidade dos dados - Teste de Shapiro Wilk.

Se p>0,05 os dados apresentam normalidade.

shapiro.test.ex4.1 <- shapiro.test(exemplo4$tempo[exemplo4$genero=="1"])
shapiro.test.ex4.1
## 
##  Shapiro-Wilk normality test
## 
## data:  exemplo4$tempo[exemplo4$genero == "1"]
## W = 0.96296, p-value = 0.6595
p.value.shapiro.test.ex4.1 <- shapiro.test.ex4.1$p.value

Os dados de genero 1 apresentam normalidade atraves do teste de Shapiro Wilk, o valor de p = 0.659537.

shapiro.test.ex4.2 <- shapiro.test(exemplo4$tempo[exemplo4$genero=="2"])
shapiro.test.ex4.2
## 
##  Shapiro-Wilk normality test
## 
## data:  exemplo4$tempo[exemplo4$genero == "2"]
## W = 0.95587, p-value = 0.5242
p.value.shapiro.test.ex4.2 <- shapiro.test.ex4.2$p.value

Os dados de genero 2 apresentam normalidade atraves do teste de Shapiro Wilk, o valor de p = 0.5242204.

Pressuposto da Homeneidade de Variancias - Teste de Levene

Se pr>0,05, variancias apresentam homogeneidade.

levene.exemplo4 <- leveneTest(exemplo4$tempo~exemplo4$genero)
levene.exemplo4
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  1  2.1944 0.1477
##       34
p.levene.ex4 <- levene.exemplo4$`Pr(>F)`

As variancias apresentaram homogeneidade, valor de p = 0.1477209, NA. Usar var.equal=T no t.test.

Teste T para estimar se o tempo medio de uso do celular pelos funcionarios difere entre homens e mulheres, com intervalo de conficanca de 0,95.

resultado.exemplo4 <- t.test(exemplo4$tempo~exemplo4$genero, conf.level = 0.95, 
                             alternative = "two.sided", var.equal=T)
resultado.exemplo4
## 
##  Two Sample t-test
## 
## data:  exemplo4$tempo by exemplo4$genero
## t = -1.3461, df = 34, p-value = 0.1872
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.1712317  0.2378984
## sample estimates:
## mean in group 1 mean in group 2 
##        3.166667        3.633333

Conclusao: Nao ha evidencias de diferenca de tempo medio de uso do celular entre homens e mulheres (valor-p= 0.1871929).

1.4.3 Exemplo 5 - Teste de hipoteses para tres (3) ou + medias de populacoes independentes:

O RH de uma grande empresa esta avaliando se o local ou distancia pode estar associado com a performance dos funcionarios. Executou uma avaliacao para funcionarios separados por distancia do trabalho com a moradia. Verifique se essa associacao ocorre, ao n.s. 0,05.

H0 : A performance media e igual a todos os grupos de distancia.

H1 : A performance media difere em pelo menos um grupo de distancia.

performace <- c(1.4, 1.2, 0.7, 1.1, 1, 1.4, 1.3, 0.8, 1.3, 1, 0.6, 0.8, 1.1, 1.2,
          1, 0.9, 1.3, 0.7, 1.1, 0.9, 0.6, 1.2, 0.5, 0.8)
distancia <- c(1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)
distancia <- factor(distancia)
ua <- c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24)
exemplo5 <- data.frame(ua, performace, distancia)

Dados do exemplo5.

exemplo5
##    ua performace distancia
## 1   1        1.4         1
## 2   2        1.2         1
## 3   3        0.7         1
## 4   4        1.1         1
## 5   5        1.0         1
## 6   6        1.4         1
## 7   7        1.3         1
## 8   8        0.8         1
## 9   9        1.3         2
## 10 10        1.0         2
## 11 11        0.6         2
## 12 12        0.8         2
## 13 13        1.1         2
## 14 14        1.2         2
## 15 15        1.0         2
## 16 16        0.9         2
## 17 17        1.3         3
## 18 18        0.7         3
## 19 19        1.1         3
## 20 20        0.9         3
## 21 21        0.6         3
## 22 22        1.2         3
## 23 23        0.5         3
## 24 24        0.8         3

BOXPLOT - Analises exploratorias.

boxplot com pacote ggplot2

boxplot.ex5.ggplot2 <-ggplot(exemplo5, aes(x=distancia, y=performace, fill=distancia)) + 
    geom_boxplot(alpha=0.3) +
    theme(legend.position="none")
boxplot.ex5.ggplot2

boxplot com pacote plotly

ex5.dist.1 <- exemplo5 %>% 
  na.omit() %>%
  filter(distancia== "1")

ex5.dist.2 <- exemplo5 %>% 
  na.omit() %>%
  filter(distancia== "2")

ex5.dist.3 <- exemplo5 %>% 
  na.omit() %>%
  filter(distancia== "3")

boxplot.ex5.plotly <- plot_ly(type = 'box')

boxplot.ex5.plotly <- boxplot.ex5.plotly %>% add_boxplot(y = ex5.dist.1$performace, jitter = 0.3, pointpos = -1.8, boxpoints = 'all',
              marker = list(color = 'rgb(7,40,89)'),
              line = list(color = 'rgb(7,40,89)'),
              name = "1")

boxplot.ex5.plotly <- boxplot.ex5.plotly %>% add_boxplot(y = ex5.dist.2$performace, jitter = 0.3, pointpos = -1.8, boxpoints = 'all',
              marker = list(color = 'rgb(7,40,89)'),
              line = list(color = 'rgb(7,40,89)'),
              name = "2")

boxplot.ex5.plotly <- boxplot.ex5.plotly %>% add_boxplot(y = ex5.dist.3$performace, jitter = 0.3, pointpos = -1.8, boxpoints = 'all',
              marker = list(color = 'rgb(7,40,89)'),
              line = list(color = 'rgb(7,40,89)'),
              name = "3")

boxplot.ex5.plotly <- boxplot.ex5.plotly %>% layout(yaxis = list(range = c(0, 2), title = "Performace"))

boxplot.ex5.plotly

Resumo de dados - Analises exploratorias.

boxplot com pacote basico R

quadro de medias e desvio padrao

resumo.ex5 <- compmeans(exemplo5$performace, exemplo5$distancia)

resumo.ex5 %>%
  kable() %>%
  kable_styling(bootstrap_options = "striped", full_width = T)
Média N Desv. Pd.
1 1.1125000 8 0.2642374
2 0.9875000 8 0.2232071
3 0.8875000 8 0.2900123
Total 0.9958333 24 0.2661794

Pressuposto da Normalidade dos dados, inspecao visual.

#anova
resultado.exemplo5 <- aov(exemplo5$performace~exemplo5$distancia)

#testar normalidade nos residuos
qqnorm(resultado.exemplo5$residuals, pch=16)
qqline(resultado.exemplo5$residuals, lty=2, col="red")

Pressuposto da Normalidade dos residuos - Teste de Shapiro Wilk.

Se p>0,05 os dados apresentam normalidade.

shapiro.test.ex5 <- shapiro.test(resultado.exemplo5$residuals)
shapiro.test.ex5
## 
##  Shapiro-Wilk normality test
## 
## data:  resultado.exemplo5$residuals
## W = 0.9515, p-value = 0.2919
p.value.shapiro.test.ex5 <- shapiro.test.ex5$p.value

Os residuos apresentam normalidade atraves do teste de Shapiro Wilk, o valor de p = 0.2918994.

Pressuposto da Homeneidade de Variancias - Teste de Levene

Se pr>0,05, variancias apresentam homogeneidade.

levene.exemplo5 <- leveneTest(exemplo5$performace~exemplo5$distancia)
levene.exemplo5
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.5748 0.5714
##       21
p.levene.ex5 <- levene.exemplo5$`Pr(>F)`

As variancias apresentaram homogeneidade, valor de p = 0.5714378, NA. Usar var.equal=T no t.test.

ANOVA em pacote basico do R

summary(resultado.exemplo5)
##                    Df Sum Sq Mean Sq F value Pr(>F)
## exemplo5$distancia  2 0.2033 0.10167   1.497  0.247
## Residuals          21 1.4263 0.06792
p.value.exemplo5 <- summary(resultado.exemplo5)[[1]][["Pr(>F)"]]
p.value.exemplo5
## [1] 0.2467461        NA

Conclusao: Nao ha evidencias de que a performace media dos funcionarios difere em pelo menos um dos tres grupos de distancia (valor-p= 0.2467461, NA).

ANOVA em pacote ExpDes.pt

#anova para delineamento inteiramente casualisado com pacote ExpDes.pt
dic(exemplo5$distancia, exemplo5$performace, quali = TRUE, mcomp = "tukey", nl = FALSE,
hvar='levene', sigT = 0.05, sigF = 0.05)
## ------------------------------------------------------------------------
## Quadro da analise de variancia
## ------------------------------------------------------------------------
##            GL      SQ QM     Fc   Pr>Fc
## Tratamento  2 0.20333  3 1.4969 0.24675
## Residuo    21 1.42625  2               
## Total      23 1.62958  1               
## ------------------------------------------------------------------------
## CV = 26.17 %
## 
## ------------------------------------------------------------------------
## Teste de normalidade dos residuos 
## Valor-p:  0.2918994 
## De acordo com o teste de Shapiro-Wilk a 5% de significancia, os residuos podem ser considerados normais.
## ------------------------------------------------------------------------
## 
## ------------------------------------------------------------------------
## Teste de homogeneidade de variancia 
## valor-p:  0.5755238 
## De acordo com o teste de levene a 5% de significancia, as variancias podem ser consideradas homogeneas.
## ------------------------------------------------------------------------
## 
## De acordo com o teste F, as medias nao podem ser consideradas diferentes.
## ------------------------------------------------------------------------
##   Niveis Medias
## 1      1 1.1125
## 2      2 0.9875
## 3      3 0.8875
## ------------------------------------------------------------------------

Grafico de medias com desvio padrao - Analises exploratorias.

fun = function(x) mean(x, na.rm=TRUE)
lineplot.CI(exemplo5$distancia, exemplo5$performace, type="p", xlab="Classes de Distancia", 
            ylab="Performace", 
            main="Performace para cada classe de Distancia", 
             ci.fun= function(x) c(fun(x)-sd(x), fun(x)+sd(x)))

Grafico de medias com intervalo de conficanca - Analises exploratorias.

qt(0.975, 21) #5% signific攼㸲ncia e 21 graus de liberdade
## [1] 2.079614
fun = function(x) mean(x, na.rm=TRUE)
lineplot.CI(exemplo5$distancia, exemplo5$performace, type="p", xlab="Classes de Distancia", 
            ylab="Performace", 
            main="Performace para cada classe de Distancia", 
             ci.fun= function(x) c(mean(x)-qt(0.975, 21)*se(x), 
                                  mean(x)+qt(0.975, 21)*se(x)))

1.4.4 Exercicio 3 - Teste de hipoteses para duas (2) medias de populacoes independentes:

O RH de uma grande empresa esta avaliando se a area de negocio (comercial-1 ou producao-2) pode estar associado com a performance dos funcionarios. Executou uma avaliacao para funcionarios. Verifique se essa associacao ocorre na populacao, ao n.s. 0,05.

H0 : Nao ha diferenca entre as areas de negocio na performace dos funcionarios.

H1 : Ha diferenca entre as areas de negocio na performace dos funcionarios.

performace <- c(1.3, 1.3, 0.7, 1.2, 1, 1.4, 1.3, 0.8, 1.5, 1, 
                1.3, 1, 0.8, 0.8, 1.1, 1.2, 1, 0.9, 1, 0.8, 
                1.3, 0.7, 1.1, 0.9, 0.6, 1.2, 0.6, 0.7, 0.7, 1)
setor <- c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2)
exercicio3 <- data.frame(performace, setor)
exercicio3$setor<-factor(exercicio3$setor)

Dados do exercicio3.

exercicio3
##    performace setor
## 1         1.3     1
## 2         1.3     1
## 3         0.7     1
## 4         1.2     1
## 5         1.0     1
## 6         1.4     1
## 7         1.3     1
## 8         0.8     1
## 9         1.5     1
## 10        1.0     1
## 11        1.3     1
## 12        1.0     1
## 13        0.8     1
## 14        0.8     1
## 15        1.1     1
## 16        1.2     2
## 17        1.0     2
## 18        0.9     2
## 19        1.0     2
## 20        0.8     2
## 21        1.3     2
## 22        0.7     2
## 23        1.1     2
## 24        0.9     2
## 25        0.6     2
## 26        1.2     2
## 27        0.6     2
## 28        0.7     2
## 29        0.7     2
## 30        1.0     2

Resumo de dados - Analises exploratorias.

boxplot com pacote basico R

quadro de medias e desvio padrao

resumo.exercicio3 <- compmeans(exercicio3$performace, exercicio3$setor)

resumo.exercicio3 %>%
  kable() %>%
  kable_styling(bootstrap_options = "striped", full_width = T)
Média N Desv. Pd.
1 1.1000000 15 0.2507133
2 0.9133333 15 0.2263583
Total 1.0066667 30 0.2531639
  1. Existe diferenca de media na amostra? Quanto e?
media_1 <- mean(exercicio3$performace[exercicio3$setor=="1"])
media_2 <- mean(exercicio3$performace[exercicio3$setor=="2"])
diferenca <- media_1 - media_2
diferenca
## [1] 0.1866667

Sim, existe diferencas entre as medias do grupo 1 e grupo 2, esta diferenca e de 0.1866667.

  1. Qual o valor-p do teste e sua interpretacao?
resultado.exercicio3 <- t.test(exercicio3$performace~exercicio3$setor, alternative = "two.sided", conf.level=0.95)
p.value.exercicio3 <- resultado.exercicio3$p.value
chance.exercicio3 <- p.value.exercicio3*100

O valor-p foi de 0.0412751. Ou seja, se for afirmado que a performance populacional media difere entre as duas areas, a probabilidade de errar e de 4.1275103%.

  1. Faca um teste de hipoteses que verifica se existe diferenca populacional de performance media entre os grupos e conclua a respeito.
resultado.exercicio3
## 
##  Welch Two Sample t-test
## 
## data:  exercicio3$performace by exercicio3$setor
## t = 2.1403, df = 27.713, p-value = 0.04128
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.007932589 0.365400744
## sample estimates:
## mean in group 1 mean in group 2 
##       1.1000000       0.9133333

Conclusao: Ha evidencias de que a performance populacional media difere entre as duas areas (valor-p=0.0412751), sendo maior na area comercial do que na producao.

1.5 Teste para correlacao linear

1.5.1 Exemplo 6 - Teste para correlacao linear para duas (2) variaveis:

Uma amostra de alunos de uma instituicao de ensino foi analisada quanto ao numero de disciplinas evadidas e as notas obtidas no historico, com o objetivo de avaliar se existe correlacao entre essas variaveis.

Teste, ao n.s. 0,05, se ha correlacao linear entre essas variaveis para os alunos da instituicao.

H0 : nao ha correlacao linear entre a variavel A e variavel B.

H1 : ha correlacao linear entre a variavel A e variavel B.

Dados do exemplo6.

bd_evasao <- read_excel("C:/LEONARDO/Rpubs/bd_evasao.xlsx")
datatable(
  bd_evasao, extensions = 'Buttons', options = list(
    dom = 'Bfrtip',
    buttons = c('copy', 'csv', 'excel', 'pdf', 'print')
  )
)

Testar a correlacao linear entre a variavel numero de disciplinas evadidas e as notas obtidas no historico.

resultado.exemplo6 <- cor.test(bd_evasao$X6_num_disc_eva, bd_evasao$X5_notas_ant)
resultado.exemplo6
## 
##  Pearson's product-moment correlation
## 
## data:  bd_evasao$X6_num_disc_eva and bd_evasao$X5_notas_ant
## t = -9.0381, df = 368, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.5061675 -0.3389848
## sample estimates:
##        cor 
## -0.4262085
p.value.exemplo6 <- resultado.exemplo6$p.value

Conclusao: ha correlacao linear e inversa entre o numero de disciplinas evadidas e as notas obtidas no historico para os alunos dessa instituicao (valor-p 9.212804510^{-18}). Quanto menor as notas, maior o numero de disciplinas evadidas.

1.5.2 Exercicio 4 - Teste para correlacao linear para duas (2) variaveis:

Uma amostra de alunos de uma instituicao de ensino foi analisada quanto ao numero de disciplinas evadidas e a idade desses alunos, com o objetivo de avaliar se existe correlacao entre essas variaveis.

Teste, ao n.s. 0,05, se ha correlacao linear entre essas variaveis para os alunos da instituicao.

H0 : nao ha correlacao linear entre a variavel A e variavel B.

H1 : ha correlacao linear entre a variavel A e variavel B.

Dados do exercicio4 = exemplo6.

bd_evasao
## # A tibble: 370 x 13
##    X1_Curso X2_Disc X3_exig_mat X4_modal. X5_notas_ant X6_num_disc_eva
##    <chr>    <chr>         <dbl>     <dbl>        <dbl>           <dbl>
##  1 Adminis~ Estrat~           1         2          4.5               6
##  2 Gestão ~ Matemá~           2         1          4.6               7
##  3 Gestão ~ Método~           3         2          4.8               5
##  4 Gestão ~ Matemá~           2         2          4.9               4
##  5 Gestão ~ Método~           3         1          5.3               5
##  6 Gestão ~ Matemá~           2         2          5.4               3
##  7 Gestão ~ Método~           3         1          5.4               4
##  8 Engenha~ Método~           3         1          5.5               0
##  9 Adminis~ Cálcul~           3         1          5.5               2
## 10 Adminis~ Matemá~           2         1          5.6               2
## # ... with 360 more rows, and 7 more variables: X7_men_atr <dbl>,
## #   X8_sexo <chr>, X9_idade <dbl>, X10_dist <dbl>, X11_sem <dbl>,
## #   X12_tam_turm <dbl>, Y_evasao <dbl>

Testar a correlacao linear entre a variavel numero de disciplinas evadidas e a idade dos alunos.

resultado.exercicio4 <- cor.test(bd_evasao$X6_num_disc_eva, bd_evasao$X9_idade)
resultado.exercicio4
## 
##  Pearson's product-moment correlation
## 
## data:  bd_evasao$X6_num_disc_eva and bd_evasao$X9_idade
## t = -1.0094, df = 368, p-value = 0.3135
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.15367445  0.04967604
## sample estimates:
##         cor 
## -0.05254388
  1. Qual o coeficiente de correlacao linear? Interprete.
coef.corr.exercicio4 <- resultado.exercicio4$estimate

O coeficiente de correlacao linear entre as duas variaveis e de -0.0525439, ou seja, na amostra, a relacao linear entre idade e numero de disciplinas evadidas e muito baixa.

  1. Qual o valor-p do teste e sua interpretacao?
p.value.exericio4 <- resultado.exercicio4$p.value
chance.exericio4 <- p.value.exericio4*100

O valor-p e de 0.3134648. Se for confirmada a relacao linear entre idade e numero de disciplinas evadidas para os alunos da instituicao, a chance de errar e de 31.3464844%.

  1. Qual a conclusao do teste?

Conclusao: Nao ha evidencias da relacao linear entre idade e numero de disciplinas evadidas para os alunos da instituicao (valor-p=0.3134648).