Abstract
Aula 2 da disciplina de Estatistica Aplicada do curso de Especializacao em Big Data, Data Science e Data Analytics. Esta aula contem exemplos e exercicios executados em R para os assuntos de: Estimacao de Parametros (Media e Proporcao); Teste de Hipoteses e Testes de Correlacao Linear.library(descr)
library(kableExtra)
library(car)
library(carData)
library(sciplot)
library(tidyverse)
library(dplyr)
library(ggplot2)
library(plotly)
library(ExpDes.pt)
library(DT)
library(readxl)
Pretende-se avaliar a quantidade media de paginas acessadas por alunos de primeiro ano do ensino medio de um colegio ao ser solicitada uma pesquisa. Uma amostra aleatoria de 19 alunos dessas turmas gerou as respostas abaixo para a variavel numero de paginas acessadas.
exemplo1 <- c(34,25,34,37,35,32,31,33,33,32,34,35,36,37,36,34,35,36,32)
Dados do exemplo1: 34, 25, 34, 37, 35, 32, 31, 33, 33, 32, 34, 35, 36, 37, 36, 34, 35, 36, 32.
O tamanho da amostra e igual a 19 alunos.
length(exemplo1)
## [1] 19
A media amostral de numero de paginas acessadas e igual a 33.7368421.
mean(exemplo1)
## [1] 33.73684
Teste T para estimar a media com intervalo de conficanca de 0,95.
resultado.exemplo1 <- t.test(exemplo1, conf.level = 0.95)
resultado.exemplo1
##
## One Sample t-test
##
## data: exemplo1
## t = 53.562, df = 18, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 32.41353 35.06015
## sample estimates:
## mean of x
## 33.73684
Conclusao: Com 95% de confianca, o numero populacional medio de paginas acessadas pelos alunos de primeiro ano do ensino medio do colegio, ao ser solicitada a pesquisa, esta entre 32.4135323, 35.0601519 paginas.
Valor de p : 2.649422710^{-21}.
Um empreendedor esta avaliando o potencial de uma regiao para a implantacao de uma distribuidora. Verificou, a partir de uma amostra aleatoria de 30 industrias, que os respectivos gastos com frete eram os descritos abaixo (em R$1000,00).
Qual a estimativa populacional de gasto medio com fretes das industrias da regiao, com 95% de confianca? Conclua formalmente.
exercicio1 <- c(15,28,20,21,27,33,17,21,20,16,21,30,29,28,25,24,26,29,21,20,26,24,29,31,25,24,26,28,25,24)
Dados do exercicio1: 15, 28, 20, 21, 27, 33, 17, 21, 20, 16, 21, 30, 29, 28, 25, 24, 26, 29, 21, 20, 26, 24, 29, 31, 25, 24, 26, 28, 25, 24.
O tamanho da amostra e igual a 30 industrias.
length(exercicio1)
## [1] 30
A media amostral de gasto mensal com fretes e igual a 24.4333333.
mean(exercicio1)
## [1] 24.43333
Teste T para estimar a media dos gastos mensal com fretes, com intervalo de conficanca de 0,95.
resultado.exercicio1 <- t.test(exercicio1, conf.level = 0.95)
resultado.exercicio1
##
## One Sample t-test
##
## data: exercicio1
## t = 29.787, df = 29, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 22.75570 26.11096
## sample estimates:
## mean of x
## 24.43333
Conclusao: Com 95% de confianca, o gasto medio mensal com fretes das industrias da regiao esta entre 22.7557023, 26.1109643 mil reais.
Valor de p : 2.684991310^{-23}.
Pretende-se avaliar a proporcao de alunos do ensino medio de um colegio que ao ser solicitada uma pesquisa, utiliza o proprio celular. Uma amostra aleatoria de 200 alunos dessas turmas teve 150 que utilizaram celular e outros 50 que nao.
Qual o intervalo de 95% de confianca para a estimativa de proporcao populacional?
exemplo2<- 150/200
exemplo2
## [1] 0.75
A proporcao da amostra e 0.75.
Teste de proporcao para estimar a proporcao populacional, com intervalo de conficanca de 0,95.
resultado.exemplo2 <- prop.test(150,200,exemplo2)
resultado.exemplo2
##
## 1-sample proportions test without continuity correction
##
## data: 150 out of 200, null probability exemplo2
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.75
## 95 percent confidence interval:
## 0.6856590 0.8049183
## sample estimates:
## p
## 0.75
Conclusao: Com 95% de confianca, a proporcao de alunos do ensino medio que utiliza celular ao ser solicitada uma pesquisa esta entre 0.685659, 0.8049183.
Um diretor de RH esta querendo saber se os funcionarios se sentem beneficiados com uma proposta de ferias coletivas num periodo de crise economica. Numa pesquisa com uma amostra de 500 funcionarios, observou que 350 deles eram a favor da proposta.
Estime, com 90% de confianca, a proporcao populacional de funcionarios que sao a favor da proposta.
exercicio2<- 350/500
exercicio2
## [1] 0.7
A proporcao da amostra e 0.7.
Teste de proporcao para estimar a proporcao populacional, com intervalo de conficanca de 0,95.
resultado.exercicio2 <- prop.test(350,500,exercicio2)
resultado.exercicio2
##
## 1-sample proportions test without continuity correction
##
## data: 350 out of 500, null probability exercicio2
## X-squared = 5.3853e-30, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.7
## 95 percent confidence interval:
## 0.6584322 0.7385181
## sample estimates:
## p
## 0.7
Conclusao: Com 95% de confianca, a proporcao de funcionarios da empresa esta em favor da proposta esta entre 0.6584322, 0.7385181.
E esperado que numa populacao de funcionarios de uma empresa, eles gastem em media 3 horas do seu tempo no celular. Sera feito um teste em que a hipotese de estudo sera: os funcionarios utilizam o celular num tempo medio diferente de 3 horas. Uma amostra de 36 funcionarios teve tempo medio amostral de 3,4 horas com desvio padrao amostral S= 1,1 horas.
Deve ser testado se os funcionarios utilizam o celular num tempo medio diferente de 3 horas, com nivel de significancia de 5%.
H0 : O tempo medio amostral e igual a 3 horas.
H1 : O tempo medio amostral difere de 3 horas.
exemplo3 <- c(1.2, 0.7, 3.0, 2.5, 2.8, 4.3, 3, 2, 4, 3, 2, 5, 3.1, 3.5, 3.4, 3.3,
5, 5.2, 4.6, 4, 3.2, 3.8, 3.9, 4.3, 4.9, 2.3, 5, 3.7, 3.8, 3.3,
3.2, 3.4,3.5, 3.2, 3.3, 2)
Dados do exemplo3: 1.2, 0.7, 3, 2.5, 2.8, 4.3, 3, 2, 4, 3, 2, 5, 3.1, 3.5, 3.4, 3.3, 5, 5.2, 4.6, 4, 3.2, 3.8, 3.9, 4.3, 4.9, 2.3, 5, 3.7, 3.8, 3.3, 3.2, 3.4, 3.5, 3.2, 3.3, 2.
O tamanho da amostra e igual a 36 funcionarios.
length(exemplo3)
## [1] 36
A media amostral de tempo medio foi de 3.4.
mean(exemplo3)
## [1] 3.4
Pressuposto da Normalidade dos dados, inspecao visual.
qqnorm(exemplo3, pch=16)
qqline(exemplo3, lty=2, col="red")
Pressuposto da Normalidade dos dados - Teste de Shapiro Wilk.
Se p>0,05 os dados apresentam normalidade.
shapiro.test.ex3 <- shapiro.test(exemplo3)
shapiro.test.ex3
##
## Shapiro-Wilk normality test
##
## data: exemplo3
## W = 0.9641, p-value = 0.2867
p.value.shapiro.test.ex3 <- shapiro.test.ex3$p.value
Os dados apresentam normalidade atraves do teste de Shapiro Wilk, o valor de p = 0.2867325.
Teste T para estimar se o tempo medio de uso do celular pelos funcionarios difere de 3 horas, com intervalo de conficanca de 0,95.
resultado.exemplo3 <- t.test(exemplo3, mu=3, conf.level = 0.95,
alternative = "two.sided")
resultado.exemplo3
##
## One Sample t-test
##
## data: exemplo3
## t = 2.2812, df = 35, p-value = 0.02873
## alternative hypothesis: true mean is not equal to 3
## 95 percent confidence interval:
## 3.04403 3.75597
## sample estimates:
## mean of x
## 3.4
Conclusao: Ha evidencias de que os funcionarios dessa empresa utilizam o celular num tempo medio diferente e superior a 3 horas (valor-p= 0.0287325).
No exemplo anterior, os 18 primeiros casos eram de mulheres e o restante de homens. Deve ser testado se os funcionarios homens e mulheres diferem quanto ao tempo medio que utilizam o celular, com nivel de significancia de 5%.
H0 : O tempo medio populacional igual entre homens e mulheres.
H1 : O tempo medio populacional difere entre homens e mulheres.
tempo <- c(1.2, 0.7, 3.0, 2.5, 2.8, 4.3, 3, 2, 4, 3, 2, 5, 3.1, 3.5, 3.4, 3.3,
5, 5.2, 4.6, 4, 3.2, 3.8, 3.9, 4.3, 4.9, 2.3, 5, 3.7, 3.8, 3.3,
3.2, 3.4,3.5, 3.2, 3.3, 2)
genero <- c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2)
genero <- factor(genero)
exemplo4 <- data.frame(tempo,genero)
Dados do exemplo4.
exemplo4
## tempo genero
## 1 1.2 1
## 2 0.7 1
## 3 3.0 1
## 4 2.5 1
## 5 2.8 1
## 6 4.3 1
## 7 3.0 1
## 8 2.0 1
## 9 4.0 1
## 10 3.0 1
## 11 2.0 1
## 12 5.0 1
## 13 3.1 1
## 14 3.5 1
## 15 3.4 1
## 16 3.3 1
## 17 5.0 1
## 18 5.2 1
## 19 4.6 2
## 20 4.0 2
## 21 3.2 2
## 22 3.8 2
## 23 3.9 2
## 24 4.3 2
## 25 4.9 2
## 26 2.3 2
## 27 5.0 2
## 28 3.7 2
## 29 3.8 2
## 30 3.3 2
## 31 3.2 2
## 32 3.4 2
## 33 3.5 2
## 34 3.2 2
## 35 3.3 2
## 36 2.0 2
Boxplot das medidas de tempo entre homens e mulheres.
box_exemplo4 <- compmeans(exemplo4$tempo, exemplo4$genero)
Pressuposto da Normalidade dos dados, inspecao visual.
qqnorm(exemplo4$tempo, pch=16)
qqline(exemplo4$tempo, lty=2, col="red")
Pressuposto da Normalidade dos dados, para genero, inspecao visual.
par(mfrow=c(1,2))
qqnorm(exemplo4$tempo[exemplo4$genero=="1"], pch=16, main = "1")
qqline(exemplo4$tempo[exemplo4$genero=="1"], lty=2, col="red")
qqnorm(exemplo4$tempo[exemplo4$genero=="2"], pch=16, main = "2")
qqline(exemplo4$tempo[exemplo4$genero=="2"], lty=2, col="red")
Pressuposto da Normalidade dos dados - Teste de Shapiro Wilk.
Se p>0,05 os dados apresentam normalidade.
shapiro.test.ex4.1 <- shapiro.test(exemplo4$tempo[exemplo4$genero=="1"])
shapiro.test.ex4.1
##
## Shapiro-Wilk normality test
##
## data: exemplo4$tempo[exemplo4$genero == "1"]
## W = 0.96296, p-value = 0.6595
p.value.shapiro.test.ex4.1 <- shapiro.test.ex4.1$p.value
Os dados de genero 1 apresentam normalidade atraves do teste de Shapiro Wilk, o valor de p = 0.659537.
shapiro.test.ex4.2 <- shapiro.test(exemplo4$tempo[exemplo4$genero=="2"])
shapiro.test.ex4.2
##
## Shapiro-Wilk normality test
##
## data: exemplo4$tempo[exemplo4$genero == "2"]
## W = 0.95587, p-value = 0.5242
p.value.shapiro.test.ex4.2 <- shapiro.test.ex4.2$p.value
Os dados de genero 2 apresentam normalidade atraves do teste de Shapiro Wilk, o valor de p = 0.5242204.
Pressuposto da Homeneidade de Variancias - Teste de Levene
Se pr>0,05, variancias apresentam homogeneidade.
levene.exemplo4 <- leveneTest(exemplo4$tempo~exemplo4$genero)
levene.exemplo4
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 2.1944 0.1477
## 34
p.levene.ex4 <- levene.exemplo4$`Pr(>F)`
As variancias apresentaram homogeneidade, valor de p = 0.1477209, NA. Usar var.equal=T no t.test.
Teste T para estimar se o tempo medio de uso do celular pelos funcionarios difere entre homens e mulheres, com intervalo de conficanca de 0,95.
resultado.exemplo4 <- t.test(exemplo4$tempo~exemplo4$genero, conf.level = 0.95,
alternative = "two.sided", var.equal=T)
resultado.exemplo4
##
## Two Sample t-test
##
## data: exemplo4$tempo by exemplo4$genero
## t = -1.3461, df = 34, p-value = 0.1872
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.1712317 0.2378984
## sample estimates:
## mean in group 1 mean in group 2
## 3.166667 3.633333
Conclusao: Nao ha evidencias de diferenca de tempo medio de uso do celular entre homens e mulheres (valor-p= 0.1871929).
O RH de uma grande empresa esta avaliando se o local ou distancia pode estar associado com a performance dos funcionarios. Executou uma avaliacao para funcionarios separados por distancia do trabalho com a moradia. Verifique se essa associacao ocorre, ao n.s. 0,05.
H0 : A performance media e igual a todos os grupos de distancia.
H1 : A performance media difere em pelo menos um grupo de distancia.
performace <- c(1.4, 1.2, 0.7, 1.1, 1, 1.4, 1.3, 0.8, 1.3, 1, 0.6, 0.8, 1.1, 1.2,
1, 0.9, 1.3, 0.7, 1.1, 0.9, 0.6, 1.2, 0.5, 0.8)
distancia <- c(1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3)
distancia <- factor(distancia)
ua <- c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24)
exemplo5 <- data.frame(ua, performace, distancia)
Dados do exemplo5.
exemplo5
## ua performace distancia
## 1 1 1.4 1
## 2 2 1.2 1
## 3 3 0.7 1
## 4 4 1.1 1
## 5 5 1.0 1
## 6 6 1.4 1
## 7 7 1.3 1
## 8 8 0.8 1
## 9 9 1.3 2
## 10 10 1.0 2
## 11 11 0.6 2
## 12 12 0.8 2
## 13 13 1.1 2
## 14 14 1.2 2
## 15 15 1.0 2
## 16 16 0.9 2
## 17 17 1.3 3
## 18 18 0.7 3
## 19 19 1.1 3
## 20 20 0.9 3
## 21 21 0.6 3
## 22 22 1.2 3
## 23 23 0.5 3
## 24 24 0.8 3
BOXPLOT - Analises exploratorias.
boxplot com pacote ggplot2
boxplot.ex5.ggplot2 <-ggplot(exemplo5, aes(x=distancia, y=performace, fill=distancia)) +
geom_boxplot(alpha=0.3) +
theme(legend.position="none")
boxplot.ex5.ggplot2
boxplot com pacote plotly
ex5.dist.1 <- exemplo5 %>%
na.omit() %>%
filter(distancia== "1")
ex5.dist.2 <- exemplo5 %>%
na.omit() %>%
filter(distancia== "2")
ex5.dist.3 <- exemplo5 %>%
na.omit() %>%
filter(distancia== "3")
boxplot.ex5.plotly <- plot_ly(type = 'box')
boxplot.ex5.plotly <- boxplot.ex5.plotly %>% add_boxplot(y = ex5.dist.1$performace, jitter = 0.3, pointpos = -1.8, boxpoints = 'all',
marker = list(color = 'rgb(7,40,89)'),
line = list(color = 'rgb(7,40,89)'),
name = "1")
boxplot.ex5.plotly <- boxplot.ex5.plotly %>% add_boxplot(y = ex5.dist.2$performace, jitter = 0.3, pointpos = -1.8, boxpoints = 'all',
marker = list(color = 'rgb(7,40,89)'),
line = list(color = 'rgb(7,40,89)'),
name = "2")
boxplot.ex5.plotly <- boxplot.ex5.plotly %>% add_boxplot(y = ex5.dist.3$performace, jitter = 0.3, pointpos = -1.8, boxpoints = 'all',
marker = list(color = 'rgb(7,40,89)'),
line = list(color = 'rgb(7,40,89)'),
name = "3")
boxplot.ex5.plotly <- boxplot.ex5.plotly %>% layout(yaxis = list(range = c(0, 2), title = "Performace"))
boxplot.ex5.plotly
Resumo de dados - Analises exploratorias.
boxplot com pacote basico R
quadro de medias e desvio padrao
resumo.ex5 <- compmeans(exemplo5$performace, exemplo5$distancia)
resumo.ex5 %>%
kable() %>%
kable_styling(bootstrap_options = "striped", full_width = T)
Média | N | Desv. Pd. | |
---|---|---|---|
1 | 1.1125000 | 8 | 0.2642374 |
2 | 0.9875000 | 8 | 0.2232071 |
3 | 0.8875000 | 8 | 0.2900123 |
Total | 0.9958333 | 24 | 0.2661794 |
Pressuposto da Normalidade dos dados, inspecao visual.
#anova
resultado.exemplo5 <- aov(exemplo5$performace~exemplo5$distancia)
#testar normalidade nos residuos
qqnorm(resultado.exemplo5$residuals, pch=16)
qqline(resultado.exemplo5$residuals, lty=2, col="red")
Pressuposto da Normalidade dos residuos - Teste de Shapiro Wilk.
Se p>0,05 os dados apresentam normalidade.
shapiro.test.ex5 <- shapiro.test(resultado.exemplo5$residuals)
shapiro.test.ex5
##
## Shapiro-Wilk normality test
##
## data: resultado.exemplo5$residuals
## W = 0.9515, p-value = 0.2919
p.value.shapiro.test.ex5 <- shapiro.test.ex5$p.value
Os residuos apresentam normalidade atraves do teste de Shapiro Wilk, o valor de p = 0.2918994.
Pressuposto da Homeneidade de Variancias - Teste de Levene
Se pr>0,05, variancias apresentam homogeneidade.
levene.exemplo5 <- leveneTest(exemplo5$performace~exemplo5$distancia)
levene.exemplo5
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.5748 0.5714
## 21
p.levene.ex5 <- levene.exemplo5$`Pr(>F)`
As variancias apresentaram homogeneidade, valor de p = 0.5714378, NA. Usar var.equal=T no t.test.
ANOVA em pacote basico do R
summary(resultado.exemplo5)
## Df Sum Sq Mean Sq F value Pr(>F)
## exemplo5$distancia 2 0.2033 0.10167 1.497 0.247
## Residuals 21 1.4263 0.06792
p.value.exemplo5 <- summary(resultado.exemplo5)[[1]][["Pr(>F)"]]
p.value.exemplo5
## [1] 0.2467461 NA
Conclusao: Nao ha evidencias de que a performace media dos funcionarios difere em pelo menos um dos tres grupos de distancia (valor-p= 0.2467461, NA).
ANOVA em pacote ExpDes.pt
#anova para delineamento inteiramente casualisado com pacote ExpDes.pt
dic(exemplo5$distancia, exemplo5$performace, quali = TRUE, mcomp = "tukey", nl = FALSE,
hvar='levene', sigT = 0.05, sigF = 0.05)
## ------------------------------------------------------------------------
## Quadro da analise de variancia
## ------------------------------------------------------------------------
## GL SQ QM Fc Pr>Fc
## Tratamento 2 0.20333 3 1.4969 0.24675
## Residuo 21 1.42625 2
## Total 23 1.62958 1
## ------------------------------------------------------------------------
## CV = 26.17 %
##
## ------------------------------------------------------------------------
## Teste de normalidade dos residuos
## Valor-p: 0.2918994
## De acordo com o teste de Shapiro-Wilk a 5% de significancia, os residuos podem ser considerados normais.
## ------------------------------------------------------------------------
##
## ------------------------------------------------------------------------
## Teste de homogeneidade de variancia
## valor-p: 0.5755238
## De acordo com o teste de levene a 5% de significancia, as variancias podem ser consideradas homogeneas.
## ------------------------------------------------------------------------
##
## De acordo com o teste F, as medias nao podem ser consideradas diferentes.
## ------------------------------------------------------------------------
## Niveis Medias
## 1 1 1.1125
## 2 2 0.9875
## 3 3 0.8875
## ------------------------------------------------------------------------
Grafico de medias com desvio padrao - Analises exploratorias.
fun = function(x) mean(x, na.rm=TRUE)
lineplot.CI(exemplo5$distancia, exemplo5$performace, type="p", xlab="Classes de Distancia",
ylab="Performace",
main="Performace para cada classe de Distancia",
ci.fun= function(x) c(fun(x)-sd(x), fun(x)+sd(x)))
Grafico de medias com intervalo de conficanca - Analises exploratorias.
qt(0.975, 21) #5% signific攼㸲ncia e 21 graus de liberdade
## [1] 2.079614
fun = function(x) mean(x, na.rm=TRUE)
lineplot.CI(exemplo5$distancia, exemplo5$performace, type="p", xlab="Classes de Distancia",
ylab="Performace",
main="Performace para cada classe de Distancia",
ci.fun= function(x) c(mean(x)-qt(0.975, 21)*se(x),
mean(x)+qt(0.975, 21)*se(x)))
O RH de uma grande empresa esta avaliando se a area de negocio (comercial-1 ou producao-2) pode estar associado com a performance dos funcionarios. Executou uma avaliacao para funcionarios. Verifique se essa associacao ocorre na populacao, ao n.s. 0,05.
H0 : Nao ha diferenca entre as areas de negocio na performace dos funcionarios.
H1 : Ha diferenca entre as areas de negocio na performace dos funcionarios.
performace <- c(1.3, 1.3, 0.7, 1.2, 1, 1.4, 1.3, 0.8, 1.5, 1,
1.3, 1, 0.8, 0.8, 1.1, 1.2, 1, 0.9, 1, 0.8,
1.3, 0.7, 1.1, 0.9, 0.6, 1.2, 0.6, 0.7, 0.7, 1)
setor <- c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2)
exercicio3 <- data.frame(performace, setor)
exercicio3$setor<-factor(exercicio3$setor)
Dados do exercicio3.
exercicio3
## performace setor
## 1 1.3 1
## 2 1.3 1
## 3 0.7 1
## 4 1.2 1
## 5 1.0 1
## 6 1.4 1
## 7 1.3 1
## 8 0.8 1
## 9 1.5 1
## 10 1.0 1
## 11 1.3 1
## 12 1.0 1
## 13 0.8 1
## 14 0.8 1
## 15 1.1 1
## 16 1.2 2
## 17 1.0 2
## 18 0.9 2
## 19 1.0 2
## 20 0.8 2
## 21 1.3 2
## 22 0.7 2
## 23 1.1 2
## 24 0.9 2
## 25 0.6 2
## 26 1.2 2
## 27 0.6 2
## 28 0.7 2
## 29 0.7 2
## 30 1.0 2
Resumo de dados - Analises exploratorias.
boxplot com pacote basico R
quadro de medias e desvio padrao
resumo.exercicio3 <- compmeans(exercicio3$performace, exercicio3$setor)
resumo.exercicio3 %>%
kable() %>%
kable_styling(bootstrap_options = "striped", full_width = T)
Média | N | Desv. Pd. | |
---|---|---|---|
1 | 1.1000000 | 15 | 0.2507133 |
2 | 0.9133333 | 15 | 0.2263583 |
Total | 1.0066667 | 30 | 0.2531639 |
media_1 <- mean(exercicio3$performace[exercicio3$setor=="1"])
media_2 <- mean(exercicio3$performace[exercicio3$setor=="2"])
diferenca <- media_1 - media_2
diferenca
## [1] 0.1866667
Sim, existe diferencas entre as medias do grupo 1 e grupo 2, esta diferenca e de 0.1866667.
resultado.exercicio3 <- t.test(exercicio3$performace~exercicio3$setor, alternative = "two.sided", conf.level=0.95)
p.value.exercicio3 <- resultado.exercicio3$p.value
chance.exercicio3 <- p.value.exercicio3*100
O valor-p foi de 0.0412751. Ou seja, se for afirmado que a performance populacional media difere entre as duas areas, a probabilidade de errar e de 4.1275103%.
resultado.exercicio3
##
## Welch Two Sample t-test
##
## data: exercicio3$performace by exercicio3$setor
## t = 2.1403, df = 27.713, p-value = 0.04128
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.007932589 0.365400744
## sample estimates:
## mean in group 1 mean in group 2
## 1.1000000 0.9133333
Conclusao: Ha evidencias de que a performance populacional media difere entre as duas areas (valor-p=0.0412751), sendo maior na area comercial do que na producao.
Uma amostra de alunos de uma instituicao de ensino foi analisada quanto ao numero de disciplinas evadidas e as notas obtidas no historico, com o objetivo de avaliar se existe correlacao entre essas variaveis.
Teste, ao n.s. 0,05, se ha correlacao linear entre essas variaveis para os alunos da instituicao.
H0 : nao ha correlacao linear entre a variavel A e variavel B.
H1 : ha correlacao linear entre a variavel A e variavel B.
Dados do exemplo6.
bd_evasao <- read_excel("C:/LEONARDO/Rpubs/bd_evasao.xlsx")
datatable(
bd_evasao, extensions = 'Buttons', options = list(
dom = 'Bfrtip',
buttons = c('copy', 'csv', 'excel', 'pdf', 'print')
)
)
Testar a correlacao linear entre a variavel numero de disciplinas evadidas e as notas obtidas no historico.
resultado.exemplo6 <- cor.test(bd_evasao$X6_num_disc_eva, bd_evasao$X5_notas_ant)
resultado.exemplo6
##
## Pearson's product-moment correlation
##
## data: bd_evasao$X6_num_disc_eva and bd_evasao$X5_notas_ant
## t = -9.0381, df = 368, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.5061675 -0.3389848
## sample estimates:
## cor
## -0.4262085
p.value.exemplo6 <- resultado.exemplo6$p.value
Conclusao: ha correlacao linear e inversa entre o numero de disciplinas evadidas e as notas obtidas no historico para os alunos dessa instituicao (valor-p 9.212804510^{-18}). Quanto menor as notas, maior o numero de disciplinas evadidas.
Uma amostra de alunos de uma instituicao de ensino foi analisada quanto ao numero de disciplinas evadidas e a idade desses alunos, com o objetivo de avaliar se existe correlacao entre essas variaveis.
Teste, ao n.s. 0,05, se ha correlacao linear entre essas variaveis para os alunos da instituicao.
H0 : nao ha correlacao linear entre a variavel A e variavel B.
H1 : ha correlacao linear entre a variavel A e variavel B.
Dados do exercicio4 = exemplo6.
bd_evasao
## # A tibble: 370 x 13
## X1_Curso X2_Disc X3_exig_mat X4_modal. X5_notas_ant X6_num_disc_eva
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Adminis~ Estrat~ 1 2 4.5 6
## 2 Gestão ~ Matemá~ 2 1 4.6 7
## 3 Gestão ~ Método~ 3 2 4.8 5
## 4 Gestão ~ Matemá~ 2 2 4.9 4
## 5 Gestão ~ Método~ 3 1 5.3 5
## 6 Gestão ~ Matemá~ 2 2 5.4 3
## 7 Gestão ~ Método~ 3 1 5.4 4
## 8 Engenha~ Método~ 3 1 5.5 0
## 9 Adminis~ Cálcul~ 3 1 5.5 2
## 10 Adminis~ Matemá~ 2 1 5.6 2
## # ... with 360 more rows, and 7 more variables: X7_men_atr <dbl>,
## # X8_sexo <chr>, X9_idade <dbl>, X10_dist <dbl>, X11_sem <dbl>,
## # X12_tam_turm <dbl>, Y_evasao <dbl>
Testar a correlacao linear entre a variavel numero de disciplinas evadidas e a idade dos alunos.
resultado.exercicio4 <- cor.test(bd_evasao$X6_num_disc_eva, bd_evasao$X9_idade)
resultado.exercicio4
##
## Pearson's product-moment correlation
##
## data: bd_evasao$X6_num_disc_eva and bd_evasao$X9_idade
## t = -1.0094, df = 368, p-value = 0.3135
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.15367445 0.04967604
## sample estimates:
## cor
## -0.05254388
coef.corr.exercicio4 <- resultado.exercicio4$estimate
O coeficiente de correlacao linear entre as duas variaveis e de -0.0525439, ou seja, na amostra, a relacao linear entre idade e numero de disciplinas evadidas e muito baixa.
p.value.exericio4 <- resultado.exercicio4$p.value
chance.exericio4 <- p.value.exericio4*100
O valor-p e de 0.3134648. Se for confirmada a relacao linear entre idade e numero de disciplinas evadidas para os alunos da instituicao, a chance de errar e de 31.3464844%.
Conclusao: Nao ha evidencias da relacao linear entre idade e numero de disciplinas evadidas para os alunos da instituicao (valor-p=0.3134648).