GET00130 - Métodos Computacionais para Estatística II
Conteúdo da aula
- Revisando estimativas intervalares;
- Revisando teste de normalidade;
- Revisando teste de hipóteses para a média de uma população normal.
1 - Situação problema
Suponha que possuímos dados referentes a vendas (em reais) de lojas do ramo de cosmético espalhadas por diversas cidades brasileiras.
Na base Vendas.txt possuímos os valores em reais das vendas no ano de 2019 e no ano de 2020.
Suponha que desejamos verificar algumas afirmações feitas sobre o faturamento das lojas desse ramo.
Atividade: Importe o arquivo Vendas.txt. Armazene em um objeto chamado vendas.
#Visualizando o objeto base
vendas# A tibble: 40 × 3
cod_loja venda_2019 venda_2020
<dbl> <dbl> <dbl>
1 21855 423788. 219291.
2 6557 264952. 374985.
3 36626 471043. 278816.
4 41444 456317. 306773.
5 38291 535190. 352761.
6 12198 454965. 156069.
7 28985 633645. 289427.
8 30039 469543. 223042.
9 21778 337227. 223832.
10 8700 468466. 307856.
# … with 30 more rows
Suponha que nosso objetivo inicial, seja verificar a afirmação de que o faturamento médio no ano de 2019 foi superior a 430.000,00 reais. Vamos realizar a análise mais completa possível.
#Avaliando o comportamento dos valores da variável venda em 2019
ggplot(data = vendas,
mapping = aes(y = venda_2019)) +
geom_boxplot() +
theme_minimal() +
labs(y = "Venda (em reais)")#Melhorando a escala do eixo y
ggplot(data = vendas,
mapping = aes(y = venda_2019)) +
geom_boxplot() +
theme_minimal() +
labs(y = "Venda (em reais)") +
scale_y_continuous(labels = scales::comma)#Carregando pacote
library(ggpubr)
#Verificando normalidade dos dados
ggqqplot(data = vendas$venda_2019)#Testando normalidade
shapiro.test(x = vendas$venda_2019)
Shapiro-Wilk normality test
data: vendas$venda_2019
W = 0.97669, p-value = 0.5684
#Obtendo uma estimativa pontual e uma intervalar
library(Publish)
ci.mean(x = vendas$venda_2019,
alpha = 0.05) mean CI-95%
457284.72 [423599.93;490969.52]
#Realizando o teste de hipóteses
t.test(x = vendas$venda_2019,
mu = 430000,
alternative = "greater")
One Sample t-test
data: vendas$venda_2019
t = 1.6384, df = 39, p-value = 0.05469
alternative hypothesis: true mean is greater than 430000
95 percent confidence interval:
429225.7 Inf
sample estimates:
mean of x
457284.7
Atividade: Verifique se o faturamento médio de 2020 é inferior a 275.000 reais. Faça a análise mais completa possível.
2 - Outra situação problema
Suponha que possuímos dados referentes a satisfação (notas de 0 a 100) de uma amostra de indivíduos que participaram de um curso, além de suas idades.
Na base Pessoas.rds possuímos os códigos dos indivíduos, a satisfação com o curso e a idade do mesmo.
Suponha que desejamos verificar algumas afirmações feitas.
Atividade: Importe o arquivo Pessoas.rds.
Atividade: Forneça uma estimativa intervalar para a satisfação média dos alunos do curso, com nível de confiança de 98%. Interprete o resultado.
Atividade: O dono do curso afirmou que a satisfação dos clientes era superior a 80 pontos. Você concorda com ele? Use um nível de significância de 5%.
Atividade: O dono do curso afirmou que sua clientela é composta em sua maioria de jovens, com idade média de no máximo 23 anos. Você concorda com ele? Use um nível de significância de 1%.