alt text

GET00130 - Métodos Computacionais para Estatística II

Jony Arrais Pinto Junior

Conteúdo da aula

  • Revisando estimativas intervalares;
  • Revisando teste de normalidade;
  • Revisando teste de hipóteses para a média de uma população normal.

1 - Situação problema

Suponha que possuímos dados referentes a vendas (em reais) de lojas do ramo de cosmético espalhadas por diversas cidades brasileiras.

Na base Vendas.txt possuímos os valores em reais das vendas no ano de 2019 e no ano de 2020.

Suponha que desejamos verificar algumas afirmações feitas sobre o faturamento das lojas desse ramo.

Atividade: Importe o arquivo Vendas.txt. Armazene em um objeto chamado vendas.

#Visualizando o objeto base
vendas
# A tibble: 40 × 3
   cod_loja venda_2019 venda_2020
      <dbl>      <dbl>      <dbl>
 1    21855    423788.    219291.
 2     6557    264952.    374985.
 3    36626    471043.    278816.
 4    41444    456317.    306773.
 5    38291    535190.    352761.
 6    12198    454965.    156069.
 7    28985    633645.    289427.
 8    30039    469543.    223042.
 9    21778    337227.    223832.
10     8700    468466.    307856.
# … with 30 more rows

Suponha que nosso objetivo inicial, seja verificar a afirmação de que o faturamento médio no ano de 2019 foi superior a 430.000,00 reais. Vamos realizar a análise mais completa possível.

#Avaliando o comportamento dos valores da variável venda em 2019
ggplot(data = vendas, 
       mapping = aes(y = venda_2019)) +
  geom_boxplot() +
  theme_minimal() +
  labs(y = "Venda (em reais)")

#Melhorando a escala do eixo y
ggplot(data = vendas, 
       mapping = aes(y = venda_2019)) +
  geom_boxplot() +
  theme_minimal() +
  labs(y = "Venda (em reais)") +
  scale_y_continuous(labels = scales::comma)

#Carregando pacote
library(ggpubr)

#Verificando normalidade dos dados
ggqqplot(data = vendas$venda_2019)

#Testando normalidade
shapiro.test(x = vendas$venda_2019)

    Shapiro-Wilk normality test

data:  vendas$venda_2019
W = 0.97669, p-value = 0.5684
#Obtendo uma estimativa pontual e uma intervalar
library(Publish)
ci.mean(x = vendas$venda_2019,
        alpha = 0.05)
 mean      CI-95%               
 457284.72 [423599.93;490969.52]
#Realizando o teste de hipóteses
t.test(x = vendas$venda_2019,
       mu = 430000,
       alternative = "greater")

    One Sample t-test

data:  vendas$venda_2019
t = 1.6384, df = 39, p-value = 0.05469
alternative hypothesis: true mean is greater than 430000
95 percent confidence interval:
 429225.7      Inf
sample estimates:
mean of x 
 457284.7 

Atividade: Verifique se o faturamento médio de 2020 é inferior a 275.000 reais. Faça a análise mais completa possível.

2 - Outra situação problema

Suponha que possuímos dados referentes a satisfação (notas de 0 a 100) de uma amostra de indivíduos que participaram de um curso, além de suas idades.

Na base Pessoas.rds possuímos os códigos dos indivíduos, a satisfação com o curso e a idade do mesmo.

Suponha que desejamos verificar algumas afirmações feitas.

Atividade: Importe o arquivo Pessoas.rds.

Atividade: Forneça uma estimativa intervalar para a satisfação média dos alunos do curso, com nível de confiança de 98%. Interprete o resultado.

Atividade: O dono do curso afirmou que a satisfação dos clientes era superior a 80 pontos. Você concorda com ele? Use um nível de significância de 5%.

Atividade: O dono do curso afirmou que sua clientela é composta em sua maioria de jovens, com idade média de no máximo 23 anos. Você concorda com ele? Use um nível de significância de 1%.