Estatística Não Paramétrica

Author

Paulo Manoel da Silva Junior

Lista de Exercícios - Número 1

Resolução da lista de exercícios de Estatística não-paramétrica período 2022.2 da Universidade Federal da Paraíba.

Questão 1

  • Em uma campanha de segurança, de 16 carros inspecionados 6 foram considerados inseguros. Testar a hipótese de que no máximo 10% dos carros na população são inseguros. Efetue o teste determinando uma região crítica apropriada e o correspondente nível de significância de tal forma que este seja no máximo 5%. Calcule o p-valor.
rm(list=ls(all=T))
binom.test(6,16,p=0.1,alternative = "greater", conf.level = 0.95)

    Exact binomial test

data:  6 and 16
number of successes = 6, number of trials = 16, p-value = 0.003297
alternative hypothesis: true probability of success is greater than 0.1
95 percent confidence interval:
 0.1777659 1.0000000
sample estimates:
probability of success 
                 0.375 

Resposta: Conforme é observado o resultado do p-valor que foi de 0.0033 Rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança mais que 10% dos carros são inseguros.

Questão 2

  • Em uma população de manufaturados suponha que a proporção p de itens produzidos com defeito é desconhecida e queremos testar as hipóteses \(H_0 : p = 0.2\) contra \(H_1 : p \neq 0.2\). Uma amostra aleatória de 20 itens é obtida desta população e a regra de decisão consiste em rejeitar \(H_0\) se o número de itens defeituosos na amostra for menor ou igual a 1 ou maior ou igual a 8

    1. Qual o nível de significância do teste?

Logo, temos que:

\[\alpha = [P(X \leq 1) + P(X \geq 8)]\] \[ \alpha = 1 - P(1 < X < 8) \]

alpha = 1-(choose(20,2)*0.2^2*0.8^18+choose(20,3)*0.2^3*0.8^17 + choose(20,4)*0.2^4*0.8^16 + choose(20,5)*0.2^5*0.8^15 + choose(20,6)*0.2^6*0.8^14 + choose(20,7)*0.2^7*0.8^13)

Resposta: Temos que o resultado do nível de significância é de: 0.1013.

    1. Calcule o nível descritivo do teste (p-valor) supondo que o número observado de itens defeituosos foi 9. Compare o p-valor com o valor verdadeiro de \(\alpha\). Qual a conclusão?
binom.test(9,20, p = 0.2, alternative = "two.sided", conf.level = 0.95)

    Exact binomial test

data:  9 and 20
number of successes = 9, number of trials = 20, p-value = 0.009982
alternative hypothesis: true probability of success is not equal to 0.2
95 percent confidence interval:
 0.2305779 0.6847219
sample estimates:
probability of success 
                  0.45 

Resposta: De acordo com o resultado do teste, rejeitamos \(H_0\) a um nível de confiança de 95% com base na amostra, ou seja, a verdadeira proporção de itens defeituosos é diferente de 20%.

Questão 3

  • Deseja-se testar se a mediana de determinada população é diferente de 3.5. Considere, para efetuar o teste, amostra aleatória de 11 medições a seguir e tome uma decisão para \(\alpha\) = 5%.

\[1.80 \quad 2.25 \quad 2.50 \quad 2.70 \quad 2.75 \quad 3.00 \quad 3.10 \quad 3. 25 \quad 3.30 \quad 3.55 \quad 5.65\] Definindo as hipóteses:

\[H_0: \tilde{\mu} = 3.5\]

\[H_1: \tilde{\mu} \neq 3.5\]

x <- c(1.80,2.25,2.50,2.70,2.75,3.00,3.10,3.25,3.30,3.55,5.65)
wilcox.test(x, mu = 3.5, conf.level = 0.95)

    Wilcoxon signed rank exact test

data:  x
V = 12, p-value = 0.06738
alternative hypothesis: true location is not equal to 3.5

Resposta: Como podemos observar através do resultado do p-valor, que foi de 0.0674 ao nível de confinaça de 95% e com base na amostra de que não rejeitamos \(H_0\), ou seja, o valor da mediana da população é de 3.5.

Questão 4

  • Pesquisadores desejam saber se o QI mediano de usuários de drogas com 16 anos ou mais difere de 107. Use, para efetuar o teste, \(\alpha\) = 5% e a seguinte amostra aleatória do QI de 15 pessoas da população de interesse:

\[99 \quad 100 \quad 90 \quad 94 \quad 135 \quad 108 \quad 107 \quad 111 \quad 119 \quad 104 \quad 127 \quad 109 \quad 117 \quad 105 \quad 125\]

Definindo as hipóteses:

\[H_0: \tilde{\mu} = 107\]

\[H_1: \tilde{\mu} \neq 107\]

y <- c(99, 100, 90, 94, 135, 108, 107, 111, 119, 104, 127, 109, 117, 105, 125)
wilcox.test(y, mu = 107, alternative = "two.sided", conf.level = 0.95)

    Wilcoxon signed rank test with continuity correction

data:  y
V = 64.5, p-value = 0.4702
alternative hypothesis: true location is not equal to 107

Resposta: Como podemos observar através do resultado do p-valor que foi de 0.47, com 95% de confiança e com base na amostra não rejeitamos \(H_0\), ou seja, a mediana do QI de usuários de drogas de 16 anos é igual a 107.

Questão 5

  • Uma máquina de lavar roupas é vendida em cinco cores: Branco, Bege, Vermelho, Azul e Castanho. Num estudo de mercado para apreciar a popularidade das várias cores, analisou-se uma amostra aleatória de 200 vendas recentes com o seguinte resultado:
Cor Branco Bege Vermelho Azul Castanho Total
\(O_i\) 58 44 34 38 26 200
  • Teste, ao nível de 1% de significância, que os consumidores não manifestam tendência para preferir qualquer das cores

  • Definindo as hipóteses:

\[p = \frac{1}{5}\] \[p \neq \frac{1}{5}\]

observados <- c(58,44,34,38,26)
esperado <- c(rep(0.20,5))
chisq.test(observados, p = esperado)

    Chi-squared test for given probabilities

data:  observados
X-squared = 14.4, df = 4, p-value = 0.006122

Resposta: De acordo com o resultado do p-valor que foi de 0.0061, sendo menor do que o \(\alpha\), temos a seguinte conclusão ao nível de significância de 1% rejeitamos \(H_0\), ou seja, com 99% de confiança e com base na amostra podemos concluir que existe preferência na escolha da cor da máquina de lavar.

Questão 6

  • Uma grande loja de um centro comercial está dividida em cinco departamentos. O administrador desta loja deseja averiguar se a proporção de visitantes em cada um dos cinco departamentos é a mesma. Para isso, coletou uma amostra aleatória de 1000 visitantes e obteve os seguintes resultados:
Setor A B C D E Total
\(O_i\) 214 231 182 154 219 1000
  • Teste, ao nível de 1% de significância, se a proporção de visitantes em cada um dos cinco departamentos da loja é a mesma.

  • Definindo as hipóteses

\[p = \frac{1}{5}\] \[p \neq \frac{1}{5}\]

observados1 <- c(214,231,182,154,219)
chisq.test(observados1, p = esperado)

    Chi-squared test for given probabilities

data:  observados1
X-squared = 19.79, df = 4, p-value = 0.0005494

Resposta: De acordo com o resultado do p-valor que foi de 5^{-4}, sendo menor do que o \(\alpha\), temos a seguinte conclusão ao nível de significância de 1% rejeitamos \(H_0\), ou seja, com 99% de confiança e com base na amostra podemos concluir que existe preferência para visita de cada um dos setores na loja.

Questão 7

  • Verificar, ao nível \(\alpha = 0.05\), se os dados abaixo se distribuem segundo uma distribuição de Poisson com parâmetro \(\lambda = 3\).
\(X_i\) 0 1 2 3 4 5 6 7 Total
\(O_i\) 7 14 18 23 22 9 3 4 100
  • Definindo as hipóteses:

\[H_0: X \sim Poisson(3)\]

\[H_1: X \hspace{0.1cm} não \hspace{0.1cm} segue \hspace{0.1cm} uma \hspace{0.1cm} distribuição \hspace{0.1cm} Poisson \hspace{0.1cm} (3)\]

erros <- 0:7
f <- c(7,14,18,23,22,9,3,4)
cat("\n n =", n <- sum(f))

 n = 100
lambda0 <- 3
prob0 <- dpois(erros, lambda = lambda0)

Adicionando a probabilidade de ser maior do que 7.

f0 <- c(f, 0)
prob0 <- c(prob0, 1 - sum(prob0))

Calculando as frequências esperadas sob \(H_0\)

print(n * prob0, digits = 3)
[1]  4.98 14.94 22.40 22.40 16.80 10.08  5.04  2.16  1.19

Realizando agora o teste qui-quadrado de bondade do ajuste

chisq.test(f0, p = prob0, simulate.p.value = TRUE, B = 5000)

    Chi-squared test for given probabilities with simulated p-value (based
    on 5000 replicates)

data:  f0
X-squared = 7.0675, df = NA, p-value = 0.5139

Resposta: Fazendo várias simulações, e o teste para saber se tem os dados pertencem a distribuição poisson com parâmetro 3, temos que com base no resultado do p-valor, que foi de 0.511 que é maior do que o nível de significância de 5%, então não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança os dados seguem uma distribuição Poisson com lambda igual a 3.

Questão 8

  • Verificar, ao nível \(\alpha = 0.05\), se os dados abaixo se distribuem segundo uma distribuição normal:

\[12.0 \quad 10.5 \quad 13.1 \quad 11.9 \quad 10.4 \quad 12.8 \quad 11.2 \quad 11.4 \quad 12.2 \quad 11.9\]

  • Definindo as hipóteses:

\[H_0: F(X)= Normal (\mu, \sigma^2)\]

\[H_1: F(X) \neq Normal (\mu, \sigma^2)\]

dados <- c(12,10.5,13.1,11.9,10.4,12.8,11.2,11.4,12.2,11.9)
nortest::pearson.test(dados)

    Pearson chi-square normality test

data:  dados
P = 2, p-value = 0.5724

Resposta: Como resultado do teste, obtivemos que não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança de acordo com o resultado do p-valor que foi de 0.5724, ou seja, com base na amostra e com 95 % de confiança os dados pertencem a uma distribuição normal.

Questão 9

  • Testar, ao nível \(\alpha = 0.05\), se há aleatoriedade nos seguintes valores observados:

\[12.4 \quad 14.2 \quad 11.7 \quad 14.0 \quad 12.7 \quad 15.7 \quad 12.8 \quad 14.1 \quad 17.9 \quad 18.4 \quad 17.5 \quad 20.2 \quad 20.8 \quad 20.3\]

  • Definindo as hipóteses:

\[H_0: A \hspace{0.1cm} amostra \hspace{0.1cm} é \hspace{0.1cm} aleatória\]

\[H_1: A \hspace{0.1cm} amostra \hspace{0.1cm} não \hspace{0.1cm} é \hspace{0.1cm} aleatória\]

dados1 <- c(12.4,14.2,11.7,14.0,12.7,15.7,12.8,14.1,17.9,18.4,17.5,20.2,20.8,20.3)
sinais <- ifelse(dados1<median(dados1),1,-1)
randtests::runs.test(sinais)

    Runs Test

data:  sinais
statistic = -2.2254, runs = 4, n1 = 7, n2 = 7, n = 14, p-value =
0.02605
alternative hypothesis: nonrandomness

Resposta: De acordo com o teste dos sinais a um nível de significância de 5% e com base na amostra rejeitamos \(H_0\), ou seja, os dados são não aleatórios.

Questão 10

  • Testar, usando um nível de 5% de significãncia, se a seguinte sequência de sinais
  • e − é aleatória:

\[+ + − − + + − − − − + + + − − − − + + − − −\]

  • Definindo as hipóteses:

\[H_0: A \hspace{0.1cm} amostra \hspace{0.1cm} é \hspace{0.1cm} aleatória\]

\[H_1: A \hspace{0.1cm} amostra \hspace{0.1cm} não \hspace{0.1cm} é \hspace{0.1cm} aleatória\]

dados2 <- c(1,1,-1,-1,1,1,-1,-1,-1,-1,1,1,1,-1,-1,-1,-1,1,1,-1,-1,-1)
randtests::bartels.rank.test(dados2)

    Bartels Ratio Test

data:  dados2
statistic = -1.6597, n = 22, p-value = 0.09697
alternative hypothesis: nonrandomness

Resposta: Como podemos observar de acordo com o teste, com base na amostra e com 95% de confiança não rejeitamos \(H_0\), ou seja, com base na amostra e com 95% de confiança a amostra é aleatória.