html_document: theme: united highlight: tango —

UFPR - CURSO DE ESTATÍSTICA

ESTATÍSTICA COMPUTACIONAL



Trabalho 2 - Distribuições de probabilidade e testes de hipótese



Alunos:
Luciano Ribeiro do Prado, GRR:20149146
Marcelo Alexandre Peixoto, GRR:20149109



Parte I: distribuições de probabilidade

Exercícios do livro Estatística Básica do Bussab e Moretin (5ª edição)

CAPITULO 6


31) Na manufatura de certo artigo, é sabido que um entre dez dos artigos é defeituoso. Qual a probabilidade de que uma amostra casual de tamanho contenha:**
  1. Nenhum defeituoso? Resposta:
## [1] 0.6561
  1. Exatamente um defeituoso?
    Resposta:
## [1] 0.2916
  1. Exatamente dois defeituosos? Resposta:
## [1] 0.0486
  1. Não mais do que dois defeituosos? Resposta:
## [1] 0.9963

32) Um fabricane de peças de automoveis garante que uma caixa de suas peças conterá, no máximo, duas defeituosas. Se a caixa contém 18 peças, e a experiência tem demonstrado que esse processo de fabricação produz 5% das peças defeituosas, qual a probabilidade de que uma caixa satisfaça a garantia? ***
Resposta:
## [1] 0.9418711

33) Um curso de treinamento aumenta a produtividade de uma certa população de funcionários em 80% dos casos. Se dez funcionários quaisquer participam desse curso, encontre a probabilidade de:***
a)Exatamente sete funcionários aumentam a produtividade;

Resposta:

## [1] 0.2013266
  1. Não mais do que oito funcionários aumentarem a produtividade; Resposta:
## [1] 0.6241904
  1. Pelo menos três funcionários não aumentarem a produtividade. Resposta:
## [1] 0.3222005

34) O número de petroleiros que chegam a uma refinaria em cada dia ocorre segundo uma distribuição de Poisson, com λ=2. As atuais instalações podem atender, no máximo, a três petroleiros por dia. Se mais de três aportarem nim dia, o excesso é enviado a outro porto.****
  1. Em um dia, qual a probabilidade de se enviar petroleiros para outro porto? Resposta:
## [1] 0.1428765
  1. De quanto deverão ser aumentadas as instalções para permitir atendera todos os navios que chegarem pelo menos em 95% dos dias? Resposta:
## [1] 2
  1. Qual o número medio de petroleiros que chegam por dia?
    Resposta:
## [1] "De acordo com o enúnciado 02 navios por dia"

35)Na tabela abaixo, X significa númeto de filhos homens em familias com 12 filhos. Calcule para cada valor da variável o número de familias que voce deveria esperar se X~b(12;0.5).

Você acha que o modelo binomial é razoavel para explicar o fenômeno? Resposta:

##       Nº de Filhos      Nªde familias obs.         Nº Esperado
##  [1,]            0                       6            2.609863
##  [2,]            1                      29           31.318359
##  [3,]            2                     160          172.250977
##  [4,]            3                     521          574.169922
##  [5,]            4                    1198         1291.882324
##  [6,]            5                    1921         2067.011719
##  [7,]            6                    2360         2411.513672
##  [8,]            7                    2033         2067.011719
##  [9,]            8                    1398         1291.882324
## [10,]            9                     799          574.169922
## [11,]           10                     298          172.250977
## [12,]           11                      60           31.318359
## [13,]           12                       7            2.609863

Conforme comparativo entre o número de filhos observado e o esperado pode-se concluir que o modelo binomial é aceitável para explicar este fenômeno.


36) Houve uma denúncia por parte dos operários de uma indústria de que toda vez que ocorria um acidente em uma seção da idustria, ocorriam outros em outras seções mais ou menos no mesmo horario. Em outras palavras, os acidentes nao estavam ocorrendo ao acaso. Para verificar essa hipotese foi feito uma contagem do número de acidenes por hora durante um certo número de dias (24 horas por dia). Os resultados da pesquisa foram apresentados no quadro.
##       Nº de acidentes por hora      Nª de horas.
##  [1,]                        0               200
##  [2,]                        1               152
##  [3,]                        2                60
##  [4,]                        3                30
##  [5,]                        4                13
##  [6,]                        5                 9
##  [7,]                        6                 7
##  [8,]                        7                 5
##  [9,]                        8                 4
  1. Calcule o número de acidentes por hora nessa amostra.
    Resposta
## [1] 1.183333
  1. se um número de acidentes por hora seguisse uma distribuição de Poisson, com média igual à que voce calculou, qual seria o numero esperado de dias com 0, 1, 2,…etc. acidentes?
##       X       P(X=x)    N º esperado   (Observado - Esperado)
##  [1,] 0      0.30728        147.4944                       53
##  [2,] 1      0.36259        174.0432                       22
##  [3,] 2      0.21393        102.6864                       43
##  [4,] 3      0.08414         40.3872                       10
##  [5,] 4      0.02482         11.9136                        1
##  [6,] 5      0.00586          2.8128                        6
##  [7,] 6      0.00115          0.5520                        6
##  [8,] 7      0.00019          0.0912                        5
##  [9,] 8      0.00003          0.0144                        4
  1. Os dados revelam que a suspeita dos operarios é verdadeira? Resposta

Os dados coletados nao apresentam uma distribuição que se caracterize como uma Função Poisson. Deduzimos portanto, que tal observação pode não ser a mais precisa.


38) Uma certa região florestal foi dividida em 109 quadrdados para estudar a distribuição de PRIMULA SEMENSES SELVAGEM. A priori. supomos que esse tipo distribua-se aleatoriamente na regial. O quadro abaixo indica o numero de quadrados com X PRIMULA SEMENSES SELVAGEM; o numero médio de plantas por quadrado foi de 2,2.
##       X plantas por quadrado Nº de quadrador com X plantas
##  [1,]                      0                            26
##  [2,]                      1                            21
##  [3,]                      2                            23
##  [4,]                      3                            14
##  [5,]                      4                            11
##  [6,]                      5                             4
##  [7,]                      6                             5
##  [8,]                      7                             4
##  [9,]                      8                             1
## [10,]                      9                             0
  1. Se as plantas realmente se distribuem aleatoriamente na região, qual a probabilidade de encontrarmos pelo menos duas PRIMULAS?
    Resposta
## [1] 0.6246824
  1. Dê as frequencias esperadas para os valores de X=0, X=1 e X=2. Resposta
##      X plantas por quadrado Quadrados Freq esperada
## [1,]                      0        26      12.16651
## [2,]                      1        21      26.67703
## [3,]                      2        23      29.24684
  1. Apenas comparando os resultados de (b) com as frequencias observadas, qual a conclusão a que voce chegaria?
    Resposta

Comparando o item b com a C conclue-se que a distribução real não é aleatório.

  1. Quais as causas que voce daria para a conclusão?
    Resposta

É provável que a variável não seja aleatória, de forma que a proximidade de outras plantas faz com que a probabilidade mude, além também variações referente a fatores da natureza como qualidade do terreno, irrigação, iluminação, pragas ou ainda outros agentes não declarados no enunciado.

 ***  
#####40) Um industrial fabrica peças, das quais 1/5 sao defeituosas. Dois compradores A e B classificaram as partidas adquiridas em categorias I e II, pagando RS1,20 2 RS0,80 respectivamente do seguinte modo:
Comprador A: retira uma amostra de dez peças; se encontrar mais que uma defeituosa classifica com II. 
Comprador B: retira amostra de dez peças; se encontrar mais que duas defeituosas classifica como II.
Em media qual comprador oferece mais lucro?

O preço médio que o **Comprador1** pagará por peça é de:

[1] 1.094912

O preço médio que o **Comprador2** pagará por peça é de:

[1] 1.07112

Sendo assim, em média o **Comprador1** oferece mais lucro  





***
**CAPITULO 7**    

 ***  
#####28) Numa determinada localidade, a distribuição de renda (em reais) é uma v.a. X com f.d.p.

$\int \left(x\right)=\left\{\left(\frac{1}{10}x+\frac{1}{10}\:=\:0\:\le \:\:\:\:\:\:\:x\le \:\:\:\:\:\:2\right)\:ou\:\:\left(-\frac{3}{40}x+\frac{9}{20}=\:2<\:\:\:\:x\le \:\:\:\:\:\:\:6\right)\:ou\:\left(0\:=\:x<\:0\:\:ou\:\:x\:>\:\:\:\:6\right)\right\}$

0.4 with absolute error < 4.4e-15

0.6 with absolute error < 6.7e-15

[1] 1


a) Qual a renda média nessa localidade?

[1] 2.46667



b) Escolhida uma pessoa ao acaso, qual a probabilidade de sua renda ser superior a RS3.000,00?

0.3375 with absolute error < 3.7e-15

c) Qual a mediana da variável?

*integrate(f2, lower=Q2, upper=6)=0.5 -->*

*[(-108/80) + (54/20) + (3Q2/80) + (-9Q2/20)]=0.5*

*--> Segundo quartil Q2=2.06=Mediana da função*


 ***  
#####33) As notas de Estatistica Econômica dos alinos de determinada universidade distribuem-se de acordo com uma distribuição normal, com média 6,4 e desvio padrao 0,8. O professor atribui graus A,B e C da seguinte forma:

Nota Grau

[1,] " x<5" " C"

[2,] " 5≤x<7.5" " B"

[3,] " 7.5≤x≤1" " A"

Numa clase de 80 alunos, qual o número esperado de alunos com grau A?
E com grau B? E com grau C?    
Reposta    

Grau Notas

1 A 6.764986

2 B 70.030010

3 C 3.204733

 ***  
#####34) O peso bruto de latas de conserva é uma v.a. normal, com média 1.000g e desvio padrão 20g.

a) Qual a probabilidade de uma lata pesar menos de 980g?    
Reposta    

[1] 0.1586553

b) Qual a probabilidade de uma lata pesar mais de 1.010g?    
Reposta    

[1] 0.3085375

 ***  
##### 35) A distribuição dos pesos de coelhos criados numa granja pode muito bem se representada por uma distribuição normal com media de 5kg e desvio padrão de 0.8kg. Um abatedouro comprará 5.000 coelhos e pretende classificá-los de acordo com o peso do seguinte modo:   
20% dos leves como pequenos, os 55% seguintes como médios, os 15% seguintes como grandes e os 10% mais pesados como extras. Quais os limites de peso para cada classe?    
Resposta  
Extras

[1] 3.974759

Grandes

[1] 4.170853

Médios

[1] 5.100529

Pequenos

[1] 4.326703


***  
#####36) Uma enchedora automática de garrafas de refigerantes está regulada para que o volume médio de liquido de cada garrafa seja de 1.000cm cúbicos, e o desvio padrao de 10cm cúbicos. 
Pode-se admitir que a variável volume seja normal.   

a) Qual a porcentagem de garrafas em que o volume é menor que 990cm cúbicos?    
Resposta    

[1] 0.1586553

b) Qual a porcentagem das garrafas em que o volume líquido não se desvia da média em mais de dois desvios padrões?   
Reposta    

[1] 0.9544997

c) O que a contecerá com a porcentagem do intem (b) se a máquina for regulada de forma que a méda seja 1.200cm cúbicos e o desvio padrão 20cm cúbicos?   
Reposta  

[1] 0.9544997

A distribuição normal mantem a relacão inalterada. E a proporção continua a mesma.







***
**CAPITULO 9**    

 ***  
#####23) Usando um aplicativo estatístico gere:

a) 100 valores de uma N(5;0,9) e faça histogramas dos valores gerados.  
Reposta  
<img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-35-1.png" title="" alt="" width="672" /><img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-35-2.png" title="" alt="" width="672" />
b) 200 valores de uma Exp(1/2) e faça o histograma dos valores gerados.  
Reposta  
<img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-36-1.png" title="" alt="" width="672" /><img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-36-2.png" title="" alt="" width="672" />
c) 500 valores de uma Gama(α,ß), com $\alpha =\beta =2$, e faça um histrograma.  
Reposta  
<img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-37-1.png" title="" alt="" width="672" /><img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-37-2.png" title="" alt="" width="672" />
d) 300 valores de uma  $\chi ^2$(32) e faça o histograma.  
Reposta  
<img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-38-1.png" title="" alt="" width="672" /><img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-38-2.png" title="" alt="" width="672" />
 Os histogramas que você obteve estão de acordo com as definicoes dadas dessas distribuição? Comente.  
Reposta  

A analise dos histograma obtidos, demonstra que esta de acordo com o esperado.

 ***  
#####24) Usando um pacote, gere:
a) 300 valores de uma distribuição t(120).
Reposta  
<img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-39-1.png" title="" alt="" width="672" /><img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-39-2.png" title="" alt="" width="672" />
b) 500 valores de uma distribuição F(56,38).
Reposta  
<img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-40-1.png" title="" alt="" width="672" /><img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-40-2.png" title="" alt="" width="672" />
c) 300 valores de uma distribuição B(20,30).
Reposta  
<img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-41-1.png" title="" alt="" width="672" /><img src="./Segundo_Trabalho_files/figure-html/unnamed-chunk-41-2.png" title="" alt="" width="672" />

 Faça um histograma dos valores simulados em cada cas e responda a mesma pergunta do problema anterior.
 
 Aqui também os histogramas apresentam um comportamento de acordo com o esperado.
 
 ***    
####Parte II: Teste De Hipótese
***    


##Parte II: distribuições de probabilidade

####Teste t para a média de uma v.a. normal
Fonte de Dados: Portal Action  
Base1

[1] 18.800 17.591 20.835 19.169 18.755 20.504 18.756 17.527 19.290 19.203

[11] 18.621 18.977 17.078 22.059 18.419 19.919 20.308 17.620 18.585 20.764

[21] 21.117 18.899 21.426 17.890 21.055


Teste T

One Sample t-test

data: b1

t = 70.9352, df = 24, p-value < 2.2e-16

alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:

18.76436 19.88900

sample estimates:

mean of x

19.32668


####Teste t para a diferença de médias entre duas v.a. normais por amostras independentes;
Fonte de Dados: Portal Action  

Base1

[1] 18.800 17.591 20.835 19.169 18.755 20.504 18.756 17.527 19.290 19.203

[11] 18.621 18.977 17.078 22.059 18.419 19.919 20.308 17.620 18.585 20.764

[21] 21.117 18.899 21.426 17.890 21.055


Base2

[1] 22.284 22.057 22.629 24.620 21.491 21.198 21.901 22.881 22.860 22.058

[11] 22.699 22.909 25.302 17.968 24.515 23.150 24.662 23.327 22.447 23.382

[21] 22.426 22.787 21.983 24.534 22.771 21.043 21.203 24.009 21.917 21.152

Teste T

Welch Two Sample t-test

data: b1 and b2

t = -8.6651, df = 52.095, p-value = 1.132e-11

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-4.038088 -2.519552

sample estimates:

mean of x mean of y

19.32668 22.60550


####Teste t para a diferença de médias entre duas v.a. normais por amostras pareadas;
Com base na item anterior e deixando ambas as base com mesmo tamanho de amostra temos:

Paired t-test

data: b1 and b2

t = -7.0839, df = 24, p-value = 2.532e-07

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-4.425409 -2.428511

sample estimates:

mean of the differences

-3.42696

  
####Teste exato para proporção de uma v.a. binomial;  
Fonte: Portal Action:

Exemplo 5.3.3.1: Um industrial afirma que seu processo de fabricação produz $ 90\% $ de peças dentro das especificações. Deseja-se investigar se este processo de fabricação ainda está sob controle. Uma amostra de $ 15 $ peças foi analisada e foram constatadas $ 10 $ peças dentro das especificações. Ao nível de $ 5\% $ de significância, podemos dizer ser verdadeira essa afirmação?

Exact binomial test

data: 10 and 15

number of successes = 10, number of trials = 15, p-value = 0.01272

alternative hypothesis: true probability of success is not equal to 0.9

95 percent confidence interval:

0.3838037 0.8817589

sample estimates:

probability of success

0.6666667


####Teste aproximando pela normal para proporção de uma v.a. binomial
Fonte: Portal Action:

Exemplo 5.3.1.1: Um fabricante garante que $ 90\% $ das peças que fornece à linha de produção de uma determinada fábrica estão de acordo com as especificações exigidas. A análise de uma amostra de $ 200 $ peças revelou $ 25 $ defeituosas. A um nível de $ 5\% $, podemos dizer que é verdadeira a afirmação do fabricante?

1-sample proportions test with continuity correction

data: 25 out of 200, null probability 0.1

X-squared = 1.125, df = 1, p-value = 0.2888

alternative hypothesis: true p is not equal to 0.1

95 percent confidence interval:

0.08404696 0.18084162

sample estimates:

p

0.125


####Teste para a diferença de proporções de duas ou mais v.a. binomiais;
Fonte: Portal Action:

Exemplo 5.9.1: Uma empresa que presta serviços de assessoria econômica a outras empresas está interessada em comparar a taxa de reclamações sobre os seus serviços em dois dos seus escritórios em duas cidades diferentes. Suponha que a empresa tenha selecionado aleatoriamente $ 100 $ serviços realizados pelo escritório da cidade $ A $ e foi constatado que em $ 12 $ deles houve algum tipo de reclamação. Já do escritório da cidade B foram selecionados $ 120 $ serviços e $ 18 $ receberam algum tipo de reclamação. A empresa deseja saber se estes resultados são suficientes para se concluir que os dois escritórios apresentam diferençaa significativa entre suas taxas de reclamações.

2-sample test for equality of proportions without continuity

correction

data: c(12, 18) out of c(100, 120)

X-squared = 0.4168, df = 1, p-value = 0.5185

alternative hypothesis: two.sided

95 percent confidence interval:

-0.12021159 0.06021159

sample estimates:

prop 1 prop 2

0.12 0.15



####Teste do sinal para a mediana de uma v.a.;

####Teste de Wilcox para a diferença de médias de duas v.a. por amostras independentes;
Fonte: Portal Action

Exemplo 3.1: Consideremos duas amostras dependentes cujos dados estão na Tabela abaixo. Existem evidências de diferença entre as duas amostras?

Amostra 1  564  521 495 564 560 481 545 478 580 484 539 467  
Amostra 2   557 505 465 562 545 448 531 458 562 485 520 445  
Diferença   7   16  30  2   15  33  14  20  18  -1  19  22

Amostra1

[1] 564 521 495 564 560 481 545 478 580 484 539 467


Amostra2

[1] 557 505 465 562 545 448 531 458 562 485 520 445

Teste Wilcox

Warning in wilcox.test.default(Amostra1, Amostra2): cannot compute exact

p-value with ties

Wilcoxon rank sum test with continuity correction

data: Amostra1 and Amostra2

W = 90.5, p-value = 0.2984

alternative hypothesis: true location shift is not equal to 0


####Teste de Wilcox para a diferença de médias de duas v.a. por amostras pareadas;

Usando o exemplo anterior, porém parando as amostras

Wilcoxon signed rank test

data: Amostra1 and Amostra2

V = 77, p-value = 0.0009766

alternative hypothesis: true location shift is not equal to 0


###* Em medidas de dispersão:  
Bases usadas (Fonte: Portal Action)  
Base1

[1] 18.800 17.591 20.835 19.169 18.755 20.504 18.756 17.527 19.290 19.203

[11] 18.621 18.977 17.078 22.059 18.419 19.919 20.308 17.620 18.585 20.764

[21] 21.117 18.899 21.426 17.890 21.055


Base2

[1] 22.284 22.057 22.629 24.620 21.491 21.198 21.901 22.881 22.860 22.058

[11] 22.699 22.909 25.302 17.968 24.515 23.150 24.662 23.327 22.447 23.382

[21] 22.426 22.787 21.983 24.534 22.771 21.043 21.203 24.009 21.917 21.152


#####Teste F para a igualdade de variâncias entre duas v.a. normais;
Teste em B1 e B2

F test to compare two variances

data: b1 and b2

F = 0.8972, num df = 24, denom df = 29, p-value = 0.7929

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.4165178 1.9894496

sample estimates:

ratio of variances

0.8971819

``` #####Teste de Mood para a igualdade de variâncias entre duas v.a. normais Teste em B1 e B2 mood.test(b1, b2)

Teste de Ansari para a igualdade de variâncias entre duas v.a. normais

Teste em B1 e B2

ansari.test(b1, b2)
## 
##  Ansari-Bradley test
## 
## data:  b1 and b2
## AB = 343, p-value = 0.6663
## alternative hypothesis: true ratio of scales is not equal to 1

* Aderência:

Trecho extraído de http://www2.ufersa.edu.br/portal/view/uploads/setores/215/ApostilaEEAR_Cap1-1.pdf

“Para exemplificar os diagnósticos e testes de normalidade, considere os dados apresentados a seguir - pesos y1 e y2 referentes a duas espécies animais(E1 e E2).” Aqui chamaremos E1 por Especie A e E2 por Especie B.

##       Especie A  Especie B
##  [1,]       72.5      72.0
##  [2,]       70.0      69.9
##  [3,]       69.0      69.1
##  [4,]       69.0      37.0
##  [5,]       67.1      75.0
##  [6,]       69.9      71.1
##  [7,]       75.0      70.9
##  [8,]       71.0      71.9
##  [9,]       70.1      71.0
## [10,]       70.8      73.0
## [11,]       72.0      72.9
## [12,]       71.0      68.2
## [13,]       71.2      68.9
## [14,]       73.0      70.0
## [15,]       74.0      70.0
## [16,]       73.0      71.1
## [17,]       68.0      74.0
## [18,]       72.0      72.0

Teste chi-quadrado para aderência de uma distribuição à uma v.a.;

Teste em Especie A

## 
##  Chi-squared test for given probabilities
## 
## data:  y1
## X-squared = 1.0212, df = 17, p-value = 1

Teste de Shapiro-Wilk para a normalidade de uma v.a.;

Teste em Especie A

shapiro.test(y1)
## 
##  Shapiro-Wilk normality test
## 
## data:  y1
## W = 0.9901, p-value = 0.9988

Teste de Kolmogorov-Smirnov para a aderência de uma distribuição à uma v.a.;

Teste em Especia A e Especie B

## Warning in ks.test(y1, y2): cannot compute exact p-value with ties
## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  y1 and y2
## D = 0.0556, p-value = 1
## alternative hypothesis: two-sided

*Associação:

Teste de correlação de Pearson entre duas v.a. normais;

Teste em Especia A e Especie B

cor(y1, y2)
## [1] 0.1639525

Teste de correlação de Spearman entre duas v.a.;

Teste em Especia A e Especie B

cor(y1,y2,method="spearman")
## [1] -0.1082341

Teste chi-quadrado para independência de duas v.a. em tabelas de contingência

Base Utilizada http://www.de.ufpb.br/~luiz/AED/Aula10.pdf

##      Estado              Consumidor Produtor Escola Outras Total 
## [1,] "São Paulo"         "214"      "237"    "78"   "119"  "648" 
## [2,] "Paraná"            "51"       "102"    "126"  "22"   "301" 
## [3,] "Rio Grande Do Sul" "111"      "304"    "139"  "48"   "602" 
## [4,] "Total"             "376"      "643"    "343"  "189"  "1551"
## Warning in chisq.test(e, c, p, e2, o): Chi-squared approximation may be
## incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  e and c
## X-squared = 12, df = 9, p-value = 0.2133