Inferência Estatística
Conteúdo programático
- Teoria:
- Conceitos importantes, tipos de amostragem e tipos de Amostragens Probabilísticas;
- Tipos de Amostragens Probabilísticas e Vantagens e Desvantagens das mesmas;
- Tipos de Amostragens Não Probabilísticas;
- Tipos de Estimação, Conceitos básicos e Propriedades desejáveis de um bom estimador;
- Métodos de Estimação, estimadores mais importantes e vantagens e desvantagens;
- O que é o Teorema central do limite?
- O que é o Intervalo de Confiança?
- Conceitos Básicos e Valores Importantes
- Quantis da Normal Padrão (Z) Importantes
- Tipos de Intervalos de Confiança (IC)
- IC para Média com Sigma Conhecido
- IC para Média com Sigma Desconhecido e (n>=30)
- IC para Proporção
- Tamanho da amostra para Estimar 𝝁
- Tamanho da amostra para Estimar P (com P Conhecido)
- Tamanho da amostra para Estimar P (com P Desconhecido)
- Conceitos Básicos e Valores Importantes de Teste de Hipóteses/Testes A/B
- Tipos de Testes de Hipóteses
- Testes de Hipóteses Bilateral
- Testes de Hipóteses Unilaterais
- Testes de Hipóteses para médias e proporções
- Métodos para testar hipóteses (IC/RC/P-VALOR)
- Prática:
Aula Prática Geral - R - Noções de Amostragem e Estimação
Aula Inferência - R - Intervalo de confiança
Aula Inferência - R - Teste de Hipóteses
="/Users/teste/Desktop/Videos Aulas de Estatistica e R/IC, Tamanho de amostra e teste de Hipoteses/images" caminho
video
- Aulas em Vídeo no Estatidados
Noções de amostragem e Estimação
O que é Amostragem?
- Conjunto de técnicas para selecionar uma amostra da população, com o objetivo de obter informações de uma ou mais características de interesse, as quais permitam chegar a conclusões a respeito dos parâmetros.
Conceitos básicos de Amostragem:
População : É a coleção de todos os indivíduos que possuem determinadas características, as quais estamos interessados em estudar.
- Representamos por: N = “Tamanho Populacional”.
Amostra: É um Subconjunto da população, uma parte dos indivíduos que possuem determinadas características.
- Representamos por: n = “Tamanho Amostral”.
Censo: Exame de todos os Elementos da população.
Erro Amostral: É a diferença entre um resultado amostral e o verdadeiro resultado populacional.
Parâmetro-Alvo: Quantidade desconhecida, a qual temos interesse.
Imaginemos que queremos estudar a altura média dos alunos em uma sala de aula com 300 alunos.
✔️ População: Todos os alunos da sala de aula.
✔️ Amostra: Alunos selecionados da População por uma técnica de Amostragem.
✔️ Parâmetro-Alvo:“Altura média dos alunos na População”.
Tipos Amostragem existentes
💡
DICA: Vantagens das técnicas de amostragem Probabilísticas para com as Não Probabilísticas: Nas primeiras, São possíveis de se calcular estimativas de precisão e margens de erro, possibilitando assim a expansão dos resultados amostrais obtidos para os populacionais, já nas demais não.
Tipos de Amostragens Casuais/Probabilísticas
Todos os elementos possuem uma probabilidade de inclusão conhecida e não nula e as probabilidades de seleção das amostras são possíveis de serem calculadas..
Amostragem Aleatória Simples
Consiste em uma técnica de amostragem, onde todos os elementos possuem equiprobabilidade (Mesma Probabilidade de serem incluídos na amostra). É uma das técnicas mais simples de Amostragem.
A AAS Pode se dar de duas formas:
- Com Reposição: O elemento que for retirado, é recolocado novamente para sorteio, não alterando o espaço amostral.
- Ex: Colocar o nome de várias pessoas em uma sacola e realizar um sorteio, com o nome das pessoas, uma vez que é retirado um nome, este volta para o saco para eventual novo sorteio.
- Sem Reposição: O elemento que for retirado, não é recolocado novamente para sorteio, alterando o espaço amostral.
- Ex: Colocar o nome de várias pessoas em uma sacola e realizar um sorteio, com o nome das pessoas, uma vez que é retirado um nome, este não volta para o saco para eventual novo sorteio.
- Com Reposição: O elemento que for retirado, é recolocado novamente para sorteio, não alterando o espaço amostral.
Amostragem Sistemática
Consiste em um caso particular de amostragem aleatória simples, em que os elementos estão ordenados. O processo de seleção consiste em escolher um número r, entre 1 e k (Intervalo de Seleção), sendo k= 𝑵/𝒏, este partida aleatória será denominado como r, o primeiro elemento, será aquele que ordenado possuir a r-ésima posição, o segundo pertencente a amostra será o de posição r+k, o terceiro, r+2k … E assim por diante (r, r+k, r+2k … r+(n-1).k).
Queremos escolher uma amostra de 1000 fichas, dentre uma população de 5000 fichas.
Temos: - N=5000 e n=1000 - K = N/n= 5000/1000 = 5
✔️ Sortearemos então um número entre 1 e 5, o número que sair será a posição da primeira ficha, vamos supor que foi 2 o número sorteado, portanto a primeira ficha a pertencer a amostra é a segunda, a segunda ficha a pertencer a amostra será a ficha será a de posição 2+5=7, portanto a segunda ficha a pertencer a amostra será a sétima ficha, iremos repetir esse procedimento até a ficha de posição 2+(1000-1).5, logo a última ficha terá posição 4997..
Amostragem Estratificada
Uma técnica de amostragem utilizada quando estamos trabalhando com populações heterogêneas, consiste em dividir a mesma em estratos(Subconjuntos) mais homogêneos dentro e heterogêneos entre eles, extrair de cada extrato uma amostra independente com tamanhos pré-fixados, com o objetivo de melhorar a eficiência, gerando um aumento de representatividade da amostra, em geral.
- Amostragem por Conglomerado
Método bastante utilizado por praticidade e economicidade, em que são selecionados grupos de unidades (Conglomerados) e não unidades de análise (Indivíduos da População). Em geral os conglomerados. são escolhidos de forma aleatória, de forma a serem homogêneos entre si e heterogêneos dentro, em seguida são analisados todos os elementos que os compõem.
Estamos interessados em estudar o peso dos alunos de algumas escolas no RJ.
✔️ Temos então que nossos conglomerados a serem sorteados serão as escolas, e dentro das escolas, iremos entrevistar todos os alunos de todas as turmas dessas escolas.
Quadro Resumo Amostragens Probabilísticas
Tipos de Amostragens não Casuais/Probabilísticas
Em geral possuem um teor subjetivo na escolha dos elementos amostrais, dependem de critérios e julgamentos do pesquisador.
Amostragem por Conveniência
Seleção dos elementos aos quais se tem acesso no momento.
Imaginemos que só temos dados dos clientes do RJ, para fazer a pesquisa, por conveniência, utilizaremos só esses dados, dos outros municípios não vamos considerar.
Amostragem por Cotas
A seleção é feita de acordo com determinada característica da população.
✔️ A priori, é sabido que 50% das mulheres jogam vôlei em um campeonato, então será feito da forma que se for considerado na pesquisa, 1000 atletas desse campeonato, 500 deles serão mulheres jogadoras de vôlei.
Amostragem Intencional
Seleção de elementos, de acordo com informações disponíveis, de forma a satisfazer a necessidade do pesquisador.
✔️ Sabemos que por opinião dos especialistas, certo grupo de empresas realizam tal padrão de fraude, logo iremos investigar essas empresas, a satisfazer a minha intenção/objetivo.
Amostragem Voluntária
Seleção do indivíduo por própria voluntariedade do mesmo a participar da pesquisa.
✔️ Foi descoberta determinada vacina para COVID19. Indivíduos portadores da mesma se voluntariam a participar da pesquisa, como cobaias.
Quais são os tipos de Estimação
Estimação Pontual: Aquela na qual tendo em vista uma amostra, queremos saber sobre um único valor somente de um parâmetro qualquer da População.
Estimação Intervalar: Aquela na qual tendo em vista uma amostra, estamos interessados em um intervalo, que possuirá grande chance de conter o verdadeiro parâmetro.
Aquela na qual tendo em vista uma amostra, estamos interessados em um intervalo, que possuirá uma grande chance de conter o verdadeiro parâmetro .
Conceitos básicos da Estimação
Variável Aleatória: É uma variável quantitativa, cujo resultado depende de fatores aleatórios.
Estatística: É uma função de variáveis aleatória da amostra
Estimador: É uma estatística, utilizada para obter estimativas para um parâmetro desejado.
Estimativa: É quando os valores observados, são substituídos no estimador (Vulgarmente falando: “Quando aplicamos a fórmula do Estimador”
💡 Dica: Bom estimador, é aquele que tem uma probabilidade alta de gerar uma estimativa bem próxima ao parâmetro de interesse.
Propriedades desejáveis de um bom Estimador
Vício/Viés de um Estimador
Estimador Não-Viciado ou Não-Viesado:
Quando sua média (Valor Esperado) é igual ao valor do parâmetro, ou seja :
Estimador Viesado: Aquele que possue um viés ou vício, ou seja:
O viés será:
Erro Quadrático Médio:
💡 Dica: Note que, quando o Estimador é não viciado
E, portanto:
Tipos de Vício/Viés de um Estimador
💡 Dica: Estes resultados são em média, ou seja, dizer que um estimador é não viciado, e dizer que ele pode errar tanto pra baixo, quanto pra cima, mas em média ele acerta o valor do 𝜃.
Dois estimadores importantes
- “Estimador da média Populacional 𝝁” (Estimador não viciado para a média).
- “Estimador não viciado da Variância Populacional 𝝈²” (Estimador não viciado para a variância)
Eficiência de um Estimador
Dizemos que um estimador é mais eficiente que outro, se apresentar a menor variância no caso em que é não viciado, e se viciado for, o menor EQM (Erro Quadrático Médio)
💡 Dica: Note que, quando o Estimador é não viciado:
Consistência de um Estimador
Um estimador 𝜃 é consistente quando, além de satisfeito o critério de não-viesado, sua variância tende a 0 para amostras muito grandes (𝑛→∞) ou no caso de viesado, seu EQM e vício tende a 0, quando (𝑛→∞).
Métodos de Estimação
Métodos dos Momentos
Consiste tão somente em igualar os momentos populacionais aos amostrais.
Métodos da Máxima Verossimilhança
Seja x uma variável aleatória com função densidade de probabilidade f(x, 𝜃), sendo 𝜃 um parâmetro de interesse. Vamos considerar (𝑿𝟏,𝑿𝟐,𝑿𝟑 … 𝑿n) os valores observados em uma amostra de tamanho n.
💡 Dica: Na prática o que o método faz é obter os valores que maximizam a probabilidade da amostra observada ser a “mais provável”. De maneira geral, o método de máxima verossimilhança estima os valores dos diferentes parâmetros do modelo estatístico de maneira a maximizar a probabilidade dos dados observados, ou seja, busca parâmetros que maximizem a função de verossimilhança.
Resultados importantes de EMV (Estimador de máxima Verossímilhança) :
Indicação de materiais para aprofundamento em métodos de estimação:
Aula Prática Noções de Amostragem e estimação
Amostragem aleatória simples
(AAS) Amostragem Aleatória Com Reposição De tamanho 5
=c(1,2,3,4,5,6,7,8,9,10)
vetor_populacao_que_sera_amostradosample(vetor_populacao_que_sera_amostrado,size=5, replace=T)
## [1] 9 1 8 10 10
(AAS) Amostragem Aleatória Sem Reposição De tamanho 7
=c(1,2,3,4,5,6,7,8,9,10)
vetor_populacao_que_sera_amostradosample(vetor_populacao_que_sera_amostrado,size=7,replace=F)
## [1] 7 1 6 4 10 8 9
Amostragem Sistemática
Queremos escolher uma amostra de 1000 fichas, dentre uma população de 5000 fichas
= 1000
n = 5000 N
Calculando o valor de K
= N / n
k k
## [1] 5
Sortearemos um valor entre 1 e k que chammos de partida aleatória e denotamos de r.
=sample(k, 1) r
Sorteado:
seq(from=r,to=N,by=k)
## [1] 3 8 13 18 23 28 33 38 43 48 53 58 63 68
## [15] 73 78 83 88 93 98 103 108 113 118 123 128 133 138
## [29] 143 148 153 158 163 168 173 178 183 188 193 198 203 208
## [43] 213 218 223 228 233 238 243 248 253 258 263 268 273 278
## [57] 283 288 293 298 303 308 313 318 323 328 333 338 343 348
## [71] 353 358 363 368 373 378 383 388 393 398 403 408 413 418
## [85] 423 428 433 438 443 448 453 458 463 468 473 478 483 488
## [99] 493 498 503 508 513 518 523 528 533 538 543 548 553 558
## [113] 563 568 573 578 583 588 593 598 603 608 613 618 623 628
## [127] 633 638 643 648 653 658 663 668 673 678 683 688 693 698
## [141] 703 708 713 718 723 728 733 738 743 748 753 758 763 768
## [155] 773 778 783 788 793 798 803 808 813 818 823 828 833 838
## [169] 843 848 853 858 863 868 873 878 883 888 893 898 903 908
## [183] 913 918 923 928 933 938 943 948 953 958 963 968 973 978
## [197] 983 988 993 998 1003 1008 1013 1018 1023 1028 1033 1038 1043 1048
## [211] 1053 1058 1063 1068 1073 1078 1083 1088 1093 1098 1103 1108 1113 1118
## [225] 1123 1128 1133 1138 1143 1148 1153 1158 1163 1168 1173 1178 1183 1188
## [239] 1193 1198 1203 1208 1213 1218 1223 1228 1233 1238 1243 1248 1253 1258
## [253] 1263 1268 1273 1278 1283 1288 1293 1298 1303 1308 1313 1318 1323 1328
## [267] 1333 1338 1343 1348 1353 1358 1363 1368 1373 1378 1383 1388 1393 1398
## [281] 1403 1408 1413 1418 1423 1428 1433 1438 1443 1448 1453 1458 1463 1468
## [295] 1473 1478 1483 1488 1493 1498 1503 1508 1513 1518 1523 1528 1533 1538
## [309] 1543 1548 1553 1558 1563 1568 1573 1578 1583 1588 1593 1598 1603 1608
## [323] 1613 1618 1623 1628 1633 1638 1643 1648 1653 1658 1663 1668 1673 1678
## [337] 1683 1688 1693 1698 1703 1708 1713 1718 1723 1728 1733 1738 1743 1748
## [351] 1753 1758 1763 1768 1773 1778 1783 1788 1793 1798 1803 1808 1813 1818
## [365] 1823 1828 1833 1838 1843 1848 1853 1858 1863 1868 1873 1878 1883 1888
## [379] 1893 1898 1903 1908 1913 1918 1923 1928 1933 1938 1943 1948 1953 1958
## [393] 1963 1968 1973 1978 1983 1988 1993 1998 2003 2008 2013 2018 2023 2028
## [407] 2033 2038 2043 2048 2053 2058 2063 2068 2073 2078 2083 2088 2093 2098
## [421] 2103 2108 2113 2118 2123 2128 2133 2138 2143 2148 2153 2158 2163 2168
## [435] 2173 2178 2183 2188 2193 2198 2203 2208 2213 2218 2223 2228 2233 2238
## [449] 2243 2248 2253 2258 2263 2268 2273 2278 2283 2288 2293 2298 2303 2308
## [463] 2313 2318 2323 2328 2333 2338 2343 2348 2353 2358 2363 2368 2373 2378
## [477] 2383 2388 2393 2398 2403 2408 2413 2418 2423 2428 2433 2438 2443 2448
## [491] 2453 2458 2463 2468 2473 2478 2483 2488 2493 2498 2503 2508 2513 2518
## [505] 2523 2528 2533 2538 2543 2548 2553 2558 2563 2568 2573 2578 2583 2588
## [519] 2593 2598 2603 2608 2613 2618 2623 2628 2633 2638 2643 2648 2653 2658
## [533] 2663 2668 2673 2678 2683 2688 2693 2698 2703 2708 2713 2718 2723 2728
## [547] 2733 2738 2743 2748 2753 2758 2763 2768 2773 2778 2783 2788 2793 2798
## [561] 2803 2808 2813 2818 2823 2828 2833 2838 2843 2848 2853 2858 2863 2868
## [575] 2873 2878 2883 2888 2893 2898 2903 2908 2913 2918 2923 2928 2933 2938
## [589] 2943 2948 2953 2958 2963 2968 2973 2978 2983 2988 2993 2998 3003 3008
## [603] 3013 3018 3023 3028 3033 3038 3043 3048 3053 3058 3063 3068 3073 3078
## [617] 3083 3088 3093 3098 3103 3108 3113 3118 3123 3128 3133 3138 3143 3148
## [631] 3153 3158 3163 3168 3173 3178 3183 3188 3193 3198 3203 3208 3213 3218
## [645] 3223 3228 3233 3238 3243 3248 3253 3258 3263 3268 3273 3278 3283 3288
## [659] 3293 3298 3303 3308 3313 3318 3323 3328 3333 3338 3343 3348 3353 3358
## [673] 3363 3368 3373 3378 3383 3388 3393 3398 3403 3408 3413 3418 3423 3428
## [687] 3433 3438 3443 3448 3453 3458 3463 3468 3473 3478 3483 3488 3493 3498
## [701] 3503 3508 3513 3518 3523 3528 3533 3538 3543 3548 3553 3558 3563 3568
## [715] 3573 3578 3583 3588 3593 3598 3603 3608 3613 3618 3623 3628 3633 3638
## [729] 3643 3648 3653 3658 3663 3668 3673 3678 3683 3688 3693 3698 3703 3708
## [743] 3713 3718 3723 3728 3733 3738 3743 3748 3753 3758 3763 3768 3773 3778
## [757] 3783 3788 3793 3798 3803 3808 3813 3818 3823 3828 3833 3838 3843 3848
## [771] 3853 3858 3863 3868 3873 3878 3883 3888 3893 3898 3903 3908 3913 3918
## [785] 3923 3928 3933 3938 3943 3948 3953 3958 3963 3968 3973 3978 3983 3988
## [799] 3993 3998 4003 4008 4013 4018 4023 4028 4033 4038 4043 4048 4053 4058
## [813] 4063 4068 4073 4078 4083 4088 4093 4098 4103 4108 4113 4118 4123 4128
## [827] 4133 4138 4143 4148 4153 4158 4163 4168 4173 4178 4183 4188 4193 4198
## [841] 4203 4208 4213 4218 4223 4228 4233 4238 4243 4248 4253 4258 4263 4268
## [855] 4273 4278 4283 4288 4293 4298 4303 4308 4313 4318 4323 4328 4333 4338
## [869] 4343 4348 4353 4358 4363 4368 4373 4378 4383 4388 4393 4398 4403 4408
## [883] 4413 4418 4423 4428 4433 4438 4443 4448 4453 4458 4463 4468 4473 4478
## [897] 4483 4488 4493 4498 4503 4508 4513 4518 4523 4528 4533 4538 4543 4548
## [911] 4553 4558 4563 4568 4573 4578 4583 4588 4593 4598 4603 4608 4613 4618
## [925] 4623 4628 4633 4638 4643 4648 4653 4658 4663 4668 4673 4678 4683 4688
## [939] 4693 4698 4703 4708 4713 4718 4723 4728 4733 4738 4743 4748 4753 4758
## [953] 4763 4768 4773 4778 4783 4788 4793 4798 4803 4808 4813 4818 4823 4828
## [967] 4833 4838 4843 4848 4853 4858 4863 4868 4873 4878 4883 4888 4893 4898
## [981] 4903 4908 4913 4918 4923 4928 4933 4938 4943 4948 4953 4958 4963 4968
## [995] 4973 4978 4983 4988 4993 4998
Amostragem estratificada
#Tamanho que deve ter a amostra:
= 80 n
Tamanhos da população dos estratos
#Tamanho da população no estrato 1
= 500
N1 #Tamanho da população no estrato 2
= 1200
N2 #Tamanho da população no estrato 3
= 200
N3 #Tamanho da população no estrato 4
= 100 N4
Tamanho total da população
= N1 + N2 + N3 + N4
N N
## [1] 2000
Fração amostral
= n / N
f f
## [1] 0.04
Calculando os n´s para cada extrato com alocação proporcional ao tamanho do estrato
= f*N1
n1 = f*N2
n2 = f*N3
n3 = f*N4 n4
Juntando os tamanhos das amostras dos estratos
cbind(n1, n2, n3, n4)
## n1 n2 n3 n4
## [1,] 20 48 8 4
Indicações de materiais em r de Estimação
video
- Aulas em Vídeo no Estatidados
Inferência Estatística: Intervalo de confiança, Tamanho de amostra e Teste de Hipóteses
O que é o Teorema central do limite?
No diz que a soma ou a média de variáveis aleatórias independentes quaisquer, quando padronizadas ou não, convergem em distribuição para Z ~ N (0,1)
💡 Dica: Note que este teorema é muito forte, note que independente da distribuição, quando a nossa amostra é grande(n>30), a média/soma das variáveis aleatórias terão distribuição aproximadamente normal.
O que é o Intervalo de Confiança?
É um intervalo numérico, elaborado com base em uma estimativa pontual, o qual podemos confiar que o verdadeiro valor do parâmetro populacional esteja contemplado no mesmo.
💡 Dica: Interpretação do Intervalo de confiança (IC): Se fossem geradas n amostras da mesma população, em 100(1-𝛼) % delas o verdadeiro valor do parâmetro populacional estaria contido nesse intervalo.
☠️ Não se pode falar em probabilidade, pois estamos tratando de uma estimativa pontual, que pode estar contida no intervalo ou não, e não uma variável aleatória, portanto falaremos em confiança. sempre!
Conceitos Básicos e Valores Importantes
Grau de Confiança: Determina o quanto confiamos que o parâmetro esteja contido no intervalo calculado.
Nível de Significância: É o complementar do Grau de Confiança.
Quantil da Normal Padrão: O valor que deixa entre 0 e 𝒁(𝜶/𝟐), probabilidade de (1−𝛼)/2.
- Quantis da Normal Padrão (Z) Importantes
🎯𝑧0,05 = Quantil de k tal que P(0<Z<K)=45% ; K=1,64.
🎯𝑧0,025= Quantil de k tal que P(0<Z<K)=47,5% ; k=1,96.
🎯𝑧0,005= Quantil de k tal que P(0<Z<K)=49,5% ; k= 2,58.
Tipos de Intervalos de Confiança (IC)
Escolha dos Tipos de Intervalos de Confiança (IC)
IC para Média com Sigma Conhecido
Um processo de fabricação de embalagens segue uma distribuição normal com média populacional desconhecida, mas com desvio-padrão conhecido e igual a 4 baseado em pesquisas piloto. Uma amostra com 64 observações dessa população é feita, com média amostral 45 cm. Dada essa média amostral, a estimativa da média populacional do comprimento das embalagens, Calcule o intervalo de confiança de 95%.
Dados do problema de negócio:
Sabemos que:
Vamos calcular o Intervalo de confiança de 95% para a média populacional ( μ )∶
Foi retirada uma amostra aleatória simples de tamanho 400 de uma variável populacional normalmente distribuída que representa o número de pessoas que clicou em um e-mail direcionado por uma agência de marketing, com média μ desconhecida e variância igual a 25 foi observada do total de leads obtidos em campanhas prévias com objetivo de cadastro. e indicou uma média amostral igual a 12,52. Encontre o intervalo de confiança de 95% para essa média populacional de cliques em e-mails.
Dados do problema de negócio:
Sabemos que:
Vamos calcular o Intervalo de confiança de 95% para a média populacional ( μ )∶
IC para Média com Sigma Desconhecido e (n>=30)
Uma amostra de 53 indústrias de alimentos de peixe é selecionada. Mediu-se a concentração de mercúrio no tecido muscular do peixe e a distribuição não é normal, a média da concentração observada foi de 0,5250 e desvio padrão da amostra 0,3486. Construa um intervalo de confiança de 95% para a média da concetração de mercúrio.
Dados do problema de negócio:
Vamos calcular o Intervalo de confiança de 95% para a média populacional ( μ )∶
IC para Média com Sigma Desconhecido e (n<30)
Uma empresa deseja estimar o tempo médio 𝜇 em horas, para a realização de determinada tarefa pelos funcionários. Uma amostra aleatória de 9 funcionários que realizam a tarefa revelou os seguintes tempos de realização: 𝑥1, 𝑥2, ….. 𝑥9,. Considerando que essa amostra provém de uma população infinita e Calcule um intervalo de confiança para µ com coeficiente de confiança de 95%, em horas.
Considere:
Dados do problema de negócio:
Sabemos que:
Vamos calcular o Intervalo de confiança de 95% para a média populacional ( 𝝁 ):
IC para Proporção
Para estimar a proporção p de pessoas acometidas por COVID-19 numa população, uma amostra aleatória simples de 1600 pessoas foi observada e constatou-se que, dessas pessoas, 160 estavam com a gripe. Calcule um intervalo aproximado de 95% de confiança para proporção.
Dados do problema de negócio:
Sabemos que:
Vamos calcular o Intervalo de confiança de 95% para a média populacional ( 𝝁 ):
Tamanho da amostra para Estimar 𝝁
Considere uma amostragem aleatória simples, sem reposição, de uma população de tamanho muito grande de uma rede de empresas. Qual o tamanho aproximado de amostra que permite estimar a média de uma variável y que representa o quão essa rede é conectada, cujo desvio padrão populacional é igual a 5, com margem de erro 0,1, a um nível de confiança 95%?
Dados do problema de negócio:
Sabemos que:
Tamanho da amostra para Estimar P (Com P Conhecido)
A percentagem de brasileiros que tinha cobertura de plano privado de saúde em junho/2010 era aproximadamente de 20%. Um comitê foi encarregado de realizar uma pesquisa para obter informações atuais.
Usando aproximação normal, qual o tamanho de amostra recomendada se o objetivo do comitê é obter a estimativa da proporção atual de indivíduos que tem plano privado de saúde com uma margem de erro de 3% e nível de confiança 95%?
Dados do problema de negócio:
Sabemos que:
Tamanho da amostra para Estimar P (Com P Desconhecido)
💡 Dica: Notem que ao considerar 𝒑(𝟏−𝒑)=𝟏/𝟒, estamos sendo conservadores, trabalhando com o par de valores que nos traz a maior variabilidade possível.
Qual o tamanho da amostra necessária para estimar a proporção com uma margem de erro de 10% a 95% de confiança? (Considerando 𝒁(𝜶/𝟐)≈𝟐 )
Conceitos Básicos e Valores Importantes
Hipótese em Estatística: Uma afirmação acerca de um parâmetro da p.
Hipótese Nula: É uma Afirmação que será testada, não encontrando evidências estatísticas suficientes para rejeitá-la, a mesma será aceita ou não rejeitada.
Hipótese Alternativa: É o oposto da hipótese Nula.
Erro tipo I: Rejeitar H0, quando H0 é verdadeira.
Erro tipo II: Não rejeitar H0, quando a mesma é falsa, a probabilidade de se cometer esse tipo de erro é denotado por ( 𝜷 )
Nível de Significância ( 𝜶 ): É a probabilidade de se cometer o Erro tipo I e o seu complementar é o nível de confiança.
Poder do Teste (1- 𝜷): É a probabilidade de rejeitar h0, quando a mesma é falsa, ou seja, fazer a coisa certa.
Conceitos Básicos e Valores Importantes
Suponha que desejamos testar se a droga A é melhor que a droga B, então só optaremos pela droga B, no caso em que acharmos fortes evidências que a mesma é melhor que a droga A, caso contrário optaremos por manter a droga A. traduzindo em teste de hipóteses:
Hipóteses:
𝑯𝟎:𝑫𝒓𝒐𝒈𝒂 𝑨=𝑫𝒓𝒐𝒈𝒂 𝑩, " Droga A é igualmente eficiente a Droga B".
𝑯𝟏:𝑫𝒓𝒐𝒈𝒂 𝑨≠𝑫𝒓𝒐𝒈𝒂 𝑩,“Droga A não tem a mesma eficiência que a Droga B.”
Tipos de Testes de Hipóteses
Teste Bilateral:
Numa linha de produção uma máquina deve estar regulada para preencher embalagens com peso médio igual a 1000 g. Históricamente, sabe-se que a distribuição dos pesos desta máquina é normal e a variância é 16 g2. Cientistas, ao implementar um controle de qualidade recolheram na última hora uma amostra de tamanho 10 e observaram que a máquina está produzindo embalagens com peso médio igual 1004 g. Existe evidência para dizer que a máquina está desregulada, ao nível de confiança de 95%?
Dados do problema de negócio:
Zcalc = 3.1623> Zc=1,9599 , logo rejeitamos h0 e há Evidências ao nível de 5% que a máquina esteja Desregulada.
Teste Unilateral à Direita:
Frequentemente, pesquisas amostrais são realizadas em um grande portal de notícias com o intuito de se manter e ou avançar no mercado. Uma das mais recentes foi realizada com 16 usuários e observou-se que os mesmos gastam, em média, 55 minutos consumindo notícias e anúncios em geral deste portal. Observou-se, ainda, que a variabilidade dos dados da pesquisa, dada pela variância, foi igual a 144 min.2. Se um anunciante tem por critério de decisão efetivar um contrato com este portal somente se o tempo médio de consumo for superior a 50 minutos ao nível de 5% de significância, ele deve efetivar o contrato?
Dados do problema de negócio:
Sabemos que:
Tcalc = 1,1667< Tc(15)=1,7530 , logo não rejeitamos h0 e o anunciante não deve efetuar o contrato ao nível de 5% de significância
Teste Unilateral à Esquerda:
Em uma cidade do interior nordestino, historicamente 75% dos acidentes envolvem motociclistas. Visando diminuir este percentual, os órgão competentes investiram em ações educacionais e de fiscalização intensa de modo que, após seis meses de intervenção, verificou-se 231 acidentes envolvendo motociclistas dentre um total de 324 acidentes. Nestas condições e baseado em um adequado teste de hipóteses, você conclui que existe evidência estatística para dizer que a intervenção dos órgãos competentes surtiu efeito positivo ao nível de significância 5%?
Dados do problema de negócio:
Sabemos que:
zcalc = -1,4722>zc=-1,6448, logo Não rejeitamos h0 e a proporção de acidentes com motociclistas e não há evidências intervenção de que a política dos órgãos competentes tenha surtido efeitoao nível de 5% de significância.
Métodos para testar Hipóteses
Seja um teste com :
Ao Nível de significância 𝜶
Regra de decisão:
- Se 𝒌 não pertence ao IC, rejeitamos 𝑯𝟎 , caso contrário, não rejeitamos/Aceitamos 𝑯𝟎.
Região Crítica
Seja um teste com :
Ao Nível de significância 𝜶
Regra de decisão:
- Se o valor que queremos não pertence a RC, não rejeitamos/aceitamos 𝑯𝟎 , caso contrário, rejeitamos/aceitamos 𝑯𝟎.
P-Valor ou Nível Descritivo
É o Menor nível de significância para o qual eu rejeito 𝑯𝟎. A probabilidade de acontecer algo igual ou mais estremo do que foi observado na amostra.
Regra de decisão:
Teste Unilateral à Direita:
✔️ P-valor = P ( Z ≥𝒁𝑪𝒂𝒍𝒄)
Teste Unilateral à Esquerda:
✔️ P-valor= P ( Z ≤ −𝒁𝑪𝒂𝒍𝒄)
Teste Bilateral:
✔️ P-valor= 2 . P ( Z ≥ 𝒁𝑪𝒂𝒍𝒄)
Aula prática Intervalos de confiança e tamanho de amostra
Exemplo 1) IC para Média com Sigma Conhecido
Um processo de fabricação de embalagens segue uma distribuição normal com média populacional desconhecida, mas com desvio-padrão conhecido e igual a 4 baseado em pesquisas piloto. Uma amostra com 64 observações dessa população é feita, com média amostral 45 cm. Dada essa média amostral, a estimativa da média populacional do comprimento das embalagens, Calcule o intervalo de confiança de 95%.
Dados do enunciado:
#Tamanho da amostra
=64
n
#Media
=45
Xbarra
#nível de significância
=0.05
alfa
#Desvio populacional conhecido
=4 sigma
qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado
=qnorm(1-alfa/2)
zalfa_sobre_2 zalfa_sobre_2
## [1] 1.959964
Calculando a margem de erro
=zalfa_sobre_2*sigma/sqrt(n)
E E
## [1] 0.979982
Calculando os limites do IC
=Xbarra-E
ic_inf=Xbarra+E
ic_sup#junta os valores
cbind(ic_inf,ic_sup)
## ic_inf ic_sup
## [1,] 44.02002 45.97998
Exemplo 2) IC para Média com Sigma Conhecido
Foi retirada uma amostra aleatória simples de tamanho 400 de uma variável populacional normalmente distribuída que representa o número de pessoas que clicou em um e-mail direcionado por uma agência de marketing,com média μ desconhecida e variância igual a 25 foi observada do total de leads obtidos em campanhas prévias com objetivo de cadastro. e indicou uma média amostral igual a 12,52. Encontre o intervalo de confiança de 95% para essa média populacional de cliques em e-mails.
Dados do enunciado
#Tamanho da amostra
=400
n
#Media
=12.52
Xbarra
#nível de significância
=0.05
alfa
#Desvio populacional Conhecido
=5 sigma
qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado
=qnorm(1-alfa/2)
zalfa_sobre_2 zalfa_sobre_2
## [1] 1.959964
Calculando a margem de erro
=round(zalfa_sobre_2,2)*sigma/sqrt(n)
E E
## [1] 0.49
Calculando os limites do IC
=Xbarra-E
ic_inf=Xbarra+E
ic_sup#junta os valores
cbind(ic_inf,ic_sup)
## ic_inf ic_sup
## [1,] 12.03 13.01
Exemplo 3) IC para Média com (Sigma Desconhecido e n>=30)
#Uma amostra de 53 indústrias de alimentos de peixe é selecionada. #Mediu-se a concentração de mercúrio no tecido muscular do peixe #e a distribuição não é normal, a média da concentração observada foi de 0,5250 e desvio padrão da amostra 0,3486. #Construa um intervalo de confiança de 95% para #a média da concetração de mercúrio.
Dados do enunciado:
#Tamanho da amostra
=53
n
#Media
=0.5250
Xbarra
#nível de significância
=0.05
alfa
#Desvio populacional Desconhecido
=0.3486 s
qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado
=qnorm(1-alfa/2) zalfa_sobre_2
Calculando a margem de erro
=round(zalfa_sobre_2,2)*s/sqrt(n) E
Calcula os limites do IC
=Xbarra-E
ic_inf=Xbarra+E
ic_sup## junta os valores
cbind(ic_inf,ic_sup)
## ic_inf ic_sup
## [1,] 0.4311476 0.6188524
Exemplo 4) IC para Média com Sigma Desconhecido e n<30
Uma empresa deseja estimar o tempo médio 𝜇 em horas,
para a realização de determinada tarefa pelos funcionários.
#Uma amostra aleatória de 9 funcionários que realizam a tarefa #revelou os seguintes tempos de realização: 𝑥_1, 𝑥_2, ….. 𝑥_9,. #Considerando que essa amostra provém de uma população infinita e que #∑(x𝑖=1)^9▒〖=54 ℎ𝑜𝑟𝑎𝑠〗 𝑒 ∑(x𝑖^2 )= 396 horas², #Calcule um intervalo de confiança para µ com coeficiente de confiança de 95%, em horas.
Dados do enunciadO
#Tamanho da amostra
=9
n
#Media
=6
Xbarra
#nível de significância
=0.05
alfa
#Desvio populacional Desconhecido
=3 s
qt calcula o quantil da t de student que correpesponde a 1- alfa/2 e n-1 g.l no caso, pois é bilateral o IC Solicitado
=qt(1-alfa/2,9-1) talfa_sobre_2
Calcula a margem de erro
=round(talfa_sobre_2,2)*s/sqrt(n) E
Calcula os limites do IC
=Xbarra-E
ic_inf=Xbarra+E ic_sup
Exibe os limites de forma concatenada
paste(ic_inf,ic_sup)
## [1] "3.69 8.31"
Exemplo 5) IC para Proporção
Para estimar a proporção p de pessoas acometidas por COVID-19 numa população, uma amostra aleatória simples de 1600 pessoas foi observada e constatou-se que, dessas pessoas, 160 estavam com a gripe. Um intervalo aproximado de 95% de confiança para p será dado por:
Dados do enunciado:
#Tamanho da amostra
=1600
n
#proporção amostral
=160/1600
pchapeu
#fracasso
=1-pchapeu
qchapeu
#nível de significância
=0.05
alfa
#Desvio populacional Desconhecido
=sqrt( (pchapeu*qchapeu)/n) sigma
qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado
=qnorm(1-alfa/2)
zalfa_sobre_2 zalfa_sobre_2
## [1] 1.959964
Calculando a margem de erro
=round(zalfa_sobre_2,2)*sigma
E E
## [1] 0.0147
Calculando os limites do IC
=pchapeu-E
ic_inf=pchapeu+E
ic_supcbind(ic_inf,ic_sup)
## ic_inf ic_sup
## [1,] 0.0853 0.1147
Exemplo 6) Tamanho da amostra para Estimar 𝝁
Considere uma amostragem aleatória simples, sem reposição, de uma população de tamanho muito grande de uma rede de empresas. Qual o tamanho aproximado de amostra que permite estimar a média de uma variável y que representa o quão essa rede é conectada, cujo desvio padrão populacional é igual a 5, com margem de erro 0,1, a um nível de confiança 95%?
Dados do enunciado:
#Tamanho da amostra
#n=?
#nível de significância
=0.05
alfa
#Desvio populacional Desconhecido
=5
sigma
#margem de erro
=1/10 E
qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado
=qnorm(1-alfa/2)
zalfa_sobre_2 zalfa_sobre_2
## [1] 1.959964
Calculando o tamanho da amostra
=(round(zalfa_sobre_2,2)^2*sigma^2)/E^2
n n
## [1] 9604
Exemplo 7) Tamanho de amostra para para Proporção (P conhecido)
A percentagem de brasileiros que tinha cobertura de plano privado de saúde em junho/2010 era aproximadamente de 20%. Um comitê foi encarregado de realizar uma pesquisa para obter informações atuais.
Usando aproximação normal, qual o tamanho de amostra recomendada se o objetivo do comitê é obter a estimativa da proporção atual de indivíduos que tem plano privado de saúde com uma margem de erro de 3% e nível de confiança 95%?
Dados do enunciado:
#Tamanho da amostra
#n=?
#nível de significância
=0.05
alfa
#proporção populacional
=20/100
p
#fracasso
=1-p
q
#margem de erro
=0.03 E
qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado
=qnorm(1-alfa/2)
zalfa_sobre_2 zalfa_sobre_2
## [1] 1.959964
Calculando o tamanho da amostra
#Supondo z/e = 65
=65^2*(p*q)
n n
## [1] 676
Exemplo 8) Tamanho da amostra para Estimar 𝑷 (Com P desconhecido)
Qual o tamanho da amostra necessária para estimar a proporção com uma margem de erro de 10% a 95% de confiança? (Considerando 𝒁_(𝜶/𝟐)≈𝟐 )
Dados do enunciado:
#Tamanho da amostra
#n=?
#nível de significância
=0.05
alfa
#margem de erro
=0.1 E
qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado
=qnorm(1-alfa/2)
zalfa_sobre_2 zalfa_sobre_2
## [1] 1.959964
Calcula o tamanho da amostra
#Supondo z/e = 65
=( round(zalfa_sobre_2,1)^2*1/4 )/ E^2
n n
## [1] 100
Aula prática Testes de Hipóteses/Testes A/B
Exemplo 1) Testes de Hipótese Bilateral
Numa linha de produção uma máquina deve estar regulada para preencher embalagens com peso médio igual a 1000 g. Históricamente, sabe-se que a distribuição dos pesos desta máquina é normal e a variância é 16 g2. Cientistas, ao implementar um controle de qualidade recolheram na última hora uma amostra de tamanho 10 e observaram que a máquina está produzindo embalagens com peso médio igual 1004 g. Existe evidência para dizer que a máquina está desregulada, ao nível de confiança de 95%?
Dados do enunciado:
#Tamanho da amostra
=10
n
#Media
=1004
Xbarra
#nível de significância
=0.05
alfa
#Desvio populacional conhecido
=4
sigma
#Sob h0
=1000 mi
Hipóteses do teste
𝐻0: 𝜇 ≤ 1000
𝐻1: 𝜇!= 1000
Zcalculado
= (Xbarra - mi)/(sigma/sqrt(n))
zcalc zcalc
## [1] 3.162278
Z critico Bilateral
= qnorm(1-alfa/2)
zcrit zcrit
## [1] 1.959964
Zcalc = 3.1623< Zc=1,9599, logo não rejeitamos h0 e não há Evidências ao nível de 5% que a máquina esteja Desregulada.
P-valor
=2*(1-pnorm(zcalc))
Pvalor Pvalor
## [1] 0.001565402
Exemplo 2) Testes de Hipótese Unilateral à Direita (com desvio desconhecido e n<30)
Frequentemente, pesquisas amostrais são realizadas em um grande portal de notícias com o intuito de se manter e ou avançar no mercado. Uma das mais recentes foi realizada com 16 usuários e observou-se que os mesmos gastam, em média, 55 minutos consumindo notícias e anúncios em geral deste portal. Observou-se, ainda, que a variabilidade dos dados da pesquisa, dada pela variância, foi igual a 144 min.2.Se um anunciante tem por critério de decisão efetivar um contrato com este portal somente se o tempo médio de consumo for superior a 50 minutos ao nível de 5% de significância, ele deve efetivar o contrato?
Dados do enunciado:
#Tamanho da amostra
=16
n
#Media
=55
Xbarra
#nível de significância
=0.05
alfa
#Desvio populacional Desconhecido
=12
s
#Média populacional sob h0
=50 mi
Hipóteses do teste
𝐻0: 𝜇<50
𝐻1: 𝜇>50
Tcalculado
= (Xbarra - mi)/(s/sqrt(n)) tcalc
T critico unilateral
= qt(1-alfa,16-1)
tcrit tcrit
## [1] 1.75305
tcalc = 1,1667< Tc=1,7530, logo não rejeitamos h0 e o anunciante não deve efetuar o contrato ao nível de 5% de significância
P-valor
=1-pt(tcalc,15)
Pvalor Pvalor
## [1] 0.05815957
Exemplo 3) Teste de Hipóteses para proporção
Dados do enunciado
#Tamanho da amostra
=324
n
#proporção amostral
=231/324
pchapeu
#fracassos
=93/324
qchapeu
#nível de significância
=0.05
alfa
#Proporção sob h0
=0.75 p
Hipóteses do teste
𝐻0: p > 0,75
𝐻1: p < 0,75
Zcalculado
= (pchapeu - p)/sqrt(pchapeu*qchapeu/n)
zcalc zcalc
## [1] -1.473691
Z critico unilateral
= qnorm(1-alfa)
zcrit zcrit
## [1] 1.644854
zcalc = -1,4722>zc=-1,6448, logo Não rejeitamos h0 e a proporção de acidentes com motociclistas e não há evidências intervenção de que a política dos órgãos competentes tenha surtido efeitoao nível de 5% de significância.
P-valor
=pnorm(zcalc)
Pvalor Pvalor
## [1] 0.07028247