Inferência Estatística

Conteúdo programático

  • Teoria:
    • Conceitos importantes, tipos de amostragem e tipos de Amostragens Probabilísticas;
    • Tipos de Amostragens Probabilísticas e Vantagens e Desvantagens das mesmas;
    • Tipos de Amostragens Não Probabilísticas;
    • Tipos de Estimação, Conceitos básicos e Propriedades desejáveis de um bom estimador;
    • Métodos de Estimação, estimadores mais importantes e vantagens e desvantagens;
    • O que é o Teorema central do limite?
    • O que é o Intervalo de Confiança?
    • Conceitos Básicos e Valores Importantes
    • Quantis da Normal Padrão (Z) Importantes
    • Tipos de Intervalos de Confiança (IC)
    • IC para Média com Sigma Conhecido
    • IC para Média com Sigma Desconhecido e (n>=30)
    • IC para Proporção
    • Tamanho da amostra para Estimar 𝝁
    • Tamanho da amostra para Estimar P (com P Conhecido)
    • Tamanho da amostra para Estimar P (com P Desconhecido)
    • Conceitos Básicos e Valores Importantes de Teste de Hipóteses/Testes A/B
    • Tipos de Testes de Hipóteses
    • Testes de Hipóteses Bilateral
    • Testes de Hipóteses Unilaterais
    • Testes de Hipóteses para médias e proporções
    • Métodos para testar hipóteses (IC/RC/P-VALOR)
  • Prática:
    • Aula Prática Geral - R - Noções de Amostragem e Estimação

    • Aula Inferência - R - Intervalo de confiança

    • Aula Inferência - R - Teste de Hipóteses

caminho="/Users/teste/Desktop/Videos Aulas de Estatistica e R/IC, Tamanho de amostra e teste de Hipoteses/images"

video

  • Aulas em Vídeo no Estatidados

Noções de amostragem e Estimação

O que é Amostragem?

  • Conjunto de técnicas para selecionar uma amostra da população, com o objetivo de obter informações de uma ou mais características de interesse, as quais permitam chegar a conclusões a respeito dos parâmetros.

Conceitos básicos de Amostragem:

  • População : É a coleção de todos os indivíduos que possuem determinadas características, as quais estamos interessados em estudar.

    • Representamos por: N = “Tamanho Populacional”.
  • Amostra: É um Subconjunto da população, uma parte dos indivíduos que possuem determinadas características.

    • Representamos por: n = “Tamanho Amostral”.
  • Censo: Exame de todos os Elementos da população.

  • Erro Amostral: É a diferença entre um resultado amostral e o verdadeiro resultado populacional.

  • Parâmetro-Alvo: Quantidade desconhecida, a qual temos interesse.

Imaginemos que queremos estudar a altura média dos alunos em uma sala de aula com 300 alunos.

✔️ População: Todos os alunos da sala de aula.

✔️ Amostra: Alunos selecionados da População por uma técnica de Amostragem.

✔️ Parâmetro-Alvo:“Altura média dos alunos na População”.

Tipos Amostragem existentes

💡
DICA: Vantagens das técnicas de amostragem Probabilísticas para com as Não Probabilísticas: Nas primeiras, São possíveis de se calcular estimativas de precisão e margens de erro, possibilitando assim a expansão dos resultados amostrais obtidos para os populacionais, já nas demais não.

Tipos de Amostragens Casuais/Probabilísticas

Todos os elementos possuem uma probabilidade de inclusão conhecida e não nula e as probabilidades de seleção das amostras são possíveis de serem calculadas..

Amostragem Aleatória Simples

Consiste em uma técnica de amostragem, onde todos os elementos possuem equiprobabilidade (Mesma Probabilidade de serem incluídos na amostra). É uma das técnicas mais simples de Amostragem.

  • A AAS Pode se dar de duas formas:

    • Com Reposição: O elemento que for retirado, é recolocado novamente para sorteio, não alterando o espaço amostral.
      • Ex: Colocar o nome de várias pessoas em uma sacola e realizar um sorteio, com o nome das pessoas, uma vez que é retirado um nome, este volta para o saco para eventual novo sorteio.
    • Sem Reposição: O elemento que for retirado, não é recolocado novamente para sorteio, alterando o espaço amostral.
      • Ex: Colocar o nome de várias pessoas em uma sacola e realizar um sorteio, com o nome das pessoas, uma vez que é retirado um nome, este não volta para o saco para eventual novo sorteio.

Amostragem Sistemática

Consiste em um caso particular de amostragem aleatória simples, em que os elementos estão ordenados. O processo de seleção consiste em escolher um número r, entre 1 e k (Intervalo de Seleção), sendo k= 𝑵/𝒏, este partida aleatória será denominado como r, o primeiro elemento, será aquele que ordenado possuir a r-ésima posição, o segundo pertencente a amostra será o de posição r+k, o terceiro, r+2k … E assim por diante (r, r+k, r+2k … r+(n-1).k).

Queremos escolher uma amostra de 1000 fichas, dentre uma população de 5000 fichas.

Temos: - N=5000 e n=1000 - K = N/n= 5000/1000 = 5

✔️ Sortearemos então um número entre 1 e 5, o número que sair será a posição da primeira ficha, vamos supor que foi 2 o número sorteado, portanto a primeira ficha a pertencer a amostra é a segunda, a segunda ficha a pertencer a amostra será a ficha será a de posição 2+5=7, portanto a segunda ficha a pertencer a amostra será a sétima ficha, iremos repetir esse procedimento até a ficha de posição 2+(1000-1).5, logo a última ficha terá posição 4997..

Amostragem Estratificada

Uma técnica de amostragem utilizada quando estamos trabalhando com populações heterogêneas, consiste em dividir a mesma em estratos(Subconjuntos) mais homogêneos dentro e heterogêneos entre eles, extrair de cada extrato uma amostra independente com tamanhos pré-fixados, com o objetivo de melhorar a eficiência, gerando um aumento de representatividade da amostra, em geral.

  • Amostragem por Conglomerado

Método bastante utilizado por praticidade e economicidade, em que são selecionados grupos de unidades (Conglomerados) e não unidades de análise (Indivíduos da População). Em geral os conglomerados. são escolhidos de forma aleatória, de forma a serem homogêneos entre si e heterogêneos dentro, em seguida são analisados todos os elementos que os compõem.

Estamos interessados em estudar o peso dos alunos de algumas escolas no RJ.

✔️ Temos então que nossos conglomerados a serem sorteados serão as escolas, e dentro das escolas, iremos entrevistar todos os alunos de todas as turmas dessas escolas.

Quadro Resumo Amostragens Probabilísticas

Tipos de Amostragens não Casuais/Probabilísticas

Em geral possuem um teor subjetivo na escolha dos elementos amostrais, dependem de critérios e julgamentos do pesquisador.

Amostragem por Conveniência

Seleção dos elementos aos quais se tem acesso no momento.

Imaginemos que só temos dados dos clientes do RJ, para fazer a pesquisa, por conveniência, utilizaremos só esses dados, dos outros municípios não vamos considerar.

Amostragem por Cotas

A seleção é feita de acordo com determinada característica da população.

✔️ A priori, é sabido que 50% das mulheres jogam vôlei em um campeonato, então será feito da forma que se for considerado na pesquisa, 1000 atletas desse campeonato, 500 deles serão mulheres jogadoras de vôlei.

Amostragem Intencional

Seleção de elementos, de acordo com informações disponíveis, de forma a satisfazer a necessidade do pesquisador.

✔️ Sabemos que por opinião dos especialistas, certo grupo de empresas realizam tal padrão de fraude, logo iremos investigar essas empresas, a satisfazer a minha intenção/objetivo.

Amostragem Voluntária

Seleção do indivíduo por própria voluntariedade do mesmo a participar da pesquisa.

✔️ Foi descoberta determinada vacina para COVID19. Indivíduos portadores da mesma se voluntariam a participar da pesquisa, como cobaias.

Quais são os tipos de Estimação

Estimação Pontual: Aquela na qual tendo em vista uma amostra, queremos saber sobre um único valor somente de um parâmetro qualquer da População.

Estimação Intervalar: Aquela na qual tendo em vista uma amostra, estamos interessados em um intervalo, que possuirá grande chance de conter o verdadeiro parâmetro.

Aquela na qual tendo em vista uma amostra, estamos interessados em um intervalo, que possuirá uma grande chance de conter o verdadeiro parâmetro .

Conceitos básicos da Estimação

  • Variável Aleatória: É uma variável quantitativa, cujo resultado depende de fatores aleatórios.

  • Estatística: É uma função de variáveis aleatória da amostra

  • Estimador: É uma estatística, utilizada para obter estimativas para um parâmetro desejado.

  • Estimativa: É quando os valores observados, são substituídos no estimador (Vulgarmente falando: “Quando aplicamos a fórmula do Estimador”

💡 Dica: Bom estimador, é aquele que tem uma probabilidade alta de gerar uma estimativa bem próxima ao parâmetro de interesse.

Propriedades desejáveis de um bom Estimador

Vício/Viés de um Estimador

Estimador Não-Viciado ou Não-Viesado:

Quando sua média (Valor Esperado) é igual ao valor do parâmetro, ou seja :

Estimador Viesado: Aquele que possue um viés ou vício, ou seja:

O viés será:

Erro Quadrático Médio:

💡 Dica: Note que, quando o Estimador é não viciado

E, portanto:

Tipos de Vício/Viés de um Estimador

💡 Dica: Estes resultados são em média, ou seja, dizer que um estimador é não viciado, e dizer que ele pode errar tanto pra baixo, quanto pra cima, mas em média ele acerta o valor do 𝜃.

Dois estimadores importantes

  • “Estimador da média Populacional 𝝁” (Estimador não viciado para a média).

  • “Estimador não viciado da Variância Populacional 𝝈²” (Estimador não viciado para a variância)

Eficiência de um Estimador

Dizemos que um estimador é mais eficiente que outro, se apresentar a menor variância no caso em que é não viciado, e se viciado for, o menor EQM (Erro Quadrático Médio)

💡 Dica: Note que, quando o Estimador é não viciado:

Consistência de um Estimador

Um estimador 𝜃 é consistente quando, além de satisfeito o critério de não-viesado, sua variância tende a 0 para amostras muito grandes (𝑛→∞) ou no caso de viesado, seu EQM e vício tende a 0, quando (𝑛→∞).

Métodos de Estimação

Métodos dos Momentos

Consiste tão somente em igualar os momentos populacionais aos amostrais.

Métodos da Máxima Verossimilhança

Seja x uma variável aleatória com função densidade de probabilidade f(x, 𝜃), sendo 𝜃 um parâmetro de interesse. Vamos considerar (𝑿𝟏,𝑿𝟐,𝑿𝟑 … 𝑿n) os valores observados em uma amostra de tamanho n.

💡 Dica: Na prática o que o método faz é obter os valores que maximizam a probabilidade da amostra observada ser a “mais provável”. De maneira geral, o método de máxima verossimilhança estima os valores dos diferentes parâmetros do modelo estatístico de maneira a maximizar a probabilidade dos dados observados, ou seja, busca parâmetros que maximizem a função de verossimilhança.

Resultados importantes de EMV (Estimador de máxima Verossímilhança) :

Indicação de materiais para aprofundamento em métodos de estimação:

medium

Prof.Paulo Justiniano

No R

Aula Prática Noções de Amostragem e estimação

Amostragem aleatória simples

(AAS) Amostragem Aleatória Com Reposição De tamanho 5

vetor_populacao_que_sera_amostrado=c(1,2,3,4,5,6,7,8,9,10)
sample(vetor_populacao_que_sera_amostrado,size=5, replace=T)
## [1]  9  1  8 10 10

(AAS) Amostragem Aleatória Sem Reposição De tamanho 7

vetor_populacao_que_sera_amostrado=c(1,2,3,4,5,6,7,8,9,10)
sample(vetor_populacao_que_sera_amostrado,size=7,replace=F)
## [1]  7  1  6  4 10  8  9

Amostragem Sistemática

Queremos escolher uma amostra de 1000 fichas, dentre uma população de 5000 fichas

n = 1000 
N = 5000 

Calculando o valor de K

k = N / n
k
## [1] 5

Sortearemos um valor entre 1 e k que chammos de partida aleatória e denotamos de r.

r=sample(k, 1)     

Sorteado:

seq(from=r,to=N,by=k)
##    [1]    3    8   13   18   23   28   33   38   43   48   53   58   63   68
##   [15]   73   78   83   88   93   98  103  108  113  118  123  128  133  138
##   [29]  143  148  153  158  163  168  173  178  183  188  193  198  203  208
##   [43]  213  218  223  228  233  238  243  248  253  258  263  268  273  278
##   [57]  283  288  293  298  303  308  313  318  323  328  333  338  343  348
##   [71]  353  358  363  368  373  378  383  388  393  398  403  408  413  418
##   [85]  423  428  433  438  443  448  453  458  463  468  473  478  483  488
##   [99]  493  498  503  508  513  518  523  528  533  538  543  548  553  558
##  [113]  563  568  573  578  583  588  593  598  603  608  613  618  623  628
##  [127]  633  638  643  648  653  658  663  668  673  678  683  688  693  698
##  [141]  703  708  713  718  723  728  733  738  743  748  753  758  763  768
##  [155]  773  778  783  788  793  798  803  808  813  818  823  828  833  838
##  [169]  843  848  853  858  863  868  873  878  883  888  893  898  903  908
##  [183]  913  918  923  928  933  938  943  948  953  958  963  968  973  978
##  [197]  983  988  993  998 1003 1008 1013 1018 1023 1028 1033 1038 1043 1048
##  [211] 1053 1058 1063 1068 1073 1078 1083 1088 1093 1098 1103 1108 1113 1118
##  [225] 1123 1128 1133 1138 1143 1148 1153 1158 1163 1168 1173 1178 1183 1188
##  [239] 1193 1198 1203 1208 1213 1218 1223 1228 1233 1238 1243 1248 1253 1258
##  [253] 1263 1268 1273 1278 1283 1288 1293 1298 1303 1308 1313 1318 1323 1328
##  [267] 1333 1338 1343 1348 1353 1358 1363 1368 1373 1378 1383 1388 1393 1398
##  [281] 1403 1408 1413 1418 1423 1428 1433 1438 1443 1448 1453 1458 1463 1468
##  [295] 1473 1478 1483 1488 1493 1498 1503 1508 1513 1518 1523 1528 1533 1538
##  [309] 1543 1548 1553 1558 1563 1568 1573 1578 1583 1588 1593 1598 1603 1608
##  [323] 1613 1618 1623 1628 1633 1638 1643 1648 1653 1658 1663 1668 1673 1678
##  [337] 1683 1688 1693 1698 1703 1708 1713 1718 1723 1728 1733 1738 1743 1748
##  [351] 1753 1758 1763 1768 1773 1778 1783 1788 1793 1798 1803 1808 1813 1818
##  [365] 1823 1828 1833 1838 1843 1848 1853 1858 1863 1868 1873 1878 1883 1888
##  [379] 1893 1898 1903 1908 1913 1918 1923 1928 1933 1938 1943 1948 1953 1958
##  [393] 1963 1968 1973 1978 1983 1988 1993 1998 2003 2008 2013 2018 2023 2028
##  [407] 2033 2038 2043 2048 2053 2058 2063 2068 2073 2078 2083 2088 2093 2098
##  [421] 2103 2108 2113 2118 2123 2128 2133 2138 2143 2148 2153 2158 2163 2168
##  [435] 2173 2178 2183 2188 2193 2198 2203 2208 2213 2218 2223 2228 2233 2238
##  [449] 2243 2248 2253 2258 2263 2268 2273 2278 2283 2288 2293 2298 2303 2308
##  [463] 2313 2318 2323 2328 2333 2338 2343 2348 2353 2358 2363 2368 2373 2378
##  [477] 2383 2388 2393 2398 2403 2408 2413 2418 2423 2428 2433 2438 2443 2448
##  [491] 2453 2458 2463 2468 2473 2478 2483 2488 2493 2498 2503 2508 2513 2518
##  [505] 2523 2528 2533 2538 2543 2548 2553 2558 2563 2568 2573 2578 2583 2588
##  [519] 2593 2598 2603 2608 2613 2618 2623 2628 2633 2638 2643 2648 2653 2658
##  [533] 2663 2668 2673 2678 2683 2688 2693 2698 2703 2708 2713 2718 2723 2728
##  [547] 2733 2738 2743 2748 2753 2758 2763 2768 2773 2778 2783 2788 2793 2798
##  [561] 2803 2808 2813 2818 2823 2828 2833 2838 2843 2848 2853 2858 2863 2868
##  [575] 2873 2878 2883 2888 2893 2898 2903 2908 2913 2918 2923 2928 2933 2938
##  [589] 2943 2948 2953 2958 2963 2968 2973 2978 2983 2988 2993 2998 3003 3008
##  [603] 3013 3018 3023 3028 3033 3038 3043 3048 3053 3058 3063 3068 3073 3078
##  [617] 3083 3088 3093 3098 3103 3108 3113 3118 3123 3128 3133 3138 3143 3148
##  [631] 3153 3158 3163 3168 3173 3178 3183 3188 3193 3198 3203 3208 3213 3218
##  [645] 3223 3228 3233 3238 3243 3248 3253 3258 3263 3268 3273 3278 3283 3288
##  [659] 3293 3298 3303 3308 3313 3318 3323 3328 3333 3338 3343 3348 3353 3358
##  [673] 3363 3368 3373 3378 3383 3388 3393 3398 3403 3408 3413 3418 3423 3428
##  [687] 3433 3438 3443 3448 3453 3458 3463 3468 3473 3478 3483 3488 3493 3498
##  [701] 3503 3508 3513 3518 3523 3528 3533 3538 3543 3548 3553 3558 3563 3568
##  [715] 3573 3578 3583 3588 3593 3598 3603 3608 3613 3618 3623 3628 3633 3638
##  [729] 3643 3648 3653 3658 3663 3668 3673 3678 3683 3688 3693 3698 3703 3708
##  [743] 3713 3718 3723 3728 3733 3738 3743 3748 3753 3758 3763 3768 3773 3778
##  [757] 3783 3788 3793 3798 3803 3808 3813 3818 3823 3828 3833 3838 3843 3848
##  [771] 3853 3858 3863 3868 3873 3878 3883 3888 3893 3898 3903 3908 3913 3918
##  [785] 3923 3928 3933 3938 3943 3948 3953 3958 3963 3968 3973 3978 3983 3988
##  [799] 3993 3998 4003 4008 4013 4018 4023 4028 4033 4038 4043 4048 4053 4058
##  [813] 4063 4068 4073 4078 4083 4088 4093 4098 4103 4108 4113 4118 4123 4128
##  [827] 4133 4138 4143 4148 4153 4158 4163 4168 4173 4178 4183 4188 4193 4198
##  [841] 4203 4208 4213 4218 4223 4228 4233 4238 4243 4248 4253 4258 4263 4268
##  [855] 4273 4278 4283 4288 4293 4298 4303 4308 4313 4318 4323 4328 4333 4338
##  [869] 4343 4348 4353 4358 4363 4368 4373 4378 4383 4388 4393 4398 4403 4408
##  [883] 4413 4418 4423 4428 4433 4438 4443 4448 4453 4458 4463 4468 4473 4478
##  [897] 4483 4488 4493 4498 4503 4508 4513 4518 4523 4528 4533 4538 4543 4548
##  [911] 4553 4558 4563 4568 4573 4578 4583 4588 4593 4598 4603 4608 4613 4618
##  [925] 4623 4628 4633 4638 4643 4648 4653 4658 4663 4668 4673 4678 4683 4688
##  [939] 4693 4698 4703 4708 4713 4718 4723 4728 4733 4738 4743 4748 4753 4758
##  [953] 4763 4768 4773 4778 4783 4788 4793 4798 4803 4808 4813 4818 4823 4828
##  [967] 4833 4838 4843 4848 4853 4858 4863 4868 4873 4878 4883 4888 4893 4898
##  [981] 4903 4908 4913 4918 4923 4928 4933 4938 4943 4948 4953 4958 4963 4968
##  [995] 4973 4978 4983 4988 4993 4998

Amostragem estratificada

#Tamanho que deve ter a amostra:

n = 80 

Tamanhos da população dos estratos

#Tamanho da população no estrato 1
N1 = 500 
#Tamanho da população no estrato 2
N2 = 1200 
#Tamanho da população no estrato 3
N3 = 200 
#Tamanho da população no estrato 4
N4 = 100

Tamanho total da população

N = N1 + N2 + N3 + N4
N
## [1] 2000

Fração amostral

f = n / N
f
## [1] 0.04

Calculando os n´s para cada extrato com alocação proporcional ao tamanho do estrato

n1 = f*N1
n2 = f*N2 
n3 = f*N3 
n4 = f*N4

Juntando os tamanhos das amostras dos estratos

cbind(n1, n2, n3, n4)
##      n1 n2 n3 n4
## [1,] 20 48  8  4

Indicações de materiais em r de Estimação

Estimação em R

video

  • Aulas em Vídeo no Estatidados

Inferência Estatística: Intervalo de confiança, Tamanho de amostra e Teste de Hipóteses

O que é o Teorema central do limite?

No diz que a soma ou a média de variáveis aleatórias independentes quaisquer, quando padronizadas ou não, convergem em distribuição para Z ~ N (0,1)

💡 Dica: Note que este teorema é muito forte, note que independente da distribuição, quando a nossa amostra é grande(n>30), a média/soma das variáveis aleatórias terão distribuição aproximadamente normal.

O que é o Intervalo de Confiança?

É um intervalo numérico, elaborado com base em uma estimativa pontual, o qual podemos confiar que o verdadeiro valor do parâmetro populacional esteja contemplado no mesmo.

💡 Dica: Interpretação do Intervalo de confiança (IC): Se fossem geradas n amostras da mesma população, em 100(1-𝛼) % delas o verdadeiro valor do parâmetro populacional estaria contido nesse intervalo.

☠️ Não se pode falar em probabilidade, pois estamos tratando de uma estimativa pontual, que pode estar contida no intervalo ou não, e não uma variável aleatória, portanto falaremos em confiança. sempre!

Conceitos Básicos e Valores Importantes

Grau de Confiança: Determina o quanto confiamos que o parâmetro esteja contido no intervalo calculado.

Nível de Significância: É o complementar do Grau de Confiança.

Quantil da Normal Padrão: O valor que deixa entre 0 e 𝒁(𝜶/𝟐), probabilidade de (1−𝛼)/2.

  • Quantis da Normal Padrão (Z) Importantes

🎯𝑧0,05 = Quantil de k tal que P(0<Z<K)=45% ; K=1,64.

🎯𝑧0,025= Quantil de k tal que P(0<Z<K)=47,5% ; k=1,96.

🎯𝑧0,005= Quantil de k tal que P(0<Z<K)=49,5% ; k= 2,58.

Tipos de Intervalos de Confiança (IC)

Escolha dos Tipos de Intervalos de Confiança (IC)

IC para Média com Sigma Conhecido

Um processo de fabricação de embalagens segue uma distribuição normal com média populacional desconhecida, mas com desvio-padrão conhecido e igual a 4 baseado em pesquisas piloto. Uma amostra com 64 observações dessa população é feita, com média amostral 45 cm. Dada essa média amostral, a estimativa da média populacional do comprimento das embalagens, Calcule o intervalo de confiança de 95%.

Dados do problema de negócio:

Sabemos que:

Vamos calcular o Intervalo de confiança de 95% para a média populacional ( μ )∶

Foi retirada uma amostra aleatória simples de tamanho 400 de uma variável populacional normalmente distribuída que representa o número de pessoas que clicou em um e-mail direcionado por uma agência de marketing, com média μ desconhecida e variância igual a 25 foi observada do total de leads obtidos em campanhas prévias com objetivo de cadastro. e indicou uma média amostral igual a 12,52. Encontre o intervalo de confiança de 95% para essa média populacional de cliques em e-mails.

Dados do problema de negócio:

Sabemos que:

Vamos calcular o Intervalo de confiança de 95% para a média populacional ( μ )∶

IC para Média com Sigma Desconhecido e (n>=30)

Uma amostra de 53 indústrias de alimentos de peixe é selecionada. Mediu-se a concentração de mercúrio no tecido muscular do peixe e a distribuição não é normal, a média da concentração observada foi de 0,5250 e desvio padrão da amostra 0,3486. Construa um intervalo de confiança de 95% para a média da concetração de mercúrio.

Dados do problema de negócio:

Vamos calcular o Intervalo de confiança de 95% para a média populacional ( μ )∶

IC para Média com Sigma Desconhecido e (n<30)

Uma empresa deseja estimar o tempo médio 𝜇 em horas, para a realização de determinada tarefa pelos funcionários. Uma amostra aleatória de 9 funcionários que realizam a tarefa revelou os seguintes tempos de realização: 𝑥1, 𝑥2, ….. 𝑥9,. Considerando que essa amostra provém de uma população infinita e Calcule um intervalo de confiança para µ com coeficiente de confiança de 95%, em horas.

Considere:

Dados do problema de negócio:

Sabemos que:

Vamos calcular o Intervalo de confiança de 95% para a média populacional ( 𝝁 ):

IC para Proporção

Para estimar a proporção p de pessoas acometidas por COVID-19 numa população, uma amostra aleatória simples de 1600 pessoas foi observada e constatou-se que, dessas pessoas, 160 estavam com a gripe. Calcule um intervalo aproximado de 95% de confiança para proporção.

Dados do problema de negócio:

Sabemos que:

Vamos calcular o Intervalo de confiança de 95% para a média populacional ( 𝝁 ):

Tamanho da amostra para Estimar 𝝁

Considere uma amostragem aleatória simples, sem reposição, de uma população de tamanho muito grande de uma rede de empresas. Qual o tamanho aproximado de amostra que permite estimar a média de uma variável y que representa o quão essa rede é conectada, cujo desvio padrão populacional é igual a 5, com margem de erro 0,1, a um nível de confiança 95%?

Dados do problema de negócio:

Sabemos que:

Tamanho da amostra para Estimar P (Com P Conhecido)

A percentagem de brasileiros que tinha cobertura de plano privado de saúde em junho/2010 era aproximadamente de 20%. Um comitê foi encarregado de realizar uma pesquisa para obter informações atuais.

Usando aproximação normal, qual o tamanho de amostra recomendada se o objetivo do comitê é obter a estimativa da proporção atual de indivíduos que tem plano privado de saúde com uma margem de erro de 3% e nível de confiança 95%?

Dados do problema de negócio:

Sabemos que:

Tamanho da amostra para Estimar P (Com P Desconhecido)

💡 Dica: Notem que ao considerar 𝒑(𝟏−𝒑)=𝟏/𝟒, estamos sendo conservadores, trabalhando com o par de valores que nos traz a maior variabilidade possível.

Qual o tamanho da amostra necessária para estimar a proporção com uma margem de erro de 10% a 95% de confiança? (Considerando 𝒁(𝜶/𝟐)≈𝟐 )

Conceitos Básicos e Valores Importantes

Hipótese em Estatística: Uma afirmação acerca de um parâmetro da p.

Hipótese Nula: É uma Afirmação que será testada, não encontrando evidências estatísticas suficientes para rejeitá-la, a mesma será aceita ou não rejeitada.

Hipótese Alternativa: É o oposto da hipótese Nula.

Erro tipo I: Rejeitar H0, quando H0 é verdadeira.

Erro tipo II: Não rejeitar H0, quando a mesma é falsa, a probabilidade de se cometer esse tipo de erro é denotado por ( 𝜷 )

Nível de Significância ( 𝜶 ): É a probabilidade de se cometer o Erro tipo I e o seu complementar é o nível de confiança.

Poder do Teste (1- 𝜷): É a probabilidade de rejeitar h0, quando a mesma é falsa, ou seja, fazer a coisa certa.

Conceitos Básicos e Valores Importantes

Suponha que desejamos testar se a droga A é melhor que a droga B, então só optaremos pela droga B, no caso em que acharmos fortes evidências que a mesma é melhor que a droga A, caso contrário optaremos por manter a droga A. traduzindo em teste de hipóteses:

Hipóteses:

  • 𝑯𝟎:𝑫𝒓𝒐𝒈𝒂 𝑨=𝑫𝒓𝒐𝒈𝒂 𝑩, " Droga A é igualmente eficiente a Droga B".

  • 𝑯𝟏:𝑫𝒓𝒐𝒈𝒂 𝑨≠𝑫𝒓𝒐𝒈𝒂 𝑩,“Droga A não tem a mesma eficiência que a Droga B.”

Tipos de Testes de Hipóteses

Teste Bilateral:

Numa linha de produção uma máquina deve estar regulada para preencher embalagens com peso médio igual a 1000 g. Históricamente, sabe-se que a distribuição dos pesos desta máquina é normal e a variância é 16 g2. Cientistas, ao implementar um controle de qualidade recolheram na última hora uma amostra de tamanho 10 e observaram que a máquina está produzindo embalagens com peso médio igual 1004 g. Existe evidência para dizer que a máquina está desregulada, ao nível de confiança de 95%?

Dados do problema de negócio:

Zcalc = 3.1623> Zc=1,9599 , logo rejeitamos h0 e há Evidências ao nível de 5% que a máquina esteja Desregulada.

Teste Unilateral à Direita:

Frequentemente, pesquisas amostrais são realizadas em um grande portal de notícias com o intuito de se manter e ou avançar no mercado. Uma das mais recentes foi realizada com 16 usuários e observou-se que os mesmos gastam, em média, 55 minutos consumindo notícias e anúncios em geral deste portal. Observou-se, ainda, que a variabilidade dos dados da pesquisa, dada pela variância, foi igual a 144 min.2. Se um anunciante tem por critério de decisão efetivar um contrato com este portal somente se o tempo médio de consumo for superior a 50 minutos ao nível de 5% de significância, ele deve efetivar o contrato?

Dados do problema de negócio:

Sabemos que:

Tcalc = 1,1667< Tc(15)=1,7530 , logo não rejeitamos h0 e o anunciante não deve efetuar o contrato ao nível de 5% de significância

Teste Unilateral à Esquerda:

Em uma cidade do interior nordestino, historicamente 75% dos acidentes envolvem motociclistas. Visando diminuir este percentual, os órgão competentes investiram em ações educacionais e de fiscalização intensa de modo que, após seis meses de intervenção, verificou-se 231 acidentes envolvendo motociclistas dentre um total de 324 acidentes. Nestas condições e baseado em um adequado teste de hipóteses, você conclui que existe evidência estatística para dizer que a intervenção dos órgãos competentes surtiu efeito positivo ao nível de significância 5%?

Dados do problema de negócio:

Sabemos que:

zcalc = -1,4722>zc=-1,6448, logo Não rejeitamos h0 e a proporção de acidentes com motociclistas e não há evidências intervenção de que a política dos órgãos competentes tenha surtido efeitoao nível de 5% de significância.

Métodos para testar Hipóteses

Seja um teste com :

Ao Nível de significância 𝜶

Regra de decisão:

- Se 𝒌 não pertence ao IC, rejeitamos 𝑯𝟎  , caso contrário, não rejeitamos/Aceitamos 𝑯𝟎.

Região Crítica

Seja um teste com :

Ao Nível de significância 𝜶

Regra de decisão:

- Se o valor que queremos não pertence a RC, não rejeitamos/aceitamos 𝑯𝟎  , caso contrário, rejeitamos/aceitamos 𝑯𝟎.

P-Valor ou Nível Descritivo

É o Menor nível de significância para o qual eu rejeito 𝑯𝟎. A probabilidade de acontecer algo igual ou mais estremo do que foi observado na amostra.

Regra de decisão:

Teste Unilateral à Direita:

✔️ P-valor = P ( Z ≥𝒁𝑪𝒂𝒍𝒄)

Teste Unilateral à Esquerda:

✔️ P-valor= P ( Z ≤ −𝒁𝑪𝒂𝒍𝒄)

Teste Bilateral:

✔️ P-valor= 2 . P ( Z ≥ 𝒁𝑪𝒂𝒍𝒄)

Aula prática Intervalos de confiança e tamanho de amostra

Exemplo 1) IC para Média com Sigma Conhecido

Um processo de fabricação de embalagens segue uma distribuição normal com média populacional desconhecida, mas com desvio-padrão conhecido e igual a 4 baseado em pesquisas piloto. Uma amostra com 64 observações dessa população é feita, com média amostral 45 cm. Dada essa média amostral, a estimativa da média populacional do comprimento das embalagens, Calcule o intervalo de confiança de 95%.

Dados do enunciado:

#Tamanho da amostra
n=64

#Media
Xbarra=45

#nível de significância
alfa=0.05  

#Desvio populacional conhecido
sigma=4

qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado

zalfa_sobre_2=qnorm(1-alfa/2)
zalfa_sobre_2
## [1] 1.959964

Calculando a margem de erro

E=zalfa_sobre_2*sigma/sqrt(n)
E
## [1] 0.979982

Calculando os limites do IC

ic_inf=Xbarra-E
ic_sup=Xbarra+E
#junta os valores
cbind(ic_inf,ic_sup)
##        ic_inf   ic_sup
## [1,] 44.02002 45.97998

Exemplo 2) IC para Média com Sigma Conhecido

Foi retirada uma amostra aleatória simples de tamanho 400 de uma variável populacional normalmente distribuída que representa o número de pessoas que clicou em um e-mail direcionado por uma agência de marketing,com média μ desconhecida e variância igual a 25 foi observada do total de leads obtidos em campanhas prévias com objetivo de cadastro. e indicou uma média amostral igual a 12,52. Encontre o intervalo de confiança de 95% para essa média populacional de cliques em e-mails.

Dados do enunciado

#Tamanho da amostra
n=400

#Media
Xbarra=12.52

#nível de significância
alfa=0.05  

#Desvio populacional Conhecido
sigma=5

qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado

zalfa_sobre_2=qnorm(1-alfa/2)
zalfa_sobre_2
## [1] 1.959964

Calculando a margem de erro

E=round(zalfa_sobre_2,2)*sigma/sqrt(n)
E
## [1] 0.49

Calculando os limites do IC

ic_inf=Xbarra-E
ic_sup=Xbarra+E
#junta os valores
cbind(ic_inf,ic_sup)
##      ic_inf ic_sup
## [1,]  12.03  13.01

Exemplo 3) IC para Média com (Sigma Desconhecido e n>=30)

#Uma amostra de 53 indústrias de alimentos de peixe é selecionada. #Mediu-se a concentração de mercúrio no tecido muscular do peixe #e a distribuição não é normal, a média da concentração observada foi de 0,5250 e desvio padrão da amostra 0,3486. #Construa um intervalo de confiança de 95% para #a média da concetração de mercúrio.

Dados do enunciado:

#Tamanho da amostra
n=53

#Media
Xbarra=0.5250

#nível de significância
alfa=0.05  

#Desvio populacional Desconhecido
s=0.3486

qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado

zalfa_sobre_2=qnorm(1-alfa/2)

Calculando a margem de erro

E=round(zalfa_sobre_2,2)*s/sqrt(n)

Calcula os limites do IC

ic_inf=Xbarra-E
ic_sup=Xbarra+E
## junta os valores 
cbind(ic_inf,ic_sup)
##         ic_inf    ic_sup
## [1,] 0.4311476 0.6188524

Exemplo 4) IC para Média com Sigma Desconhecido e n<30

Uma empresa deseja estimar o tempo médio 𝜇 em horas,

para a realização de determinada tarefa pelos funcionários.

#Uma amostra aleatória de 9 funcionários que realizam a tarefa #revelou os seguintes tempos de realização: 𝑥_1, 𝑥_2, ….. 𝑥_9,. #Considerando que essa amostra provém de uma população infinita e que #∑(x𝑖=1)^9▒〖=54 ℎ𝑜𝑟𝑎𝑠〗 𝑒 ∑(x𝑖^2 )= 396 horas², #Calcule um intervalo de confiança para µ com coeficiente de confiança de 95%, em horas.

Dados do enunciadO

#Tamanho da amostra
n=9

#Media
Xbarra=6

#nível de significância
alfa=0.05  

#Desvio populacional Desconhecido
s=3

qt calcula o quantil da t de student que correpesponde a 1- alfa/2 e n-1 g.l no caso, pois é bilateral o IC Solicitado

talfa_sobre_2=qt(1-alfa/2,9-1)

Calcula a margem de erro

E=round(talfa_sobre_2,2)*s/sqrt(n)

Calcula os limites do IC

ic_inf=Xbarra-E
ic_sup=Xbarra+E

Exibe os limites de forma concatenada

paste(ic_inf,ic_sup)
## [1] "3.69 8.31"

Exemplo 5) IC para Proporção

Para estimar a proporção p de pessoas acometidas por COVID-19 numa população, uma amostra aleatória simples de 1600 pessoas foi observada e constatou-se que, dessas pessoas, 160 estavam com a gripe. Um intervalo aproximado de 95% de confiança para p será dado por:

Dados do enunciado:

#Tamanho da amostra
n=1600

#proporção amostral
pchapeu=160/1600 

#fracasso
qchapeu=1-pchapeu

#nível de significância
alfa=0.05  

#Desvio populacional Desconhecido
sigma=sqrt( (pchapeu*qchapeu)/n)

qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado

zalfa_sobre_2=qnorm(1-alfa/2)
zalfa_sobre_2
## [1] 1.959964

Calculando a margem de erro

E=round(zalfa_sobre_2,2)*sigma
E
## [1] 0.0147

Calculando os limites do IC

ic_inf=pchapeu-E
ic_sup=pchapeu+E
cbind(ic_inf,ic_sup)
##      ic_inf ic_sup
## [1,] 0.0853 0.1147

Exemplo 6) Tamanho da amostra para Estimar 𝝁

Considere uma amostragem aleatória simples, sem reposição, de uma população de tamanho muito grande de uma rede de empresas. Qual o tamanho aproximado de amostra que permite estimar a média de uma variável y que representa o quão essa rede é conectada, cujo desvio padrão populacional é igual a 5, com margem de erro 0,1, a um nível de confiança 95%?

Dados do enunciado:

#Tamanho da amostra
#n=?

#nível de significância
alfa=0.05  

#Desvio populacional Desconhecido
sigma=5

#margem de erro
E=1/10

qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado

zalfa_sobre_2=qnorm(1-alfa/2)
zalfa_sobre_2
## [1] 1.959964

Calculando o tamanho da amostra

n=(round(zalfa_sobre_2,2)^2*sigma^2)/E^2
n
## [1] 9604

Exemplo 7) Tamanho de amostra para para Proporção (P conhecido)

A percentagem de brasileiros que tinha cobertura de plano privado de saúde em junho/2010 era aproximadamente de 20%. Um comitê foi encarregado de realizar uma pesquisa para obter informações atuais.

Usando aproximação normal, qual o tamanho de amostra recomendada se o objetivo do comitê é obter a estimativa da proporção atual de indivíduos que tem plano privado de saúde com uma margem de erro de 3% e nível de confiança 95%?

Dados do enunciado:

#Tamanho da amostra
#n=?

#nível de significância
alfa=0.05  

#proporção populacional
p=20/100 

#fracasso
q=1-p

#margem de erro
E=0.03

qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado

zalfa_sobre_2=qnorm(1-alfa/2)
zalfa_sobre_2
## [1] 1.959964

Calculando o tamanho da amostra

#Supondo z/e = 65
n=65^2*(p*q)
n
## [1] 676

Exemplo 8) Tamanho da amostra para Estimar 𝑷 (Com P desconhecido)

Qual o tamanho da amostra necessária para estimar a proporção com uma margem de erro de 10% a 95% de confiança? (Considerando 𝒁_(𝜶/𝟐)≈𝟐 )

Dados do enunciado:

#Tamanho da amostra
#n=?

#nível de significância
alfa=0.05  

#margem de erro
E=0.1

qnorm calcula o quantil da normal padrão que correpesponde a 1- alfa/2 no caso, pois é bilateral o IC Solicitado

zalfa_sobre_2=qnorm(1-alfa/2)
zalfa_sobre_2
## [1] 1.959964

Calcula o tamanho da amostra

#Supondo z/e = 65
n=( round(zalfa_sobre_2,1)^2*1/4 )/ E^2
n 
## [1] 100

Aula prática Testes de Hipóteses/Testes A/B

Exemplo 1) Testes de Hipótese Bilateral

Numa linha de produção uma máquina deve estar regulada para preencher embalagens com peso médio igual a 1000 g. Históricamente, sabe-se que a distribuição dos pesos desta máquina é normal e a variância é 16 g2. Cientistas, ao implementar um controle de qualidade recolheram na última hora uma amostra de tamanho 10 e observaram que a máquina está produzindo embalagens com peso médio igual 1004 g. Existe evidência para dizer que a máquina está desregulada, ao nível de confiança de 95%?

Dados do enunciado:

#Tamanho da amostra
n=10

#Media
Xbarra=1004

#nível de significância
alfa=0.05  

#Desvio populacional conhecido
sigma=4

#Sob h0
mi=1000

Hipóteses do teste

  • 𝐻0: 𝜇 ≤ 1000

  • 𝐻1: 𝜇!= 1000

Zcalculado

zcalc = (Xbarra - mi)/(sigma/sqrt(n))
zcalc
## [1] 3.162278

Z critico Bilateral

zcrit = qnorm(1-alfa/2)
zcrit
## [1] 1.959964

Zcalc = 3.1623< Zc=1,9599, logo não rejeitamos h0 e não há Evidências ao nível de 5% que a máquina esteja Desregulada.

P-valor

Pvalor=2*(1-pnorm(zcalc))
Pvalor
## [1] 0.001565402

Exemplo 2) Testes de Hipótese Unilateral à Direita (com desvio desconhecido e n<30)

Frequentemente, pesquisas amostrais são realizadas em um grande portal de notícias com o intuito de se manter e ou avançar no mercado. Uma das mais recentes foi realizada com 16 usuários e observou-se que os mesmos gastam, em média, 55 minutos consumindo notícias e anúncios em geral deste portal. Observou-se, ainda, que a variabilidade dos dados da pesquisa, dada pela variância, foi igual a 144 min.2.Se um anunciante tem por critério de decisão efetivar um contrato com este portal somente se o tempo médio de consumo for superior a 50 minutos ao nível de 5% de significância, ele deve efetivar o contrato?

Dados do enunciado:

#Tamanho da amostra
n=16

#Media
Xbarra=55

#nível de significância
alfa=0.05  

#Desvio populacional Desconhecido
s=12

#Média populacional sob h0
mi=50

Hipóteses do teste

  • 𝐻0: 𝜇<50

  • 𝐻1: 𝜇>50

Tcalculado

tcalc = (Xbarra - mi)/(s/sqrt(n))

T critico unilateral

tcrit = qt(1-alfa,16-1)
tcrit
## [1] 1.75305

tcalc = 1,1667< Tc=1,7530, logo não rejeitamos h0 e o anunciante não deve efetuar o contrato ao nível de 5% de significância

P-valor

Pvalor=1-pt(tcalc,15)
Pvalor
## [1] 0.05815957

Exemplo 3) Teste de Hipóteses para proporção

Dados do enunciado

#Tamanho da amostra
n=324

#proporção amostral
pchapeu=231/324

#fracassos
qchapeu=93/324

#nível de significância
alfa=0.05  

#Proporção sob h0
p=0.75

Hipóteses do teste

  • 𝐻0: p > 0,75

  • 𝐻1: p < 0,75

Zcalculado

zcalc = (pchapeu - p)/sqrt(pchapeu*qchapeu/n)
zcalc
## [1] -1.473691

Z critico unilateral

zcrit = qnorm(1-alfa)
zcrit
## [1] 1.644854

zcalc = -1,4722>zc=-1,6448, logo Não rejeitamos h0 e a proporção de acidentes com motociclistas e não há evidências intervenção de que a política dos órgãos competentes tenha surtido efeitoao nível de 5% de significância.

P-valor

Pvalor=pnorm(zcalc)
Pvalor
## [1] 0.07028247