1 Apresentação do Capítulo

Este curso proporcionará aos futuros participantes uma jornada envolvente no mundo da estatística aplicada, equipando-os com as habilidades para análise de dados em contextos de Ciência de Dados.

Inicialmente, exploraremos as distribuições de probabilidades, antecipando a compreensão da distribuição binomial, de Poisson e normal. Através de exemplos práticos e implementações futuras em R, os participantes mergulharão na aplicação dessas distribuições em cenários do mundo real.

Ao avançarmos, abordaremos a amostragem, discutindo conceitos de população, amostra e técnicas como amostragem aleatória simples, estratificada e por conglomerados. Antecipamos a aplicação destes princípios na garantia de amostras representativas para análises estatísticas.

Na fase de estimação, exploraremos o Teorema do Limite Central, níveis de confiança, significância e a aplicação prática de intervalos de confiança. Futuros estudantes compreenderão os erros inferenciais e sua influência nas conclusões estatísticas.

O curso culminará com a exploração do cálculo do tamanho da amostra, fornecendo as ferramentas necessárias para planejar estudos estatísticos robustos em populações infinitas e finitas.

2 Distribuição de Probabilidades:

2.1 Distribuição Binomial:

A distribuição binomial é uma distribuição de probabilidade discreta que modela o número de sucessos em uma sequência fixa de tentativas independentes, onde cada tentativa tem apenas dois resultados possíveis: sucesso ou fracasso. Os parâmetros fundamentais dessa distribuição são o número de tentativas (\(n\)) e a probabilidade de sucesso (\(p\)) em cada tentativa. A função de probabilidade \(P(k)\), que representa a probabilidade de obter exatamente \(k\) sucessos em \(n\) tentativas, é dada por:

\[\begin{equation} P(k) = \binom{n}{k} p^k (1-p)^{n-k} \end{equation}\]

onde \(\binom{n}{k}\) é o coeficiente binomial, que representa o número de combinações de \(n\) elementos tomados \(k\) a \(k\). A média (\(\mu\)) e a variância (\(\sigma^2\)) da distribuição binomial são dadas por:

\[\begin{equation} \mu = np \end{equation}\]

\[\begin{equation} \sigma^2 = np(1-p) \end{equation}\] amplamente utilizada em situações práticas, como em testes de sucesso/falha, experimentos de Bernoulli, entre outros.

Cálculos de Probabilidades e Média em R:

Para calcular probabilidades e a média para a distribuição binomial em R, podemos usar as funções dbinom() e mean() respectivamente. Vamos considerar um exemplo em que lançamos um dado justo (com probabilidade de sucesso de \(p = \frac{1}{6}\)) 5 vezes e queremos calcular a probabilidade de obter exatamente 2 sucessos e a média do número de sucessos.

# Parâmetros da distribuição binomial
n <- 5
p <- 1/6

# Cálculo da probabilidade de obter exatamente 2 sucessos
probabilidade_2_sucessos <- dbinom(2, size = n, prob = p)

# Exibindo resultados
print(paste("Probabilidade de 2 sucessos:", probabilidade_2_sucessos))
## [1] "Probabilidade de 2 sucessos: 0.160751028806584"

Explicação do Exemplo:

No exemplo acima, definimos \(n = 5\) (lançamento do dado 5 vezes) e \(p = \frac{1}{6}\) (probabilidade de obter um sucesso em cada lançamento, pois o dado é justo). Utilizamos a função dbinom(2, size = n, prob = p) para calcular a probabilidade de obter exatamente 2 sucessos em 5 tentativas.

Esse exemplo ilustra como realizar cálculos específicos e simulações para entender melhor as propriedades da distribuição binomial e sua aplicação em situações práticas.

Exercícios

    1. Uma moeda é lançada 8 vezes. Qual é a probabilidade de obter exatamente 3 caras?
    1. Um dado é lançado 10 vezes. Qual é a probabilidade de obter exatamente 2 vezes o número 5?
    1. Em uma linha de produção, 90% dos produtos são de boa qualidade. Se selecionarmos aleatoriamente 15 produtos, qual é a probabilidade de exatamente 12 serem de boa qualidade?
    1. Um jogo de trivia tem 20 perguntas. Se uma pessoa responde aleatoriamente a cada pergunta, qual é a probabilidade de acertar pelo menos 15 perguntas?
    1. Uma urna contém 8 bolas vermelhas e 5 bolas azuis. Se retirarmos 3 bolas aleatoriamente, qual é a probabilidade de exatamente 2 serem vermelhas?
    1. Um estudante está se preparando para um teste de múltipla escolha com 5 questões. Cada questão tem 4 opções. Qual é a probabilidade de o estudante acertar exatamente 3 questões?
    1. Um dado viciado é lançado 6 vezes. A probabilidade de obter um número ímpar em um único lançamento é 0,4. Qual é a probabilidade de obter exatamente 2 números ímpares em 6 lançamentos?
    1. Um experimento é repetido 20 vezes. Se a probabilidade de sucesso em um único experimento é 0,3, qual é a probabilidade de exatamente 6 sucessos?
    1. Uma urna contém 12 bolas, das quais 4 são defeituosas. Se retirarmos 3 bolas aleatoriamente, qual é a probabilidade de pelo menos 2 serem defeituosas?
    1. Uma lâmpada tem uma probabilidade de 0,9 de funcionar corretamente. Se comprarmos 5 lâmpadas, qual é a probabilidade de pelo menos 4 delas funcionarem corretamente?

2.2 Distribuição de Poisson:

A distribuição de Poisson é uma distribuição discreta de probabilidade que modela o número de eventos raros que ocorrem em um intervalo fixo de tempo ou espaço. Ela é caracterizada por um único parâmetro (\(\lambda\)), que representa a taxa média de ocorrência dos eventos. A função de probabilidade \(P(k)\), que representa a probabilidade de ocorrer exatamente \(k\) eventos em um dado intervalo, é dada por:

\[\begin{equation} P(k) = \frac{e^{-\lambda} \lambda^k}{k!} \end{equation}\]

A média (\(\mu\)) e a variância (\(\sigma^2\)) da distribuição de Poisson são ambos iguais a \(\lambda\).

A distribuição de Poisson é frequentemente utilizada em situações em que os eventos são raros e independentes, como a contagem de chamadas em um call center durante um intervalo de tempo fixo.

Relação com a Distribuição Binomial:

Quando o número de tentativas (\(n\)) em uma distribuição binomial é grande e a probabilidade de sucesso (\(p\)) é pequena, a distribuição binomial se aproxima da distribuição de Poisson com \(\lambda = np\). Essa relação é especialmente útil quando lidamos com eventos raros em grandes populações.

Casos Práticos e Modelagem em R:

Vamos considerar um exemplo prático: suponha que, em média, 4 carros passem por um cruzamento a cada 10 minutos. Podemos modelar se podemo ster 3 carros passando pelo cruzamento em 5 minutos usando uma distribuição de Poisson com \(\mu = \lambda = 2\).

# Parâmetro da distribuição de Poisson, já estamos querendo a metade.
lambda <- 2

# Cálculo da probabilidade de ocorrer exatamente 3 eventos em 5 minutos
probabilidade_3_eventos <- dpois(3, lambda)

print(paste("Probabilidade de 3 eventos em 5 minutos: ", probabilidade_3_eventos))
## [1] "Probabilidade de 3 eventos em 5 minutos:  0.180447044315484"
# Arrendondando e colocando em percentual
print(paste("Em percentual temos: ", round(probabilidade_3_eventos*100,2), "%"))
## [1] "Em percentual temos:  18.04 %"

Explicação do Exemplo:

No exemplo acima, utilizamos a função dpois(3, lambda) para calcular a probabilidade de ocorrerem exatamente 3 eventos em 5 minutos, considerando uma taxa média (\(\lambda\)) de 2 eventos por 5 minutos.

Este exemplo destaca como a distribuição de Poisson pode ser aplicada para modelar eventos raros em um intervalo de tempo fixo, proporcionando uma compreensão mais aprofundada de suas propriedades e aplicações práticas.

Exercícios

    1. Em uma fábrica de chocolates, a média de defeitos por lote é 2. Qual é a probabilidade de haver exatamente 3 defeitos em um lote?
    1. Um call center recebe em média 4 reclamações por hora. Qual é a probabilidade de receber pelo menos 6 reclamações em uma hora?
    1. Em uma livraria, a média de clientes que entram a cada 15 minutos é 8. Qual é a probabilidade de pelo menos 10 clientes entrarem em um intervalo de 15 minutos?
    1. Um sistema de alarme de incêndio tem uma média de 0,5 disparos por dia. Qual é a probabilidade de ocorrerem exatamente 1 disparo em um dia específico?
    1. Em uma estação de metrô, a média de atrasos por semana é 3. Qual é a probabilidade de ocorrerem pelo menos 5 atrasos em uma semana?
    1. Um site de comércio eletrônico recebe em média 12 pedidos por dia. Qual é a probabilidade de receber exatamente 10 pedidos em um dia específico?
    1. Um serviço de entrega de alimentos tem uma média de 1,5 entregas por hora. Qual é a probabilidade de realizar exatamente 2 entregas em uma hora?
    1. Em uma fábrica de automóveis, a média de carros com defeito por semana é 5. Qual é a probabilidade de ter pelo menos 8 carros com defeito em uma semana?
    1. Um sistema de vigilância de uma loja tem uma média de 0,2 eventos de intrusão por dia. Qual é a probabilidade de não ocorrer nenhum evento de intrusão em um dia específico?
    1. Em uma fazenda, a média de nascimentos de bezerros por mês é 7. Qual é a probabilidade de ocorrerem exatamente 6 nascimentos em um mês?

2.3 Distribuição Normal:

A distribuição normal, também conhecida como distribuição gaussiana, é uma distribuição contínua que descreve a forma como muitos fenômenos naturais se distribuem. Caracteriza-se por sua forma de sino e é completamente definida por dois parâmetros: média (\(\mu\)) e desvio padrão (\(\sigma\)). A função de densidade de probabilidade da distribuição normal é dada por:

\[\begin{equation} f(x | \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \end{equation}\]

A distribuição normal padrão (\(Z\)) é uma versão específica com média (\(\mu\)) igual a 0 e desvio padrão (\(\sigma\)) igual a 1.

Características da Distribuição Normal:

  • Simétrica em relação à média.
  • Aproximadamente 68% dos dados estão dentro de 1 desvio padrão da média.
  • Aproximadamente 95% dos dados estão dentro de 2 desvios padrão da média.
  • Aproximadamente 99.7% dos dados estão dentro de 3 desvios padrão da média.

Padronização e Cálculo de Probabilidades:

Para calcular probabilidades em uma distribuição normal, muitas vezes é útil padronizar as variáveis, transformando-as em valores Z. A fórmula para padronização é dada por:

\[\begin{equation} Z = \frac{(X - \mu)}{\sigma} \end{equation}\]

Onde \(X\) é a variável aleatória original, \(\mu\) é a média e \(\sigma\) é o desvio padrão.

Aplicações em Situações Reais:

A distribuição normal é utilizada em estatística devido ao Teorema do Limite Central, que afirma que, mesmo que as variáveis aleatórias originais não sejam normalmente distribuídas, a média de uma amostra grande de tais variáveis se aproximará de uma distribuição normal.

Padronização e Cálculo de Probabilidades em R:

Vamos considerar um exemplo onde queremos calcular a probabilidade de uma variável normal \(X\) ser menor que 2.5, dado que a média (\(\mu\)) é 3 e o desvio padrão (\(\sigma\)) é 1.2.

# Parâmetros da distribuição normal
mu <- 3
sigma <- 1.2

# Cálculo da probabilidade de X ser menor que 2.5
probabilidade_menor_2.5 <- pnorm(2.5, mean = mu, sd = sigma)

# Exibindo resultado
print(paste("Probabilidade de X ser menor que 2.5:",
            probabilidade_menor_2.5))
## [1] "Probabilidade de X ser menor que 2.5: 0.33846111951069"

Explicação do Exemplo:

Neste exemplo, utilizamos a função pnorm(2.5, mean = mu, sd = sigma) para calcular a probabilidade de uma variável normal (\(X\)) ser menor que 2.5, dado que a média (\(\mu\)) é 3 e o desvio padrão (\(\sigma\)) é 1.2. A padronização é realizada automaticamente pela função pnorm(). Esse cálculo é útil em muitas aplicações, como prever a probabilidade de um valor estar abaixo ou acima de um determinado limiar em um conjunto de dados normalmente distribuído.

Exercícios

    1. As alturas de uma população seguem uma distribuição normal com média 170 cm e desvio padrão 10 cm. Qual é a probabilidade de uma pessoa aleatória ter altura superior a 185 cm? (Lembre-se de configurar o lower.tail = F)
    1. O tempo de vida de uma bateria de celular segue uma distribuição normal com média 800 dias e desvio padrão 50 dias. Qual é a probabilidade de uma bateria durar pelo menos 750 dias?
    1. As pontuações em um teste padronizado têm média 100 e desvio padrão 15. Qual é a probabilidade de um aluno ter uma pontuação superior a 120? (Lembre-se de configurar o lower.tail = F)
    1. Os pesos dos sacos de café em uma fábrica seguem uma distribuição normal com média 5 kg e desvio padrão 0,5 kg. Qual é a probabilidade de um saco ter peso inferior a 4,2 kg?
    1. As temperaturas médias diárias em uma cidade seguem uma distribuição normal com média 25°C e desvio padrão 3°C. Qual é a probabilidade de um dia ter temperatura superior a 30°C? (Lembre-se de configurar o lower.tail = F)
    1. As velocidades de conexão à internet em uma área urbana seguem uma distribuição normal com média 50 Mbps e desvio padrão 8 Mbps. Qual é a probabilidade de uma conexão ter velocidade inferior a 40 Mbps?
    1. As notas de um exame têm média 70 e desvio padrão 10. Qual é a probabilidade de um aluno ter uma nota entre 60 e 80?
    1. O consumo diário de calorias de um grupo de pessoas segue uma distribuição normal com média 2000 calorias e desvio padrão 300 calorias. Qual é a probabilidade de uma pessoa consumir mais de 2500 calorias por dia?
    1. As pressões sanguíneas de uma população têm média 120 mmHg e desvio padrão 10 mmHg. Qual é a probabilidade de uma pessoa ter pressão superior a 130 mmHg?
    1. As medidas de um componente eletrônico seguem uma distribuição normal com média 8 cm e desvio padrão 1 cm. Qual é a probabilidade de um componente ter medida inferior a 6,5 cm?

3 Amostragem:

3.1 População e Amostra:

Definição de População e Amostra:

Na estatística, a população é o conjunto completo de elementos que possuem uma característica em comum e sobre os quais se deseja fazer inferências. Por outro lado, a amostra é um subconjunto representativo da população, selecionado com o objetivo de estudar suas propriedades e fazer inferências sobre a população mais ampla.

Em muitos casos, é impraticável ou impossível estudar toda a população de interesse, tornando a amostragem uma abordagem eficiente e eficaz para inferências estatísticas.

Tipos de Amostragem:

  1. Amostragem Aleatória Simples (AAS):
    • Cada elemento da população tem uma chance igual de ser escolhido para a amostra.
    • Método mais simples e direto, mas pode ser impraticável em grandes populações.
  2. Amostragem Estratificada:
    • A população é dividida em subgrupos (estratos) e, em seguida, uma amostra aleatória é selecionada de cada estrato.
    • Útil quando há heterogeneidade significativa na população.
  3. Amostragem por Conglomerados:
    • A população é dividida em grupos (conglomerados), e alguns conglomerados são selecionados aleatoriamente para inclusão na amostra.
    • Eficiente quando é difícil obter uma lista completa da população.
  4. Amostragem Sistemática:
    • Um elemento é escolhido aleatoriamente, e a partir daí, cada k-ésimo elemento é incluído na amostra.
    • Pode ser mais eficiente do que a amostragem aleatória simples em situações específicas.
  5. Amostragem por Quotas:
    • Os elementos são selecionados com base em características específicas para garantir que a amostra seja representativa em relação a essas características.
    • Controla a composição da amostra, mas pode levar a viés se não for feito corretamente.

Exemplo de Amostragem em R:

Vamos considerar um exemplo prático de amostragem aleatória simples em R, utilizando uma população fictícia de idades.

# População de idades
populacao <- c(25, 30, 22, 40, 35, 28, 18, 50, 32, 45)

# Amostra aleatória simples de tamanho 3
amostra <- sample(populacao, size = 3)

# Exibindo resultados
print("População:")
## [1] "População:"
print(populacao)
##  [1] 25 30 22 40 35 28 18 50 32 45
print("Amostra Aleatória Simples:")
## [1] "Amostra Aleatória Simples:"
print(amostra)
## [1] 25 32 30

Explicação do Exemplo:

Neste exemplo, temos uma população fictícia de idades representada pelo vetor populacao. Utilizamos a função sample(populacao, size = 3) para selecionar aleatoriamente uma amostra de tamanho 3. Este exemplo ilustra como realizar uma amostragem aleatória simples em R, mas os mesmos princípios podem ser aplicados aos outros métodos de amostragem mencionados. A escolha do método de amostragem dependerá das características específicas da população e dos objetivos da pesquisa.

3.2 Quando Utilizar uma Amostra:

Critérios para Escolha entre População e Amostra:

A decisão de trabalhar com uma população completa ou com uma amostra depende de diversos fatores, e a escolha é muitas vezes guiada pelos objetivos da pesquisa, recursos disponíveis e viabilidade prática. Alguns critérios para ajudar na tomada de decisão incluem:

  1. Viabilidade Prática:
    • Quando a população é grande ou inacessível, a amostragem pode ser mais viável do que estudar toda a população.
  2. Recursos Disponíveis:
    • Limitações de tempo, custo e recursos humanos podem influenciar a escolha. Muitas vezes, estudar toda a população pode ser impraticável devido a restrições de recursos.
  3. Precisão Desejada:
    • Se a precisão desejada na inferência for alta, estudar toda a população pode ser preferível. No entanto, em muitos casos, uma amostra bem escolhida pode fornecer resultados precisos o suficiente.
  4. Representatividade:
    • Uma amostra deve ser representativa da população para que as inferências sejam válidas. A escolha da amostra deve garantir que todas as características importantes da população estejam adequadamente representadas.
  5. Objetivos da Pesquisa:
    • Se os objetivos da pesquisa incluem generalizações para a população maior, uma amostra representativa é essencial. Se a pesquisa está focada em características específicas, uma amostra pode ser mais apropriada.

Vantagens e Desvantagens da Utilização de Amostras:

Vantagens:

  1. Eficiência:
    • Estudar uma amostra é geralmente mais eficiente em termos de recursos do que estudar toda a população.
  2. Tempo e Custo:
    • Amostrar é muitas vezes mais rápido e econômico do que estudar toda a população, permitindo uma análise mais ágil.
  3. Praticidade:
    • Em muitos casos, estudar toda a população é impraticável, especialmente em pesquisas extensas ou em contextos onde a população é dinâmica.
  4. Generalização:
    • Quando a amostra é cuidadosamente escolhida, os resultados podem ser generalizados para a população maior com um grau aceitável de confiança.

Desvantagens:

  1. Viés de Amostragem:
    • Se a amostra não for representativa da população, os resultados podem ser enviesados.
  2. Perda de Informação:
    • O estudo de uma amostra pode não capturar todas as nuances presentes na população, resultando em uma perda potencial de informações.
  3. Incerteza:
    • Sempre há uma incerteza associada às inferências feitas com base em uma amostra. Quanto menor a amostra, maior a incerteza.
  4. Limitação na Generalização:
    • Em alguns casos, os resultados da amostra podem não se aplicar a subgrupos específicos ou a toda a população.

A escolha entre estudar uma população completa ou uma amostra depende da natureza da pesquisa, dos objetivos e das restrições práticas.

3.3 Amostragem Aleatória Simples:

Conceitos e Procedimentos:

A amostragem aleatória simples (AAS) é um método em que cada elemento da população tem uma probabilidade igual de ser escolhido para a amostra. Esse método é caracterizado por sua simplicidade e garantia de que cada combinação possível de elementos tenha uma chance igual de ser selecionada. Os procedimentos básicos para a amostragem aleatória simples são os seguintes:

  1. Identificação da População:
    • Definir claramente a população alvo da pesquisa.
  2. Atribuição de Números:
    • Atribuir um número único a cada elemento da população.
  3. Seleção Aleatória:
    • Utilizar métodos aleatórios, como números aleatórios ou sorteios, para escolher elementos da população.
  4. Constituição da Amostra:
    • Com base nas escolhas aleatórias, formar a amostra desejada.

A amostragem aleatória simples é especialmente útil quando a população é homogênea, e não há estratificação ou agrupamento significativo.

Implementação Prática em R:

Vamos considerar um exemplo prático de amostragem aleatória simples em R, utilizando uma população fictícia de notas de estudantes.

# População de notas de estudantes
populacao_notas <- c(78, 85, 92, 68, 75, 89, 95, 72, 81, 88)

# Amostra aleatória simples de tamanho 4
amostra <- sample(populacao_notas, size = 4)

# Exibindo resultados
print("População de Notas:")
## [1] "População de Notas:"
print(populacao_notas)
##  [1] 78 85 92 68 75 89 95 72 81 88
print("Amostra Aleatória Simples:")
## [1] "Amostra Aleatória Simples:"
print(amostra)
## [1] 95 68 78 75

Explicação do Exemplo:

Neste exemplo, temos uma população fictícia de notas de estudantes representada pelo vetor populacao_notas. Utilizamos a função sample(populacao_notas, size = 4) para selecionar aleatoriamente uma amostra de tamanho 4. A função sample() realiza a amostragem aleatória simples, garantindo que cada nota tenha uma chance igual de ser escolhida. Este exemplo ilustra como implementar a amostragem aleatória simples em R, sendo um método fundamental na obtenção de amostras representativas de uma população.

3.4 Amostragem Estratificada:

Princípios e Aplicações:

A amostragem estratificada é uma técnica em que a população é dividida em subgrupos homogêneos chamados estratos, e uma amostra é selecionada de cada estrato. O principal objetivo é garantir que cada estrato seja representado na amostra final. Os princípios e procedimentos básicos são os seguintes:

  1. Identificação dos Estratos:
    • Dividir a população em estratos, que são subgrupos que compartilham características semelhantes.
  2. Atribuição de Números:
    • Atribuir números a cada elemento dentro de cada estrato.
  3. Amostragem Aleatória em Cada Estrato:
    • Realizar uma amostragem aleatória simples dentro de cada estrato.
  4. Constituição da Amostra Final:
    • Combinar as amostras de cada estrato para formar a amostra final.

A amostragem estratificada é particularmente útil quando há variação significativa dentro da população e estratos distintos podem ser identificados.

Comparação com Amostragem Aleatória Simples:

A principal diferença entre a amostragem estratificada e a amostragem aleatória simples (AAS) reside na forma como a população é abordada. Enquanto a AAS seleciona aleatoriamente elementos individuais sem considerar características específicas, a amostragem estratificada reconhece a heterogeneidade da população e procura garantir que cada subgrupo seja adequadamente representado.

Vantagens da Amostragem Estratificada:

  1. Maior Precisão:
    • Ao considerar as características específicas dos estratos, a amostragem estratificada pode resultar em estimativas mais precisas para a população total.
  2. Redução do Erro Amostral:
    • A variação entre os estratos pode ser significativamente menor do que na população total, reduzindo o erro amostral.
  3. Melhor Representatividade:
    • Garante que subgrupos importantes sejam representados proporcionalmente, tornando a amostra mais representativa da população total.

Desvantagens da Amostragem Estratificada:

  1. Complexidade na Identificação de Estratos:
    • Identificar estratos adequados e atribuir elementos corretamente pode ser desafiador e requer um entendimento aprofundado da população.
  2. Custos Adicionais:
    • A implementação da amostragem estratificada pode envolver custos adicionais, especialmente se a identificação e seleção dos estratos exigirem esforço significativo.

Exemplo de Amostragem Estratificada em R:

Vamos considerar um exemplo prático de amostragem estratificada em R, utilizando uma população fictícia de alunos de duas escolas diferentes.

# População de notas de alunos de duas escolas
populacao_escola1 <- c(78, 85, 92, 68, 75)
populacao_escola2 <- c(89, 95, 72, 81, 88)

# Amostragem estratificada de tamanho 3 em cada escola
amostra_escola1 <- sample(populacao_escola1, size = 3)
amostra_escola2 <- sample(populacao_escola2, size = 3)

# Exibindo resultados
print("População da Escola 1:")
## [1] "População da Escola 1:"
print(populacao_escola1)
## [1] 78 85 92 68 75
print("Amostra Estratificada da Escola 1:")
## [1] "Amostra Estratificada da Escola 1:"
print(amostra_escola1)
## [1] 68 85 78
print("População da Escola 2:")
## [1] "População da Escola 2:"
print(populacao_escola2)
## [1] 89 95 72 81 88
print("Amostra Estratificada da Escola 2:")
## [1] "Amostra Estratificada da Escola 2:"
print(amostra_escola2)
## [1] 81 72 88

Explicação do Exemplo:

Neste exemplo, temos uma população fictícia de notas de alunos de duas escolas diferentes, representadas pelos vetores populacao_escola1 e populacao_escola2. Realizamos uma amostragem estratificada selecionando aleatoriamente 3 alunos de cada escola usando a função sample(). Esse exemplo ilustra como implementar a amostragem estratificada em R, considerando características específicas (nesse caso, a escola) ao formar a amostra.

3.5 Amostragem por Conglomerados:

Definição e Características:

A amostragem por conglomerados é uma técnica em que a população é dividida em grupos naturais chamados conglomerados, e alguns desses conglomerados são escolhidos aleatoriamente para formar a amostra. Cada conglomerado deve ser heterogêneo internamente, mas homogêneo em relação aos outros conglomerados. As características principais da amostragem por conglomerados incluem:

  1. Formação de Conglomerados:
    • Agrupar elementos da população em conglomerados, geralmente com base em proximidade geográfica, unidades administrativas ou outras características similares.
  2. Amostragem Aleatória de Conglomerados:
    • Selecionar aleatoriamente alguns conglomerados para inclusão na amostra.
  3. Amostragem de Elementos Dentro dos Conglomerados:
    • Realizar uma amostragem interna nos elementos de cada conglomerado escolhido.
  4. Estratégia Eficiente:
    • Pode ser mais eficiente do que a amostragem aleatória simples, especialmente quando é difícil obter uma lista completa da população.

Exemplos Práticos:

Vamos considerar um exemplo prático de amostragem por conglomerados, utilizando uma população fictícia de bairros em uma cidade.

# População de bairros com médias de renda
populacao_bairros <- data.frame(
  bairro = c("Bairro A", "Bairro B", "Bairro C", "Bairro D", "Bairro E"),
  renda_media = c(50000, 55000, 48000, 52000, 49000)
)

# Amostragem por conglomerados de 2 bairros
conglomerados_selecionados <- sample(populacao_bairros$bairro, size = 2)

# Exibindo resultados
print("População de Bairros:")
## [1] "População de Bairros:"
print(populacao_bairros)
##     bairro renda_media
## 1 Bairro A       50000
## 2 Bairro B       55000
## 3 Bairro C       48000
## 4 Bairro D       52000
## 5 Bairro E       49000
print("Conglomerados Selecionados:")
## [1] "Conglomerados Selecionados:"
print(conglomerados_selecionados)
## [1] "Bairro D" "Bairro C"

Explicação do Exemplo:

Neste exemplo, temos uma população fictícia de bairros em uma cidade, representada pelo conjunto de dados populacao_bairros. Utilizamos a função sample(populacao_bairros$bairro, size = 2) para selecionar aleatoriamente 2 bairros como conglomerados. A amostra final consistiria na coleta de dados de todos os elementos (por exemplo, famílias) dentro desses conglomerados escolhidos.

Este exemplo ilustra como a amostragem por conglomerados pode ser aplicada em situações em que é mais prático e eficiente agrupar elementos antes da seleção da amostra. Essa abordagem é particularmente útil quando a população é extensa e a obtenção de uma lista completa é desafiadora.

Exercícios

    1. Uma empresa deseja realizar uma pesquisa de satisfação de seus clientes. Ela possui uma lista com 500 clientes e decide selecionar aleatoriamente uma amostra de 50 clientes para entrevistar. Que tipo de amostragem está sendo utilizada?
    1. Um pesquisador está estudando o comportamento de aves em uma floresta. Ele divide a floresta em diferentes estratos, como copa das árvores, sub-bosque e solo. Em seguida, realiza amostragens separadas em cada estrato. Que tipo de amostragem está sendo empregada?
    1. Um professor deseja saber a opinião de seus alunos sobre um novo método de ensino. Ele divide a turma em grupos de acordo com o desempenho acadêmico e seleciona aleatoriamente alunos de cada grupo para formar a amostra. Que tipo de amostragem é essa?
    1. Uma agência de publicidade quer avaliar a aceitação de um novo comercial de TV. Ela seleciona aleatoriamente cinco cidades diferentes e entrevista todas as pessoas que assistiram ao comercial nessas cidades. Que tipo de amostragem está sendo realizada?
    1. Um instituto de pesquisa deseja estudar a prevalência de uma doença em uma cidade. Ele divide a cidade em regiões geográficas e seleciona aleatoriamente alguns bairros em cada região para realizar exames médicos. Que tipo de amostragem está sendo empregada?
    1. Um fabricante de smartphones deseja verificar a qualidade de seus produtos. Ele seleciona aleatoriamente 100 smartphones do estoque e verifica se há defeitos em cada um deles. Que tipo de amostragem está sendo utilizada?
    1. Um pesquisador quer avaliar a eficácia de um novo medicamento. Ele divide os pacientes em grupos de acordo com a gravidade da doença e, em seguida, seleciona aleatoriamente pacientes de cada grupo para participar do estudo. Que tipo de amostragem está sendo realizada?
    1. Um sindicato deseja conhecer a opinião de seus membros sobre questões trabalhistas. Eles dividem os membros em grupos de acordo com a faixa etária e selecionam aleatoriamente representantes de cada faixa etária para participar de uma reunião. Que tipo de amostragem é essa?
    1. Uma empresa de alimentos deseja avaliar a aceitação de um novo produto. Ela seleciona aleatoriamente supermercados em diferentes regiões do país e, em seguida, coleta dados de vendas em cada supermercado. Que tipo de amostragem está sendo empregada?
    1. Um instituto de pesquisa deseja estudar o hábito de consumo de café em uma cidade. Eles escolhem aleatoriamente uma rua principal da cidade e entrevistam todas as pessoas que passam por ela em um determinado período. Que tipo de amostragem está sendo realizada?

4 Estimação

4.1 Teorema do Limite Central:

Formulação:

O Teorema do Limite Central (TLC) é um dos resultados fundamentais da teoria da probabilidade e da estatística. Ele afirma que, independentemente da forma da distribuição da população original, a média de uma grande amostra da população se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta. O TLC é formulado da seguinte maneira:

Se \(X_1, X_2, ..., X_n\) são variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) com uma média (\(\mu\)) e um desvio padrão (\(\sigma\)), então, à medida que \(n\) se aproxima do infinito, a distribuição das médias amostrais se aproxima de uma distribuição normal com média \(\mu\) e desvio padrão \(\frac{\sigma}{\sqrt{n}}\).

Implicações:

  1. Convergência para uma Distribuição Normal:
    • O teorema implica que, mesmo que a população original não seja normalmente distribuída, a distribuição das médias amostrais se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta.
  2. Independência e Identidade das Variáveis:
    • O TLC requer que as variáveis sejam independentes e identicamente distribuídas. Se essas condições forem satisfeitas, o teorema se aplica independentemente da forma da distribuição original.
  3. Importância para a Inferência Estatística:
    • O TLC é fundamental para a inferência estatística, pois permite que usemos a distribuição normal como uma aproximação para a distribuição das médias amostrais. Isso é fundamental em testes de hipóteses, intervalos de confiança e outras técnicas estatísticas.

Importância na Inferência Estatística:

  1. Estimação de Parâmetros:
    • O TLC é frequentemente utilizado para justificar a escolha da distribuição normal na estimação de parâmetros populacionais. Por exemplo, a distribuição normal é comumente usada na construção de intervalos de confiança para a média populacional.
  2. Testes de Hipóteses:
    • Em muitos testes de hipóteses, especialmente quando o tamanho da amostra é grande, a distribuição normal é usada como uma aproximação para a distribuição das médias amostrais, simplificando os cálculos e permitindo inferências precisas.
  3. Construção de Intervalos de Confiança:
    • O TLC é fundamental na construção de intervalos de confiança para a média populacional. Ele fornece uma justificativa teórica para a utilização da distribuição normal na aproximação das distribuições amostrais.

O Teorema do Limite Central é um conceito importante na teoria estatística, permitindo que os estatísticos façam inferências sobre as médias de amostras, mesmo quando a população original não é normalmente distribuída. Sua aplicação é ampla e fundamental para a compreensão e prática da inferência estatística

4,2 Níveis de Confiança e Significância:

Conceitos e Interpretações:

  1. Níveis de Confiança:
    • O nível de confiança é a probabilidade de que um intervalo de confiança capture o verdadeiro parâmetro de uma população. Por exemplo, um intervalo de confiança de 95% significa que, em repetidas amostragens, 95% dos intervalos construídos dessa maneira conteriam o verdadeiro valor do parâmetro.
  2. Significância Estatística:
    • A significância estatística está associada a testes de hipóteses. Um nível de significância, frequentemente denotado por \(\alpha\), é a probabilidade de rejeitar uma hipótese nula verdadeira. Um nível de significância comum é 0,05, indicando uma probabilidade de 5% de cometer um erro de tipo I.

Relação com Erros de Tipo I e II:

  1. Erro de Tipo I (Falso Positivo):
    • Um erro de tipo I ocorre quando rejeitamos uma hipótese nula verdadeira. O nível de significância (\(\alpha\)) está diretamente relacionado a esse erro. Reduzir \(\alpha\) diminui a probabilidade de um erro de tipo I, mas aumentar \(\alpha\) aumenta essa probabilidade.
  2. Erro de Tipo II (Falso Negativo):
    • Um erro de tipo II ocorre quando falhamos em rejeitar uma hipótese nula falsa. A probabilidade de cometer um erro de tipo II é denotada por \(\beta\). Aumentar o nível de confiança reduz \(\beta\), mas também aumenta a probabilidade de um erro de tipo I.

Exemplo Prático:

Vamos considerar um exemplo prático relacionado a um teste de hipóteses sobre a média de uma população:

  • Hipóteses:
    • \(H_0: \mu = 10\) (hipótese nula)
    • \(H_1: \mu \neq 10\) (hipótese alternativa)
  • Nível de Significância:
    • \(\alpha = 0,05\) (5%)
  • Nível de Confiança:
    • Intervalo de confiança de 95%

Se, ao realizar o teste de hipóteses, rejeitarmos a hipótese nula com um nível de significância de 0,05, isso significa que há 5% de chance de estarmos cometendo um erro de tipo I. Se construirmos um intervalo de confiança de 95%, isso implica que, em repetidas amostragens, 95% desses intervalos conterão a verdadeira média populacional.

Interpretação:

  • Um nível de confiança mais alto implica em um intervalo de confiança mais amplo, proporcionando uma maior probabilidade de capturar o verdadeiro parâmetro, mas ao custo de ser menos preciso.

  • Um nível de significância mais baixo (por exemplo, \(\alpha = 0,01\)) reduz a probabilidade de um erro de tipo I, mas aumenta a probabilidade de um erro de tipo II.

  • A escolha entre níveis de confiança e significância depende das metas da pesquisa, do equilíbrio entre os tipos de erro e da tolerância a esses erros.

Os níveis de confiança e significância são conceitos importantes na inferência estatística. A compreensão desses conceitos e de sua relação com os erros de tipo I e II é essencial para a interpretação correta de intervalos de confiança e resultados de testes de hipóteses.

4.3 Erro Inferencial:

Compreensão dos Erros de Amostragem:

O erro inferencial refere-se à discrepância entre as estimativas amostrais e os verdadeiros parâmetros populacionais. Dois tipos principais de erros de amostragem são comuns na inferência estatística:

Estratégias para Minimização:

  1. Aumento do Tamanho da Amostra:
    • Aumentar o tamanho da amostra geralmente reduz os erros amostrais. Isso ocorre porque, com uma amostra maior, a estimativa tende a se aproximar mais do verdadeiro valor populacional.
  2. Melhoria na Seleção da Amostra:
    • Uma seleção de amostra mais representativa da população pode reduzir vieses e melhorar a precisão da estimativa. Estratégias como amostragem aleatória estratificada podem ser utilizadas para garantir representatividade.
  3. Utilização de Metodologias Adequadas:
    • Escolher a metodologia estatística adequada para a pergunta de pesquisa pode minimizar erros inferenciais. Por exemplo, a escolha entre um teste paramétrico e não paramétrico deve ser baseada na natureza dos dados e nas suposições do teste.
  4. Controle do Nível de Significância:
    • Ao realizar testes de hipóteses, controlar o nível de significância (\(\alpha\)) ajuda a equilibrar os erros de tipo I e II. No entanto, essa escolha deve ser feita considerando as consequências práticas e custos associados a cada tipo de erro.
  5. Validação e Verificação:
    • Realizar validação cruzada, replicação de estudos e verificação dos resultados por diferentes métodos podem ajudar a confirmar a consistência das conclusões e reduzir a probabilidade de erros inferenciais.
  6. Conhecimento do Domínio:
    • Um entendimento profundo do domínio de estudo e das características da população pode orientar a escolha de métodos estatísticos apropriados e melhorar a interpretação dos resultados.

Exemplo Prático:

Vamos considerar um exemplo prático relacionado a um estudo de pesquisa sobre a média de renda em duas cidades diferentes. Um teste de hipóteses é realizado para verificar se há uma diferença significativa nas médias de renda.

  • Hipóteses:
    • \(H_0: \mu_1 = \mu_2\) (hipótese nula: não há diferença significativa nas médias)
    • \(H_1: \mu_1 \neq \mu_2\) (hipótese alternativa: há diferença significativa nas médias)
  • Estratégias para Minimização de Erros:
    • Aumento do tamanho da amostra em cada cidade.
    • Utilização de amostragem aleatória estratificada para garantir representatividade.
    • Controle rigoroso do nível de significância (\(\alpha\)).
# Definindo os dados de renda para as duas cidades
renda_cidade1 <- c(50000, 60000, 70000, 55000, 65000) 
renda_cidade2 <- c(52000, 58000, 69000, 56000, 64000) 

# Realizando o teste t para comparar as médias
teste_t <- t.test(renda_cidade1, renda_cidade2)

# Exibindo o resultado do teste
print(teste_t)
## 
##  Welch Two Sample t-test
## 
## data:  renda_cidade1 and renda_cidade2
## t = 0.043093, df = 7.7988, p-value = 0.9667
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -10550.7  10950.7
## sample estimates:
## mean of x mean of y 
##     60000     59800

Pelo \(p-value = 0.9667\), rejeitamos a hipótese alternativa e mantemos a hipótese nula de que as médias entre as duas cidades são semelhantes, e sua diferença é explicada pelo acaso. Este exemplo é apenas ilustrativo, no próximo capítulo iremos estudar estes testes mais detalhadamente.

A minimização dos erros inferenciais é crucial para garantir que as conclusões obtidas a partir de uma amostra se apliquem de maneira confiável à população maior. O uso de estratégias apropriadas, conhecimento do domínio e cautela na interpretação dos resultados são passos fundamentais na redução desses erros.

4.4 Intervalos de Confiança:

Construção e Interpretação:

  1. Construção de Intervalos de Confiança:
    • Um intervalo de confiança (IC) é uma faixa estimada que, com uma determinada probabilidade (o nível de confiança), contém o verdadeiro valor do parâmetro populacional. Para a média populacional, o IC é frequentemente construído da seguinte maneira:

      \[\begin{equation} \bar{X} \pm \left( z \cdot \frac{\sigma}{\sqrt{n}} \right) \end{equation}\]

    onde:
    • \(\bar{X}\) é a média amostral,
    • \(z\) é o valor crítico da distribuição normal, determinado pelo nível de confiança,
    • \(\sigma\) é o desvio padrão populacional,
    • \(n\) é o tamanho da amostra.
  2. Interpretação:
    • Um intervalo de confiança de 95%, por exemplo, indica que, em repetidas amostragens, 95% desses intervalos conterão a verdadeira média populacional. Quanto mais estreito o intervalo, maior a precisão da estimativa.

Aplicações Práticas em R:

Vamos considerar um exemplo prático de construção de intervalo de confiança para a média populacional em R, usando uma amostra fictícia de notas de estudantes.

# População de notas de estudantes
populacao_notas <- c(78, 85, 92, 68, 75, 89, 95, 72, 81, 88)

# Construção de um intervalo de confiança de 95% para a média
n <- length(populacao_notas)
media_amostral <- mean(populacao_notas)
desvio_padrao_populacional <- sd(populacao_notas)
nivel_confianca <- 0.95

# Cálculo do intervalo de confiança
erro_padrao <- desvio_padrao_populacional / sqrt(n)
margem_erro <- qnorm((1 + nivel_confianca) / 2) * erro_padrao
intervalo_confianca <- c(media_amostral - margem_erro, 
                         media_amostral + margem_erro)

# Exibindo resultados
print("Intervalo de Confiança para a Média Populacional:")
## [1] "Intervalo de Confiança para a Média Populacional:"
print(intervalo_confianca)
## [1] 76.74062 87.85938

Explicação do Exemplo:

Neste exemplo, calculamos um intervalo de confiança de 95% para a média populacional das notas de estudantes. Utilizamos a fórmula mencionada anteriormente, com a função qnorm() para obter o valor crítico da distribuição normal. O intervalo resultante é uma estimativa da faixa em que a verdadeira média populacional provavelmente se encontra com 95% de confiança.

Aplicações Práticas em R:

Os intervalos de confiança são amplamente utilizados em diversas áreas, como economia, medicina e ciências sociais. Eles fornecem uma medida de incerteza associada a uma estimativa amostral e auxiliam na tomada de decisões informadas. A capacidade de construir e interpretar intervalos de confiança é uma habilidade essencial na análise estatística.

Exercícios

    1. Um pesquisador está interessado na altura média de estudantes universitários em uma universidade. Ele coleta uma amostra de 100 estudantes e calcula a média amostral como 175 cm. Construa um intervalo de confiança de 95% para a altura média dos estudantes, supondo um desvio padrão populacional de 8 cm.
    1. Uma empresa deseja estimar a proporção de clientes satisfeitos com seus serviços. Ela coleta uma amostra de 200 clientes e descobre que 150 estão satisfeitos. Construa um intervalo de confiança de 90% para a proporção de clientes satisfeitos.
    1. Um agricultor deseja estimar a produção média de maçãs por árvore em seu pomar. Ele coleta uma amostra de 30 árvores e obtém uma produção média de 50 kg. O desvio padrão amostral é 6 kg. Construa um intervalo de confiança de 99% para a produção média por árvore.
    1. Um fabricante de lâmpadas deseja estimar a vida média de suas lâmpadas. Ele testa uma amostra de 50 lâmpadas e calcula a vida média como 1200 horas, com um desvio padrão de 100 horas. Construa um intervalo de confiança de 95% para a vida média das lâmpadas.
    1. Um epidemiologista quer estimar a taxa média de infecção em uma determinada região. Ele coleta uma amostra de 500 pessoas e encontra uma taxa de infecção de 4%, com desvio padrão de 0,1%. Construa um intervalo de confiança de 98% para a taxa média de infecção.
    1. Um gerente de projeto deseja estimar o tempo médio necessário para concluir uma tarefa. Ele coleta uma amostra de 20 tarefas e calcula o tempo médio como 25 horas, com um desvio padrão de 3 horas. Construa um intervalo de confiança de 90% para o tempo médio de conclusão da tarefa.
    1. Um pesquisador quer estimar a média de calorias consumidas por adultos em uma cidade. Ele coleta uma amostra de 100 adultos e encontra uma média de 2000 calorias, com um desvio padrão de 300 calorias. Construa um intervalo de confiança de 95% para a média de calorias consumidas por adultos.
    1. Uma empresa deseja estimar a diferença média de salários entre dois departamentos. Ela coleta uma amostra de 50 funcionários de cada departamento e encontra que a diferença média é de R$500,00, com um desvio padrão de R$100,00. Construa um intervalo de confiança de 99% para a diferença média de salários.
    1. Um professor quer estimar a média de horas de estudo por semana dos estudantes de sua turma. Ele coleta uma amostra de 25 estudantes e encontra uma média de 12 horas, com um desvio padrão de 2 horas. Construa um intervalo de confiança de 96% para a média de horas de estudo.
    1. Uma empresa de tecnologia deseja estimar a proporção de usuários satisfeitos com seu novo aplicativo. Ela coleta uma amostra de 150 usuários e descobre que 120 estão satisfeitos, com desvio padrão de 2 funcionários. Construa um intervalo de confiança de 99% para a proporção de usuários satisfeitos.

5 Cálculo do Tamanho da Amostra:

5.1 Variáveis Quantitativas e População Infinita:

Fórmulas e Procedimentos:

  1. Estimação da Média Populacional (\(\mu\)):
    • Quando lidamos com variáveis quantitativas em uma população infinita, a estimação da média populacional (\(\mu\)) é realizada usando a seguinte fórmula:

      \[ \bar{X} \pm z \cdot \left( \frac{\sigma}{\sqrt{n}} \right) \]

    onde:
    • \(\bar{X}\) é a média amostral,
    • \(z\) é o valor crítico da distribuição normal, determinado pelo nível de confiança,
    • \(\sigma\) é o desvio padrão populacional,
    • \(n\) é o tamanho da amostra.
  2. Exemplo Numérico:
    • Suponhamos que queremos estimar a média do tempo de espera em uma fila de atendimento ao cliente. Uma amostra aleatória de 30 clientes é selecionada, e a média amostral (\(\bar{X}\)) é de 10 minutos, com um desvio padrão amostral de 2 minutos. Desejamos construir um intervalo de confiança de 95%. \[ \text{Intervalo de Confiança} = \bar{X} \pm z \cdot \left( \frac{\sigma}{\sqrt{n}} \right) \]

    • Substituindo os valores conhecidos, assumindo um nível de confiança de 95% (\(z \approx 1.96\) para este caso):

      \[ \text{Intervalo de Confiança} = 10 \pm 1.96 \cdot \left( \frac{2}{\sqrt{30}} \right) \] Assim, podemos garantir que o intervalo de confiança para essa média populacional será: \(9.284322 \leq \mu \leq 10.715678\).

Exemplo Numérico Detalhado em R:

Vamos utilizar R para calcular o intervalo de confiança para o exemplo mencionado.

# Dados do exemplo
media_amostral <- 10
desvio_padrao_amostral <- 2
n <- 30
nivel_confianca <- 0.95

# Cálculo do intervalo de confiança
erro_padrao <- desvio_padrao_amostral / sqrt(n)
margem_erro <- qnorm((1 + nivel_confianca) / 2) * erro_padrao
intervalo_confianca <- c(media_amostral - margem_erro, 
                         media_amostral + margem_erro)

# Exibindo resultados
print("Intervalo de Confiança para a Média Populacional:")
## [1] "Intervalo de Confiança para a Média Populacional:"
print(intervalo_confianca)
## [1]  9.284322 10.715678

Explicação do Exemplo:

Neste exemplo em R, substituímos os valores conhecidos na fórmula do intervalo de confiança. O resultado é um intervalo de confiança para a média populacional do tempo de espera na fila de atendimento ao cliente. A interpretação do intervalo seria que, com 95% de confiança, a verdadeira média do tempo de espera na população está contida nesse intervalo.

Este procedimento é útil quando a população é infinita, e a distribuição amostral da média se aproxima de uma distribuição normal devido ao Teorema do Limite Central. Essa abordagem é comumente aplicada em situações em que a população é muito grande.

5.2 Variáveis Quantitativas e População Finita:

Adaptações nas Fórmulas:

Quando lidamos com variáveis quantitativas em uma população finita, algumas adaptações nas fórmulas de estimação são necessárias. Para a média populacional (\(\mu\)), a fórmula do intervalo de confiança é ajustada considerando o tamanho finito da população (\(N\)):

\[\begin{equation} \bar{X} \pm z \cdot \left( \frac{\sigma}{\sqrt{\frac{N-n}{N-1} \cdot n}} \right) \end{equation}\]

onde:

  • \(\bar{X}\) é a média amostral,
  • \(z\) é o valor crítico da distribuição normal, determinado pelo nível de confiança,
  • \(\sigma\) é o desvio padrão populacional,
  • \(n\) é o tamanho da amostra,
  • \(N\) é o tamanho total da população.

Considerações Práticas:

  1. População Pequena:
    • Quando lidamos com uma população pequena em relação à amostra, as adaptações para a população finita tornam-se mais relevantes. Se a população é grande, a diferença nas fórmulas se torna menos significativa.
  2. Ajuste para Tamanho da População:
    • A correção no denominador (\(\sqrt{\frac{N-n}{N-1} \cdot n}\)) leva em consideração o efeito de redução da variabilidade quando a amostra é uma grande fração da população. Se a amostra é uma pequena fração da população, essa correção é próxima de 1, e as fórmulas se aproximam das usadas para populações infinitas.
  3. Considerações Éticas e Práticas:
    • Em algumas situações, a disponibilidade de recursos pode limitar o tamanho da amostra. Nesses casos, ajustar as fórmulas para considerar o tamanho finito da população é uma prática ética.

Exemplo Numérico:

Vamos considerar um exemplo prático em que queremos estimar a média de altura de uma população de estudantes universitários, onde a população total é de 1500 estudantes. Uma amostra aleatória de 50 estudantes é selecionada, e a média amostral (\(\bar{X}\)) é de 170 cm, com um desvio padrão amostral de 5 cm. Desejamos construir um intervalo de confiança de 95%.

\[\begin{equation} \text{Intervalo de Confiança} = \bar{X} \pm z \cdot \left( \frac{\sigma}{\sqrt{\frac{N-n}{N-1} \cdot n}} \right) \end{equation}\]

Substituindo os valores conhecidos, assumindo um nível de confiança de 95% (\(z \approx 1.96\) para este caso):

\[ \text{Intervalo de Confiança} = 170 \pm 1.96 \cdot \left( \frac{5}{\sqrt{\frac{1500-50}{1500-1} \cdot 50}} \right) \]

Esta fórmula ajustada leva em consideração o tamanho finito da população ao estimar o intervalo de confiança para a média populacional de altura.

Exemplo Numérico Detalhado em R:

Vamos agora utilizar R para calcular o intervalo de confiança ajustado para uma população finita no exemplo mencionado.

# Dados do exemplo
media_amostral <- 170
desvio_padrao_amostral <- 5
n <- 50
N <- 1500
nivel_confianca <- 0.95

# Cálculo do intervalo de confiança ajustado para população finita
correcao_populacional <- sqrt((N - n) / (N - 1) * n)
erro_padrao <- desvio_padrao_amostral / sqrt(n) *
  correcao_populacional
margem_erro <- qnorm((1 + nivel_confianca) / 2) * erro_padrao
intervalo_confianca <- c(media_amostral - margem_erro, 
                         media_amostral + margem_erro)

# Exibindo resultados
print("Intervalo de Confiança Ajustado para População Finita:")
## [1] "Intervalo de Confiança Ajustado para População Finita:"
print(intervalo_confianca)
## [1] 160.3617 179.6383

Explicação do Exemplo:

Neste exemplo em R, incorporamos a correção para o tamanho finito da população na fórmula do intervalo de confiança. A correção é aplicada multiplicando o erro padrão amostral pela raiz quadrada do fator de correção \(\sqrt{\frac{N-n}{N-1} \cdot n}\). O intervalo resultante é uma estimativa da faixa em que a verdadeira média da altura dos estudantes universitários está contida com 95% de confiança.

A prática de ajustar as fórmulas para considerar o tamanho finito da população é crucial em situações em que o número total de elementos na população é relativamente pequeno, garantindo estimativas mais precisas e éticas.

5.3 Calculando o tamanho de uma amostra

Determinar o tamanho adequado da amostra é uma etapa crucial no planejamento de pesquisas, pois afeta diretamente a precisão e confiabilidade dos resultados obtidos. O tamanho da amostra é influenciado por fatores como a margem de erro desejada, o nível de confiança, a variabilidade dos dados e, em alguns casos, o tamanho da população.

5.3.1 Variáveis quantitativas e população infinita

Quando a população é infinita e conhecemos o desvio padrão da população usaremos a seguinte equação, caso não o conhecemos o desvio devemos utilizar uma amostra inicial para determinar esse desvio.

\[\begin{equation} n = \left(z\frac{s}{e}\right)^2 \end{equation}\]

Exemplo de aplicação:

Uma amostra com 40 cupons fiscais, coletados aleatoriamente em um shopping center, apresentou um desvio padrão do total pago igual a R$ 42,00. A associação de lojistas precisa estimar a média populacional das vendas, com um erro máximo igual a R$ 6,00 e empregando um nível de confiança igual a 90%. Qual o tamanho da amostra a analisar?

# Definindo o número desvio padrão
sigma <- 42

# Definindo o erro máximo
e <- 6

# Definindo a confiança
confianca <- 0.90

# Definindo o valor de z
z <- qnorm(0.5+(confianca/2))

# Estimando n
n <- (z * (sigma /e))**2
round(n)
## [1] 133

Explicação:

  1. Definição dos Parâmetros:
    • \(\sigma\): Desvio padrão populacional (informação do problema) = R$ 42,00.
    • \(E\): Erro máximo desejado = R$ 6,00.
    • Confiança: 90%, o que significa um \(Z\) de aproximadamente 1,645 para uma distribuição normal padrão.
  2. Fórmula do Tamanho da Amostra:
    • A fórmula utilizada é \(n = \left( \frac{Z \cdot \sigma}{E} \right)^2\).
  3. Cálculos em R:
    • Calculamos o valor crítico \(Z\) utilizando a função qnorm.
    • Substituímos os valores conhecidos na fórmula para estimar o tamanho da amostra necessário, neste caso 133.
    • Arredondamos o resultado para o próximo número inteiro, pois o tamanho da amostra deve ser um número inteiro.

5.3.2 Variáveis quantitativas e população finita

Variáveis Quantitativas e População Finita está relacionado à inferência estatística quando lidamos com dados quantitativos (numéricos) e temos conhecimento sobre o tamanho total da população. Vamos explorar os principais conceitos envolvidos:

Variáveis quantitativas são aquelas que representam quantidades mensuráveis e podem ser expressas numericamente. Exemplos incluem idade, peso, altura, renda, entre outras. Essas variáveis fornecem informações sobre a quantidade de algo.

A população finita refere-se a um conjunto específico e delimitado de elementos que estão sob investigação. Em contraste, uma população infinita seria teoricamente ilimitada. Por exemplo, se estivermos interessados nas alturas de estudantes em uma escola específica, a população seria finita, pois tem um número definido de estudantes.

Quando lidamos com uma população finita, é importante levar em conta a correção para população finita ao calcular intervalos de confiança ou realizar testes de hipóteses. Essa correção ajusta os cálculos para levar em consideração o fato de que, ao retirar uma amostra, a composição da população diminui.

Fórmulas para População Finita:

\[\begin{equation} n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)} \end{equation}\]

Exemplo prático

Em um lote de 10.000 latas de refrigerante foi realizada uma amostra aleatória simples de 100 latas e foi obtido o desvio padrão amostral do conteúdo das latas igual a 12 ml. O fabricante estipula um erro máximo sobre a média populacional de apenas 5 ml. Para garantir um nível de confiança de 95% qual o tamanho de amostra deve ser selecionado para este estudo?

Resolvendo com o R

# Obtendo N
N <- 10000

# Obtendo Z
z <- qnorm((0.5 + (0.95 / 2)))

# Obtendo o desvio padrão
s <- 12

# Obtendo o erro aceitável
e <- 5

# Encontrando o tamanho da amostra


n <- ((z ** 2) * (s ** 2) * (N)) / 
  (((z ** 2) * (s ** 2)) + ((e ** 2) * (N - 1)))
round(n)
## [1] 22

Veja que interessante, apenas 22 latas de refrigerante podem garantir a confiança na análise amostral das 10000 latas. Isso representa uma economia significativa nos custos de controle de qualidade da empresa.

Exercícios

    1. Um pesquisador deseja estimar a média de salários de uma população de trabalhadores. Ele quer um intervalo de confiança de 95%, com um erro máximo de R$100. A variabilidade dos salários é conhecida de R$ 500,00. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população infinita?
    1. Uma empresa deseja estimar a proporção de clientes que comprariam um novo produto. Ela quer um intervalo de confiança de 90%, com um erro máximo de 5%, assumindo um desvio padrão de 3%. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população finita de 5000 clientes?
    1. Um cientista social deseja estimar a média de horas que os estudantes universitários gastam estudando por semana. Ele quer um intervalo de confiança de 99%, com um erro máximo de 2 horas e desvio padrão de 1 hora. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população infinita?
    1. Uma agência de viagens deseja estimar a proporção de pessoas que preferem viajar de avião em vez de ônibus. Ela quer um intervalo de confiança de 95%, com um erro máximo de 3%. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população finita de 8000 pessoas, para aceitarmos um desvio de 3%?
    1. Um pesquisador deseja estimar a média de idade de uma população de idosos. Ele quer um intervalo de confiança de 90%, com um erro máximo de 1 ano. A variabilidade das idades é desconhecida. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população infinita e desvio padrão de 6 meses?
    1. Uma empresa de telecomunicações deseja estimar a proporção de clientes insatisfeitos com seus serviços. Ela quer um intervalo de confiança de 96%, com um erro máximo de 2% e desvio padrão de 0,5%. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população finita de 10000 clientes?
    1. Um pesquisador deseja estimar a média de gastos mensais de uma população de famílias. Ele quer um intervalo de confiança de 98%, com um erro máximo de R$10. A variabilidade dos gastos é de R$50,00. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população infinita?
    1. Uma ONG deseja estimar a proporção de voluntários em uma comunidade. Ela quer um intervalo de confiança de 94%, com um erro máximo de 4%. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população finita de 6000 pessoas e desvio padrão de 5%?
    1. Um cientista de dados deseja estimar a média de tempo que os usuários gastam em um aplicativo. Ele quer um intervalo de confiança de 99%, com um erro máximo de 5 minutos. A variabilidade do tempo gasto é de 10 minutos. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população infinita?
    1. Uma empresa de alimentos deseja estimar a proporção de consumidores que preferem um novo sabor de produto. Ela quer um intervalo de confiança de 92%, com um erro máximo de 2%. Qual seria o tamanho mínimo da amostra necessário, assumindo uma população finita de 12000 consumidores e desvio máximo de 3%?

REFERÊNCIAS

BENGFORT, B.; KIM, J. Análise de dados com Hadoop: Uma introdução para Cientista de Dados. 1ª Edição. São Paulo - SP: Novatec, 2016.

BRUCE, P.; BRUCE, A. Estatística para Cientista de Dados: 50 conceitos iniciais. 1ª Edição. Rio de Janeiro - RJ: Alta Books, 2019.

DIAS, Rodrigo fernando. Estaística com R. Alura. 2022. disponível em: https://cursos.alura.com.br/course/estatistica-r-frequencias-medidas

GOLDSCHMIDT, R.; PASSOS, E.; BEZERRA, E. Data Mining: Conceitos, técnicas, orientações e aplicações. 2ª Edição. Rio de Janeiro - RJ: ELSEVIER, 2015.

HADLEY, W.; GARRETT, G. R para Data Science: Importe, arrume, transforme, visualize e modele dados. 1ª Edição. Rio de Janeiro - RJ: Alta Books, 2019.

MUELLER, J. P.; MASSARON, L. Aprendizado de Máquina para leigos. 1ª Edição. Rio de Janeiro - RJ: Alta Books, 2019.

OLIVEIRA, Francisco Estevam Martins de. Estatistica e Probabilidade - Exercicios Resolvidos e Propostos, 3ª edição. [Digite o Local da Editora]: Grupo GEN, 2017. E-book. ISBN 9788521633846. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788521633846/. Acesso em: 06 abr. 2023.

ROSS, Sheldon. Probabilidade. [Digite o Local da Editora]: Grupo A, 2010. E-book. ISBN 9788577806881. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788577806881/. Acesso em: 06 abr. 2023.

UCS - Universidade Caxias do Sul. Big Data: o que é, para que serve, como aplicar e exemplos. Disponível em: https://ead.ucs.br/blog/big-data Acesso em: 12, setembro de 2022.

TAULLI, T. Introdução à Inteligência Artificial: Uma abordagem não técnica. 1ª Edição. São Paulo - SP: Novatec, 2020.