1) Encontre uma estimativa pontual da idade média do estudante universitário com os dados de amostra da pesquisa (survey)

Sobre o dataset Survey do pacote MASS

As colunas estão detalhadas abaixo traduzidas a partir da documentação do pacote MASS:

Inicialmente tendo 237 observações, foi necessário remover NA’s o que resultou em 168 observações armazanadas no objeto estudante que posteriormente teve as colunas traduzidas. A descrição das colunas se encontra abaixo:

  • Sex / Gênero: Gênero do aluno - Feminino e Masculino.

  • Wr.Hnd / Mão que escreve: Amplitude (distância da ponta do polegar à ponta do dedo mínimo da mão espalmada) da mão que escreve, em centímetros.

  • NW.Hnd / Mão que não escreve: Amplitude da mão que não escreve.

  • W.Hnd / Esquerda ou direita: Mão de escrita do aluno - Esquerda e Direita.

  • Fold / Dobra: Forma como dobram os braços - Esquerda sobre direita, direita sobre esquerda, nenhum dos dois.

  • Pulse / Pulso: Frequência de pulso do aluno (batimentos por minuto.

  • Clap / Bater palmas: Qual é a mão que está em cima - Esquerda, direita, nenhuma.

  • Exer / Exercício: A frequência com que o aluno faz exercício - Freq(frequentemente), alguns, nenhum.

  • Smoke / Fumante: A quantidade de tabaco que o aluno consome - Pesado, Regular (regularmente), Ocasional(ocasionalmente), Nunca.

  • Height / Altura: Altura do aluno em centímetros.

  • M.I” / métricas ou não: Se o aluno expressou a altura em unidades imperiais (pés/polegadas) ou métricas (centímetros/metros) - Métrico, Imperial.

  • Age / Idade: idade do aluno em anos.

o que é estimativa pontual?

Uma estimativa pontual é um valor numérico que é usado para estimar ou representar um parâmetro desconhecido de uma população com base em dados amostrais. Em outras palavras, é uma única estimativa numérica que é calculada a partir dos dados amostrais e é usada para fornecer uma estimativa do valor verdadeiro do parâmetro na população.

A estimativa pontual é geralmente calculada como uma função dos dados da amostra e é usada como uma aproximação do valor do parâmetro de interesse na população. Por exemplo, se estamos interessados na média populacional de uma variável, como a idade, podemos usar uma estimativa pontual, como a média amostral, para fornecer uma estimativa do valor médio na população.

No entanto, é importante ressaltar que uma estimativa pontual é apenas uma aproximação e pode variar de amostra para amostra. Para fornecer uma indicação da incerteza associada à estimativa pontual, é comum acompanhar a estimativa com um intervalo de confiança ou uma medida de precisão, como o erro padrão.

Em resumo, uma estimativa pontual é um valor único que é calculado a partir dos dados amostrais e é usado como uma estimativa aproximada de um parâmetro desconhecido na população.

As dez primeiras observações

estudantes2 <- drop_na(estudantes) # removendo NA

#dataset tendo as colunas renomeadas

estudantes_traduzido <- dplyr::rename(estudantes2, c("Gênero" = "Sex",
                                                     "Mão que escreve"="Wr.Hnd",
                                                     "Mão que não escreve" ="NW.Hnd",
                                                     "Esquerda ou direita"="W.Hnd",
                                                     "Dobra"="Fold",
                                                     "Pulso"="Pulse",
                                                     "Bater palmas"="Clap",
                                                     "Exercício"="Exer",
                                                     "Fumante"="Smoke",
                                                     "Altura"="Height",
                                                     "métricas ou não"="M.I",
                                                     "Idade"="Age"))

#atribuindo apenas 10 linhas do dataset traduzido

universitarios <- kable(head(estudantes_traduzido, n = 10, col.names = c("Gênero",
                                                                          "Mão que escreve",
                                                                          "Mão que não escreve",
                                                                          "Esquerda ou direita",
                                                                          "Dobra",
                                                                          "Pulso",
                                                                          "Bater palmas",
                                                                          "Exercício",
                                                                          "Fumante","Altura",
                                                                          "métricas ou não",
                                                                          "Idade")))
#exibindo em tabela responsiva 

kable_styling(universitarios, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
Gênero Mão que escreve Mão que não escreve Esquerda ou direita Dobra Pulso Bater palmas Exercício Fumante Altura métricas ou não Idade
Female 18.5 18.0 Right R on L 92 Left Some Never 173.00 Metric 18.250
Male 19.5 20.5 Left R on L 104 Left None Regul 177.80 Imperial 17.583
Male 20.0 20.0 Right Neither 35 Right Some Never 165.00 Metric 23.667
Female 18.0 17.7 Right L on R 64 Right Some Never 172.72 Imperial 21.000
Male 17.7 17.7 Right L on R 83 Right Freq Never 182.88 Imperial 18.833
Female 17.0 17.3 Right R on L 74 Right Freq Never 157.00 Metric 35.833
Male 20.0 19.5 Right R on L 72 Right Some Never 175.00 Metric 19.000
Male 18.5 18.5 Right R on L 90 Right Some Never 167.00 Metric 22.333
Female 17.0 17.2 Right L on R 80 Right Freq Never 156.20 Imperial 28.500
Female 19.5 20.2 Right L on R 66 Neither Some Never 155.00 Metric 17.500

Tabela de Tamanho, Realidade e estimativa

# Definindo a proporção para a amostra (70% do dataset)
proporcao_amostra <- 0.7

# Definindo a sequência de números pseudoaleatórios para reprodução
set.seed(123)

# Obtendo o número total de observações
n_observacoes <- nrow(universitarios2)

# Calcular o tamanho da amostra
tamanho_amostra <- round(proporcao_amostra * n_observacoes)

# Gerar índices aleatórios para a amostra
indices_amostra <- sample(1:n_observacoes, size = tamanho_amostra, replace = FALSE)

# Separar a população e a amostra com base nos índices gerados
populacao <- universitarios2
amostra <- universitarios2[indices_amostra,]


tamanho_pop <- nrow(populacao) #Tamanho da população
tamanho_amostra<- nrow(amostra)   #Tamanho da amostra

estimativa_amostra <- mean(amostra$Idade) #estimativa da amostra


tamanhos <- tibble(
  "Tamanho População" = tamanho_pop,
  "Tamanho Amostra" = tamanho_amostra,
  "Média População" = idade_media,
  "Estimativa da amostra" = estimativa_amostra)


tamanhos <- kable(tamanhos, col.names = c("Tamanho População", "Tamanho Amostra", "Média População","Estimativa da amostra"))

#exibindo em tabela responsiva 

kable_styling(tamanhos, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive", color =" #AEC3B0"))
Tamanho População Tamanho Amostra Média População Estimativa da amostra
168 118 20.43358 20.4033

2) Assuma o desvio padrão da população, σ, da idade do aluno nos dados da pesquisa é 7. Encontre a margem de erro e a estimativa de intervalo com nível de confiança de 95%.

Considerando o dataset como amostra

# Calcular a margem de erro e o intervalo de confiança
sigma <- 7  # Desvio padrão da população
n <- length(universitarios2$Idade)  # Tamanho da amostra
conf <- 0.95  # Nível de confiança

# Calcular o valor crítico Z
z <- qnorm((1 + conf) / 2)

# Calcular a margem de erro
erro <- z * (sigma / sqrt(n))

# Calcular o intervalo de confiança
inferior <- mean(universitarios2$Idade) - erro
superior <- mean(universitarios2$Idade) + erro

media <- mean(universitarios2$Idade)

#organizando

tabela_intervalo <- tibble(
  "Erro" = erro,
  "Intervalo Inferior" = inferior,
  "Intervalo Superior" = superior,
  "Média" = media)


tabela_intervalo <- kable(tabela_intervalo, col.names = c("Erro", "Intervalo Inferior", "Intervalo Superior", "Média"))

kable_styling(tabela_intervalo, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
Erro Intervalo Inferior Intervalo Superior Média
1.058501 19.37508 21.49208 20.43358

Considerando o dataset como a população

3) Sem assumir o desvio padrão da população, σ, da idade do aluno na pesquisa, encontre a margem de erro e a estimativa do intervalo com nível de confiança de 95%.

# Calcular o valor crítico t (distribuição t de Student)
graus <- n - 1  # Graus de liberdade
t <- qt((1 + conf) / 2, graus)

# Calcular o erro padrão
erro_padrao <- sigma / sqrt(n)

# Calcular a margem de erro
erro_margem <- t * erro_padrao

# Calcular o intervalo de confiança
inferior3 <- media - erro_margem
superior3 <- media + erro_margem


#organizando

tabela_intervalo3 <- tibble(
  "Erro padrão" = erro_padrao,
  "Intervalo Inferior" = inferior3,
  "Intervalo Superior" = superior3,
  "Média" = media)


tabela_intervalo3 <- kable(tabela_intervalo3, col.names = c("Erro padrão", "Intervalo Inferior", "Intervalo Superior", "Média"))

kable_styling(tabela_intervalo3, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
Erro padrão Intervalo Inferior Intervalo Superior Média
0.6444022 19.15737 21.70978 20.43358

4) Melhore a qualidade de uma pesquisa amostral aumentando o tamanho da amostra com desvio padrão desconhecido, σ.

# Calcular o desvio padrão desconhecido (σ) de uma variável específica
sigma <- sd(universitarios2$Idade)

# Definir a precisão desejada (E) - por exemplo, 2 anos
E <- 2

# Definir o valor crítico correspondente ao nível de confiança desejado
Z <- qnorm(0.975)  # Intervalo de confiança de 95%

# Calcular o tamanho da amostra necessário
n <- ceiling((Z * sigma / E)^2)

Tamanho_necessário <- tibble(
  "Tamanho da amostra necessário" = n)


Tamanho_necessário <- kable(Tamanho_necessário, col.names = "Tamanho da amostra necessário")

kable_styling(Tamanho_necessário, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
Tamanho da amostra necessário
36

5) Suponha que você não tenha uma estimativa de proporção planejada, encontre o tamanho da amostra necessário para atingir uma margem de erro de 5% para a pesquisa de estudantes do sexo masculino com um nível de confiança de 95%.

Para encontrar o tamanho da amostra necessário para atingir uma margem de erro de 5% em uma pesquisa de estudantes do sexo masculino, quando você não tem uma estimativa de proporção planejada, você pode usar a fórmula do tamanho da amostra para proporção. A fórmula geral é:

n2 = (Z^2 * p * (1-p)) / E^2

Onde: - n é o tamanho da amostra necessário - Z é o valor crítico correspondente ao nível de confiança desejado (por exemplo, 1,96 para um intervalo de confiança de 95%) - p é uma estimativa conservadora da proporção (assumindo 0,5 para obter o tamanho máximo da amostra) - E é a margem de erro desejada (porcentagem)

Agora, vamos aplicar essa fórmula ao dataset “survey” do pacote MASS, considerando apenas os estudantes do sexo masculino.

# Filtrar apenas os estudantes do sexo masculino
male_students <- subset(universitarios2, Gênero == "Male")

# Calcular a proporção conservadora (p) assumindo 0,5
p <- 0.5

# Definir a margem de erro desejada (E) como 5%
E <- 0.05

# Definir o valor crítico correspondente ao nível de confiança desejado
Z <- qnorm(0.975)  # Intervalo de confiança de 95%

# Calcular o tamanho da amostra necessário
n2 <- ceiling((Z^2 * p * (1-p)) / E^2)

Tamanho_necessário2 <- tibble(
  "Tamanho da amostra necessário" = n2)


Tamanho_necessário2 <- kable(Tamanho_necessário2, col.names = "Tamanho da amostra necessário")

kable_styling(Tamanho_necessário2, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
Tamanho da amostra necessário
385

filtramos o dataset para incluir apenas os estudantes do sexo masculino. Em seguida, definimos a estimativa conservadora da proporção (p) como 0,5, assumindo que não temos uma estimativa precisa da proporção de estudantes do sexo masculino na população.

A margem de erro desejada (E) é definida como 5% (0,05) e o valor crítico (Z) é calculado usando a função qnorm() com base no nível de confiança desejado (0,975 para um intervalo de confiança de 95%).

Por fim, calculamos o tamanho da amostra necessário (n2) usando a fórmula do tamanho da amostra para proporção e arredondamos para o próximo número inteiro usando a função ceiling().