As colunas estão detalhadas abaixo traduzidas a partir da documentação do pacote MASS:
Inicialmente tendo 237 observações, foi necessário remover NA’s o que resultou em 168 observações armazanadas no objeto estudante que posteriormente teve as colunas traduzidas. A descrição das colunas se encontra abaixo:
Sex / Gênero: Gênero do aluno - Feminino e Masculino.
Wr.Hnd / Mão que escreve: Amplitude (distância da ponta do polegar à ponta do dedo mínimo da mão espalmada) da mão que escreve, em centímetros.
NW.Hnd / Mão que não escreve: Amplitude da mão que não escreve.
W.Hnd / Esquerda ou direita: Mão de escrita do aluno - Esquerda e Direita.
Fold / Dobra: Forma como dobram os braços - Esquerda sobre direita, direita sobre esquerda, nenhum dos dois.
Pulse / Pulso: Frequência de pulso do aluno (batimentos por minuto.
Clap / Bater palmas: Qual é a mão que está em cima - Esquerda, direita, nenhuma.
Exer / Exercício: A frequência com que o aluno faz exercício - Freq(frequentemente), alguns, nenhum.
Smoke / Fumante: A quantidade de tabaco que o aluno consome - Pesado, Regular (regularmente), Ocasional(ocasionalmente), Nunca.
Height / Altura: Altura do aluno em centímetros.
M.I” / métricas ou não: Se o aluno expressou a altura em unidades imperiais (pés/polegadas) ou métricas (centímetros/metros) - Métrico, Imperial.
Age / Idade: idade do aluno em anos.
Uma estimativa pontual é um valor numérico que é usado para estimar ou representar um parâmetro desconhecido de uma população com base em dados amostrais. Em outras palavras, é uma única estimativa numérica que é calculada a partir dos dados amostrais e é usada para fornecer uma estimativa do valor verdadeiro do parâmetro na população.
A estimativa pontual é geralmente calculada como uma função dos dados da amostra e é usada como uma aproximação do valor do parâmetro de interesse na população. Por exemplo, se estamos interessados na média populacional de uma variável, como a idade, podemos usar uma estimativa pontual, como a média amostral, para fornecer uma estimativa do valor médio na população.
No entanto, é importante ressaltar que uma estimativa pontual é apenas uma aproximação e pode variar de amostra para amostra. Para fornecer uma indicação da incerteza associada à estimativa pontual, é comum acompanhar a estimativa com um intervalo de confiança ou uma medida de precisão, como o erro padrão.
Em resumo, uma estimativa pontual é um valor único que é calculado a partir dos dados amostrais e é usado como uma estimativa aproximada de um parâmetro desconhecido na população.
estudantes2 <- drop_na(estudantes) # removendo NA
#dataset tendo as colunas renomeadas
estudantes_traduzido <- dplyr::rename(estudantes2, c("Gênero" = "Sex",
"Mão que escreve"="Wr.Hnd",
"Mão que não escreve" ="NW.Hnd",
"Esquerda ou direita"="W.Hnd",
"Dobra"="Fold",
"Pulso"="Pulse",
"Bater palmas"="Clap",
"Exercício"="Exer",
"Fumante"="Smoke",
"Altura"="Height",
"métricas ou não"="M.I",
"Idade"="Age"))
#atribuindo apenas 10 linhas do dataset traduzido
universitarios <- kable(head(estudantes_traduzido, n = 10, col.names = c("Gênero",
"Mão que escreve",
"Mão que não escreve",
"Esquerda ou direita",
"Dobra",
"Pulso",
"Bater palmas",
"Exercício",
"Fumante","Altura",
"métricas ou não",
"Idade")))
#exibindo em tabela responsiva
kable_styling(universitarios, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
| Gênero | Mão que escreve | Mão que não escreve | Esquerda ou direita | Dobra | Pulso | Bater palmas | Exercício | Fumante | Altura | métricas ou não | Idade |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Female | 18.5 | 18.0 | Right | R on L | 92 | Left | Some | Never | 173.00 | Metric | 18.250 |
| Male | 19.5 | 20.5 | Left | R on L | 104 | Left | None | Regul | 177.80 | Imperial | 17.583 |
| Male | 20.0 | 20.0 | Right | Neither | 35 | Right | Some | Never | 165.00 | Metric | 23.667 |
| Female | 18.0 | 17.7 | Right | L on R | 64 | Right | Some | Never | 172.72 | Imperial | 21.000 |
| Male | 17.7 | 17.7 | Right | L on R | 83 | Right | Freq | Never | 182.88 | Imperial | 18.833 |
| Female | 17.0 | 17.3 | Right | R on L | 74 | Right | Freq | Never | 157.00 | Metric | 35.833 |
| Male | 20.0 | 19.5 | Right | R on L | 72 | Right | Some | Never | 175.00 | Metric | 19.000 |
| Male | 18.5 | 18.5 | Right | R on L | 90 | Right | Some | Never | 167.00 | Metric | 22.333 |
| Female | 17.0 | 17.2 | Right | L on R | 80 | Right | Freq | Never | 156.20 | Imperial | 28.500 |
| Female | 19.5 | 20.2 | Right | L on R | 66 | Neither | Some | Never | 155.00 | Metric | 17.500 |
# Definindo a proporção para a amostra (70% do dataset)
proporcao_amostra <- 0.7
# Definindo a sequência de números pseudoaleatórios para reprodução
set.seed(123)
# Obtendo o número total de observações
n_observacoes <- nrow(universitarios2)
# Calcular o tamanho da amostra
tamanho_amostra <- round(proporcao_amostra * n_observacoes)
# Gerar índices aleatórios para a amostra
indices_amostra <- sample(1:n_observacoes, size = tamanho_amostra, replace = FALSE)
# Separar a população e a amostra com base nos índices gerados
populacao <- universitarios2
amostra <- universitarios2[indices_amostra,]
tamanho_pop <- nrow(populacao) #Tamanho da população
tamanho_amostra<- nrow(amostra) #Tamanho da amostra
estimativa_amostra <- mean(amostra$Idade) #estimativa da amostra
tamanhos <- tibble(
"Tamanho População" = tamanho_pop,
"Tamanho Amostra" = tamanho_amostra,
"Média População" = idade_media,
"Estimativa da amostra" = estimativa_amostra)
tamanhos <- kable(tamanhos, col.names = c("Tamanho População", "Tamanho Amostra", "Média População","Estimativa da amostra"))
#exibindo em tabela responsiva
kable_styling(tamanhos, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive", color =" #AEC3B0"))
| Tamanho População | Tamanho Amostra | Média População | Estimativa da amostra |
|---|---|---|---|
| 168 | 118 | 20.43358 | 20.4033 |
# Calcular a margem de erro e o intervalo de confiança
sigma <- 7 # Desvio padrão da população
n <- length(universitarios2$Idade) # Tamanho da amostra
conf <- 0.95 # Nível de confiança
# Calcular o valor crítico Z
z <- qnorm((1 + conf) / 2)
# Calcular a margem de erro
erro <- z * (sigma / sqrt(n))
# Calcular o intervalo de confiança
inferior <- mean(universitarios2$Idade) - erro
superior <- mean(universitarios2$Idade) + erro
media <- mean(universitarios2$Idade)
#organizando
tabela_intervalo <- tibble(
"Erro" = erro,
"Intervalo Inferior" = inferior,
"Intervalo Superior" = superior,
"Média" = media)
tabela_intervalo <- kable(tabela_intervalo, col.names = c("Erro", "Intervalo Inferior", "Intervalo Superior", "Média"))
kable_styling(tabela_intervalo, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
| Erro | Intervalo Inferior | Intervalo Superior | Média |
|---|---|---|---|
| 1.058501 | 19.37508 | 21.49208 | 20.43358 |
# Calcular o valor crítico t (distribuição t de Student)
graus <- n - 1 # Graus de liberdade
t <- qt((1 + conf) / 2, graus)
# Calcular o erro padrão
erro_padrao <- sigma / sqrt(n)
# Calcular a margem de erro
erro_margem <- t * erro_padrao
# Calcular o intervalo de confiança
inferior3 <- media - erro_margem
superior3 <- media + erro_margem
#organizando
tabela_intervalo3 <- tibble(
"Erro padrão" = erro_padrao,
"Intervalo Inferior" = inferior3,
"Intervalo Superior" = superior3,
"Média" = media)
tabela_intervalo3 <- kable(tabela_intervalo3, col.names = c("Erro padrão", "Intervalo Inferior", "Intervalo Superior", "Média"))
kable_styling(tabela_intervalo3, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
| Erro padrão | Intervalo Inferior | Intervalo Superior | Média |
|---|---|---|---|
| 0.6444022 | 19.15737 | 21.70978 | 20.43358 |
# Calcular o desvio padrão desconhecido (σ) de uma variável específica
sigma <- sd(universitarios2$Idade)
# Definir a precisão desejada (E) - por exemplo, 2 anos
E <- 2
# Definir o valor crítico correspondente ao nível de confiança desejado
Z <- qnorm(0.975) # Intervalo de confiança de 95%
# Calcular o tamanho da amostra necessário
n <- ceiling((Z * sigma / E)^2)
Tamanho_necessário <- tibble(
"Tamanho da amostra necessário" = n)
Tamanho_necessário <- kable(Tamanho_necessário, col.names = "Tamanho da amostra necessário")
kable_styling(Tamanho_necessário, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
| Tamanho da amostra necessário |
|---|
| 36 |
Para encontrar o tamanho da amostra necessário para atingir uma margem de erro de 5% em uma pesquisa de estudantes do sexo masculino, quando você não tem uma estimativa de proporção planejada, você pode usar a fórmula do tamanho da amostra para proporção. A fórmula geral é:
n2 = (Z^2 * p * (1-p)) / E^2
Onde: - n é o tamanho da amostra necessário - Z é o valor crítico correspondente ao nível de confiança desejado (por exemplo, 1,96 para um intervalo de confiança de 95%) - p é uma estimativa conservadora da proporção (assumindo 0,5 para obter o tamanho máximo da amostra) - E é a margem de erro desejada (porcentagem)
Agora, vamos aplicar essa fórmula ao dataset “survey” do pacote MASS, considerando apenas os estudantes do sexo masculino.
# Filtrar apenas os estudantes do sexo masculino
male_students <- subset(universitarios2, Gênero == "Male")
# Calcular a proporção conservadora (p) assumindo 0,5
p <- 0.5
# Definir a margem de erro desejada (E) como 5%
E <- 0.05
# Definir o valor crítico correspondente ao nível de confiança desejado
Z <- qnorm(0.975) # Intervalo de confiança de 95%
# Calcular o tamanho da amostra necessário
n2 <- ceiling((Z^2 * p * (1-p)) / E^2)
Tamanho_necessário2 <- tibble(
"Tamanho da amostra necessário" = n2)
Tamanho_necessário2 <- kable(Tamanho_necessário2, col.names = "Tamanho da amostra necessário")
kable_styling(Tamanho_necessário2, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
| Tamanho da amostra necessário |
|---|
| 385 |
filtramos o dataset para incluir apenas os estudantes do sexo masculino. Em seguida, definimos a estimativa conservadora da proporção (p) como 0,5, assumindo que não temos uma estimativa precisa da proporção de estudantes do sexo masculino na população.
A margem de erro desejada (E) é definida como 5% (0,05) e o valor
crítico (Z) é calculado usando a função qnorm() com base no
nível de confiança desejado (0,975 para um intervalo de confiança de
95%).
Por fim, calculamos o tamanho da amostra necessário (n2) usando a
fórmula do tamanho da amostra para proporção e arredondamos para o
próximo número inteiro usando a função ceiling().
Intervalos de confiança
ferimentos<- read_delim("ferimentos - Página1.csv", delim = ",", show_col_types = FALSE)
salina_s <- 1077
salina_r <- 141
n_salina <- 1218
sabao_s <- 1047
sabao_r <- 182
sabao_total <- 1229
n_tamanho <- 2447
# Intervalo de confiança para a média (95% de confiança)
media_salina <- salina_s / n_salina
media_sabao <- sabao_s / sabao_total
desvio_padrao_salina <- sqrt(media_salina * (1 - media_salina) / n_salina)
desvio_padrao_sabao <- sqrt(media_sabao * (1 - media_sabao) / sabao_total)
z_valor <- qnorm(0.975) # Valor crítico para um intervalo de confiança de 95%
# Intervalo de confiança para a média da salina
margem_erro_salina <- z_valor * desvio_padrao_salina
intervalo_confianca_salina_inferior <- media_salina - margem_erro_salina
intervalo_confianca_salina_superior <- media_salina + margem_erro_salina
# Intervalo de confiança para a média do sabão
margem_erro_sabao <- z_valor * desvio_padrao_sabao
intervalo_confianca_sabao_inferior <- media_sabao - margem_erro_sabao
intervalo_confianca_sabao_superior <- media_sabao + margem_erro_sabao
#organizando
tabela_intervalo2 <- tibble(
"Intervalo Salina Inferior" = intervalo_confianca_salina_inferior,
"Intervalo Salina superior" = intervalo_confianca_salina_superior,
"Intervalo Sabão Inferior" = intervalo_confianca_sabao_inferior,
"Intervalo Sabão Superior" = intervalo_confianca_sabao_superior)
tabela_intervalo2 <- kable(tabela_intervalo2, col.names = c("Intervalo Salina Inferior", "Intervalo Salina superior", "Intervalo Sabão Inferior", "Intervalo Sabão Superior"))
kable_styling(tabela_intervalo2, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
| Intervalo Salina Inferior | Intervalo Salina superior | Intervalo Sabão Inferior | Intervalo Sabão Superior |
|---|---|---|---|
| 0.8662687 | 0.9022042 | 0.8320544 | 0.8717698 |
# Intervalo de confiança para a proporção (95% de confiança)
proporcao_salina <- salina_s / n_salina
proporcao_sabao <- sabao_s / sabao_total
margem_erro_proporcao_salina <- z_valor * sqrt((proporcao_salina * (1 - proporcao_salina)) / n_salina)
margem_erro_proporcao_sabao <- z_valor * sqrt((proporcao_sabao * (1 - proporcao_sabao)) / sabao_total)
intervalo_confianca_proporcao_salina_inferior <- proporcao_salina - margem_erro_proporcao_salina
intervalo_confianca_proporcao_salina_superior <- proporcao_salina + margem_erro_proporcao_salina
intervalo_confianca_proporcao_sabao_inferior <- proporcao_sabao - margem_erro_proporcao_sabao
intervalo_confianca_proporcao_sabao_superior <- proporcao_sabao + margem_erro_proporcao_sabao
#organizando
tabela_intervalo2 <- tibble(
"Intervalo Proporção Salina Inferior" = intervalo_confianca_proporcao_salina_inferior,
"Intervalo Proporção Salina superior" = intervalo_confianca_proporcao_salina_superior,
"Intervalo Proporção Sabão Inferior" = intervalo_confianca_proporcao_sabao_inferior,
"Intervalo Proporção Sabão Superior" = intervalo_confianca_proporcao_sabao_superior)
tabela_intervalo2 <- kable(tabela_intervalo2, col.names = c("Intervalo Proporção Salina Inferior", "Intervalo Proporção Salina superior", "Intervalo Proporção Sabão Inferior", "Intervalo Proporção Sabão Superior"))
kable_styling(tabela_intervalo2, full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
| Intervalo Proporção Salina Inferior | Intervalo Proporção Salina superior | Intervalo Proporção Sabão Inferior | Intervalo Proporção Sabão Superior |
|---|---|---|---|
| 0.8662687 | 0.9022042 | 0.8320544 | 0.8717698 |
amostra_simulada <- data.frame(Estimador = c("Média Salina", "Média Sabão", "Proporção Salina", "Proporção Sabão"),
Inferior = c(intervalo_confianca_salina_inferior, intervalo_confianca_sabao_inferior, intervalo_confianca_proporcao_salina_inferior, intervalo_confianca_proporcao_sabao_inferior),
Superior = c(intervalo_confianca_salina_superior, intervalo_confianca_sabao_superior, intervalo_confianca_proporcao_salina_superior, intervalo_confianca_proporcao_sabao_superior))
# Gráfico de intervalos de confiança
ggplot(amostra_simulada, aes(x = Estimador, y = (Inferior + Superior) / 2)) +
geom_pointrange(aes(ymin = Inferior, ymax = Superior)) +
ylim(min(amostra_simulada$Inferior) - 0.05, max(amostra_simulada$Superior) + 0.05) +
xlab("Estimador") +
ylab("Valor") +
ggtitle("Intervalos de Confiança") +
theme_bw()
## Error : The fig.showtext code chunk option must be TRUE
A taxa de reoperação foi maior no grupo de sabão do que no grupo de solução salina, portanto, a solução salina se mostrou mais eficiente com uma 95% de confiança