Verdadeira.
Queremos calcular o erro padrão da combinação linear: \[ \mu_A - \frac{\mu_B + \mu_C}{2} \]
Erro padrão para combinações lineares de médias amostrais independentes com mesma variância: \[ EP = \sqrt{\mathrm{Var}(\bar{Y}_A) + \left( \frac{1}{2} \right)^2 \mathrm{Var}(\bar{Y}_B) + \left( \frac{1}{2} \right)^2 \mathrm{Var}(\bar{Y}_C)} \]
Como o número de repetições é 6 para cada tratamento: \[ \mathrm{Var}(\bar{Y}_A) = \mathrm{Var}(\bar{Y}_B) = \mathrm{Var}(\bar{Y}_C) = \frac{\sigma^2}{6} \]
Substituindo na fórmula: \[ EP^2 = \frac{\sigma^2}{6} + \left( \frac{1}{2} \right)^2 \cdot \frac{\sigma^2}{6} + \left( \frac{1}{2} \right)^2 \cdot \frac{\sigma^2}{6} = \frac{\sigma^2}{6} + \frac{1}{4} \cdot \frac{\sigma^2}{6} + \frac{1}{4} \cdot \frac{\sigma^2}{6} = \frac{\sigma^2}{6} \left(1 + \frac{1}{4} + \frac{1}{4} \right) = \frac{\sigma^2}{6} \cdot \frac{3}{2} = \frac{\sigma^2}{4} \]
Portanto, o erro padrão é: \[ EP = \sqrt{\frac{\sigma^2}{4}} = \frac{\sigma}{2} \]
Falso, a unidade experimental é a porção inoculada com o microorganismo, e não as subporções.
A unidade experimental é a menor unidade à qual um tratamento é aleatoriamente aplicado. Se o substrato foi dividido antes da inoculação e cada parte inoculada com um microorganismo diferente, então o tratamento foi aplicado ao substrato dividido, e não às subporções. Assim, todas as subporções de uma mesma porção têm o mesmo tratamento.
As subporções são unidades de observação, mas não unidades experimentais, pois o tratamento (microorganismo) foi aplicado antes da subdivisão.
Verdadeira.
Erro padrão de uma combinação linear de médias: \[ EP^2 = \mathrm{Var}(\bar{Y}_A) + \left( \frac{1}{4} \right)^2 \left[ \mathrm{Var}(\bar{Y}_B) + \mathrm{Var}(\bar{Y}_C) + \mathrm{Var}(\bar{Y}_D) + \mathrm{Var}(\bar{Y}_E) \right] \]
No plano em quadrado latino com 5 tratamentos (A, B, C, D, E), temos:
Substituindo na fórmula: \[ EP^2 = 5 + \left( \frac{1}{4} \right)^2 \cdot (5 + 5 + 5 + 5) = 5 + \frac{1}{16} \cdot 20 = 5 + 1{,}25 = 6{,}25 \Rightarrow EP = \sqrt{6{,}25} = 2{,}5 \]
Falso.
A média amostral é que tem distribuição Normal, não a média populacional. A média populacional é um parâmetro fixo, não uma variável aleatória.
Vamos ajustar um modelo com blocos ao acaso para comparar os três tratamentos.
# Construção dos dados com base nas informações fornecidas
set.seed(42) # Para reprodutibilidade
trat <- rep(c("T1", "T2", "T3"), each = 8) # 8 observações por tratamento
bloco <- rep(rep(c("B1", "B2", "B3", "B4"), each = 2), times = 3) # 2 observações por bloco por tratamento
# Gerar dados simulando médias fornecidas no enunciado
resposta <- c(
rnorm(8, mean = 23.3, sd = 1),
rnorm(8, mean = 31.575, sd = 1),
rnorm(8, mean = 30.45, sd = 1)
)
dados_q2 <- data.frame(Tratamento = trat, Bloco = bloco, Resposta = resposta)
# Ajustar modelo de blocos ao acaso
# obs.: a função aov ajusta modelos lineares específicos para análise de variância
# as hipóteses são relacionadas à igualdade entre as médias
modelo2a <- aov(Resposta ~ Tratamento + Bloco, data = dados_q2)
summary(modelo2a)
## Df Sum Sq Mean Sq F value Pr(>F)
## Tratamento 2 299.97 149.98 104.23 1.27e-10 ***
## Bloco 3 5.14 1.71 1.19 0.341
## Residuals 18 25.90 1.44
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Modelo: \[ Y_{ij} = \mu + \tau_i + \beta_j + \varepsilon_{ij} \]
Onde: \(\mu\) é a média geral; \(\tau_i\) é o efeito do tratamento \(i\); \(\beta_j\) é o efeito do bloco \(j\); \(\varepsilon_{ij} \sim \mathcal{N}(0, \sigma^2)\)
Hipóteses para os tratamentos:
\(H_0: \tau_1 = \tau_2 = \tau_3\) vs \(H_1: \exists\ i,j \text{ tal que } \tau_i \ne \tau_j\)
A tabela ANOVA acima nos permite verificar se os tratamentos produzem
efeitos diferentes. Considerando que o p-valor do fator
Tratamento
é menor que o nível de significância de 5%,
rejeitamos \(H_0\) e podemos concluir
que há evidências de diferença significativa entre os fertilizantes.
A comparação entre os tratamentos (utilizando o Tratamento 1 como
controle) será feita utilizando a função emmeans()
.
# Comparações dos tratamentos com o controle (T1)
# obs.: emmeans é semelhante à função aov, mas explora comparações múltiplas
comparacoes_vs_controle <- emmeans(modelo2a, specs = "Tratamento") %>%
contrast(method = "trt.vs.ctrl", ref = 1) # T1 é o primeiro nível
comparacoes_vs_controle
## contrast estimate SE df t.ratio p.value
## T2 - T1 8.38 0.6 18 13.977 <.0001
## T3 - T1 6.07 0.6 18 10.124 <.0001
##
## Results are averaged over the levels of: Bloco
## P value adjustment: dunnettx method for 2 tests
Interpretação:
Hipóteses:
Para cada comparação entre tratamento alternativo e o controle (T1), testamos:
Onde: - \(\mu_1\) é a média do tratamento controle (T1); - \(\mu_i\) é a média do tratamento alternativo (T2 ou T3).
Conclusão:
Rejeitamos H0 para ambos os tratamentos (T2 e T3). Dessa forma, há indícios de que tanto o fertilizante T2 quanto o T3 resultam em aumento estatisticamente significativo na produtividade, comparados ao fertilizante padrão T1, com nível de significância de 5%.
# Dados da tabela
dados3a <- data.frame(
Dose = rep(c("A", "B", "C", "D"), each = 4),
Resposta = c(
14.1, 18.7, 23.2, 21.2,
23.2, 16.5, 25.6, 26.2,
14.0, 28.9, 32.7, 42.7,
27.5, 31.8, 33.2, 48.1
)
)
# Ajuste do modelo
modelo3a <- aov(Resposta ~ Dose, data = dados3a)
summary(modelo3a)
## Df Sum Sq Mean Sq F value Pr(>F)
## Dose 3 596.2 198.74 3.09 0.0678 .
## Residuals 12 771.8 64.31
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Modelo: \[ Y_{ij} = \mu + \tau_i + \varepsilon_{ij} \]
Onde:
Hipóteses: \[ H_0: \tau_A = \tau_B = \tau_C = \tau_D \quad \text{(todas as doses têm o mesmo efeito)} \] \[ H_1: \text{Pelo menos uma } \tau_i \text{ difere} \quad \text{(existe diferença entre as doses)} \]
Com base nos resultados encontrados na ANOVA e a um nível de significância de 5% (0.05), não há evidências para rejeitar H0. Logo, não existe diferença significativa entre os efeitos das doses de insulina.
Modelo fatorial completo: \[ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk} \]
Onde:
Hipóteses: - Para substância 1:
\[
H_0: \alpha_0 = \alpha_1 \quad \text{(sem efeito da substância 1)}
\]
Para substância 2:
\[
H_0: \beta_0 = \beta_1 \quad \text{(sem efeito da substância 2)}
\]
Para a interação:
\[
H_0: (\alpha\beta)_{ij} = 0 \quad \text{(sem interação entre as
substâncias)}
\]
# Reutilizando os dados da questão 3(a), mas com estrutura fatorial
dados3b <- dados3a %>%
mutate(
Subst1 = ifelse(Dose %in% c("B", "D"), "Sim", "Não"),
Subst2 = ifelse(Dose %in% c("C", "D"), "Sim", "Não")
)
# Ajustar modelo fatorial 2x2 com interação
modelo3b <- aov(Resposta ~ Subst1 * Subst2, data = dados3b)
summary(modelo3b)
## Df Sum Sq Mean Sq F value Pr(>F)
## Subst1 1 83.7 83.7 1.302 0.2761
## Subst2 1 508.5 508.5 7.907 0.0157 *
## Subst1:Subst2 1 4.0 4.0 0.062 0.8073
## Residuals 12 771.8 64.3
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ggplot(dados3b, aes(x = Subst1, y = Resposta, color = Subst2, group = Subst2)) +
stat_summary(fun = mean, geom = "point", size = 3) +
stat_summary(fun = mean, geom = "line", linewidth = 1.1) +
labs(title = "Gráfico de Interação: Substância 1 × Substância 2",
y = "Redução de Açúcar", x = "Substância 1")
Conclusão: Com base na ANOVA fatorial e utilizando o nível de significância de \(\alpha = 0.05\), apenas a substância 2 teve efeito estatisticamente significativo sobre a redução de açúcar sanguíneo. O gráfico de interação reforça essa conclusão: embora as linhas estejam visivelmente distantes entre si, o comportamento é praticamente paralelo, o que sugere ausência de interação. Ou seja, os efeitos são aditivos e independentes, e a presença da substância 2 aumenta consistentemente a resposta, independentemente da presença da substância 1.
Modelo \[ Y_{ij} = \mu + \tau_i + \delta_j + \varepsilon_{ij} \]
\[\begin{align*}
& \tau_i \text{: efeito do tratamento } i \in \{A, B, C, D\} \quad
\text{(sem decompor em substâncias)} \\
& \delta_j \text{: efeito do dia } j \in \{1, 2, 3, 4\}
\end{align*}\]
# Dados reorganizados para a questão c
dados3c <- data.frame(
Dose = rep(c("A", "B", "C", "D"), each = 4),
Dia = factor(rep(1:4, times = 4)),
Resposta = c(
14.1, 18.7, 23.2, 21.2, # Dose A, dias 1 a 4
23.2, 16.5, 25.6, 26.2, # Dose B
14.0, 28.9, 32.7, 42.7, # Dose C
27.5, 31.8, 33.2, 48.1 # Dose D
)
)
# Ajustando modelo com fatores Dose e Dia
modelo3c <- aov(Resposta ~ Dose + Dia, data = dados3c)
summary(modelo3c)
## Df Sum Sq Mean Sq F value Pr(>F)
## Dose 3 596.2 198.74 6.299 0.0137 *
## Dia 3 487.8 162.60 5.153 0.0240 *
## Residuals 9 284.0 31.55
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Conclusões O fator Dose continua apresentando efeito significativo, indicando que as diferentes doses de insulina afetam a redução do açúcar. O fator Dia também apresentou efeito significativo (p-valor < 0.05), indicando que fatores externos ao tratamento (como clima ou rotina) influenciam os resultados.
Modelo \[ Y_{ijk} = \mu + \tau_i + \delta_j + \rho_k + \varepsilon_{ijk} \]
\[\begin{align*}
& Y_{ijk} \text{: resposta da dose } i \text{ no dia } j \text{ na
raça } k \\
& \mu \text{: média geral} \\
& \tau_i \text{: efeito da dose (A, B, C, D)} \\
& \delta_j \text{: efeito do dia (1 a 4)} \\
& \rho_k \text{: efeito da raça (1 a 4)} \\
& \varepsilon_{ijk} \sim \mathcal{N}(0, \sigma^2)
\end{align*}\]
# Criando o dataframe com Dia, Raça, Dose e Resposta
dados3d <- data.frame(
Dia = rep(1:4, each = 4),
Raca = rep(1:4, times = 4),
Dose = c("C", "B", "A", "D",
"A", "D", "C", "B",
"B", "C", "D", "A",
"D", "A", "B", "C"),
Resposta = c(
14.0, 23.2, 14.1, 27.5,
18.7, 31.8, 28.9, 16.5,
25.6, 32.7, 33.2, 23.2,
48.1, 21.2, 26.2, 42.7
)
)
# Ajustar modelo com Dia, Raça e Dose
modelo3d <- aov(Resposta ~ Dose + Dia + Raca, data = dados3d)
summary(modelo3d)
## Df Sum Sq Mean Sq F value Pr(>F)
## Dose 3 596.2 198.7 6.938 0.00832 **
## Dia 1 485.1 485.1 16.935 0.00209 **
## Raca 1 0.2 0.2 0.007 0.93506
## Residuals 10 286.5 28.6
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Conclusões Incluir o fator “Raça” na análise não tem efeito significativo uma vez que seu p-valor (0.935) é maior que o nível de significância com que estamos trabalhando (5%). Também observamos que incluir o fator raça no modelo não altera a conclusão da questão anterior de que os fatores dose e dia são estatisticamente significativos.
Isso ocorre porque o fator Raça foi incluído no modelo, mas não está associado de forma consistente com a variação na resposta. Ou seja, as diferenças entre as raças dos coelhos não explicam a variação observada na redução do açúcar sanguíneo.
Como cada raça aparece apenas uma vez por dia, e a atribuição de doses às raças é feita de forma balanceada ao longo dos dias, o efeito da raça não se acumula nem se repete — ou seja, não há replicação suficiente para estimar o efeito da raça com precisão.
Além disso, a maior parte da variação que a raça poderia explicar já foi absorvida pelo fator Dia, que continua significativo. Isso significa que o dia do experimento (condições ambientais) é uma fonte mais relevante de variação do que a genética dos coelhos.
# Carregando dados
dados_q4 <- read.csv2("dados_q4.csv")
# Garantindo que 'item' seja fator (para manter ordem correta no eixo)
dados_q4 <- dados_q4 %>%
mutate(item = factor(item, levels = c(1, 2, 3)))
# Gráfico de interação: item × local
ggplot(dados_q4, aes(x = item, y = venda, color = local, group = local)) +
stat_summary(fun = mean, geom = "point", size = 3) +
stat_summary(fun = mean, geom = "line", linewidth = 1.1) +
labs(title = "Gráfico de Interação: Item × Localização",
x = "Item do Menu", y = "Vendas (milhares de dólares)",
color = "Localização") +
theme_minimal()
Conclusões O gráfico de interação mostra que as linhas das duas localizações não são paralelas, mas também não se cruzam. Portanto, há sinais de interação, mas não tão fortes quanto em casos onde as linhas se cruzam.
Modelo \[ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk} \]
\[\begin{align*}
& Y_{ijk} \text{: venda observada do } k\text{º restaurante com item
} i \text{ e local } j \\
& \mu \text{: média geral} \\
& \alpha_i \text{: efeito do item do menu } (i = 1, 2, 3) \\
& \beta_j \text{: efeito da localização } (j = Costa Leste, Costa
Oeste) \\
& (\alpha\beta)_{ij} \text{: interação entre item e local} \\
& \varepsilon_{ijk} \sim \mathcal{N}(0, \sigma^2)
\end{align*}\]
Hipóteses
\[ H_0^{(\text{item})}: \alpha_1 = \alpha_2 = \alpha_3 \quad \text{(todos os itens têm o mesmo efeito)} \] \[ H_1^{(\text{item})}: \exists\ i, j \text{ tal que } \alpha_i \ne \alpha_j \]
\[ H_0^{(\text{local})}: \beta_1 = \beta_2 \quad \text{(as localizações têm o mesmo efeito)} \] \[ H_1^{(\text{local})}: \beta_1 \ne \beta_2 \]
\[ H_0^{(\text{int})}: (\alpha\beta)_{ij} = 0 \quad \text{(não há interação entre item e local)} \] \[ H_1^{(\text{int})}: \exists\ i,j \text{ tal que } (\alpha\beta)_{ij} \ne 0 \]
ANOVA
# Reforçando que os fatores devem estar codificados corretamente
dados_q4 <- dados_q4 %>%
mutate(
item = factor(item),
local = factor(local)
)
# Ajustando o modelo com interação
modelo_q4 <- aov(venda ~ item * local, data = dados_q4)
summary(modelo_q4)
## Df Sum Sq Mean Sq F value Pr(>F)
## item 2 385.1 192.5 9.554 0.00149 **
## local 1 715.0 715.0 35.481 1.23e-05 ***
## item:local 2 234.1 117.0 5.808 0.01132 *
## Residuals 18 362.7 20.2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Conclusões
A ANOVA revelou efeitos principais significativos tanto para o item do menu quanto para a localização (p-valor < 0.05). No entanto, a interação entre os dois fatores não foi significativa, o que indica que os efeitos dos itens são consistentes entre as regiões, mesmo que as médias gerais sejam diferentes. Há diferenças entre itens e entre regiões, mas o melhor item permanece o mesmo em ambas as localizações.
# Ajustando modelo aditivo
modelo_q4_aditivo <- aov(venda ~ item + local, data = dados_q4)
# Comparação entre item 1 e item 3 diretamente
contraste_item1_3 <- contrast(
emmeans(modelo_q4_aditivo, ~ item),
method = list("item1 vs item3" = c(1, 0, -1))
)
contraste_item1_3
## contrast estimate SE df t.ratio p.value
## item1 vs item3 6.88 2.73 20 2.517 0.0205
##
## Results are averaged over the levels of: local
Conclusões sobre a comparação entre os itens 1 e 3:
Estimativa: é a diferença entre as médias ajustadas dos dois itens. Como é um valor positivo, o item 1 teve vendas maiores que o item 3.
p-valor: Como é menor que o nível de significância de 5%, essa diferença é estatisticamente significativa.
As vendas médias do item 1 foram significativamente maiores que as do item 3 (p < 0,001), com uma diferença média estimada de 6.88 mil dólares.
# Comparação entre localizações
contraste_local <- contrast(
emmeans(modelo_q4_aditivo, ~ local),
method = "pairwise"
)
contraste_local
## contrast estimate SE df t.ratio p.value
## CostaLeste - CostaOeste -10.9 2.23 20 -4.895 0.0001
##
## Results are averaged over the levels of: item
Conclusões sobre a comparação entre as localizações:
Estimativa: é a diferença entre as médias ajustadas das duas localizações. Como é um valor negativo, a Costa Oeste vendeu mais que a Costa Leste.
p-valor: Como é menor que o nível de significância de 5%, essa diferença é estatisticamente significativa.
A Costa Oeste teve vendas significativamente maiores do que a Costa Leste (p-valor = 0.0001), com uma diferença média estimada de 10.9 mil dólares.
A análise mais adequada é uma ANOVA com medidas repetidas ou modelo linear misto, pois ela consegue lidar com dependências intra-grupo e repetições dentro de cada unidade experimental.
Justificativa técnica:
As respostas dos alunos neste experimento não são independentes. Isso ocorre por dois motivos principais:
As três questões respondidas por um mesmo aluno estão naturalmente correlacionadas (medidas repetidas);
Os alunos de uma mesma escola possuem características em comum (correlação intra-escola).
Como uma ANOVA simples assume independência entre todas as observações, ela seria inadequada.
Escolas Efeito fixo.
Segundo o enunciado, a cidade possui apenas 5 escolas. Então olhando para esta cidade (a questão não menciona a intenção de inferir para uma região maior), estamos trabalhando com a população de escolas, não uma amostra. Logo, a variação entre as escolas não é aleatória;
O interesse não é em comparar especificamente “escola 1 vs escola 2”, mas sim entender como a variabilidade entre escolas afeta a resposta
Alunos Efeito aleatório.
Como cada aluno responde 3 questões, temos medidas repetidas por aluno;
Os alunos representam uma amostra da população;
Queremos generalizar e modelar a variação entre indivíduos.
Modelo
\[ Y_{ijk} = \mu + \tau_i + \delta_j + b_k + \varepsilon_{ijk} \]
Onde:
Hipóteses para o efeito de escola:
\[ H_0: \tau_1 = \tau_2 = \tau_3 = \tau_4 = \tau_5 \quad \text{(todas as escolas têm o mesmo efeito)} \] \[ H_1: \exists\ i, j \text{ tal que } \tau_i \ne \tau_j \]
Hipóteses para o efeito de questão:
\[ H_0: \delta_1 = \delta_2 = \delta_3 \quad \text{(todas as questões têm o mesmo efeito)} \] \[ H_1: \exists\ i, j \text{ tal que } \delta_i \ne \delta_j \]
# Lendo os dados
dados_q5 <- read.csv2("dados_q5.csv")
# Ajustando modelo misto: efeitos fixos de escola e questao, efeito aleatório de aluno
modelo_q5c <- lmer(nota ~ escola + questao + (1 | aluno), data = dados_q5)
## boundary (singular) fit: see help('isSingular')
# Tabela ANOVA com testes de significância
anova(modelo_q5c)
## Type III Analysis of Variance Table with Satterthwaite's method
## Sum Sq Mean Sq NumDF DenDF F value Pr(>F)
## escola 944.07 944.07 1 26 0.9964 0.3274
## questao 72.80 36.40 2 26 0.0384 0.9624
Fator Escola
Considerando um nível de significância 0.05 e o p-valor associado ao fator escola, não há evidência estatística para rejeitar H0. Ou seja, não temos indícios de que as médias das notas dos alunos diferem entre as escolas.
Fator Questão
Assim como no fator acima e considerando um nível de significância 0.05 e o p-valor associado ao fator questão, não há evidência estatística para rejeitar H0. Ou seja, não temos indícios de que exista diferença significativa entre as notas das três questões. Isso nos leva a crer que o nível de dificuldade das questões foi equivalente.