Em análise de regressão, a variável dependente é frequentemente influenciada não apenas por variáveis contínuas (como renda, PIB, preços, custos, altura e temperatura), mas também por variáveis qualitativas, como gênero, raça, cor, religião, nacionalidade, região geográfica, movimentos políticos e afiliação partidária. Por exemplo, mantendo-se constantes os demais fatores, observa-se que mulheres tendem a ganhar menos do que homens, ou que trabalhadores não brancos recebem salários inferiores aos de trabalhadores brancos. Esse padrão pode ser resultado de discriminação de gênero ou racial. Independentemente da causa, variáveis qualitativas como gênero e raça parecem influenciar a variável dependente e, portanto, devem ser incluídas entre as variáveis explicativas.
As variáveis qualitativas geralmente indicam a presença ou ausência de uma determinada “qualidade” ou “atributo” — como ser homem ou mulher, negro ou branco, católico ou não católico, democrata ou republicano — e são, essencialmente, variáveis nominais. Podemos “quantificar” esses atributos por meio da criação de variáveis artificiais que assumem os valores 1 ou 0, sendo 1 indicativo da presença (ou posse) do atributo, e 0, de sua ausência. Por exemplo, o valor 1 pode indicar que uma pessoa é mulher e 0, que é homem; ou 1 pode indicar que uma pessoa possui ensino superior completo e 0, que não possui — e assim sucessivamente.
Variáveis que assumem apenas os valores 0 e 1 são chamadas de variáveis binárias (ou dummies). Elas funcionam, essencialmente, como um instrumento para classificar dados em categorias mutuamente exclusivas.
Verificar a estabilidade estrutural
Variáveis binárias podem ser utilizadas na análise de variância para testar a estabilidade estrutural de modelos em diferentes contextos.
A estabilidade estrutural de modelos refere-se à capacidade de um modelo estatístico de manter sua validade e precisão ao longo do tempo e/ou sob diferentes condições.
Por exemplo, ao analisar a estabilidade de acordos comerciais entre países, uma variável binária pode indicar a presença (1) ou a ausência (0) de um acordo específico. Isso permite avaliar se a existência de acordos comerciais influencia a estabilidade econômica entre os países envolvidos.
Identificar efeitos de interação
Essas variáveis também são úteis para explorar efeitos de interação.
O efeito interação ocorre quando o impacto de uma variável independente sobre a variável dependente depende do nível de outra variável independente. Em outras palavras, significa que as variáveis independentes não atuam de forma isolada, mas sim em conjunto, influenciando os resultados de maneira combinada.
Um exemplo de efeito de interação aplicado às relações internacionais poderia ser um estudo sobre o impacto da cooperação econômica e da aliança militar na estabilidade política de um país.
Imagine que pesquisadores analisam dados de vários países para entender como esses dois fatores influenciam a estabilidade política. Se houver um efeito de interação, isso pode significar que a cooperação econômica tem um impacto positivo na estabilidade somente quando o país também possui uma aliança militar forte. Ou seja, a presença de uma aliança militar pode potencializar os efeitos da cooperação econômica, enquanto países sem alianças militares podem não se beneficiar da mesma forma.
Portanto, as variáveis binárias podem ser usadas para detectar efeitos de interação ao representar combinações específicas de variáveis independentes em um modelo estatístico.
Para tanto, deve-se incluir um termo de interação, multiplicando duas variáveis binárias para criar um novo termo que captura a interação entre elas. Se o coeficiente do termo de interação for significativo, isso indica que o efeito de uma variável depende da outra.
Analisar a sazonalidade
Variáveis binárias podem ser empregadas para capturar efeitos sazonais em dados de relações internacionais.
A sazonalidade refere-se a padrões recorrentes que se repetem em intervalos regulares, como dias, meses ou anos. Esses padrões podem ser influenciados por fatores como clima, eventos culturais ou ciclos econômicos
Por exemplo, ao examinar a frequência de conflitos diplomáticos, pode-se usar variáveis binárias para representar diferentes períodos do ano (1 para alta temporada de conflitos, 0 para baixa temporada). Isso permite verificar a existência de sazonalidade na ocorrência de conflitos e ajustar estratégias de prevenção.
A presença de sazonalidade pode ser um problema para a ANOVA porque viola um dos pressupostos fundamentais: a independência das observações. A ANOVA assume que as variações nos dados são causadas pelos fatores estudados e pelo erro aleatório, mas a sazonalidade introduz um padrão sistemático que pode distorcer os resultados.
Se os dados apresentam sazonalidade, pode ocorrer: - Inflação da variabilidade dentro dos grupos, dificultando a detecção de diferenças reais entre os fatores. - Correlação entre observações, o que pode levar a conclusões erradas sobre os efeitos dos fatores analisados. - Falsa significância estatística, onde os efeitos sazonais podem ser confundidos com efeitos dos fatores estudados.
Uma solução comum para lidar com a sazonalidade antes de aplicar a ANOVA é o ajuste sazonal, que remove os efeitos sazonais dos dados.
Portanto, as variáveis binárias podem ser usadas para remover a sazonalidade em séries temporais ao capturar padrões recorrentes e isolá-los estatisticamente, funcionando como indicadores que representam a presença ou ausência de um efeito sazonal em determinados períodos.
Regressão linear segmentada
Em modelos segmentados, variáveis binárias ajudam a identificar pontos de mudança em séries temporais.
Por exemplo, ao analisar a evolução das relações diplomáticas antes e depois de um evento significativo (como uma eleição), uma variável binária pode indicar o período anterior (0) e posterior (1) ao evento.
Isso permite modelar diferentes tendências nas relações diplomáticas em cada segmento temporal.
Regressão com dados em painel
Em análises com dados em painel, variáveis binárias podem ser usadas para capturar efeitos fixos ou aleatórios.
Os efeitos fixos e aleatórios são abordagens para lidar com variações entre as unidades de observação ao longo do tempo.
A abordagem dos efeitos fixos assume que características individuais não observadas são constantes ao longo do tempo e podem influenciar a variável dependente. Esse modelo é útil quando se quer controlar fatores específicos de cada unidade que não mudam ao longo do tempo.
Por exmeplo, imagine um estudo sobre o impacto das sanções econômicas na taxa de crescimento dos países ao longo do tempo. Se usarmos um modelo de efeitos fixos, assumimos que cada país tem características únicas e constantes (como cultura política ou estrutura econômica) que podem influenciar os resultados. Assim, o modelo controla essas diferenças fixas e foca apenas na variação das sanções dentro de cada país.
Já, a abordagem dos efeitos aleatórios assume que as diferenças individuais são aleatórias e não correlacionadas com as variáveis independentes. Esse modelo é mais eficiente quando as variações entre unidades são consideradas imprevisíveis.
Por exemplo, pense em um estudo sobre o impacto de tratados comerciais na estabilidade política de diferentes países. Se usarmos um modelo de efeitos aleatórios, assumimos que as diferenças entre os países são aleatórias e não correlacionadas com os tratados comerciais. Isso permite generalizar os resultados para um conjunto maior de países, sem considerar características específicas de cada um.
A escolha entre efeitos fixos e aleatórios pode ser feita com o teste de Hausman, que verifica se os efeitos aleatórios são uma boa aproximação dos efeitos fixos.
Observações sobre o uso de variáveis dummies
Se uma variável qualitativa tem \(m\) categorias, introduza apenas \((m-1)\) variáveis binárias. Isso evita colinearidade perfeita.
A categoria que não recebe nenhuma variável binária é chamada de categoria-base, de controle, de comparação, de referência ou categoria omitida. Todas as comparações são realizadas em relação a essa categoria de referência.
O valor do intercepto \((β_{1})\) representa o valor médio da categoria de referência.
Os coeficientes ligados às variáveis binárias são conhecidos como coeficientes diferenciais de intercepto, porque informam quanto a categoria que recebe o valor de 1 difere do coeficiente do intercepto da categoria de referência.
Se uma variável qualitativa apresentar mais de uma categoria, a escolha da categoria de referência ficará estritamente a critério do pesquisador.
Há uma forma de contornar essa armadilha introduzindo tantas variáveis binárias quanto o número de categorias daquela variável, contanto que não seja introduzido o intercepto em tal modelo.
Lembre-se: variáveis qualitativas, ou dummies, não têm uma escala natural de medida. Por isso são descritas como variáveis de escala nominal.
Os modelos ANOVA devem ser utilizados para avaliar a significância estatística da relação entre uma variável dependente quantitativa e variáveis independentes binárias ou qualitativas. Esses modelos são frequentemente empregados para comparar as diferenças nos valores médios entre dois ou mais grupos ou categorias, sendo, portanto, mais abrangentes do que o teste t, que se limita à comparação entre apenas dois grupos.
Lembre-se: Variáveis dummies apenas indicam a existência de diferenças entre os grupos — caso existam —, mas não fornecem explicações ou causas para essas diferenças.
Vejamos um exemplo prático com base no salário médio (em dólares) de professores de escolas públicas nos EUA para o ano escolar de 2005–2006.
Primeiro, importamos o conjunto de dados.
library(readxl)
exercicio_anova <- read_excel("D:/Documentos/Fabio/OneDrive/Área de Trabalho/ADRI_exercício/exercicio_anova.xlsx", col_types = c("text", "text", "numeric", "numeric"))
print(exercicio_anova)
## # A tibble: 51 × 4
## Estado Regiao Salario Gastos
## <chr> <chr> <dbl> <dbl>
## 1 Connecticut Nordeste 60822 12436
## 2 Illinois Centro-Norte 58246 9275
## 3 Indiana Centro-Norte 47831 8935
## 4 Iowa Centro-Norte 43130 7807
## 5 Kansas Centro-Norte 43334 8373
## 6 Maine Nordeste 41596 11285
## 7 Massachusetts Nordeste 58624 12596
## 8 Michigan Centro-Norte 54895 9880
## 9 Minnesota Centro-Norte 49634 9675
## 10 Missouri Centro-Norte 41839 7840
## # ℹ 41 more rows
Como se pode observar, o conjunto de dados apresenta 51 observações classificadas em três regiões geográficas:
Para realizar a análise de variancia é preciso definir as variáveis binárias para representar cada região.
Para definir as variáveis binárias que representam cada região, é necessário selecionar uma delas como região de referência.
Para o exercício, considere a seguinte classificação:
Para criar as variávies binárias no R, execute o seguinte código:
library(dplyr)
exercicio_anova <- exercicio_anova %>%
mutate(D2 = case_when(
Regiao == "Nordeste" | Regiao == "Centro-Norte" ~ 1,
TRUE ~ 0
))
exercicio_anova <- exercicio_anova %>%
mutate(D3 = case_when(
Regiao == "Sul" ~ 1,
TRUE ~ 0
))
print(exercicio_anova)
## # A tibble: 51 × 6
## Estado Regiao Salario Gastos D2 D3
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Connecticut Nordeste 60822 12436 1 0
## 2 Illinois Centro-Norte 58246 9275 1 0
## 3 Indiana Centro-Norte 47831 8935 1 0
## 4 Iowa Centro-Norte 43130 7807 1 0
## 5 Kansas Centro-Norte 43334 8373 1 0
## 6 Maine Nordeste 41596 11285 1 0
## 7 Massachusetts Nordeste 58624 12596 1 0
## 8 Michigan Centro-Norte 54895 9880 1 0
## 9 Minnesota Centro-Norte 49634 9675 1 0
## 10 Missouri Centro-Norte 41839 7840 1 0
## # ℹ 41 more rows
Observe que duas novas colunas, D2 e D3, foram adicionadas ao conjunto de dados. Quando ambas assumem o valor zero, a observação corresponde à região de referência, representada por D1.
Para que o R interprete uma variável numérica como qualitativa, é importante convertê-la em um fator. Essa transformação é necessária porque a ANOVA compara categorias, e não valores contínuos. Portanto, o modelo precisa reconhecer que os valores representam grupos distintos, e não uma escala numérica.
exercicio_anova$D2 <- as.factor(exercicio_anova$D2)
exercicio_anova$D3 <- as.factor(exercicio_anova$D3)
print(exercicio_anova)
## # A tibble: 51 × 6
## Estado Regiao Salario Gastos D2 D3
## <chr> <chr> <dbl> <dbl> <fct> <fct>
## 1 Connecticut Nordeste 60822 12436 1 0
## 2 Illinois Centro-Norte 58246 9275 1 0
## 3 Indiana Centro-Norte 47831 8935 1 0
## 4 Iowa Centro-Norte 43130 7807 1 0
## 5 Kansas Centro-Norte 43334 8373 1 0
## 6 Maine Nordeste 41596 11285 1 0
## 7 Massachusetts Nordeste 58624 12596 1 0
## 8 Michigan Centro-Norte 54895 9880 1 0
## 9 Minnesota Centro-Norte 49634 9675 1 0
## 10 Missouri Centro-Norte 41839 7840 1 0
## # ℹ 41 more rows
Agora o conjunto de dados está pronto para rodar o modelo de regressão.
Suponhamos que desejamos verificar se o salário médio anual dos professores de escolas públicas varia conforme as diferentes regiões em que o país foi dividido.
Nossa primeira intuição seria calcular a média aritmética do salário para cada uma dessas regiões.
media_D2 <- exercicio_anova %>%
filter(D2 == 1) %>%
pull(Salario) %>%
mean()
print(media_D2)
## [1] 49538.71
media_D3 <- exercicio_anova %>%
filter(D3 == 1) %>%
pull(Salario) %>%
mean()
print(media_D3)
## [1] 46293.59
media_D1 <- exercicio_anova %>%
filter(Regiao == "Oeste") %>%
pull(Salario) %>%
mean()
print(media_D1)
## [1] 48014.62
Esses valores aparentam ser diferentes entre si, mas seriam essas diferenças estatisticamente significativas?
Para tanto, podemos aplicar a ANOVA para comparar dois ou mais valores médios.
Vamos admitir o seguinte modelo:
\[Y_{i} = \beta_{1} + \beta_{2}D_{2i} + \beta_{3}D_{3i} + u_{i}\]
onde,
\(Y_{i}\) = salário médio dos professores da rede pública no Estado i;
\(D_{2i}\) = 1 se o estado pertencer a região Nordeste ou Norte-central; = 0 se estiver situado em outras regioões do país;
\(D_{3i}\) = 1 se o estado pertencer a região Sul; 0 se estiver localizado em outras regiões;
\(u_{i}\) = termo do erro.
modelo_anova <- lm(Salario ~ D2 + D3, data = exercicio_anova)
summary(modelo_anova)
##
## Call:
## lm(formula = Salario ~ D2 + D3, data = exercicio_anova)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14161 -4566 -1638 4632 15625
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 48015 1857 25.853 <2e-16 ***
## D21 1524 2363 0.645 0.522
## D31 -1721 2467 -0.698 0.489
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6696 on 48 degrees of freedom
## Multiple R-squared: 0.04397, Adjusted R-squared: 0.004134
## F-statistic: 1.104 on 2 and 48 DF, p-value: 0.3399
Pressupondo que o termo de erro satisfaça os pressupostos usuais método dos mínimos quadrados ordinários, ao tomar o valor esperado da equação acima, obtemos que:
O salário médio de professores da rede pública de ensino no oeste é dado pelo intercepto, \(\beta_{1} = 48.015\);
O salário médio dos professores do nordeste e Centro-norte é cerca de $ 1.524 mais alto, ou seja, é igual \(48.015 + 1.524 = 49.539\);
E o salário médio dos professores no Sul é cerca de $ 1.721 mais baixo, ou seja, \(48.015 - 1.721 = 46.294\).
Mas como saber se os salários médios dos professores dessas regiões são realmente diferentes dos salários dos professores da região Oeste, que é o grupo de referência na comparação?
A resposta é simples: observamos se os coeficientes que representam essas diferenças são estatisticamente significativos.
No caso da equação especificada, os coeficientes associados às regiões Nordeste e Centro-Norte não são estatisticamente significativos, pois a probabilidade de essas diferenças ocorrerem ao acaso é de 52% (valor-p = 0,522). Para a região Sul, essa probabilidade é de 49% (valor-p = 0,492). Como esses valores-p são bastante elevados — superiores ao nível convencional de 0,05 —, concluímos que as diferenças observadas não são estatisticamente confiáveis.
Dessa forma, podemos afirmar que, do ponto de vista estatístico, os salários médios dos professores nas regiões Oeste, Nordeste, Centro-Norte e Sul são praticamente iguais.
Repare que nos modelos ANOVA, o \(R^2\) não é a métrica principal, pois o objetivo é comparar médias entre grupos e avaliar diferenças significativas.
As métricas-chave são:
Os coeficientes da ANOVA, que representam os efeitos dos fatores sobre a variável dependente, indicando o impacto de cada grupo na média da variável resposta, e o valor-p associado a cada coeficiente, que indicam se as diferenças observadas são estatisticamente significativas.
A estatística F, que avalia a relação entre a variância entre os grupos e a variância dentro dos grupos, e o valor-p, que indica se as diferenças observadas são estatisticamente significativas.
Na ANOVA, a estatística F serve para testar a hipótese de que as variâncias entre os grupos são iguais. A hipótese nula geralmente afirma que não há diferença significativa entre os grupos. Portanto, o F-valor é a razão entre a variância explicada pelo modelo e a variância residual. Uma razão alta sugere que o modelo explica uma grande proporção da variância total. Quando o F-valor é alto (>3), isso sugere que a variância explicada pelo modelo é grande em comparação com a variância residual, indicando que pelo menos uma das médias dos grupos é significativamente diferente. Se o F-valor é baixo (<3), isso indica que a variância explicada pelo modelo é pequena em comparação com a variância residual, sugerindo que não há diferenças significativas entre as médias dos grupos ou que os coeficientes das variáveis independentes podem ser iguais a zero. Não esqueça de observar o valor-p associado ao F-valor. Isso irá ajudar a determinar se você deve rejeitar a hipótese nula. Se o p-valor for menor que um nível de significância pré-determinado (geralmente 0,05), rejeitamos a hipótese nula.
Retomando nosso exemplo, nem os coeficentes nem a estatísitca F se mostraram estatisticamente significantes.
Na ANOVA, além das sete suposições básicas da MQO, quais sejam:
Devemos conferir ainda as seguintes suposições:
Independencia das observações;
Resíduos normalmente distribuídos dentro dos grupos;
Igualdade das variâncias; e
Aditividades das médias.
A independência das observações significa que cada ponto do conjunto de dados é estatisticamente independente dos demais. Em outras palavras, o valor de uma observação não deve ser influenciado pelos valores das outras.
No contexto da ANOVA — que compara médias entre grupos para verificar se há diferenças estatisticamente significativas —, a violação dessa suposição pode levar a estimativas incorretas das variâncias. Isso pode distorcer os resultados e conduzir a conclusões equivocadas.
Formalmente, a suposição de independência é essencial para garantir a validade dos testes estatísticos utilizados, como o teste F, assegurando que as inferências realizadas sejam confiáveis.
A verificação dessa suposição deve começar pela análise do desenho da pesquisa. O estudo deve ser planejado de forma a evitar dependências, como no caso de dados coletados de diferentes indivíduos, em vez de medições repetidas do mesmo indivíduo, sem o devido controle da estrutura dos dados.
Além disso, uma abordagem visual pode ser útil: ao plotar as observações em ordem (quando aplicável), é possível identificar padrões que indiquem dependência. Em casos de dados sequenciais ou temporais, testes de autocorrelação também podem ser empregados para detectar dependências entre as observações.
Para que os resultados da ANOVA sejam válidos, assume-se que os resíduos (erros) dentro de cada grupo seguem uma distribuição normal.
Essa suposição é importante porque assegura a validades dos testes estatísticos e torna as inferências realizadas a partir do modelo confiáveis.
O teste F, que determina se há diferenças estatisticamente significativas entre as médias de três ou mais grupos, basea-se na suposição de que os resíduos são normalmente distribuídos. Quando essa condição não é atendida, os resultados podem ser imprecisos ou até enganosos.
A normalidade dos resíduos garante, portanto, que podemos fazer inferências corretas a partir do modelo. Isso inclui intervalos de confiança precisos e testes de hipóteses válidos.
Para verificar essa suposição, é possível utilizar recursos gráficos, como histogramas e gráficos Q-Q (quantil-quantil), que ajudam a identificar desvios da normalidade. Além disso, testes estatísticos específicos, como o teste de Shapiro-Wilk, podem ser aplicados para avaliar formalmente a normalidade dos resíduos em cada grupo.
Obter os resíduos do modelo
residuos_anova <- residuals(modelo_anova)
Adicionar os resíduos ao conjunto de dados
exercicio_anova$residuos <- residuos_anova
print(exercicio_anova)
## # A tibble: 51 × 7
## Estado Regiao Salario Gastos D2 D3 residuos
## <chr> <chr> <dbl> <dbl> <fct> <fct> <dbl>
## 1 Connecticut Nordeste 60822 12436 1 0 11283.
## 2 Illinois Centro-Norte 58246 9275 1 0 8707.
## 3 Indiana Centro-Norte 47831 8935 1 0 -1708.
## 4 Iowa Centro-Norte 43130 7807 1 0 -6409.
## 5 Kansas Centro-Norte 43334 8373 1 0 -6205.
## 6 Maine Nordeste 41596 11285 1 0 -7943.
## 7 Massachusetts Nordeste 58624 12596 1 0 9085.
## 8 Michigan Centro-Norte 54895 9880 1 0 5356.
## 9 Minnesota Centro-Norte 49634 9675 1 0 95.3
## 10 Missouri Centro-Norte 41839 7840 1 0 -7700.
## # ℹ 41 more rows
Verificar a normalidade dos resíduos para cada grupo
Obter níveis de D2 e D3
levels_D2 <- levels(exercicio_anova$D2)
levels_D3 <- levels(exercicio_anova$D3)
Verificar a normalidade dos resíduos para o grupo D2
for (level in levels_D2) {
residuos_grupo <- exercicio_anova$residuos[exercicio_anova$D2 == level]
# Histograma
hist(residuos_grupo, main = paste("Histograma dos resíduos para D2 =", level),
xlab = "Resíduos")
# Q-Q Plot
qqnorm(residuos_grupo, main = paste("Q-Q Plot dos resíduos para D2 =", level))
qqline(residuos_grupo, col = "red")
# Teste de Shapiro-Wilk
print(shapiro.test(residuos_grupo))
}
##
## Shapiro-Wilk normality test
##
## data: residuos_grupo
## W = 0.88234, p-value = 0.003192
##
## Shapiro-Wilk normality test
##
## data: residuos_grupo
## W = 0.94548, p-value = 0.279
Verificar a normalidade dos resíduos para o grupo D3
for (level in levels_D3) {
residuos_grupo <- exercicio_anova$residuos[exercicio_anova$D3 == level]
# Histograma
hist(residuos_grupo, main = paste("Histograma dos resíduos para D3 =", level), xlab = "Resíduos")
# Q-Q Plot
qqnorm(residuos_grupo, main = paste("Q-Q Plot dos resíduos para D3 =", level))
qqline(residuos_grupo, col = "red")
# Teste de Shapiro-Wilk
print(shapiro.test(residuos_grupo))
}
##
## Shapiro-Wilk normality test
##
## data: residuos_grupo
## W = 0.97718, p-value = 0.682
##
## Shapiro-Wilk normality test
##
## data: residuos_grupo
## W = 0.81276, p-value = 0.003052
Resultado do Teste de Shapiro-Wilk
Os resíduos não são normalmente distribuídos nos grupos D2 = 0 e D3 = 1, enquanto parecem normalmente distribuídos nos grupos D2 = 1 e D3 = 0. Isso pode indicar que o modelo pode estar violando um dos pressupostos da ANOVA, onde se espera normalidade dos resíduos dentro dos grupos.
No contexto da ANOVA, a homogeneidade das variâncias, também conhecida como homocedasticidade, refere-se à suposição de que as variâncias dentro de cada grupo são iguais ou, pelo menos, semelhantes. Essa condição é fundamental para a validade e confiabilidade do teste F, pois garante que a comparação entre os grupos não seja influenciada por diferenças na variabilidade dos dados.
Para verificar a homogeneidade das variâncias entre os grupos, é possível utilizar recursos gráficos, tais como:
Histograma dos resíduos para cada grupo;
Q-Q plot dos resíduos para cada grupo;
Gráfico de dispersão comparando os valores dos resíduos (eixo y) com os valores ajustados (eixo x), no qual os resíduos devem se distribuir aleatoriamente em torno do eixo x;
Box plot, útil para comparar a distribuição e a variabilidade dos dados entre os grupos;
Gráfico de interação, que permite avaliar se há interação entre os fatores. Para isso, plote as médias dos grupos para cada combinação de fatores e observe se as linhas são paralelas. A paralelismo entre as linhas indica ausência de interação.
Não obstante, além da análise visual, recomenda-se a aplicação de testes estatísticos formais, como o teste de Levene ou o teste de Bartlett, para verificar a homogeneidade das variâncias de forma mais rigorosa.
Criar uma variável de agrupamento combinada
exercicio_anova$grupo <- interaction(exercicio_anova$D2, exercicio_anova$D3)
print(exercicio_anova)
## # A tibble: 51 × 8
## Estado Regiao Salario Gastos D2 D3 residuos grupo
## <chr> <chr> <dbl> <dbl> <fct> <fct> <dbl> <fct>
## 1 Connecticut Nordeste 60822 12436 1 0 11283. 1.0
## 2 Illinois Centro-Norte 58246 9275 1 0 8707. 1.0
## 3 Indiana Centro-Norte 47831 8935 1 0 -1708. 1.0
## 4 Iowa Centro-Norte 43130 7807 1 0 -6409. 1.0
## 5 Kansas Centro-Norte 43334 8373 1 0 -6205. 1.0
## 6 Maine Nordeste 41596 11285 1 0 -7943. 1.0
## 7 Massachusetts Nordeste 58624 12596 1 0 9085. 1.0
## 8 Michigan Centro-Norte 54895 9880 1 0 5356. 1.0
## 9 Minnesota Centro-Norte 49634 9675 1 0 95.3 1.0
## 10 Missouri Centro-Norte 41839 7840 1 0 -7700. 1.0
## # ℹ 41 more rows
Teste de Levene
Já vimos anteriormente que o teste de Levene é utilizado para verificar a homogeneidade das variâncias entre dois ou mais grupos.
Em termos simples, ele testa, baseada nas diferenças absolutas das medianas (ou médias) de cada grupo, se os diferentes grupos têm variâncias iguais. Isso é particularmente importante em análises como a ANOVA, que assumem que os grupos comparados têm variâncias semelhantes.
Lembre-se que para interpretar o teste de Levene, deve-se olhar principalmente para o p-valor que o teste retorna.
A hipótese nula (\(H_{0}\)) afirma que as variâncias são iguais entre os grupos.
A hipótese alternativa (\(H_{1}\)), por sua vez, afirma que pelo menos uma das variâncias dos grupos é diferente.
Se p-valor observado for maior que 0,05, então não rejeitamos a hipótese nula. Isso significa que não há evidência estatística suficiente para dizer que as variâncias entre os grupos são diferentes. Em outras palavras, as variâncias podem ser consideradas homogêneas.
Agora, se p-valor observado for menor ou igual a 0,05, então rejeitamos a hipótese nula. Isso significa que há evidência estatística suficiente para concluir que pelo menos uma das variâncias dos grupos é diferente das outras, indicando heterogeneidade nas variâncias.
library(car)
leveneTest(residuos ~ grupo, data = exercicio_anova)
Como o p-valor = 0.144, maior que 0.05, não há evidência suficiente para dizer que os grupos têm variâncias diferentes. Isso significa que o pressuposto de homogeneidade de variância da ANOVA não foi violado.
Teste de Bartlett
O teste de Bartlett é utilizado para verificar a homogeneidade das variâncias entre diferentes grupos, semelhante ao teste de Levene. No entanto, o teste de Bartlett é mais sensível à suposição de normalidade dos dados pois é está baseado na razão da soma dos quadrados entre grupos e dentro dos grupos. Na prática, ele funciona melhor quando os dados estão normalmente distribuídos.
Para interpretar o teste de Bartlett, deve-se olhar também para o p-valor que o teste retorna.
A hipótese nula (\(H_{0}\)) afirma que as variâncias são iguais entre os grupos.
A hipótese alternativa (\(H_{1}\)), por sua vez, afirma que pelo menos uma das variâncias dos grupos é diferente.
Se p-valor observado for maior que 0,05, então não rejeitamos a hipótese nula. Isso significa que não há evidência estatística suficiente para dizer que as variâncias entre os grupos são diferentes. Em outras palavras, as variâncias podem ser consideradas homogêneas.
Agora, se p-valor observado for menor ou igual a 0,05, então rejeitamos a hipótese nula. Isso significa que há evidência estatística suficiente para concluir que pelo menos uma das variâncias dos grupos é diferente das outras, indicando heterogeneidade nas variâncias.
bartlett.test(residuos ~ grupo, data = exercicio_anova)
##
## Bartlett test of homogeneity of variances
##
## data: residuos by grupo
## Bartlett's K-squared = 1.7759, df = 2, p-value = 0.4115
Como o p-valor = 0.4115, maior que 0.05, O resultado do teste indica que as variâncias dos resíduos são homogêneas entre os grupos. Isso significa que o pressuposto de igualdade de variâncias não foi violado.
Lembre-se: se as variâncias não são homogêneas, o teste F pode levar a conclusões incorretas, resultando em erros tipo I ou tipo II. Nestes casos, métodos alternativos, como a transformação dos dados ou o uso de técnicas robustas, podem ser necessários para lidar com a heterocedasticidade.
Aditividade das médias dos grupos significa que a média geral de todos os dados é igual à média das médias dos grupos individuais. Este conceito é especialmente importante em análises de variância (ANOVA) pois garante que as influências dos diferentes grupos somem de forma simples e direta.
Para verificar se as médias são aditivas, você pode fazer uma comparação simples calculando a média de cada grupo, a média das médias dos grupos e verificar se esta última é igual a média total independente de cada grupo.
Calcular as médias dos grupos
medias_grupos <- aggregate(Salario ~ grupo, data = exercicio_anova, FUN = mean)
print(medias_grupos)
## grupo Salario
## 1 0.0 48014.62
## 2 1.0 49538.71
## 3 0.1 46293.59
Calcular a média das médias dos Grupos
media_das_medias <- mean(medias_grupos$Salario)
print(paste("Média das médias dos grupos:", media_das_medias))
## [1] "Média das médias dos grupos: 47948.9726352079"
Calcular a média total
media_total <- mean(exercicio_anova$Salario)
print(paste("Média total:", media_total))
## [1] "Média total: 48068.5098039216"
Comparar as médias
if (abs(media_das_medias - media_total) < 0.05) {
print("As médias dos grupos são aditivas.")
} else {
print("As médias dos grupos não são aditivas.")
}
## [1] "As médias dos grupos não são aditivas."
Quando se diz que “as médias dos grupos não são aditivas” em uma ANOVA, isso geralmente indica que há uma interação significativa entre os fatores (D2 e D3).
Quando as médias são aditivas, os efeitos dos fatores somam-se independentemente, sem influenciar uns aos outros. Ou seja, o efeito de um fator no resultado não muda dependendo dos valores de outro fator.
Portanto, se houver interação significativa, não podemos interpretar apenas os efeitos principais (de cada fator isoladamente), pois o efeito de um fator depende da presença do outro.