Introdução
A presente análise tem por objetivo a identificação de banco de dados
de contagem com presença de dados sobredispersos, ou seja, aqueles
conjunto de dados em que a variância é maior que a média.
Conjunto de dados Gala
Existem 30 ilhas Galápagos e 7 variáveis no conjunto de dados.
A relação entre o número de espécies de plantas e várias variáveis
geográficas é de interesse. (Para a versão original ver o conjunto de
dados galamiss no pacote faraway).
O conjunto de dados contém as seguintes variáveis:
Species: o número de espécies de plantas encontradas
na ilha
Endemics: o número de espécies endêmicas
Area: a área da ilha (km²)
Elevation: a elevação mais alta da ilha (m)
Nearest: a distância da ilha mais próxima (km)
Scruz: a distância da ilha de Santa Cruz (km)
Adjacent: a área da ilha adjacente (km²)
## Rows: 30
## Columns: 7
## $ Species <dbl> 58, 31, 3, 25, 2, 18, 24, 10, 8, 2, 97, 93, 58, 5, 40, 347, …
## $ Endemics <dbl> 23, 21, 3, 9, 1, 11, 0, 7, 4, 2, 26, 35, 17, 4, 19, 89, 23, …
## $ Area <dbl> 25.09, 1.24, 0.21, 0.10, 0.05, 0.34, 0.08, 2.33, 0.03, 0.18,…
## $ Elevation <dbl> 346, 109, 114, 46, 77, 119, 93, 168, 71, 112, 198, 1494, 49,…
## $ Nearest <dbl> 0.6, 0.6, 2.8, 1.9, 1.9, 8.0, 6.0, 34.1, 0.4, 2.6, 1.1, 4.3,…
## $ Scruz <dbl> 0.6, 26.3, 58.7, 47.4, 1.9, 8.0, 12.0, 290.2, 0.4, 50.2, 88.…
## $ Adjacent <dbl> 1.84, 572.33, 0.78, 0.18, 903.82, 1.84, 0.34, 2.85, 17.95, 0…
## Species Endemics Area Elevation
## Min. : 2.00 Min. : 0.00 Min. : 0.010 Min. : 25.00
## 1st Qu.: 13.00 1st Qu.: 7.25 1st Qu.: 0.258 1st Qu.: 97.75
## Median : 42.00 Median :18.00 Median : 2.590 Median : 192.00
## Mean : 85.23 Mean :26.10 Mean : 261.709 Mean : 368.03
## 3rd Qu.: 96.00 3rd Qu.:32.25 3rd Qu.: 59.237 3rd Qu.: 435.25
## Max. :444.00 Max. :95.00 Max. :4669.320 Max. :1707.00
## Nearest Scruz Adjacent
## Min. : 0.20 Min. : 0.00 Min. : 0.03
## 1st Qu.: 0.80 1st Qu.: 11.03 1st Qu.: 0.52
## Median : 3.05 Median : 46.65 Median : 2.59
## Mean :10.06 Mean : 56.98 Mean : 261.10
## 3rd Qu.:10.03 3rd Qu.: 81.08 3rd Qu.: 59.24
## Max. :47.40 Max. :290.20 Max. :4669.32
2 - Gráfico Número de espécies por ilha
# Visualizando a variável resposta Species
ggplot(gala, aes(x = reorder(rownames(gala), -Species), y = Species)) +
geom_bar(stat = "identity", fill = "grey") +
labs(x = "Ilha", y = "Número de espécies de plantas", title = "Número de espécies de plantas por ilha nas Galápagos") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1))3 - Média e variância global da resposta “Species”.
est.1 = c( mean(gala$Species), var(gala$Species) );
est = rbind(est.1)
colnames(est) = c("Média", "Variância")
rownames(est) = c("Global"); est## Média Variância
## Global 85.23333 13140.74
4 - Média e variância da resposta “Species” por uma variável
categórica.
Criando uma categoria de ilhas por aréa:
| Faixa de aréa | Intervalo |
|---|---|
| Faixa 1 | 0,01 a 0,78 |
| Faixa 2 | 1,24 a 4,89 |
| Faixa 3 | 17,35 a 59,56 |
| Faixa 4 | 129,49 a 903,82 |
| Faixa 5 | 4669,32 |
## Média Variância
## Faixa1 27.27273 1023.018
## Faixa2 32.00000 490.000
## Faixa3 62.83333 1267.367
## Faixa4 223.50000 24373.900
## Faixa5 347.00000 NA
Teste estatístico para identificar a sobredispersão nos dados
Ajuste do modelo de Poisson
model_poisson <- glm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent,
family = poisson(link = "log"), data = gala)
# Resumo do modelo
summary(model_poisson)##
## Call:
## glm(formula = Species ~ Endemics + Area + Elevation + Nearest +
## Scruz + Adjacent, family = poisson(link = "log"), data = gala)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.828e+00 5.958e-02 47.471 < 2e-16 ***
## Endemics 3.388e-02 1.741e-03 19.459 < 2e-16 ***
## Area -1.067e-04 3.741e-05 -2.853 0.00433 **
## Elevation 2.638e-04 1.934e-04 1.364 0.17264
## Nearest 1.048e-02 1.611e-03 6.502 7.91e-11 ***
## Scruz -6.835e-04 5.802e-04 -1.178 0.23877
## Adjacent 4.539e-05 4.800e-05 0.946 0.34437
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 3510.73 on 29 degrees of freedom
## Residual deviance: 313.36 on 23 degrees of freedom
## AIC: 488.19
##
## Number of Fisher Scoring iterations: 5
A função dispersiontest (pacote AER) testa a hipótese nula de equidispersão em GLMs de Poisson contra a alternativa de sobredispersão e/ou subdispersão.
##
## Overdispersion test
##
## data: model_poisson
## z = 3.351, p-value = 0.0004025
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion
## 10.04901
Resultado, temos que 10.04901 > 1, portanto, há fortes indícios de
sobredispersão nos dados.
Não é atendido o pressuposto de igualdade da média e a variância,
portanto, o ajuste o modelo de Poisson não é indicado para esse conjunto
de dados.