Introdução

A presente análise tem por objetivo a identificação de banco de dados de contagem com presença de dados sobredispersos, ou seja, aqueles conjunto de dados em que a variância é maior que a média.

library(faraway)

Conjunto de dados Gala

Existem 30 ilhas Galápagos e 7 variáveis no conjunto de dados.
A relação entre o número de espécies de plantas e várias variáveis geográficas é de interesse. (Para a versão original ver o conjunto de dados galamiss no pacote faraway).

O conjunto de dados contém as seguintes variáveis:

Species: o número de espécies de plantas encontradas na ilha
Endemics: o número de espécies endêmicas
Area: a área da ilha (km²)
Elevation: a elevação mais alta da ilha (m)
Nearest: a distância da ilha mais próxima (km)
Scruz: a distância da ilha de Santa Cruz (km)
Adjacent: a área da ilha adjacente (km²)

data(gala)
glimpse(gala)
## Rows: 30
## Columns: 7
## $ Species   <dbl> 58, 31, 3, 25, 2, 18, 24, 10, 8, 2, 97, 93, 58, 5, 40, 347, …
## $ Endemics  <dbl> 23, 21, 3, 9, 1, 11, 0, 7, 4, 2, 26, 35, 17, 4, 19, 89, 23, …
## $ Area      <dbl> 25.09, 1.24, 0.21, 0.10, 0.05, 0.34, 0.08, 2.33, 0.03, 0.18,…
## $ Elevation <dbl> 346, 109, 114, 46, 77, 119, 93, 168, 71, 112, 198, 1494, 49,…
## $ Nearest   <dbl> 0.6, 0.6, 2.8, 1.9, 1.9, 8.0, 6.0, 34.1, 0.4, 2.6, 1.1, 4.3,…
## $ Scruz     <dbl> 0.6, 26.3, 58.7, 47.4, 1.9, 8.0, 12.0, 290.2, 0.4, 50.2, 88.…
## $ Adjacent  <dbl> 1.84, 572.33, 0.78, 0.18, 903.82, 1.84, 0.34, 2.85, 17.95, 0…
summary(gala)
##     Species          Endemics          Area            Elevation      
##  Min.   :  2.00   Min.   : 0.00   Min.   :   0.010   Min.   :  25.00  
##  1st Qu.: 13.00   1st Qu.: 7.25   1st Qu.:   0.258   1st Qu.:  97.75  
##  Median : 42.00   Median :18.00   Median :   2.590   Median : 192.00  
##  Mean   : 85.23   Mean   :26.10   Mean   : 261.709   Mean   : 368.03  
##  3rd Qu.: 96.00   3rd Qu.:32.25   3rd Qu.:  59.237   3rd Qu.: 435.25  
##  Max.   :444.00   Max.   :95.00   Max.   :4669.320   Max.   :1707.00  
##     Nearest          Scruz           Adjacent      
##  Min.   : 0.20   Min.   :  0.00   Min.   :   0.03  
##  1st Qu.: 0.80   1st Qu.: 11.03   1st Qu.:   0.52  
##  Median : 3.05   Median : 46.65   Median :   2.59  
##  Mean   :10.06   Mean   : 56.98   Mean   : 261.10  
##  3rd Qu.:10.03   3rd Qu.: 81.08   3rd Qu.:  59.24  
##  Max.   :47.40   Max.   :290.20   Max.   :4669.32

2 - Gráfico Número de espécies por ilha

# Visualizando a variável resposta Species
ggplot(gala, aes(x = reorder(rownames(gala), -Species), y = Species)) +
             geom_bar(stat = "identity", fill = "grey") +
             labs(x = "Ilha", y = "Número de espécies de plantas", title = "Número de espécies de plantas por ilha nas Galápagos") +
             theme_minimal() +
             theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1))

3 - Média e variância global da resposta “Species”.

est.1 = c( mean(gala$Species), var(gala$Species) );
est = rbind(est.1)
colnames(est) = c("Média", "Variância")
rownames(est) = c("Global"); est
##           Média Variância
## Global 85.23333  13140.74

4 - Média e variância da resposta “Species” por uma variável categórica.

Criando uma categoria de ilhas por aréa:

Faixa de aréa Intervalo
Faixa 1 0,01 a 0,78
Faixa 2 1,24 a 4,89
Faixa 3 17,35 a 59,56
Faixa 4 129,49 a 903,82
Faixa 5 4669,32
est
##            Média Variância
## Faixa1  27.27273  1023.018
## Faixa2  32.00000   490.000
## Faixa3  62.83333  1267.367
## Faixa4 223.50000 24373.900
## Faixa5 347.00000        NA

Teste estatístico para identificar a sobredispersão nos dados

Ajuste do modelo de Poisson

model_poisson <- glm(Species ~ Endemics + Area + Elevation + Nearest + Scruz + Adjacent, 
                      family = poisson(link = "log"), data = gala)
# Resumo do modelo
summary(model_poisson)
## 
## Call:
## glm(formula = Species ~ Endemics + Area + Elevation + Nearest + 
##     Scruz + Adjacent, family = poisson(link = "log"), data = gala)
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  2.828e+00  5.958e-02  47.471  < 2e-16 ***
## Endemics     3.388e-02  1.741e-03  19.459  < 2e-16 ***
## Area        -1.067e-04  3.741e-05  -2.853  0.00433 ** 
## Elevation    2.638e-04  1.934e-04   1.364  0.17264    
## Nearest      1.048e-02  1.611e-03   6.502 7.91e-11 ***
## Scruz       -6.835e-04  5.802e-04  -1.178  0.23877    
## Adjacent     4.539e-05  4.800e-05   0.946  0.34437    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 3510.73  on 29  degrees of freedom
## Residual deviance:  313.36  on 23  degrees of freedom
## AIC: 488.19
## 
## Number of Fisher Scoring iterations: 5

A função dispersiontest (pacote AER) testa a hipótese nula de equidispersão em GLMs de Poisson contra a alternativa de sobredispersão e/ou subdispersão.

dispersiontest(model_poisson)
## 
##  Overdispersion test
## 
## data:  model_poisson
## z = 3.351, p-value = 0.0004025
## alternative hypothesis: true dispersion is greater than 1
## sample estimates:
## dispersion 
##   10.04901

Resultado, temos que 10.04901 > 1, portanto, há fortes indícios de sobredispersão nos dados.
Não é atendido o pressuposto de igualdade da média e a variância, portanto, o ajuste o modelo de Poisson não é indicado para esse conjunto de dados.