GAMLSS: Modelos Aditivos Generalizados para Localização, Escala e Forma

Mariana Costa Freitas

Objetivos

Esta apresentação tem como propósito:

  1. Mostrar a evolução metodológica Regressão clássica → GLM → GAM → GAMLSS**, destacando motivações e limitações.
  2. Formalizar o GAMLSS: distribuição, parâmetros, ligações e preditores aditivos.
  3. Descrever o princípio de estimação por verossimilhança penalizada.
  4. Apresentar seleção de modelo em GAMLSS.
  5. Discutir diagnóstico: resíduos quantílicos randomizados e worm plot.
  6. Apresentar uma breve aplicação em R.

Linha histórica: limitações e avanços

Regressão clássica

Modelo linear clássico:

\[ Y = X\beta + \varepsilon,\qquad \varepsilon \sim \mathcal{N}(0,\sigma^2 I). \]

Pressupostos centrais:

Em aplicações, essas hipóteses podem falhar: respostas positivas e assimétricas, contagens, proporções, e variância dependente do nível médio.

Motivação para GLM

Os GLMs surgem para lidar com:

  1. Distribuição da resposta: \(Y\) pode não ser adequadamente Normal.
  2. Variância ligada à média: em várias famílias, a variância condicional cresce com a média.

A meta é manter interpretabilidade com flexibilidade para a distribuição da resposta.

GLM: Modelos Lineares Generalizados

Assume-se \(Y\) na família exponencial:

\[ f(y\mid\theta,\phi)=\exp\left(\frac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi)\right). \]

Ligação para a média:

\[ g(\mu_i)=\eta_i=x_i^\top\beta,\qquad \mu_i=E(Y_i\mid X). \]

Variância:

\[ \mathrm{Var}(Y_i\mid X)=\phi\,V(\mu_i). \]

Interpretação: o GLM flexibiliza a distribuição de \(Y\), mas impõe que \(g(\mu)\) seja linear em covariáveis.

Dados de exemplo: rent

Usaremos a base de dados disponível em R: rent (aluguel em Munique).

O diagrama de dispersão sugere uma associação positiva entre a área do imóvel e o valor do aluguel. Também é possível observar que a variabilidade do aluguel aumenta conforme a área cresce, indicando heteroscedasticidade.

Regressão clássica: diagnóstico

Modelo Linear Generalizado (utilizando Gamma)

Para \(Y>0\), um GLM Gamma com função de ligação logarítmica é comum:

\[ Y_i \sim \mathrm{Gamma}(\mu_i,\phi),\qquad \log(\mu_i)=x_i^\top\beta. \]

Motivação para GAM

O GAM é motivado quando:

GAM: Modelos Aditivos Generalizados

No GAM:

\[ g(\mu_i)=\eta_i=\beta_0+\sum_{j=1}^p f_j(x_{ij}), \]

onde \(f_j\) são funções suaves.

Exemplo em R: GAM (Gamma)

Limitações do GAM e motivação para GAMLSS

O GAM resolve uma limitação importante do GLM, visto que permite que a relação entre covariáveis e a média condicional seja não linear, utilizando funções suaves. Porém, algumas limitações permanecem, que são a motivação para o GAMLSS:

  1. A variância pode não ser constante e nem explicada apenas como uma função fixa da média. Ou seja, para determinados valores das covariáveis, a resposta é tem mais variabilidade do que para outros. No GAM, a dispersão é tratada de forma global;

  2. A forma da distribuição pode mudar: a distribuição pode ficar mais assimétrica em ou caudas mais pesadas em certas faixas de \(X\). Os GAMs não modelam parâmetros de forma, já que eles atuam principalmente sobre a média;

  3. Há cenários em que a família usada no GLM/GAM é limitada. Exemplos: inflação de zeros, truncamento, caudas muito pesadas ou distribuições que não pertencem à família exponencial.

GAMLSS: definição e ideia central

Assume-se:

\[ Y_i \mid x_i \sim D(\boldsymbol{\theta}_i),\qquad \boldsymbol{\theta}_i=(\mu_i,\sigma_i,\nu_i,\tau_i), \]

onde \(D\) não precisa pertencer à família exponencial.

dependendo da parametrização de \(D\).

Para cada parâmetro \(\theta_k\), define-se uma função de ligação \(g_k\) e um preditor aditivo:

\[ g_k(\theta_{ki})=\eta_{ki}=\beta_{0k}+\sum_{j=1}^{p_k} f_{jk}(x_{ij}), \qquad k\in\{\mu,\sigma,\nu,\tau\}. \]

O GAMLSS é permite que diferentes aspectos da distribuição condicional variem com covariáveis (Rigby & Stasinopoulos, 2005; Stasinopoulos & Rigby, 2007).

GAMLSS como modelo semiparamétrico

O GAMLSS é descrito como semiparamétrico porque:

Isso flexibiliza ao mesmo tempo que controla a complexidade (via suavização e seleção de modelo).

Componentes do modelo: \(\mathcal{M}=\{D,G,T,\mathcal{L}\}\)

Organização útil:

\[ \mathcal{M}=\{D, G, T, \mathcal{L}\}, \]

Ajustar um GAMLSS exige especificar (ou selecionar) esses quatro componentes.

O componente \(D\): escolha da distribuição da resposta

A seleção de \(D\) deve considerar:

O componente \(G\): funções de ligação

Em GAMLSS, cada parâmetro \(\theta_k \in \{\mu,\sigma,\nu,\tau\}\) é modelado via \[ g_k(\theta_{k,i}) = \eta_{k,i}. \]

As funções de ligação \(g_k\) garantem:

  1. domínio válido do parâmetro (exemplo: \(\sigma>0\Rightarrow \log(\sigma)\));
  2. estabilidade numérica e interpretabilidade.

O componente \(T\): quais parâmetros variam com covariáveis

No GAMLSS, é necessário escolher um preditor para cada parâmetro \(\theta_k\in\{\mu,\sigma,\nu,\tau\}\). Assim, precisamos responder a pergunta “quais parâmetros dependem de covariáveis e quais permanecem constantes?”.

O procedimento recomendado é começar por \(\mu\), em seguida \(\sigma\) quando a variabilidade muda conforme os valores de \(X\). Por final \(\nu\) e \(\tau\), já que incluir covariáveis em parâmetros de forma aumenta muito a complexidade do de modelo e pode dificultar interpretação e convergência.

\[ \mu \;\rightarrow\; \sigma \;\rightarrow\; \nu \;\rightarrow\; \tau. \]

Assim, o componente \(T\) deve ser escolhido de forma parcimoniosa, utilizando os critérios GAIC, AIC, BIC, e diagnóstico.

Estimação: verossimilhança penalizada

Quando os preditores incluem termos suaves (splines), o ajuste do GAMLSS é formulado como a maximização de uma log-verossimilhança penalizada, que equilibra qualidade de ajuste e complexidade das funções estimadas:

\[ \ell_p(\boldsymbol{\beta}) = \ell(\boldsymbol{\beta}) -\frac{1}{2}\sum_{k\in\{\mu,\sigma,\nu,\tau\}} \sum_{j\in\mathcal{S}_k} \lambda_{kj}\, \boldsymbol{\beta}_{kj}^{\top}\mathbf{P}_{kj}\boldsymbol{\beta}_{kj}. \]

Estimação iterativa

O GAMLSS possui preditores distintos para cada parâmetro: \[ g_\mu(\mu_i)=\eta_{\mu,i},\quad g_\sigma(\sigma_i)=\eta_{\sigma,i},\quad g_\nu(\nu_i)=\eta_{\nu,i},\quad g_\tau(\tau_i)=\eta_{\tau,i}. \] Assim, a maximização da log-versossimilhança é feita por ciclos de atualização:

O backfitting é um esquema iterativo de ajuste por blocos, onde se atualiza um conjunto de parâmetos mantendo os demais fixos. O ciclo é mostrado abaixo:

  1. Fixar os preditores atuais de \((\sigma,\nu,\tau)\) e atualizar o preditor de \(\mu\);
  2. Fixar \((\mu,\nu,\tau)\) e atualizar \(\sigma\);
  3. Fixar \((\mu,\sigma,\tau)\) e atualizar \(\nu\);
  4. Fixar \((\mu,\sigma,\nu)\) e atualizar \(\tau\);
  5. Repetir o ciclo até convergência.

A convergência ocorre quando as mudanças em \(\ell_p\) e/ou nos preditores tornam-se muito pequenas, indicando estabilização.

(Rigby & Stasinopoulos, 2005; Stasinopoulos & Rigby, 2007).

Critérios de informação: GAIC, AIC e BIC-like

Na seleção de modelos em GAMLSS, são utilizados critérios de informação que equilibram qualidade de ajuste e complexidade. Um cirtério bastante utilizado é o GAIC (Generalized Akaike Information Criterion):

\[ GAIC(k)= -2\,\ell(\hat{\boldsymbol{\theta}}) + k\cdot df, \]

em que:

Diagnóstico: resíduos quantílicos randomizados (RQR)

Para cada \(i\), calcula-se o valor sob o modelo ajustado:

  1. \[ u_i = F_Y\!\left(y_i \mid \hat{\boldsymbol{\theta}}_i\right), \] onde \(F_Y(\cdot\mid \hat{\boldsymbol{\theta}}_i)\) é a acumulada da distribuição assumida para \(Y_i\mid X_i\).

  2. \[ r_i = \Phi^{-1}(u_i). \]

Diagnóstico: worm plot

(Buuren & Fredriks, 2001)

Aplicação em R: GAMLSS

(1) Seleção inicial de \(D\):

## 
## Family:  c("BCCG", "Box-Cox-Cole-Green") 
## Fitting method: "nlminb" 
## 
## Call:  gamlssML(formula = y, family = DIST[i]) 
## 
## Mu Coefficients:
## [1]  749.3
## Sigma Coefficients:
## [1]  -0.752
## Nu Coefficients:
## [1]  0.2531
## 
##  Degrees of Freedom for the fit: 3 Residual Deg. of Freedom   1966 
## Global Deviance:     28607.7 
##             AIC:     28613.7 
##             SBC:     28630.4

(2) Modelo inicial (BCCG): \(\mu(Fl)\), e \(\sigma\), \(\nu\) constante

Aqui, ajustamos um GAMLSS usando a distribuição BCCG para o aluguel.
A ideia é começar com um modelo simples. Modelamos \(\mu\) como uma função suave de \(Fl\) (área), usando dispersão e assimetria constantes.

As linhas de Global Deviance mostram o processo iterativo de ajuste.
Como o valor vai estabilizando há indicação de que o algoritmo convergiu.

No próximo passo, vamos permitir que \(\sigma\) dependa de \(Fl\) e ver se o critério melhora.

## GAMLSS-RS iteration 1: Global Deviance = 28138.67 
## GAMLSS-RS iteration 2: Global Deviance = 28080.4 
## GAMLSS-RS iteration 3: Global Deviance = 28078.86 
## GAMLSS-RS iteration 4: Global Deviance = 28078.71 
## GAMLSS-RS iteration 5: Global Deviance = 28078.69 
## GAMLSS-RS iteration 6: Global Deviance = 28078.69 
## GAMLSS-RS iteration 7: Global Deviance = 28078.69
## [1] 28088.53

(3) Avaliando \(\sigma(Fl)\)

Agora vamos manter a mesma forma para a média \(\mu(Fl)\), mas permitir que a dispersão (escala) também dependa de \(Fl\). Aqui, \(\sigma\) passa a ser uma função suave da área. Isso é útil quando os dados mostram que a variabilidade aumenta ou diminui conforme \(Fl\).

Mesmo com o segundo modelo sendo mais complexo (maior \(df\), porque agora há um spline em \(\sigma\)), o AIC caiu bastante:

## GAMLSS-RS iteration 1: Global Deviance = 28092.9 
## GAMLSS-RS iteration 2: Global Deviance = 28030.24 
## GAMLSS-RS iteration 3: Global Deviance = 28028.11 
## GAMLSS-RS iteration 4: Global Deviance = 28027.64 
## GAMLSS-RS iteration 5: Global Deviance = 28027.53 
## GAMLSS-RS iteration 6: Global Deviance = 28027.5 
## GAMLSS-RS iteration 7: Global Deviance = 28027.5 
## GAMLSS-RS iteration 8: Global Deviance = 28027.5 
## GAMLSS-RS iteration 9: Global Deviance = 28027.5
##           df      AIC
## m2 12.003086 28051.50
## m1  4.919832 28088.53

(4) Avaliando \(\nu(Fl)\)

Aqui, mantemos a estrutura já escolhida para \(\mu(Fl)\) e \(\sigma(Fl)\) e testamos se vale a pena avaliar o parâmetro \(\nu\) da distribuição BCCG. Aqui, \(\nu(Fl)\) passa a ser uma função suave de \(Fl\): isso significa que estamos testando se a forma associada ao parâmetro \(\nu\)) muda com a área \(Fl\).

O modelo 2 continua o menor AIC, assim não há ganho em deixar \(\nu\) variar com \(Fl\). Além disso, note que o modelo 3 é um pouco mais complexo, e essa complexidade não foi compensada por melhora no ajuste.

## GAMLSS-RS iteration 1: Global Deviance = 28091.46 
## GAMLSS-RS iteration 2: Global Deviance = 28028.84 
## GAMLSS-RS iteration 3: Global Deviance = 28027.09 
## GAMLSS-RS iteration 4: Global Deviance = 28026.75 
## GAMLSS-RS iteration 5: Global Deviance = 28026.66 
## GAMLSS-RS iteration 6: Global Deviance = 28026.64 
## GAMLSS-RS iteration 7: Global Deviance = 28026.63 
## GAMLSS-RS iteration 8: Global Deviance = 28026.63 
## GAMLSS-RS iteration 9: Global Deviance = 28026.62
##           df      AIC
## m2 12.003086 28051.50
## m3 12.686807 28052.00
## m1  4.919832 28088.53

Resíduos quantílicos vs covariável

O gráfico mostra os resíduos quantílicos randomizados em função da covariável \(Fl\). A ideia aqui é verificar se ainda existe algum padrão nos resíduos ao longo de \(Fl\).

Diagnóstico do modelo escolhido

Idealmente, os pontos devem estar distribuídos ao redor de zero dentro das bandas.

Neste gráfico, temos um padrão:

Indica que, apesar do bom ajuste global, pode ocorrer:

Conclusão: o diagnóstico aponta boa adequação global, com indícios de possíveis discrepâncias pequenas nas caudas. A decisão de complexificar o modelo deve considerar se esses desvios nas caudas são relevantes para o objetivo do estudo (por exemplo, previsão de quantis extremos).

Conclusões

Alguns materiais

Referências

Buuren, S. van, & Fredriks, M. (2001). Worm plot: A simple diagnostic device for modelling growth reference curves. Statistics in Medicine, 20(8), 1259–1277. https://doi.org/10.1002/sim.746
Hastie, T., & Tibshirani, R. (1986). Generalized additive models. Statistical Science, 1(3), 297–310. https://doi.org/10.1214/ss/1177013604
Nelder, J. A., & Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the Royal Statistical Society: Series A (General), 135(3), 370–384. https://doi.org/10.2307/2344614
Rigby, R. A., & Stasinopoulos, D. M. (2005). Generalized additive models for location, scale and shape. Journal of the Royal Statistical Society: Series C (Applied Statistics), 54(3), 507–554. https://doi.org/10.1111/j.1467-9876.2005.00510.x
Stasinopoulos, D. M., & Rigby, R. A. (2007). Generalized additive models for location scale and shape (GAMLSS) in R. Journal of Statistical Software, 23(7). https://doi.org/10.18637/jss.v023.i07