Um novo modelo paramétrico de regressão quantílica baseado na distribuição de Owen

Seminário de Pós-Graduação - DE/UFPE

Manoel Santos-Neto

DEMA, UFC

31 de março de 2026

Equipe de Pesquisa


Diego Gallardo Universidad del Bío-Bío - Chile


Eliardo Costa DEST - UFRN

Carolina Marchant Universidad Católica del Maule - Chile

Iago Renan PPGMAT - UFCG








Departamento de Estatística e Matemática Aplicada — UFC
Fortaleza, 01 de abril de 2026

Minha Trajetória

  • Graduação: Bacharelado em Estatística pela UFC (2023 - 2027).
  • Mestrado: Mestre em Estatística pela UFPE (2008 - 2010).
  • Doutorado: Doutor em Estatística pela UFPE (2010 - 2013).
  • Interesses: Tudo que envolve Estatística.

“Trabalhei 11 anos na Unidade Acadêmica de Estatística da UFCG e, desde 2023, sou docente do DEMA/UFC.”

Motivação: Rendimento Domiciliar no Chile

  • Contexto Socioeconômico: No Chile, o acesso a benefícios sociais é determinado pela posição da família na distribuição de renda.
  • Limitações do Modelo Clássico:
    • Benefícios para os 40% mais pobres (Ex: Registro Social).
    • Isenção de mensalidades para os 50% (Mediana).
    • Subsídios de aluguel (70%) e pensões de invalidez (60%).
  • Problema: A média ou a mediana não capturam a heterogeneidade necessária para políticas públicas em diferentes estratos.

O Desafio

Como os diferentes tipos de renda (salários, trabalho independente e aposentadoria) impactam o rendimento total em cada quantil da população?

A Ideia Principal

  • Evolução do Modelo:
    • Birnbaum-Saunders (BS): Assume independência na extensão de fissuras (irrealista em muitos casos).
    • Distribuição de Owen (OW): Relaxa essa suposição, modelando a extensão como um processo de memória longa.
  • Nossa Contribuição:
    1. Introduzir uma versão exponenciada da distribuição de Owen.
    2. Realizar uma reparametrização para que o parâmetro de localização seja o quantil de ordem \(\tau\).
    3. Permitir que covariáveis influenciem diretamente qualquer quantil de interesse, não apenas a média.

Distribuição de Owen

Gênese do Modelo

  • Base Física: Derivada da fadiga de materiais (Birnbaum-Saunders), mas relaxando a independência das extensões de fissura.
  • Memória Longa: O parâmetro \(\kappa\) modela a dependência entre ciclos de estresse.
  • Caso Particular: Se \(\kappa = 0.5\), recuperamos a BS clássica.

Função de Distribuição

\[F_{OW}(z \mid \lambda, \beta, \kappa) = \Phi \left( \frac{1}{\lambda} \left[ \frac{z^{1-\kappa}}{\sqrt{\beta}} - \frac{\sqrt{\beta}}{z^\kappa} \right] \right).\] em que \(z, \lambda, \beta, \alpha_\tau > 0\) e \(\kappa \in (0, 1)\).

Reparametrização: Da Mediana ao Quantil \(\tau\)

Para permitir a modelagem de qualquer ordem do quantil, \(\tau \in (0, 1)\), utilizamos a técnica de Exponencialização de Lehmann:

\[G(z) = [F_{OW}(z)]^{\alpha_\tau}.\]

O Ajuste Matemático

Fixamos \(\alpha_\tau = -\frac{\log(\tau)}{\log(2)}\) para garantir que: \[G(\beta \mid \lambda, \beta, \kappa, \alpha_\tau) = \tau.\]

  • Vantagem: O parâmetro \(\beta\) assume o papel do quantil de interesse.
  • Flexibilidade: Se \(\tau = 0.5\), então \(\alpha_\tau = 1\) e retornamos à distribuição de Owen original (mediana).
  • Interpretabilidade: As covariáveis agora explicam diretamente o deslocamento do quantil \(\tau\).

O Modelo de Regressão

Seja \(Y_i\) a resposta (Ex: Renda), associamos o quantil \(\beta_i\) a um conjunto de covariáveis \(\mathbf{x}_i\): \[\log(\beta_i) = \mathbf{x}_i^\top \boldsymbol{\gamma}.\]

  • Parâmetros: \(\lambda\) (forma), \(\kappa\) (memória longa) e \(\beta\) (o quantil de ordem \(\tau\)).
  • Estimação: Realizada via Máxima Verossimilhança (MLE).

Principais Resultados e Aplicação

  • Os estimadores de Máxima Verossimilhança apresentaram ótimas propriedades assintóticas.
  • O viés e o erro quadrático médio reduzem consistentemente com o aumento da amostra (\(n\)).
  • O modelo proposto foi mais competitivo que modelos de regressão quantílica convencionais.
  • Insights: O impacto do trabalho independente (\(X_2\)) e das aposentadorias (\(X_3\)) varia significativamente entre o 10º e o 90º quantil.
  • Implementação de medidas de diagnóstico: Distância de Cook Generalizada e Resíduos Quantílicos.
  • Ferramentas prontas para uso em linguagem R.

Maiores Detalhes

A more interpretable regression model for count data with excess of zeros


Gustavo H. A. Pereira¹ | Jeremias Leão² | Manoel Santos-Neto³ | Jianwen Cai⁴


¹ Dept. of Statistics, UFSCar, São Carlos, Brazil
² Dept. of Statistics, UFAM, Manaus, Brazil

³ Dept. of Statistics, UFC, Fortaleza, Brazil
⁴ Dept. of Biostatistics, UNC, Chapel Hill, USA


O Problema da Interpretabilidade

  • Dados de Contagem na Medicina: Comum em imunologia, cardiologia e psiquiatria.

  • Excesso de Zeros: Quando há mais zeros do que o esperado pela Poisson (ex: consultas pré-natais, número de defeitos).

  • Modelos Tradicionais (ZIP/ZINB):

    • Modelam uma mistura de duas populações (latentes).
    • O parâmetro estimado (\(\lambda\)) refere-se apenas à subpopulação que “pode” ter eventos, não à média de toda a população.
  • Marginalização: Pesquisadores geralmente querem saber o efeito médio na população total, não em grupos teóricos inobserváveis.

A Lacuna

Apesar de corrigirem a interpretação da média, as parametrizações MZIP existentes não contemplam um parâmetro de dispersão que atue como um índice de fácil explicação para o pesquisador

A Nova Parametrização ZIP3

Propomos uma reparametrização da distribuição Poisson Inflada de Zero onde ambos os parâmetros têm significado prático direto:

1. Média Marginal (\(\mu\)): Estimamos diretamente a taxa média de eventos para toda a população.

2. Parâmetro de Dispersão (\(\phi\)):

Interpretado como o Índice de Agrupamento (Index of Clumping - IOC).

Vantagens do IOC (\(\phi\)):

  • \(\phi = \text{Var}(Y)/\text{E}(Y) - 1\).
  • Representa o aumento relativo da variância em relação à Poisson.
  • Se \(\phi = 0.5\), a variância é 50% maior que a média.

Função de Probabilidade (PMF)

\[P(Y=y \mid \mu,\phi)= \begin{cases} \frac{\phi + \mu e^{-(\mu+\phi)}}{\mu + \phi}, &\text{se } y=0; \\ \frac{\mu(\mu+\phi)^{y-1} e^{-(\mu+\phi)}}{y!}, &\text{se } y > 0. \end{cases}\]

Estrutura do Modelo e Software

O modelo proposto segue a lógica de um modelo linear generalizado duplo, permitindo que tanto a média quanto a dispersão dependam de covariáveis:

  1. Link da Média: \(g_1(\mu_i) = \mathbf{x}_i^\top \boldsymbol{\beta}\) (ex: link log)
  2. Link da Dispersão: \(g_2(\phi_i) = \mathbf{z}_i^\top \boldsymbol{\gamma}\) (ex: link log)
  • Inferência: Estimadores de Máxima Verossimilhança (ML) integrados ao framework do pacote gamlss no R.
  • Ferramentas de Diagnóstico:
    • Resíduos Quantílicos.
    • Medidas de influência global.
  • Código Aberto: Disponível em github.com/statlab-oficial/ZIP3.

Resultados e Aplicação

  • Avaliamos o desempenho dos estimadores em amostras pequenas, médias e grandes.
  • Resultados mostram propriedades assintóticas consistentes (viés e EQM reduzidos com \(n\)).
  • Dados: Visitas pré-natais (contagem com muitos zeros).
  • Comparação: ZIP3 vs. NBII (Binomial Negativa Tipo II).
  • Conclusão: Embora as médias estimadas possam ser similares, a interpretação do parâmetro \(\phi\) como Índice de Agrupamento permitiu identificar fatores que aumentam a dispersão (heterogeneidade) de forma muito mais intuitiva para profissionais de saúde.

Enquanto os modelos antigos nos obrigavam a escolher entre entender a média OU entender a variabilidade, o ZIP3 nos permite fazer as duas coisas simultaneamente com parâmetros que qualquer pesquisador consegue explicar.