Um novo modelo paramétrico de regressão quantílica baseado na distribuição de Owen

Seminário de Pós-Graduação - DE/UFPE

Manoel Santos-Neto

DEMA, UFC

31 de março de 2026

Equipe de Pesquisa

Diego Gallardo Universidad del Bío-Bío - Chile

Eliardo Costa DEST - UFRN

Carolina Marchant Universidad Católica del Maule - Chile

Iago Renan PPGMAT - UFCG

Departamento de Estatística e Matemática Aplicada — UFC
Fortaleza, 01 de abril de 2026

Minha Trajetória

Graduação: Bacharelado em Estatística pela UFC (2023 - 2027).
Mestrado: Mestre em Estatística pela UFPE (2008 - 2010).
Doutorado: Doutor em Estatística pela UFPE (2010 - 2013).
Interesses: Tudo que envolve Estatística.

“Trabalhei 11 anos na Unidade Acadêmica de Estatística da UFCG e, desde 2023, sou docente do DEMA/UFC.”

Motivação: Rendimento Domiciliar no Chile

Contexto Socioeconômico: No Chile, o acesso a benefícios sociais é determinado pela posição da família na distribuição de renda.
Limitações do Modelo Clássico:
- Benefícios para os 40% mais pobres (Ex: Registro Social).
- Isenção de mensalidades para os 50% (Mediana).
- Subsídios de aluguel (70%) e pensões de invalidez (60%).

Problema: A média ou a mediana não capturam a heterogeneidade necessária para políticas públicas em diferentes estratos.

O Desafio

Como os diferentes tipos de renda (salários, trabalho independente e aposentadoria) impactam o rendimento total em cada quantil da população?

A Ideia Principal

Evolução do Modelo:
- Birnbaum-Saunders (BS): Assume independência na extensão de fissuras (irrealista em muitos casos).
- Distribuição de Owen (OW): Relaxa essa suposição, modelando a extensão como um processo de memória longa.
Nossa Contribuição:
1. Introduzir uma versão exponenciada da distribuição de Owen.
2. Realizar uma reparametrização para que o parâmetro de localização seja o quantil de ordem \(\tau\).
3. Permitir que covariáveis influenciem diretamente qualquer quantil de interesse, não apenas a média.

Distribuição de Owen

Gênese do Modelo

Base Física: Derivada da fadiga de materiais (Birnbaum-Saunders), mas relaxando a independência das extensões de fissura.
Memória Longa: O parâmetro \(\kappa\) modela a dependência entre ciclos de estresse.
Caso Particular: Se \(\kappa = 0.5\), recuperamos a BS clássica.

Função de Distribuição

\[F_{OW}(z \mid \lambda, \beta, \kappa) = \Phi \left( \frac{1}{\lambda} \left[ \frac{z^{1-\kappa}}{\sqrt{\beta}} - \frac{\sqrt{\beta}}{z^\kappa} \right] \right).\] em que \(z, \lambda, \beta, \alpha_\tau > 0\) e \(\kappa \in (0, 1)\).

Reparametrização: Da Mediana ao Quantil \(\tau\)

Para permitir a modelagem de qualquer ordem do quantil, \(\tau \in (0, 1)\), utilizamos a técnica de Exponencialização de Lehmann:

\[G(z) = [F_{OW}(z)]^{\alpha_\tau}.\]

O Ajuste Matemático

Fixamos \(\alpha_\tau = -\frac{\log(\tau)}{\log(2)}\) para garantir que: \[G(\beta \mid \lambda, \beta, \kappa, \alpha_\tau) = \tau.\]

Vantagem: O parâmetro \(\beta\) assume o papel do quantil de interesse.
Flexibilidade: Se \(\tau = 0.5\), então \(\alpha_\tau = 1\) e retornamos à distribuição de Owen original (mediana).
Interpretabilidade: As covariáveis agora explicam diretamente o deslocamento do quantil \(\tau\).

O Modelo de Regressão

Seja \(Y_i\) a resposta (Ex: Renda), associamos o quantil \(\beta_i\) a um conjunto de covariáveis \(\mathbf{x}_i\): \[\log(\beta_i) = \mathbf{x}_i^\top \boldsymbol{\gamma}.\]

Parâmetros: \(\lambda\) (forma), \(\kappa\) (memória longa) e \(\beta\) (o quantil de ordem \(\tau\)).
Estimação: Realizada via Máxima Verossimilhança (MLE).

Os estimadores de Máxima Verossimilhança apresentaram ótimas propriedades assintóticas.
O viés e o erro quadrático médio reduzem consistentemente com o aumento da amostra (\(n\)).

O modelo proposto foi mais competitivo que modelos de regressão quantílica convencionais.
Insights: O impacto do trabalho independente (\(X_2\)) e das aposentadorias (\(X_3\)) varia significativamente entre o 10º e o 90º quantil.

Implementação de medidas de diagnóstico: Distância de Cook Generalizada e Resíduos Quantílicos.
Ferramentas prontas para uso em linguagem R.

Maiores Detalhes

A more interpretable regression model for count data with excess of zeros

Gustavo H. A. Pereira¹ | Jeremias Leão² | Manoel Santos-Neto³ | Jianwen Cai⁴

¹ Dept. of Statistics, UFSCar, São Carlos, Brazil
² Dept. of Statistics, UFAM, Manaus, Brazil

³ Dept. of Statistics, UFC, Fortaleza, Brazil
⁴ Dept. of Biostatistics, UNC, Chapel Hill, USA

O Problema da Interpretabilidade

Dados de Contagem na Medicina: Comum em imunologia, cardiologia e psiquiatria.
Excesso de Zeros: Quando há mais zeros do que o esperado pela Poisson (ex: consultas pré-natais, número de defeitos).
Modelos Tradicionais (ZIP/ZINB):
- Modelam uma mistura de duas populações (latentes).
- O parâmetro estimado (\(\lambda\)) refere-se apenas à subpopulação que “pode” ter eventos, não à média de toda a população.
Marginalização: Pesquisadores geralmente querem saber o efeito médio na população total, não em grupos teóricos inobserváveis.

A Lacuna

Apesar de corrigirem a interpretação da média, as parametrizações MZIP existentes não contemplam um parâmetro de dispersão que atue como um índice de fácil explicação para o pesquisador

A Nova Parametrização ZIP3

Propomos uma reparametrização da distribuição Poisson Inflada de Zero onde ambos os parâmetros têm significado prático direto:

1. Média Marginal (\(\mu\)): Estimamos diretamente a taxa média de eventos para toda a população.

2. Parâmetro de Dispersão (\(\phi\)):

Interpretado como o Índice de Agrupamento (Index of Clumping - IOC).

Vantagens do IOC (\(\phi\)):

\(\phi = \text{Var}(Y)/\text{E}(Y) - 1\).
Representa o aumento relativo da variância em relação à Poisson.
Se \(\phi = 0.5\), a variância é 50% maior que a média.

Função de Probabilidade (PMF)

\[P(Y=y \mid \mu,\phi)= \begin{cases} \frac{\phi + \mu e^{-(\mu+\phi)}}{\mu + \phi}, &\text{se } y=0; \\ \frac{\mu(\mu+\phi)^{y-1} e^{-(\mu+\phi)}}{y!}, &\text{se } y > 0. \end{cases}\]

Estrutura do Modelo e Software

O modelo proposto segue a lógica de um modelo linear generalizado duplo, permitindo que tanto a média quanto a dispersão dependam de covariáveis:

Link da Média: \(g_1(\mu_i) = \mathbf{x}_i^\top \boldsymbol{\beta}\) (ex: link log)
Link da Dispersão: \(g_2(\phi_i) = \mathbf{z}_i^\top \boldsymbol{\gamma}\) (ex: link log)

Inferência: Estimadores de Máxima Verossimilhança (ML) integrados ao framework do pacote gamlss no R.
Ferramentas de Diagnóstico:
- Resíduos Quantílicos.
- Medidas de influência global.
Código Aberto: Disponível em github.com/statlab-oficial/ZIP3.

Resultados e Aplicação

Simulação Monte Carlo
Aplicação: Consultas Pré-natais

Avaliamos o desempenho dos estimadores em amostras pequenas, médias e grandes.
Resultados mostram propriedades assintóticas consistentes (viés e EQM reduzidos com \(n\)).

Dados: Visitas pré-natais (contagem com muitos zeros).
Comparação: ZIP3 vs. NBII (Binomial Negativa Tipo II).
Conclusão: Embora as médias estimadas possam ser similares, a interpretação do parâmetro \(\phi\) como Índice de Agrupamento permitiu identificar fatores que aumentam a dispersão (heterogeneidade) de forma muito mais intuitiva para profissionais de saúde.

Enquanto os modelos antigos nos obrigavam a escolher entre entender a média OU entender a variabilidade, o ZIP3 nos permite fazer as duas coisas simultaneamente com parâmetros que qualquer pesquisador consegue explicar.