Modelos, probabilidade e inferência

Modelos são simplificações da realidade onde destacamos alguns aspectos de uma situação que queremos entender melhor e estipulamos uma relação entre estes aspectos e os resultados dessa situação. Ao se tentar explicar o mundo, modelos se tornam essenciais. Teorias científicas são modelos, frequentemente modelos matemáticos. Nas Ciências Sociais temos diversos tipos de modelos, entre eles os, cada vez mais preponderantes, modelos estatísticos.

Bons modelos, como bons mapas (modelos da superfície terrestre), são aqueles que se ajustam à situação que queremos compreender. Uma mapa deve nos ajudar a chegar de um ponto a outro no território. Um modelo de voto deve nos ajudar a prever como determinado eleitor votará. Um modelo de desempenho escolar deve prever o resulatdo de alguma avaliação dadas certas características dos alunos e escolas. Modelos podem ser bons ou ruins, mas modelos sempre estão errados, pois são apenas simplificações que, necessariamente, ignoram diversos aspectos da realidade.

No que consiste um modelo? Um modelo divide o mundo em:

  1. Coisas cujos efeitos sobre o modelo são ínfimos;
  2. Coisas que afetam o modelo mas que não são o que queremos estudar;
  3. Coisas que queremos estudar.

Os modelos ignoram o item 1. As coisas do item 2 são externas ao modelo e são chamadas por diversos nomes nos livros de estatística como variáveis exógenas, variáveis independentes, variáveis explicativas etc. As coisas que queremos explicar, o item 3, são variáveis endógenas, também chamadas de variáveis resposta ou variáveis dependentes, isso é, cujo valor depende de sua relação com as coisas do item 2. As três categorias são importantes para a modelagem. Durante o curso veremos que quando ignoramos coisas importantes o modelo não é bom. Se incluimos muita coisa o modelo será muito complexo e pouco generalizável. É inútil escolher uma variável dependente que não podemos medir.

A definição das variáveis que entram no modelo e como se dá a relação entre elas, são as premissas do modelo. Usamos o modelo para tirar conclusões dessas premissas. Estando nossas premissas corretas nossa conclusão estará correta. Mas sabemos que nossos modelos são apenas aproximações e que nunca (a não ser de modo bem trivial) estarão inteiramente corretos. Isso implica que só podemos avaliar nosso modelo comparando a precisão de suas predições com as de outros modelos da mesma situação.

Esse é um curso sobre modelagem. Os modelos que estudaremos são modelos estatísticos, mas o processo de modelagem que estudaremos é comum a todos os modelos. Os prinicpais passos são:

  1. Formula-se um problema: o que você quer saber?
  2. Delineia-se o modelo: neste estágio você separa as coisas sem importância, as coisas ‘exógenas’ e as coisas ‘endógenas’ e estabelece qual a relação entre elas.
  3. Você avalia se é possível obter dados e utiliza-lo no modelo para responder a sua questão, isto é, você verifica se o modelo é útil. Se não for possível obter dados é necessário reformular a questão ou as variáveis.
  4. Use o modelo para fazer predições que possam ser comparadas com resultados reais. Se as predições são ruins e diferentes do antecipado, volte aos passos 1 e 2. Se elas são boas, dentro do esperado, pode-se avaliar sua precisão. Se elas não forem tão boas quanto o esperado verifica-se quais são os pontos fracos do modelo (as variáveis? a relação entre elas?)

Seguindo King( 1987) na modelagem estatística estamos interessados em descrever o processo pelo qual um sistema gera resultados, isto é, ao observar os dados queremos aprender qual o processo que gerou estes dados. Um modelo que aprendemos em LEGO II é o modelo de regressão linear que expressa a variável dependente aleatória \(Y_{i}\) (a operacionalização daquilo que queremos saber) como a soma de um componente sistemático (\(x_{i} \beta\)) e um componente estocástico (\(\epsilon_{i}\))

\[Y_{i} = x_{i} \beta + \epsilon_{i} \\ \epsilon_{i} \sim f_{n}(e_{i} | 0, \sigma^{2})\]

onde \(f_{i}\) refre-se à distribuição normal com média 0 e variância constante \(\sigma^2\). Como veremos na aula que vem, essa representação não é facilmente generalizável para outros processos de geração de dados. Para tornar explícitas nossas premissas podemos reescrever a equação acima com \(Y_{i}\) como o componente estocástico que modelamos diretamente e \(\mu_{i}\) como o componente sistemático que varia com as observações e seus parâmetros \(x_{i} \beta\). Deste modo não precisamos recorrer a um elemento estranho ao modelo e de difícil apreensão teórica, o erro \(\epsilon_{i}\).

De maneira geral a forma do modelo estatístico para qualquer modelo é:

\[Y_{i} \sim f(y|\theta,\alpha) \\ \theta = g(X, \beta)\]

Onde \(Y_{i}\) é um variável dependente aleatória (assume determinados valores conforme uma distribuição de probabilidade), \(f(.)\) é uma função da densidade de probabilidade, \(\theta_{i}\) é uma característica da disribuição que varia com as observações \(i\) (p. ex., a média no modelo linear), \(\alpha\) é um parâmetro complementar que não varia com \(i\) (a variância no modelo linear), \(g(.)\) é a forma funcional que determina como \(\theta_{i}\) varia com as observações, \(x_{i}\) são as variáveis explicativas e \(\beta\) o parâmetro que mede o efeito da variável explicativa na variável resposta.

Ainda seguindo King(1987) é importante distinguir modelos de incerteza (probabilidade) e inferência (verossimilhança). Probabilidade pode ser definida como um modelo de incerteza, a quantificação de nossa incerteza sobre algum resultado. Usando os conceitos abordados acima temos, formalmente;

\(Pr(y|\mathcal{M})\)

Essa fórmula nos diz que nossos dados \(y\) (observados ou hipotéticos) são descritos por nosso modelo \(\mathcal{M}\) que inclui as nossas variáveis e as funções \(f(.)\) e \(g(.)\), isto é, nossas variáveis e as relações entre elas. Um modelo para prever os resultados de um dado, por exemplo, envolve premissas como a ‘honestidade’ do dado, número de dados, e suas faces. Na probabilidade tradicional essas premissas são tidas como certas e permitem responder a questões como a probabilidade de obter 10 ‘seis’ em seguida com um dado honesto.

Nossos modelos procuram definir o processo de geração dos dados que determina a função de probabilidade. Se estamos interessados na relação entre o gênero de uma pessoa e a probabilidade dela ser nomeada para o STF em diferentes governos, por exemplo, podemos observar a quantidade de ministras sobre o total de indicações em cada governo. Neste caso a variável dependente é o número de ‘sucessos’ sobre o total de casos, isto é o número de mulheres nomeadas. Essa razão, por sua vez, dependeria do partido do presidente e outros fatores. Se adotamos a premissa de que a indicação de uma mulher é independente da de outra nosso modelo implica uma função de probabilidade binomial (veremos com mais detalhes daqui a pouco). Assim podemos calcular a probabilidade de uma, duas, três ou mais mulheres serem nomeadas, se a governate for indifirente ao gênero de seus ministros.

Embora modelos de probabilidade sejam excelentes como medidas de incerteza eles não permitem resolver o problema que enfrentamos para responder nossa questão de pesquisa. No prática científica geralmente temos os dados e gostaríamos de sabem como eles foram gerados, isto é queremos saber:

\(Pr(\mathcal{M}|y)\)

Nosse caso o que desconhecemos é o modelo, os dados são fixos, resultado de nossas observações. A relação entre as duas probabilidades é dada pelo teorema de Bayes. Considerando que a característica do modelo que mais nos interessa é \(\theta\) temos:

\[Pr(\theta|y) = \frac{Pr(y|\theta)Pr(\theta)}{Pr(y)}\]

Se levarmos em conta que \(Pr(y)\) é uma função das outras duas probabilidades à direita (\(Pr(y) = \int{Pr(y|\theta)} \Delta \theta\)) podemos elimina-ĺa da equção ficando apenas com \(Pr(\theta|y) = Pr(y|\theta)Pr(\theta)\). Essa equação nos diz que a Probabilidade de nosso modelo (representado por \(\theta\)) condicional aos nossos dados é igual à probabilidades de nossos dados, cuja distribuição conhecemos e a probabilidade de \(\theta\) que não conhecemos. Essa relação aperece nos trabalhos de Laplace no século XVIII onde ele atribui sua ‘descoberta’ a Thomas Bayes.

Diante da necessidade de se calcular uma probabilidade à priori para \(\theta\) fez com que Laplace recorresse a um conceito antigo, o “princípio da ignorância” que nos diz que se não sabemos a probabilidade de algo podemos assumir que qualquer resultado é equiprovável. Se não sabemos qual a probabilidade de uma moeda dar cara ou coroa devemos atribuir a mesma probabilidade para os dois resultados, ou seja \(\frac{1}{2}\). No entanto isso seria equivalente a dizer que a moeda foi lançada de modo ‘honesto’, o que revela que sabemos algo sobre nosso modelo e contradiz o princípio da ignorância.

Podemos ‘escapar’ desse paradoxo se no lugar de estimar \(Pr(\theta|y)\) estimarmos se nosso valor hipótetico \(\tilde{\theta}\) é verossímel ou plausível diante das evidências/dados. Temos então:

\[\mathcal{L}(\tilde{\theta}|y) = k(y)f(y|\tilde\theta) \\ \propto f(y|\tilde\theta)\]

A constante \(k(y)\) é uma função desconhecida dos dados o que torna essa equação equivalente à probabilidade inversa, mas com uma medida relativa de probabilidade (depende dos dados e do modelo). A função de verossimilhança completa nos dá uma estimativa do parâmetro real \(\theta\). Podemos fazer um gráfico dos valores de \(\tilde\theta\) conforme sua verossimilhança para ver como os dados dão suporte para valores rasoáveis do modelo. Vamos voltar ao modelo das indicações ao STF para tornar isso mais concreto.

Vamos supor novamemte que estamos interessados em saber se há um viés de gênero nas escolhas de ministras por presidentes. Como dissemos acima a probabilidade de termos \(k\) mulheres em \(N\) nomeações segue uma distribuição binomial:

\(P(y) = \binom{N}{y} \pi^y(1-\pi)^{N-y} = \frac{N!}{y!(N-y)!}\pi^y(1-\pi)^{N-y}\)

Vamos tomar como exemplo a comparação dos primeiro mandato de Dilma Roussef e o mandato em andamento de Jair Bolsonaro. A questão é saber se algum desses presidentes teria algum viés de gênero na nomeação de seus ministros partindo da ideia de que a representação na democracia deveria ser descritiva (Pitkin, 1967). Dilma fez 80 nomeações durante seu mandato, 15 destas foram nomeações de ministras. Bolsonaro fez 40 nomeações em dois anos, dessas três eram mulheres. Se supormos que ambos nomearam sem viés, isto é se a probabilidade de uma mulher ser nomeada \(\pi = 0,5\) qual a probabilidade de encontrarmos 15 mulheres em 80 e 3 em 40?

choose(80,15)*0.5^15*0.5^(80-15)
## [1] 5.489063e-09
dbinom(15,80,0.5)
## [1] 5.489063e-09
choose(40,3)*0.5^3*0.5^(40-3)
## [1] 8.985808e-09
dbinom(3,40,0.5)
## [1] 8.985808e-09

Embora essa probabilidade nos diga alguma coisa, ela não nos interessa do ponto de vista teórico, pois estamos justamente interesados em \(\pi\), isto é, se os presidentes são indiferentes ao gênero de seus ministros. Queremos estimar a verdadeira probabilidade \(\pi\). Sabemos que a probabilidade inversa \(P(\pi |y)\) não pode ser calculada. A solução é a verossimilhança \(\mathcal{L}(\tilde\pi|y)\), definida como valores proprcionais à probabilidade tradicional para hipotéticos valores de \(\tilde\pi\).

Vamos calcular vário valores de \(\tilde\pi\) para cada administração e examinar o resultado graficamente:

nsims <- 1001
pars <- seq(0,1,0.001)
res_dilma <- rep(NA,1001)
res_bolsonaro <- rep(NA,1001)

for(i in 1:nsims){
res_dilma[i] <-dbinom(15,80,pars[i])
}

for(i in 1:nsims){
res_bolsonaro[i] <-dbinom(3,40,pars[i])
}

plot(pars,res_dilma, ylab = bquote(L(pi:y)), xlab = bquote(pi), type = "n")
lines(pars,res_dilma)

plot(pars,res_bolsonaro, ylab = bquote(L(pi:y)), xlab = bquote(pi), type = "n")
lines(pars,res_bolsonaro)

Ao se interpretar esses gráficos é importante não compararmos os valores de verossimilhança entre os dois conjuntos de dados já que esses valores dependem de constates diferentes \(k(y_{d})\) e \(k(y_{b})\) que são desconhecidos. Só se deve comparar valores de verossimilhança com os mesmos dados.

Um valor interessante é o valor da probabilidade onde a verossimilhança atinge seu máximo. Podemos obte-lo do seguinte modo:

pars[which.max(res_dilma)]
## [1] 0.188
pars[which.max(res_bolsonaro)]
## [1] 0.075

O valor da probabilidade que maximiza a verossimilhança no caso de Dilma é 0,188 e de Bolsonaro é de 0,075 que, não por coincidência, são as médias de mulheres nas duas bases de dados. Uma ideia seria compara esses valores com a verossimilhança quando \(\tilde\pi = 0.5\), isto é quando o presidente se preocupa em ter uma representação descritiva. No caso de Dilma esse valor é de 0,00000005 e de Bolsonaro, 0,000000009. O probelma é que sem saber a constante \(y(.)\) não temos como interpretar a distância entre o máximo e esse valor.

Uma solução para isso tirar a razão entre as verossimilhanças dos dois valores, pois assim anulamos a constante:

\[\frac{\mathcal(L)(\tilde\pi_{1}|y)}{\mathcal(L)(\tilde\pi_{2}|y)} = \frac{k(y)Pr(y|\tilde\pi_{1})}{k(y)Pr(y|\tilde\pi_{2})} = \frac{Pr(y|\tilde\pi_{1})}{Pr(y|\tilde\pi_{2}}\]

Para saber quão perto Dilma estava de um representação descritiva fazemos:

\(\frac{\mathcal(L)(\tilde\pi = 0,5|y_{d})}{\mathcal(L)(\tilde\pi = 0,188|y_{d})} = \frac{0,00000005}{0.114} = 0.00000048\)

Para Bolsonaro:

\(\frac{\mathcal(L)(\tilde\pi = 0,5|y_{b})}{\mathcal(L)(\tilde\pi = 0,188|y_{b})} = \frac{0,000000009}{0.233} = 0.00000038\)

Ou seja, os dois estão muito longe de uma nomeação voltada a representação descritiva. Na aula 3 voltaremos ao método da máxima verossimilhança explorando outros modelos, derivados de diversas teorias, testando hipóteses e verificando o ajuste do modelo aos dados.