Lego III - Aula 1

Fazendo ciência

Para agir no mundo construímos modelos mentais de como esse mundo funciona. Esses modelos podem ser derivados de mitos, do ‘senso comum’ ou de metodologia científica. Um modelo mental é, explícta ou implícitamente, um modelo causal. Ele associa certos fenômenos: se há fumaça há fogo, se não há nuvens não haverá chuva etc.

Um modelo científico propõe um mecanismo pelo qual o fenômeno de interesse é gerado. A fumaça, por exemplo, seria formada por partículas produzida em uma combustão incompleta. Quando formulamos nosso modelos em termos de mecanismos podemos, ao menos teoricamente, reproduzir o fenômeno estudado. Podemos queimar materiais em laboratório e observar se produzem fumaça.

Se conseguimos reproduzir o processo de geração de certo fenômeno isso indica que nosso modelo tem consistência lógica, mas não indica, necessariamente, que ele seja fiel à realidade. Para saber se nosso modelo é uma boa descrição da realidade temos que testá-lo frente a observações reais. Se observamos uma fumaça e não encontrarmos um processo de combustão associado a ela, então nosso modelo não serve para muita coisa.

O uso de dados observacionais para testar a plausibilidade de nossos modelo mentais é chamado de inferência. Quando reconhecemos que nossas observações não foram obtidas de modo controlado, como em um laboratório, precisamos de técnicas que nos permitam generalizar nossos achados para toda a ‘população’. A essas técnicas denominamos inferência estatística.

Esse é um curso de inferência estatística. O principal objetivo do curso é fazer com que você saiba construir modelos estatísticos para testar a plausibilidade de modelos científicos diante de suas observações da realidade.

Um fenômeno pode ser explicado por vários modelos diferentes. Ao propor um modelo queremos saber o quão plausível é esse modelo diante dos fatos. Olhamos os dados para atualizar nossa ‘confiança’ com relação ao modelo.

Esse tipo de abordagem é radicalmente diferente do tradicional teste de significância de hipótese nula. Conforme o paradigma do teste de hipótese, dado um certo intervalo de significância rejeitamos ou falhamos em rejeitar uma hipótese. Embora essa pratica seja pervasiva nas ciências sociais, ela é equivocada e perniciosa.

É importante ressaltar esse ponto. Para isso é importante ter uma compreensão correta do que é o teste de hipótese conforme ele é utilizado hoje. O paradigma do teste de hipótese é uma combinação apócrifa de duas perspectivas opostas: o teste de significância de Fisher com o teste de aceitação de Neyman e Pearson (ver Gill, 1999). Essas duas abordagens, isoladamente, são adequadas aos problemas que propõe resolver, mas esse híbrido infértil, o teste de significância de hipótese nula, não o é.

Teste de significância de Fisher

Fisher trabalhava com agricultura. Estava interessado nos efeitos de tratamentos do solo. Dado um certo tratamento (diferentes tipos de fertilizantes por exemplo) ele queria medir o efeito separando o que era sistemático (devido apenas ao tratamento) do que era estocástico (devido a soma de outros fatores fora do coontrole do pesquisador).

No esquema de Fisher estabelecemos uma distribuição (componente estocástico) hipotética para a quantidade de interesse (“diferença na altura média da planta entre tratadas e não tratadas”, p. ex ) e o teste adequado para esta distribuição (teste t no caso). Estabelecemos uma Ho (“o tratamento não tem efeito”), verificamos o valor observado da diferença e calculamos o nível de significância desta estatística se a hipótese nula fosse verdadeira.

O resultado era um valor (p-valor) que nos dizia o quão plausível seria obter aqueles dados se a hipótese nula fosse verdadeira. Cabia ao pesquisador, utilizando sua expertise, estabelecer o nível a partir do qual a hipótese nula seria rejeitada.

Teste de Aceitação de Neyman e Pearson

Neyman e Pearson estavam interessados em processos de tomada de decisão. Eles partiam de duas hipóteses, a rejeição de uma implicando a aceitação da outra. Definiam, teoricamente, níveis α (probabilidade de erro Tipo I) e β (probabilidade de erro Tipo II), o tamanho da amostra que garantisse o poder do teste (1-beta) dado o valor da estatística de teste que determinava as zonas de rejeição das duas hipóteses.

Uma aplicação típica do teste de Neyman-Pearson é no controle de qualidade. Imagine um fabricante de placas de metal usadas em instrumentos médicos. Ela considera um diâmetro médio de 8 mm (H1) como ideal e 10 mm (H2) como perigoso para os pacientes e, portanto, inaceitável.

Por experiência, ela sabe que as flutuações aleatórias de distribuição aproximadamente normal e os desvios padrão não dependem da média. Isso permite que ela determine as distribuições amostrais da média para ambas as hipóteses. Ela considera os falsos alarmes, ou seja, aceitar H2 enquanto H1 é verdadeiro, como o erro menos grave, e as falhas de mau funcionamento, ou seja, aceitar H1 enquanto H2 é verdadeiro, como mais grave.

Os erros podem causar danos aos pacientes e à reputação da empresa. Portanto, ela define a primeira taxa de erro pequena e a segunda maior, digamos α = 1% e β = 10%, respectivamente. Ela agora calcula o tamanho de amostra necessário n de placas de metal que devem ser amostradas diariamente para testar a qualidade da produção.

Ao aceitar H2, ela age como se houvesse um mau funcionamento e interrompe a produção, mas isso não significa que ela acredite que H2 seja verdade. Ela sabe que deve esperar um alarme falso em 1 de 10 dias em que não haja mau funcionamento (Gigerenzer, 2004:591)

Teste de Significância da Hipotese Nula (NHST) - Um híbrido infértil

O que lemos hoje nos artigos acadêmicos são frases como “The regression coefficient, -0.007 (Table A03, in the Appendix), is statistically significant at α = 1%”, quando analisando tabelas, ou “the horizontal lines indicate the confidence interval, and the estimated coefficient is not statistically significant if the horizontal lines cross the dashed line”.

A prática é, utilizando certo estimador (um logit, p. ex.), calcula-se uma estimativa (um coeficiente) e verifica-se o quanto esse coeficiente é diferente da hipótese nula de “zero efeito”. O pesquisador deseja rejeitar uma “hipótese nula”, pois ao fazê-lo acha que está confirmando sua hipótese (além de tornar sua pesquisa mais publicável).

Essa abordagem é diferente da abordagem de Fisher. Este estava preocupado apenas na plausibilidade dos dados se a hipótese estivesse correta \(P(D|Ho)\). Ele não buscava rejeitar nada e não havia hipótese nula \((Ho = 0)\). Trata-se de verificar o quão plausível é um resultado observado se o mundo funcionasse conforme uma dada hipótese. O p-valor é uma medida desta palusibilidade. Se o fenômeno é raro ou não, se ele foi ou não produzido por acaso, é uma decisão subjetiva do cientista e varia com o problema de pesquisa. Não há, na abordagem de Fisher, um nível α = 1% que serviria para todas as situações (muito menos a noção de erro Tipo I).

O NHST também não tem nada a ver com a abordagem de Neyman e Pearson. A rejeição de uma hipótese nula não significa a aceitação de uma hipótese alternativa. Não se fala em α ou β como erros tipo I e II e, muito menos, em poder do teste. Não se sabe o que foi rejeitado, por que foi rejeitado e a consequência dessa rejeição.

Por que o NHST é equivocado?

  • Modus Tollens: Se A –> B. B, logo A. Neste silogismo, se A implica B e eu observo B, então acredito que A é verdadeiro. O NHST segue essa lógica: se a hipótese nula implica um p-valor < 0.05 e observo um p-valor maior que esse, então rejeito a hipótese nula. O problema é que em ciências sociais A –> B não existe. Existe “Se A então, muito provavelmente B”. Observamos “não-B”, daí não segue “provavelmente não-A”. Ex.: “Se brasileiro então, muito provavelmente, não membro do Congresso”. Observo “membro do Congresso” o que não implica “não-brasileiro”.
  • Probabilidade Inversa: Quando fazemos ciência estamos interessados na probabilidade de nosso modelo científico estar correto. Coletamos dados para avaliar a probabilidade de nosso modelo estar certo, isso é, o quanto ele é compatível com os dados. Ou seja \(P(Ho|D)\). Tanto NHST quanto Fisher e Neyman e Pearson, trabalham com a ideia inversa. Partido da premissa de que o modelo está correto, perguntam qual a probabilidade de observar aqueles dados. Isto é, \(P(D|Ho)\). Neyman e Pearson não estavam interessados em testar modelos. Fisher trabalhava com a ideia de verossimilhança que era dervida do teorema de Bayes. Por este teorema \(P(A|B) = P(B|A) \times P(A)/P(B)\). Fisher mostra que como o segundo termo não depende de A então poderia ser reduzido a uma constante \(f(A)\) e, portanto, \(P(A|B) = P(B|A) f(A)\) e \(L(A|B) \propto P(B|A)\). Fisher chamou \(L(A|B)\) de verossimilhança. Na abordagem Bayesiana utiliza-se \(P(A|B) \propto P(B|A) \times P(A)\) e estipulamos uma probabilidade a priori para P(A). Enfim, apenas na NHST confunde-se \(P(Ho|D)\) com \(P(D|Ho)\) e vários autores interpretam um valor p menor que 0.05 ou 0.01 como a probabilidade da hipótese nula estar errada.
  • Seleção de Modelos: No NHST testam-se vários modelos até chegar a um que dê a significância desejada. Os outros modelos são descartados, perdendo outras interpretações possíveis dos coeficientes de interesse ou, dizendo de outra forma, deixando crer que a relação apresentada é única.
  • Falsa vantagem do N grande: como com amostras grandes o poder do teste é maior, tem-se a impressão de que desenhos com amostras grandes são melhores do que os com amostras menores.
  • Arbitrariedade do nível de significância: 0.10, 0.05 ou 0.01 são valores arbitrários. Fisher, o responsável pela existência deles, nunca defendeu sua aplicação em todo caso.
  • Falácia da replicação: ao se rejeitar uma hipótese nula, tende-se a acreditar que a probabilidade do efeito encontrado é de 1-α e que essa será a probabilidade de se encontrar um efeito no mínimo tão significativo quanto este em uma replicação. Isso não é verdade. A probabilidade de se encontrar um dado efeito é dado pelo poder do teste, isto é, por 1-β, que não é nem considerado no NHST.
  • Falácia da falsibilidade: ao utilizar o p-valor para rejeitar um hipótese nula acredita-se estar seguindo a ideia popperiana de falsificação de hipóteses. Para Karl Popper, mesmo uma grande quantidade de observações não é suficiente para provar uma hipótese, mas basta uma única observação contrária para disprovála. Quando rejeitamos a hipótese nula não estamos fazendo nada parecido com a falsificação de nossa hipótese de investigação.

Consequências

  • Crise de Replicação (https://www.youtube.com/watch?v=ez4DgdurRPg)

“In particular, errors being acknowledged in ML expose cracks in long-held beliefs that optimizing predictive accuracy using huge datasets absolves one from having to consider a true data generating process or formally represent uncertainty in performance claims.” (Hullman et al. 2023)

  • Pouca atenção para a teoria: o teste de significância parte dos dados, estima-se um efeito e seu p-valor. Esse efeito é obido ad-hoc, obervando os dados. Não há um esforço de pensar o efeito a priori. Isso desestimula o desenvolvimento de teorias. Não pensamos em como nossos dados são gerados, quais os possíveis valores que a variável de interesse pode assumir, dada nossa teoria.

O que fazer?

O principal problema é interpretar \(P(D|Ho)\) como \(P(Ho|D)\). Para evitar este e os outros problemas apontados acima, precisamos estimar \(P(Ho|D)\). Autores como Gary King, um dos principais metodólogos na Ciência Política, propõe a abordagem da máxima verossimilhança, onde se estima o parâmetro de interesse que maximize a verossimilhança de certa observação. A partir deste parâmetro estima-se valores preditos pelo modelo ou as primeiras diferenças.

Como veremos a maximização da verossimilhança equivale a uma abordagem bayesiana com um prior não informativo. Neste curso usaremos a abordagem bayesiana. Na análise bayesiana a incerteza sobre a estimativa, isto é, sobre a estatística que descreve o modelo, é tratada como uma distribuição de probabilidade. Nesta abordagem podemos dizer coisas como: a probabilidade da estimativa ser zero é de 5%, por exemplo.

O que veremos nas aulas seguintes é como modelos estatísticos são derivados de modelos científicos. Vamos sempre partir de um modelo causal. Vamos usar DAGs para construir nossos modelos estatísticos. Vamos usar simulações para prever o comportammento de nossos modelos teóricos e verificar se o modelo estatístico que pretendemos utilizar é o mais adequado. Vamos ver como apresentar nossos resultados como uma estimativa da incerteza sobre nosso modelo. Vamos ver como comparar modelos e como escolher modelos com base na sua capacidade de predição. Vamos, por fim, trabalhar com modelos multinível que permitem não só melhor a capacidade preditiva dos modelos, como também ajuda a resolver problemas de modelagem como missing data e erros de mensuração.

O objetivo do curso é singelo: que o aluno, partindo de um modelo causal, consiga identificar o melhor modelo estatístico para seu problema, aquele com maior poder preditivo, ou seja, que permita que sus achados sejam generalizados. A ênfase será dada na relação entre teoria e empiria. Espera-se que o aluno, ao dominar esta abordagem, obtenha respostas substantivas à questões substantivas que dêem uma real contribuição à ciência e permitam intervenções significativas na realidade.