Começamos com uma questão central: o que fazemos quando a variável que desejamos explicar – a variável dependente (\(Y\)) – não é quantitativa ou de escala de intervalo, mas sim qualitativa? Em muitos cenários, o resultado que nos interessa é uma escolha ou um estado que pode ser representado por categorias, como “sim/não”, “presente/ausente”, ou “compra/não compra”.
Por exemplo, podemos estar interessados em modelar: * A decisão de uma pessoa participar ou não da força de trabalho. * A posse de uma casa própria (sim ou não). * A probabilidade de fumar (fumante ou não-fumante).
Para tais variáveis dependentes qualitativas, os modelos de regressão tradicionais não são diretamente aplicáveis sem adaptações, e é aqui que entram os modelos de resposta qualitativa. O Modelo de Probabilidade Linear é o mais simples deles.
O Modelo de Probabilidade Linear é formulado como uma regressão linear comum, mas com uma particularidade crucial: a variável dependente (\(Y\)) é uma variável binária (também conhecida como dummy), assumindo apenas dois valores, geralmente 0 ou 1.
A equação do MPL é expressa como: \(Y_i = \beta_1 + \beta_2 X_i + u_i\)
Onde:
\(Y_i\): Variável dependente binária para a observação \(i\) (por exemplo, 1 se possui casa, 0 se não possui).
\(X_i\): Variável explanatória para a observação \(i\) (por exemplo, renda familiar).
\(\beta_1\), \(\beta_2\): Parâmetros da regressão a serem estimados.
\(u_i\): Termo de erro estocástico para a observação \(i\).
Interpretação dos Coeficientes: No MPL, o valor esperado da variável dependente, condicional a \(X_i\), é interpretado como a probabilidade de \(Y_i\) ser igual a 1:
\[ 'E(Y_i | X_i) = P_i = \beta_1 + \beta_2 X_i$ \] Aqui, \(P_i\) representa a probabilidade de o evento ocorrer (por exemplo, a probabilidade de uma família possuir uma casa) dado o valor de \(X_i\) (renda).
Consideremos o exemplo da posse de casa própria em função da renda familiar. Se estimarmos o MPL e encontrarmos que \(\hat{\beta}_2 = 0,02\), isso significaria que, para cada aumento de $1.000 (milhares de dólares) na renda familiar, a probabilidade de uma família possuir casa própria aumenta em 0,02 (ou 2 pontos percentuais). Essa interpretação é bastante fácil de entender.
Apesar da sua simplicidade e facilidade de interpretação, o MPL apresenta sérios problemas estatísticos que não podem ser ignorados, especialmente em amostras pequenas ou finitas.
Mesmo com os problemas mencionados, a estimação do MPL por MQO é possível, e, em grandes amostras, os estimadores de MQO são consistentes e assintoticamente normais. Isso significa que, em grandes amostras, os testes t e F são aproximadamente válidos. No entanto, é imperativo ter cautela e estar ciente das limitações.
Lembrem-se que, na econometria, o objetivo principal é fazer inferências sobre os parâmetros populacionais verdadeiros (\(\beta\)), e não sobre as estimativas amostrais (\(\hat{\beta}\)). Portanto, ao formular uma hipótese nula (\(H_0\)), ela deve sempre se referir a um parâmetro populacional desconhecido, e não a uma estimativa já calculada a partir da amostra.
Intuição: O teste t é utilizado para verificar se um único coeficiente de regressão é estatisticamente diferente de um valor hipotético específico (mais comumente, zero). A intuição é determinar se a variável explanatória à qual o coeficiente está associado tem um impacto significativo, isoladamente, na variável dependente, mantendo as outras variáveis constantes.
Para que serve? Ele nos ajuda a decidir se uma variável específica deve ser incluída no modelo, ou se seu efeito é tão pequeno que pode ser ignorado, ou se seu efeito é, por exemplo, diferente de zero, conforme a teoria econômica sugere.
Fórmula Completa: A estatística t para testar a hipótese \(H_0: \beta_j = \beta_j^*\) (onde \(\beta_j^*\) é o valor hipotético, frequentemente 0) é dada por: \(t = \frac{\hat{\beta}_j - \beta_j^*}{\text{ep}(\hat{\beta}_j)}\) Onde:
Exemplo de Aplicação Prática no MPL: No exemplo da posse de casa própria em função da renda, gostaríamos de testar a hipótese de que a renda tem um efeito significativo na probabilidade de possuir uma casa. A hipótese nula seria \(H_0: \beta_2 = 0\), ou seja, a renda não afeta a probabilidade de posse de casa. A hipótese alternativa poderia ser \(H_1: \beta_2 \neq 0\) (teste bilateral) ou \(H_1: \beta_2 > 0\) (teste unilateral, se esperarmos um efeito positivo). Calculamos o valor t e o comparamos com um valor crítico da distribuição t (com \(n-k\) graus de liberdade, onde \(n\) é o número de observações e \(k\) é o número de parâmetros estimados) ou usamos o p-valor. Se o p-valor for menor que o nível de significância escolhido (por exemplo, 0,05), rejeitamos a hipótese nula.
Importância e Por que Não Ignorar: É fundamental para determinar a relevância estatística de cada regressor. Ignorá-lo significa que poderíamos estar usando variáveis que não têm influência real sobre a probabilidade do evento, levando a modelos superespecificados e menos parcimoniosos.
Ressalva para Amostras Finitas vs. Grandes: Como já discutido, devido à não-normalidade e heterocedasticidade dos termos de erro no MPL, os erros padrão de MQO são viesados, e, portanto, os testes t baseados nesses erros padrão são inválidos em amostras pequenas. No entanto, para amostras suficientemente grandes, os estimadores de MQO são assintoticamente normais, e os testes t usuais são aproximadamente válidos.
Intuição: O teste F é usado para verificar se dois ou mais coeficientes de regressão são simultaneamente iguais a zero (ou a outros valores hipotéticos), ou seja, se um grupo de variáveis explicativas tem um efeito conjunto significativo sobre a variável dependente. A intuição é que, individualmente, algumas variáveis podem não parecer significativas (t-valores baixos), mas coletivamente, elas podem ter um poder explicativo importante.
Para que serve? É crucial para avaliar a significância geral do modelo de regressão, para comparar modelos aninhados (um é um caso restrito do outro), ou para decidir se um conjunto de variáveis deve ser incluído ou excluído do modelo.
Fórmula Completa (com base na Soma dos Quadrados dos Resíduos - SQR): Para testar a hipótese conjunta, por exemplo, \(H_0: \beta_2 = \beta_3 = 0\), o teste F é frequentemente calculado usando a SQR de um modelo restrito e um modelo irrestrito. \(F = \frac{(\text{SQR}_{restrita} - \text{SQR}_{irrestrita})/m}{(\text{SQR}_{irrestrita})/(n - k)}\) Onde:
Fórmula Completa (com base no \(R^2\)): Uma forma equivalente e frequentemente mais prática de calcular a estatística F (especialmente preferida por Wooldridge para sua aplicabilidade e facilidade de cálculo) é usando o \(R^2\) dos modelos restrito e irrestrito, assumindo a mesma variável dependente: \(F = \frac{(R^2_{irrestrito} - R^2_{restrito})/m}{(1 - R^2_{irrestrito})/(n - k)}\) Onde:
Exemplo de Aplicação Prática no MPL: Suponhamos que, além da renda, também incluímos a idade do chefe da família e o número de filhos como variáveis explicativas para a posse de casa. Podemos querer testar se a idade e o número de filhos, conjuntamente, têm um efeito significativo na probabilidade de possuir uma casa. A hipótese nula seria \(H_0: \beta_{idade} = 0 \text{ e } \beta_{filhos} = 0\). O teste F nos diria se, mesmo que individualmente um deles não fosse significativo, juntos eles contribuem para explicar a posse da casa.
Importância e Por que Não Ignorar: O teste F é vital para a avaliação da adequação geral do modelo e para tomar decisões sobre a inclusão ou exclusão de múltiplos regressores. Ignorá-lo poderia levar à aceitação de modelos que, em sua totalidade, não possuem poder explicativo significativo, ou, no outro extremo, à eliminação indevida de um conjunto de variáveis relevantes.
Ressalva para Amostras Finitas vs. Grandes: Assim como o teste t, os testes F no MPL também são inválidos em amostras pequenas devido à heterocedasticidade. Contudo, para amostras grandes, os estimadores de MQO são assintoticamente normais, permitindo que os testes F usuais sejam aproximadamente válidos.
Diante dos problemas do MPL, algumas abordagens podem ser consideradas:
Mínimos Quadrados Ponderados (MQP): Se a forma da heterocedasticidade for conhecida - como é o caso no MPL: \(Var(u_i|X_i) = P_i(1-P_i)\) - podemos usar o MQP para obter estimadores mais eficientes e erros padrão consistentes. O MQP envolve a transformação dos dados dividindo cada variável pelo desvio padrão estimado do erro (ou pela raiz quadrada da variância). Contudo, no MPL, isso pode se tornar problemático se as probabilidades previstas caírem fora do intervalo \([0,1]\), pois as raízes quadradas dos pesos se tornariam imaginárias ou nulas, inviabilizando o cálculo.
Justificativa de Amostras Grandes (Validade Assintótica): Para amostras grandes, os estimadores de MQO no MPL são consistentes e assintoticamente normais. Isso significa que, à medida que o tamanho da amostra cresce indefinidamente, os estimadores convergem para os verdadeiros valores populacionais, e suas distribuições amostrais se aproximam da normalidade, validando aproximadamente os testes t e F. Portanto, para grandes conjuntos de dados, o MPL ainda pode ser uma opção viável.
Modelos Alternativos: Para contornar os problemas inerentes ao MPL, especialmente em amostras pequenas, modelos como o Logit e o Probit são preferíveis. Esses modelos garantem que as probabilidades previstas fiquem entre 0 e 1 e lidam com a não-normalidade e heterocedasticidade de forma mais apropriada ao usar funções de distribuição acumulada (FDA) não lineares (logística no Logit, normal no Probit) para transformar a probabilidade linear.
A alternativa ao MPL é utilizar uma Função de Distribuição Acumulada (FDA) para modelar a probabilidade condicional. Uma FDA, por sua natureza, produz valores entre 0 e 1. O modelo Logit utiliza a função logística cumulativa (FDA logística) para modelar a probabilidade de um evento ocorrer.
A intuição por trás do modelo Logit é modelar o logaritmo da razão de chances (log-odds) como uma função linear dos regressores, em vez da probabilidade diretamente.
A razão de chances para um evento (\(Y=1\)) é definida como a probabilidade de o evento ocorrer dividida pela probabilidade de não ocorrer: \(P_i / (1 - P_i)\). O Logit transforma a probabilidade em uma escala contínua de \(-\infty\) a \(+\infty\).
Se \(P_i\) é a probabilidade de o evento ocorrer para a i-ésima observação, então a transformação Logit é: \[\text{Logit}(P_i) = \ln\left(\frac{P_i}{1 - P_i}\right) = \beta_1 + \beta_2 X_i\]
A probabilidade \(P_i\) pode ser recuperada aplicando a função logística inversa: \[P_i = \frac{1}{1 + e^{-(\beta_1 + \beta_2 X_i)}} = \frac{e^{\beta_1 + \beta_2 X_i}}{1 + e^{\beta_1 + \beta_2 X_i}}\]
Esta função, conhecida como curva sigmoide ou em forma de S, garante que as probabilidades preditas sempre estejam entre 0 e 1, resolvendo um dos principais problemas do MPL.
1.2. Intuição da MV: O método da Máxima Verossimilhança busca encontrar os valores dos parâmetros (\(\beta_1, \beta_2\)) que maximizam a probabilidade (verossimilhança) de observar os dados amostrais que realmente temos. Ele escolhe os parâmetros que tornam os dados observados os mais “prováveis” possíveis.
1.3. Aplicação Prática: Programas estatísticos modernos (como EViews, STATA, LIMDEP, SHAZAM, MINITAB) possuem rotinas para estimar modelos Logit com dados individuais utilizando MV.
2.1 Interpretação dos Coeficientes Logit: A interpretação direta dos coeficientes \(\beta\) no modelo Logit não é tão intuitiva quanto no MQO, pois eles representam a variação no log-odds do evento para uma variação de uma unidade em \(X_i\). Uma interpretação mais significativa está em termos das razões de chances (odds ratios). Se você tomar o antilogaritmo de \(\hat{\beta}_k\) (ou seja, \(e^{\hat{\beta}_k}\)), você obterá a razão pela qual as chances do evento multiplicam-se para uma variação de uma unidade em \(X_k\), mantendo outras variáveis constantes. Por exemplo, se \(e^{\hat{\beta}_k} = 10.7897\), significa que as chances do evento aumentam em aproximadamente 10.79 vezes para cada unidade de aumento em \(X_k\).
Embora os coeficientes Logit não sejam diretamente interpretáveis como efeitos marginais na probabilidade (como no MPL), podemos calculá-los. O efeito marginal de uma mudança em \(X_i\) na probabilidade \(P_i\) varia dependendo do valor de \(X_i\) (devido à forma não linear da curva S). Os programas estatísticos podem calcular esses efeitos marginais para a média da amostra ou para valores específicos de \(X_i\).
O \(R^2\) tradicional não é adequado para modelos Logit. Em vez disso, medidas como o McFadden \(R^2\) e o Count \(R^2\) são usadas.
McFadden \(R^2\): É definido como \(1 - (\text{Log-likelihood unconstrained} / \text{Log-likelihood constrained})\). Ele varia entre 0 e 1, mas seus valores geralmente são mais baixos que os do \(R^2\) do MQO.
Count \(R^2\): Calcula a proporção de previsões corretas do modelo. Se a probabilidade prevista for \(>0.5\), classifica-se como 1; se for \(<0.5\), classifica-se como 0. Então, conta-se o número de previsões corretas.
Limitação: No entanto, a qualidade do ajustamento é de importância secundária em modelos de regressão binária. Mais importante são os sinais esperados dos coeficientes e sua significância estatística ou prática.
Assim como o modelo Logit usa a FDA logística, o modelo Probit utiliza a Função de Distribuição Acumulada Normal (FDA normal padrão) para modelar a probabilidade condicional.
O modelo Probit é frequentemente explicado a partir de uma perspectiva de teoria da utilidade ou escolha racional. Assume-se que existe uma variável latente (não observável) \(I_i\) (um “índice de utilidade” ou “propensão”) que determina a escolha da variável dicotômica \(Y_i\). \[I_i = \beta_1 + \beta_2 X_i + u_i\]
Onde \(u_i \sim N(0, 1)\) (termo de erro normalmente distribuído e com variância unitária). Observamos \(Y_i=1\) se \(I_i > 0\) e \(Y_i=0\) se \(I_i \le 0\).
A probabilidade de \(Y_i=1\) é então dada por: \[P_i = P(Y_i=1|X_i) = P(I_i > 0|X_i) = P(u_i > -(\beta_1 + \beta_2 X_i)|X_i) = F(\beta_1 + \beta_2 X_i)\]
Onde \(F\) é a FDA normal padrão. Isso novamente garante que as probabilidades preditas estejam no intervalo.
Similarmente ao Logit, a estimação de modelos Probit com dados individuais é realizada principalmente através do método de Máxima Verossimilhança (MV).
Na maioria das aplicações, os modelos Logit e Probit fornecem resultados bastante semelhantes. A principal diferença reside nas “caudas” de suas distribuições: a distribuição logística tem caudas ligeiramente mais pesadas que a normal padrão. Isso significa que no Logit, a probabilidade condicional aproxima-se de 0 ou 1 a um ritmo ligeiramente mais lento do que no Probit.
Não há razões convincentes para preferir um ao outro em todos os casos, embora muitos pesquisadores optem pelo Logit devido à sua relativa simplicidade matemática.
A inferência estatística, que inclui a estimação e o teste de hipóteses, é um pilar da econometria. Em modelos Logit e Probit, os testes de hipóteses seguem lógicas similares às dos modelos lineares, mas com estatísticas e distribuições de teste adaptadas para a natureza não linear e a estimação por Máxima Verossimilhança.
Hipótese Nula (\(H_0\)): \(\beta_k = 0\) (a variável \(X_k\) não tem efeito).
Hipótese Alternativa (\(H_1\)): \(\beta_k \ne 0\) (a variável \(X_k\) tem efeito).
Por que Isso é Importante: Saber quais variáveis são estatisticamente significativas é crucial para a formulação de teorias e políticas. Um coeficiente não significativo pode indicar que a variável é irrelevante para o modelo ou que a amostra não oferece evidência suficiente de sua importância.
Por que não ignorar isso: Ignorar este teste pode levar à inclusão de variáveis desnecessárias no modelo, resultando em estimativas menos precisas dos coeficientes remanescentes (aumentando suas variâncias) e na perda de graus de liberdade. Além disso, a inclusão de variáveis irrelevantes pode introduzir o problema de multicolinearidade. Sem este teste, não podemos confiar que a variável em questão realmente contribui para o poder explicativo do modelo.
Aplicação Prática: Em modelos Logit/Probit estimados por MV, a estatística de teste para coeficientes individuais é tipicamente uma estatística z (para grandes amostras) ou uma estatística t (para amostras menores), calculada como a razão entre o coeficiente estimado e seu erro padrão.
\[ z = \frac{\hat{\beta}_k}{\text{ep}(\hat{\beta}_k)} \]
Hipótese Nula (\(H_0\)): \(\beta_2 = \beta_3 = \dots = \beta_k = 0\) (nenhuma das variáveis explanatórias tem efeito).
Hipótese Alternativa (\(H_1\)): Pelo menos um \(\beta_k \ne 0\) (o modelo tem algum poder explicativo).
Por que Isso é Importante: Um modelo pode ter alguns coeficientes individualmente significativos, mas se o teste geral não for significativo, isso levanta dúvidas sobre a utilidade do modelo como um todo. É a primeira verificação da “validade” global do seu modelo.
Por que não ignorar isso: Ignorar o teste de significância geral significa que você pode estar trabalhando com um modelo que, apesar de algumas variáveis “passarem no teste t”, coletivamente não oferece uma explicação substancial para o fenômeno. É como ter várias peças de um quebra-cabeça, mas sem saber se elas formam uma imagem coerente.
Para modelos Logit/Probit, onde o \(R^2\) é limitado, o teste RV é fundamental para avaliar o poder explicativo do modelo.
Aplicação Prática: O teste da Razão de Verossimilhança (RV), também conhecido como teste do Multiplicador de Lagrange (ML) ou teste de Wald (W), é baseado na comparação da função de verossimilhança logarítmica de um modelo irrestrito (completo) com a de um modelo restrito (apenas com o intercepto ou com as variáveis sob a hipótese nula).
A estatística do teste RV é dada por:
\[ \text{LR} = 2 (\text{FVLSR} - \text{FVLCR}) \]
Onde FVLSR é a função de verossimilhança logarítmica do modelo sem restrições (completo) e FVLCR é a função de verossimilhança logarítmica do modelo com restrições (sob a hipótese nula).
Para grandes amostras, essa estatística segue uma distribuição qui-quadrado (\(\chi^2\)) com graus de liberdade iguais ao número de restrições impostas (o número de coeficientes angulares sendo testados como zero). Se o valor de \(\chi^2\) calculado exceder o valor crítico da distribuição qui-quadrado para o nível de significância escolhido, rejeitamos a hipótese nula.
Teste de Wald (W) e Teste do Multiplicador de Lagrange (ML): Gujarati menciona que, assintoticamente (para grandes amostras), os testes de Wald, RV e ML são equivalentes e suas estatísticas de teste seguem a distribuição qui-quadrado.
Em modelos de regressão linear, o F-test já é suficiente, mas para modelos não lineares, esses testes são cruciais.