Com certeza! Preparar uma folha de consulta e um guia detalhado para sua prova de Econometria, com foco especial em inferência e testes de hipóteses, é uma excelente estratégia. Abaixo, apresento um guia abrangente, extraído das suas fontes, com definições, fórmulas, passos e intuições.


Guia de Estudo para a Prova de Econometria

Este guia abrange os principais tópicos da econometria, desde as ferramentas matemáticas básicas até a inferência estatística no modelo de regressão, com destaque para testes de hipóteses.

I. Ferramentas Matemáticas Básicas (Apêndice A)

Este apêndice cobre a matemática básica essencial para a análise econométrica, incluindo propriedades de operadores de soma, equações lineares e não lineares, proporções, porcentagens e cálculo diferencial.

  • Operador de Soma: Abreviação útil para manipular somas.
    • Propriedade 1: \(\sum_{i=1}^{n} c = nc\)
    • Propriedade 2: \(\sum_{i=1}^{n} c x_i = c \sum_{i=1}^{n} x_i\)
    • Propriedade 3: \(\sum_{i=1}^{n} (ax_i + by_i) = a \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} y_i\)
  • Média Amostral (\(\bar{x}\)): Soma dos números dividida por \(n\). É um exemplo de estatística descritiva, descrevendo a tendência central.
    • Soma dos Desvios é Zero: \(\sum_{i=1}^{n} (x_i - \bar{x}) = 0\).
    • Soma dos Quadrados dos Desvios: \(\sum_{i=1}^{n} (x_i - \bar{x})^2 = \sum_{i=1}^{n} x_i^2 - n(\bar{x})^2\).
    • Generalização para Duas Variáveis: \(\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) = \sum_{i=1}^{n} x_i y_i - n(\bar{x} \bar{y})\).
  • Mediana: O valor central em uma sequência ordenada de números. Menos sensível a valores extremos do que a média.
  • Funções Lineares (\(y = \beta_0 + \beta_1 x\)):
    • \(\beta_0\): Intercepto (valor de y quando x=0).
    • \(\beta_1\): Inclinação (efeito marginal constante de x sobre y, ou $ y / x $).
    • Funções Lineares com Múltiplas Variáveis (\(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2\)):
      • \(\beta_1\): Efeito Parcial de \(x_1\) sobre \(y\), mantendo \(x_2\) fixo (ceteris paribus).
  • Proporções e Porcentagens:
    • Converter proporção para porcentagem: Multiplicar por 100.
    • Variação Proporcional (ou Variação Relativa): \((x_1 - x_0) / x_0\).
    • Variação Percentual (\(\% \Delta x\)): \(100 \times (\Delta x / x_0)\).
    • Variação de Pontos Percentuais: Diferença absoluta entre porcentagens (ex: 30% para 24% é 6 pontos percentuais).
  • Funções Não Lineares: A variação em y para uma dada mudança em x depende do valor inicial de x.
    • Funções Quadráticas (\(y = \beta_0 + \beta_1 x + \beta_2 x^2\)): Capturam retornos decrescentes ou crescentes.
      • Ponto Máximo/Mínimo: \(x_p = -\beta_1 / (2\beta_2)\) (quando \(\beta_1 > 0, \beta_2 < 0\) para máximo; \(\beta_1 < 0, \beta_2 > 0\) para mínimo).
      • Inclinação/Efeito Marginal Aproximado: \(dy/dx \approx \beta_1 + 2\beta_2 x\) (para pequenas \(\Delta x\)).
    • Logaritmo Natural (\(y = \log(x)\)): Definido para \(x > 0\). Apresenta retornos marginais decrescentes, mas o efeito nunca se torna negativo.
      • Propriedades Algébricas: \(\log(x_1 x_2) = \log(x_1) + \log(x_2)\); \(\log(x_1 / x_2) = \log(x_1) - \log(x_2)\); \(\log(x^c) = c \log(x)\).
      • Aproximações:
        • \(\log(1+x) \approx x\) para \(x \approx 0\).
        • \(\log(x_1) - \log(x_0) \approx \Delta x / x_0 = \% \Delta x / 100\) (para pequenas \(\Delta x\)).
        • Elasticidade ($ % y / % x $): \(\approx \Delta \log(y) / \Delta \log(x)\). Em modelos log-log ($ (y) = _0 + _1 (x) $), $ _1 $ é a elasticidade.
        • **Semielasticidade ($ % y / x \():** Em modelos **log-linear** (\) (y) = _0 + _1 x $), $ (100 _1) $ é a semielasticidade (variação percentual em y para um aumento unitário em x).
        • Em modelos linear-log ($ y = _0 + _1 (x) $), $ _1/100 $ é a variação unitária em y para um aumento de 1% em x.
    • Função Exponencial (\(y = \exp(x)\) ou \(y = e^x\)): Inversa da função log. Se \(\log(y) = \beta_0 + \beta_1 x\) e \(\beta_1 > 0\), x tem um efeito marginal crescente sobre y.
  • Cálculo Diferencial:
    • Derivada: \(dy/dx\). Representa a inclinação aproximada da função.
    • Derivadas de Funções Comuns:
      • \(y = \beta_0 + \beta_1 x + \beta_2 x^2 \implies dy/dx = \beta_1 + 2\beta_2 x\).
      • \(y = \beta_0 + \beta_1 \log(x) \implies dy/dx = \beta_1 / x\).
      • \(y = \exp(\beta_0 + \beta_1 x) \implies dy/dx = \beta_1 \exp(\beta_0 + \beta_1 x)\).
    • Derivadas Parciais: Medem como y muda com uma variável, mantendo outras fixas (ex: $ y / x_1 $ na presença de \(x_2\)).
    • Condições de Primeira Ordem: Para minimizar ou maximizar uma função, todas as derivadas parciais devem ser zero.

II. Fundamentos da Probabilidade (Apêndice B)

  • Variável Aleatória: Assume valores numéricos e tem um resultado determinado por um experimento.
    • Discreta: Assume um número finito ou contável de valores (ex: Bernoulli - 0 ou 1).
    • Contínua: Assume qualquer valor real com probabilidade zero (ex: preços).
    • Função de Densidade de Probabilidade (fdp): Resume informações sobre os resultados possíveis e suas probabilidades.
    • Função de Distribuição Cumulativa (fdc): \(F(c) = P(X \le c)\).
      • \(P(X > c) = 1 - F(c)\).
      • \(P(a < X \le b) = F(b) - F(a)\).
  • Distribuições Conjuntas e Condicionais:
    • Variáveis Independentes: \(f_{X,Y}(x,y) = f_X(x)f_Y(y)\), ou \(P(X=x, Y=y) = P(X=x)P(Y=y)\). Se independentes, Cov(X,Y) = 0, mas o inverso não é verdadeiro.
    • Distribuição Condicional: \(f_{Y|X}(y|x) = f_{X,Y}(x,y) / f_X(x)\).
  • Distribuição Binomial: Número de sucessos em \(n\) testes de Bernoulli independentes. \(X \sim Binomial(n, \mu)\).
  • Valor Esperado (Média Populacional, E(X) ou \(\mu\)): Média ponderada de todos os valores possíveis de X.
    • Para Discreta: \(E(X) = \sum_{j=1}^{k} x_j f(x_j)\).
    • Propriedades:
      • \(E(c) = c\) (para constante c).
      • \(E(cX) = cE(X)\).
      • \(E(aX + bY) = aE(X) + bE(Y)\).
      • \(E(\sum_{i=1}^{n} a_i X_i) = \sum_{i=1}^{n} a_i E(X_i)\).
      • Valor Esperado da Soma: \(E(\sum_{i=1}^{n} X_i) = \sum_{i=1}^{n} E(X_i)\).
      • Para Binomial: \(E(X) = n\mu\).
  • Variância (\(\text{Var}(X)\) ou \(\sigma^2\)): Mede quão distante X está de seu valor esperado.
    • Fórmula Computacional: \(\text{Var}(X) = E(X^2) - [E(X)]^2\).
    • Para Bernoulli: \(\text{Var}(X) = \mu(1-\mu)\).
    • Para Binomial: \(\text{Var}(X) = n\mu(1-\mu)\).
    • Propriedades:
      • \(\text{Var}(c) = 0\).
      • \(\text{Var}(aX+b) = a^2 \text{Var}(X)\).
      • \(\text{Var}(aX+bY) = a^2 \text{Var}(X) + b^2 \text{Var}(Y) + 2ab \text{Cov}(X,Y)\).
      • Se X e Y não correlacionadas: \(\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)\).
      • Variância da Soma de Variáveis Não Correlacionadas: \(\text{Var}(\sum_{i=1}^{n} X_i) = \sum_{i=1}^{n} \text{Var}(X_i)\).
  • Desvio Padrão (\(\text{dp}(X)\) ou \(\sigma\)): Raiz quadrada positiva da variância.
  • Variável Aleatória Padronizada (Z-score): \(Z = (X - \mu) / \sigma\). Tem média zero e variância um.
  • Covariância (\(\text{Cov}(X,Y)\) ou \(\sigma_{XY}\)): Mede a quantidade de dependência linear entre duas variáveis.
    • \(\text{Cov}(X,Y) = E[(X-\mu_X)(Y-\mu_Y)] = E(XY) - \mu_X \mu_Y\).
    • Positiva: Movem-se na mesma direção; Negativa: Movem-se em direções opostas.
    • Se X e Y são independentes, \(\text{Cov}(X,Y) = 0\).
  • Coeficiente de Correlação (\(\text{Corr}(X,Y)\) ou \(\rho_{XY}\)): Versão padronizada da covariância, invariável às unidades de medida.
    • \(\text{Corr}(X,Y) = \text{Cov}(X,Y) / (\text{dp}(X)\text{dp}(Y))\).
    • Varia entre -1 e 1.
    • \(\rho_{XY} = 0\): Não há relação linear (não correlacionadas).
    • \(\rho_{XY} = 1\): Relação linear positiva perfeita.
    • \(\rho_{XY} = -1\): Relação linear negativa perfeita.
  • Expectativa Condicional (Média Condicional, \(E(Y|X=x)\) ou \(E(Y|x)\)): Valor esperado de Y, dado que X assumiu um valor específico x.
    • Propriedades:
      • \(E[c(X)|X] = c(X)\).
      • \(E[a(X)Y + b(X)|X] = a(X)E(Y|X) + b(X)\).
      • Se X e Y independentes: \(E(Y|X) = E(Y)\).
      • Lei das Expectativas Iteradas: \(E[E(Y|X)] = E(Y)\).
  • Distribuições de Probabilidade Comuns:
    • Normal (\(X \sim \text{Normal}(\mu, \sigma^2)\)): Formato de sino, simétrica em torno da média. Se \(X \sim \text{Normal}(\mu, \sigma^2)\), então \((X-\mu)/\sigma \sim \text{Normal}(0,1)\) (normal padrão). Tem assimetria zero e curtose 3.
    • Qui-quadrado (\(\chi^2_n\)): Soma dos quadrados de \(n\) variáveis normais padrão independentes. Tem \(n\) graus de liberdade. \(E(X) = n\), \(\text{Var}(X) = 2n\).
    • t-Student (\(t_n\)): Razão entre uma variável normal padrão e a raiz quadrada de uma variável qui-quadrado (padronizada por seus graus de liberdade), independentes entre si. Tem \(n\) graus de liberdade.
    • F-Fisher (\(F_{k1, k2}\)): Razão entre duas variáveis qui-quadradas independentes, cada uma padronizada por seus graus de liberdade (\(k_1\) e \(k_2\)).

III. Fundamentos da Estatística Matemática (Apêndice C)

  • População, Parâmetros e Amostragem Aleatória:
    • População: Grupo bem definido de sujeitos.
    • Parâmetros: Constantes desconhecidas que descrevem a população (ex: retorno à educação).
    • Amostra Aleatória: {y1, …, yn} são variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) de uma distribuição populacional.
  • Estimadores e Estimativas:
    • Estimador (W ou \(\hat{\theta}\)): Regra matemática que atribui a cada amostra um valor de um parâmetro populacional \(\theta\). É uma variável aleatória.
    • Estimativa (w ou \(\hat{\theta}\)): Valor numérico obtido de uma amostra específica.
    • Distribuição por Amostragem: Distribuição de probabilidade de um estimador.
  • Propriedades de Amostras Finitas de Estimadores:
    • Ausência de Viés (Unbiasedness): \(E(\hat{W}) = \theta\) para todos os valores possíveis de \(\theta\). O estimador não viesado, em média, iguala o parâmetro real.
      • Média Amostral (\(\bar{Y}\)): Estimador não viesado da média populacional \(\mu\).
      • Variância Amostral (\(S^2\)): Estimador não viesado da variância populacional \(\sigma^2\) (dividido por \(n-1\)).
      • Viés: \(\text{Bias}(\hat{W}) = E(\hat{W}) - \theta\).
      • Intuição: Se repetirmos a amostragem infinitamente, a média das estimativas convergiria para o valor verdadeiro.
    • Variância por Amostragem de Estimadores: Mede a dispersão da distribuição de um estimador.
      • Variância da Média Amostral: \(\text{Var}(\bar{Y}) = \sigma^2 / n\).
      • Intuição: À medida que \(n\) aumenta, a variância diminui, tornando o estimador mais preciso.
    • Eficiência (Efficiency): Entre estimadores não viesados, prefere-se aquele com a menor variância.
      • Erro Quadrático Médio (EQM): EQM(\(\hat{W}\)) = \(E[(\hat{W} - \theta)^2] = \text{Var}(\hat{W}) + [\text{Bias}(\hat{W})]^2\). Usado para comparar estimadores viesados e não viesados.
  • Propriedades Assintóticas (de Grandes Amostras):
    • Consistência: Um estimador \(\hat{W}_n\) é consistente para \(\theta\) se \(P(|\hat{W}_n - \theta| > \epsilon) \to 0\) quando \(n \to \infty\). Intuitivamente, a distribuição do estimador se concentra cada vez mais em torno do parâmetro verdadeiro à medida que \(n\) aumenta. É um requisito mínimo para estimadores razoáveis.
      • Lei dos Grandes Números (LGN): Se \(Y_i\) são i.i.d. com média \(\mu\), então \(\text{plim}(\bar{Y}_n) = \mu\).
      • Propriedades de Limite de Probabilidade (PLIM): Permitem combinar estimadores consistentes para obter outros estimadores consistentes (ex: \(\text{plim } g(\hat{W}_n) = g(\text{plim } \hat{W}_n)\) para função contínua \(g\)).
      • Consistência de MQO: Os estimadores de MQO são consistentes sob as suposições RLM.1 - RLM.4 (ou RLM.4’, que é mais fraca).
    • Normalidade Assintótica: Para grandes amostras, a distribuição de um estimador se aproxima de uma distribuição normal.
      • Teorema do Limite Central (TLC): A média de uma amostra aleatória padronizada de qualquer população (com variância finita) tem uma distribuição normal padrão assintótica.
      • Consequência Prática: Permite usar a distribuição normal (ou t, para n moderado) para inferência estatística, mesmo se a população não for normal.
      • Para OLS: Sob RLM.1-RLM.5, os estimadores de MQO são assintoticamente normais.

IV. Análise de Regressão Múltipla: Estimação (Capítulos 2 e 3)

  • Modelo de Regressão Linear Múltipla: \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_k x_k + u\).
    • Motivação: Incluir mais fatores explicativos, obter efeitos ceteris paribus, permitir formas funcionais flexíveis.
    • Interpretação: \(\beta_j\) mede a variação em y quando \(x_j\) aumenta em uma unidade, mantendo todas as outras variáveis explicativas fixas.
    • Linearidade: Linear nos parâmetros, não necessariamente nas variáveis (ex: \(\log(x)\), \(x^2\)).
  • Estimação de Mínimos Quadrados Ordinários (MQO): Minimiza a soma dos resíduos ao quadrado (\(\sum \hat{u}_i^2\)).
    • Propriedades Algébricas:
      • A soma dos resíduos é zero (\(\sum \hat{u}_i = 0\)).
      • A covariância (e correlação) entre cada regressor e os resíduos é zero.
      • O ponto \((\bar{y}, \bar{x}_1, \dots, \bar{x}_k)\) está na linha de regressão.
    • Interpretação “Parcial” (Teorema de Frisch-Waugh): O coeficiente de \(\hat{\beta}_j\) em uma regressão múltipla pode ser obtido em duas etapas: 1) Regredir \(x_j\) sobre as outras variáveis explicativas e obter os resíduos. 2) Regredir \(y\) sobre esses resíduos.
      • Intuição: Os resíduos da primeira regressão representam a parte de \(x_j\) que não é linearmente explicada pelas outras variáveis. A segunda regressão isola o efeito puro de \(x_j\).
  • Qualidade do Ajuste:
    • SST (Soma Total dos Quadrados): Variação total na variável dependente \(y\).
    • SSE (Soma dos Quadrados Explicada): Variação explicada pela regressão.
    • SSR (Soma dos Resíduos ao Quadrado): Variação não explicada pela regressão.
    • Decomposição: \(SST = SSE + SSR\).
    • R-Quadrado (\(R^2\)): Mede a fração da variação total de \(y\) explicada pela regressão. \(R^2 = SSE/SST = 1 - SSR/SST\). \(0 \le R^2 \le 1\). \(R^2\) sempre aumenta com a adição de mais regressores.
    • R-Quadrado Ajustado (\(\bar{R}^2\)): Uma estimativa melhor do \(R^2\) populacional que penaliza a adição de regressores irrelevantes. \(\bar{R}^2\) aumenta se, e somente se, a estatística t de um regressor recém-adicionado for maior que um em valor absoluto.
  • Suposições do Modelo Linear Clássico (MLC):
    • RLM.1 (Linearidade nos parâmetros): A relação na população é linear.
    • RLM.2 (Amostragem aleatória): Os dados são uma amostra aleatória da população.
    • RLM.3 (Sem colinearidade perfeita): Nenhuma variável explicativa é constante, e não há relações lineares exatas entre as variáveis explicativas.
      • Multicolinearidade: Não é uma violação de RLM.3, mas ocorre quando variáveis explicativas são altamente correlacionadas. Isso infla a variância amostral dos coeficientes estimados, dificultando a estimação precisa de seus efeitos individuais.
    • RLM.4 (Média condicional zero): \(E(u|x_1, \dots, x_k) = 0\). Os fatores não observados não devem conter informações sobre a média das variáveis explicativas.
      • Exogeneidade: As variáveis explicativas não são correlacionadas com o termo de erro. É crucial para uma interpretação causal e imparcialidade.
      • Viés de Variável Omitida: Se uma variável relevante for omitida e correlacionada com uma variável incluída, os estimadores de MQO serão viesados. A direção do viés depende da correlação e do sinal do coeficiente da variável omitida.
    • RLM.5 (Homoscedasticidade): \(\text{Var}(u|x_1, \dots, x_k) = \sigma^2\). A variabilidade dos fatores não observados não depende dos valores das variáveis explicativas. A violação desta suposição leva à heteroscedasticidade, tornando os erros padrão usuais inválidos.
    • RLM.6 (Normalidade dos termos de erro): \(u\) é distribuído normalmente. Esta suposição é importante para inferência exata em pequenas amostras; em grandes amostras, o TLC garante normalidade assintótica.
  • Propriedades dos Estimadores de MQO (sob MLC):
    • Não Viesado (Teorema 3.1): Sob RLM.1-RLM.4, os estimadores de MQO são não viesados.
    • Variância Amostral (Teorema 3.2): Sob RLM.1-RLM.5, a variância dos estimadores de inclinação é \(\text{Var}(\hat{\beta}_j) = \sigma^2 / [SST_j(1 - R_j^2)]\), onde \(SST_j\) é a soma total dos quadrados de \(x_j\) e \(R_j^2\) é o R-quadrado da regressão de \(x_j\) sobre as outras variáveis explicativas.
      • \(\sigma^2\): Variância do erro (maior, maior a variância amostral).
      • \(SST_j\): Variação total amostral em \(x_j\) (maior, menor a variância amostral).
      • \(R_j^2\): Relação linear entre \(x_j\) e as outras variáveis explicativas (maior, maior a variância amostral - multicolinearidade).
    • Estimador Não Viesado da Variância do Erro (\(\hat{\sigma}^2\)): Sob RLM.1-RLM.5, \(\hat{\sigma}^2 = SSR / (n - k - 1)\) é não viesado para \(\sigma^2\). \((n-k-1)\) são os graus de liberdade.
    • Erros Padrão (\(\text{ep}(\hat{\beta}_j)\)): O desvio padrão estimado de \(\hat{\beta}_j\). \(\text{ep}(\hat{\beta}_j) = \hat{\sigma} / \sqrt{SST_j(1 - R_j^2)}\). Medem a precisão das estimativas.
    • Teorema de Gauss-Markov (Teorema 3.4): Sob RLM.1-RLM.5, os estimadores de MQO são os Melhores Estimadores Lineares Não Viesados (MELNV ou BLUE), o que significa que têm a menor variância entre todos os estimadores lineares não viesados.

V. Inferência Estatística (Apêndice C, Capítulo 4)

Intuição Geral: A inferência estatística nos permite tirar conclusões sobre uma população com base em uma amostra de dados. Isso envolve a construção de intervalos de confiança (para estimar um intervalo de valores para o parâmetro populacional) e o teste de hipóteses (para responder perguntas de “sim ou não” sobre os parâmetros).

Assunções para Inferência Exata em Amostras Finitas: Para que as estatísticas t e F tenham as distribuições exatas t e F sob a hipótese nula, o modelo deve satisfazer todas as seis suposições do modelo linear clássico (MLC): RLM.1, RLM.2, RLM.3, RLM.4, RLM.5 e RLM.6 (normalidade dos termos de erro).

A. Teste de Hipóteses

O teste de hipóteses é um método formal para decidir se há evidências suficientes em uma amostra de dados para rejeitar uma afirmação sobre a população.

  1. Formulação das Hipóteses:
    • Hipótese Nula (\(H_0\)): Afirmação sobre o parâmetro populacional que se presume verdadeira até que haja forte evidência contra ela (ex: \(\beta_j = 0\)). Geralmente é uma “hipótese nula simples” (valor específico).
    • Hipótese Alternativa (\(H_1\)): Afirmação que se busca evidência para apoiar (ex: \(\beta_j \ne 0\), \(\beta_j > 0\), ou \(\beta_j < 0\)).
      • Unilateral: \(\beta_j > 0\) ou \(\beta_j < 0\).
      • Bilateral: \(\beta_j \ne 0\).
  2. Escolha do Nível de Significância (\(\alpha\)):
    • A probabilidade de cometer um Erro Tipo I (rejeitar \(H_0\) quando ela é verdadeira).
    • Valores comuns: 0,10 (10%), 0,05 (5%), 0,01 (1%).
    • Poder do Teste: A probabilidade de rejeitar \(H_0\) quando ela é falsa. Deseja-se maximizar o poder para um dado \(\alpha\).
    • Erro Tipo II: Não rejeitar \(H_0\) quando ela é falsa.
  3. Escolha da Estatística de Teste:
    • Uma função da amostra aleatória. O valor calculado é \(t\).
    • Estatística t para um Único Parâmetro: Usada para testar \(H_0: \beta_j = \beta_j^0\) (onde \(\beta_j^0\) é o valor hipotético, geralmente 0).
      • Fórmula: \(t = (\hat{\beta}_j - \beta_j^0) / \text{ep}(\hat{\beta}_j)\).
      • Distribuição sob \(H_0\) (MLC válido): \(T \sim t_{n-k-1}\). Os graus de liberdade são \(n - (\text{número de parâmetros estimados})\).
      • Interpretação: A estatística t mede quantos erros padrão estimados \(\hat{\beta}_j\) está distante de \(\beta_j^0\).
  4. Determinação do Valor Crítico (c) e Região de Rejeição:
    • O valor crítico \(c\) é determinado pela distribuição da estatística de teste (sob \(H_0\)) e pelo nível de significância \(\alpha\).
    • Regras de Rejeição:
      • Alternativa Unilateral (\(\beta_j > \beta_j^0\)): Rejeitar \(H_0\) se \(t > c_{\alpha}\) (onde \(c_{\alpha}\) é o percentil \(100(1-\alpha)\) da distribuição \(t_{n-k-1}\)).
      • Alternativa Unilateral (\(\beta_j < \beta_j^0\)): Rejeitar \(H_0\) se \(t < -c_{\alpha}\) (onde \(c_{\alpha}\) é o percentil \(100(1-\alpha)\) da distribuição \(t_{n-k-1}\)).
      • Alternativa Bilateral (\(\beta_j \ne \beta_j^0\)): Rejeitar \(H_0\) se \(|t| > c_{\alpha/2}\) (onde \(c_{\alpha/2}\) é o percentil \(100(1-\alpha/2)\) da distribuição \(t_{n-k-1}\)).
    • Intuição: Se a estatística de teste cai na região de rejeição, ela é considerada “muito extrema” para ser consistente com a hipótese nula.
  5. Cálculo do p-valor:
    • O p-valor (ou prob-valor) é o menor nível de significância no qual a hipótese nula ainda pode ser rejeitada.
    • Cálculo (depende da alternativa):
      • Unilateral (\(\beta_j > \beta_j^0\)): p-valor = \(P(T > t)\).
      • Unilateral (\(\beta_j < \beta_j^0\)): p-valor = \(P(T < t)\).
      • Bilateral (\(\beta_j \ne \beta_j^0\)): p-valor = \(P(|T| > |t|) = 2 \times P(T > |t|)\).
    • Regra de Decisão usando p-valor:
      • Se p-valor < \(\alpha\): Rejeitar \(H_0\).
      • Se p-valor \(\ge \alpha\): Falhar em rejeitar \(H_0\).
    • Intuição: Um p-valor pequeno (< \(\alpha\)) indica forte evidência contra \(H_0\), pois o resultado observado é improvável de ocorrer se \(H_0\) fosse verdadeira.
    • Vantagem: Mais informativo do que apenas rejeitar/não rejeitar em um nível fixo.

B. Intervalos de Confiança

Um intervalo de confiança (IC) é um intervalo que é construído a partir dos dados da amostra e que contém o parâmetro populacional com uma certa probabilidade especificada (nível de confiança).

  • Fórmula (para \(\hat{\beta}_j\)): \(\hat{\beta}_j \pm c_{\alpha/2} \times \text{ep}(\hat{\beta}_j)\).
    • \(c_{\alpha/2}\): Valor crítico da distribuição t (ou normal padrão, para grandes amostras) com \(n-k-1\) graus de liberdade para o nível de confiança desejado. Por exemplo, para um IC de 95%, usa-se \(c_{0.025}\) (97.5º percentil).
    • Regra de Ouro (Aproximada): \(\hat{\beta}_j \pm 2 \times \text{ep}(\hat{\beta}_j)\) para um IC de 95%.
  • Interpretação: Se repetíssemos a amostragem e construíssemos muitos ICs, uma certa porcentagem (ex: 95%) desses intervalos conteria o verdadeiro parâmetro populacional. Não é a probabilidade de o parâmetro estar no intervalo calculado!.
  • Relação com Testes de Hipóteses: Um IC de \(100(1-\alpha)\%\) para \(\beta_j\) pode ser usado para testar uma hipótese bilateral \(H_0: \beta_j = \beta_j^0\) versus \(H_1: \beta_j \ne \beta_j^0\) no nível de significância \(\alpha\).
    • Se \(\beta_j^0\) não estiver no IC: Rejeitar \(H_0\).
    • Se \(\beta_j^0\) estiver no IC: Falhar em rejeitar \(H_0\).

C. Testes de Hipóteses de Restrições Múltiplas (Teste F)

Usado para testar hipóteses conjuntas envolvendo múltiplos parâmetros (ex: se um grupo de variáveis é conjuntamente significativo).

  1. Formulação das Hipóteses:
    • \(H_0\): \(\beta_1 = 0, \beta_2 = 0, \dots, \beta_q = 0\) (q restrições de exclusão).
    • \(H_1\): \(H_0\) não é verdadeira (pelo menos um dos parâmetros é diferente de zero).
  2. Modelos Restrito e Irrestrito:
    • Modelo Irrestrito (MI): Contém todas as variáveis explicativas. Obtenha \(SSR_{ur}\) (Soma dos Resíduos ao Quadrado do irrestrito).
    • Modelo Restrito (MR): O modelo irrestrito com as restrições de \(H_0\) impostas (ex: variáveis sob \(H_0\) são excluídas). Obtenha \(SSR_r\) (Soma dos Resíduos ao Quadrado do restrito).
      • Nota: \(SSR_r \ge SSR_{ur}\) sempre.
  3. Estatística F:
    • Fórmula: \(F = [(SSR_r - SSR_{ur}) / q] / [SSR_{ur} / (n - k - 1)]\).
      • \(q\): Número de restrições (número de parâmetros sob \(H_0\)).
      • \(n\): Tamanho da amostra.
      • \(k\): Número de variáveis explicativas no modelo irrestrito (excluindo o intercepto).
      • \(n - k - 1\): Graus de liberdade do denominador (equivalente aos graus de liberdade do modelo irrestrito).
    • Distribuição sob \(H_0\) (MLC válido): \(F \sim F_{q, n-k-1}\).
  4. Regra de Rejeição:
    • Rejeitar \(H_0\) se \(F > c_{\alpha}\) (onde \(c_{\alpha}\) é o valor crítico da distribuição F com \(q\) e \(n-k-1\) graus de liberdade).
    • p-valor: \(P(F_{q, n-k-1} > F_{calculado})\) [exemplo na fonte: invFtail(df1, df2, F_statistic)].
  5. Teste de Significância Geral de uma Regressão:
    • \(H_0: \beta_1 = \beta_2 = \dots = \beta_k = 0\) (Todas as inclinações são zero, o modelo não tem poder explicativo).
    • \(q = k\). O modelo restrito é apenas uma constante.
    • A estatística F para este teste é geralmente relatada na saída padrão do software.
  6. Teste de Chow: Um caso especial do teste F para verificar se as funções de regressão são as mesmas entre diferentes grupos (ex: homens vs. mulheres).
    • \(SSR_{ur} = SSR_{\text{grupo1}} + SSR_{\text{grupo2}}\) (soma dos SSRs de regressões separadas para cada grupo).

D. Significância Estatística vs. Significância Prática/Econômica

  • Significância Estatística: Refere-se à magnitude da estatística t (ou p-valor) de um coeficiente. Se um coeficiente é estatisticamente significativo, significa que é improvável que o verdadeiro parâmetro populacional seja zero.
  • Significância Prática (ou Econômica): Refere-se à magnitude do próprio coeficiente estimado (\(\hat{\beta}_j\)) e se ele é “grande” o suficiente para ter um impacto significativo no contexto do problema.
  • Importante: Um coeficiente pode ser estatisticamente significativo sem ser praticamente significativo (especialmente em amostras grandes). É crucial discutir ambos.

VI. Regressão em Forma de Matriz (Apêndices D e E)

Embora o texto principal não exija notação matricial, é fundamental para derivar propriedades e é relevante, pois aparece nas provas antigas.

  • Definições Básicas (Apêndice D): Matriz, vetor (linha/coluna), dimensões, transposição (\(A^r\)), matriz simétrica, matriz identidade (\(I\)), matriz nula, inversa (\(A^{-1}\)), posto (\(rank\)), formas quadráticas.
  • Modelo de Regressão Linear Múltipla em Forma de Matriz:
    • Para cada observação t: \(y_t = \mathbf{x}_t \mathbf{\beta} + u_t\).
    • Para todas as n observações: \(\mathbf{y} = \mathbf{X}\mathbf{\beta} + \mathbf{u}\).
      • \(\mathbf{y}\): vetor \(n \times 1\) de observações da variável dependente.
      • \(\mathbf{X}\): matriz \(n \times (k+1)\) das variáveis explicativas (inclui coluna de uns para o intercepto).
      • \(\mathbf{\beta}\): vetor \((k+1) \times 1\) de parâmetros.
      • \(\mathbf{u}\): vetor \(n \times 1\) de erros.
  • Estimador MQO (OLS) em Forma de Matriz:
    • Minimiza \(\mathbf{u}^r\mathbf{u} = (\mathbf{y} - \mathbf{X}\mathbf{\beta})^r(\mathbf{y} - \mathbf{X}\mathbf{\beta})\).
    • Condição de Primeira Ordem: \(\mathbf{X}^r(\mathbf{y} - \mathbf{X}\hat{\mathbf{\beta}}) = \mathbf{0}\).
    • Fórmula do Estimador OLS: \(\hat{\mathbf{\beta}} = (\mathbf{X}^r\mathbf{X})^{-1}\mathbf{X}^r\mathbf{y}\).
      • Condição: \((\mathbf{X}^r\mathbf{X})\) deve ser invertível, o que significa que as colunas de \(\mathbf{X}\) devem ser linearmente independentes (equivalente a RLM.3).
  • Propriedades de Amostras Finitas de MQO (em Matriz):
    • Unbiasedness (Não Viesado): Sob E.1, E.2, E.3 (Linearidade, Sem Colinearidade Perfeita, Média Condicional Zero \(E(\mathbf{u}|\mathbf{X}) = \mathbf{0}\)), \(E(\hat{\mathbf{\beta}}|\mathbf{X}) = \mathbf{\beta}\).
    • Matriz de Variância-Covariância do Estimador MQO: Sob E.1-E.4 (Homoscedasticidade sem Correlação Serial \(\text{Var}(\mathbf{u}|\mathbf{X}) = \sigma^2 \mathbf{I}_n\)), \(\text{Var}(\hat{\mathbf{\beta}}|\mathbf{X}) = \sigma^2 (\mathbf{X}^r\mathbf{X})^{-1}\).
      • Os elementos diagonais de \(\sigma^2 (\mathbf{X}^r\mathbf{X})^{-1}\) dão as variâncias de \(\hat{\beta}_j\), e os elementos fora da diagonal dão as covariâncias entre \(\hat{\beta}_j\) e \(\hat{\beta}_l\).
    • Estimador Não Viesado de \(\sigma^2\): \(\hat{\sigma}^2 = \hat{\mathbf{u}}^r \hat{\mathbf{u}} / (n-k-1)\).
  • Inferência Estatística (em Matriz):
    • Normalidade dos Erros (E.5): Condicional em X, os erros \(u_t\) são i.i.d. Normal \((0, \sigma^2)\), ou \(\mathbf{u} \sim \text{Normal}(\mathbf{0}, \sigma^2 \mathbf{I}_n)\).
    • Normalidade de \(\hat{\mathbf{\beta}}\) (Teorema E.5): Sob E.1-E.5, \(\hat{\mathbf{\beta}}|\mathbf{X} \sim \text{Normal}(\mathbf{\beta}, \sigma^2 (\mathbf{X}^r\mathbf{X})^{-1})\).
    • Distribuição da Estatística t (Teorema E.6): Sob E.1-E.5, \((\hat{\beta}_j - \beta_j) / \text{ep}(\hat{\beta}_j) \sim t_{n-k-1}\).
    • Estatística Wald para Teste de Múltiplas Hipóteses:
      • \(H_0: \mathbf{R}\mathbf{\beta} = \mathbf{r}\) (q restrições lineares).
      • Fórmula: \(W = (\mathbf{R}\hat{\mathbf{\beta}} - \mathbf{r})^r [\mathbf{R}(\mathbf{X}^r\mathbf{X})^{-1}\mathbf{R}^r]^{-1} (\mathbf{R}\hat{\mathbf{\beta}} - \mathbf{r}) / \hat{\sigma}^2\).
      • Distribuição sob \(H_0\) (MLC válido): \(W/q \sim F_{q, n-k-1}\).
      • Para grandes amostras (RLM.1r-RLM.5r), \(W \sim \chi^2_q\) assintoticamente.

VII. Exemplos e Dicas para Provas Antigas (com base nas imagens)

As provas antigas demonstram a importância de:

  1. Interpretação de Coeficientes:
    • Exemplo 1 (Prova antiga, Questão 1): Regressão de CREDA (CRÉDITO) em PLB (probabilidade de liquidez do banco) e DUMMY.
      • Linear-Linear: \(\beta_1\) é o efeito marginal de PLB em CREDA (mantendo DUMMY constante). Se PLB aumenta 1 ponto percentual, CREDA muda em $ _1 $ milhões de dólares [Questão 1, (i), (ii)].
      • Log-Linear: \(log(PLB)\) em CREDA. A variação em CREDA para um aumento de 1% em PLB seria \((\hat{\beta}_1/100)\) [Questão 1, (v)].
      • Linear-Log: \(PLB\) em \(log(PLB)\). A variação percentual em CREDA para um aumento de 1 ponto percentual em PLB é \((100 \times \hat{\beta}_1)\) [Questão 1, (v)].
      • Variáveis Dummy: Interpretar o coeficiente da dummy como a diferença no intercepto para a categoria da dummy em comparação com a categoria base.
    • Elasticidade: Entender quando o coeficiente de inclinação é uma elasticidade (modelo log-log) ou semielasticidade (modelo log-linear).
  2. Testes de Hipóteses e P-valores:
    • t-test: Use a estatística t para testar significância individual dos coeficientes [Questão 1, tabela]. Comparar com valor crítico da t-Student ou usar p-valor.
    • Interpretação de t-values e p-values:
      • \(|t| > 2\) (aprox.): Geralmente significativo a 5% para n grande.
      • P-valor: Se p-valor < \(\alpha\), rejeita \(H_0\). Um p-valor pequeno (<0.01) indica evidência muito forte contra \(H_0\).
    • F-test: Testar a significância conjunta de múltiplos regressores. Na prova, o teste F para significância geral do modelo é dado (\(F_{calculado}\) e \(Valor-P\)) [Questão 1, tabela].
    • R-quadrado e R-quadrado Ajustado: A Prova 1, Questão 1, (g) pede para justificar o uso do \(R_{ajustado}^2\) para comparar modelos, o que é importante quando os modelos não são aninhados ou têm diferentes números de parâmetros.
  3. Propriedades dos Estimadores (Viés, Variância, Consistência):
    • Questão 2 (Prova Antiga): Pede para provar que \(E(\hat{\beta}_2) = \beta_2\) (não viesado) e para derivar a matriz de variância-covariância de \(\hat{\beta}_2\) usando a notação matricial e as suposições do modelo linear (RLM.1-RLM.5).
  4. Uso de Cálculo e Álgebra Linear:
    • Questão 2 (Prova Antiga): Derivações usando E(Y|X) e propriedades de variância e covariância em formato matricial.
    • Questão 4 (Prova Antiga): Requer manipulação de matrizes para derivar o estimador de MQO, demonstrar sua imparcialidade e derivar sua matriz de variância-covariância, bem como as condições de primeira ordem. Isso sublinha a importância do Apêndice E.

Dicas Finais para a Prova:

  • Entenda as intuições: Não apenas memorize as fórmulas, mas compreenda o que elas significam e por que são usadas.
  • Aprenda as suposições: Saiba as suposições do Modelo Linear Clássico (MLC - RLM.1 a RLM.6) e o que acontece quando elas são violadas (ex: heteroscedasticidade, viés de variável omitida).
  • Pratique as interpretações: A interpretação dos coeficientes e dos resultados dos testes é tão importante quanto o cálculo.
  • Atenção aos p-valores: Eles são uma forma concisa e completa de relatar os resultados dos testes de hipóteses.

Com este guia detalhado, você terá uma base sólida para abordar sua prova de Econometria. Boa sorte!