Com certeza! Preparar uma folha de consulta e um guia detalhado para
sua prova de Econometria, com foco especial em inferência e testes de
hipóteses, é uma excelente estratégia. Abaixo, apresento um guia
abrangente, extraído das suas fontes, com definições, fórmulas, passos e
intuições.
Guia de Estudo para a Prova de Econometria
Este guia abrange os principais tópicos da econometria, desde as
ferramentas matemáticas básicas até a inferência estatística no modelo
de regressão, com destaque para testes de hipóteses.
I. Ferramentas Matemáticas Básicas (Apêndice
A)
Este apêndice cobre a matemática básica essencial para a análise
econométrica, incluindo propriedades de operadores de soma, equações
lineares e não lineares, proporções, porcentagens e cálculo
diferencial.
- Operador de Soma: Abreviação útil para manipular
somas.
- Propriedade 1: \(\sum_{i=1}^{n} c =
nc\)
- Propriedade 2: \(\sum_{i=1}^{n} c x_i = c
\sum_{i=1}^{n} x_i\)
- Propriedade 3: \(\sum_{i=1}^{n} (ax_i +
by_i) = a \sum_{i=1}^{n} x_i + b \sum_{i=1}^{n} y_i\)
- Média Amostral (\(\bar{x}\)): Soma dos números
dividida por \(n\). É um exemplo de
estatística descritiva, descrevendo a tendência central.
- Soma dos Desvios é Zero: \(\sum_{i=1}^{n} (x_i - \bar{x}) = 0\).
- Soma dos Quadrados dos Desvios: \(\sum_{i=1}^{n} (x_i - \bar{x})^2 = \sum_{i=1}^{n}
x_i^2 - n(\bar{x})^2\).
- Generalização para Duas Variáveis: \(\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) =
\sum_{i=1}^{n} x_i y_i - n(\bar{x} \bar{y})\).
- Mediana: O valor central em uma sequência ordenada
de números. Menos sensível a valores extremos do que a média.
- Funções Lineares (\(y = \beta_0 +
\beta_1 x\)):
- \(\beta_0\):
Intercepto (valor de y quando x=0).
- \(\beta_1\):
Inclinação (efeito marginal constante de x sobre y, ou
$ y / x $).
- Funções Lineares com Múltiplas Variáveis (\(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2\)):
- \(\beta_1\): Efeito
Parcial de \(x_1\) sobre \(y\), mantendo \(x_2\) fixo (ceteris paribus).
- Proporções e Porcentagens:
- Converter proporção para porcentagem: Multiplicar por 100.
- Variação Proporcional (ou Variação Relativa): \((x_1 - x_0) / x_0\).
- Variação Percentual (\(\% \Delta
x\)): \(100 \times (\Delta x /
x_0)\).
- Variação de Pontos Percentuais: Diferença absoluta
entre porcentagens (ex: 30% para 24% é 6 pontos percentuais).
- Funções Não Lineares: A variação em y para uma dada
mudança em x depende do valor inicial de x.
- Funções Quadráticas (\(y = \beta_0
+ \beta_1 x + \beta_2 x^2\)): Capturam retornos
decrescentes ou crescentes.
- Ponto Máximo/Mínimo: \(x_p = -\beta_1 / (2\beta_2)\) (quando \(\beta_1 > 0, \beta_2 < 0\) para
máximo; \(\beta_1 < 0, \beta_2 >
0\) para mínimo).
- Inclinação/Efeito Marginal Aproximado: \(dy/dx \approx \beta_1 + 2\beta_2 x\) (para
pequenas \(\Delta x\)).
- Logaritmo Natural (\(y =
\log(x)\)): Definido para \(x
> 0\). Apresenta retornos marginais decrescentes, mas o efeito
nunca se torna negativo.
- Propriedades Algébricas: \(\log(x_1 x_2) = \log(x_1) + \log(x_2)\);
\(\log(x_1 / x_2) = \log(x_1) -
\log(x_2)\); \(\log(x^c) = c
\log(x)\).
- Aproximações:
- \(\log(1+x) \approx x\) para \(x \approx 0\).
- \(\log(x_1) - \log(x_0) \approx \Delta x /
x_0 = \% \Delta x / 100\) (para pequenas \(\Delta x\)).
- Elasticidade ($ % y / % x $): \(\approx \Delta \log(y) / \Delta \log(x)\).
Em modelos log-log ($ (y) = _0 + _1 (x) $), $ _1 $ é a
elasticidade.
- **Semielasticidade ($ % y / x \():** Em
modelos **log-linear** (\) (y) = _0 + _1 x $), $ (100 _1) $ é a
semielasticidade (variação percentual em y para um aumento unitário em
x).
- Em modelos linear-log ($ y = _0 + _1 (x) $), $
_1/100 $ é a variação unitária em y para um aumento de 1% em x.
- Função Exponencial (\(y =
\exp(x)\) ou \(y =
e^x\)): Inversa da função log. Se \(\log(y) = \beta_0 + \beta_1 x\) e \(\beta_1 > 0\), x tem um efeito marginal
crescente sobre y.
- Cálculo Diferencial:
- Derivada: \(dy/dx\). Representa a inclinação aproximada
da função.
- Derivadas de Funções Comuns:
- \(y = \beta_0 + \beta_1 x + \beta_2 x^2
\implies dy/dx = \beta_1 + 2\beta_2 x\).
- \(y = \beta_0 + \beta_1 \log(x) \implies
dy/dx = \beta_1 / x\).
- \(y = \exp(\beta_0 + \beta_1 x) \implies
dy/dx = \beta_1 \exp(\beta_0 + \beta_1 x)\).
- Derivadas Parciais: Medem como y muda com uma
variável, mantendo outras fixas (ex: $ y / x_1 $ na presença de \(x_2\)).
- Condições de Primeira Ordem: Para minimizar ou
maximizar uma função, todas as derivadas parciais devem ser zero.
II. Fundamentos da Probabilidade (Apêndice B)
- Variável Aleatória: Assume valores numéricos e tem
um resultado determinado por um experimento.
- Discreta: Assume um número finito ou contável de
valores (ex: Bernoulli - 0 ou 1).
- Contínua: Assume qualquer valor real com
probabilidade zero (ex: preços).
- Função de Densidade de Probabilidade (fdp): Resume
informações sobre os resultados possíveis e suas probabilidades.
- Função de Distribuição Cumulativa (fdc): \(F(c) = P(X \le c)\).
- \(P(X > c) = 1 - F(c)\).
- \(P(a < X \le b) = F(b) -
F(a)\).
- Distribuições Conjuntas e Condicionais:
- Variáveis Independentes: \(f_{X,Y}(x,y) = f_X(x)f_Y(y)\), ou \(P(X=x, Y=y) = P(X=x)P(Y=y)\). Se
independentes, Cov(X,Y) = 0, mas o inverso não é verdadeiro.
- Distribuição Condicional: \(f_{Y|X}(y|x) = f_{X,Y}(x,y) /
f_X(x)\).
- Distribuição Binomial: Número de sucessos em \(n\) testes de Bernoulli independentes.
\(X \sim Binomial(n, \mu)\).
- Valor Esperado (Média Populacional, E(X) ou \(\mu\)): Média ponderada de todos
os valores possíveis de X.
- Para Discreta: \(E(X) =
\sum_{j=1}^{k} x_j f(x_j)\).
- Propriedades:
- \(E(c) = c\) (para constante
c).
- \(E(cX) = cE(X)\).
- \(E(aX + bY) = aE(X) +
bE(Y)\).
- \(E(\sum_{i=1}^{n} a_i X_i) =
\sum_{i=1}^{n} a_i E(X_i)\).
- Valor Esperado da Soma: \(E(\sum_{i=1}^{n} X_i) = \sum_{i=1}^{n}
E(X_i)\).
- Para Binomial: \(E(X) =
n\mu\).
- Variância (\(\text{Var}(X)\) ou \(\sigma^2\)): Mede quão distante X
está de seu valor esperado.
- Fórmula Computacional: \(\text{Var}(X) = E(X^2) - [E(X)]^2\).
- Para Bernoulli: \(\text{Var}(X) = \mu(1-\mu)\).
- Para Binomial: \(\text{Var}(X) = n\mu(1-\mu)\).
- Propriedades:
- \(\text{Var}(c) = 0\).
- \(\text{Var}(aX+b) = a^2
\text{Var}(X)\).
- \(\text{Var}(aX+bY) = a^2 \text{Var}(X) +
b^2 \text{Var}(Y) + 2ab \text{Cov}(X,Y)\).
- Se X e Y não correlacionadas: \(\text{Var}(X+Y) = \text{Var}(X) +
\text{Var}(Y)\).
- Variância da Soma de Variáveis Não Correlacionadas:
\(\text{Var}(\sum_{i=1}^{n} X_i) =
\sum_{i=1}^{n} \text{Var}(X_i)\).
- Desvio Padrão (\(\text{dp}(X)\) ou \(\sigma\)): Raiz quadrada positiva
da variância.
- Variável Aleatória Padronizada (Z-score): \(Z = (X - \mu) / \sigma\). Tem média zero e
variância um.
- Covariância (\(\text{Cov}(X,Y)\) ou \(\sigma_{XY}\)): Mede a quantidade
de dependência linear entre duas variáveis.
- \(\text{Cov}(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]
= E(XY) - \mu_X \mu_Y\).
- Positiva: Movem-se na mesma direção; Negativa: Movem-se em direções
opostas.
- Se X e Y são independentes, \(\text{Cov}(X,Y) = 0\).
- Coeficiente de Correlação (\(\text{Corr}(X,Y)\) ou \(\rho_{XY}\)): Versão padronizada
da covariância, invariável às unidades de medida.
- \(\text{Corr}(X,Y) = \text{Cov}(X,Y) /
(\text{dp}(X)\text{dp}(Y))\).
- Varia entre -1 e 1.
- \(\rho_{XY} = 0\): Não há relação
linear (não correlacionadas).
- \(\rho_{XY} = 1\): Relação linear
positiva perfeita.
- \(\rho_{XY} = -1\): Relação linear
negativa perfeita.
- Expectativa Condicional (Média Condicional, \(E(Y|X=x)\) ou \(E(Y|x)\)): Valor esperado de Y,
dado que X assumiu um valor específico x.
- Propriedades:
- \(E[c(X)|X] = c(X)\).
- \(E[a(X)Y + b(X)|X] = a(X)E(Y|X) +
b(X)\).
- Se X e Y independentes: \(E(Y|X) = E(Y)\).
- Lei das Expectativas Iteradas: \(E[E(Y|X)] = E(Y)\).
- Distribuições de Probabilidade Comuns:
- Normal (\(X \sim
\text{Normal}(\mu, \sigma^2)\)): Formato de sino,
simétrica em torno da média. Se \(X \sim
\text{Normal}(\mu, \sigma^2)\), então \((X-\mu)/\sigma \sim \text{Normal}(0,1)\)
(normal padrão). Tem assimetria zero e curtose 3.
- Qui-quadrado (\(\chi^2_n\)): Soma dos quadrados de
\(n\) variáveis normais padrão
independentes. Tem \(n\) graus de
liberdade. \(E(X) = n\), \(\text{Var}(X) = 2n\).
- t-Student (\(t_n\)): Razão entre uma variável
normal padrão e a raiz quadrada de uma variável qui-quadrado
(padronizada por seus graus de liberdade), independentes entre si. Tem
\(n\) graus de liberdade.
- F-Fisher (\(F_{k1,
k2}\)): Razão entre duas variáveis qui-quadradas
independentes, cada uma padronizada por seus graus de liberdade (\(k_1\) e \(k_2\)).
III. Fundamentos da Estatística Matemática (Apêndice
C)
- População, Parâmetros e Amostragem Aleatória:
- População: Grupo bem definido de sujeitos.
- Parâmetros: Constantes desconhecidas que descrevem
a população (ex: retorno à educação).
- Amostra Aleatória: {y1, …, yn} são variáveis
aleatórias independentes e identicamente distribuídas (i.i.d.) de uma
distribuição populacional.
- Estimadores e Estimativas:
- Estimador (W ou \(\hat{\theta}\)): Regra matemática
que atribui a cada amostra um valor de um parâmetro populacional \(\theta\). É uma variável aleatória.
- Estimativa (w ou \(\hat{\theta}\)): Valor numérico
obtido de uma amostra específica.
- Distribuição por Amostragem: Distribuição de
probabilidade de um estimador.
- Propriedades de Amostras Finitas de Estimadores:
- Ausência de Viés (Unbiasedness): \(E(\hat{W}) = \theta\) para todos os valores
possíveis de \(\theta\). O estimador
não viesado, em média, iguala o parâmetro real.
- Média Amostral (\(\bar{Y}\)): Estimador não viesado
da média populacional \(\mu\).
- Variância Amostral (\(S^2\)): Estimador não viesado da
variância populacional \(\sigma^2\)
(dividido por \(n-1\)).
- Viés: \(\text{Bias}(\hat{W}) = E(\hat{W}) -
\theta\).
- Intuição: Se repetirmos a amostragem infinitamente,
a média das estimativas convergiria para o valor verdadeiro.
- Variância por Amostragem de Estimadores: Mede a
dispersão da distribuição de um estimador.
- Variância da Média Amostral: \(\text{Var}(\bar{Y}) = \sigma^2 / n\).
- Intuição: À medida que \(n\) aumenta, a variância diminui, tornando
o estimador mais preciso.
- Eficiência (Efficiency): Entre estimadores não
viesados, prefere-se aquele com a menor variância.
- Erro Quadrático Médio (EQM): EQM(\(\hat{W}\)) = \(E[(\hat{W} - \theta)^2] = \text{Var}(\hat{W}) +
[\text{Bias}(\hat{W})]^2\). Usado para comparar estimadores
viesados e não viesados.
- Propriedades Assintóticas (de Grandes Amostras):
- Consistência: Um estimador \(\hat{W}_n\) é consistente para \(\theta\) se \(P(|\hat{W}_n - \theta| > \epsilon) \to
0\) quando \(n \to \infty\).
Intuitivamente, a distribuição do estimador se concentra cada vez mais
em torno do parâmetro verdadeiro à medida que \(n\) aumenta. É um requisito mínimo para
estimadores razoáveis.
- Lei dos Grandes Números (LGN): Se \(Y_i\) são i.i.d. com média \(\mu\), então \(\text{plim}(\bar{Y}_n) = \mu\).
- Propriedades de Limite de Probabilidade (PLIM):
Permitem combinar estimadores consistentes para obter outros estimadores
consistentes (ex: \(\text{plim } g(\hat{W}_n)
= g(\text{plim } \hat{W}_n)\) para função contínua \(g\)).
- Consistência de MQO: Os estimadores de MQO são
consistentes sob as suposições RLM.1 - RLM.4 (ou RLM.4’, que é mais
fraca).
- Normalidade Assintótica: Para grandes amostras, a
distribuição de um estimador se aproxima de uma distribuição normal.
- Teorema do Limite Central (TLC): A média de uma
amostra aleatória padronizada de qualquer população (com variância
finita) tem uma distribuição normal padrão assintótica.
- Consequência Prática: Permite usar a distribuição
normal (ou t, para n moderado) para inferência estatística, mesmo se a
população não for normal.
- Para OLS: Sob RLM.1-RLM.5, os estimadores de MQO
são assintoticamente normais.
IV. Análise de Regressão Múltipla: Estimação (Capítulos 2 e
3)
- Modelo de Regressão Linear Múltipla: \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots +
\beta_k x_k + u\).
- Motivação: Incluir mais fatores explicativos, obter
efeitos ceteris paribus, permitir formas funcionais
flexíveis.
- Interpretação: \(\beta_j\) mede a variação em y quando \(x_j\) aumenta em uma unidade, mantendo
todas as outras variáveis explicativas fixas.
- Linearidade: Linear nos parâmetros, não
necessariamente nas variáveis (ex: \(\log(x)\), \(x^2\)).
- Estimação de Mínimos Quadrados Ordinários (MQO):
Minimiza a soma dos resíduos ao quadrado (\(\sum \hat{u}_i^2\)).
- Propriedades Algébricas:
- A soma dos resíduos é zero (\(\sum
\hat{u}_i = 0\)).
- A covariância (e correlação) entre cada regressor e os resíduos é
zero.
- O ponto \((\bar{y}, \bar{x}_1, \dots,
\bar{x}_k)\) está na linha de regressão.
- Interpretação “Parcial” (Teorema de Frisch-Waugh):
O coeficiente de \(\hat{\beta}_j\) em
uma regressão múltipla pode ser obtido em duas etapas: 1) Regredir \(x_j\) sobre as outras variáveis
explicativas e obter os resíduos. 2) Regredir \(y\) sobre esses resíduos.
- Intuição: Os resíduos da primeira regressão
representam a parte de \(x_j\) que não
é linearmente explicada pelas outras variáveis. A segunda regressão
isola o efeito puro de \(x_j\).
- Qualidade do Ajuste:
- SST (Soma Total dos Quadrados): Variação total na
variável dependente \(y\).
- SSE (Soma dos Quadrados Explicada): Variação
explicada pela regressão.
- SSR (Soma dos Resíduos ao Quadrado): Variação não
explicada pela regressão.
- Decomposição: \(SST = SSE
+ SSR\).
- R-Quadrado (\(R^2\)): Mede a fração da variação
total de \(y\) explicada pela
regressão. \(R^2 = SSE/SST = 1 -
SSR/SST\). \(0 \le R^2 \le 1\).
\(R^2\) sempre aumenta com a adição de
mais regressores.
- R-Quadrado Ajustado (\(\bar{R}^2\)): Uma estimativa
melhor do \(R^2\) populacional que
penaliza a adição de regressores irrelevantes. \(\bar{R}^2\) aumenta se, e somente se, a
estatística t de um regressor recém-adicionado for maior que um em valor
absoluto.
- Suposições do Modelo Linear Clássico (MLC):
- RLM.1 (Linearidade nos parâmetros): A relação na
população é linear.
- RLM.2 (Amostragem aleatória): Os dados são uma
amostra aleatória da população.
- RLM.3 (Sem colinearidade perfeita): Nenhuma
variável explicativa é constante, e não há relações lineares exatas
entre as variáveis explicativas.
- Multicolinearidade: Não é uma violação de RLM.3,
mas ocorre quando variáveis explicativas são altamente correlacionadas.
Isso infla a variância amostral dos coeficientes estimados, dificultando
a estimação precisa de seus efeitos individuais.
- RLM.4 (Média condicional zero): \(E(u|x_1, \dots, x_k) = 0\). Os fatores não
observados não devem conter informações sobre a média das variáveis
explicativas.
- Exogeneidade: As variáveis explicativas não são
correlacionadas com o termo de erro. É crucial para uma interpretação
causal e imparcialidade.
- Viés de Variável Omitida: Se uma variável relevante
for omitida e correlacionada com uma variável incluída, os estimadores
de MQO serão viesados. A direção do viés depende da correlação e do
sinal do coeficiente da variável omitida.
- RLM.5 (Homoscedasticidade): \(\text{Var}(u|x_1, \dots, x_k) = \sigma^2\).
A variabilidade dos fatores não observados não depende dos valores das
variáveis explicativas. A violação desta suposição leva à
heteroscedasticidade, tornando os erros padrão usuais
inválidos.
- RLM.6 (Normalidade dos termos de erro): \(u\) é distribuído normalmente. Esta
suposição é importante para inferência exata em pequenas amostras; em
grandes amostras, o TLC garante normalidade assintótica.
- Propriedades dos Estimadores de MQO (sob MLC):
- Não Viesado (Teorema 3.1): Sob RLM.1-RLM.4, os
estimadores de MQO são não viesados.
- Variância Amostral (Teorema 3.2): Sob RLM.1-RLM.5,
a variância dos estimadores de inclinação é \(\text{Var}(\hat{\beta}_j) = \sigma^2 / [SST_j(1 -
R_j^2)]\), onde \(SST_j\) é a
soma total dos quadrados de \(x_j\) e
\(R_j^2\) é o R-quadrado da regressão
de \(x_j\) sobre as outras variáveis
explicativas.
- \(\sigma^2\): Variância do erro
(maior, maior a variância amostral).
- \(SST_j\): Variação total amostral
em \(x_j\) (maior, menor a variância
amostral).
- \(R_j^2\): Relação linear entre
\(x_j\) e as outras variáveis
explicativas (maior, maior a variância amostral -
multicolinearidade).
- Estimador Não Viesado da Variância do Erro (\(\hat{\sigma}^2\)): Sob
RLM.1-RLM.5, \(\hat{\sigma}^2 = SSR / (n - k -
1)\) é não viesado para \(\sigma^2\). \((n-k-1)\) são os graus de liberdade.
- Erros Padrão (\(\text{ep}(\hat{\beta}_j)\)): O
desvio padrão estimado de \(\hat{\beta}_j\). \(\text{ep}(\hat{\beta}_j) = \hat{\sigma} /
\sqrt{SST_j(1 - R_j^2)}\). Medem a precisão das estimativas.
- Teorema de Gauss-Markov (Teorema 3.4): Sob
RLM.1-RLM.5, os estimadores de MQO são os Melhores Estimadores
Lineares Não Viesados (MELNV ou BLUE), o que significa que têm
a menor variância entre todos os estimadores lineares não viesados.
V. Inferência Estatística (Apêndice C, Capítulo
4)
Intuição Geral: A inferência estatística nos permite
tirar conclusões sobre uma população com base em uma amostra de dados.
Isso envolve a construção de intervalos de confiança (para estimar um
intervalo de valores para o parâmetro populacional) e o teste de
hipóteses (para responder perguntas de “sim ou não” sobre os
parâmetros).
Assunções para Inferência Exata em Amostras Finitas:
Para que as estatísticas t e F tenham as distribuições exatas t e F sob
a hipótese nula, o modelo deve satisfazer todas as seis
suposições do modelo linear clássico (MLC): RLM.1, RLM.2,
RLM.3, RLM.4, RLM.5 e RLM.6 (normalidade dos termos de erro).
A. Teste de Hipóteses
O teste de hipóteses é um método formal para decidir se há evidências
suficientes em uma amostra de dados para rejeitar uma afirmação sobre a
população.
- Formulação das Hipóteses:
- Hipótese Nula (\(H_0\)): Afirmação sobre o
parâmetro populacional que se presume verdadeira até que haja forte
evidência contra ela (ex: \(\beta_j =
0\)). Geralmente é uma “hipótese nula simples” (valor
específico).
- Hipótese Alternativa (\(H_1\)): Afirmação que se busca
evidência para apoiar (ex: \(\beta_j \ne
0\), \(\beta_j > 0\), ou
\(\beta_j < 0\)).
- Unilateral: \(\beta_j
> 0\) ou \(\beta_j <
0\).
- Bilateral: \(\beta_j \ne
0\).
- Escolha do Nível de Significância (\(\alpha\)):
- A probabilidade de cometer um Erro Tipo I (rejeitar
\(H_0\) quando ela é verdadeira).
- Valores comuns: 0,10 (10%), 0,05 (5%), 0,01 (1%).
- Poder do Teste: A probabilidade de rejeitar \(H_0\) quando ela é falsa. Deseja-se
maximizar o poder para um dado \(\alpha\).
- Erro Tipo II: Não rejeitar \(H_0\) quando ela é falsa.
- Escolha da Estatística de Teste:
- Uma função da amostra aleatória. O valor calculado é \(t\).
- Estatística t para um Único Parâmetro: Usada para
testar \(H_0: \beta_j = \beta_j^0\)
(onde \(\beta_j^0\) é o valor
hipotético, geralmente 0).
- Fórmula: \(t =
(\hat{\beta}_j - \beta_j^0) / \text{ep}(\hat{\beta}_j)\).
- Distribuição sob \(H_0\)
(MLC válido): \(T \sim
t_{n-k-1}\). Os graus de liberdade são \(n - (\text{número de parâmetros
estimados})\).
- Interpretação: A estatística t mede quantos erros
padrão estimados \(\hat{\beta}_j\) está
distante de \(\beta_j^0\).
- Determinação do Valor Crítico (c) e Região de
Rejeição:
- O valor crítico \(c\) é determinado
pela distribuição da estatística de teste (sob \(H_0\)) e pelo nível de significância \(\alpha\).
- Regras de Rejeição:
- Alternativa Unilateral (\(\beta_j
> \beta_j^0\)): Rejeitar \(H_0\) se \(t >
c_{\alpha}\) (onde \(c_{\alpha}\) é o percentil \(100(1-\alpha)\) da distribuição \(t_{n-k-1}\)).
- Alternativa Unilateral (\(\beta_j
< \beta_j^0\)): Rejeitar \(H_0\) se \(t <
-c_{\alpha}\) (onde \(c_{\alpha}\) é o percentil \(100(1-\alpha)\) da distribuição \(t_{n-k-1}\)).
- Alternativa Bilateral (\(\beta_j
\ne \beta_j^0\)): Rejeitar \(H_0\) se \(|t|
> c_{\alpha/2}\) (onde \(c_{\alpha/2}\) é o percentil \(100(1-\alpha/2)\) da distribuição \(t_{n-k-1}\)).
- Intuição: Se a estatística de teste cai na região
de rejeição, ela é considerada “muito extrema” para ser consistente com
a hipótese nula.
- Cálculo do p-valor:
- O p-valor (ou prob-valor) é o menor nível de
significância no qual a hipótese nula ainda pode ser rejeitada.
- Cálculo (depende da alternativa):
- Unilateral (\(\beta_j >
\beta_j^0\)): p-valor = \(P(T
> t)\).
- Unilateral (\(\beta_j <
\beta_j^0\)): p-valor = \(P(T
< t)\).
- Bilateral (\(\beta_j \ne
\beta_j^0\)): p-valor = \(P(|T| > |t|) = 2 \times P(T >
|t|)\).
- Regra de Decisão usando p-valor:
- Se p-valor < \(\alpha\):
Rejeitar \(H_0\).
- Se p-valor \(\ge \alpha\): Falhar
em rejeitar \(H_0\).
- Intuição: Um p-valor pequeno (< \(\alpha\)) indica forte evidência contra
\(H_0\), pois o resultado observado é
improvável de ocorrer se \(H_0\) fosse
verdadeira.
- Vantagem: Mais informativo do que apenas
rejeitar/não rejeitar em um nível fixo.
B. Intervalos de Confiança
Um intervalo de confiança (IC) é um intervalo que é
construído a partir dos dados da amostra e que contém o parâmetro
populacional com uma certa probabilidade especificada (nível de
confiança).
- Fórmula (para \(\hat{\beta}_j\)): \(\hat{\beta}_j \pm c_{\alpha/2} \times
\text{ep}(\hat{\beta}_j)\).
- \(c_{\alpha/2}\): Valor crítico da
distribuição t (ou normal padrão, para grandes amostras) com \(n-k-1\) graus de liberdade para o nível de
confiança desejado. Por exemplo, para um IC de 95%, usa-se \(c_{0.025}\) (97.5º percentil).
- Regra de Ouro (Aproximada): \(\hat{\beta}_j \pm 2 \times
\text{ep}(\hat{\beta}_j)\) para um IC de 95%.
- Interpretação: Se repetíssemos a amostragem e
construíssemos muitos ICs, uma certa porcentagem (ex: 95%) desses
intervalos conteria o verdadeiro parâmetro populacional. Não é a
probabilidade de o parâmetro estar no intervalo
calculado!.
- Relação com Testes de Hipóteses: Um IC de \(100(1-\alpha)\%\) para \(\beta_j\) pode ser usado para testar uma
hipótese bilateral \(H_0: \beta_j =
\beta_j^0\) versus \(H_1: \beta_j \ne
\beta_j^0\) no nível de significância \(\alpha\).
- Se \(\beta_j^0\) não
estiver no IC: Rejeitar \(H_0\).
- Se \(\beta_j^0\)
estiver no IC: Falhar em rejeitar \(H_0\).
C. Testes de Hipóteses de Restrições Múltiplas (Teste
F)
Usado para testar hipóteses conjuntas envolvendo múltiplos parâmetros
(ex: se um grupo de variáveis é conjuntamente significativo).
- Formulação das Hipóteses:
- \(H_0\): \(\beta_1 = 0, \beta_2 = 0, \dots, \beta_q =
0\) (q restrições de exclusão).
- \(H_1\): \(H_0\) não é verdadeira (pelo menos um dos
parâmetros é diferente de zero).
- Modelos Restrito e Irrestrito:
- Modelo Irrestrito (MI): Contém todas as variáveis
explicativas. Obtenha \(SSR_{ur}\)
(Soma dos Resíduos ao Quadrado do irrestrito).
- Modelo Restrito (MR): O modelo irrestrito com as
restrições de \(H_0\) impostas (ex:
variáveis sob \(H_0\) são excluídas).
Obtenha \(SSR_r\) (Soma dos Resíduos ao
Quadrado do restrito).
- Nota: \(SSR_r \ge
SSR_{ur}\) sempre.
- Estatística F:
- Fórmula: \(F = [(SSR_r -
SSR_{ur}) / q] / [SSR_{ur} / (n - k - 1)]\).
- \(q\): Número de restrições (número
de parâmetros sob \(H_0\)).
- \(n\): Tamanho da amostra.
- \(k\): Número de variáveis
explicativas no modelo irrestrito (excluindo o intercepto).
- \(n - k - 1\): Graus de liberdade
do denominador (equivalente aos graus de liberdade do modelo
irrestrito).
- Distribuição sob \(H_0\)
(MLC válido): \(F \sim F_{q,
n-k-1}\).
- Regra de Rejeição:
- Rejeitar \(H_0\) se \(F > c_{\alpha}\) (onde \(c_{\alpha}\) é o valor crítico da
distribuição F com \(q\) e \(n-k-1\) graus de liberdade).
- p-valor: \(P(F_{q, n-k-1}
> F_{calculado})\) [exemplo na fonte:
invFtail(df1, df2, F_statistic)].
- Teste de Significância Geral de uma Regressão:
- \(H_0: \beta_1 = \beta_2 = \dots = \beta_k
= 0\) (Todas as inclinações são zero, o modelo não tem poder
explicativo).
- \(q = k\). O modelo restrito é
apenas uma constante.
- A estatística F para este teste é geralmente relatada na saída
padrão do software.
- Teste de Chow: Um caso especial do teste F para
verificar se as funções de regressão são as mesmas entre diferentes
grupos (ex: homens vs. mulheres).
- \(SSR_{ur} = SSR_{\text{grupo1}} +
SSR_{\text{grupo2}}\) (soma dos SSRs de regressões separadas para
cada grupo).
D. Significância Estatística vs. Significância
Prática/Econômica
- Significância Estatística: Refere-se à magnitude da
estatística t (ou p-valor) de um coeficiente. Se um coeficiente é
estatisticamente significativo, significa que é improvável que o
verdadeiro parâmetro populacional seja zero.
- Significância Prática (ou Econômica): Refere-se à
magnitude do próprio coeficiente estimado (\(\hat{\beta}_j\)) e se ele é “grande” o
suficiente para ter um impacto significativo no contexto do
problema.
- Importante: Um coeficiente pode ser
estatisticamente significativo sem ser praticamente significativo
(especialmente em amostras grandes). É crucial discutir ambos.