Econometria I

Lista 3

Autor

Alan Santos | 21065813

(Texto para as questões 1 a 3)
Os governos dos estados brasileiros estão interessados em implementar ações com o intuito de melhorar a taxa de aprovação (ou de não repetência) dos alunos de escolas estaduais. Resultados de estudos econométricos previamente realizados apontam que a qualidade da escola pública em que foi cursado o ensino fundamental é uma das principais causas do desempenho do aluno no ensino médio. Seja assumido que é possível obter, a partir dos dados disponíveis, uma medida razoavelmente precisa para a qualidade das escolas públicas, denotada por “quali_pub”. Também será assumido que os governos estaduais são capazes de alterar a variável em questão. Com base nisso, seja, por simplicidade, considerada uma política pública estadual que procura aumentar a taxa de aprovação explorando, para isso, a via de aumento da qualidade das escolas públicas de ensino fundamental. Você foi contratado para estimar o impacto provável desta política como subsídio à decisão que definirá se ela vai ou não ser implementada. Os dados disponíveis compreendem três variáveis, (i) o desempenho, no ensino médio, de alunos que cursaram o ensino fundamental em escolas públicas, taxa_aprov, (ii) quali_pub, (iii) nível educacional dos pais dos alunos, educ_pais. A partir destes dados é possível estimar duas Funções de Regressão Populacional (FRPs) distintas.

\[(\text{FRP 1}) \quad \text{Taxa\_aprovi}_i = \alpha_0 + \alpha_1 \text{quali\_pub}_i + \epsilon_i\]

\[(\text{FRP 2}) \quad \text{Taxa\_aprovi}_i = \beta_0 + \beta_1 \text{quali\_pub}_i + \beta_2 \text{educ\_pais}_i + u_i\]

Ao comparar as duas FRPs, deve-se levar em conta a existência de correlação entre quali_pub e educ_pais, justificada pela conjectura de que a capacidade de selecionar a melhor escola para os filhos é diretamente proporcional ao nível educacional. Além disso, há evidência de que o desempenho no ensino médio é positivamente correlacionado com a educação dos pais.

Questão 1

No enunciado acima, há três relações que conectam as três variáveis. Represente essas relações a partir de um diagrama de flechas tal como o que consta na nota de aula 4. Para isso, considere duas convenções, quais sejam: (a) a causalidade deve ser indicada com uma flecha unidirecional, “\(\rightarrow\)”, em cujo início está a variável-causa e, em, cujo término, a variável-consequência e; (b) a correlação deve ser indicada com uma flecha bidirecional ,“\(\Leftrightarrow\)”.

Resposta da Questão 1

código

dag_objeto <- dagify(
  taxa_aprov ~ quali_pub,
  educ_pais ~ quali_pub,
  taxa_aprov ~ educ_pais,
  coords = list(
    x = c(taxa_aprov = 1, quali_pub = 2, educ_pais = 2),
    y = c(taxa_aprov = 1.5, quali_pub = 1, educ_pais = 2)
  )
)


g1 <- ggplot(dag_objeto, aes(x = x, y = y, xend = xend, yend = yend)) +
  geom_dag_point(size = 45, color = "steelblue") + 
  # 1. Reta B:
  geom_dag_edges_link(data = subset(fortify(dag_objeto), 
                                    (name == "quali_pub" & to == "educ_pais") | 
                                      (name == "educ_pais" & to == "quali_pub")),
    edge_width = 1.2,
    arrow = grid::arrow(length = grid::unit(12, "pt"), type = "closed", ends = "both"),
    end_cap = ggraph::circle(15, 'mm'),
    start_cap = ggraph::circle(15, 'mm')) +
  # 2. Retas A e C:
  geom_dag_edges_link(data = subset(fortify(dag_objeto), 
                  !(name == "quali_pub" & to == "educ_pais") &
                    !(name == "educ_pais" & to == "quali_pub")),
    edge_width = 1.2,
    arrow = grid::arrow(length = grid::unit(12, "pt"), type = "closed", ends = "last"),
    end_cap = ggraph::circle(15, 'mm')) +
  geom_dag_text(color = "white", size = 3, fontface = "bold") +
  annotate("text", x = 1.45, y = 1.9, label = "A", size = 6, fontface = "bold", color = "darkred") +
  annotate("text", x = 2.15, y = 1.5, label = "B", size = 6, fontface = "bold", color = "darkred") +
  annotate("text", x = 1.45, y = 1.1, label = "C", size = 6, fontface = "bold", color = "darkred") +
  theme_dag() +
  scale_x_continuous(expand = expansion(mult = 0.6)) +
  scale_y_continuous(expand = expansion(mult = 0.6))

Diagrama de flechas: correlação e causalidade

Questão 2

Explique porque o coeficiente \(\beta_1\) é uma medida mais adequada do que o coeficiente \(\alpha_1\) para o impacto da política pública. Tome por base (i) o diagrama elaborado na questão anterior e (ii) a interpretação ceteris paribus da regressão múltipla.

Resposta da Questão 2

Ao analisarmos o diagrama da questão um, podemos perceber que as variáveis quali_pub e educ_pais estão correlacionadas.

Na FRP 1, o estimador (\(\alpha_1\)) não mede apenas o efeito da variável quali_pub; ele captura também o efeito da variavel educ_pais que está “escondido” no erro \(e_i\). Como pais mais instruídos tendem a colocar os filhos em escolas melhores, o \(\alpha_1\) acaba atribuindo à escola um mérito que, na verdade, é oriundo do ambiente familiar.

Na FRP 2, o estimador \(\beta_1\) representa o impacto de um aumento unitário na quali_pub sobre a taxa de aprovação, mantendo-se constante (ceteris paribus) o nível educacional da variável educ_pais. Neste caso, o governo não consegue alterar a educação dos pais dos alunos, dessa forma, o coeficiente \(\beta_1\) é a medida mais adequada porque ele fornece o impacto da política pública sem a influência da educação dos pais. Se o Governo usasse o \(\alpha_1\), ele estaria superestimando o poder da escola, investindo recursos em uma política que, na prática, pode ter um retorno muito menor do que o previsto.

Questão 3

O que ocorreria caso os resultados da estimação da FRP1 fossem tomados por base para decidir quanto à implementação da política?

Resposta da Questão 3

Se os resultados da FRP 1 fossem utilizados como base para a decisão, o governo estaria tomando uma decisão fundamentada em um viés de variável omitida. Mais especificamente, isso levaria a uma avaliação equivocada da política implementada, desconsiderando a influência da educação dos pais isolado do resultado. Em suma, ao ignorar a FRP 2, o coeficiente \(a_1\)da regressão está superestimado por absorver o efeito da educação dos pais, o governo teria uma falsa percepção da eficácia da política de qualidade escolar.

Questão 4

Uma medida para a discriminação de gênero no mercado de trabalho é dada pela estimativa pontual para o parâmetro \(\delta\) na FRP a seguir, em que Wi é o salário recebido pelo i-ésimo indivíduo, “educ” capta o nível educacional e X contém explicativas socioeconômicas adicionais. Os indivíduos que declararam possuir sexo masculino são indicados com \(d_{mas} = 1\), e indivíduos que declararam possuir sexo feminino como \(d_{mas} = 0\).

\[\log(W_i) = \beta_0 + \beta_1 \text{educ}_i + \mathbf{x}'\boldsymbol{\beta} + \delta d\_mas_i + u_i\]

Argumente porque a estimativa pontual de \(\delta\) é uma medida para a porção do diferencial salarial associada à discriminação de gênero. Embase sua resposta no conceito do coeficiente de uma variável binária.

Resposta da Questão 4

O coeficiente \(\delta\) mede a diferença esperada no logaritmo do salário entre homens e mulheres, mantendo constantes todos os outros fatores do modelo (\(educ\) e \(X\)), ou seja, estamos comparando um homem e uma mulher que possuem exatamente o mesmo nível de escolaridade e as mesmas características socioeconômicas. Se, mesmo assim, o homem receber mais, essa diferença (\(\delta\)) não pode ser explicada pelo nível educacional e/ou socioeconômicas.

Questão 5

Um pesquisador estimou uma FRP em que a variável dependente é o tempo de internação hospitalar, devido a doenças respiratórias, de idosos com pelo menos 65 anos. Foram considerados 763 municípios da Amazônia Legal brasileira. A FRP estimada correspondeu à:

\[\text{diasleito}_i = \beta_0 + \beta_1 \text{idademedia}_i + \beta_2 \text{DCNT}_i + \beta_3 \text{PIB}_i + u_i\]

, a qual será referida, doravante, como “equação original”. A primeira explicativa é a idade média da população municipal, DCNT \(\equiv\) mortalidade devido a doenças crônicas nãotransmissíveis, uma medida do nível de saúde da população e PIB \(\equiv\) produto interno bruto municipal, uma medida para a capacidade de contratar serviços de saúde e comprar medicação. Uma vez obtidos os resultados, o pesquisador decidiu fazer um teste, ampliando a FRP com a inclusão do Índice de Desenvolvimento Humano municipal (IDH). Os resultados seguem na tabela abaixo. Explique porque, mesmo sendo a soma dos quadrados dos resíduos (SQR) inferior na equação ampliada, esta apresentou o mesmo \(R^2\) ajustado.

Estatística / FRP		Sem IDH	Com IDH
Estimativas pontuais	Intercepto	-11.30645	-15.24638
	Coef. Idade_média	0.5280609	0.2274972
	Coef. DCNT	1.779305	1.780919
	Coef. PIB	6.70E-06	6.59E-06
	Coef. IDH	(não se aplica)	19.94824
SQE		3,047,142.10	3,047,833.81
SQR		393,843.77	393,152.06
SQT		3,440,985.87	3,440,985.87
Graus de liberdade da SQR		759	758
Graus de liberdade da SQT		762	762
R² ajustado		0.8851	0.8851

Resposta da Questão 5

O \(R^2\) ajustado permaneceu o mesmo porque a pequena melhora no ajuste do modelo foi anulada pela perda de um grau de liberdade. Diferente do \(R^2\) comum, o ajustado penaliza a inclusão de variáveis desnecessárias. Em suma, a redução da SQR não foi suficiente para compensar o “custo” da maior complexidade. Na prática, isso indica que o IDH não é estatisticamente significante, ou seja, seu poder explicativo é tão baixo que não justifica sua permanência no modelo.

Questão 6

A variância do estimador de MQO para o coeficiente de uma regressão simples é o seguinte:

\[\text{Var}(\hat{\beta}_1 | X) = \frac{\hat{\sigma}^2}{\sum_{i=1}^{N} (x_i - \bar{x})^2}\]

Um pesquisador deseja estimar o efeito do nível educacional na remuneração laboral. Ele tem como foco trabalhadores altamente qualificados, com ensino fundamental completo ou ensino superior. Para isso obtém uma amostra aleatória deste grupo. Nesta amostra há, pois, apenas dois níveis educacionais. Ao estimar o coeficiente da educação, o software reporta uma variância consideravelmente superior àquela observada em artigos disponíveis na literatura, os quais tomaram por base amostras compreendendo todos os níveis de qualificação possíveis. Explique ao pesquisador a razão para a alta variância do estimador por ele observada.

Resposta da Questão 6

O software reportou uma variância alta porque a amostra do pesquisador não representa a verdadeira variabilidade da educação na população. Para termos a mesma precisão do caso reportado na literatura, o pesquisador precisaria de uma amostra muito maior ou, preferencialmente, de uma amostra que incluísse a diversidade total dos diversos níveis educacionais da população.