Econometria I

Lista 1

Autor

Alan Santos

Questão 1

Sejam “A” e “B” dois eventos distintos, e P(A) e P(B) as probabilidades com que eles ocorrem. O teorema de Bayes estabelece que P(A|B) = P(B|A).P(A)/P(B), em que P(A|B) é uma probabilidade condicional, ou seja, a probabilidade de que o evento A ocorra condicional na ocorrência prévia do evento B (e vice-versa para P(B|A)).

Questão 1(a)

Demonstre o teorema de Bayes partindo das identidades a seguir, em que P(A e B) é a probabilidade de ocorrência dos eventos A e B conjuntamente (ou simultaneamente):

(a) P(A e B) = P(A|B).P(B)

(b) P(A e B) = P(B|A).P(A)

Questão 1(b)

Assuma que “A” é o evento “participação em um programa de qualificação profissional” e “B” é o evento “contratação por uma empresa privada”. É sabido que: - A probabilidade de um trabalhador ser contratado condicional à participação prévia em um programa de qualificação profissional é de 20%, i.e., P(B|A) = 20%; - A proporção de trabalhadores contratados por empresas privadas nos últimos 12 meses é de 30%, i.e., P(B) = 30%; - A proporção de trabalhadores que participaram de um programa de qualificação profissional no passado recente é de 40%, i.e., P(A) = 40%. Assim sendo, calcule a probabilidade de um trabalhador participar de um programa de qualificação profissional dado que ele foi recentemente contratado por uma empresa privada. I.e., calcule P(A|B).

Dados: - \(P(B|A)=0.2\) - \(P(B)=0.3\) - \(P(A)=0.4\)

Aplicando Bayes: [P(A|B)==0.2667]

Logo, a probabilidade é aproximadamente 26,67%.

Questão 2

(Questão 2(a)

[V[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2]

(Q.2.b)

[cov(X,Y)=E[(X-E[X])(Y-E[Y])] = E[XY]-E[X]E[Y]]

(Q.2.c)

[V[X+Y]=V[X]+V[Y]+2cov(X,Y)]

(Q.2.d)

[E[(X-X)|X]=0]

(Q.2.e)

[(x_i-x)(y_i-y)=(x_i-x)y_i]

Questão 3

O governo do Estado de São Paulo implementou um programa de qualificação para trabalhadores vítimas de desemprego tecnológico no setor rural. Um exemplo é o da introdução de máquinas colheitadeiras em substituição à colheita manual em plantios de cana-de-açúcar. Você foi contratado para determinar se os trabalhadores que passaram por este programa de qualificação tiveram sua remuneração aumentada significativamente. O indicador de impacto do programa, calculado para cada trabalhador, é a diferença de remuneração antes e depois do treinamento, sendo representado por Wi, i=1,…,N. Este se distribui normalmente com Wi~ N(μ, σ2), i=1,…,N. É tomada uma amostra de N = 100 trabalhadores e obtida a estimativa pontual para o valor populacional do impacto médio, μ. O valor da estimativa pontual é de 𝑊̅ = 𝑁−1 ∑𝑁 𝑖=1 𝑊𝑖 = 100, o desvio padrão estimado, 𝑠 = √𝑁−1 ∑𝑁 𝑖=1(𝑊𝑖 − 𝑊̅ )2 = 640. Neste caso, o valor populacional do desvio padrão é desconhecido e, portanto, a estatística do teste é T = 𝑊̅ −𝜇0 𝑠/√𝑁 ~𝑡𝑁−1, uma VA com distribuição t de Student com N-1 graus de liberdade. O símbolo μ0 representa o valor da média populacional de Wi definido pela hipótese nula. Como de praxe, μ0 = 0.

[T==1.5625]

Dados: - \(N=100\) - \(\bar W=100\) - \(s=640\) - \(\mu_0=0\)

Questão 3(a)

Obtenha os valores críticos para o teste de hipóteses bicaudal. Para isso você pode utilizar a tabela da distribuição t de Student ao final dos livros-texto, a função “qt()” do R ou a função “DIST.T” do Excel (ver apêndice ao final).

A Resposta da Questão 3(a)

qt(0.975, df=99)
[1] 1.984217

Questão 3(b)

Obtenha o p-valor do teste (o que pode ser feito com base nas tabelas de função de distribuição de probabilidade em apêndices de livros-texto, utilizando a função pt() do R ou a função “DIST.NORM.N” do Excel)

A Resposta da Questão 3(b)

2*(1-pt(1.5625, df=99))
[1] 0.1213613

Questão 3(c)

Qual é o resultado do teste? Explique com detalhe se, com base nos resultados dos itens anteriores e na estimativa pontual, é possível concluir acerca da existência de um impacto relevante ou não do programa de qualificação.

Resposta da Questão 3(c)

O teste não rejeita \(H_0\) a 5%.

Questão 4

O governo federal procura medir o impacto de tarifas impostas sobre importações brasileiras por países estrangeiros importadores. Para isso obteve, com base em dados referentes a tarifas enfrentadas pelo Brasil e por outros países estrangeiros, uma medida de efeito de tarifas. Esta medida corresponde à diferença do Produto Interno Bruto (PIB) antes e depois da imposição de uma nova tarifa por um importador. Esta medida se distribui normalmente com Wi~ N(μ, σ2), i=1,…,N. A amostra contém 49 países. O valor da estimativa pontual é 𝑊̅ = 𝑁−1 ∑𝑁 𝑖=1 𝑊𝑖 = - R$ 5 bilhões (cinco bilhões negativos) e o desvio padrão estimado,

\[\begin{equation} s_W = \sqrt{\frac{\sum\limits_{i=1}^{N} (W_i - \bar{W})^2}{N-1}} = \text{R\$ } 2,\!5 \text{ bilhões} \end{equation}\]

A estatística do teste é T = 𝑊̅ −𝜇0 𝑠/√𝑁 ~𝑡𝑁−1, uma variável aleatória com distribuição t de Student com N-1 graus de liberdade. O símbolo μ0 representa o valor da média populacional de Wi definido pela hipótese nula; no caso, μ0 = 0.

Dados: - \(N=49\) - \(\bar W=-5\) - \(s=2.5\)

Questão 4(a)

Obtenha o intervalo com 95% de confiança para o valor populacional do efeito das tarifas.

A Resposta da Questão 4(a)

erro <- 2.5/sqrt(49)
crit <- qt(0.975, df=48)
c(-5-crit*erro, -5+crit*erro)
[1] -5.718084 -4.281916

Questão 4(b)

Obtenha o p-valor do teste de hipóteses de que o impacto das tarifas é nulo (o que pode ser feito com base em tabelas de livros-texto ou utilizando a função pt() do R ou DIST.T do Excel)

A Resposta da Questão 4(b)

Questão 4(c)

Qual é o resultado do teste? Explique com detalhe como, com base nos resultados dos itens anteriores e na estimativa pontual, é possível concluir acerca da existência de um impacto relevante ou não na economia brasileira devido à tarifação de exportações por países importadores.

A Resposta da Questão 4(c)

Questão 5

A distribuição F de Snedecor será utilizada nesta disciplina. Ela já foi vista em Introdução à Inferência Estatística, em testes de razão de variância. Para recordar, realize o teste descrito a seguir.

Questão 5(a)

O volume de chuvas durante o mês de Janeiro foi medido (em milímetros por hora) em dez estações meteorológicas localizadas no estado de São Paulo, em uma determinada hora de um determinado dia, em um ano particularmente chuvoso. Tais medições foram: [12.76, 26.17, 32.17, 41.68, 0, 39.63, 0.38, 12.9, 0, 3.66].

Resposta da Questão 5(a)

# Os dados da chuva em São Paulo e Rio de Janeiro estão em milímetros por hora.
sp_jan <- c(12.76, 26.17, 32.17, 41.68, 0, 39.63, 0.38, 12.9, 0, 3.66)
sp_jan
 [1] 12.76 26.17 32.17 41.68  0.00 39.63  0.38 12.90  0.00  3.66
var(sp_jan)
[1] 278.0403

Questão 5(b)

O mesmo programa coletou, também em Janeiro, medições (em milímetros por hora) para o estado do Rio de Janeiro, para a mesma hora, para o mesmo dia e para o mesmo ano. Os resultados foram: [36.79, 15.72, 29.81, 0, 24.47, 20.65, 8.43, 15.96, 23.26, 13. 72].

A Resposta da Questão 5(b)

# Os dados da chuva em São Paulo e Rio de Janeiro estão em milímetros por hora.

rj_jan <- c(36.79, 15.72, 29.81, 0, 24.47, 20.65, 8.43, 15.96, 23.26, 13.72)
rj_jan
 [1] 36.79 15.72 29.81  0.00 24.47 20.65  8.43 15.96 23.26 13.72
var(rj_jan)
[1] 111.6214

Questão 5(c)

Considerando as medições selecionadas, é possível afirmar que os estados de São Paulo e Rio de Janeiro têm apresentado o mesmo grau de volatilidade (variância) de chuvas no mês de Janeiro? Para responder, aplique um teste de razão de variâncias nos dados fornecidos anteriormente. Para isso, é preciso utilizar a distribuição F de Snedecor. Assuma um nível de significância de 5%.

A Resposta da Questão 5(c)

# cálculo da variância
calculo_da_variancia = var(sp_jan) / var(rj_jan)
calculo_da_variancia
[1] 2.490922
# Teste de razão das variâncias
resultado_do_teste <- var.test(sp_jan, rj_jan, ratio = 1, alternative = "two.sided", conf.level = 0.95)

resultado_do_teste

    F test to compare two variances

data:  sp_jan and rj_jan
F = 2.4909, num df = 9, denom df = 9, p-value = 0.1902
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
  0.6187098 10.0284371
sample estimates:
ratio of variances 
          2.490922 

Podemos concluir que o testa não rejeita a hipótese nula, então não podemos afirmar que os dados de chuva de São Paulo e do Rio de Janeiro não apresentam o mesmo grau de volatividade.

Questão 6

Considere duas variáveis aleatórias, observadas na escala municipal e para um determinado ano, sendo elas a receita tributária e o tamanho da população urbana.

# carregar os pacotes
if (!require("pacman")) {instal.pacakges("pacman")}
Loading required package: pacman
pacman::p_load(tidyverse, skimr, here, janitor)

# Base de dados
receita <- read_csv2("https://raw.githubusercontent.com/asantos-ufabc/econometria_I/refs/heads/main/ipeadata%5B10-02-2026-02-36%5D.csv",
        locale = locale(encoding = "UTF-8"), skip = 1) |>
        janitor::clean_names() |>
        select(sigla, codigo, municipio, x2022) |>
        rename(receita_corrente = x2022)
ℹ Using "','" as decimal and "'.'" as grouping mark. Use `read_delim()` for more control.
New names:
Rows: 1673 Columns: 5
── Column specification
──────────────────────────────────────────────────────── Delimiter: ";" chr
(2): Sigla, Município dbl (2): Código, 2022 lgl (1): ...5
ℹ Use `spec()` to retrieve the full column specification for this data. ℹ
Specify the column types or set `show_col_types = FALSE` to quiet this message.
• `` -> `...5`
populacao <- read_csv2("https://raw.githubusercontent.com/asantos-ufabc/econometria_I/refs/heads/main/ipeadata%5B10-02-2026-02-35%5D.csv",
        locale = locale(encoding = "UTF-8"), skip = 1) |>
        janitor::clean_names() |>
        select(sigla, codigo, municipio, x2022) |>
        rename(populacao = x2022)
ℹ Using "','" as decimal and "'.'" as grouping mark. Use `read_delim()` for more control.
New names:Rows: 1673 Columns: 5── Column specification ────────────────────────────────────────────────────────
Delimiter: ";"
chr (2): Sigla, Município
dbl (2): Código, 2022
lgl (1): ...5
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
IpeaData <- receita |>
        left_join(populacao, by = c("sigla", "codigo", "municipio")) |>
        filter(!is.na(receita_corrente))

glimpse(IpeaData)
Rows: 1,668
Columns: 5
$ sigla            <chr> "ES", "ES", "ES", "ES", "ES", "ES", "ES", "ES", "ES",…
$ codigo           <dbl> 3200102, 3200136, 3200169, 3200201, 3200300, 3200359,…
$ municipio        <chr> "Afonso Cláudio", "Águia Branca", "Água Doce do Norte…
$ receita_corrente <dbl> 135921212, 63225568, 62374426, 143248118, 89633008, 4…
$ populacao        <dbl> 16575, 3363, 7442, 22417, 6994, 4277, 24069, 5361, 82…

Questão 6(a)

Qual é a direção da relação entre as duas variáveis que você espera encontrar ao observar dados para elas? Responda explicando a relação em termos de diferença da média para cada variável (ou seja, quando uma das variáveis está acima da média, por que seria razoável esperar que a outra esteja acima ou abaixo da média)?

Resposta da Questão 6(a)

Uma relação positiva porque o munícipio que mais arrecada tem a maior população.

Questão 6(b)

O coeficiente de correlação de Pearson é uma medida da direção e intensidade da relação existente entre duas variáveis. Tal medida, a qual segue abaixo, tem como componentes básicos as diferenças em relação à média de cada variável.

\[r = \frac{1}{N} \sum_{i=1}^{N} \left( \frac{x_i - \overline{x}}{S_x} \right) \left( \frac{y_i - \overline{y}}{S_y} \right)\]

Em que \(\overline{x}\) é a média amostral e \[\begin{equation} S_x = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{x})^2} \end{equation}\]

(atenção: divisão por “N” e não por “N-1”), e analogamente para \(\overline{y}\) e \(S_y\).

Questão 6(c)

Utilizando um software (Excel ou R) calcule o coeficiente de correlação entre receita tributária e população urbana ao longo dos municípios da região Sudeste do Brasil. Para isso, você terá de coletar dados a partir da internet utilizando o procedimento a seguir.

A Resposta da Questão 6(c)

# Coeficiente de Pearson

# Base de dados
receita_corrente <- IpeaData[["receita_corrente"]]
populacao <- IpeaData[["populacao"]]

# Numerador: soma dos produtos dos desvios
numerador <- sum(
  (receita_corrente - mean(receita_corrente)) * (populacao - mean(populacao))
)
numerador
[1] 1.281245e+18
# Denominador: as soma dos quadrados dos desvios de x vezes a soma dos quadrados dos desvios de y
denominador <- sqrt(
  sum((receita_corrente - mean(receita_corrente))^2) *
    sum((populacao - mean(populacao))^2)
)
denominador
[1] 1.312118e+18
# Calcular o coeficiente de correlação de Pearson
r_pearson_calculo <- numerador / denominador
r_pearson_calculo
[1] 0.9764707

A Resposta da Questão 6(c)

# correlação de pearson
r_pearson_formula <- cor(IpeaData$receita_corrente, IpeaData$populacao)
r_pearson_formula
[1] 0.9764707