Licença

This work is licensed under the Creative Commons Attribution-ShareAlike 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/4.0/ or send a letter to Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.

License: CC BY-SA 4.0

Citação

Sugestão de citação: FIGUEIREDO, Adriano Marcos Rodrigues. Séries Temporais: exercício Efeitos da Isenção de Impostos nas Taxas de Fertilidade. Campo Grande-MS,Brasil: RStudio/Rpubs, 2023. Disponível em http://www.rpubs.com/amrofi/ex_wooldridge_10_4_time_series.

1 Introdução

Faremos um exemplo para o Modelo de defasagens distribuídas finitas (DDF) (Finite distributed lag - FDL) = modelo dinâmico. Neste caso precisaremos usar o pacote dynlm invés do lm no R, para considerar adequadamente as variáveis defasadas no tempo. Utilizaremos o operador defasagem (lag no R base ou L no dynlm). Veja também o código em HEISS (2016 ,p.173-174 – cap.10.3 – Example-10-4.R).

Os primeiros passos são criar ou abrir um diretório de trabalho. Se optar por criar um novo projeto, haverá a possibilidade de criar em uma pasta vazia. Os dados básicos estão no pacote wooldridge, dataset fertil3.

Example 10.4 Effects of Personal exemption on fertility rates. The general fertility rate (gfr) is the number of children born to every 1,000 women of childbearing age. For the years 1913 through 1984, the equation, \[ gfr_t= \beta _0 + \beta _1 pe_t +\beta _2 ww2_t + \beta _3 pill_t + \mu _t ,\] explains gfr in terms of the average real dollar value of the personal tax exemption (pe) and two binary variables. The variable ww2 takes on the value unity during the years 1941 through 1945, when the United States was involved in World War II. The variable pill is unity from 1963 onward, when the birth control pill was made available for contraception. Using the data in FERTIL3, which were taken from the article by Whittington, Alm, and Peters (1990).


# exemplo 10.4 do livro do Wooldridge, Introdução a Econometria - 4ed, p.332-333
# dados basicos de: 
# Wooldridge Source: L.A. Whittington, J. Alm, and H.E. Peters (1990), 
# “Fertility and the Personal Exemption: Implicit Pronatalist Policy in
# the United States,” American Economic Review 80, 545-556.

# data.frame with 72 observations on 24 variables:
  
# gfr: births per 1000 women 15-44 
#      [tgf = taxa geral de fertilidade]
# pe: real value pers. exemption, $ 
#      [ip = valor real da taxa de isenção de impostos]
# year: 1913 to 1984   [ano]
# t: time trend, t=1,...,72   [tendencia]
# tsq: t^2    [tendencia ao quadrado]
# pill: =1 if year >= 1963    
#      [pilula anticoncepcional]
# ww2: =1, 1941 to 1945  [world war dummy]
# tcu: t^3    [tendencia cubica]
# cgfr: change in gfr: gfr - gfr_1    
#      [mudanca na tx de fertilidade]

2 Exemplo do modelo de defasagens distribuídas defasadas

Seja o exemplo 10.4 de Wooldridge (2017, p.395), para analisar os Efeitos da dedução de impostos nas taxas de fertilidade.

A taxa geral de fertilidade (sigla do inglês general fertility rate - gfr) é o número de crianças nascidas para cada 1.000 mulheres em idade fértil (15-44 anos) e pe é uma dedução de impostos pessoais (valor real em dólares).

Para os anos de 1913 a 1984, deseja-se investigar se a redução de impostos está relacionada com a maior taxa de fertilidade. As variáveis ww2 e pill são dummies binárias para 1 quando for, respectivamente, o período da Segunda Guerra Mundial (1941 to 1945) e o período após descoberta da pílula anticoncepcional, após 1963.

O dataset básico chamado fertil3 pode ser obtido no pacote wooldridge e contempla mais variáveis, mas no presente caso utilizaremos apenas gfr=f(pe,ww2,pill). O dataset já contempla as variáveis pe_{t-1} e pe_{t-2}, de nome pe_1 e pe_2. O leitor poderá verificar que a pe_1 está exatamente hum período atrasado de pe, e a pe_2 consequentemente dois períodos atrasados de pe:

library(dynlm)
library(stargazer)
data(fertil3, package = "wooldridge")
print(head(fertil3[1:10, c(1:3, 6:7)], n = 10L))
     gfr    pe year  pe_1  pe_2
1  124.7  0.00 1913    NA    NA
2  126.6  0.00 1914  0.00    NA
3  125.0  0.00 1915  0.00  0.00
4  123.4  0.00 1916  0.00  0.00
5  121.0 19.27 1917  0.00  0.00
6  119.8 23.94 1918 19.27  0.00
7  111.2 20.07 1919 23.94 19.27
8  117.9 15.33 1920 20.07 23.94
9  119.8 34.32 1921 15.33 20.07
10 111.2 36.65 1922 34.32 15.33

As mesmas séries podem ser obtidas pelo operador lag do pacote stats. Em uma regressão, a defasagem pode ser obtida pelo operador \(L\) do pacote dynlm, dentro da regressão. Comparemos para os primeiros 10 anos do dataset:

# Definir time series anual iniciando em 1913 até 1922
attach(fertil3)
fertil3.ts <- ts(fertil3[, 1:3], start = 1913)

Observe que pe começa a ser não nulo em 1917 e o valor de 1917 (igual a 19.27) aparecerá na linha de 1918 para pe1 e na linha de 1919 para pe2. Ou seja, quando t for 1919, pe em t-2 será igual a pe de 1917.

# fertil3.ts[,2] é a coluna de pe no objeto fertil3.ts
pe1 <- lag(fertil3.ts[, 2], -1)
pe2 <- lag(fertil3.ts[, 2], -2)
tabela <- cbind(fertil3.ts, pe1, pe2)
knitr::kable(tabela, caption = "Dados do objeto fertil3.ts")
Dados do objeto fertil3.ts
fertil3.ts.gfr fertil3.ts.pe fertil3.ts.year pe1 pe2
124.7 0.00 1913 NA NA
126.6 0.00 1914 0.00 NA
125.0 0.00 1915 0.00 0.00
123.4 0.00 1916 0.00 0.00
121.0 19.27 1917 0.00 0.00
119.8 23.94 1918 19.27 0.00
111.2 20.07 1919 23.94 19.27
117.9 15.33 1920 20.07 23.94
119.8 34.32 1921 15.33 20.07
111.2 36.65 1922 34.32 15.33
NA NA NA 36.65 34.32
NA NA NA NA 36.65

Portanto, matematicamente deseja-se estimar a expressão:

\[\begin{equation} gfr_t= \alpha _0 + \beta _0 pe_t +\beta _1 pe_{t-1} + \beta _2 pe_{t-2} + \beta _3 ww2_{t} + \beta _4 pill_{t} + \mu _t \end{equation}\]

O gráfico da variável dependente gfr (tgr - taxa geral de fertilidade) é:

forecast::autoplot(fertil3.ts[, 1], ylab = "Nascimentos por 1000 mulheres", xlab = "Ano")

Ou pelo ggplot2:

library(ggplot2)

ggplot(fertil3) + aes(x = year, y = gfr) + geom_line(size = 1L, colour = "#0c4c8a") +
    labs(x = "Ano", y = "Nascimentos por mil mulheres", title = "Gráfico da variável dependente gfr",
        subtitle = "tgr - taxa geral de fertilidade", caption = "Fonte: Elaboração própria") +
    ggthemes::theme_economist_white()

A regressão dinâmica então será

# Regressao Linear :
library(dynlm)
library(lmtest)
library(car)
library(stargazer)
reg1 <- dynlm(gfr ~ pe + L(pe) + L(pe, 2) + ww2 + pill, data = fertil3.ts)
summary(reg1)

Time series regression with "ts" data:
Start = 1915, End = 1984

Call:
dynlm(formula = gfr ~ pe + L(pe) + L(pe, 2) + ww2 + pill, data = fertil3.ts)

Residuals:
     Min       1Q   Median       3Q      Max 
-24.6461  -9.5409  -0.0312   8.3378  29.1295 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  95.87050    3.28196  29.211  < 2e-16 ***
pe            0.07267    0.12553   0.579   0.5647    
L(pe)        -0.00578    0.15566  -0.037   0.9705    
L(pe, 2)      0.03383    0.12626   0.268   0.7896    
ww2         -22.12650   10.73197  -2.062   0.0433 *  
pill        -31.30499    3.98156  -7.862 5.63e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 14.27 on 64 degrees of freedom
Multiple R-squared:  0.4986,    Adjusted R-squared:  0.4594 
F-statistic: 12.73 on 5 and 64 DF,  p-value: 1.353e-08
reg1$AIC <- AIC(reg1)  # Akaike
reg1$BIC <- BIC(reg1)  # Schwarz
stargazer(reg1, title = "Título: Resultado da Regressão OLS", align = TRUE, type = "text",
    style = "all", keep.stat = c("AIC", "BIC", "rsq", "adj.rsq", "n"))

Título: Resultado da Regressão OLS
===============================================
                        Dependent variable:    
                    ---------------------------
                                gfr            
-----------------------------------------------
pe                             0.073           
                              (0.126)          
                             t = 0.579         
                             p = 0.565         
L(pe)                         -0.006           
                              (0.156)          
                            t = -0.037         
                             p = 0.971         
L(pe, 2)                       0.034           
                              (0.126)          
                             t = 0.268         
                             p = 0.790         
ww2                          -22.126**         
                             (10.732)          
                            t = -2.062         
                             p = 0.044         
pill                        -31.305***         
                              (3.982)          
                            t = -7.862         
                             p = 0.000         
Constant                     95.870***         
                              (3.282)          
                            t = 29.211         
                             p = 0.000         
-----------------------------------------------
Observations                    70             
R2                             0.499           
Adjusted R2                    0.459           
Akaike Inf. Crit.             578.522          
Bayesian Inf. Crit.           594.261          
===============================================
Note:               *p<0.1; **p<0.05; ***p<0.01

A análise da significância dos coeficientes revela não significância dos termos de pe e suas defasagens (lags) em t-1 e t-2. É possível testar a não significância conjunta da variável pe (contemporânea e suas defasagens) fazendo uso de um teste tipo F para \(H_0: \beta _0 = \beta _1 = \beta _2 = 0\).

library(car)
car::linearHypothesis(reg1, matchCoefs(reg1, "pe"))

O valor de F = 3.973 e probabilidade de F (Pr(>F) = 0.01165) indica que se deve rejeitar a hipótese nula, e algum dos termos de pe é estatisticamente diferente de zero. Conforme Wooldridge (2017, p.395), efetivamente temos que os termos defasados são conjuntamente não-significativos com Pr(>F) = 0.948. Podemos conferir fazendo

library(car)
myH0 <- c("L(pe)", "L(pe, 2)")
car::linearHypothesis(reg1, myH0)

Ou seja, o melhor seria um modelo estático. Para fins ilustrativos, Wooldridge (2017, p.396) faz o cômputo do intervalo de confiança da propensão em longo prazo (PLP) do modelo, que indica o efeito cumulativo da mudança da variável independente sobre a dependente, e que será a soma dos coeficientes estimados dos períodos t e defasagens. Conforme Heiss (2016, p. 175), podemos obter o resultado diretamente dos coeficientes estimados pelo dynlm e refazer o teste linearHypothesis para avaliar se é estatisticamente diferente de zero. Assim, tem-se:

library(car)
# Cálculo da propensão em longo prazo (PLP) para o modelo DDF
b <- coef(reg1)
PLP = b["pe"] + b["L(pe)"] + b["L(pe, 2)"]
print(PLP)
       pe 
0.1007191 
myH0plp <- "pe+L(pe)+L(pe, 2)"
car::linearHypothesis(reg1, myH0plp)

Portanto, pode-se afirmar que a PLP é igual a 0.1007, significativa a 0.1% de significância. Conforme sugestão de Wooldridge (2017,p.396), podemos obter esta PLP e o desvio-padrão fazendo uma regressão alternativa (o leitor pode olhar a dedução no autor citado) e estimando a expressão de \(gfr_t\) em função de \(pe_t\), \((pe_{t-1}-pe_t)\), \((pe_{t-2}-pe_t)\), \(ww2_t\) e \(pill_t\).

Portanto,

\[\begin{equation} gfr_t = \alpha_0 + (\Theta_0-\delta_1-\delta_2)pe_t + \delta_1 (pe_{t-1}-pe_t)+ \delta_2 (pe_{t-2}-pe_t) + \delta_3 ww2_t + \delta_4 pill_t + \mu_t \end{equation}\]

reg2 <- dynlm(gfr ~ pe + I(L(pe) - pe) + I(L(pe, 2) - pe) + ww2 + pill, data = fertil3.ts)
summary(reg2)
Time series regression with "ts" data:
Start = 1915, End = 1984

Call:
dynlm(formula = gfr ~ pe + I(L(pe) - pe) + I(L(pe, 2) - pe) + 
    ww2 + pill, data = fertil3.ts)

Residuals:
     Min       1Q   Median       3Q      Max 
-24.6461  -9.5409  -0.0312   8.3378  29.1295 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)       95.87050    3.28196  29.211  < 2e-16 ***
pe                 0.10072    0.02980   3.380  0.00124 ** 
I(L(pe) - pe)     -0.00578    0.15566  -0.037  0.97050    
I(L(pe, 2) - pe)   0.03383    0.12626   0.268  0.78962    
ww2              -22.12650   10.73197  -2.062  0.04330 *  
pill             -31.30499    3.98156  -7.862 5.63e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 14.27 on 64 degrees of freedom
Multiple R-squared:  0.4986,    Adjusted R-squared:  0.4594 
F-statistic: 12.73 on 5 and 64 DF,  p-value: 1.353e-08

Ou seja, obtivemos o coeficiente da PLP = 0.1007, que será o coeficiente de pe na regressão alterada e o desvio-padrão estimado de 0.0298, cujo teste t indica pela significância a 0.1% (probabilidade Pr(>|t|) =0.00124), que foi exatamente o valor da probabilidade do teste F do chunk da PLP, anterior à regressão reg2. O intervalo de confiança desta estimativa será entre 0.041 e 0.160.

confint(reg2, "pe")
        2.5 %    97.5 %
pe 0.04118141 0.1602568

3 Referências

WOOLDRIDGE, J. Introdução à Econometria. São Paulo, SP : Cengage Learning, 2017. (ou 2006-2010, cap10)
HEISS, Florian. Using R for introductory econometrics. Dusseldorf, Florian Heiss, 2016. Disponível em: http://www.urfie.net/. Acesso em 24.02.2020.

HYNDMAN, Rob J.; ATHANASOPOULOS, George. Forecasting: principles and practice. 2nd Ed. OTexts: Melbourne, Australia. 2018. Disponível em: https://www.otexts.org/fpp2/. Acesso em 24.02.2020.

HYNDMAN, Rob J.; ATHANASOPOULOS, George. Forecasting: principles and practice. 3rd Ed. OTexts: Melbourne, Australia, 2021. Disponível em: https://otexts.com/fpp3/ Acesso em 25.03.2021.

SHEA J. wooldridge: 115 Data Sets from “Introductory Econometrics: A Modern Approach, 7e” by Jeffrey M. Wooldridge. R package version 1.4-2, 2021. https://CRAN.R-project.org/package=wooldridge.

