Introdução

O gasto com educação pública deve ser sempre bem observado para o bem da nação. É preciso sempre validar falas de políticos e também propor melhores soluções baseado em evidências estatísticas para tais medidas. Nos EUA, em especial, os impostos utilizados são fortemente influenciados pela sua localidade, no sentido de que impostos municipais e estaduais são utilizados em suas respectivas localizações, diferente do Brasil onde há um repasse muito grande para a União Federal. É importante, portanto, para entender os gastos com educação entender a relação com a quantidade de dinheiro disponível através de arrecadação para tal investimento.

Nosso estudo será dado pelo quantidade per capita de gasto em eduação pública projetada para 1975 de cada estado americano. Para cada observação, ou estado, teremos 4 características. Eis as nossas variáveis explicativas e, no final, nossa variável resposta:

  1. Region: Noroeste, norte central, sudeste e oeste.
  2. X1: número de residentes (em milhares) residindo em áreas urbanas em 1970.
  3. X2: renda per capita em 1973
  4. X3: número de residentes (em milhares) abaixo de 18 anos em 1974.
  5. Y: Gasto per capital projetado para 1975.

50 observações no total.

Metodologia

Iremos modelar a média do valor de venda do diamante em relação as demais variáveis através de regressão linear múltipla. Utilizaremos também várias técnicas estatísticas para em caso de quebra de alguma suposição ainda conseguirmos modelar.

AED

Vamos conhecer um pouco da estrutura dos nossos dados.

Vemos uma relação mais linear em relação as variáveis X1 e X2. É o que esperávamos, quanto maior a quantidade de habitantes e quanto maior a quantidade da renda, maior será os impostos e maior será o gasto. Porém, X3 não funciona da mesma maneira.

Há fatores como crianças não estarem na escola, escolas privadas existentes na região, levar em contas crianças que fazem homeschooling, etc.

Deixemos os nossos dados nos dizerem como serão essa relação com nossa variável resposta.

Modelagem

Usando regressão linear múltipla obtemos os seguintes sumário:

## 
## Call:
## lm(formula = Y ~ ., data = dt)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -77.963 -25.499  -2.214  17.618  89.106 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -451.67542  139.53852  -3.237 0.002329 ** 
## Region2      -15.72741   18.16260  -0.866 0.391338    
## Region3       -8.63998   18.53938  -0.466 0.643543    
## Region4       18.59675   19.68837   0.945 0.350163    
## X1            -0.03456    0.05319  -0.650 0.519325    
## X2             0.07204    0.01305   5.520 1.82e-06 ***
## X3             1.30146    0.35717   3.644 0.000719 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 39.88 on 43 degrees of freedom
## Multiple R-squared:  0.6292, Adjusted R-squared:  0.5774 
## F-statistic: 12.16 on 6 and 43 DF,  p-value: 6.025e-08

Notamos, primeiramente, que a nossa regressão passsou no teste F, onde testamos se todos os nossos parâmetros eram 0, ou seja, ela foi significante. Depois, percebmos que temos um R2 talvez considerado mediano, porém em nada baixíssimo. Em geral, nossa regressão parece ter sido bem ajustada, iremos para a análise e discussão sobre os coeficientes de cada variável.

Notamos, primeiramente, que nenhum dos parâmetros em relação as regiões foi estatisticamente significante, não passaram no teste marginal ou teste t. Entendemos assim que a região onde o estado americano se encontra pouco afeta. Temos uma conclusão semelhante em relação a quantidada de crianças no estado, o que é surpreedente, um pouco. O gasto com educação pública está mais relacionado com a quantidade de impostos do que com a quantidade de crianças. Ao mesmo tempo, faz sentido isto. A educação só irá aumentar a sua qualidade com menos crianças, porém não irá diminuir os seus gastos.

Antes de tentarmos reajustar nosso modelo desconsiderando as variáveis que foram estatiscamente insignificantes, passemos para uma análise de diagnóstico do nosso modelo.

Diagnóstico

Faremos a checkagem se as suposições do nosso modelo estão corretas e além disto, iremos investigar potenciais outliers, etc.

## Gaussian model (lm object)

As suposições de normalidade foram atendidas aparentemente, façamos o teste de Bera-Jarque para normalidade com bootstrap para confirmação.

## 2.122082  Estatística de BJ
## 0.611  P-Valor

Iremos comparar também com o teste sem bootstrap.

## 
##  Jarque Bera Test
## 
## data:  .
## X-squared = 1.4887, df = 2, p-value = 0.4751

Olhemos agora para se há algum outlier presente nos dados. Inicialmente, vejamos a distância de Cook, que nos indica outliers influentes, ou seja, que realmente puxam a reta da regressão para eles.

##    Region  X1   X2  X3   Y
## 50      4 484 5613 386 546

Este é o Havaí (índice 50). De fato, o Havaí é bastante peculiar, dado que ele é uma ilha com poucas pessoas porém com uma renda per capital altíssima dados alguns ricos que moram lá, influenciando assim nossa reta.

Vemos que temos somente um ponto de alavanca, o qual também é o Havaí, pela sua renda per capita.

Nos atentemos agora para possíveis erros de autocorrelação, talvez com alguma correlação espacial na entrada dos dados. Iremos confirmar através do teste estatístico de Durbin-Watson. Vemos que não há autocorrelação ao nível de significância de 5%.

## 
##  Durbin-Watson test
## 
## data:  fit
## DW = 2.1258, p-value = 0.4373
## alternative hypothesis: true autocorrelation is greater than 0

Olhemos para uma possível multicolineariedade entre os dados, especialmente a questão de renda per capita e quantidade de habitantes, na qual vemos que há uma boa correlação entre elas.

##            GVIF Df GVIF^(1/(2*Df))
## Region 1.926754  3        1.115504
## X1     1.833392  1        1.354028
## X2     2.180276  1        1.476576
## X3     1.483102  1        1.217827

Vemos que não há multicolineariedade, pois nenhum dos VIF’s (Fatores de Inflação de Variância) está acima de 5.

Finalmente, notemos se há alguma heterocedasticidade em nossos dados. Utilizaremos Goldfeld-Quandt (organizando por renda per capita e omitindo 10% das observações), Breusch-Pagan e Koenker.

## 
##  Goldfeld-Quandt test
## 
## data:  fit
## GQ = 4.7557, df1 = 16, df2 = 15, p-value = 0.00212
## alternative hypothesis: variance increases from segment 1 to 2
## 
##  studentized Breusch-Pagan test
## 
## data:  fit
## BP = 17.921, df = 6, p-value = 0.006432
## 
##  Breusch-Pagan test
## 
## data:  fit
## BP = 18.278, df = 6, p-value = 0.005573

Em nossos dois testes, rejeitamos a hipótese nula de homocedasticidade, de igualdade de variâncias. Precisamos contornar isto, pois as consequências de heterocedasticidade são:

  1. Teorema de Gauss-Markov não é mais válido.
  2. As variâncias de beta não são mais as mesmas, são maiores.

Embora nosso estimador ainda seja consistente, ass. normal e não-viesado.

Re-modelagem

Utilizaremos uma correção para o erro-padrão dos betas. ‘HC3’, inicialmente.

##  (Intercept)      Region2      Region3      Region4           X1 
## 299.23909136  25.30778221  16.18055612  20.40158656   0.09184368 
##           X2           X3 
##   0.02999882   0.68829667
##  (Intercept)      Region2      Region3      Region4           X1 
## 139.53851929  18.16259519  18.53938287  19.68836721   0.05318811 
##           X2           X3 
##   0.01305066   0.35716636

Vemos que as variâncias são realmente consideralvemente maiores! Refaçamos os nossos testes marginais. Não só usando HC0, HC3 e HC4. Nesta ordem.

## 
## t test of coefficients:
## 
##                Estimate  Std. Error t value  Pr(>|t|)    
## (Intercept) -451.675421  165.991589 -2.7211  0.009355 ** 
## Region2      -15.727405   20.488148 -0.7676  0.446899    
## Region3       -8.639982   13.447884 -0.6425  0.523973    
## Region4       18.596751   17.412931  1.0680  0.291486    
## X1            -0.034558    0.054145 -0.6382  0.526703    
## X2             0.072036    0.016638  4.3296 8.773e-05 ***
## X3             1.301458    0.387743  3.3565  0.001659 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## t test of coefficients:
## 
##                Estimate  Std. Error t value Pr(>|t|)  
## (Intercept) -451.675421  299.239091 -1.5094  0.13851  
## Region2      -15.727405   25.307782 -0.6214  0.53759  
## Region3       -8.639982   16.180556 -0.5340  0.59611  
## Region4       18.596751   20.401587  0.9115  0.36710  
## X1            -0.034558    0.091844 -0.3763  0.70857  
## X2             0.072036    0.029999  2.4013  0.02073 *
## X3             1.301458    0.688297  1.8908  0.06540 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## t test of coefficients:
## 
##                Estimate  Std. Error t value Pr(>|t|)
## (Intercept) -451.675421  479.548169 -0.9419   0.3515
## Region2      -15.727405   28.465725 -0.5525   0.5835
## Region3       -8.639982   15.960934 -0.5413   0.5911
## Region4       18.596751   19.067581  0.9753   0.3349
## X1            -0.034558    0.142305 -0.2428   0.8093
## X2             0.072036    0.048046  1.4993   0.1411
## X3             1.301458    1.094180  1.1894   0.2408

Assim, vemos que somente o nossos regressores X2 e X3 são estasticiamente significantes ao nível de 10% de significância, e somente X2 ao nível de 5%, utilizando HC0.

Podemos também utilizar o estimador de mínimos quadrados generalizados viável (ou estimado). Utilizamos os regressores elevados a potência Embora, ele seja não linear.

## Generalized least squares fit by REML
##   Model: Y ~ . 
##   Data: dt 
##        AIC     BIC    logLik
##   491.0212 506.872 -236.5106
## 
## Variance function:
##  Structure: Power of variance covariate
##  Formula: ~fitted(.) 
##  Parameter estimates:
##    power 
## 3.337357 
## 
## Coefficients:
##                  Value Std.Error   t-value p-value
## (Intercept) -201.12248 115.15943 -1.746470  0.0879
## Region2      -15.80596  14.72962 -1.073073  0.2892
## Region3      -14.59713  12.91507 -1.130240  0.2646
## Region4       26.81359  18.84705  1.422694  0.1620
## X1             0.00640   0.03887  0.164728  0.8699
## X2             0.05743   0.01376  4.172993  0.0001
## X3             0.65727   0.25565  2.570990  0.0137
## 
##  Correlation: 
##         (Intr) Regin2 Regin3 Regin4 X1     X2    
## Region2  0.207                                   
## Region3 -0.315  0.483                            
## Region4  0.203  0.457  0.475                     
## X1       0.213  0.116 -0.247 -0.169              
## X2      -0.718 -0.281  0.427 -0.034 -0.644       
## X3      -0.922 -0.209  0.084 -0.290 -0.093  0.441
## 
## Standardized residuals:
##        Min         Q1        Med         Q3        Max 
## -1.8664497 -0.6366911 -0.1326408  0.4781696  2.5694538 
## 
## Residual standard error: 2.229168e-07 
## Degrees of freedom: 50 total; 43 residual

Chegamos praticamente as mesmas conclusões de que X2 e X3 são estatisticamente significantes.