Introdução

O presente documento é resultado da análise exploratória das ações do Ministério do Turismo, de 2004 a 2019, que foi feita tendo como objetivo a seleção de variáveis - e retirada de casos outliers -, para melhor encaixar o modelo de regressão linear múltipla anteriormente pensado.

Disposição das análises e estrutura do documento

As análises serão feitas de maneira separada para dois cenários:

  1. Utilizando a totalidade dos casos, sem retiradas de outliers (N = 77)
  2. Trabalhando com o quartil <75 da variável dependente (N = 58)

Para cada um deles teremos:

  1. O banco de dados completo;
  2. A distribuição dos quartis da VD e das Vi’s;
  3. Uma matriz de histogramas da VD e das Vi’s, como representação visual da dispersão dos dados;
  4. Uma matriz de correlações com os diagramas de dispersão entre a VD e as Vi’s;
  5. Um modelo de regressão linear múltiplo;
  6. Uma sessão de conclusões.

Cenário 1: N = 77, outliers mantidos.

Banco de dados:

Distribuição dos quartis, VD e Vi’s

Dicionário:

VD: Eficácia global das ações do MTur

V1: Média da participação das ações no orçamento do MTur

V2: Média da variação anual de recursos aportados para as ações do MTur

V3: Contingenciamento do volume de recursos disponíveis para a ação

V4: Percentual dos recursos de emendas parlamentares nas ações

V5: Percentual de recursos de execução direta

Distribuição de quartis das variáveis dependente e independentes
Variável Média Desvio padrão Q0 Q25 Q50 Q75 Q100
V1 3.44% 12.0% 0% 0.0% 0.00% 1.0% 68%
V2 73.17% 251.3% -75% -21.2% -0.50% 48.5% 1 471%
V3 106.07% 28.3% 71% 100.0% 100.00% 100.8% 277%
V4 3.73% 9.9% 0% 0.0% 0.00% 0.0% 46%
V5 33.66% 35.6% 0% 3.0% 20.00% 56.0% 136%
VD 194.45% 480.6% 0% 9.0% 55.00% 169.0% 2 828%
Fonte: EDA - MTur

Histogramas da VD e das Vi’s

Correlograma da VD e das Vi’s

Modelo de regressão linear múltiplo

## 
## Call:
## lm(formula = VD ~ V1 + V2 + V3 + V4 + V5, data = corrvector)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11.8644  -1.1694  -0.6048   0.3474  23.9350 
## 
## Coefficients:
##             Estimate Std. Error t value    Pr(>|t|)    
## (Intercept)   1.7543     1.9374   0.905       0.369    
## V1           -1.6402     4.3254  -0.379       0.706    
## V2            1.1637     0.1981   5.874 0.000000159 ***
## V3           -0.4639     1.7495  -0.265       0.792    
## V4           -2.9621     5.2059  -0.569       0.571    
## V5            0.1259     1.4298   0.088       0.930    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.116 on 65 degrees of freedom
##   (6 observations deleted due to missingness)
## Multiple R-squared:  0.3617, Adjusted R-squared:  0.3126 
## F-statistic: 7.367 on 5 and 65 DF,  p-value: 0.00001597

Cenário 2: variável dependente (<75%), N = 58

Banco de dados:

Distribuição dos quartis, VD e Vi’s

Dicionário:

VD: Eficácia global das ações do MTur

V1: Média da participação das ações no orçamento do MTur

V2: Média da variação anual de recursos aportados para as ações do MTur

V3: Contingenciamento do volume de recursos disponíveis para a ação

V4: Percentual dos recursos de emendas parlamentares nas ações

V5: Percentual de recursos de execução direta

Distribuição de quartis das variáveis dependente e independentes
Variável Média Desvio padrão Q0 Q25 Q50 Q75 Q100
V1 3.1% 10.84% 0% 0.0% 0.0% 1.0% 66%
V2 20.4% 114.26% -75% -25.2% -10.0% 21.0% 596%
V3 103.7% 22.02% 71% 100.0% 100.0% 100.0% 200%
V4 5.0% 11.21% 0% 0.0% 0.0% 0.0% 46%
V5 35.7% 38.87% 0% 2.0% 18.5% 67.8% 136%
VD 42.1% 46.39% 0% 3.2% 22.0% 71.2% 169%
Fonte: EDA - MTur

Histogramas da VD e das Vi’s

Correlograma da VD e das Vi’s

Modelo de regressão linear múltiplo

## 
## Call:
## lm(formula = VD ~ V1 + V2 + V3 + V4 + V5, data = corrvector_no_outliers)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.80153 -0.29343 -0.07787  0.29447  1.18933 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)  0.19990    0.36559   0.547    0.589
## V1          -0.62529    0.98163  -0.637    0.529
## V2          -0.17696    0.12239  -1.446    0.159
## V3           0.09817    0.34376   0.286    0.777
## V4           0.29189    0.75202   0.388    0.701
## V5           0.40030    0.24822   1.613    0.118
## 
## Residual standard error: 0.5064 on 29 degrees of freedom
##   (23 observations deleted due to missingness)
## Multiple R-squared:  0.1543, Adjusted R-squared:  0.008467 
## F-statistic: 1.058 on 5 and 29 DF,  p-value: 0.4035

Correlações individuais alterando os limites

Nesta seção, manipulei os dados de maneira que conseguisse excluir a maior quantidade possível de outliers da variável depende e independente, de maneira conjunta, buscando o maior nível de associação possível. A variável dependente é <1.69 (recorte do cenário 2) para todos os diagramas de dispersão abaixo.

Cenário 3: V4 e V5 no recorte significante

## 
## Call:
## lm(formula = VD ~ V4 + V5, data = vetor_cenario3)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.60527 -0.25372 -0.02215  0.24473  0.77578 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   0.3428     0.1280   2.679   0.0119 *
## V4           -0.8522     0.5858  -1.455   0.1561  
## V5            0.2919     0.1875   1.557   0.1299  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3916 on 30 degrees of freedom
##   (23 observations deleted due to missingness)
## Multiple R-squared:  0.1914, Adjusted R-squared:  0.1375 
## F-statistic:  3.55 on 2 and 30 DF,  p-value: 0.04132

Conclusões

  1. Preliminarmente, o cenário 2 é o melhor, pois ao controlar a variação da VD também reduzimos um pouco a variação das Vi’s.
  2. Há uma correlação estatisticamente significante de 0.3 entre a VD e a V5 (Percentual de execução direta).
  3. Em geral, confirmamos mais uma vez a dispersão elevada e falta de padrão nos dados.