Este primeiro laboratório tem o objetivo de analisar tres banco de dados, sendo um de séries temporais. Para esta análise utilizou-se os bancos de dados: varnish.dat
,guesswhat.dat
e globtemp.dat
. Os dados varnish.dat
e guesswhat.dat
por não se tratar de séries temporais, foi estudada a dispersão e correlação. Para o banco de dados globtemp.dat
, plotou-se gráficos de tempo dos dados observando a temperatura ao longo do tempo.
varnish.txt
.Observa-se que a que a variável X apresenta um crescimento, que talvez esteja relacionado a sua sequência numérica. De forma análoga para a variável Y, nota-se que diferente da variável X, não demonstra nenhum comportamento sequencial crescente.
## [1] -0.2528782
Através do gráfico e do coeficiente de correlação (Cor(X,Y) = -0.25), conclui-se que a relação entre X e Y não está bem definida e que a conexão linear entre as duas é fraca.
guesswhat.txt
.## The following objects are masked from varnish:
##
## x, y
## [1] 0.06457764
Observa-se um agrupamento dos dados, formando tres grupos com comportamentos distintos entre si. Porém não se pode afirmar que não há tendência. Também não é possível concluir que X e Y tenham o mesmo comportamento, apesar da semelhança.
Através do gráfico e do coeficiente de correlação, conclui-se que as variáveis X e Y praticamente não possuem relação linear. O coeficiente é próximo de 0, logo, o grau de associação linear é muito baixo.
globtemp.txt
##
## Call:
## lm(formula = inf ~ anos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.31231 -0.08627 0.00681 0.09064 0.36023
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -8.1870962 0.5323141 -15.38 <2e-16 ***
## anos 0.0041677 0.0002762 15.09 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1349 on 140 degrees of freedom
## Multiple R-squared: 0.6192, Adjusted R-squared: 0.6164
## F-statistic: 227.6 on 1 and 140 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = x ~ t)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.30352 -0.09671 0.01132 0.08289 0.33519
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.219e+01 9.032e-01 -13.49 <2e-16 ***
## t 6.209e-03 4.635e-04 13.40 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1298 on 96 degrees of freedom
## Multiple R-squared: 0.6515, Adjusted R-squared: 0.6479
## F-statistic: 179.5 on 1 and 96 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = y ~ tt)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.17557 -0.07987 -0.00706 0.06193 0.31489
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.129126 2.268986 -1.820 0.0759 .
## tt 0.002031 0.001208 1.681 0.1003
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1018 on 42 degrees of freedom
## Multiple R-squared: 0.06301, Adjusted R-squared: 0.0407
## F-statistic: 2.824 on 1 and 42 DF, p-value: 0.1003
No banco de dados em questão tem-se uma série, que compara a temperatura ao longo dos anos, variando entre os anos de 1856 a 1997. Pelo fato de ser uma série temporal pode-se separar os dados em anos para analisar tendências.
Avaliando a série no período de 1856 e 1899, Observa-se que seus valores estão delimitados em torno da reta, logo a série é estacionária.
Já quando se avalia no período de 1900 e 1997, nota-se uma tendência nos dados observados.
No gráfico ACF, é notório que entre os anos de 1900 e 1997 existe comportamento decrescente (lento) nas autocorrelações amostrais. Logo, pode-se concluir de fato que a série detem uma maior tendência.
Já nos anos de 1856 a 1899, nota-se que o valor das autocorrelações amostrais é nulo em grande parte dos lags, assumindo assim que não existe tendência. Devido esse comportamento distinto, pode-se associar a série a um ruído branco?