En este caso usare datos de busqueda de la palabra Hallowen desde 2002
setwd("~/R/ESTADISTICA")
library(readr)
hal<-read_csv("halloween.csv")
## Rows: 213 Columns: 1
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): 2
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
plot(hal)
## Warning in xy.coords(x, y, xlabel, ylabel, log): NAs introduced by coercion
Para tratar este vector numerico como una serie de tiempo, utilizaremos el comando ts(Time-Series Objects)
hal.ts<- ts(hal, start = c (2002, 1), frequency = 12 )
Hacemos una frecuencia de un ciclo de 12 meses, y empezamos desde el año 2002
print(hal.ts)
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2002 2 2 12 2 12 2 2 20 26 5 2 2
## 2003 2 2 2 1 2 1 2 30 23 6 2 1
## 2004 2 2 2 2 2 2 12 17 19 5 2 2
## 2005 2 2 2 2 2 2 12 17 19 6 12 12
## 2006 2 2 2 2 2 2 12 25 19 6 12 2
## 2007 2 2 12 2 2 12 15 25 22 5 16 15
## 2008 12 12 12 12 12 12 12 20 21 7 15 15
## 2009 12 12 2 2 2 12 12 25 23 9 16 16
## 2010 15 12 12 12 12 12 15 30 23 10 15 15
## 2011 12 12 2 2 12 12 12 25 24 14 15 12
## 2012 12 2 12 2 12 12 15 3 32 13 12 12
## 2013 12 2 2 2 2 12 15 5 4 11 15 12
## 2014 2 12 2 2 2 12 15 5 31 9 12 2
## 2015 2 2 2 2 2 12 15 3 28 10 12 2
## 2016 2 2 2 2 12 12 15 5 29 14 12 12
## 2017 2 2 12 12 12 12 15 6 24 9 12 12
## 2018 12 2 12 15 12 12 15 3 27 8 12 12
## 2019 12 12 2 12 12 12 16 6 18
Ahora tenemos una variable que es un objeto de tiempo en ciclos, se puede tener una grafica en la cual se ve los ciclos que se ve anual la busqueda en google la palabra halloween
plot(hal.ts)
Ahora haremos una comparacion anual de la busqueda de la palabra Halloween
boxplot(hal.ts ~ cycle(hal.ts))
Entendamos los ciclos del comportamineto de la busqueda anual de Halloween
cycle(hal.ts)
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2002 1 2 3 4 5 6 7 8 9 10 11 12
## 2003 1 2 3 4 5 6 7 8 9 10 11 12
## 2004 1 2 3 4 5 6 7 8 9 10 11 12
## 2005 1 2 3 4 5 6 7 8 9 10 11 12
## 2006 1 2 3 4 5 6 7 8 9 10 11 12
## 2007 1 2 3 4 5 6 7 8 9 10 11 12
## 2008 1 2 3 4 5 6 7 8 9 10 11 12
## 2009 1 2 3 4 5 6 7 8 9 10 11 12
## 2010 1 2 3 4 5 6 7 8 9 10 11 12
## 2011 1 2 3 4 5 6 7 8 9 10 11 12
## 2012 1 2 3 4 5 6 7 8 9 10 11 12
## 2013 1 2 3 4 5 6 7 8 9 10 11 12
## 2014 1 2 3 4 5 6 7 8 9 10 11 12
## 2015 1 2 3 4 5 6 7 8 9 10 11 12
## 2016 1 2 3 4 5 6 7 8 9 10 11 12
## 2017 1 2 3 4 5 6 7 8 9 10 11 12
## 2018 1 2 3 4 5 6 7 8 9 10 11 12
## 2019 1 2 3 4 5 6 7 8 9
Para que el metodo sea eficaz se requiere de un minimo de 5 años para comparar los datos.
hal.ts.desc<-decompose(hal.ts)
plot(hal.ts.desc, xlab="Year")
Con cada uno de los elementos anteriores se puede utilizar para un pronostico para predecir lo que puede pasar en el siguiente año, por lo que se ve en los datos, la busqueda de la palabra sube cuando llega el mes de octubre, en casi todos los años se ve que la busqueda de los datos es casi proporcional a los demas años
Transformamos nuestra seria en una logaritmica
plot (log(hal.ts))
De la siguiente forma eliminamos la tendencia de los datos
x<-log(hal.ts)
dif1.x<-diff(x)
plot(dif1.x)
dif2.dif1.x<-diff(dif1.x, lag = 12)
plot(dif2.dif1.x)
Transformamos el ciclo de la palabra buscada de manera que un modelo estacionario sea apropiado para la serie transformada.
El siguiente código se puede utilizar para representar el correlograma de la serie.
El correlograma es una representación gráfica de las autocorrelaciones ρ(k) , es decir, las correlaciones entre xt y xt+k en función de k
y=dif2.dif1.x
acf(y)
Siempre se tiene que ρ(0)=1. Las líneas discontinuas representan las bandas de confianza de ρ(k) de nivel 95% bajo la hipótesis de que la serie es un ruido blanco (incorrelada). En el ejemplo las autocorrelaciones más significativas son las correlaciones entre la observación de un mes y la del mes siguiente, y la observación de un mes con la del mismo mes del año siguiente.
Pude concluir que la palabra Halloween es muy buscada solo en el mes de octubre, esto se debe a la fiesta y tradicion que tienen unos y las busquedas se de cada año se parecen a los de los demas años.