X = serie storica annuale delle unità (in milioni) di console domestiche Nintendo vendute
Dall’analisi grafica dei dati grezzi, possiamo vedere come le unità vendute hanno seguito un andamento altalenante negli anni: nel 1998 c’erano più di 10 milioni di unità vendute, ma questo numero è diminuito per tutto il periodo 1998-2006. È solo a partire dal 2007 che inizia una nuova tendenza positiva ed il numero di unità vendute ogni anno è costantemente superiore ai 10 milioni di unità fino al 2011, con un picco di oltre 25 milioni di unità vendute nel 2009.
Dopo il picco del 2009, a livello grafico vediamo che la serie ha seguito una tendenza negativa fino a toccare un plateau di meno di 4 milioni di unità vendute per 4 anni consecutivi (2014-2017) e ‘schizzare’ oltre le 15 milioni di unità vendute negli ultimi tre anni osservati (2018-2020).
È dunque ragionevole chiedersi se è successo qualcosa prima dell’inizio delle due tendenze positive, cioè prima del 2007 e prima del 2018, che giustifica un aumento così eccessivo del numero di consoles domestiche vendute.
Tabella dei principali indici di posizione, dispersione, asimmetria e curtosi. Test di normalità.
Data la tabella di cui sopra, non possiamo rifiutare l’ipotesi nulla: x ha distribuzione Normale.
Infatti, il test di Jarque-Bera confronta gli indici di asimmetria e di curtosi con quelli che si otterrebbero nel caso di dati normalmente distribuiti. In caso di normalità, abbiamo un’asimmetria nulla ed un indice di curtosi vicino a 3. In questo caso i dati esibiscono una leggera asimmetria positiva, cosa che si può evincere anche dall’istogramma e dal confronto dei valori di media (9.74 milioni) e mediana (6.8 milioni). Sebbene i dati non siano distribuiti in modo simmetrico, non c’è abbastanza evidenza empirica per rifiutare l’ipotesi nulla di normalità.
Dalle altre statistiche descrittive possiamo fare le seguenti considerazioni:
Su un totale di 23 anni osservati, nella metà degli anni abbiamo visto un numero di consoles domestiche vendute pari o inferiore a 6.82 milioni di unità.
Su un totale di 23 anni osservati, la media delle unità di consoles domestiche vendute è di 9.74 milioni con una deviazione standard pari a 6.98 milioni. Il coefficiente di variazione è quindi pari a circa 0.72 (valore utile se si vuole confrontare la variabilità del fenomeno, con quella di fenomeni espressi in unità di misura diverse).
I dati variano in un range di valori molto ampio: il massimo è pari a 25.95 milioni, il minimo è pari a 2.35 milioni e quindi il range è pari a 23.60 milioni.
Box-plot
Il box-plot è un grafico particolarmente utile per analizzare la dispersione dei dati e le principali misure di posizione (quantili e media), nonché per cercare di individuare ad occhio valori anomali (troppo estremi, cioè troppo elevati o troppo bassi). Le conclusioni di questo grafico sono identiche a quelle fatte sulla base della tabella delle statistiche descrittive, ma in questo caso sono desumibili a colpo d’occhio e la proporzione tra la scatola ed i baffi suggerisce subito un’alta dispersione (che prima abbiamo quantificato con il range e con il coefficiente di variazione).
Correlogramma
Dall’analisi grafica dell’ACF e della PACF possiamo vedere come, oltre al primo ritardo, l’effetto di autocorrelazione nel tempo svanisce rapidamente. Questo ci farebbe pensare ad un modello \(AR(1)\) per la serie storica \(\{X_t\} \quad {t \in 1998,..,2020}\).
Purtroppo, però, l’analisi non è così semplice perché bisogna prima accertarsi che la serie storica non presenti radici unitarie. Questo viene svolto in letteratura con il test di Dickey-Fueller aumentato (test ADF), il cui output è riportato nella tabella seguente:
Test ADF
Non possiamo rifiutare con una confidenza del \(95 \%\) l’ipotesi nulla di radici unitarie: in altre parole, l’effetto marginale del lag di primo ordine di \(X\) è esattamente pari a \(1\) e per questo dobbiamo modellare la serie in differenze prime, \(DX_t = X_t - X_{t-1}\).
DX = differenza annuale delle unità (in milioni) di console domestiche Nintendo vendute
A questo punto, bisogna fare un nuovo test di radice unitaria; se non si può rifiutare l’ipotesi nulla, bisogna prendere la differenza di secondo ordine \(DX_t^2=X_t - X_t-2\). Fortunatamente, dall’output del test possiamo vedere che l’ipotesi nulla di radice unitaria è rifiutata con una probabilità di errore di primo tipo inferiore all’1%.
Test ADF
Definiamo due variabili dummy ausiliarie \(D_1\) e \(D_2\), che rispettivamente si accendono durante gli anni in cui vengono vendute le due consoles più recenti di successo (Wii e Nintendo Switch).
Viene stimato il Modello ARIMAX(k, 1, 0) per diverse scelte di \(k\):
\[DX_t = X_t - X_{t-1} = \beta_0 + \beta_1X_{t-1} + \beta_2X_{t-2} + ... + \beta_kX_{t-k} + \gamma_1D_{1t} + \gamma_2D_{2t} + \epsilon\]
In tutti i casi, l’intercetta \(\beta_0\), il coefficiente \(\beta_1\) e tutti i ritardi di ordine pari o superiore a \(3\) non sono statisticamente significativi. Il miglior modello in termini di significatività statistica e bontà di adattamento (\(R^2\) aggiustato e \(AIC\)) si ha per \(k^\star=2\).
Si riporta a titolo esemplificativo l’output del modello stimato per \(k=3\), seguito dall’output del modello stimato per \(k^\star\).
Modello per k=3
Modello per k=2
Dall’output del modello di regressione temporale, possiamo vedere che non c’è un grosso problema di autocorrelazione degli errori (statistica Durbin Watson vicina a \(2\)), che la bontà di adattamento per la differenza di primo ordine \(DX\) è di circa il \(50 \%\) (dato non allarmante: interessa valutare la bontà di adattamento della serie \(X\)).
Interessante vedere come entrambe le ultime due consoles abbiano avuto un effetto medio positivo rispetto ai livelli medi di vendita pre-uscita della Wii.
La regressione stimata è quindi:
\[\widehat{X_t - X_{t-1}} = \widehat{DX} = -0.41 X_{t-2} + 5.30 D_{1t} + 8.67 D_{2t}\]
Visualizziamo nel grafico seguente il confronto tra: serie actual della differenza \(DX=X_t - X_{t-1}\), serie dei valori fitted e serie dei residui.
Confronto tra DX actual, DX fitted e residui
Per generare infine la serie dei valori previsti dal modello, sarà sufficiente sommare ai valori previsti per la differenza prima \(\widehat{DX}\) il livello della serie al passo precedente \(X_{t-1}\), come nell’equazione seguente:
\[\widehat{X_t} = X_{t-1} -0.41 X_{t-2} + 5.30 D_{1t} + 8.67 D_{2t}\]
Misure di performance:
\[R^2 = 1 - \frac{\sum_{t=2000}^{2020}{(x_t - \widehat{x_t})^2}}{\sum_{t=1998}^{2020}{x_t^2}} = 1 - \frac{\sum{e_t^2}}{\sum_{}^{}{x_t^2}} = 0.9335\] \[MAE = T^{-1} \sum_{t=1}^{T}{|e_t|} = 2.5425\]
\[RMSE = \sqrt{T^{-1}\sum_{t=1}^{T}{e_t^2}} = 3.2104 \]
Modello finale scelto con approccio Box-Jenkins: ARIMAX(2,1,0)
Confronto tra X actual e X fitted