Analisi esplorativa dei dati

X = serie storica annuale delle unità (in milioni) di console domestiche Nintendo vendute

Dall’analisi grafica dei dati grezzi, possiamo vedere come le unità vendute hanno seguito un andamento altalenante negli anni: nel 1998 c’erano più di 10 milioni di unità vendute, ma questo numero è diminuito per tutto il periodo 1998-2006. È solo a partire dal 2007 che inizia una nuova tendenza positiva ed il numero di unità vendute ogni anno è costantemente superiore ai 10 milioni di unità fino al 2011, con un picco di oltre 25 milioni di unità vendute nel 2009.

Dopo il picco del 2009, a livello grafico vediamo che la serie ha seguito una tendenza negativa fino a toccare un plateau di meno di 4 milioni di unità vendute per 4 anni consecutivi (2014-2017) e ‘schizzare’ oltre le 15 milioni di unità vendute negli ultimi tre anni osservati (2018-2020).

È dunque ragionevole chiedersi se è successo qualcosa prima dell’inizio delle due tendenze positive, cioè prima del 2007 e prima del 2018, che giustifica un aumento così eccessivo del numero di consoles domestiche vendute.

Tabella dei principali indici di posizione, dispersione, asimmetria e curtosi. Test di normalità.

Data la tabella di cui sopra, non possiamo rifiutare l’ipotesi nulla: x ha distribuzione Normale.

Infatti, il test di Jarque-Bera confronta gli indici di asimmetria e di curtosi con quelli che si otterrebbero nel caso di dati normalmente distribuiti. In caso di normalità, abbiamo un’asimmetria nulla ed un indice di curtosi vicino a 3. In questo caso i dati esibiscono una leggera asimmetria positiva, cosa che si può evincere anche dall’istogramma e dal confronto dei valori di media (9.74 milioni) e mediana (6.8 milioni). Sebbene i dati non siano distribuiti in modo simmetrico, non c’è abbastanza evidenza empirica per rifiutare l’ipotesi nulla di normalità.

Dalle altre statistiche descrittive possiamo fare le seguenti considerazioni:

Su un totale di 23 anni osservati, nella metà degli anni abbiamo visto un numero di consoles domestiche vendute pari o inferiore a 6.82 milioni di unità.
Su un totale di 23 anni osservati, la media delle unità di consoles domestiche vendute è di 9.74 milioni con una deviazione standard pari a 6.98 milioni. Il coefficiente di variazione è quindi pari a circa 0.72 (valore utile se si vuole confrontare la variabilità del fenomeno, con quella di fenomeni espressi in unità di misura diverse).
I dati variano in un range di valori molto ampio: il massimo è pari a 25.95 milioni, il minimo è pari a 2.35 milioni e quindi il range è pari a 23.60 milioni.

Box-plot

Il box-plot è un grafico particolarmente utile per analizzare la dispersione dei dati e le principali misure di posizione (quantili e media), nonché per cercare di individuare ad occhio valori anomali (troppo estremi, cioè troppo elevati o troppo bassi). Le conclusioni di questo grafico sono identiche a quelle fatte sulla base della tabella delle statistiche descrittive, ma in questo caso sono desumibili a colpo d’occhio e la proporzione tra la scatola ed i baffi suggerisce subito un’alta dispersione (che prima abbiamo quantificato con il range e con il coefficiente di variazione).

Analisi dell’autocorrelazione

Correlogramma

Dall’analisi grafica dell’ACF e della PACF possiamo vedere come, oltre al primo ritardo, l’effetto di autocorrelazione nel tempo svanisce rapidamente. Questo ci farebbe pensare ad un modello \(AR(1)\) per la serie storica \(\{X_t\} \quad {t \in 1998,..,2020}\).

Purtroppo, però, l’analisi non è così semplice perché bisogna prima accertarsi che la serie storica non presenti radici unitarie. Questo viene svolto in letteratura con il test di Dickey-Fueller aumentato (test ADF), il cui output è riportato nella tabella seguente:

Test ADF

Non possiamo rifiutare con una confidenza del \(95 \%\) l’ipotesi nulla di radici unitarie: in altre parole, l’effetto marginale del lag di primo ordine di \(X\) è esattamente pari a \(1\) e per questo dobbiamo modellare la serie in differenze prime, \(DX_t = X_t - X_{t-1}\).

DX = differenza annuale delle unità (in milioni) di console domestiche Nintendo vendute

A questo punto, bisogna fare un nuovo test di radice unitaria; se non si può rifiutare l’ipotesi nulla, bisogna prendere la differenza di secondo ordine \(DX_t^2=X_t - X_t-2\). Fortunatamente, dall’output del test possiamo vedere che l’ipotesi nulla di radice unitaria è rifiutata con una probabilità di errore di primo tipo inferiore all’1%.

Test ADF

Identificazione e stima del modello: metodo di Box-Jenkins

Definiamo due variabili dummy ausiliarie \(D_1\) e \(D_2\), che rispettivamente si accendono durante gli anni in cui vengono vendute le due consoles più recenti di successo (Wii e Nintendo Switch).

Viene stimato il Modello ARIMAX(k, 1, 0) per diverse scelte di \(k\):

\[DX_t = X_t - X_{t-1} = \beta_0 + \beta_1X_{t-1} + \beta_2X_{t-2} + ... + \beta_kX_{t-k} + \gamma_1D_{1t} + \gamma_2D_{2t} + \epsilon\]

In tutti i casi, l’intercetta \(\beta_0\), il coefficiente \(\beta_1\) e tutti i ritardi di ordine pari o superiore a \(3\) non sono statisticamente significativi. Il miglior modello in termini di significatività statistica e bontà di adattamento (\(R^2\) aggiustato e \(AIC\)) si ha per \(k^\star=2\).

Si riporta a titolo esemplificativo l’output del modello stimato per \(k=3\), seguito dall’output del modello stimato per \(k^\star\).

Modello per k=3

Modello per k=2

Dall’output del modello di regressione temporale, possiamo vedere che non c’è un grosso problema di autocorrelazione degli errori (statistica Durbin Watson vicina a \(2\)), che la bontà di adattamento per la differenza di primo ordine \(DX\) è di circa il \(50 \%\) (dato non allarmante: interessa valutare la bontà di adattamento della serie \(X\)).

Interessante vedere come entrambe le ultime due consoles abbiano avuto un effetto medio positivo rispetto ai livelli medi di vendita pre-uscita della Wii.

La regressione stimata è quindi:

\[\widehat{X_t - X_{t-1}} = \widehat{DX} = -0.41 X_{t-2} + 5.30 D_{1t} + 8.67 D_{2t}\]

Visualizziamo nel grafico seguente il confronto tra: serie actual della differenza \(DX=X_t - X_{t-1}\), serie dei valori fitted e serie dei residui.

Confronto tra DX actual, DX fitted e residui

Per generare infine la serie dei valori previsti dal modello, sarà sufficiente sommare ai valori previsti per la differenza prima \(\widehat{DX}\) il livello della serie al passo precedente \(X_{t-1}\), come nell’equazione seguente:

\[\widehat{X_t} = X_{t-1} -0.41 X_{t-2} + 5.30 D_{1t} + 8.67 D_{2t}\]

Misure di performance:

\[R^2 = 1 - \frac{\sum_{t=2000}^{2020}{(x_t - \widehat{x_t})^2}}{\sum_{t=1998}^{2020}{x_t^2}} = 1 - \frac{\sum{e_t^2}}{\sum_{}^{}{x_t^2}} = 0.9335\] \[MAE = T^{-1} \sum_{t=1}^{T}{|e_t|} = 2.5425\]

\[RMSE = \sqrt{T^{-1}\sum_{t=1}^{T}{e_t^2}} = 3.2104 \]

Modello finale scelto con approccio Box-Jenkins: ARIMAX(2,1,0)

Confronto tra X actual e X fitted

Nintendo sales analysis

Valerio Ferdinando Calà

25/03/2021

Analisi esplorativa dei dati

Analisi dell’autocorrelazione

Identificazione e stima del modello: metodo di Box-Jenkins