Soit \(Y\) le nombre de tués sur la route en France : on dispose de \(n=20\) observations.
On rappelle que la tendance est une fonction affine : \[ T_t = a + bt \] Il nous faut alors déterminer a et b par régression linéaire : on note \[S(a,b) =\sum_{t=1}^{20}(Y_t - (a+bt))^2\]
Regréssion linéaire pour retomber sur ses pattes manuellement
##
## Call:
## lm(formula = X ~ t)
##
## Coefficients:
## (Intercept) t
## 349.158 -8.872
Ainsi il faut résoudre le système nul des dérivées premières : \[ \left \{ \begin{array}{c @{=} c} \frac {\delta S_{a,b} }{\delta a} (a,b) = 0 \\ \frac {\delta S_{a,b} }{\delta b} (a,b) = 0 \\ \end{array} \right. \]
On doit alors résoudre le système suivant :
\[ \left \{ \begin{array}{c @{=} c} 20a + (\sum_{t=1}^{20} t)b = \sum_{t=1}^{20}Y_t \\ (\sum_{t=1}^{20}t)a + (\sum_{t=1}^{20}t^2)b = \sum_{t=1}^{20} tY_t \end{array} \right. \] Equivalent à :
\[ \left(\begin{array}{cc} 20 & \sum_{t=1}^{20} t\\ \sum_{t=1}^{20}t & \sum_{t=1}^{20}t^2 \end{array}\right) \left(\begin{array}{cc} a\\ b \end{array}\right) = \left(\begin{array}{cc} \sum_{t=1}^{20}Y_t\\ \sum_{t=1}^{20} tY_t \end{array}\right) \] De plus on a : \[ \left(\begin{array}{cc} 20 & \sum_{t=1}^{20} t\\ \sum_{t=1}^{20}t & \sum_{t=1}^{20}t^2 \end{array}\right) = \left(\begin{array}{cc} 20 & 210\\ 210 & 2870 \end{array}\right)\]et\[ \left(\begin{array}{cc} \sum_{t=1}^{20}Y_t\\ \sum_{t=1}^{20} tY_t \end{array}\right) = \left(\begin{array}{cc} 5120\\ 47860 \end{array}\right) \] Ainsi, après résolution du système (merci R) nous avons :
## [1] 349.15789 -8.87218
qui représente alors l’ordonnée à l’origine ainsi que le coefficient directeur. On retombe sur le même résultat que nous avions obtenu avec lm, témoignant de la validité de la démarche.
Rappel : on propose la décomposition \(Y_t = T_t + S_t +Ut\), on a trouvé \(T_t = 349,16 - 8,87t\). On a alors : \(S_t = Y_t - T_t -U_t = Y_t - 349,16 + 8,9t - U_t\) Pour la suite on calculera comme si il n’y avait pas d’erreur \(U_t\). Il faut alors calculer : \[
\left \{
\begin{array}{c @{=} c}
S_1 = Y_1 - 349.16 + 8,87\\
S_t = Y_t -349.16 + 8,87t \\
S_{20} = Y_{20}-349.16 + 8,87*20 \\
\end{array}
\right.
\] On sait que la période ou frequency est supposée égale à 4 pour découper notre année en trimestres.
Ainsi nous aurons alors 4 coefficients saisonniers
## [1] 41.1 -8.0 -25.1 -6.2
Maintenant tentons de corriger nos coefficients pour ne pas avoir d’effet saisonnier en moyenne :
\[ S^{corr} = \left(\begin{array}{cc} s_1^{corr} = s_1 - \bar S \\ s_2^{corr} = s_2 - \bar S\\ s_3^{corr} = s_3 - \bar S\\ s_4^{corr} = s_4 - \bar S\\ \end{array}\right) \]
Ainsi nous avons le vecteur de nos coefficients corrigés : \[ S^{corr} = \left(\begin{array}{cc} 40.65\\ -8.45\\ -25.55\\ -7.4\\ \end{array}\right) \]
Ainsi nous avons le vecteur de nos coefficients corrigés, vérifions que leur somme est nulle :
sum(CoefCor)
## [1] 2.664535e-15
; la somme est en tout cas très proche de 0 (??).
Série corrigée des variations saisonnières \[ Y^{cvs} = Y_t - s^{corr}_t \]
Prédiction de mort sur l’année 2018
Supposons qu’il n’y a pas de modifications majeures sur les conditions rouières \[ Y_{2018}^{prev} = Y_{t_12018}^{prev} + Y_{t_22018}^{prev} + Y_{t_32018}^{prev} + Y_{t_42018}^{prev}\\ Y_{2018}^{prev} = (349.16 - 8.87*t_1 + s^{corr}_{1})_{t_1} + (349.16 - 8.87*t_2 + s^{corr}_{2})_{t_2} + (349.16 - 8.87*t_3 + s^{corr}_{3})_{t_3} + (349.16 - 8.87*t_4 + s^{corr}_{4})_{t_4}\\ Y_{2018}^{prev} = (349.16 - 8.87*39 + 40.65)_{t_1} + (349.16 - 8.87*40 -8.45)_{t_2} + (349.16 - 8.87*41 -25.55)_{t_3} + (349.16 - 8.87*42 -6.65)_{t_4}\\ Y_{2018}^{prev} = -40.3\\ \]
Super on arrive à ressusciter les gens grâce aux prévisions ! La prévision est certainement trop éloignée afin d’avoir un résultat probable et/ou cohérent
Régression linéaire pour valeurs sûres
##
## Call:
## lm(formula = vg.vente ~ t2)
##
## Coefficients:
## (Intercept) t2
## 89.407 5.523
Résolution du système \[ \left(\begin{array}{cc} 50 & \sum_{t=1}^{50} t\\ \sum_{t=1}^{50}t & \sum_{t=1}^{50}t^2 \end{array}\right) \left(\begin{array}{cc} a\\ b \end{array}\right) = \left(\begin{array}{cc} \sum_{t=1}^{50}Y_t\\ \sum_{t=1}^{50} tY_t \end{array}\right) \]
Et nous avons : \[ \left(\begin{array}{cc} 50 & \sum_{t=1}^{50} t\\ \sum_{t=1}^{50}t & \sum_{t=1}^{50}t^2 \end{array}\right) = \left(\begin{array}{cc} 50 & 1275\\ 1275 & 42925 \end{array}\right)\]et\[ \left(\begin{array}{cc} \sum_{t=1}^{50}Y_t\\ \sum_{t=1}^{50} tY_t \end{array}\right) = \left(\begin{array}{cc} 11512\\ 351063 \end{array}\right) \]
## [1] 89.406531 5.522881
Nous retrouvons bien les résultats que nous avions avec lm. Tendance \(T_t = 89.406531 + 5.522881t\)
Résolution du système des coefficients saisonniers :
\[ \left \{ \begin{array}{c @{=} c} S_1 = Y_1 - 89.406531 -5.522881\\ S_t = Y_t -89.406531 - 5.522881t \\ S_{50} = Y_{50}-89.406531 - 5.522881*50 \\ \end{array} \right. \]
Nous allons poser pour période \(p=2\).
putain j’ai enfin réussi à avoir un truc à peu près potable……. Calcul des coefficients saisonniers (= 2)
## [1] 3.5e-06
Donc nous avons nos coefficients saisonniers corrigés : \[ S^{corr} = \left(\begin{array}{cc} -53.63745 - \bar S\\ 51.62059- \bar S\\ \end{array}\right) = \left(\begin{array}{cc} -53.63745\\ 51.62058\\ \end{array}\right) \]
Effectivement on a déjà que \(\bar S = 3.5e-06\)
Série corrigée des variations saisonnières
## [1] 428.2169
Prédiction de vente de glace sur l’été 2019
\[ VENTE_{t2ete}^{prev} = 89.406531+5.522881*t_{2} + 51.62058\\ VENTE_{t2ete}^{prev} = 89.406531+5.522881*52 + 51.62058\\ VENTE_{t2ete}^{prev} = 428.2169 \]
La prévision de vente de glaces pour l’été 2019 s’élèvre à \(428,21\)