Ce jeu de données est issu de SNCF Open Data et a été nettoyé par Gaétan Dubuc, un data scientist chez Fogo (version anglaise). Il se compose de 32 colonnes d’informations pour chaque ligne de train par mois, pour toutes les lignes TGV de l’année 2015 à 2020. Dans le cadre de ce projet collaboratif, après avoir effectué une analyse générale, nous allons nous concentrer sur les informations relatives à la durée des trajets, aux trains en retard et à leurs fréquences, en visualisant leur relation. Ainsi, nous voulons tenter de trouver des corrélations qui expliqueraient la quantité de retard, la répartition des lignes selon les gares ou encore les pics de fréquentation de trains.
## # A tibble: 6 × 2
## Year circulations_moyenne
## <dbl> <dbl>
## 1 2015 289.
## 2 2016 278.
## 3 2017 291.
## 4 2018 266.
## 5 2019 257.
## 6 2020 172.
En créant une nouvelle colonne montrant le nombre moyen de circulations prévues, on peut comparer les moyennes pour chaque année. Ce qui est intéressant, c’est que le chiffre a fortement diminué depuis 2020, année où la pandémie de Covid-19 s’est propagée dans le monde entier. Jusqu’à 2020, le nombre moyen de trajets TGV par mois était de 276,2.
Les trajets les plus longs
## # A tibble: 7,806 × 3
## duree_heures `Departure station` `Arrival station`
## <dbl> <chr> <chr>
## 1 13.1 STRASBOURG NANTES
## 2 8.21 MADRID MARSEILLE ST CHARLES
## 3 8.02 MADRID MARSEILLE ST CHARLES
## 4 8.02 MADRID MARSEILLE ST CHARLES
## 5 8.02 MADRID MARSEILLE ST CHARLES
## 6 8.02 MADRID MARSEILLE ST CHARLES
## 7 7.98 MADRID MARSEILLE ST CHARLES
## 8 7.87 MADRID MARSEILLE ST CHARLES
## 9 7.85 MADRID MARSEILLE ST CHARLES
## 10 7.73 MARSEILLE ST CHARLES MADRID
## # ℹ 7,796 more rows
On constate que le trajet le plus long est celui entre Strasbourg et Nantes, d’une durée de 13H01min. Il y a sûrement eu des problèmes anormaux mais qui ne sont pas mentionnés. Si nécessaire, on peut supprimer cette donnée très atypique pour une visualisation plus lisible. En revanche, les liaisons entre Madrid et Marseille occupent du deuxième au dixième rang, ce qui signifie que le trajet entre ces deux villes est normalement le plus long. Pour cette analyse, on a créé une nouvelle colonne “duree_heure” en divisant “Average travel time (min)” par 60.
Les trajets les plus courts
## # A tibble: 7,806 × 3
## `Average travel time (min)` `Departure station` `Arrival station`
## <dbl> <chr> <chr>
## 1 35.9 BARCELONA PARIS LYON
## 2 46.0 PARIS EST REIMS
## 3 46.0 PARIS EST REIMS
## 4 46.0 PARIS EST REIMS
## 5 46.0 PARIS EST REIMS
## 6 46.0 PARIS EST REIMS
## 7 46.0 PARIS EST REIMS
## 8 46.0 PARIS EST REIMS
## 9 46.0 PARIS EST REIMS
## 10 46.0 REIMS PARIS EST
## # ℹ 7,796 more rows
Il y a également une donnée étrange qui montre une durée de trajet de 35 minutes entre Barcelone et Paris Lyon. Si on ignore cette donnée, le trajet le plus court est celui entre Paris Est et Reims.
Nous regardons en détail la durée pour chaque connexion au départ des différentes gares de Paris.
Les destinations au départ de Montparnasse vont vers le Grand Ouest ce qui explique la courte durée. Les heures moyennes de trajets au départ de Paris Nord varient entre 1h23 et 1h31, ce qui est encore plus court puisque les destinations ne sont pas très éloignées. Au départ de la Gare de Lyon à Paris, les trajets durent en moyenne 3h. Depuis Paris Est, les trajets sont en moyenne de 1h30 et 2h, on a des destinations très proches comme des destinations allemandes.
En fonction des gares de départ nous constatons que le temps de trajet est différent mais reste relativement court puisque entre les grandes gares, il y a principalement des TGV qui circulent. Les liaisons comprenant Paris sont donc rapides et il est possible que les individus favorisent ce moyen de locomotion pour partir à proximité pendant les week-ends par exemple.
Relation entre la durée et le pourcentage du retard
Afin de déterminer le nombre de trains ayant effectivement circulé et le pourcentage de retards, nous avons créé deux nouvelles colonnes, intitulées “number_trains” et “prct_retard_depart”. Pour la seconde colonne, nous avons calculé le nombre de trains en retard au départ et l’avons divisé par le nombre total de trains ayant effectivement circulé.
Après avoir retiré deux données atypiques, nous avons examiné la relation entre la durée moyenne des trajets et le pourcentage de retards au départ en utilisant une visualisation graphique. Nous avons ensuite effectué un test du coefficient de corrélation de Pearson et ajouté une ligne sur le graphe pour représenter les résultats de ce test. Néanmoins, nous n’avons pas observé de corrélation significative, ni dans le graphe, ni dans le résultat de test (Le coefficient de corrélation = -0.02)
## [1] -0.0275005
Relation entre l’année et le pourcentage du retard
Par contre, en observant la distribution des points colorés par année, nous avons remarqué que les années les plus récentes sont davantage représentées en haut du graphique, indiquant ainsi un taux de retard plus élevé par rapport aux années précédentes. Dans le graphique animé, nous pouvons observer que les points représentant chaque année se déplacent vers le haut au fil du temps, ce qui confirme la relation positive entre l’année et le pourcentage de retard. Enfin, le coefficient de corrélation entre les deux variables est positif (R = 0,67).
## [1] 0.6713376
Afin d’obtenir des informations plus détaillées, nous avons utilisé une fonction de filtre et de skim pour établir le pourcentage moyen de retard au départ pour chaque année. Les résultats obtenus indiquent que le pourcentage moyen de retard était de 9,27 % en 2015, 10,8 % en 2016, 12,1 % en 2017, 28,2 % en 2018, 50,7 % en 2019 et 65,8 % en 2020.
Il est claire que le pourcentage du retard augmente au fur et à mesure des années et cette augmentation s’accélère à partir de 2019. Les raisons peuvent être multiples et se superposent sûrement : le Covid-19 et les perturbations du service ferroviaire causées par les grèves de 2019. Ces grèves, qui ont eu lieu entre décembre 2019 et février 2020, témoignent du mécontentement des salariés face aux emplois supprimés, aux salaires et aux conditions de travail. Selon le “Bilan social 2019” de la SNCF, 7 000 postes ont été supprimés entre 2017 et 2019.
Après avoir examiné la première question, on a cherché à identifier les gares les plus touchées par les retards au départ entre 2019 et 2020. Pour ce faire, on a calculé le temps moyen de retard pour chaque gare, puis présenté les dix gares les plus touchées sur le graphique.
De 2019 à 2020
## # A tibble: 58 × 3
## `Departure station` mean_dept idx
## <chr> <dbl> <int>
## 1 GRENOBLE 106. 1
## 2 SAINT ETIENNE CHATEAUCREUX 60.8 2
## 3 QUIMPER 41.3 3
## 4 ANNECY 39.4 4
## 5 DOUAI 32.6 5
## 6 BREST 23.0 6
## 7 TOURCOING 21.9 7
## 8 NANTES 14.3 8
## 9 RENNES 14.3 9
## 10 PARIS NORD 14.0 10
## # ℹ 48 more rows
On a constaté que parmi les 58 gares de départ, Grenoble est la plus touchée par les retards, avec un temps moyen de retard de 106 minutes, suivie de Saint-Etienne-Châteaucreux (60.8 min), puis de Quimper (41,3 min).
De 2015 à 2018
## # A tibble: 59 × 3
## `Departure station` mean_dept idx
## <chr> <dbl> <int>
## 1 MONTPELLIER 21.0 1
## 2 QUIMPER 20.3 2
## 3 PARIS NORD 19.7 3
## 4 VALENCE ALIXAN TGV 19.7 4
## 5 NIMES 19.7 5
## 6 ITALIE 19.5 6
## 7 PARIS EST 19.1 7
## 8 PARIS LYON 18.6 8
## 9 VANNES 18.2 9
## 10 LE MANS 17.7 10
## # ℹ 49 more rows
Cependant, en comparant les temps moyens de retard avant 2019, on observe des barres plus basses que dans le premier graphique. De plus, les temps de retard de chaque gare sont dispersés de manière similaire. La gare la plus touchée est Montpellier (21 minutes) et deux gares se classent dans le Top 10 pour toutes les années (Quimper et Paris Nord).
Temps moyen du retard de toutes les gares
Temps moyen du retard : 15.2 (2015-2018), 11.4 (2019-2020)
Écart-type : 3.1 (2015-2018), 16.3 (2019-2020)
Mais, il est intéressant de noter que le temps moyen de retard entre 2015 et 2018 est plus élevé que celui observé en 2019 et 2020. Cela indique que les grèves et la pandémie de Covid-19 ont eu un impact important sur certaines gares, telles que Grenoble et Quimper, mais pas sur l’ensemble des gares. C’est pourquoi l’écart-type des données après 2019 est beaucoup plus grand que celui observé avant cette année-là.
Comparons la ligne la plus fréquentée de chaque année avec les autres années.
Entre 2015 et 2020, la connexion entre Paris et Bordeaux a été la plus nombreuse. On remarque aussi une forte offre de trains sur l’été et sur le moment des vacances scolaires et des fêtes de fin d’année. A partir de 2017, le nombre de trains mensuel partant de Bordeaux en direction de Paris a augmenté de plus de 150.
Créons une colonne “saison” pour réunir les mois de janvier et décembre en hiver et ceux de juillet et août en été.
Chaque année, on peut apercevoir un “foyer” en hiver aux alentours de 250 trains mais certaines lignes proposent une dizaine de trains par mois tandis que d’autres plus de 600. En été, le “foyer” de concentration semble un peu plus élargi: entre 100 et 350. Seules les années 2017 à 2019 dépassent le pallier de 750 trains mensuels. En 2020 cependant, aucun train d’été n’est représenté puisque le jeu de données ne comprend pas ces mois-là.
Sur les deux périodes (été et hiver), l’offre est plus conséquente pour les trajets reliant Paris à Bordeaux comme vu précédemment par année. Davantage de trains circulent en décembre et en janvier qu’en été, sûrement à cause des fêtes de fin d’années. Le train est peut être moins fréquenté en été puisque les individus favoriseraient des trajets de plus longue distance (par avion par exemple).
Excluant les données atypiques, ce jeu de données de la SNCF offre différents types de données qui permettent plusieurs analyses. Dans notre projet, nous avons étudié la corrélation entre la durée des trains et le taux de retard après des analyses générales. Contrairement à nos prévisions, on n’a pas observé de corrélation significative entre les deux variables, mais on a découvert une corrélation positive entre l’année et le taux de retard. La forte augmentation du taux de retard depuis 2019 peut être liée aux grèves et au Covid-19. Cette tendance est également remarquée dans la comparaison entre les données d’après 2019 et celles d’avant 2019. Ce qui est intéressant, c’est que le retard a eu un grand impact sur certaines gares comme Grenoble, mais pas sur l’ensemble des lignes. On a prouvé ce résultat en calculant la moyenne et l’écart type des temps de retard. Dans l’analyse de la fréquence, on a remarqué que le trajet entre Bordeaux et Paris est le plus fréquenté chaque année. De plus, on a également montré la fréquence saisonnière en séparant la période de l’été et celle de l’hiver, car la période des vacances influence la fréquence des trains.
En conclusion, on a découvert comment les trajets sont impactés par le retard et par la saison. Si la SNCF utilise d’autres données, telles qu’un jeu de données sur le taux de vente des billets ou une enquête sur la satisfaction des voyageurs, elle pourrait réfléchir à des options alternatives pour les gares les plus touchées par le retard ou à la façon de contrôler le nombre de trains selon la période.
Enseignant : Monsieur Dario Compagno