Introduction

Ce jeu de données est issu de SNCF Open Data et a été nettoyé par Gaétan Dubuc, un data scientist chez Fogo (version anglaise). Il se compose de 32 colonnes d’informations pour chaque ligne de train par mois, pour toutes les lignes TGV de l’année 2015 à 2020. Dans le cadre de ce projet collaboratif, après avoir effectué une analyse générale, nous allons nous concentrer sur les informations relatives à la durée des trajets, aux trains en retard et à leurs fréquences, en visualisant leur relation. Ainsi, nous voulons tenter de trouver des corrélations qui expliqueraient la quantité de retard, la répartition des lignes selon les gares ou encore les pics de fréquentation de trains.

 

I. Analyse sommaire

1. La circulation moyenne de trains par mois

## # A tibble: 6 × 2
##    Year circulations_moyenne
##   <dbl>                <dbl>
## 1  2015                 289.
## 2  2016                 278.
## 3  2017                 291.
## 4  2018                 266.
## 5  2019                 257.
## 6  2020                 172.

En créant une nouvelle colonne montrant le nombre moyen de circulations prévues, on peut comparer les moyennes pour chaque année. Ce qui est intéressant, c’est que le chiffre a fortement diminué depuis 2020, année où la pandémie de Covid-19 s’est propagée dans le monde entier. Jusqu’à 2020, le nombre moyen de trajets TGV par mois était de 276,2.

 

2. Les trajets les plus longs et les plus courts

Les trajets les plus longs

## # A tibble: 7,806 × 3
##    duree_heures `Departure station`  `Arrival station`   
##           <dbl> <chr>                <chr>               
##  1        13.1  STRASBOURG           NANTES              
##  2         8.21 MADRID               MARSEILLE ST CHARLES
##  3         8.02 MADRID               MARSEILLE ST CHARLES
##  4         8.02 MADRID               MARSEILLE ST CHARLES
##  5         8.02 MADRID               MARSEILLE ST CHARLES
##  6         8.02 MADRID               MARSEILLE ST CHARLES
##  7         7.98 MADRID               MARSEILLE ST CHARLES
##  8         7.87 MADRID               MARSEILLE ST CHARLES
##  9         7.85 MADRID               MARSEILLE ST CHARLES
## 10         7.73 MARSEILLE ST CHARLES MADRID              
## # … with 7,796 more rows

On constate que le trajet le plus long est celui entre Strasbourg et Nantes, d’une durée de 13H01min. Il y a sûrement eu des problèmes anomaux mais qui ne sont pas mentionnées. Si nécessaire, on peut supprimer cette donnée très atypique pour une visualisation plus lisible. En revanche, les liaisons entre Madrid et Marseille occupent le deuxième au dixième rang, ce qui signifie que le trajet entre ces deux villes est normalement le plus long. Pour cette analyse, on a créé une nouvelle colonne “duree_heure” en divisant “Average travel time (min)” par 60.

 

Les trajets les plus courts

## # A tibble: 7,806 × 3
##    `Average travel time (min)` `Departure station` `Arrival station`
##                          <dbl> <chr>               <chr>            
##  1                        35.9 BARCELONA           PARIS LYON       
##  2                        46.0 PARIS EST           REIMS            
##  3                        46.0 PARIS EST           REIMS            
##  4                        46.0 PARIS EST           REIMS            
##  5                        46.0 PARIS EST           REIMS            
##  6                        46.0 PARIS EST           REIMS            
##  7                        46.0 PARIS EST           REIMS            
##  8                        46.0 PARIS EST           REIMS            
##  9                        46.0 PARIS EST           REIMS            
## 10                        46.0 REIMS               PARIS EST        
## # … with 7,796 more rows

Il y a également une donnée étrange qui montre une durée de trajet de 35 minutes entre Barcelone et Paris Lyon. Si on ignore cette donnée, le trajet le plus court est celui entre Paris Est et Reims.

 

3. Quelle est la durée des trajets au départ de Paris ?

Nous regardons en détail la durée pour chaque connexion au départ des différentes gares Paris.

 

 

Les destinations au départ de Montparnasse vont vers le Grand Ouest ce qui explique la courte durée. Les heures moyennes de trajets au départ de Paris Nord varient entre 1h23 et 1h31, ce qui est encore plus court puisque les destinations ne sont pas très éloignées. Au départ de la Gare de Lyon à Paris, les trajets durent en moyenne 3h. Depuis Paris Est, les trajets sont en moyenne de 1h30 et 2h, on a des destiantions très proches, situées avant le Grand Est comme des destinations allemandes.

En fonction des gares de départ nous constatons que le temps de trajet est différent mais reste relativement court puisque entre les grandes gares il y a principalement des TGV qui circulent. Les liaisons comprenant Paris sont donc rapides et il est possible que les individus favorisent ce moyen de locomotion pour partir à proximité pendant les weekends par exemple.

 

II. Analyse du retard

1. Y a-t-il une relation entre la durée moyenne du trajet et la proportion de retard au départ ?

 

Relation entre la durée et le pourcentage du retard

Afin de déterminer le nombre de trains ayant effectivement circulé et le pourcentage de retards, nous avons créé deux nouvelles colonnes, intitulées “number_trains” et “prct_retard_depart”. Pour la seconde colonne, nous avons calculé le nombre de trains en retard au départ et l’avons divisé par le nombre total de trains ayant effectivement circulé.

Après avoir retiré deux données atypiques, nous avons examiné la relation entre la durée moyenne des trajets et le pourcentage de retards au départ en utilisant une visualisation graphique. Nous avons ensuite effectué un test du coefficient de corrélation de Pearson et ajouté une ligne sur le graphe pour représenter les résultats de ce test. Néanmoins, nous n’avons pas observé de corrélation significative, ni dans le graphe, ni dans le résultat de test (Le coefficient de corrélation = -0.02)

 

## [1] -0.0275005

 

Relation entre l’année et le pourcentage du retard

Par contre, en observant la distribution des points colorés par année, nous avons remarqué que les années les plus récentes sont davantage représentées en haut du graphique, indiquant ainsi un taux de retard plus élevé par rapport aux années précédentes. Dans le graphique animé, nous pouvons observer que les points représentant chaque année se déplacent vers le haut au fil du temps, ce qui confirme la relation positive entre l’année et le pourcentage de retard. Enfin, le coefficient de corrélation entre les deux variables est positif (R = 0,67).

 

## [1] 0.6713376

Afin d’obtenir des informations plus détaillées, nous avons utilisé une fonction de filtre et de skim pour établir le pourcentage moyen de retard au départ pour chaque année. Les résultats obtenus indiquent que le pourcentage moyen de retard était de 9,27 % en 2015, 10,8 % en 2016, 12,1 % en 2017, 28,2 % en 2018, 50,7 % en 2019 et 65,8 % en 2020.

Il est claire que le pourcentage du retard augmente au fur et à mesure des années et cette augmentation s’accélère à partir de 2019. Les raisons peuvent être multiples et se superposent sûrement : le Covid-19 et les perturbations du service ferroviaire causées par les grèves de 2019. Ces grèves, qui ont eu lieu entre décembre 2019 et février 2020, témoignent du mécontentement des salariés face aux emplois supprimés, aux salaires et aux conditions de travail. Selon le “Bilan social 2019” de la SNCF, 7 000 postes ont été supprimés entre 2017 et 2019.

 

Source : (https://www.francetvinfo.fr/economie/transports/sncf/sncf-7-000-emplois-supprimes-entre-2017-et-2019-les-syndicats-toujours-plus-inquiets_4225075.html))

 

2. Quelles sont les gares les plus touchées par les retards au départ ?

Après avoir examiné la première question, on a cherché à identifier les gares les plus touchées par les retards au départ entre 2019 et 2020. Pour ce faire, on a calculé le temps moyen de retard pour chaque gare, puis présenté les dix gares les plus touchées sur le graphique.

 

De 2019 à 2020

 

## # A tibble: 58 × 3
##    `Departure station`        mean_dept   idx
##    <chr>                          <dbl> <int>
##  1 GRENOBLE                       106.      1
##  2 SAINT ETIENNE CHATEAUCREUX      60.8     2
##  3 QUIMPER                         41.3     3
##  4 ANNECY                          39.4     4
##  5 DOUAI                           32.6     5
##  6 BREST                           23.0     6
##  7 TOURCOING                       21.9     7
##  8 NANTES                          14.3     8
##  9 RENNES                          14.3     9
## 10 PARIS NORD                      14.0    10
## # … with 48 more rows

On a constaté que parmi les 58 gares de départ, Grenoble est la plus touchée par les retards, avec un temps moyen de retard de 106 minutes, suivie de Saint-Etienne-Châteaucreux (60.8 min), puis de Quimper (41,3 min).

 

De 2015 à 2018

 

## # A tibble: 59 × 3
##    `Departure station` mean_dept   idx
##    <chr>                   <dbl> <int>
##  1 MONTPELLIER              21.0     1
##  2 QUIMPER                  20.3     2
##  3 PARIS NORD               19.7     3
##  4 VALENCE ALIXAN TGV       19.7     4
##  5 NIMES                    19.7     5
##  6 ITALIE                   19.5     6
##  7 PARIS EST                19.1     7
##  8 PARIS LYON               18.6     8
##  9 VANNES                   18.2     9
## 10 LE MANS                  17.7    10
## # … with 49 more rows

Cependant, en comparant les temps moyens de retard avant 2019, on observe des barres plus basses que dans le premier graphique. De plus, les temps de retard de chaque gare sont dispersés de manière similaire. La gare la plus touchée est Montpellier (21 minutes) et deux gares se classent dans le Top 10 pour toutes les années (Quimper et Paris Nord).  

*Temps moyen du retard de toutes les gares

Temps moyen du retard : 15.2 (2015-2018), 11.4 (2019-2020)

Écart-type : 3.1 (2015-2018), 16.3 (2019-2020)

Mais, il est intéressant de noter que le temps moyen de retard entre 2015 et 2018 est plus élevé que celui observé en 2019 et 2020. Cela indique que les grèves et la pandémie de Covid-19 ont eu un impact important sur certaines gares, telles que Grenoble et Quimper, mais pas sur l’ensemble des gares. C’est pourquoi l’écart-type des données après 2019 est beaucoup plus grand que celui observé avant cette année-là.

 

III. Analyse des fréquences

1. Quel est le trajet le plus fréquenté par an ?

Comparons la ligne la plus fréquentée de chaque année avec les autres années.

## # A tibble: 6 × 5
##    Year Month `Departure station` `Arrival station`  number_trains
##   <dbl> <dbl> <chr>               <chr>                      <dbl>
## 1  2015     8 BORDEAUX ST JEAN    PARIS MONTPARNASSE           691
## 2  2016    12 PARIS MONTPARNASSE  BORDEAUX ST JEAN             691
## 3  2017    10 BORDEAUX ST JEAN    PARIS MONTPARNASSE           869
## 4  2018     1 BORDEAUX ST JEAN    PARIS MONTPARNASSE           865
## 5  2019     3 BORDEAUX ST JEAN    PARIS MONTPARNASSE           868
## 6  2020     2 BORDEAUX ST JEAN    PARIS MONTPARNASSE           759

Après avoir analysé les trajets les plus fréquentée de chaque année, on a réuni les résultats en choisissant la première gare la plus fréquentée de chaque année. Entre 2015 et 2020, la connexion entre Paris et Bordeaux a été la plus nombreuse. On remarque aussi une forte offre de trains sur l’été et sur le moment des vacances scolaires et des fêtes de fin d’année. A partir de 2017, le nombre de trains mensuel partant de Bordeaux en direction de Paris a augmenté de plus de 150.

 

2. La fréquentation est-elle plus importante en été ou en hiver ?

Créons une colonne “saison” pour réunir les mois de janvier et décembre en hiver et ceux de juillet et août en été.

ICI, TU PEUX AJOUTER LE CODE DE GRACIA

Chaque année, on peut apercevoir un “foyer” en hiver aux alentours de 250 trains mais certaines lignes proposent une dizaine de trains par mois tandis que d’autres plus de 600. En été, le “foyer” de concentration semble un peu plus élargi: entre 100 et 350. Seules les années 2017 à 2019 dépassent le pallier de 750 trains mensuels. En 2020 cependant, aucun train d’été n’est représenté puisque le jeu de données ne comprend pas ces mois-là.

Sur les deux périodes (été et hiver), l’offre est plus conséquente pour les trajets reliant Paris à Bordeaux comme vu précédemment par année. Davantage de trains circulent en décembre et en janvier qu’en été, sûrement à cause des fêtes de fin d’années. Le train est peut être moins fréquenté en été puisque les individus favoriseraient des trajets de plus longue distance (par avion par exemple).

 

Conclusion

Excluant les données aberrantes, ce jeu de données de la SNCF offre différents types de données qui permettent plusieurs analyses. Dans notre projet, nous avons étudié la corrélation entre la durée des trains et le taux de retard après les analyses générales. Contrairement à nos prévisions, on n’a pas observé de corrélation significative entre les deux variables, mais on a découvert une corrélation positive entre l’année et le taux de retard. On a analysé que l’augmentation forte du taux de retard depuis 2019 est due aux grèves et au Covid-19. Cette tendance est également remarquée dans la comparaison entre les données d’après 2019 et celles d’avant 2019. Ce qui est intéressant, c’est que le retard a eu un grand impact sur certaines gares comme Grenoble, mais pas sur l’ensemble des lignes. On a prouvé ce résultat en calculant la moyenne et l’écart type des temps de retard. Dans l’analyse de la fréquence, on a remarqué que le trajet entre Bordeaux et Paris est le plus fréquenté chaque année. De plus, on a également montré la fréquence saisonnière en séparant la période de l’été et celle de l’hiver, car la période des vacances affecte la fréquence des trains.

En conclusion, on a découvert comment les trajets sont impactés par le retard et par la saison. Si la SNCF utilise d’autres données, telles qu’un jeu de données sur le taux de vente des billets ou une enquête sur la satisfaction des voyageurs, elle pourrait réfléchir à des options alternatives pour les gares les plus touchées par le retard ou à la façon de contrôler le nombre de trains selon la période.

 

Enseignant : Monsieur Dario Compagno