Auf dem Open Data Portal der Stadt München finden sich viele interessante Datensätze zu allen Möglichen Themen. Auf diesem befinden sich unteranderem die Daten der Raddauerzählstellen, welche eine herausragende Möglichkeiten bieten einen Einblick in die Fahrradaktivität in der Stadt München zu erlangen.
Die Observationen werden an verschiedenen, innerhalb der City verteilten Zählstationen getätigt. Dabei wird im 15 Minuten Tackt gezählt wie viele Fahrradfahrerinnen innerhalb dieser Zeitspanne an der jeweilige
Bei dem Datensatz, den ich in dieser Analyse vorstellen werde handelt es sich um Tageswerte. Dabei werden die 15 minütigen Messungen auf den Tag kumuliert. Dieser Datensatz beinhalten neben der Fahrrad-Tagesaktivität auch Wetterdaten, wie etwa die Temperatur oder Sonnenstunden. Die Zeitreihe beginnt im Juni 2008 und läuft bis Dezember 2022.
Wer sich für den R Code interessiert findet diesen hier im Blogeintrag.
Die Daten aus dem Portal sind bereits sauber aufbereitet. Die CSV-Dateien sind jährlich vorhanden und müssen lediglich vor der Analyse in ein großes Dataframe zusammengebastelt werden.
Da es sich um eine Zeitreihe handelt, habe ich in dem Datensatz noch
die Variablen Jahreszeiten
(saison), Wochentage
(wday) und Wochenenden
(weekend) beigefühgt.
| datum | zaehlstelle | gesamt | min.temp | max.temp | niederschlag | bewoelkung | sonnenstunden | na | kommentar | saison | wday | weekend |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2008-06-01 | Arnulf | 667 | 12.5 | 26.7 | 0.0 | 30 | 13.9 | NA | NA | S | 1 | 1 |
| 2008-06-02 | Arnulf | 1117 | 15.0 | 27.9 | 0.6 | 44 | 12.1 | NA | NA | S | 2 | 0 |
| 2008-06-03 | Arnulf | 1279 | 14.6 | 21.9 | 0.2 | 88 | 3.2 | NA | NA | S | 3 | 0 |
| 2008-06-04 | Arnulf | 758 | 14.8 | 21.9 | 5.1 | 91 | 1.4 | NA | NA | S | 4 | 0 |
| 2008-06-05 | Arnulf | 606 | 14.0 | 20.4 | 14.2 | 91 | 0.6 | NA | NA | S | 5 | 0 |
| 2008-06-06 | Arnulf | 963 | 13.6 | 19.9 | 10.0 | 81 | 1.7 | NA | NA | S | 6 | 0 |
| 2008-06-07 | Arnulf | 399 | 13.6 | 18.2 | 2.0 | 95 | 0.7 | NA | NA | S | 7 | 1 |
| 2008-06-08 | Arnulf | 557 | 12.6 | 22.0 | 3.9 | 83 | 5.4 | NA | NA | S | 1 | 1 |
| 2008-06-09 | Arnulf | 1244 | 9.5 | 23.0 | 0.0 | 63 | 11.5 | NA | NA | S | 2 | 0 |
| 2008-06-10 | Arnulf | 1350 | 12.2 | 25.7 | 0.8 | 48 | 12.7 | NA | NA | S | 3 | 0 |
In der Tabelle finden sich Information zur Fahrrad-Tagesaktivität pro Zählstation, Störungen im Betrieb, außerdem Daten zur Wetterlage in München.
Verschaffen wir uns erst einmal einen Überblick über die Gesamtaktivität.
Wir können klar sehen, dass die Aktivität mit den Jahren zunimmt und eine zyklische Entwicklung aufweist: Die Aktivität steigt über das Jahr hinweg an und ebbt zum Ende wieder ab. Wie zu erwarten, fällt die Aktivität im Winter geringer aus als im Sommer. Die Messzahlen scheinen sich für den Herbst und Frühling jedoch zu ähneln.
Die obige Grafik beschreibt die Verteilung der Aktivität nach Jahreszeit. Für die wärmeren Jahreszeiten ist die Verteilung etwas gestreckter, was bedeutet, dass es in ähnlichem Maße Tage mit viel aber auch wenig Aktivität gibt. Im Winter ist das Profil rechtsschief. D.h. dass es viele Tage gibt, an welchen keine oder wenig Aktivität bei Zählstationen gemessen wurde.
München hat 6 Zählstation, welche über die Stadt verteilt sind. Wir sehen in der unteren Karte, dass die Stationen alle mehr oder weniger zentral gelegen sind. Nicht alle Stationen haben im selben Jahr angefangen zu messen. Mehr Informationen lassen sich durch das Klicken auf die Punkte herausfinden.
Die untere Grafik zeigt auf wie sich die Aktivität der verschiedenen Stationen über die Jahre entwickelt hat. Wie bei der Gesamtaktivität lässt sich auch bei den meisten Zählstationen ein zyklisches Wachstum beobachten. Auffällig sind die Frequenzunterschiede zwischen den Stationen. In manchen ist scheint die Aktivität durchgehend höher zu sein als in anderen.
Ebenfalls interessant sind Ausreißer wie etwa bei der Zählstation Olympia (zwischen den Jahren 2012 und 2015). Diese sind vermutlich durch das 24h Mountain Bike Rennen im Olympia Park erzeugt worden (Eine Analyse dazu findet sich in SOMTOMS Blog).
Das Gesamtaktivitätsprofil lässt sich auch gut mit Boxplots darstellen. Die horizontal schraffierte Linie stellt den Gesamtmedian dar. Erhardt und Margareten sind die Stationen mit der höchsten Aktivität, deren Aktivität deutlich über dem Populationsmedian liegt.
Am Wochenende wird weniger Aktivität gemessen. Die Wochenend-mediane liegen unterhalb des Gesamtmedian. Mehr Informationen über die tägliche und Wöchentliche Fahrradaktivität finden sich in dieser Shiny App.
In den Daten finden sich Informationen über Störungen und Beeinträchtigungen des Betriebs. Die untere Tabelle zeigt auf, dass in 93% aller Tage keine Beeinträchtigungen gemeldet wurde.
| Beeinträchtigung | n | percent |
|---|---|---|
| Ja | 1969 | 0.066 |
| NA | 27712 | 0.934 |
Unter den Beeinträchtigungen finden sich verschiedene
Klassifikationen, wobei “Zählstelle noch nicht in Betrieb”
und “Baustelle” die häufigsten beeinträchtigungs Gründe
darstellen. Für 10% der Beeinträchtigung gibt es keine
Klassifizierung.
| Kommentar | n | percent |
|---|---|---|
| Zählstelle noch nicht in Betrieb | 1028 | 0.522 |
| Baustelle | 593 | 0.301 |
| Unklassifiziert | 216 | 0.110 |
| Ausfall nach Beschädigung | 82 | 0.042 |
| Radweg vereist / nach Schneefall nicht geräumt / keine Messung möglich | 48 | 0.024 |
| Austausch Sensor | 2 | 0.001 |
Die Beeinträchtigungen im Betrieb können auch zeitlich je Zählstelle untersucht werden.
Die Jahreszeiten scheinen stark mit der Tagesaktivität in Verbindung zu stehen. Um dies genauer zu untersuchen ist es sinnvoll sich die Verteilung Wetter-Variablen genauer anzuschauen.
In München scheint es viele Tage mit wenig Regen, wenig Sonne und starker Bewölkung zu geben. Die Temperatur befindet sich meistens zwischen 0-20 Grad.
Schauen wir uns die Beziehung zwischen dem Wetter und der Fahrradaktivität an.
Min und Max Temperatur sind positiv mit der Aktivität assoziiert. Das Verhältnis scheint dabei linear zu sein. D.h. dass eine Temperaturerhöhung um n Grad ungefähr eine Aktivitätssteigerung um x Fahrradfahrerinnen mit sich bringt. Ähnliches gilt für Sonnenstunden. Bei der Bewölkung haben wir eine negative Assoziation.
Auf den ersten Blick scheint die Stärke des Niederschlags keinen besonderen Einfluss auf Fahrradaktivität zu haben. Das liegt vielleicht daran, dass es in München generell wenig regnet und der Trend durch große Regen-Ausreißer verzerrt wird. Beschränken wir die Observation auf das 95% Quantil der Regen Daten.
Bei kleinen Werten scheint es einen leichten negativen Trend zu geben. Allgemein betrachtet ist der Trend jedoch schwachen.
Um den Überblick über den Datensatz abzuschließen schauen wir uns noch die Korrelationen zwischen den Variablen an. Dieser Schritt kann für spätere Modellvierungen besonders wichtig werden.
Wir sehen, dass min.temp und max.temp stark
korreliert sind. Da wir keine zu starken Korrelationen zwischen unseren
Features haben wollen, sollten wir eine dieser Variablen beim
modellieren entfernen.
Interessant ist besonders, welche Variablen in welchem Grad zum
Aktivitätsvolumen beitragen. Die obige Grafik zeigt auf, dass die
Zählstelle Erhardt den größten positiven Impakt auf die
Aktivität hat. max.temp und sonnenstunden sind
ebenfalls sehr wichtig. Wenn die Aktivität in der Zählstelle
Kreuther gemessen wurde, dann ist die Chance relativ
groß, dass die Aktivität nicht besonders hoch ausgefallen ist.
Wie bereits oben erwähnt scheint der Niederschlag keine bedeutende Rolle für die gemessene Fahrradmobilität zu spielen.
Ein einfaches Model für das Verständnis der Einflussfaktoren ist die lineare Regression:
model <- lm(gesamt ~ min.temp + niederschlag + bewoelkung + sonnenstunden + wday, data = data )
Wir sehen, dass die Sonnenstunden den größten Einfluss auf die Tagesaktivität hat. Noch größer als die Temperatur. Je sonniger es in München ist, desto mehr wird an den Stationen gemessen.
Interessanterweise scheint Niederschlag nun einen signifikanten negativen Einfluss auf die Aktivität zu haben. Das dieses Verhältnis vorher nicht aufgefallen ist mag vielleicht daran gelegen haben, dass Niederschlag positiv mit dem positiven Einflussfaktor Temperatur korreliert ist und der negative Effekt dadurch übertüncht wurde.