Ist der “Amazon.de Bestseller Rang für Reiseliteratur” ein guter Tourismus-Indikator?

roland.kofler@tis.bz.it

Abstract

Der Kauf von Reiseliteratur sollte eigentlich den festen Willen widerspiegeln das betreffende Gebiet zu bereisen. Der Amazon Verkaufsrang könnte also eine Prognose der Ankünfte und oder Nächtigungen liefern.

Die Rangzahlen 1-10.000 werden jede Stunde neu ermittelt und spiegeln die Verkäufe der vergangenen 24 Stunden wider. Eine Aktualisierung der Verkaufsränge 10.001-100.000 findet täglich statt, die der restlichen Plätze einmal im Monat. (Amazon.de)

Da wir die Ankünfte und Nächtigungen “Heute” von der ASTAT mit einem Verzug von 2 Monaten bekommen und die Amazon Daten per “Web scraping” live holen und einsammeln kommt es zu einer Verzögerung von insgesamt 4 Monaten bis ein Zweimonatsvergleich möglich wäre. Es ist unabdingbar jetzt schon die Qualität des Amazon Tourismus Indikators 'abzuhorchen', da nur so klar wird welche Daten per scraping zu sammeln sind.

Hier als Beispiel der Verkaufsrang für das meistverkaufte Buch zum Thema Südtirol, der DuMont Reiseführer Südtirol, gemessen stündlich, mit einigen Unterbrechungen: plot of chunk unnamed-chunk-2

Die Verkaufzahlen als Grundlage für eine Hochrechnung der Gästeankünfte

Man kann eine Formel finden die den Rang nutzt um monatlichen Verkaufzahlen zu schätzen. So hat etwa Douglas Hubbard diese Formel anhand seiner Bücherverkäufe auf Amazon.com gefunden:

südtirol$sales <- round(10^(4.5 - log10(südtirol$rank) * 0.8))

plot of chunk unnamed-chunk-4

Diese Saleszahlen müssen aber für den Amazon.de nicht stimmen. Am besten wäre ein Verlag verratet uns ihre Verkäufe. Dann können wir die Faktoren der Formel adjustieren. Oder kann man das über die Auflage schätzen? Warum aber will man die Verkaufszahlen schätzen? Der Rang allein betrachtet nur die letzen Verkäufe. Der Rang könnte also genügen um die Ankünfte zu prognostizieren. Der Rang ist immer eine relative Größe im Büchermarkt. Schrumpft der Hauptteil des Buchmarktes, die Belleteristik, so wirkt sich das positiv auf den Indikator aus. Wollen wir diese Seiteneffekte abstellen, müssen wir die Kategorien-Rangordung benutzen! Allerdings messen wir dann wieder nicht den Effekt ob die Leute mehr reisen oder weniger. Es ist also ein Messen des Marketshares.

Schlussfolgerung: (1) Es ist nicht wichtig die Verkaufszahlen zu schätzen, es genügt der Indikator aggregiert über Wochen. (2) “In der Kategorie messen ist gut weil es die Buchmarktschwankungen wegnimmt. (3) Aber es gibt keinen Aufschluss ueber die absoluten Reisevolumen.

require(plyr)
## Loading required package: plyr
require(lubridate)
## Loading required package: lubridate
## Attaching package: 'lubridate'
## The following object is masked from 'package:plyr':
## 
## here
südtirol$month <- month(südtirol$time)
montly.sales <- with(südtirol, tapply(sales, month, mean))
barplot(with(südtirol, tapply(sales, month, mean)))

plot of chunk unnamed-chunk-5

plot(montly.sales, type = "l", xlab = "Month", ylab = "Sales")

plot of chunk unnamed-chunk-5

Wie lang dauert es vom Kauf bis zur Ankunft?

Wann wird der Verkauf im Rang gemessen?

Ich nehme an das ein tatsächlicher Verkauf gemessen wird, also ab Bestellung oder ab Auslieferung. Amazons "eventual Consistency” Politik bringt mich zur Auffassung dass die Daten vom Bestellzeitpunkt sind. Ob Stornos einberechnet werden oder vernachlässigt da im Allgemeinen nicht relevant ist mir nicht klar. Die Konsequenz aus Storno ist (1) dass der Urlaub nicht in ST stattfindet, (2) oder doch angereist wird aber auf das Buch verzichtet wird. Ich schätze den Storno jedenfalls gering ein.

Google Insight als Maßstab

Google Insight liefert die relative Häufigkeit der Suchen nach dem Schlüsselwort “Südtirol”. Und war (1) jeden Tag für drei Monat rückwirkend und (2) die wöchentliche Häufigkeit über einem Jahr hinaus.