Verkennend rapport om beleving beleidsgericht te modelleren

Wat hebben we voor data

Dan met die data, kunnen we in deze hoek rommelen

Of in die hoek rommelen

En uiteindelijk een bult suggesties van wat je zou kunnen doen met deze data

Dan suggesties:

Welke methoden zou je daarna kunnen doen om zeer interessante vragen te beantwoorden - Bijvoorbeeld residential sorting model Wat heb je dan nodig?

Overleg stuk: September

Inleiding

De Greenmapper data

De Greenmapper data biedt inzicht in welke stukken groen door mensen in Nederland gewaardeerd worden. De voordelen zijn uitgebreid beschreven in eerdere publicaties, maar een onderdeel wat hierbij niet aan bod is gekomen is het inzetten van de Greenmapper data voor het maken van beleid gericht op ontsluiting van natuur voor een breder publiek.

Doordat de dataverzameling veel vrijheid aan de respondenten gaf om markers te plaatsen geeft deze veel (en nauwkeurig) inzicht in de plekken die gewaardeerd worden. Het probleem hiermee is echter dat de data niet rechtstreeks gekoppeld is aan beleidsgebieden.

In onderstaande kaart staan de Greenmapper markers geplot over een kaart met overkoepelende gebiedsklassificaties Water, Stedelijk gebied, Natuur, en Agrarisch gebied. De drie voornaamste clusters zijn (grofweg) de kust en de Waddeneilanden, de parels zoals de Oostvaardersplassen, Biesbosch, en Veluwe, en het Zuid-Limburgse Heuvellandschap. Wat vooral opvalt daarnaast is dat er een duidelijk onderscheid is tussen de Waddenkust vanaf de vaste wal, en de eilanden, en dat de natuurgebieden tussen de grote rivieren ten oosten van de Biesbosch weinig gewaardeerd worden.

## Warning: The argument auto.palette.mapping is deprecated. Please use
## midpoint for numeric data and stretch.palette for categorical data to
## control the palette mapping.

## Warning: The argument auto.palette.mapping is deprecated. Please use
## midpoint for numeric data and stretch.palette for categorical data to
## control the palette mapping.

## Warning: The argument auto.palette.mapping is deprecated. Please use
## midpoint for numeric data and stretch.palette for categorical data to
## control the palette mapping.

## Warning: The argument auto.palette.mapping is deprecated. Please use
## midpoint for numeric data and stretch.palette for categorical data to
## control the palette mapping.

## Warning: The argument auto.palette.mapping is deprecated. Please use
## midpoint for numeric data and stretch.palette for categorical data to
## control the palette mapping.

## Warning: The argument auto.palette.mapping is deprecated. Please use
## midpoint for numeric data and stretch.palette for categorical data to
## control the palette mapping.

Ruimtelijke informatie in de natuurpunten

Clustering: Het inzichtelijk maken van de punt-data

De punten kunnen op een aantal verschillende manieren geclusterd worden. Hieronder worden een drietal clustermethoden vergeleken. Allereers de punt-dichtheden met een afstandsgewogen functie. Hierbij worden de hoge waarden per cel gewogen meegenomen in de waarden in de naastgelegen cellen. Deze methode corrigeert hiermee voor het moeten aanvinken van een punt, terwijl mogelijk een bredere regio bedoeld werd. Nadeel van deze methode is dat deze gebaseerd is op een uniforme afstand over het onderzoeksgebied (bijvoorbeeld 2.5 kilometer), en daarmee een clustervorm oplegt. Dit is het beste zichtbaar op de plaatsen waar slechts 1 punt staat. Onderstaande kaarten vergelijken een afstandsafhankelijk van 1 over de afstand in het kwadraat en 1 over de afstand tot de derde macht. Bij de tweede maat worden de gewichten van de punten sneller kleiner met afstand, waardoor er relatief meer waarde aan de directe omgeving van de puntmarkering wordt gegeven.

In grote lijnen zijn deze kaarten hetzelfde, maar tweede kaart laat een iets hogere resolutie zien (zie bijvoorbeeld de Veluwe). Deze hogere resolutie maakt het aan de ene kant mogelijk om beter te zien welke gebieden hoger gewaardeerd worden, aan de andere kant zou dit ook een vorm van schijnnauwkeurigheid kunnen zijn.

De tweede parameter die aangepast kan worden in deze vorm van clustering is de maximale bandbreedte waarover de clustering plaatsvindt. In onderstaande kaarten is dezelfde bewerking uitgevoerd als hierboven, maar dan met een kleinere bandbreedte (respectievelijk 1 kilomter en een halve kilometer).

Naarmate de bandbreedte kleiner wordt neemt de resolutie van de clusters toe. Dit ligt volledig in de lijn der verwachtingen. Het probleem hiermee is echter dat er weinig ex ante richtlijnen zijn wat betreft de grootte van de twee parameters (bandbreedte en afstandsafhankelijkheid). Dit betekent dat, hoewel deze clustermethode het dichtst bij de originele data blijft, de clusterindeling voor een deel arbitrair is bij een simpele point-density methode. Hieronder doen we een suggestie om eerst clusteridentificatie toe te passen. Door middel van een clustermethode die in staat is punten bij elkaar te zoeken die geografisch bij elkaar lijken te horen kunnen we vaststellen welke hotspots van natuurwaardering er bestaan. Deze kunnen we vervolgens proberen te koppelen aan onderliggende natuurgebieden en grondgebruikskaarten.

Daarnaast doen wij een poging om een geïnformeerde suggestie te doen voor deze smoothing op basis van het onderliggende grondgebruik. Deze methode biedt meer inzicht door vanuit de (natuur-) gebieden te kijken naar de relatieve puntdichtheden en de waardering voor deze gebieden als geheel.

DBSCAN Cluster analyse

De point-densities hierboven kijken met name naar hoeveel punten er binnen een afgebakend gebied voorkomen. Op basis hiervan is het mogelijk om (op het oog) clusters te identificeren, bijvoorbeeld de Veluwe. Het vaststellen van deze clusters op het oog is echter zeer arbitrair. Er is een veelvoud aan clustermethoden beschikbaar die hier meer inzicht in kunnen verschaffen, namelijk, of de clusters die wij herkennen op basis van de data ook daadwerkelijk bij elkaar horen. Een van deze methoden is de DBSCAN density based cluster methode. Deze methode maakt op basis van de nabijheid van punten binnen een cluster, en de grotere afstand van punten tussen clusters een toetsbare set aan puntenclusters.

Ook voor deze clustermethode geldt dat er verschillende parameters zijn die een belangrijke invloed kunnen hebben op de uitkomst. De eerste is wederom de zoekafstand waarover clusters bepaald worden. In onderstaande grafieken staan de afstanden van het op 4 na dichtstbijzijnde punt en het op 9 na dichtstbijzijnde punt geplot (k-nearest neighours voor k[5] en k[10]). De optimale zoekafstand volgens de elleboog methode ligt daar waar de afstand tot de k[5] of k[10] het meeste toeneemt, de knik in de lijn. Deze ligt rond de 5 kilometer.

De tweede parameter die van invloed is op de clusters die gevonden worden is het minimale aantal punten dat nodig is voordat iets als een cluster aangemerkt wordt. In onderstaande cartogrammen staan eerst de clusters met minimaal 10 punten weergegeven.

## Warning: Removed 640 rows containing missing values (geom_point).

Deze eerste kaart laat een nogal gefragmenteerd beeld zien van welke verschillende clusters er als mooie natuur worden gezien. Het totale aantal clusters in deze kaart is 37, en dat is aan de hoge kant. Als we dezelfde zoekradius van 5 kilometer en een lager minimum van 5 punten aanhouden, dan zien we dat grotere gebieden tot een cluster gerekend worden, wat er in die zin voor zorgt dat het aantal clusters vermindert. Desondanks bevat onderstaande kaart op het oog niet meer informatie dan de eerdere kaart.

## Warning: Removed 181 rows containing missing values (geom_point).

Ook door het minimum aantal punten te vergroten, in dit geval tot 20 punten minimum, neemt het totaal aantal clusters af. Op deze manier wordt het mogelijk om meer van de kleinere clusters te verwijderen, zonder dat alle gebieden in elkaar over lopen.

## Warning: Removed 1596 rows containing missing values (geom_point).

Ten slotte staan hieronder nog wat extreem oplopende clusters, met een zoekradius van 5 kilometer en 80 punten minimum:

## Warning: Removed 4913 rows containing missing values (geom_point).

en een zoekradius van 5 kilometer en 120 punten minimum:

## Warning: Removed 6535 rows containing missing values (geom_point).

Wat deze exercitie laat zien is dat de verschillende clustermethoden een zekere hoeveelheid van eigen inbreng met zich meenemen: De point densities zijn afhankelijk van de hoeveelheid distance decay die meegenomen worden, en geven alle punten een gelijke cirkelvormige invloed over een breed gebied. De DBSCAN density based clusters zijn weer afhankelijk van de zoekradius en het minimum aantal punten wat in een cluster moet zitten.

De volgende stap is een frictiemodel.

Ik zoek momenteel uit of dit misschien handig kan met een hydrologisch model, de eerste pogingen met alleen bebouwingsdichtheden haalden niet zoveel uit.

Tot hier

Dit is de stand van zaken: ik werk zo snel mogelijk de todo-lijst van afgelopen week af.

Frictie-analyse: Over welke regio gaat de puntdata? (nog in aanmaak)

Een van de problemen met bovenstaande clusteranalyses is data deze plaats-agnostisch zijn: de data wordt geplot op een kaart (x/y coordinaten) waarna vanuit de onderzoeker een bandbreedte en een afstandsafhankelijkheid toegevoegd worden (voor het hele gebied). Hiermee worden onderleggers zoals grondgebruik niet meegenomen. Hieronder doen wij een voorstel van hoe deze wel meegenomen zou kunnen worden. De gedachtengang achter deze aanpassing is dat de distance decay, de afstandsafhankelijkheid, van elk punt niet overal hetzelfde is. Iemand die het Vondelpark aangeeft als favoriete natuurplek bedoelt hier waarschijnlijk een zeer goed gedefinieerd klein stuk ruimte mee. Aan de andere kant, iemand die de Waddenzee aangevinkt heeft als favoriete stuk natuur bedoelt hier waarschijnlijk een groter gebied mee. Onderstaande clustering houdt hier expliciet rekening mee. De eerste clusterkaart is gemaakt op basis van bebouwingsdichtheid (CBS: Omgevingsadressendichtheid per vierkant 500m, 2017).

De doelstelling van dit project is het achterhalen van verbanden tussen natuurwaardering (Greenmapper data) en natuur-beleidsgebieden. Specifieker zijn we benieuwd naar determinanten van natuurwaardering vanuit de natuurgebieden (wat maakt een gebied aantrekkelijk) en persoonlijke karakteristieken die beïnvloeden welk natuurgebied de voorkeur geniet.

Empirische strategie

Het gaat hierbij om een verkennende studie, waarbij we een groot aantal vernieuwende data-visualisaties en analyses toepassen om inzicht te geven in deze vragen. Allereerst vergelijken we een indeling van overkoepelende gebiedstypen met ecodistricten. De ecodistricten geven een beter beeld van de onderliggende geologie en dienen als een proxy voor het type natuur dat aanwezig is in de verschillende regio’s. Daarnaast voegen we voor de gebiedstypen de toeristische faciliteiten toe, zoals kampeerterreinen en horeca, en infrastructurele elementen (wegen en parkeerplaatsen). Naast deze gebiedskarakteristieken kijken we ook naar elementen zoals overgangen (grenzen), waarmee voor effecten zoals de kust gecorrigeerd kan worden. Tentatief nemen we de afstand tussen populaire natuurpunten en bevolkingsconcentraties mee in de analyses als indicatie voor mogelijk gebruik. Uiteindelijk schatten we op basis van de relevante gebiedskarakteristieken een ruimtelijke regressie waarbij het belang van de verschillende gebiedskarakteristieken met elkaar vergeleken worden, en het verschil tussen de geschatte waarden en de geobserveerde waarden uitdrukkelijk bekeken wordt.

In het tweede deel van de analyse richten we ons op de individuele karakteristieken van de personen in de dataset. We vergelijken de persoonlijke karakteristieken vanuit de Greenmapper en de typen gebieden die deze mensen waarderen. Daarnaast voegen we door middel van een clusteranalyse meer informatie toe over de herkomstgebieden van de personen in de dataset, en proberen hiermee in te kleuren of de persoonlijke achtergrond van mensen een rol speelt in de natuurwaardering. Ten slotte proberen we de natuurwaarderingspunten en de achterliggende individuele data met elkaar in verband te brengen door middel van een regionaal sorteringsmodel (afhankelijk van de data).

bodemgebruik <- st_read("bodemgebruik_simp20")
recreatie <- bodemgebruik[bodemgebruik$BG2012 == 43 | bodemgebruik$BG2012 == 44,]
bos <- bodemgebruik[bodemgebruik$BG2012 == 60,]
natuur <- bodemgebruik[bodemgebruik$BG2012 == 61,]
nattenatuur <- bodemgebruik[bodemgebruik$BG2012 == 62,]


tm3 <- tm_shape(nattenatuur)+
  tm_fill("blue", alpha = 0.5)+
  tm_shape(natuur)+
  tm_fill("green", alpha=0.5)+
  tm_shape(bos)+
  tm_fill("brown", alpha=0.5)+
  tm_shape(recreatie)+
  tm_fill("red", alpha=0.5)

save_tmap(tm3, "tmnatuurrecreatie.pdf")

#78natuurlandschappen cultuurlandschappen

#histo/barplot clusters / ses karakteristieken / herkomst en natuurpunten

#setje clusterkaarten knn, soi, exclusion/dissimilarity index

#point dens 1/d, 1/d2, 1/d3

#top 5 / bottom 5 met elkaar vergelijken
#Wat is de mediane gewaardeerde natuur in NL, wat wijkt positief af, wat niet? GWPCA Gebiedskenmerken
#E2FCA
#1 wat zegt de data
#2 welke gebieden hoog / laag
#2.1 tussen gebieden vergelijken
#2.1.1 rankings maken binnen gebiedstypen (grootschalige gebiedstypen/cultuurlandschappen/ecodistricten/natuurwaardenkaart)
#Arjen: Hou oog voor landsdekkend verhaal
#2.2 binnen gebieden vergelijken
#3 welke mensen welk gebied
#4 voorzieningen / gemiste kansen, best practices etc.
#5 fans per regio + afstanden
#6 regressies en modelleren / ordered probit/rankings maken

#7 grondprijs stip landuse, opprtunity cost

#8 fua's van greenmapper

#9 bid rent van natuur

#10 stedelijkheid raster van addressendichtheidsraster ==> frictionsurface

#11 Cluster maat (dissimilarity) met xy (cartografisch) en z (afstand tot woonplaats respondent)
#11.1 alternatief: afstandmaat tot steden gebruiken 
#11.2 Plot maken van afstand tot dichtstbijzijnde natuurplek

#12 4 tot 5 gebiedskenmerken (natuur, agrarisch, stedelijk, water) mappen (niet zozeer logits)

#13 Data binnen provincie standaardiseren + data over de provinciegrenzen heen (kaartje Friesland == > buiten Friesland zijn het...)

library(knitr)
library(rgl)
z <- as.matrix(read.csv("3dmap.csv"))
knit_hooks$set(webgl = hook_webgl)

persp3D(z = z, zlim= c(-1, 20))

plotrgl()

You must enable Javascript to view this page properly.

histz <- z[,-1]
ix <- seq(1, nrow(histz), length.out = 0.5*nrow(histz))
iy <- seq(1, ncol(histz), length.out = 0.5*ncol(histz))

hist3D(z=histz[ix,iy], shade = 0)

plotrgl()