MBA BIG DATA ANALYTICS

MBA Big Data Analytics
Module: Data Analytics with R
Docent: Hans van der Zwan
Handout 02
Onderwerp: summarizing data

Literatuur
Venables, W.N., Smith D.M., R Core Team. (2018). An introduction to R, version 3.3.2. Te downloaden van https://cran.r-project.org/manuals.html.
Wickham H. & Grolemund, G. (2017). R for Data Science. Sebastopol, CA: O’Reilly.
Rumsey D. J. (2010). Statistical Essentials for Dummies. Hoboken: Wiley Publishing.

Aanbevolen literatuur
Wickham, H. (2014). Tidy data. Journal of Statistical Software 59 (10). Te downloaden van: https://www.jstatsoft.org/article/view/v059i10/v59i10.pdf.
Leek, J. (2016-02-17). Non-tidy data. Te downloaden van: https://simplystatistics.org/2016/02/17/non-tidy-data/.

Voorbereiding college
Bestudeer: Rumsey (2010), H2
Bekijk: https://www.youtube.com/watch?v=rAN6DBctgJ0
(5 min.; SLC; samenvattende statistieken centrale tendentie)
Bekijk: https://www.youtube.com/watch?v=dq_D30kyR1A
(17 min.; Nystrom; standaarddeviatie)
Bekijk: https://www.youtube.com/watch?v=ANsVodOu1Tg&t=382s
(12 min.; Nystrom; verschil populatie- en steekproefstandaarddeviatie)

Handout 02

1 Schaaltypen en samenvattende statistieken

Onderwerpen uit Rumsey (2011), hoofdstuk 2:
- soorten variabelen, categoriaal en numeriek; categoriale variabelen kunnen worden gemeten op een nominale of een ordinale schaal; numerieke variabelen op een interval of op een ratioschaal;
- samenvattende statistieken;
- centrum- en spreidingsmaten.

1.1 Populatieparameters versus steekproefstatistieken

In onderzoek worden steekproeven en steekproefstatistieken gebruikt om uitspraken te doen over een populatie die voorwerp van onderzoek is. Bijvoorbeeld om onbekende populatie parameters te schatten of hypothesen over een populatie te toetsen. Het is niet altijd op voorhand duidelijk welke steekproefstatistiek het beste gebruikt kan worden om een populatieparameter te schatten. Denk bijvoorbeeld aan de situatie waarin een steekproef wordt gebruikt om de range in een populatie te schatten. De steekproefrange zal in de meeste gevallen een onderschatting zijn voor de populatierange. De steekproefrange is daarom geen goede (zuivere, zie hierna) schatter voor een onbekende populatierange. Een zuivere schatter is een steekproefstatistiek die, als hij voor alle mogelijke steekproeven wordt berekend, gemiddeld een waarde oplevert gelijk aan de populatieparameter die geschat moet worden. Het steekproefgemiddelde – notatie \(\bar{x}\) - is bijvoorbeeld een zuivere schatter voor een populatiegemiddelde (notatie \(\mu\)).

Voorbeeld
In een magazijn staat de dagproductie van een cementfabriek, zakken cement met een gemiddelde van 20 kg. Als uit deze productie steekproeven worden getrokken (n = 10) dan zal een deel van deze steekproeven minder dan 20 kg bevatten en een deel meer. Het gemiddelde van de steekproefgemiddelden zal 20 kg zijn (als de gemiddelde inhoud van de dagproductie inderdaad 20 kg was).

OPGAVE 2.1
Zie het script simulatie_stkfprf_gem.R.
In dit script wordt het trekken van steekproeven uit een populatie met een bekend gemiddelde (1000) en een bekende standaarddeviatie (25) gesimuleerd.
Voor elke steekproef wordt het steekproefgemiddelde berekend en wordt de verdeling van de verkregen steeproefgemiddelden bestudeerd.
(i) Werk het script door.
(ii) Wijzig het script zodat de uitgangspopulatie een andere verdeling heeft, namelijk een zogenaamde uniforme verdeling; definieer hiertoe de populatie als volgt: populatie >- runif(n = 1000000, min = 0, max = 1000). Werk het aangepaste script door.

Populatieparameters zijn kenmerken van een populatie, zoals bijvoorbeeld een populatie gemiddelde, een populatie variantie, een populatie proportie, etc. De waarde van populatieparameter kan onbekend zijn, maar ligt in principe vast.
Steekproefstatistieken zijn kenmerken van een steekproef, zoals bijvoorbeeld een steekproefgemiddelde, steekproefvariantie, steekproefpopulatie, etc. Een steekproefstatistiek is een variabele, immers de waarde verschilt per getrokken steekproef.
Steekproefstatistieken kunnen o.a. worden gebruikt om populatieparameters te schatten. Zo kan het steekproefgemiddelde worden gebruikt om het populatiegemiddelde te schatten. In zo’n geval wordt gezegd dat de variabele steekproefgemiddelde een schatter is voor het populatiegemiddelde. Dit is wat genoemd wordt een voorbeeld van een zuivere schatter, dat wil zeggen dat het gemiddelde van alle steekproefgemiddelden gelijk is aan het populatiegemiddelde.
Als een populatieproportie geschat moet worden, kan de overeenkomstige steekproefproportie als zuivere schatter gebruikt worden.
Als een populatierange geschat moet worden, dan is de steekproefrange geen zuivere schatter, omdat deze gemiddeld een te lage schatting oplevert. Er bestaat geen steekproefstatistiek die een zuivere schatter oplevert voor de populatierange.
Het schatten van een populatievariantie is wel mogelijk met een zuivere schatter. Daarvoor moet echter de formule voor het berekenen van een variantie in het geval van een steekproefvariantie enigszins aangepast worden:
Populatie variantie = \(\sigma^2 = \frac{\sum(x-\mu)^2}{N}\)
Steekproef variantie = \(s^2 = \frac{\sum(x-\bar{x})^2}{n-1}\)

OPGAVE 2.2
Zie het script simulatie_stkfprf_var.R. In dit script wordt het trekken van steekproeven uit een populatie met een bekend gemiddelde en een bekende standaarddeviatie gesimuleerd.
Van elk van de steekproeven wordt de variantie berekend volgens de formule voor populaties (dus met n in de noemer).

  1. Werk het script door. Bestudeer de verdeling van de verkregen varianties. Vergelijk het gemiddelde van de berekende steekproefvarianties met de waarde van de populatievariantie.
  2. Pas het script aan zodat voor de steekproeven de variantie wordt berekend met de formule voor steekproefvarianties (dus met n-1 in de noemer). Vergelijk het gemiddelde van de berekende steekproefvarianties met de waarde van de populatievariantie.

Het is gebruikelijk het onderscheid tussen populatie parameters en steekproefstatistieken tot uiting te brengen in de symbolen die gebruikt worden; voor populatieparameters worden veelal Griekse lettertekens gebruikt, voor steekproefstatistieken Latijnse, bijvoorbeeld: \(\mu\): populatie gemiddelde; \(\bar{x}\): steekproefgemiddelde; \(\sigma\): populatie standaarddeviatie; s: steekproef standaarddeviatie; \(\pi\): populatie proportie; p: steekproef proportie.

1.2 Aggregeren van data

Om ruwe data (raw data) om te zetten in informatie wordt de data samengevat. Zie Rumsey (2011) hoofdstuk 2 voor de meest gebruikte centrum- en spreidingsmaten. Deze samenvattende statistieken kunnen voor alle waarden van een variabele worden berekend om een overzicht van alle data te geven, meestal zullen deze statistieken ook worden weergegeven voor verschillende categorieën. Denk bijvoorbeeld aan statistieken met betrekking tot beleggingsresultaten per soort belegging (aandelen, obligaties, vastgoed, …) of statistieken van opgelegde boetes per arrondissement bij een onderzoek naar rechtsspraak in Nederland. In Wickham & Grolemund (2017) hoofdstuk 3 wordt beschreven hoe met behulp van het package dplyr een dergelijke samenvatting van data met behulp van R te genereren is.
Zie het script RFDS_ch3.R waarin de voorbeelden uit dit hoofdstuk worden doorgenomen.

Bestudeer Wickham & Grolemund (2017) hoofdstuk 3 aan de hand van het script RFDS_ch3.R.

1.3 Tidy datasets

Het belang van het organiseren van data in een ‘tidy dataset’ is het onderwerp van Wickham & Grolemund (2017) hoofdstuk 9. In dit hoofdstuk wordt het package tidyr besproken, een package met diverse functies voor data manipulatie. In het bijzonder de functies spread() en gather() zijn hierbij van belang. Zie script example_spread_gather.R voor een voorbeeld.

OPGAVEN

OPGAVE 2.3 Zie het bestand 2018-10-04_tekoop_funda.csv met gegevens van bij Funda te koop staande woningen op 4 oktober 2018.
Genereer in R een overzicht met per stad de volgende samenvattende statistieken:

  1. aantal te koop staande huizen
  2. minimum vraagprijs
  3. mediaan vraagprijs
  4. maximum vraagprijs
  5. gemiddeld vraagprijs
  6. standaarddeviatie vraagprijs
  7. percentage van de tekoop staande woningen waarvan de vraagprijs 1 mln euro of meer bedraagt

OPGAVE 2.4
Zie het bestand ppd2016_london.csv.

  1. Vind de vijf districten met de hoogste gemiddelde verkoopprijzen van woningen in 2016.
  2. Zoek op Google maps waar deze districten gelokaliseerd zijn in Londen.