U ovom tekstu, fokusirat ćemo se na mjere asimetrije i zaobljenosti.

Slučaj: letovi zrakoplovnih kompanija u New Yorku

Nastavljamo se baviti skupom podataka o kašnjenjima polijetanja zrakoplova, no ovdje će naglasak biti na promatranju asimetrije i zaobljenosti distribucija varijabli.

Podsjetimo se, skup podataka koji ćemo koristiti podskup je opsežnog skupa podataka o kašnjenjima zrakoplovnih prijevoznika, koji izvorno sadrži 180 milijuna zapisa. Specifični podskup korišten u ovoj studiji slučaja usredotočen je na 336776 komercijalnih letova koji polaze iz tri glavne zračne luke na području New Yorka: Newark (EWR), John F. Kennedy (JFK) i LaGuardia (LGA) u 2013. godini. Podaci dolaze iz skupa podataka o kašnjenjima zrakoplovnih prijevoznika predstavljenog na Data Expo 2009., a više detalja dostupno je u resursima na Amherst Collegeu. Osim toga, skup podataka dostupan je putem nycflights13 paketa Hadleyja Wickhama na CRAN-u (Comprehensive R Archive Network, popularnom spremištu za R programske pakete).

Istražit ćemo ove podatke i ponoviti mjere koje smo do sada naučili.

Tablica 1. Sažetak statističkih pokazatelja o letovima

Pokazatelj dep_delay arr_delay air_time udaljenost
Važeća opažanja 328521 327346 327346 336776
Opažanja koja nedostaju 8255 9430 9430 0
Mod -5 -13 42 2475
Medijan -2 -5 129 872
25. percentil (Q1) -5 -17 82 502
25. percentil (Q3) 11 14 192 1389
Aritmetička sredina 12.6391 6.8954 150.6865 1039.9126
Standardna devijacija 40.2101 44.6333 93.6883 733.2330
Koeficijent varijacije 3.1814 6.4729 0.6217 0.7051
IQR 16 31 110 887
Varijanca 1616.8490 1992.1307 8777.4984 537630.6812
Mjera asimetrije (skewness) 4.8025 3.7168 1.0707 1.1287
Mjera zaobljenosti (kurtosis) 43.9501 29.2330 0.8631 1.1936
Raspon varijacija 1344 1358 675 4966
Minimum -43 -86 20 17
Maksimum 1301 1272 695 4983

Izračunato koristeći JASP

Tablica sadrži pokazatelje deskriptivne statistike za nekoliko varijabli iz skupa podataka, koje ćemo opisati i interpretirati jednu po jednu, pri čemu se usmjeravamo na oblik distribucije varijabli. Varijable uključuju dep_delay (kašnjenje polaska), arr_delay (kašnjenje dolaska), air_time (trajanje leta) i udaljenost.

Ovdje je važno napomenuti da su vrijednosti izračunate koristeći JASP te je referentna vrijednost za mjeru asimetrije i mjeru zaobljenosti 0. Osobito je važno obratiti pozornost na mjeru zaobljenosti, jer se pri klasičnom izračunu α_4 kao referentna vrijednost koristi 3. Rezimirajmo ključne aspekte iščitavanja.

Podloga za razumijevanje tumačenja

Mjera asimetrije (Skewness):

  • Kad je izračunata vrijednost mjere asimetrije 0, distribucija je savršeno simetrična, što znači da su podaci podjednako raspoređeni s obje strane prosjeka. U normalnoj distribuciji, prosjek, medijan i mod su jednaki i nalaze se na sredini distribucije.

Slika 1. Prikaz simetrične distribucije

  • Ako je izračunata vrijednost mjere asimetrije pozitivna (veća od 0), distribucija ima izduženi desni krak. To znači da je većina opažanja pozicionirana oko nižih vrijednosti, ali postoje podaci s većim vrijednostima koje rastežu desni krak distribucije i povlače prosjek prema gore. U takvoj distribuciji, mod je najmanja vrijednost, medijan je veći od moda, a aritmetička sredina je veća od medijana. Za takvu distribuciju kažemo da je pozitivno asimetrična ili desnostrano asimetrična.

Slika 2. Prikaz desnostrano (pozitivno) asimetrične distribucije

  • Ako je izračunata vrijednost mjere asimetrije negativna (manja od 0), distribucija ima izduženi lijevi krak. To znači da je većina opažanja pozicionirana oko većih vrijednosti, ali postoje podaci s nižim vrijednostima koje rastežu lijevi krak distribucije i povlače prosjek prema dolje. U takvoj distribuciji, mod je najveća vrijednost, medijan je manji od moda, a aritmetička sredina je manja od medijana. Za takvu distribuciju kažemo da je negativno asimetrična ili lijevostranostrano asimetrična.

Slika 3. Prikaz lijevostrano (negativno) asimetrične distribucije

Mjera zaobljenosti (Kurtosis):

  • Kad je izračunata vrijednost mjere zaobljenosti 0 (ili blizu 3 kada koristimo Pearsonovu mjeru zaobljenosti), distribucija ima ‘normalan’ stupanj zaobljenosti, koji nazivamo mesokurtičan. To znači da je koncentracija podataka oko prosjeka u skladu s normalnom (zvonolikom) distribucijom.

Slika 4. Prikaz normalne distribucije - referentni oblik za tumačenje zaobljenosti

  • Kad je izračunata pozitivna vrijednost mjere zaobljenosti (kurtosis > 0 ili > 3), to ukazuje na leptokurtičnu distribuciju, koja je vrhom izduženija od normalne te ima izduženije i tanje krakove od normalne distribucije. Ovakva distribucija sugerira da podaci imaju veću koncentraciju oko prosjeka.

Slika 5. Prikaz leptokurtične distribucije (vrhom izduženije od normalne distribucije)

  • Kad je izračunata negativna vrijednost mjere zaobljenosti (kurtosis < 0 ili < 3), to ukazuje na platikurtičnu distribuciju, koja je vrhom spljoštenija od normalne i ima deblje krakove distribucije, što znači da su podaci raspršeniji široko od prosjeka.

Slika 6. Prikaz platikurtične distribucije (vrhom spljoštenije od normalne distribucije)




Iščitavanje i tumačenja

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 7. Histogram kašnjenja polazaka

Pozitivnu i veliku vrijednost mjere asimetrije od (4,80) tumačimo kao izraženu desnostrano asimetričnu distribuciju kašnjenja polazaka. To možemo i vizualno potvrditi uvidom u histogram, na kojem vidimo većinu vrijednosti koncentriranu oko manjih vrijednosti, kreirajući visoke stupce oko nule, te dugi krak na desnoj strani distribucije na kojem se relativno mali broj opažanja proteže do velikih vrijednosti.

Visoka vrijednost mjere zaobljenosti (43,95) sugerira da je distribucija izrazito šiljasta, odnosno vrhom izduženija od normalne. Ovakva se situacija pojavljuje kod distribucija varijabli u kojima je većina vrijednosti koncentrirana u malom rasponu, a postoji manji udio opažanja koji se proteže izvan tog raspona. Histogram pokazuje da je većina kašnjenja polaska grupirana oko 0, sa značajnim brojem negativnih vrijednosti koje ukazuju na rane odlaske. Postoji dugačak desni krak koji se proteže na više od 1200 minuta, što pokazuje da, iako većina letova polaže na vrijeme ili ranije, neki doživljavaju ekstremna kašnjenja.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 8. Histogram kašnjenja dolazaka

Pozitivna vrijednost mjere asimetrije od 3.72 ukazuje na desnostrano asimetričnu distribuciju, što potvrđuje dugi desni krak uočen na histogramu. Mjera zaobljenosti (29,23) je visoka, ali niža od one za kašnjenje polaska, što ukazuje na to da, iako je distribucija vrhom izduženija i sklona ekstremnim netipičnim vrijednostima, nije tako izražena kao za kašnjenje polaska. Slično kašnjenju polaska, histogram kašnjenja dolaska pokazuje da je većina vrijednosti pozicionirana oko 0, s većom koncentracijom negativnih vrijednosti (što ukazuje na rane dolaske). Desni krak se proteže na vrijednosti dulje od 1200 minuta, iako manje dramatično nego kod kašnjenja polaska.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 9. Histogram trajanja letova

Manje izražena pozitivna asimetričnost distribucije trajanja letova iskazana je mjerom asimetrije od 1,07, a što se odražava u izduženom desnom kraku histograma. Kurtoza (0,86) ukazuje na vrhom blago izduženiju distribuciju od normalne. Histogram trajanja letova pokazuje relativno normalnu distribuciju, s najvećom frekvencijom u razredu od 100 do 150 minuta. Desni krak je manje izražen u usporedbi s varijablama kašnjenja polazaka i dolazaka.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 10. Histogram udaljenosti

Izračunata veličina mjere asimetrije od 1.13 ukazuje na desnostranu asimetriju distribucije udaljenosti letova, što odražavaju dulje letove koji se nalaze na desnom kraku histograma. Zaobljenost od 1.19 sugerira da je distribucija vrhom izduženija od normalne. Histogram udaljenosti pokazuje su najčešće vrijednosti oko 600-800 milja te 1000-1200 milja, uz još jedan mod oko 2400-2600 milja, s izdvojenicama na desnom kraku koje protežu krak do 5000 milja. To ukazuje na to da, iako većina letova pokriva udaljenosti između 0 i 2600 milja, postoje mnogo duži letovi koji povećavaju raspon varijacija i desni krak distribucije.

Slučaj: Nekretnine

Nastavljamo istraživati skup podataka o nekretninama, koji smo prethodno istraživali tijekom posljednjih tjedana.

Tablica 2. Sažetak statističkih pokazatelja o nekretninama

Pokazatelj Cijena Starost Životna površina Kamina Kupaonice Sobe
Važeća opažanja 1728 1728 1728 1728 1728 1728
Opažanja koja nedostaju 0 0 0 0 0 0
Mod a 120000 19 1480 1 2.5000
Medijan 189900 19 1634.5000 1 2 7
Aritmetička sredina 211966.7054 27.9161 1754.9757 0.6019 1.9002 7.0417
Standardna devijacija 98441.3910 29.2100 619.9356 0.5561 0.6584 2.3165
Koeficijent varijacije 0.4644 1.0463 0.3532 0.9240 0.3465 0.3290
IQR 114000 21 837.7500 1 1 3.2500
Varijanca 9.6907×10+9 853.2234 384320.0897 0.3092 0.4334 5.3660
Mjera asimetrije (skewness) 1.5777 2.4978 0.9028 0.4011 0.3180 0.2792
Mjera zaobljenosti (kurtosis) 4.1915 7.4211 1.2740 0.7259 -0.4403 -0.5913
Raspon varijacija 770000 225 4612 4 4.5000 10
Minimum 5000 0 616 0 0 2
Maksimum 775000 225 5228 4 4.5000 12

Izračunato koristeći JASP

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 11. Histogram cijena

Prosječna cijena nekretnina je 211.967 dolara, što je više od medijana od 189.900 dolara, a što je više od moda od 120000, što ukazuje na desnostrano asimetričnu distribuciju. Izračunata vrijednost mjere asimetrije od 1,5777 sugerira da postoji nekoliko skupih nekretnina koje povlače prosjek prema gore. Histogram to potvrđuje, pokazujući koncentraciju nekretnina na nižim cijenama s dugim krakom koji se proteže prema višim cijenama. Izračunata vrijednost mjere zaobljenosti od 4.1915 ukazuje na leptokurtičku distribuciju, što znači da je distribucija vrhom izduženija uz ekstremne vrijednosti na krakovima. To je vidljivo i u histogramu, s nekolicinom nekretnina koje imaju iznimno visoke cijene.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 12. Histogram starosti nekretnina

Prosječna starost nekretnina je 27,92 godine, što je znatno više od medijana i moda od 19 godina. Izračunata vrijednost mjere asimetrije od 2,4978 sugerira da je većina nekretnina relativno nova, ali nekoliko puno starijih nekretnina povlači prosjek k većoj vrijednosti. Histogram potvrđuje da je u pitanju desnostrano asimetrična distribucija, s većinom nekretnina grupiranih u mlađoj dobi i dugim krakom na kojem se nalaze starije nekretnine. Izračunata vrijednost mjere zaobljenosti od 7,4211 ukazuje na leptokurtičku distribuciju, s vrhom izduženijim od normalne distribucije te ekstremnijim vrijednostima nego što se očekivalo u normalnoj distribuciji, što dokazuje prisutnost vrlo starih nekretnina u skupu podataka.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 13. Histogram životnih površina nekretnina

Prosječna životna površina je 1755 četvornih stopa, nešto više od medijana od 1634.5 četvornih stopa, koji je pak viši od moda (1480 četvornih stopa). Izračunata vrijednost mjere asimetrije od 0,9028 ukazuje na blago izraženu pozitivno asimetričnu distribuciju. Histogram pokazuje distribuciju u obliku zvona s izduženijim desnim krakom, što ukazuje na to da, dok većina nekretnina ima stambene površine između 500 i 3000 četvornih stopa, neke veće površine za stanovanje povlače srednju vrijednost udesno. Izračunata vrijednost mjere zaobljenosti od 1,274 sugeriraju distribuciju koja je vrhom malo više izdužena od normalne distribucije.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 14. Histogram distribucije kamina

Broj kamina ima prosjek od 0,60, niži od medijana i moda (1 kamin). Dok većina nekretnina nema kamin ili ima jedan kamin, nekolicina ima i do četiri kamina. Iako veće vrijednosti u ovom slučaju nisu toliko izražene ni mnogobrojne da odvuku prosjek prema većim vrijednostima, distribucija je pozitivno asimetrična. To možemo potvrditi vizualno te izračunatom vrijednosti mjere asimetrije od 0,4011. Ovdje je u pitanju blago izražena pozitivna asimetrija. Izračunata vrijednost mjere zaobljenosti od 0,7259 sugerira distribuciju koja vrhom blago izduženija od normalne.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 15. Histogram distribucije kupaonica

Promatrane nekretnine najčešće imaju 2,5 kupaonice, medijan je 2, a prosječan broj kupaonica je 1,90, što upućuje na blago izraženu negativno asimetričnu distribuciju. No, u obzir treba uzeti i raspon, koji se kreće do 4,5 kupaonica i izdužuje desni krak distribucije, no radi se o malim vrijednostima koje se ne pojavljuju dovoljno često da bi utjecale na vrijednosti aritmetičke sredine i medijana. Izračunata vrijednost mjere asimetrije od 0,3180 ukazuje na blago izraženu pozitivnu asimetriju distribucije. Dakle, iako su nam uvidi koje možemo dobiti od odnosa aritmetičke sredine, medijana i moda u većini situacija korisni i upućuju na isti zaključak kao i mjera asimetrije, ne možemo uvijek koristiti samo tu prečicu, osobito kad je u pitanju uski raspon vrijednosti s malim vrijednostima. Izračunata vrijednost mjere zaobljenosti od -0,4403 ukazuje na to da je distribucija vrhom malo spljoštenija od normalne.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 16. Histogram distribucije prostorija

Broj soba u skupu podataka ima prosjek od 7,04, a medijan i mod su 7, što inicijalno ukazuje na relativno simetričnu distribuciju. Izračunata vrijednost mjere asimetrije od 0,2792 prilično je niska, što sugerira vrlo blagu pozitivnu asimetriju podataka. Ovako male vrijednosti mjere asimetrije često tumačimo kao približno simetričnu distribuciju. Histogram pokazuje distribuciju u obliku zvona, s nešto težim krakovima. Izračunata vrijednost mjere zaobljenosti od -0,5913 ukazuje na distribuciju koja je vrhom malo spljoštenija od normalne distribucije.

Slučaj: Dijamanti

Vraćamo se skupu podataka o dijamantima. Usmjeravamo pozornost na iščitavanje mjera asimetrije i zaobljenosti te tumačenje oblika distribucije.

Tablica 3. Sažetak statističkih pokazatelja o dijamantima

Pokazatelj Veličina Cijena Dubina
Važeća opažanja 2690 2690 2690
Opažanja koja nedostaju 0 0 0
Mod 1.0100 1037 62.2000
Medijan 0.9000 3604 61.9000
Aritmetička sredina 0.8701 3971.4714 61.7115
Standardno odstupanje 0.3222 2420.2342 1.2101
Koeficijent varijacije 0.3703 0.6094 0.0196
IQR 0.4600 3743 1.5000
Varijanca 0.1038 5.8575×10+6 1.4643
Mjera asimetrije (skewness) 0.3199 0.6857 -0.6624
Mjera zaobljenosti (kurtosis) -0.4889 -0.5057 0.3234
Raspon varijacija 1.7200 9000 7.9000
Minimum 0.3000 1000 56.4000
Maksimum 2.0200 10000 64.3000
25. percentil (Q1) 0.6000 1801 61
25. percentil (Q3) 1.0600 5544 62.5000

Izračunato koristeći JASP

Podloga za razumijevanje izračuna

Prije nego se posvetimo daljnjem tumačenju, promotrit ćemo izračune mjere asimetrije i mjere zaobljenosti. Razmatranjem kako se te mjere izračunavaju, dobit ćemo dublje razumijevanje njihove svrhe i primjene. Ponovo ćemo koristiti istih 10 podataka za negrupirane podatke za koje su prikazani izračuni mjera disperzije. Za prikaz izračuna ovih mjera za grupirane podatke, koristit će se svi podaci, grupirani na isti način kao u prikazu izračuna mjera disperzije. Nadalje, za mjeru zaobljenosti, ovdje će se prikazati izračun koristeći dvije standardizirane mjere (jedna se češće koristi u statističkim softverima, dok će se druga češće naći u uvodnim udžbenicima iz statistike).

Mjera asimetrije

\[ \alpha_3 = \frac{\mu_3}{s^3} \]

α₃ je Fisherov koeficijent asimetrije na bazi momenata; ponekad se referira i kao Pearsonov koeficijent asimetrije – iako postoje još druge dvije Pearsonove mjere asimetrije (temeljene na odnosu medijana i moda s aritmetičkom sredinom), pa je poželjno pripaziti pri navođenju.

Način izračuna trećeg momenta oko sredine i standardne devijacije, kao pomoćnih radnji za izračun α₃, razlikovat će se ovisno o tome računamo li asimetriju uzorka ili populacije:

Populacija:

\[ \mu_3 = \frac{\sum (x_i - \mu)^3}{N} \]

\[\sigma^2 = \frac{\sum (x_i - \mu)^2}{N}\]

\[\sigma = \sqrt{\sigma^2}\]

Dobivene vrijednosti uvrštavaju se u:

\[ \alpha_3 = \frac{\mu_3}{\sigma^3} \]

Uzorak:

\[ \mu_3 = \frac{\sum (x_i - \bar{x})^3}{n - 1} \]

\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1} \]

\[ s = \sqrt{s^2} \]

Dobivene vrijednosti uvrštavaju se u:

\[ \alpha_3 = \frac{\mu_3}{s^3} \]

Također, postoji razlika u izračunu i ako koristimo grupirane podatke. Tada se koriste ove formule:

Populacija:

\[ \mu_3 = \frac{\sum f_i (x_i - \mu)^3}{N} \]

\[\sigma^2 = \frac{\sum f_i (x_i - \mu)^2}{N}\]

\[\sigma = \sqrt{\sigma^2}\]

\[ \alpha_3 = \frac{\mu_3}{\sigma^3} \]

Uzorak:

\[ \mu_3 = \frac{\sum f_i (x_i - \bar{x})^3}{n - 1} \]

\[ s^2 = \frac{\sum f_i (x_i - \bar{x})^2}{n - 1} \]

\[ s = \sqrt{s^2} \]

\[ \alpha_3 = \frac{\mu_3}{s^3} \]

Dakle, pri izračunu mjere asimetrije za negrupirane podatke, korisno je kreirati pomoćne stupce za izračun \((x_i - \bar{x})^2\) te \((x_i - \bar{x})^3\). Slično tome, pri ručnom izračunu mjere asimetrije za grupirane podatke, najčešće se kao pomoćne radnje kreiraju stupci \(f_i x_i\), \((x_i - \bar{x})\), \((x_i - \bar{x})^2\), \((x_i - \bar{x})^3\), \(f_i (x_i - \bar{x})^2\) te \(f_i (x_i - \bar{x})^3\).

Mjera asimetrije, \(α_3\), tumači se na sljedeći način:

  • \(\alpha_3 < 0\) ⇒ lijevostrano asimetrična distribucija ili negativno asimetrična distribucija (izduženi krak je na lijevoj strani i većina odstupanja je na lijevoj strani, zbog čega mjera dobiva negativni predznak)
  • \(\alpha_3 = 0\) ⇒ simetrična distribucija (postoji podjednako odstupanja s lijeve i desne strane od prosjeka)
  • \(\alpha_3 > 0\) ⇒ desnostrano asimetrična distribucija ili pozitivno asimetrična distribucija (izduženi krak je na desnoj strani i većina odstupanja je na desnoj strani, zbog čega mjera dobiva pozitivni predznak)

Mjera zaobljenosti

Izvorna mjera zaobljenosti (ili kurtoze iz grč. κυρτός, kyrtos ili kurtos, što znači zakrivljenost ili luk) distribucije je Pearsonova mjera bazirana na četvrtom momentu oko sredine.

\[ \alpha_4 = \frac{\mu_4}{s^4} \]

Način izračuna četvrtog momenta oko sredine i standardne devijacije, kao pomoćnih radnji za izračun α₄, razlikovat će se ovisno o tome računamo li zaobljenost uzorka ili populacije:

Populacija:

\[ \mu_4 = \frac{\sum (x_i - \mu)^4}{N} \]

\[\sigma^2 = \frac{\sum (x_i - \mu)^2}{N}\]

\[\sigma = \sqrt{\sigma^2}\]

\[ \alpha_4 = \frac{\mu_4}{\sigma^4} \]

Uzorak:

\[ \mu_4 = \frac{\sum (x_i - \bar{x})^4}{n - 1} \]

\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1} \]

\[ s = \sqrt{s^2} \]

\[ \alpha_4 = \frac{\mu_4}{s^4} \]

U nazivniku se može koristiti i varijanca na kvadrat. Na taj način se može ‘uštedjeti’ jedan korak (korjenovanje varijance da bi se dobila standardna devijacija).

Također, postoji razlika u izračunu i ako koristimo grupirane podatke. Tada se koriste:

Populacija:

\[ \mu_4 = \frac{\sum f_i (x_i - \mu)^4}{N} \]

\[\sigma^2 = \frac{\sum f_i (x_i - \mu)^2}{N}\]

\[\sigma = \sqrt{\sigma^2}\]

Dobivene vrijednosti uvrštavaju se u:

\[ \alpha_4 = \frac{\mu_4}{\sigma^4} \]

Uzorak:

\[ \mu_4 = \frac{\sum f_i (x_i - \bar{x})^4}{n - 1} \]

\[ s^2 = \frac{\sum f_i (x_i - \bar{x})^2}{n - 1} \]

\[ s = \sqrt{s^2} \quad \sigma = \sqrt{\sigma^2} \]

Dobivene vrijednosti uvrštavaju se u:

\[ \alpha_4 = \frac{\mu_4}{s^4} \]

Dakle, pri izračunu mjere zaobljenosti za negrupirane podatke, korisno je kreirati pomoćne stupce za izračun \((x_i - \bar{x})^2\) te \((x_i - \bar{x})^4\). Slično tome, pri ručnom izračunu mjere zaobljenosti za grupirane podatke, najčešće se kao pomoćne radnje kreiraju stupci \(f_i x_i\), \((x_i - \bar{x})\), \((x_i - \bar{x})^2\), \((x_i - \bar{x})^4\), \(f_i (x_i - \bar{x})^2\) te \(f_i (x_i - \bar{x})^4\).




Pearsonova mjera zaobljenosti, α₄, tumači se na sljedeći način:

  • α₄ > 3 ⇒ distribucija je vrhom izduženija od normalne i ima izdužene krakove
  • α₄ = 3 ⇒ distribucija je normalna
  • 1,8 < α₄ < 3 ⇒ distribucija je vrhom spljoštenija od normalne
  • α₄ = 1,8 ⇒ distribucija je pravokutnog oblika
  • α₄ < 1,8 ⇒ distribucija je U-oblika

Prekomjerna kurtoza definirana je kao Pearsonova mjera zaobljenosti minus 3. Na taj se način uzima u obzir samo odstupanje od oblika normalne distribucije.

\[ \text{Prekomjerna kurtoza} = \alpha_4 - 3 \]

Pri iščitavanju, razlikuju se tri osnovna oblika:

  • Distribucije za koje je izračunata 0 prekomjerne kurtoze nazivaju se mezokurtičke. Tipično se radi o normalnoj distribuciji (koju koristimo kao referentnu distribuciju u tumačenjima), ali postoji i nekolicina drugih distribucija za koje se može izračunati ovakva vrijednost.

  • Distribucija s pozitivnim ekscesom kurtoze naziva se leptokurtička (‘lepto’ = ‘vitko’). Ovakva distribucija je vrhom izduženija od normalne i ima duge krakove.

  • Distribucija s negativnim ekscesom kurtoze naziva se platikurtička (‘platy-’ = ‘široko’). Ovakva distribucija je vrhom spljoštenija od normalne i često ima kraće repove. Ekstreman primjer s mjerom prekomjerne kurtoze od -2 je pravokutna distribucija (na primjer, Bernoulijeva distribucija uz \(p=1/2\) – ova referenca će biti jasnija kroz nekoliko tjedana).

U statističkim softverima, najčešće se koristi prilagođen izraz za izračun. Taj izraz sadrži \(\frac{n(n+1)}{(n-1)(n-2)(n-3)}\) , čija je svrha prilagoditi četvrti moment oko sredine s ciljem smanjivanja pristranosti u malim uzorcima te \(\frac{3(n-1)}{(n-2)(n-3)}\), što služi uklanjanju prekomjerne kurtoze i svođenje mjere na nulu za normalno distribuirane varijable. Na taj način distribucije možemo uspoređivati s normalnom distribucijom kao referentnim oblikom. Ovi faktori korekcije implicitno su bazirani su na Besselovom faktoru korekcije \(\frac{1}{n-1}\), kojeg smo zapravo prvi put upotrijebili još kod izračuna varijance uzorka. Naime, kad računamo mjere disperzije, asimetrije i zaobljenosti koje se oslanjaju na odstupanja od prosjeka, pritom koristimo prosjek uzorka (ne znamo koji je prosjek populacije). Bessel je dokazao da će odstupanja od prosjeka uzorka, u pravilu, biti veća od odstupanja od prosjeka populacije, pa je zbog toga potrebno primijeniti faktor korekcije. Za razliku u izračunatim vrijednostima temeljem podataka populacije i uzorka kažemo da predstavlja pristranost, pri čemu ta pristranost proizlazi iz rada s uzorkom. Pojednostavljeno, pristranost je razlika u vrijednosti pokazatelja uzorka u odnosu na parametar populacije. Kažemo da taj faktor korekcije smanjuje pristranost koja bi inače nastala zbog izračuna temeljem uzorka umjesto populacije i poboljšava preciznost kada radimo s manjim uzorcima.

\[ \text{Prekomjerna kurtoza} = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \sum \left(\frac{x_i - \bar{x}}{s}\right)^4 - \frac{3(n-1)^2}{(n-2)(n-3)} \]

Ovaj posljednji pristup koristi se npr. u JASP-u, R-u i MS Excelu. To treba imati na umu pri tumačenju rezultata dobivenih temeljem tih softvera.




Mjere asimetrije i zaobljenosti negrupiranih podataka

Posvetimo se prvo izračunu pokazatelja za negrupirane podatke. Radi se o prvih deset opažanja o veličini dijamanata.

Tablica 4. Pomoćna tablica za izračun mjera asimetrije i zaobljenosti

\(x_i\) \(x_i - \bar{x}\) \((x_i - \bar{x})^2\) \((x_i - \bar{x})^3\) \((x_i - \bar{x})^4\) \(\frac{x_i - \bar{x}}{s}\) \(\left(\frac{x_i - \bar{x}}{s}\right)^4\)
0.3 -0.142 0.02016 -0.0028632880 0.0004065869 -1.29412 2.80479
0.31 -0.132 0.01742 -0.0022999680 0.0003035958 -1.20299 2.09432
0.36 -0.082 0.00672 -0.0005513680 0.0000452122 -0.74731 0.31189
0.4 -0.042 0.00176 -0.0000740880 0.0000031117 -0.38277 0.02147
0.43 -0.012 0.00014 -0.0000017280 0.0000000207 -0.10936 0.00014
0.44 -0.002 0.00000 -0.0000000080 0.0000000000 -0.01823 0.00000
0.47 0.028 0.00078 0.0000219520 0.0000006147 0.25518 0.00424
0.52 0.078 0.00608 0.0004745520 0.0000370151 0.71086 0.25534
0.53 0.088 0.00774 0.0006814720 0.0000599695 0.80199 0.41369
0.66 0.218 0.04752 0.0103602320 0.0022585306 1.98675 15.58020
Ukupno 0 0.10836 0.0057477600 0.0031146571 0 21.48608

Kao pomoćna radnja, u prvom stupcu imamo odstupanja (razlike) vrijednosti pojedinačnih opažanja od prosjeka. Njihova suma daje nulu i time smo samo potvrdili prvo svojstvo aritmetičke sredine. Štoviše, ako bismo tu sumu podijelili s brojem opažanja minus jedan, zapravo bismo izračunali prvi moment oko sredine. Prvi moment oko sredine jednak je konstanti, odnosno 0, za bilo koji niz podataka.

U sljedećem stupcu računati su kvadrati odstupanja (razlika) vrijednosti pojedinačnih opažanja od prosjeka. Njihova je suma jednaka 0.10836. Ova suma, sama po sebi, nije prepoznatljiva, ali provedeni postupak vezan je uz drugo svojstvo aritmetičke sredine, prema kojem suma kvadrata odstupanja vrijednosti opažanja od prosjeka daje minimum. Ako tu sumu podijelimo brojem opažanja (minus 1, isto, jer je u pitanju uzorak), dobivamo drugi moment oko sredine. A drugi moment oko sredine ima svoj puno popularniji naziv – varijanca.

\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1} = \frac{0,10836}{9} = 0,012 \]

Iz varijance izračunavamo standardnu devijaciju, na način da zadržimo pozitivno rješenje drugog korjena iz varijance.

\[ s = \sqrt{s^2} = \sqrt{0,012} = 0,1095 \]

U sljedećem stupcu računati su kubovi odstupanja (razlika) vrijednosti pojedinačnih opažanja od prosjeka. Ovdje više nisu u pitanju svojstva aritmetičke sredine, ali je u pitanju treći moment oko sredine. Svaki od momenata oko sredine na specifičan način bilježi karakteristike distribucije. Treći moment je prvi ‘iskoristivi’ moment oko sredine s neparnom potencijom. Ta neparna potencija je važna zbog toga što zadržava minuse pri potenciranju odstupanja vrijednosti pojedinačnih opažanja od prosjeka. Pa, ako postoji više negativnih odstupanja nego pozitivnih, minus ostaje u rezultatu i signalizira da višak odstupanja nastaje na lijevom kraku distribucije. Na sličan način, ako postoji više pozitivnih od negativnih odstupanja, to će biti zabilježeno u rezultatu trećeg momenta oko sredine i signalizirat će višak odstupanja koja nastaju na desnom kraku distribucije.

\[ \mu_3 = \frac{\sum (x_i - \bar{x})^3}{n - 1} = \frac{0,0057}{9} = 0,00066 \]

\[ \alpha_3 = \frac{\mu_3}{s^3} = \frac{0,00066}{0,1095^3} = 0,5027 \]

Distribucija vrijednosti prvih deset opažanja veličina dijamanata približno je blago pozitivno asimetrična. Vrijednost mjere asimetrije je blizu nule, pa možemo tumačiti i na način da je distribucija približno simetrična. No, ako želimo biti detaljisti, reći ćemo da postoji vrlo blaga pozitivna asimetrija distribucije veličina dijamanata.

Izračunata vrijednost od 0.5027 signalizira da postoji više odstupanja od prosjeka na desnom kraku distribucije u odnosu na odstupanja na lijevom kraku. Doduše, radi se o malim odstupanjima.

No, također, važno je voditi računa o tome da ćemo za male uzorke, gotovo uvijek dobivati i vrlo mala odstupanja od simetrije, čak i kad distribucija populacije zapravo nije simetrična. To se događa zato što su mali uzorci skloniji varijabilnosti, a odstupanja od simetrije su manje izražena ili se čak mogu poništiti zbog slučajnih varijacija u podacima. Tako da, čak i kad postoji određeni stupanj asimetrije u populaciji, mali uzorci mogu dovesti do vrijednosti koje su blizu nule. Važno je napomenuti da su mali uzorci općenito podložni slučajnim varijacijama, što utječe na stabilnost procjena mjera poput asimetrije i kurtoze (ali i drugih). Kod malih uzoraka, interpretacija simetrije i zaobljenosti može biti nepouzdana, pa se preporučuje oprez i tumačenje tako izračunatih vrijednosti s rezervom. Kako se uzorak povećava, procjene asimetrije i kurtoze (kao i svih ostalih pokazatelja) postaju stabilnije i pružaju pouzdaniji prikaz stvarne distribucije u populaciji.

Sljedeći pomoćni stupac izračunava odstupanja (razlike) vrijednosti pojedinačnih opažanja od prosjeka na četvrtu. Suma tih vrijednosti daje brojnik četvrtog momenta oko sredine. Time se postiže da su sva odstupanja pozitivna jer, bez obzira na to je li odstupanje pozitivno ili negativno, potenciranjem na četvrtu potenciju dobivamo pozitivan rezultat. To znači da nam četvrti moment ne pokazuje smjer odstupanja, kao što to čini treći moment, već isključivo njihovu veličinu. Potenciranjem na četvrtu potenciju dodatno se pojačava osjetljivost na ekstremne vrijednosti, odnosno izdvojenice u podacima. Velika odstupanja od prosjeka sada će dobiti još veću težinu u ukupnom rezultatu. Stoga je četvrti moment još osjetljiviji na zaobljenost distribucije i na raspored podataka oko prosjeka. Visoka vrijednost četvrtog momenta sugerira koncentraciju podataka oko prosjeka s naglaskom na izdužene krakove distribucije, što znači da podaci imaju veću tendenciju pojavljivanja oko sredine. S druge strane, niža vrijednost četvrtog momenta ukazuje na spljošteniju distribuciju, odnosno ravnomjerniju raspodjelu podataka i manje izdužene krakove.

\[μ_4=\frac {\sum (x_i- \bar{x})^4}{n-1}= \frac{0.003115}{9}=0,000346\]

\[α_4=\frac{μ_4}{s^4} =\frac{0,000346}{0,1095^4} =2,407\]

Izračunata vrijednost mjeri ukupnu zaobljenost distribucije podataka. Kako je izračunata vrijednost veća od 1,8 i manja od 3, tumačimo na način da je distribucija vrhom spljoštenija od normalne.

\[ \text{Prekomjerna kurtoza} = \frac{\mu_4}{s^4} - 3 =2,407-3=-0,59 \]

Oduzimanjem 3 od prethodnog rezultata, dobiva se prekomjerna kurtoza. Provjerimo hoće li se izračunata vrijednost podudarati s izrazom koji koristi faktore korekcije.

Pri izračunu prekomjerne kurtoze, koristi se standardizirano obilježje, \(Z=\frac{(x_i-\bar{x})}{s}\). Taj izraz imamo u pretposljednjem stupcu tablice. S obzirom da se radi o standardizaciji pojedinačnih obilježja, suma tih vrijednosti i dalje daje nulu, kao i suma odstupanja pojedinačnih opažanja od prosjeka. Zbog toga u sljedećem stupcu računamo standardizirane vrijednosti na četvrtu. Sumu tih opažanja uvrštavamo na mjesto \(\sum(\frac {x_i-\bar{x}}{s} )^4\).

\[\text{Prekomjerna kurtoza} = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \sum \left(\frac{x_i - \bar{x}}{s}\right)^4 - \frac{3(n-1)^2}{(n-2)(n-3)} \]

\[ = \frac{10(10+1)}{((10-1)(10-2)(10-3))} \cdot 21,486 - \frac{3(10-1)^2}{(10-2)(10-3)} = 0,21825 \cdot 21,486-4,3393=0,35\]

Vrijednost prekomjerne kurtoze od 0,35 ukazuje na blago leptokurtičnu distribuciju koja je vrhom blago izduženija i ima izduženije krakove od normalne distribucije.

Klasični pristup izračunu prekomjerne kurtoze koristi standardnu definiciju četvrtog momenta bez korektivnih faktora i prikladan je za veće uzorke gdje pristranost nije jako izražena. Međutim, kod malih uzoraka, ovaj pristup može navesti na pogrešan zaključak o kurtozi, jer ne prilagođava rezultat prirodnom “šumu” koji proizlazi iz ograničene veličine uzorka.

S druge strane, izračun prekomjerne kurtoze s korektivnim faktorima uključuje prilagodbe koje smanjuju pristranost kod manjih uzoraka, čime se postiže konzistentniji rezultat u različitim uvjetima uzorkovanja. Ovaj izračun omogućava da prekomjerna kurtoza za normalno distribuiranu populaciju uistinu bude bliža nuli, a odstupanja od nule jasnije ukazuju na to je li distribucija vrhom spljoštenija ili izduženija. Upravo zbog toga mnogi statistički softveri koriste ovu prilagođenu formulu.

Prema klasičnoj metodi prekomjerna kurtoza iznosila je -0.59, dok je prema formuli s korektivnim faktorima iznosila 0.35, što je rezultat drugačijeg načina izračuna i korektivnih faktora koji ublažavaju negativan utjecaj malih uzoraka.

Ovdje ćemo se još kratko zadržati na ulozi standarde devijacije u zaobljenosti distribucije. Naime, standardna devijacija se koristi pri oba načina izračuna zaobljenosti. Niže su prikazane konture dviju distribucija. Obje imaju prosjek jednak 10, no prva ima standardnu devijaciju 1, a druga ima standardnu devijaciju 2. Kad usporedimo ove dvije distribucije, vizualno možemo prepoznati posljedicu povećanja standardne devijacije.

Slika 17. Prikaz kontura distribucija s manjom i većom standardnom devijacijom

Standardna devijacija ima ključnu ulogu u signaliziranju zaobljenosti distribucije jer bilježi širenje podataka oko prosjeka. Što su podaci šire raspoređeni oko prosjeka i standardna devijacija će biti veća, ali i vrijednost mjere zaobljenosti distribucije. Na primjeru ovih dviju distribucija, lako možemo primijetiti kako su varijacije šire distribucije, s više odstupanja od prosjeka, zabilježene u standardnoj devijaciji, također vidljive i u zaobljenosti te distribucije. Druga distribucija je vrhom spljoštenija. Prva distribucija, sa standardnom devijacijom od 1, ima ‘uži’ oblik, što odražava veću koncentraciju podataka oko prosjeka i možemo reći da je vrhom izduženija od druge distribucije. Ovo je zapravo pravilnost. Što je standardna devijacija veća, očekujemo da će mjera zaobljenosti (koja ima standardnu devijaciju u nazivniku) biti manja.



Ovaj prikaz kreiran je u Geogebri i omogućuje uvide u to kako se oblik distribucije mijenja za različite kombinacije aritmetičke sredine i standardne devijacije. Upravo te dvije mjere određuju oblik distribucije kontinuiranih kvantitativnih varijabli (više o toj temi govorit ćemo u narednim tjednima).

Još preostaje prikazati izračune za grupirane podatke.

Mjere asimetrije i zaobljenosti grupiranih podataka

Tablica 5. Grupirani podaci veličina dijamanata i pomoćni stupci za izračun mjera asimetrije i zaobljenosti

\(L1\) \(L2\) \(f_i\) \(x_i\) \(f_i x_i\) \(x_i - x̄\) \((x_i - x̄ )^2\) \(f_i (x_i - x̄ )^2\) \((x_i - x̄ )^3\) \(f_i (x_i - x̄ )^3\) \((x_i - x̄ )^4\) \(f_i (x_i - x̄ )^4\) \((x_i - x̄)/s\) \(f_i ((x_i - x̄)/s)^4\)
0.3 0.396 101 0.35 35.15 -0.53 0.2820 28.49 -0.14978 -15.13 0.07954 8.03 -1.68377 811.812
0.396 0.492 214 0.44 95.02 -0.44 0.1893 40.51 -0.08235 -17.62 0.03583 7.67 -1.37940 774.777
0.492 0.588 338 0.54 182.52 -0.34 0.1150 38.86 -0.03898 -13.18 0.01322 4.47 -1.07503 451.439
0.588 0.684 114 0.64 72.50 -0.24 0.0591 6.74 -0.01436 -1.64 0.00349 0.40 -0.77066 40.212
0.684 0.78 415 0.73 303.78 -0.15 0.0216 8.98 -0.00318 -1.32 0.00047 0.19 -0.46629 19.618
0.78 0.876 112 0.83 92.74 -0.05 0.0026 0.29 -0.00013 -0.01 0.00001 0.00 -0.16192 0.077
0.876 0.972 232 0.92 214.37 0.04 0.0020 0.47 0.00009 0.02 0.00000 0.00 0.14245 0.096
0.972 1.068 504 1.02 514.08 0.14 0.0199 10.01 0.00280 1.41 0.00039 0.20 0.44683 20.090
1.068 1.164 173 1.12 193.07 0.24 0.0561 9.71 0.01330 2.30 0.00315 0.55 0.75120 55.089
1.164 1.26 187 1.21 226.64 0.33 0.1108 20.73 0.03690 6.90 0.01229 2.30 1.05557 232.160
1.26 1.356 100 1.31 130.80 0.43 0.1840 18.40 0.07892 7.89 0.03385 3.38 1.35994 342.042
1.356 1.452 45 1.40 63.18 0.52 0.2756 12.40 0.14465 6.51 0.07593 3.42 1.66431 345.264
1.452 1.548 99 1.50 148.50 0.62 0.3856 38.17 0.23940 23.70 0.14865 14.72 1.96868 1487.092
1.548 1.644 39 1.60 62.24 0.72 0.5140 20.05 0.36850 14.37 0.26419 10.30 2.27305 1041.126
1.644 1.74 9 1.69 15.23 0.81 0.6609 5.95 0.53723 4.84 0.43673 3.93 2.57743 397.179
1.74 1.836 5 1.79 8.94 0.91 0.8262 4.13 0.75092 3.75 0.68253 3.41 2.88180 344.844
1.836 1.932 0 1.88 0.00 1.00 1.0099 0.00 1.01487 0.00 1.01987 0.00 3.18617 0.000
1.932 2.028 3 1.98 5.94 1.10 1.2120 3.64 1.33438 4.00 1.46906 4.41 3.49054 445.339
Ukupno 2690 2364.7 267.50 26.80 67.38 6808.257

\[ s^2 = \frac{\sum f_i (x_i - \bar{x})^2}{n - 1} = \frac{267.50}{2690 - 1} = 0.0995 \]

\[ s = \sqrt{s^2} = \sqrt{0.0995} = 0.3154 \]

Standardna devijacija od 0,3154 odražava umjerenu raspršenost podataka oko prosjeka.

\[ \mu_3 = \frac{\sum f_i (x_i - \bar{x})^3}{n - 1} = \frac{26.8}{2690 - 1} = 0.00997 \]

\[ \mu_4 = \frac{\sum f_i (x_i - \bar{x})^4}{n - 1} = \frac{67.38}{2690 - 1} = 0.0251 \]

\[ \alpha_3 = \frac{\mu_3}{\sigma^3} = \frac{0.00997}{0.3154^3} = 0.32 \]

Vrijednost asimetrije od 0,32 ukazuje na blago izraženu desnostranu asimetriju, odnosno da je distribucija malo izdužena na desnoj strani.

\[ \alpha_4 = \frac{\mu_4}{\sigma^4} = \frac{0.0251}{0.3154^4} = 2.53 \]

Vrijednost izračunate mjere asimetrije je između 1,8 i 3, pa možemo zaključiti da je distribucija vrhom spljoštenija od normalne. Na isti zaključak upućuje i prekomjerna kurtoza.

\[ \text{Prekomjerna kurtoza} = \alpha_4 - 3 = 2.53 - 3 = -0.47 \]

Za konačnu procjenu prekomjerne kurtoze primijenili smo izračun s korekcijskim faktorom kako bismo prilagodili rezultat radu s uzorkom. Izraz za izračun je prilagođen grupiranim podacima, pa umjesto \(\sum \left( \frac{x_i - \bar{x}}{s} \right)^4\) imamo \(\sum (f_i \left( \frac{x_i - \bar{x}}{s} \right)^4)\).

\[ \text{Prekomjerna kurtoza} = \frac{n(n + 1)}{(n - 1)(n - 2)(n - 3)} \cdot \sum ( f_i \left( \frac{x_i - \bar{x}}{s} \right)^4) - \frac{3(n - 1)^2}{(n - 2)(n - 3)} \]

\[ \text{Prekomjerna kurtoza} = \frac{2690(2690 + 1)}{(2690 - 1)(2690 - 2)(2690 - 3)} \cdot 6808.257 - \frac{3(2690 - 1)^2}{(2690 - 2)(2690 - 3)} = 0.00037 \cdot 6808.257 - 3.0056 = -0.4699 \]

Oba rezultata izračuna prekomjerne kurtoze potvrđuju vrhom blago zaobljeniju distribuciju od normalne, s vrijednostima prekomjerne kurtoze blizu -0.47. U usporedbi s prethodnim primjerom u kojem je u uzorak uzeto samo 10 opažanja i utvrđena su velika odstupanja u izračunima prekomjerne kurtoze prema različitim pristupima, u ovom slučaju ta je razlika bitno manja.

Tumačenja

Nastavimo s opisom distribucija preostalih odabranih varijabli iz ovog skupa podataka.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 18. Histogram veličina dijamanata

Veličina dijamanata u karatu pokazuje prosjek od 0,8701, što znači da je prosječni dijamant u ovom skupu podataka nešto manji od jednog karata. Medijan iznosi 0,90 karata, što sugerira da polovica dijamanata teži manje od 0,90 karata, a druga polovica više. Mod, ili najčešća vrijednost, je 1,01 karata, što ukazuje da su jednokaratni dijamanti najčešći. Standardna devijacija od 0,3222 odražava umjerenu varijabilnost u veličini karata, a koeficijent varijacije (0,3703) pokazuje razumnu relativnu varijabilnost. Izračunata veličina mjere asimetrije od 0,3199, što sugerira da je distribucija samo malo iskrivljena udesno, s nekoliko većih dijamanata koji povlače distribuciju. Dakle, distribucija veličina dijamanata je blago desnostrano asimetrična. Histogram to potvrđuje koncentracijom dijamanata oko 1 karata i izduženim krakom s većim veličinama karata. Izračunata mjera zaobljenosti od -0,4889 ukazuje na to da je distribucija vrhom nešto spljoštenija od normalne distribucije, što potvrđuje i ravnomjernije širenje podataka u rasponu.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 19. Histogram cijena dijamanata

Cijene dijamanata u ovom skupu podataka pokazuju značajnu varijabilnost, sa prosjekom od 3971.47 dolara i medijanom od 3604 dolara. Mod je mnogo niži i najčešće su kupovani dijamanti koji stoje 1037 dolara. Visoka standardna devijacija od 2420,23 dolara odražava značajne varijacije u cijenama dijamanata. Koeficijent varijacije (0,6094 ili 60,94%) dodatno potvrđuje umjerenu do visoku relativnu varijabilnost cijena. Mjera asimetrije od 0,6857 sugerira desnostrano asimetričnu distribuciju, što znači da, iako je većina dijamanata umjerene cijene, postoji nekoliko skupih dijamanata koji povlače distribuciju udesno. Ova asimetrija vidljiva je u histogramu, gdje se visina stupaca smanjuje kako cijene rastu. Mjera zaobljenosti je -0,5057, što ukazuje da je distribucija vrhom spljoštenija od normalne distribucije.

Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.

Slika 20. Histogram dubina dijamanata

Dubina dijamanata, mjerena kao postotak ukupne visine u odnosu na širinu, pokazuje manju varijabilnost od ostalih varijabli. Prosječna dubina je 61,71%, a medijan i mod su blizu (61,90%, odnosno 62,2%), što sugerira relativno simetričnu raspodjelu vrijednosti dubine. Niska standardna devijacija od 1,21 ukazuje na to da se dubine ne razlikuju mnogo u skupu podataka, a koeficijent varijacije (0,0196) podržava ovu nisku relativnu varijabilnost. No, distribucija je negativno ili lijevostrano asimetrična (-0,6624), što se odražava u lijevom kraku distribucije na histogramu. Kurtoza je 0,3234, što ukazuje na to da je distribucija dubine dijamanata vrhom nešto izduženija od normalne distribucije.

Pitanja za ponavljanje

  1. Varijabla dep_delay (kašnjenje polaska) iz skupa letova ima izračunatu mjeru asimetrije 4,8. Histogram pokazuje vrlo dugi desni krak. Koji zaključak je najtočniji?
  1. Distribucija je lijevostrano asimetrična, jer su negativne vrijednosti češće.
  2. Distribucija je blago simetrična, jer su izračunate vrijednosti mjere asimetrije uvijek zanemarive za kašnjenja letova.
  3. Distribucija je desnostrano asimetrična s dugim desnim krakom, što znači da nekoliko letova ima ekstremno velika kašnjenja i povlači srednju vrijednost.
  4. To je znak da su većina letova ekstremno kasnila, dok samo nekolicina poleti na vrijeme.

  1. Varijabla arr_delay (kašnjenje dolaska) ima pozitivnu mjeru asimetrije i nižu vrijednost mjere zaobljenosti od dep_delay (kašnjenje polaska). Što to govori?
  1. Da su kašnjenja dolaska normalno distribuirana.
  2. Da je raspodjela kašnjenja dolaska nešto manje “šiljata” (niža zaobljenost) i ipak desnostrano asimetrična, ali manje ekstremno nego kašnjenja polaska.
  3. Da je većina letova ujedno i negativno i pozitivno asimetrična.
  4. Da kašnjenja dolaska imaju potpuno istu distribuciju kao kašnjenja polaska, samo pomaknuto za 5 minuta.

  1. Za varijablu air_time (trajanje leta) naveden je izračun mjere asimetrije od 1,07 i mjere zaobljenosti (kurtosis) od 0,86. Koji zaključak najbolje opisuje oblik?
  1. Ovakav raspored vrijednosti trajanja leta potpuno je simetričan i nema izduženih krakova.
  2. Radi se o lijevostranoj asimetriji jer su dulji letovi u manjini i “vuku” distribuciju ulijevo.
  3. Distribucija je blago desnostrano asimetrična i vrhom pomalo izduženija od normalne.
  4. Raspodjela je dvomodalna: jedan mod u kratkim letovima i jedan u dugim letovima.

  1. Za “udaljenost” (distance) letova mjera zaobljenosti je 1,19 i mjera asimetrije 1,13. Histogram pokazuje tri moda (oko 600-800, 1000-1200 i oko 2400-2600 milja) te rijetke izuzetno duge letove. Kako to interpretirati?
  1. Tri modalne skupine znače da se mjere asimetrije i zaobljenosti ne mogu primijeniti.
  2. Pozitivna asimetrija (1,13) i zaobljenost (1,19) u kombinaciji s više modova ukazuju na to da postoji više grupa letova prema udaljenosti, ali i izduženi desni krak s izrazito udaljenim odredištima.
  3. Budući da su tri moda, raspodjela mora biti savršeno simetrična.
  4. Ako je histogram višemodalan, mjere asimetrije i zaobljenosti trebaju biti nula.

  1. U Tablici 2. za varijablu “Cijena” nekretnina navodi se mjera asimetrije (1,5777) i zaobljenosti (4,1915). Koja je najtočnija interpretacija takvog rezultata?
  1. Distribucija je lijevostrano asimetrična i vrhom spljoštenija od normalne.
  2. Vrlo visoka pozitivna asimetrija upućuje na izdvojenice s niskim cijenama, a visoka zaobljenost znači da su raspoređene ravnomjerno.
  3. Cijene su snažno desnostrano asimetrične (velik udio jeftinih nekretnina, mali udio iznimno skupih) i distribucija je vrhom izduženija (leptokurtična).
  4. Vrijednosti 1,5777 i 4,1915 su niske i govore o gotovo savršeno simetričnoj i mesokurtičnoj raspodjeli.

  1. Za varijablu “Starost” nekretnina mjera asimetrije iznosi 2,4978, a mjera zaobljenosti 7,4211. Koji zaključak je točan?
  1. Distribucija ima vrlo blagu pozitivnu asimetriju, a vrhom je spljoštenija od normalne.
  2. Većina nekretnina je mlađa - koncentrirane oko manjih godina starosti, dok su stare nekretnine rijetke, ali ekstremne.
  3. Starije nekretnine su u većini, zato je asimetrija negativna.
  4. Budući da su to diskontinuirane vrijednosti (broj godina), mjere asimetrije i zaobljenosti nisu relevantne.

  1. Broj kupaonica (“Bathrooms”) ima prosjek 1,90, dok je izračun asimetrije 0,3180, a mjera zaobljenosti -0,4403. Što to znači?
  1. Distribucija je negativno asimetrična, a vrijednost -0,44 za kurtosis znači dvomodalnu raspodjelu.
  2. Distribucija je blago desnostrano asimetrična, ali vrhom spljoštenija od normalne.
  3. S ovakvim mjerama, raspodjela mora biti dvomodalna i simetrična.
  4. Nema nikakve razlike u interpretaciji, to su slučajne brojke.

  1. Varijabla “Sobe” (Rooms) ima asimetriju 0,2792 i zaobljenost -0,5913. Histogram pokazuje raspodjelu s modom blizu 6-7 i krakom do 12. Koja je najtočnija procjena oblika?
  1. Pozitivna asimetrija (0,2792) je velika i znači da je većina nekretnina ekstremno asimetrična.
  2. Vrlo niska pozitivna asimetrija znači da je distribucija gotovo simetrična, dok -0,59 za kurtosis sugerira spljošteni “zvonoliko” oblikovan vrh.
  3. Negativna asimetrija i visoka zaobljenost.
  4. To je indikacija da varijabla nije kvantitativna.

  1. Kod dijamanata, varijabla “Veličina” (carat) ima asimetriju oko 0,3199 i kurtosis -0,4889. Histogram ukazuje na najčešću veličinu od oko 1 karata. Koji zaključak je ispravan?
  1. Prisutna je diskretna, dvomodalna distribucija, stoga se mjere asimetrije i zaobljenosti ne mogu izračunati.
  2. Mjere pokazuju da je raspodjela blago desno asimetrična i vrhom malo spljoštenija od normalne.
  3. Asimetrija ispod 1 znači ekstremnu lijevu asimetriju, a kurtosis ispod 0 znači ekstremno izdužen vrh.
  4. Veličina dijamanata ne može imati asimetriju jer je prosječna vrijednost ispod 1.

  1. Ako bi, na primjer, za varijablu “Veličina” (carat) netko izračunao klasičnu Pearsonovu mjeru zaobljenosti i dobio α₄ = 2,407, a prilagođenom metodom 0,35 prekomjerne kurtoze, procijenite zašto bi se rezultati mogli razlikovati?
  1. Klasični pristup ne koristi korekcijske faktore za uzorak, pa ako su uzorci mali, može dati drugačiju vrijednost.
  2. Jedna je mjera aritmetičke sredine, a druga geometrijske sredine.
  3. Mjera 0,35 govori o ekstremno velikoj leptokurtičnosti.
  4. Napravili su pogrešku u izračunu, jer Pearsonova mjera uvijek daje nulu.

  1. U skupu letova, netko uspoređuje “dep_delay” i “arr_delay” te utvrđuje da je asimetrija veća za “dep_delay”, a kurtosis viša za “arr_delay”. Koje tumačenje je najprihvatljivije?
  1. Polasci su simetrični, a dolasci nisu.
  2. Polasci imaju ekstremniji dugi desni krak, dok dolasci imaju nešto manju asimetriju, no više izdužen vrh.
  3. “arr_delay” i “dep_delay” su uvijek jednakih vrijednosti.
  4. Kurtosis nema smisla uspoređivati među dvije varijable s različitim mjerama.

  1. Varijabla Fireplaces (broj kamina) iz podataka o nekretninama, prema histogramu, najčešće ima 1 kamin, no mjera asimetrije iznosi 0,4011, a kurtosis 0,7259. Što to znači?
  1. Većina nekretnina ima nula ili jedan kamin, ali postoje izdvojenice s više kamina, što stvara desnostranu asimetriju i vrhom izduženiju distribuciju.
  2. Ako je mod = 1, distribucija mora biti savršeno simetrična.
  3. Diskretne varijable nikad ne mogu imati asimetriju ni zaobljenost.
  4. Takve mjere asimetrije i zaobljenosti upućuju na dvomodalnu distribuciju.

  1. Kad tumačimo mjeru asimetrije, zašto prekomjerna vrijednost (npr. α₃ = 4) ne znači nužno da 4 puta više podataka leži na desnoj strani?
  1. Jer se mjere asimetrije računaju samo za normalne distribucije, a ostale se ne smiju interpretirati.
  2. Asimetrija > 1 znači da se radi o savršeno simetričnoj raspodjeli.
  3. Numerička vrijednost koeficijenta asimetrije nije linearna “mjera postotka” asimetrije, već iskazuje intenzitet i smjer izduženosti kraka. D) Uvijek vrijedi da ako je asimetrija 4, postoje vrijednosti koje su četiri puta veće od prosjeka.

  1. Promatrajući varijablu “Dubina” (depth) kod dijamanata, mjera asimetrije iznosi -0,6624, a kurtosis je 0,3234. Histogram pokazuje najveći stupac blizu 62%, a dio dijamanata ima dubinu ispod 58%. Što je točan opis?
  1. Lijevostrano asimetrična raspodjela s vrhom malo izduženijim od normalne.
  2. Desnostrano asimetrična raspodjela s vrhom malo spljoštenijim od normalne.
  3. Lijevostrano asimetrična, ali kurtosis=0 znači točno normalna.
  4. Bimodalna distribucija i mjere asimetrije, zaobljenosti nisu primjenjive.

  1. Ako za varijablu “Dubina” (depth) netko dobije klasičnu prekomjernu kurtozu od -0,47, a prilagođenu (s korekcijskim faktorima) -0,4699, kako to tumačimo?
  1. Da se radi o velikoj razlici u interpretaciji, jer -0,47 i -0,4699 potpuno mijenjaju oblik distribucije.
  2. Neznatna razlika nastala je zbog prilagodbe manjeg uzorka, a obje vrijednosti upućuju na vrhom spljošteniju raspodjelu.
  3. Da jedna mjera pokazuje leptokurtičnost, a druga platikurtičnost.
  4. Da je varijabla “Dubina” diskontinuirana.

  1. Ako mjera asimetrije (skewness) za varijablu “arr_delay” iznosi 3,7168, dok mjera za “dep_delay” iznosi 4,8025, što možemo reći?
  1. Kašnjenja dolaska imaju višu asimetriju, što znači da je raspodjela centrirana na negativne vrijednosti.
  2. Kašnjenja polaska imaju višu asimetriju, što znači da imaju duži desni krak (nekoliko ekstremno kasnih polazaka).
  3. Uvijek vrijedi da “dep_delay” mora biti niža asimetrija od “arr_delay”.
  4. Nema razlike, asimetrija nije primjenjiva na minute.

  1. U kontekstu normalne distribucije, što znači ako Pearsonova mjera zaobljenosti iznosi 2,5?
  1. Distribucija je vrhom izduženija od normalne jer je 2,5 < 3.
  2. Distribucija je leptokurtična, jer se obično uzima da je normalna 3, a 2,5 je veće od normalnih 0.
  3. Vrijednost 2,5 predstavlja platikurtičku raspodjelu jer prelazi 1,8.
  4. Ako je kurtosis = 2,5, tada je prekomjerna kurtoza -0.5, što znači da je vrhom spljoštenija od normalne.

  1. Za varijablu “Starost” nekretnina netko dobije asimetriju 2,4978, a netko drugi 0,5. Kako je moguće da su došli do različitih rezultata?
  1. Jedan je možda radio s nepotpunim skupom podataka ili upotrijebio pogrešnu formulu (populacijsku umjesto uzorka).
  2. Asimetrija je uvijek blizu nule za varijablu Starost, pa je jedan rezultat sigurno ispravan.
  3. Starost je nominalna varijabla, pa mjere asimetrije nisu primjenjive.
  4. Nema mogućeg razloga, vjerojatno je pogreška pri unosu vrijednosti u kalkulator.

  1. Varijabla “air_time” ima asimetriju 1,07. Medijan je 129, a mod 42. Što odnos mjera središnje tendencije ovdje potvrđuje?
  1. Da se radi o negativno asimetričnoj distribuciji (lijevi krak izdužen) (mod > medijan > prosjek).
  2. Da je distribucija savršeno simetrična oko 42 (mod = medijan = prosjek).
  3. Desno asimetrična distribucija, s većinom letova kraćih od prosjeka, no postoje dulji letovi (mod < medijan < prosjek).
  4. Da su mod, medijan i prosjek uvijek jednaki (mod = medijan = prosjek).

  1. Promatrajući “arr_delay” i “dep_delay”, netko zaključuje da su obje raspodjele “vrhom izdužene” s dugim krakovima. Koja mjera to najjasnije potvrđuje?
  1. Koeficijent varijacije (CV).
  2. Pearsonov koeficijent asimetrije (α₃).
  3. Standardna devijacija.
  4. Mjera zaobljenosti (α₄, kurtosis).

Repliciranje analize koristeći različite alate

S obzirom da su postpci za kreiranje jednostavnih grafikona prikazani u ranijim štivima, ovdje će se preskočiti.

Provedba postupka koristeći JASP


Za izračun mjera asimetrije i zaobljenosti u JASPu, koristi se sekcija ‘Distribution’ koja je dio izbornika/sekcije ‘Statistics’ u sklopu ‘Descriptive statistics’. Potrebno je označiti (kliknuti na prazan kvadratić da se pojavi plava pozadina s bijelom kvačicom) one mjere koje želite izračunati.


Ovo je uvid u podatkovni okvir ‘letovi’. S obzirom da se radi o puno opažanja, moguće je da će za učitavanje biti potrebna koja sekunda više (u odnosu na ostale podatkovne okvire s kojima smo do sad radili).

Za izračun pokazatelja deskriptivne statistike, odaberite ‘Descriptives’, odaberite varijable, a potom u izbonriku ‘Statistics’ označite sve pokazatelje koje želite izračunati.

Pokazatelji deskriptivne statistike za varijable iz podatkovnog okvira ‘Nekretnine’.

Pokazatelji deskriptivne statistike za varijable iz podatkovnog okvira ‘Dijamanti’.

Provedba postupka koristeći R

Prvo ćemo učitati sve podatkovne skupove, pa pogledati kako podaci izgledaju koristeći head().

> library(dbplyr)
> library(nycflights13)
> letovi <- flights
> head(letovi, 10)
## # A tibble: 10 × 19
##     year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
##    <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
##  1  2013     1     1      517            515         2      830            819
##  2  2013     1     1      533            529         4      850            830
##  3  2013     1     1      542            540         2      923            850
##  4  2013     1     1      544            545        -1     1004           1022
##  5  2013     1     1      554            600        -6      812            837
##  6  2013     1     1      554            558        -4      740            728
##  7  2013     1     1      555            600        -5      913            854
##  8  2013     1     1      557            600        -3      709            723
##  9  2013     1     1      557            600        -3      838            846
## 10  2013     1     1      558            600        -2      753            745
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## #   tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## #   hour <dbl>, minute <dbl>, time_hour <dttm>
> Diamonds <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Diamonds.txt")
> head(Diamonds, 10)
##    Carat.Size Color Clarity Depth Table       Cut Report Price Log.Price
## 1        0.30     E    VVS1  60.0    59 Excellent    GIA  1000  6.907755
## 2        0.44     E     VS2  61.9    58 Excellent    GIA  1000  6.907755
## 3        0.31     E    VVS1  61.3    58 Excellent    GIA  1000  6.907755
## 4        0.66     K     SI1  62.8    57 Excellent    GIA  1000  6.907755
## 5        0.47     H     VS2  59.1    64 Very Good    GIA  1000  6.907755
## 6        0.40     G     VS1  62.0    59 Excellent    GIA  1000  6.907755
## 7        0.36     D     VS2  61.3    57 Excellent    GIA  1000  6.907755
## 8        0.52     H     SI2  61.7    61 Very Good    GIA  1000  6.907755
## 9        0.53     D     SI2  59.4    59 Very Good    GIA  1001  6.908755
## 10       0.43     F     VS2  61.5    60 Excellent    GIA  1001  6.908755
##    Table.Depth Table.Depth.1 Test
## 1         -1.0     0.9833333    0
## 2         -3.9     0.9369951    1
## 3         -3.3     0.9461664    0
## 4         -5.8     0.9076433    2
## 5          4.9     1.0829103    2
## 6         -3.0     0.9516129    2
## 7         -4.3     0.9298532    0
## 8         -0.7     0.9886548    0
## 9         -0.4     0.9932660    0
## 10        -1.5     0.9756098    2
> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 10)
##     Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1  132500     0.09          0  42      50000             0           0
## 2  181115     0.92          0   0      22300             0           0
## 3  109000     0.19          0 133       7300             0           0
## 4  155000     0.41          0  13      18700             0           0
## 5   86060     0.11          0   0      15000             1           1
## 6  120000     0.68          0  31      14000             0           0
## 7  153000     0.40          0  33      23300             0           0
## 8  170000     1.21          0  23      14600             0           0
## 9   90000     0.83          0  36      22200             0           0
## 10 122900     1.94          0   4      21200             0           0
##    Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1          3         4          2         906          35        2          1
## 2          2         3          2        1953          51        3          0
## 3          2         3          3        1944          51        4          1
## 4          2         2          2        1944          51        3          1
## 5          2         2          3         840          51        2          0
## 6          2         2          2        1152          22        4          1
## 7          4         3          2        2752          51        4          1
## 8          4         2          2        1662          35        4          1
## 9          3         4          2        1632          51        3          0
## 10         2         2          1        1416          44        3          0
##    Bathrooms Rooms
## 1        1.0     5
## 2        2.5     6
## 3        1.0     8
## 4        1.5     5
## 5        1.0     3
## 6        1.0     8
## 7        1.5     8
## 8        1.5     9
## 9        1.5     8
## 10       1.5     6

U nastavku slijedi izračun pokazatelja deskriptivne statistike i to koristeći dva paketa: summarytools i psych.

> library(psych)
> deskr_letovi <- describe(letovi, quant = c(0.25, 0.75))
> deskr_letovi
##                vars      n    mean      sd median trimmed     mad  min  max
## year              1 336776 2013.00    0.00   2013 2013.00    0.00 2013 2013
## month             2 336776    6.55    3.41      7    6.56    4.45    1   12
## day               3 336776   15.71    8.77     16   15.70   11.86    1   31
## dep_time          4 328521 1349.11  488.28   1401 1346.82  634.55    1 2400
## sched_dep_time    5 336776 1344.25  467.34   1359 1341.60  613.80  106 2359
## dep_delay         6 328521   12.64   40.21     -2    3.32    5.93  -43 1301
## arr_time          7 328063 1502.05  533.26   1535 1526.42  619.73    1 2400
## sched_arr_time    8 336776 1536.38  497.46   1556 1550.67  618.24    1 2359
## arr_delay         9 327346    6.90   44.63     -5   -1.03   20.76  -86 1272
## carrier*         10 336776    7.14    4.14      6    7.00    5.93    1   16
## flight           11 336776 1971.92 1632.47   1496 1830.51 1608.62    1 8500
## tailnum*         12 334264 1814.32 1199.75   1798 1778.21 1587.86    1 4043
## origin*          13 336776    1.95    0.82      2    1.94    1.48    1    3
## dest*            14 336776   50.03   28.12     50   49.56   32.62    1  105
## air_time         15 327346  150.69   93.69    129  140.03   75.61   20  695
## distance         16 336776 1039.91  733.23    872  955.27  569.32   17 4983
## hour             17 336776   13.18    4.66     13   13.15    5.93    1   23
## minute           18 336776   26.23   19.30     29   25.64   23.72    0   59
## time_hour        19 336776     NaN      NA     NA     NaN      NA  Inf -Inf
##                range  skew kurtosis   se Q0.25 Q0.75
## year               0   NaN      NaN 0.00  2013  2013
## month             11 -0.01    -1.19 0.01     4    10
## day               30  0.01    -1.19 0.02     8    23
## dep_time        2399 -0.02    -1.09 0.85   907  1744
## sched_dep_time  2253 -0.01    -1.20 0.81   906  1729
## dep_delay       1344  4.80    43.95 0.07    -5    11
## arr_time        2399 -0.47    -0.19 0.93  1104  1940
## sched_arr_time  2358 -0.35    -0.38 0.86  1124  1945
## arr_delay       1358  3.72    29.23 0.08   -17    14
## carrier*          15  0.36    -1.21 0.01     4    12
## flight          8499  0.66    -0.85 2.81   553  3465
## tailnum*        4042  0.17    -1.24 2.08   731  2873
## origin*            2  0.09    -1.50 0.00     1     3
## dest*            104  0.13    -1.08 0.05    27    72
## air_time         675  1.07     0.86 0.16    82   192
## distance        4966  1.13     1.19 1.26   502  1389
## hour              22  0.00    -1.21 0.01     9    17
## minute            59  0.09    -1.24 0.03     8    44
## time_hour       -Inf    NA       NA   NA    NA    NA
> library(summarytools)
> descr(letovi, stats = "all", style = "simple")
## Non-numerical variable(s) ignored: carrier, tailnum, origin, dest, time_hour
## Descriptive Statistics  
## letovi  
## N: 336776  
## 
##                      air_time   arr_delay    arr_time         day   dep_delay    dep_time
## ----------------- ----------- ----------- ----------- ----------- ----------- -----------
##              Mean      150.69        6.90     1502.05       15.71       12.64     1349.11
##           Std.Dev       93.69       44.63      533.26        8.77       40.21      488.28
##               Min       20.00      -86.00        1.00        1.00      -43.00        1.00
##                Q1       82.00      -17.00     1104.00        8.00       -5.00      907.00
##            Median      129.00       -5.00     1535.00       16.00       -2.00     1401.00
##                Q3      192.00       14.00     1940.00       23.00       11.00     1744.00
##               Max      695.00     1272.00     2400.00       31.00     1301.00     2400.00
##               MAD       75.61       20.76      619.73       11.86        5.93      634.55
##               IQR      110.00       31.00      836.00       15.00       16.00      837.00
##                CV        0.62        6.47        0.36        0.56        3.18        0.36
##          Skewness        1.07        3.72       -0.47        0.01        4.80       -0.02
##       SE.Skewness        0.00        0.00        0.00        0.00        0.00        0.00
##          Kurtosis        0.86       29.23       -0.19       -1.19       43.95       -1.09
##           N.Valid   327346.00   327346.00   328063.00   336776.00   328521.00   328521.00
##         Pct.Valid       97.20       97.20       97.41      100.00       97.55       97.55
## 
## Table: Table continues below
## 
##  
## 
##                      distance      flight        hour      minute       month   sched_arr_time
## ----------------- ----------- ----------- ----------- ----------- ----------- ----------------
##              Mean     1039.91     1971.92       13.18       26.23        6.55          1536.38
##           Std.Dev      733.23     1632.47        4.66       19.30        3.41           497.46
##               Min       17.00        1.00        1.00        0.00        1.00             1.00
##                Q1      502.00      553.00        9.00        8.00        4.00          1124.00
##            Median      872.00     1496.00       13.00       29.00        7.00          1556.00
##                Q3     1389.00     3465.00       17.00       44.00       10.00          1945.00
##               Max     4983.00     8500.00       23.00       59.00       12.00          2359.00
##               MAD      569.32     1608.62        5.93       23.72        4.45           618.24
##               IQR      887.00     2912.00        8.00       36.00        6.00           821.00
##                CV        0.71        0.83        0.35        0.74        0.52             0.32
##          Skewness        1.13        0.66        0.00        0.09       -0.01            -0.35
##       SE.Skewness        0.00        0.00        0.00        0.00        0.00             0.00
##          Kurtosis        1.19       -0.85       -1.21       -1.24       -1.19            -0.38
##           N.Valid   336776.00   336776.00   336776.00   336776.00   336776.00        336776.00
##         Pct.Valid      100.00      100.00      100.00      100.00      100.00           100.00
## 
## Table: Table continues below
## 
##  
## 
##                     sched_dep_time        year
## ----------------- ---------------- -----------
##              Mean          1344.25     2013.00
##           Std.Dev           467.34        0.00
##               Min           106.00     2013.00
##                Q1           906.00     2013.00
##            Median          1359.00     2013.00
##                Q3          1729.00     2013.00
##               Max          2359.00     2013.00
##               MAD           613.80        0.00
##               IQR           823.00        0.00
##                CV             0.35        0.00
##          Skewness            -0.01         NaN
##       SE.Skewness             0.00        0.00
##          Kurtosis            -1.20         NaN
##           N.Valid        336776.00   336776.00
##         Pct.Valid           100.00      100.00
> deskr_nekretnine <- describe(nekretnine, quant = c(0.25, 0.75))
> deskr_nekretnine
##               vars    n      mean       sd    median   trimmed      mad  min
## Price            1 1728 211966.71 98441.39 189900.00 200230.92 78726.06 5000
## Lot.Size         2 1728      0.50     0.70      0.37      0.39     0.28    0
## Waterfront       3 1728      0.01     0.09      0.00      0.00     0.00    0
## Age              4 1728     27.92    29.21     19.00     22.18    14.83    0
## Land.Value       5 1728  34557.19 35021.17  25000.00  28350.54 16679.25  200
## New.Construct    6 1728      0.05     0.21      0.00      0.00     0.00    0
## Central.Air      7 1728      0.37     0.48      0.00      0.33     0.00    0
## Fuel.Type        8 1728      2.43     0.70      2.00      2.29     0.00    2
## Heat.Type        9 1728      2.53     0.78      2.00      2.41     0.00    2
## Sewer.Type      10 1728      2.70     0.48      3.00      2.75     0.00    1
## Living.Area     11 1728   1754.98   619.94   1634.50   1706.46   580.44  616
## Pct.College     12 1728     55.57    10.33     57.00     56.93     8.90   20
## Bedrooms        13 1728      3.15     0.82      3.00      3.14     1.48    1
## Fireplaces      14 1728      0.60     0.56      1.00      0.59     0.00    0
## Bathrooms       15 1728      1.90     0.66      2.00      1.88     0.74    0
## Rooms           16 1728      7.04     2.32      7.00      6.95     2.97    2
##                    max    range  skew kurtosis      se    Q0.25     Q0.75
## Price         775000.0 770000.0  1.57     4.17 2368.13 1.45e+05 259000.00
## Lot.Size          12.2     12.2  7.18    78.10    0.02 1.70e-01      0.54
## Waterfront         1.0      1.0 10.58   110.08    0.00 0.00e+00      0.00
## Age              225.0    225.0  2.49     7.38    0.70 1.30e+01     34.00
## Land.Value    412600.0 412400.0  3.10    16.13  842.48 1.51e+04  40200.00
## New.Construct      1.0      1.0  4.28    16.36    0.01 0.00e+00      0.00
## Central.Air        1.0      1.0  0.55    -1.70    0.01 0.00e+00      1.00
## Fuel.Type          4.0      2.0  1.32     0.25    0.02 2.00e+00      3.00
## Heat.Type          4.0      2.0  1.04    -0.55    0.02 2.00e+00      3.00
## Sewer.Type         3.0      2.0 -1.04    -0.43    0.01 2.00e+00      3.00
## Living.Area     5228.0   4612.0  0.90     1.26   14.91 1.30e+03   2137.75
## Pct.College       82.0     62.0 -1.04     0.60    0.25 5.20e+01     64.00
## Bedrooms           7.0      6.0  0.40     0.65    0.02 3.00e+00      4.00
## Fireplaces         4.0      4.0  0.40     0.72    0.01 0.00e+00      1.00
## Bathrooms          4.5      4.5  0.32    -0.45    0.02 1.50e+00      2.50
## Rooms             12.0     10.0  0.28    -0.60    0.06 5.00e+00      8.25
> descr(nekretnine, stats = "all", style = "simple")
## Descriptive Statistics  
## nekretnine  
## N: 1728  
## 
##                         Age   Bathrooms   Bedrooms   Central.Air   Fireplaces   Fuel.Type
## ----------------- --------- ----------- ---------- ------------- ------------ -----------
##              Mean     27.92        1.90       3.15          0.37         0.60        2.43
##           Std.Dev     29.21        0.66       0.82          0.48         0.56        0.70
##               Min      0.00        0.00       1.00          0.00         0.00        2.00
##                Q1     13.00        1.50       3.00          0.00         0.00        2.00
##            Median     19.00        2.00       3.00          0.00         1.00        2.00
##                Q3     34.00        2.50       4.00          1.00         1.00        3.00
##               Max    225.00        4.50       7.00          1.00         4.00        4.00
##               MAD     14.83        0.74       1.48          0.00         0.00        0.00
##               IQR     21.00        1.00       1.00          1.00         1.00        1.00
##                CV      1.05        0.35       0.26          1.31         0.92        0.29
##          Skewness      2.49        0.32       0.40          0.55         0.40        1.32
##       SE.Skewness      0.06        0.06       0.06          0.06         0.06        0.06
##          Kurtosis      7.38       -0.45       0.65         -1.70         0.72        0.25
##           N.Valid   1728.00     1728.00    1728.00       1728.00      1728.00     1728.00
##         Pct.Valid    100.00      100.00     100.00        100.00       100.00      100.00
## 
## Table: Table continues below
## 
##  
## 
##                     Heat.Type   Land.Value   Living.Area   Lot.Size   New.Construct   Pct.College
## ----------------- ----------- ------------ ------------- ---------- --------------- -------------
##              Mean        2.53     34557.19       1754.98       0.50            0.05         55.57
##           Std.Dev        0.78     35021.17        619.94       0.70            0.21         10.33
##               Min        2.00       200.00        616.00       0.00            0.00         20.00
##                Q1        2.00     15100.00       1300.00       0.17            0.00         52.00
##            Median        2.00     25000.00       1634.50       0.37            0.00         57.00
##                Q3        3.00     40200.00       2138.50       0.54            0.00         64.00
##               Max        4.00    412600.00       5228.00      12.20            1.00         82.00
##               MAD        0.00     16679.25        580.44       0.28            0.00          8.90
##               IQR        1.00     25100.00        837.75       0.37            0.00         12.00
##                CV        0.31         1.01          0.35       1.40            4.51          0.19
##          Skewness        1.04         3.10          0.90       7.18            4.28         -1.04
##       SE.Skewness        0.06         0.06          0.06       0.06            0.06          0.06
##          Kurtosis       -0.55        16.13          1.26      78.10           16.36          0.60
##           N.Valid     1728.00      1728.00       1728.00    1728.00         1728.00       1728.00
##         Pct.Valid      100.00       100.00        100.00     100.00          100.00        100.00
## 
## Table: Table continues below
## 
##  
## 
##                         Price     Rooms   Sewer.Type   Waterfront
## ----------------- ----------- --------- ------------ ------------
##              Mean   211966.71      7.04         2.70         0.01
##           Std.Dev    98441.39      2.32         0.48         0.09
##               Min     5000.00      2.00         1.00         0.00
##                Q1   145000.00      5.00         2.00         0.00
##            Median   189900.00      7.00         3.00         0.00
##                Q3   259000.00      8.50         3.00         0.00
##               Max   775000.00     12.00         3.00         1.00
##               MAD    78726.06      2.97         0.00         0.00
##               IQR   114000.00      3.25         1.00         0.00
##                CV        0.46      0.33         0.18        10.69
##          Skewness        1.57      0.28        -1.04        10.58
##       SE.Skewness        0.06      0.06         0.06         0.06
##          Kurtosis        4.17     -0.60        -0.43       110.08
##           N.Valid     1728.00   1728.00      1728.00      1728.00
##         Pct.Valid      100.00    100.00       100.00       100.00
> deskr_diamonds <- describe(Diamonds, quant = c(0.25, 0.75))
> deskr_diamonds
##               vars    n    mean      sd  median trimmed     mad     min
## Carat.Size       1 2690    0.87    0.32    0.90    0.86    0.31    0.30
## Color*           2 2690    4.00    2.00    4.00    3.94    2.97    1.00
## Clarity*         3 2690    3.85    1.75    4.00    3.76    1.48    1.00
## Depth            4 2690   61.71    1.21   61.90   61.79    1.04   56.40
## Table            5 2690   57.86    1.93   58.00   57.78    1.48   53.00
## Cut*             6 2690    2.39    1.41    2.00    2.36    1.48    1.00
## Report*          7 2690    1.99    0.11    2.00    2.00    0.00    1.00
## Price            8 2690 3971.47 2420.23 3604.00 3724.70 2686.47 1000.00
## Log.Price        9 2690    8.08    0.66    8.19    8.09    0.76    6.91
## Table.Depth     10 2690   -3.85    2.66   -4.20   -4.03    2.67  -10.80
## Table.Depth.1   11 2690    0.94    0.04    0.93    0.94    0.04    0.83
## Test            12 2690    0.60    0.80    0.00    0.50    0.00    0.00
##                    max   range  skew kurtosis    se   Q0.25   Q0.75
## Carat.Size        2.02    1.72  0.32    -0.49  0.01    0.60    1.06
## Color*            8.00    7.00  0.26    -0.98  0.04    2.00    6.00
## Clarity*          7.00    6.00  0.29    -1.01  0.03    2.00    5.00
## Depth            64.30    7.90 -0.66     0.32  0.02   61.00   62.50
## Table            65.00   12.00  0.46     0.34  0.04   56.00   59.00
## Cut*              4.00    3.00  0.15    -1.86  0.03    1.00    4.00
## Report*           2.00    1.00 -9.00    79.01  0.00    2.00    2.00
## Price         10000.00 9000.00  0.68    -0.51 46.66 1801.00 5544.00
## Log.Price         9.21    2.30 -0.16    -1.14  0.01    7.50    8.62
## Table.Depth       7.60   18.40  0.66     0.47  0.05   -5.80   -2.20
## Table.Depth.1     1.13    0.30  0.74     0.69  0.00    0.91    0.96
## Test              2.00    2.00  0.84    -0.92  0.02    0.00    1.00
> descr(Diamonds, stats = "all", style = "simple")
## Non-numerical variable(s) ignored: Color, Clarity, Cut, Report
## Descriptive Statistics  
## Diamonds  
## N: 2690  
## 
##                     Carat.Size     Depth   Log.Price      Price     Table   Table.Depth
## ----------------- ------------ --------- ----------- ---------- --------- -------------
##              Mean         0.87     61.71        8.08    3971.47     57.86         -3.85
##           Std.Dev         0.32      1.21        0.66    2420.23      1.93          2.66
##               Min         0.30     56.40        6.91    1000.00     53.00        -10.80
##                Q1         0.60     61.00        7.50    1801.00     56.00         -5.80
##            Median         0.90     61.90        8.19    3604.00     58.00         -4.20
##                Q3         1.06     62.50        8.62    5544.00     59.00         -2.20
##               Max         2.02     64.30        9.21   10000.00     65.00          7.60
##               MAD         0.31      1.04        0.76    2686.47      1.48          2.67
##               IQR         0.46      1.50        1.12    3743.00      3.00          3.60
##                CV         0.37      0.02        0.08       0.61      0.03         -0.69
##          Skewness         0.32     -0.66       -0.16       0.68      0.46          0.66
##       SE.Skewness         0.05      0.05        0.05       0.05      0.05          0.05
##          Kurtosis        -0.49      0.32       -1.14      -0.51      0.34          0.47
##           N.Valid      2690.00   2690.00     2690.00    2690.00   2690.00       2690.00
##         Pct.Valid       100.00    100.00      100.00     100.00    100.00        100.00
## 
## Table: Table continues below
## 
##  
## 
##                     Table.Depth.1      Test
## ----------------- --------------- ---------
##              Mean            0.94      0.60
##           Std.Dev            0.04      0.80
##               Min            0.83      0.00
##                Q1            0.91      0.00
##            Median            0.93      0.00
##                Q3            0.96      1.00
##               Max            1.13      2.00
##               MAD            0.04      0.00
##               IQR            0.06      1.00
##                CV            0.05      1.33
##          Skewness            0.74      0.84
##       SE.Skewness            0.05      0.05
##          Kurtosis            0.69     -0.92
##           N.Valid         2690.00   2690.00
##         Pct.Valid          100.00    100.00

Provedba postupka koristeći MS Excel


Otvorite podatkovni okvir. Obratite pozornost na vrste varijabli.

S obzirom da su u podatkovnom okviru naizmjenično poredane kvantitativne i kvalitativne varijable, izdvajamo one varijable za koje želimo izračunati pokazatelje.

Kopiramo ih i zalijepimo na novi list. S obzirom da se u podacima nalaze nepoznate vrijednosti, označene s `NA˙(Not Available), ako to ne riješimo, nećemo moći izračunati pokazatelje. Odabiremo ‘Find & Select’ u traci izbornika (pojavljuje se s ikonom lupe). Potom će se otvoriti padajući izbornik iz kojeg odabiremo ‘Replace’. Potom će se pojaviti prikaz nalik onom na sljedećoj slici. U polje ‘Find what:’ upišemo NA, a sljedeće polje (‘Replace with:’) ostavimo prazno i kliknemo ‘Replace all’. Na taj način će opažanja koja nedostaju uistinu biti prazne ćelije.

Potom odabiremo ‘Data’, pa ‘Data Analysis’, nakon čega u prozorčiću odabiremo ‘Descriptive statistics’.

Unosimo raspon ćelija u kojima su upisana opažanja promatranih varijabli. Označavamo ‘Labels in first row’ te ‘Summary Statistics’, a potom kliknemo ‘OK’.

Na novom listu se prikazuju rezultati koje je potrebno malo urediti da izgledaju prikladno za korištenje u izvješćima, seminarskim ili drugim radovima.

Kopiramo nazive varijabli i pomičemo ih jedno mjesto udesno, a potom brišemo stupce viška (u kojima se ponavljaju nazivi pokazatelja već zapisani u predstupcu). Malo raširimo stupce radi preglednosti i dobivamo tablicu statističkih pokazatelja.

Sličan postupak ponavljamo za nekretnine. S obzirom da su ovdje sve varijable izražene putem brojeva (bilo da su uistinu kvantitativne varijable ili samo prekodirane kvalitativne varijable), nema potrebe za odabirom i kopiranjem varijabli na drugi list i odmah možemo krenuti s izračunima.

Odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’.

U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summar Statistics’.

Na novom listu dobivamo rezultate, koje uređujemo na isti način kao i u prethodnom primjeru da bismo dobili preglednu tablicu.

Pri otvaranju podatkovnog okvira ‘Diamonds’ uočavamo da se u stupcima naizmjenično nalaze kvalitativne i kvanititativne varijable (kao i kod letova), pa bi izravan unos u ‘Data Analysis’ i ‘Descriptive statistics’ rezultirao upozorenjem da su uneseni nenumerički podaci. Stoga ćemo kvantitativne varijable za koje želimo izračunati pokazatelje odabrati, kopirati i zalijepiti na novi list.

Potom odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’.

U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summar Statistics’.

Na novom listu dobivamo rezultate, a tu tablicu možemo dodatno urediti koristeći ranije opisan postupak.

Provjera odgovora

  1. C; 2. B; 3. C; 4. B; 5. C; 6. B; 7. B; 8. B; 9. B; 10. A; 11. B; 12. A; 13. C; 14. A; 15. B; 16. B; 17. D; 18. A; 19. C; 20. D.

Korišteni izvori i literatura

De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

De Veaux, D. (2015). What Makes Diamonds so Expensive? Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=b8671ff3-a2d2-4ea4-a3f2-7c82dac7151f&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.

Hohenwarter, M., & Hohenwarter, M. (2002). GeoGebra. Available on-line at http://www.geogebra.org/cms/en.

Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.

Horton, N.J., & Ben Baumer B. (2015) Better flight experiences with data (airline delays in New York City). Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=a3536a72-1caa-44ae-8172-4975c2ef50d0&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Horton, N. J., Baumer, B. S., & Wickham, H. (2015). Setting the stage for data science: integration of data management skills in introductory and second courses in statistics (nycflights13). https://nhorton.people.amherst.edu/precursors/nycflights13.pdf

Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.

JASP Team (2024). JASP (Version 0.19.3)[Computer software].

Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/

Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf

Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.

Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.

Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.