U ovom tekstu, fokusirat ćemo se na mjere disperzije.

Slučaj: letovi zrakoplovnih kompanija u New Yorku

Skup podataka koji ćemo koristiti podskup je opsežnog skupa podataka o kašnjenjima letova različitih zrakoplovnih prijevoznika, koji izvorno sadrži 180 milijuna zapisa. Specifični podskup korišten u ovoj studiji slučaja usmjeren je na 336776 komercijalnih letova unutar SAD-a koji polaze iz tri glavne zračne luke na području New Yorka: Newark (EWR), John F. Kennedy (JFK) i LaGuardia (LGA) u 2013. godini.

Podaci dolaze iz skupa podataka o kašnjenjima zrakoplovnih prijevoznika predstavljenog na Data Expo 2009., a više detalja dostupno je u resursima na Amherst Collegeu. Osim toga, skup podataka dostupan je putem nycflights13 paketa kojeg je kreirao australski statističar Hadley Wickham i dostupan je putam CRAN-a (Comprehensive R Archive Network, baza za R programske pakete).

Istražit ćemo ove podatke i ponoviti mjere koje smo do sada naučili.

Tablica 1. Sažetak statističkih pokazatelja o letovima

Statistički pokazatelji Kašnjenje polaska (dep_delay) Kašnjenje dolaska (arr_delay) Trajanje leta (air_time) udaljenost prijevoznik polazište odredište
Važeći podaci 328,521 327,346 327,346 336,776 336,776 336,776 336,776
Podaci koji nedostaju 8,255 9,430 9,430 0 0 0 0
Mod -5 -13 42 2,475
Medijan -2 -5 129 872
Aritmetička sredina 12.6391 6.8954 150.6865 1,039.9126
Standardna devijacija 40.2101 44.6333 93.6883 733.233
Koeficijent varijacije 3.1814 6.4729 0.6217 0.7051
MAD 4 14 51 384
IQR 16 31 110 887
Varijanca 1,616.849 1,992.1307 8,777.4984 537,630.6812
Raspon varijacija 1,344 1,358 675 4,966
Minimum -43 -86 20 17
Maksimaum 1,301 1,272 695 4,983

Napomena: Nisu svi pokazatelji dostupni za varijable mjerene na nominalnoj razini. Izračunato koristeći JASP.

Tablica sadrži pokazatelje deskriptivne statistike za nekoliko varijabli iz skupa podataka, koje ćemo opisati i interpretirati jednu po jednu, počevši od određivanja vrste i razine mjerenja svake varijable, nakon čega slijedi objašnjenje izračunatih pokazatelja. Varijable uključuju dep_delay (kašnjenje polaska), arr_delay (kašnjenje dolaska), air_time (trajanje leta), udaljenost, prijevoznika, polazište i odredište.

Kašnjenje polaska (dep_delay – departure delay) je kvantitativna varijabla mjerena na intervalnoj razini. Poprima pozitivne i negativne vrijednosti, gdje negativne vrijednosti ukazuju na uranjene polaske (polazak prije vremena po rasporedu). U skupu podataka postoji 328521 valjano opažanje, a nedostaje 8255 vrijednosti opažanja. Mod je -5 minuta, što pokazuje da je pri polascima najčešće bio u pitanju odlazak za 5 minuta ranije. Medijalno vrijeme polazaka je -2 minute, što znači da je polovica letova poletjela barem 2 minute ranije od planiranog vremena, a preostala polovica nakon toga. Prosječno kašnjenje je 12,64 minute, što ukazuje na to da je distribucija vremena polaska iskrivljena udesno (Mo < Me < μ), pri čemu je nekoliko letova imalo značajna kašnjenja. Standardna devijacija od 40,21 minuta odražava znatnu varijabilnost u vremenu polaska. Nadalje, koeficijent varijacije je 3,18. JASP računa koeficijent varijacije kao omjer standardne devijacije i prosjeka, bez množenja sa 100 (što bismo inače očekivali prema standardnim formulama). Da bismo dobili vrijednost koja nam daje postotni omjer, izračunate vrijednosti množimo sa 100 te dobivamo koeficijent varijacije od 318,14 %, što jasnije dočarava izrazitu varijabilnost vrijednosti u ovoj varijabli. MAD (srednje apsolutno odstupanje) je 4 minute. MAD se koristi kao mjera disperzije koja je manje osjetljiva na ekstremne vrijednosti. To može biti korisno kod intervalnih varijabli, jer pokazuje apsolutno odstupanje od prosjeka, što je posebno korisno ako distribucija podataka nije simetrična ili ako sadrži izdvojenice. Kod intervalnih varijabli, kao što je ova, razlike između vrijednosti mogu biti jako izražene, ali nemaju apsolutnu nulu. To znači da se tumačenje MAD-a temelji na prosječnoj apsolutnoj udaljenosti od prosjeka, ali bez omjera koji imaju značenje kao kod varijabli mjerenih na omjernoj razini. Dakle, ako je distribucija podataka asimetrična ili ima izdvojenice, MAD može pružiti dodatne informacije koje standardna devijacija ili varijanca ne mogu adekvatno prikazati. Kod simetrične distribucije, standardna devijacija će biti prikladnija mjera. Interkvartil obuhvaća raspon od 16 minuta, što znači da se središnjih 50% polijetanja prema vremenu polaska odvilo u rasponu od 16 minuta. Ukupni raspon varijacija je 1344 minute, s vremenom polaska u rasponu od 43 minute ranije do 1301 minuta kasnije.

Kašnjenje dolaska (arr_delay – arrival delay) također je kvantitativna varijabla mjerena na intervalnoj razini. Postoji 327346 valjanih opažanja te 9430 vrijednosti koje nedostaju. Najčešće kašnjenje dolaska je -13 minuta, što znači da je najčešće vrijeme dolaska bilo 13 minuta ranije od planiranog. Medijalno kašnjenje dolaska je -5 minuta, što znači da je polovica letova stigla 5 minuta ranije, a druga polovica je stigla nakon toga. Prosječno kašnjenje je 6.9 minuta, što u kombinaciji s modom i medijanom ukazuje na izduženi desni krak distribucije (desnostrano asimetričnu distribuciju). Standardna devijacija je 44,63 minute, što odražava visok stupanj varijabilnosti u vremenu dolaska. Koeficijent varijacije od 6,47 (647,29 %) ukazuje da je relativna varijabilnost u vremenu dolaska izuzetno velika. MAD je 14 minuta, dok je IQR 31 minuta, što pokazuje širi raspon i veću varijaciju u odnosu na kašnjenje polaska. Raspon varijacija kašnjenja dolaska je 1358 minuta, uz dolaske od 86 minuta ranije do 1272 minute kasnije.

Uspoređujući varijabilnost kašnjenja polaska (dep_delay) i kašnjenja dolazaka (arr_delay), možemo izvući sljedeće zaključke:

  • Standardna devijacija kašnjenja dolazaka (44,63 minute) nešto je viša od one kašnjenja polaska (40,21 minuta). To ukazuje na to da su vremena dolaska varijabilnija od vremena polaska. U ovom slučaju, standardnu devijaciju možemo koristiti za izravnu usporedbu varijabilnosti varijabli jer se obje mjere u istoj mjernoj jedinici (u minutama) i na istoj razini mjerenja.

  • Koeficijent varijacije za kašnjenja dolazaka je 647%, u usporedbi s 318% za kašnjenja polazaka. To znači da kašnjenja dolazaka imaju veći stupanj varijabilnosti u usporedbi s kašnjenjima polaska.

  • Raspon kašnjenja dolazaka nešto je veći, kreće se od 86 minuta ranije do 1272 minute kašnjenja, dok se kašnjenja polaska kreću od 43 minute ranije do 1301 minuta kasnije. Širi raspon kašnjenja dolazaka može značiti da letovi mogu nadoknaditi ili izgubiti vrijeme tijekom leta, što pridonosi većoj varijabilnosti u vremenu dolaska.

Trajanje leta (air_time) je kvantitativna varijabla mjerena na omjernoj razini jer ima stvarnu nulu (trajanje leta 0 znači da avion nije poletio ili let je trajao 0 minuta – nije trajao, let se nije dogodio). Postoji 327346 valjanih zapažanja. Mod trajanja leta je 42 minute, što znači da su na promatranim letovima avioni najčešće proveli 42 minute u zraku. Medijalno trajanje leta je 129 minuta, što znači da je polovica letova trajala toliko ili kraće od tog vremena, a druga polovica je trajala toliko ili duže. Prosječno trajanje leta je 150,69 minuta, što je više od medijana i moda te ukazuje na to da su neki duži letovi povukli prosjek ka većim vrijednostima. Standardna devijacija od 93,69 minute pokazuje značajnu varijabilnost u trajanju leta. Koeficijent varijacije je 0,62 (62%), što ukazuje na umjerenu razinu varijabilnosti. Trajanje leta prosječno apsolutno odstupa od prosjeka za 51 minutu (MAD = 51). Središnjih 50 % trajanja leta kreira raspon od 110 minuta, ukazujući na umjerenu varijabilnost. Raspon varijacija je 675 minuta, s trajanjem leta u rasponu od 20 do 695 minuta, što pokazuje mješavinu kratkih i dugih letova.

Udaljenost je još jedna kvantitativna varijabla mjerena na omjernoj razini, jer ima apsolutnu nulu. Postoji 336776 valjanih opažanja za ovu varijablu. Mod udaljenosti je 2475 milja, što predstavlja najčešću udaljenost između polazne i odredišne zračne luke. Medijalna udaljenost je 872 milje, što ukazuje da je polovica letova bila kraća od ove udaljenosti. Prosječna udaljenost leta je 1039.91 milja, što odražava da su neki letovi bili duži, čime su podaci malo iskrivljeni udesno. U slučaju varijable udaljenost, redoslijed između moda, medijana i aritmetičke sredine je neuobičajen, s obzirom na to da je mod veći od medijana i prosjeka, a medijan je najmanji. Ovaj neobičan poredak može ukazivati na specifične karakteristike distribucije podataka, kao što je, na primjer, višemodalna distribucija podataka. Da bismo provjerili svoje sumnje, kreiramo histogram.

Slika 1. Histogram udaljenosti

Višemodalne distribucije mogu imati više od jednog lokalnog moda, što utječe na odnos između moda, medijana i prosjeka. U tom slučaju, mod prijavljen u sažetku izračunatih statističkih pokazatelja može biti neuobičajeno visok jer predstavlja jednu učestalu vrijednost koja nadmašuje druge vrijednosti u frekvenciji pojavljivanja. Grafikon pokazuje da postoje tri moda. Prvi se nalazi između 600 i 800 milja, drugi između 1000 i 1200 milja, a treći između 2400 i 2600 milja. No, na grafu su u pitanju grupirani podaci, dok se kod negrupiranih podataka pojedinačna vrijednost od 2475 milja pojavljuje najveći broj puta i predstavlja globalni mod za negrupirane podatke. Udaljenost standardno odstupa od prosjeka za 733.23 milje. Koeficijent varijacije je 0,71, što pokazuje umjerenu relativnu varijabilnost. IQR od 887 milja odražava široku rasprostranjenost u središnjih 50% udaljenosti leta. Raspon varijacija udaljenosti leta je 4966 milja, a letovi pokrivaju udaljenosti od 17 do 4983 milja, što pokazuje raznolikost letova na kraće i duže udaljenosti.

Da bismo usporedili varijabilnost između trajanja i udaljenosti leta, možemo pogledati koeficijent varijacije (CV). CV je standardizirana mjera disperzije koja izražava varijabilnost u odnosu na prosjek varijable:

\[CV= \frac {s}{\bar{x}} \cdot 100\]

odnosno, postotni omjer standardne devijacije i aritmetičke sredine. Budući da su mjerne jedinice u brojniku (standardna devijacija) i nazivniku (prosjek) jednake, one se međusobno krate, ostavljajući CV bez mjerne jedinice. To znači da CV predstavlja postotak varijabilnosti neovisno o mjerama u kojima su podaci izraženi. Na taj način se u obzir uzima kontekst, odnosno centralna tendencija podataka, tj. ovaj pokazatelj nam omogućuje razumijevanje koliko je standardna devijacija velika u odnosu na prosjek varijable, izražavajući varijabilnost u postotcima. S obzirom da više nemamo mjerne jedinice i da se mjera izražava u postotku, radi se o relativnoj mjeri disperzije. Za razliku od apsolutnih mjera disperzije, relativna mjera disperzije nema više mjernu jedinicu (primijetili ste da smo pri tumačenju svih ostalih mjera disperzije uvijek navodili i mjernu jedinicu, ovdje toga više neće biti). Kao relativna mjera disperzije, CV je posebno koristan kada uspoređujemo raznorodne varijable, odnosno podatke izražene u različitim mjernim jedinicama (npr., trajanje leta u minutama i udaljenost leta u kilometrima). To je nešto što nije moguće s apsolutnim mjerama disperzije, kao što su varijanca i standardna devijacija, koje imaju mjerne jedinice.

  • CV trajanja leta je 0,62 (ili 62 %), što znači da je varijabilnost oko 62 % prosječnog trajanja leta.
  • CV udaljenosti leta je 0.71 (ili 71 %), što znači da je varijabilnost oko 71 % prosječne udaljenosti leta.

Usporedba ovih koeficijenata govori nam da udaljenost leta ima nešto veću relativnu varijabilnost od vremena leta. To sugerira da se, u odnosu na njihove prosjeke, udaljenosti leta više razlikuju među različitim letovima nego vrijeme leta.

Prijevoznik je kvalitativna varijabla mjerena na nominalnoj razini koja predstavlja različite zračne prijevoznike u skupu podataka. Postoji 336776 valjanih opažanja bez vrijednosti koje nedostaju. Budući da je prijevoznik opisna varijabla, možemo samo protumačiti distribuciju frekvencija različitih prijevoznika, što će pokazati koliko letova svaki prijevoznik obavlja unutar skupa podataka i koji to čini najčešće (mod).

Tablica 2. Podaci o prijevoznicima

prijevoznik Frekvencija Proporcija
9E 18460 0.0548
AA 32729 0.0972
KAO 714 0.0021
B6 54635 0.1622
DL 48110 0.1429
EV 54173 0.1609
F9 685 0.0020
FL 3260 0.0097
HA 342 0.0010
MQ 26397 0.0784
OO 32 9.5019e-5
UA 58665 0.1742
NAMA 20536 0.0610
VX 5162 0.0153
WN 12275 0.0364
YV 601 0.0018

Ova tablica daje raščlambu varijable prijevoznika, koji se odnosi na naziv zračnog prijevoznika koji obavlja let. Tablica uključuje frekvenciju (učestalost) ili broj letova koje obavlja svaki prijevoznik, kao i udio letova koje pojedini prijevoznik predstavlja u svim letovima.

Najčešći prijevoznik je UA (United Airlines), s 58665 letova, što čini 17,42% od ukupnog broja letova. Slijedi ga B6 (JetBlue), s 54635 letova, što čini 16.22% svih letova. EV (ExpressJet) također ima značajan udio od 16.09% svih letova. S druge strane, manji prijevoznici poput OO (SkyWest) i HA (Hawaiian Airlines) imaju mnogo manji udio, manje od 1% ukupnih letova.

Tablica 3. Podaci o polazištima

Polazište Frekvencija Posto Kumulativni postotak
EWR 120835 35.8799 35.8799
JFK 111279 33.0424 68.9224
LGA 104662 31.0776 100
Nedostaje 0 0
Ukupno 336776 100

Varijabla polazište još je jedna kvalitativna varijabla, mjerena na nominalnoj razini, koja predstavlja zračnu luku polaska. Kao i za prethodnu varijablu, postoji 336776 valjanih opažanja bez podataka koji nedostaju.

Ova tablica prikazuje učestalost polazišta letova na području New Yorka, točnije iz zračnih luka Newark (EWR), John F. Kennedy (JFK) i LaGuardia (LGA). Za svaku zračnu luku tablica prikazuje učestalost (broj letova), postotak i kumulativni postotak (kumulativni niz „manje od“ temeljem postotaka).

Prva zračna luka, Newark (EWR), imala je 120.835 letova, što je 35,88% svih polijetanja. Slijedi John F. Kennedy (JFK) s 111279 letova, što predstavlja 33,04% svih polijetanja. U kombinaciji, iz Newarka i JFKa polazi 68,92% svih letova. Konačno, LaGuardia (LGA) imala je 104662 leta, što čini 31.08% svih polijetanja.

Može nas, na primjer zanimati postoji li očita razlika u kašnjenjima polazaka s obzirom na polazište… S obzirom na uvide iz prošlog štiva, za to možemo upotrijebiti usporedne box-plotove podskupina vremena kašnjenja s obzirom na polazište. Ovdje imamo rotirane box-plotove. Vrijeme kašnjenja polazaka prikazano je na x-osi, a polazišta su zabilježena na y-osi.

Prikaz ukazuje na to da je većina kašnjenja polazaka blizu nule. Medijani svih polazišta nalaze se blizu nule. JFK i LGA imaju nekoliko izdvojenica za preuranjene polaske. Dok se kvartili i inerkvartilni raspon podudaraju za sva ti polazišta, uočava se da JFK ima izdvojenice koje dosežu najveće vrijednosti.

Varijabla odredišta također je kvalitativna i mjeri se na nominalnoj razini, a predstavlja zračnu luku dolaska za svaki let. Kao i kod varijabli prijevoznik i polazište, odredište ima 336776 valjanih opažanja. Budući da se radi o nominalnoj varijabli, distribucije frekvencija su najprikladnija opisna statistika za sažimanje podataka. To nam omogućuje da vidimo najčešće odredište za letove u ovom skupu podataka. Tablica odredišta ovdje je izostavljena jer postoji mnogo različitih odredišta, što tablicu čini nečitljivom (možete ju samostalno kreirati). Međutim, pogledajmo raspodjelu prijevoznika po zračnim lukama polaska. To možemo učiniti pomoću tablice kontingence.

Tablica 4. Tablica kontingence prijevoznika i polazišta

prijevoznik / polazište EWR JFK LGA Ukupno
9E 1268 14651 2541 18460
AA 3487 13783 15459 32729
KAO 714 0 0 714
B6 6557 42076 6002 54635
DL 4342 20701 23067 48110
EV 43939 1408 8826 54173
F9 0 0 685 685
FL 0 0 3260 3260
HA 0 342 0 342
MQ 2276 7193 16928 26397
OO 6 0 26 32
UA 46087 4534 8044 58665
NAMA 4405 2995 13136 20536
VX 1566 3596 0 5162
WN 6188 0 6087 12275
YV 0 0 601 601
Ukupno 120835 111279 104662 336776

Ova tablica prikazuje tablicu kontingencije za zračne prijevoznike i njihova polazišta iz tri glavne zračne luke: EWR (Newark), JFK (John F. Kennedy) i LGA (LaGuardia). Tablica navodi svakog prijevoznika, broj letova iz svake zračne luke i ukupan broj letova za svakog prijevoznika u sve tri zračne luke.

Na primjer, prijevoznik 9E je obavio 1268 letova iz EWR-a, 14651 s JFK-a i 2541 iz LGA-a, što je ukupno 18460 letova. Prijevoznik AA je imao 3487 letova iz EWR-a, 13783 s JFK-a i 15459 s LGA-a, s ukupno 32729 letova.

UA (United Airlines), s 46087 letova iz EWR-a, 4534 s JFK-a i 8044 s LGA-a, ističe se kao jedan od prijevoznika s najviše letova, ukupno 58665 letova. B6 (JetBlue), još jedan istaknuti prijevoznik, obavio je 6557 letova s EWR-a, 42076 s JFK-a i 6002 s LGA-a, za ukupno 54635 letova.

Tablica daje sveobuhvatan uvid u to kako su različiti prijevoznici raspoređeni po tim zračnim lukama, ističući razlike u njihovom poslovanju na svakoj lokaciji. U slučaju potrebe za daljnjom analizom, ova tablica čini osnovu za izračun kutno, okomito i vodoravno 100 za detaljnije usporedbe.

Recimo da nas zanima i postoje li razlike u kašnjenjima polazaka i dolazaka s obzirom na prijevoznika.

Čini se da postoje dva prijevoznika, označeni kao AS i OO, s najkraćim kašnjenjima - kako polazaka, tako i dolazaka. No, uvidom u prethodnu tablicu, vidjet ćemo da se radi o kompanijama s manjim brojem odrađenih letova. Za sve prijevoznike je treći kvartil nešto iznad nule, a kašnjenja duža od cca 50 minuta su neuobičajena i kreiraju dugi desni krak distribucije.




Slučaj: Nekretnine

Nastavljamo istraživati neke od varijabli iz skupa podataka o nekretninama, s kojim smo se upoznali u posljednja dva štiva.

Izračunajmo i protumačimo pokazatelje deskriptivne statistike za promatrane nekretnine

Tablica 5. Pokazatelji deskriptivne statistike o nekretninama

Statistički pokazatelji Cijena Veličina parcele Starost Vrijednost zemljišta Životna površina Pct.College Kamini Kupaonice Sobe
Važeći 1728 1728 1728 1728 1728 1728 1728 1728 1728
Podaci koji nedostaju 0 0 0 0 0 0 0 0 0
Mod a 120000 0.4600 19 27000 1,480 64 1 2.5000
Medijan 189900 0.3700 19 25000 1634.5000 57 1 2 7
Aritmetička sredina 211966.7054 0.5002 27.9161 34557.1875 1754.9757 55.5677 0.6019 1.9002 7.0417
Standardna devijacija 98441.3910 0.6987 29.2100 35021.1681 619.9356 10.3336 0.5561 0.6584 2.3165
Koeficijent varijacije 0.4644 1.3968 1.0463 1.0134 0.3532 0.1860 0.9240 0.3465 0.3290
MAD 53100 0.1900 10 11250 391.5000 6 0 0.5000 2
IQR 114000 0.3700 21 25100 837.7500 12 1 1 3.2500
Varijanca 9.6907×10+9 0.4882 853.2234 1.2265×10+9 384320.0897 106.7829 0.3092 0.4334 5.3660
Raspon varijacija 770000 12.2000 225 412400 4612 62 4 4.5000 10
Minimum 5000 0 0 200 616 20 0 0 2
Maksimum 775000 12.2000 225 412600 5228 82 4 4.5000 12

a Postoji više od jednog moda

Cijena je kvantitativna varijabla mjerena na omjernoj razini jer ima apsolutnu nulu, što ukazuje da vrijednost nula znači da uopće nema cijene. Tablica prikazuje 1728 valjanih opažanja bez podataka koji nedostaju. Mod (najčešća cijena) je 120000 dolara, dok je medijalna cijena 189900 dolara, a prosječna cijena 211967. Činjenica da je prosjek veći od medijana ukazuje na desnostrano asimetričnu distribuciju, gdje nekretnine s višom cijenom povlače prosjek prema gore. Standardna devijacija je 98441 dolara, što sugerira značajnu varijabilnost cijena nekretnina. Veća standardna devijacija znači veću varijabilnost, što u ovom slučaju sugerira da postoji značajna razlika u cijenama nekretnina na tržištu.

Digresija: Možemo li utvrditi intervale standardnih, tipičnih i gotovo svih odstupanja za cijene nekretnina?

Primjenom pravila za tipična i gotovo sva odstupanja možemo dobiti bolji uvid u to koliko se cijene nekretnina obično razlikuju od prosjeka. Ove procjene pomažu nam u razumijevanju ukupne varijabilnosti cijena, što je korisno za dublje razumijevanje i donošenje informiranih odluka, bilo da je riječ o predviđanju budućih cijena, procjeni rizika ili usporedbi s drugim tržištima. Empirijsko pravilo, koje pretpostavlja simetričnu i približno normalnu distribuciju, nije primjenjivo jer distribucija cijena nekretnina pokazuje izduženost desnog kraka. Čebiševljevo pravilo, koje je primjenjivo na sve distribucije, može nam pomoći u procjeni udjela vrijednosti unutar određenog broja standardnih devijacija od prosjeka. Prema Čebiševljevom pravilu, najmanje 75% vrijednosti leži unutar dvije standardne devijacije od aritmetičke sredine, a najmanje 89% vrijednosti unutar tri standardne devijacije. To nam omogućuje da procijenimo raspon u kojem se nalazi većina cijena, čak i kada distribucija nije simetrična.

Slika 2. Prikaz primjene Čebiševog pravila za cijene nekretnina

Dakle, prema Čebiševom pravilu, u intervalu od jedne standardne devijacije od prosjeka nalazi se vrlo malo podataka. U intervalu koji se kreira oduzimanjem i zbrajanjem dviju standardnih devijacija od prosjeka, nalazi se barem 75 % podataka. Dakle, najmanje 75 % nekretnina imat će cijenu između 15083,92 dolara i 408849,48 dolara. Na sličan način možemo zaključiti da će najmanje 89% nekretnina koštati do 507290,87 dolara. Ovdje nismo iščitavali donju granicu intervala, jer nije smislena u danom kontekstu. Ova aproksimacija je korisna jer, unatoč asimetričnoj distribuciji s izduženim desnim krakom, možemo dobiti bolji uvid u tipičnu varijabilnost cijena nekretnina i raspon u kojem se nalazi većina podataka, što je korisno za bolje razumijevanje tržišta.

Za isti niz, koeficijent varijacije (CV) je 0,4644, što znači da je varijabilnost cijene oko 46,44% prosječne cijene, što ukazuje na umjerenu razinu relativne varijacije. Raspon varijacija cijena je veliki, kreće se od minimalno 5000 do maksimalno 775000 dolara, što je dodatno naglašeno IQR-om od 114000 i MAD-om od 53100. To sugerira da su cijene široko raspršene, što odražava veliku razliku između različitih nekretnina.

No, ako promatramo samo cijene novoizgrađenih nekretnina, radi se o približno normalno distribuiranoj varijabli. Ovdje će se prikazati tablica izračunatih statističkih pokazatelja za bolje razumijevanje nastavka u kojem će se prikazati Empirijsko pravilo.

Tablica 6. Pokazatelji deskriptivne statistike o cijenama nekretninama s obzirom na to je li novogradnja ili nije

Statistika 0 1
Valid 1,647 81
Missing 0 0
Mode 120,000 265,000
Median 186,000 287,989
Mean 208,507.3558 282,306.8148
Minimum 5,000 84,950
Maximum 775,000 469,900
25th percentile 143,750 218,070
75th percentile 250,000 345,264
Range 770,000 384,950
IQR 106,250 127,194
Variance 9.5700×10+9 7.0404×10+9
Std. Deviation 97,826.13 83,907.1874
Skewness 1.7061 -0.2830
Kurtosis 4.8018 -0.2182
Shapiro-Wilk 0.8808 0.9867
P-value of Shapiro-Wilk < .001 0.5672

Varijabla cijena podijeljena je na podskup koji spada u novogradnju (1) i podskup koji nije novogradnja (0). U prikazanim podacima za novoizgrađene nekretnine, prosjek i medijan su blizu jedan drugome (282306.81 za prosjek i 287989.00 za medijan), što ukazuje na relativno simetričnu distribuciju. Mod je nešto niži, ali s obzirom na rang veličina, nije izraženo udaljen od medijana i prosjeka.

Koeficijent asimetrije (skewness) pokazuje smjer i intenzitet asimetrije. Predznak minus ukazuje na negativno (lijevostrano) asimetričnu distribuciju (velika odstupanja na lijevoj strani, tj. izdužen lijevi krak distribucije), a pozitivan predznak na pozitivno (desnostrano) asimetričnu distribuciju (velika odstupanja na desnoj strani, tj. izdužen desni krak distribucije). Što je apsolutna vrijednost koeficijenta asimetrije veća, asimetrija je izraženija. Kada je vrijednost koeficijenta asimetrije blizu 0, distribucija je približno simetrična.

Kurtosis mjeri zaobljenost ili koncentraciju podataka oko prosjeka. Vrijednost kurtosis blizu 0 (ili oko 3 kada se koristi Pearsonova mjera zaobljenosti) sugerira normalnu raspodjelu podataka. Pozitivna vrijednost (kurtosis > 0 ili α_4>3) znači da je distribucija vrhom izduženija od normalne (leptokurtična), dok negativna vrijednost (kurtosis < 0 ili 1,8<α_4<3) ukazuje na plosnatiju distribuciju (platikurtična). Za podatke o cijeni novoizgrađenih nekretnina, mjera zaobljenosti iznosi -0.2182, što ukazuje na vrhom blago spljošteniju distribuciju od normalne, ali blizina nuli podržava tezu da je distribucija blizu normalne, što je karakteristično za simetričnu raspodjelu.

Ovdje se iznimno koristi jedno testiranje hipoteza kako bismo mogli tvrditi da se radi o približno normalno distribuiranoj varijabli. Shapiro-Wilk test koristi se za procjenu normalnosti distribucije podataka, što podrazumijeva simetriju kod normalne distribucije. Nul hipoteza (H₀) Shapiro-Wilk testa glasi: Podaci slijede normalnu distribuciju. Drugim riječima, nul hipoteza pretpostavlja da je raspodjela podataka normalna. Ako je p-vrijednost manja od unaprijed postavljenog praga značajnosti (obično 0.05), tada odbacujemo nultu hipotezu i zaključujemo da podaci ne slijede normalnu distribuciju. Ako je p-vrijednost veća od praga značajnosti, nema dovoljno dokaza da odbacimo nultu hipotezu, i stoga zaključujemo da podaci mogu biti normalno distribuirani. U prikazanom primjeru, p-vrijednost Shapiro-Wilk testa za cijene novoizgrađenih nekretnina iznosi 0.5672, što je veće od 0.05. To znači da nema dokaza protiv hipoteze o normalnosti, i možemo pretpostaviti da su podaci približno normalno distribuirani.

Nakon što smo potvrdili da su podaci približno normalno distribuirani, prelazimo na primjer primjene Empirijskog pravila. Ovdje će se primijeniti to pravilo samo na cijene novoizgrađenih nekretnina.

Slika 3. Prikaz primjena Empirijskog pravila za cijene novoizgrađenih nekretnina

Odstupanja unutar jedne standardne devijacije od prosjeka zovemo standardnim odstupanjima; odstupanja unutar dvije standardne devijacije od prosjeka zovemo tipičnim odstupanjima, dok se odstupanja unutar tri standardne devijacije od prosjeka odnose na gotovo sva odstupanja. Promatrane novogradnje standardno koštaju između 198399,62 dolara i 366214 dolara. Možemo reći i da 68% promatranih novoizgrađenih nekretnina ima cijenu između 198399,62 dolara i 366214 dolara.

Tipična cijena promatranih novogradnji kreće se od 114492,43 dolara i 450141,19 dolara. To ujedno znači da 95% promatranih novogradnji košta između 114492,43 dolara i 450141,19 dolara.

Gotovo sve promatrane novogradnje koštaju od 30585,25 dolara do 534028,38 dolara. Drugim riječima, 99.7 % promatranih novoizgrađenih nekretnina stoji najmanje 30585,25 dolara i najviše 534028,28 dolara.

Primjenom pojmova poput standardnih, tipičnih, i gotovo svih odstupanja, dobivamo složenije razumijevanje distribucije cijena, što nam pomaže u procjeni očekivanih odstupanja od prosjeka u različitim razinama preciznosti. Na ovaj način možemo jednostavno procijeniti koliko su cijene većine nekretnina koncentrirane oko prosjeka, te koliko rijetko dolazi do vrlo visokih ili niskih cijena, što je korisno za investicijske odluke i analizu tržišnog rizika.

Protumačimo pokazatelje za preostale varijable

Veličina parcele također je kvantitativna varijabla mjerena na omjernoj razini. Promatrane nekretnine imaju prosječnu veličinu parcele od 0,50 hektara, uz standardno odstupanje od prosjeka veličina parcela za 0,7 hektara. Koeficijent varijacije od 1,3968 (139,68%) sugerira izraženu relativnu varijabilnost u odnosu na prosjek. Raspon od 0 do 12.2 hektara pokazuje da postoje neke nekretnine s iznimno velikim parcelama. No, IQR od 0,37 hektara ukazuje na koncentraciju središnjih 50 % nekretnina prema veličini parcela.

Starost nekretnina, također mjerena na omjernoj razini, nema vrijednosti koje nedostaju. Mod je 19 godina, dok je medijan također 19 godina, što ukazuje na to da se mnoge starosto nekretnina grupiraju oko ove starosti. No, prosječna starost je nešto viša i iznosi 27,92 godine, što odražava nekoliko starijih nekretnina koje povlače prosjek prema višim vrijednostima. Starost nekretnina standardno odstupa od prosjeka za 29,21 godine. CV od 1,0463 (104,63 %) ukazuje na visoku relativnu varijabilnost u odnosu na prosjek godina. Raspon starosti nekretnina kreće se od 0 do 225 godina, što dodatno naglašava raznolikost starosti. IQR od 21 godine sugerira umjerenu varijabilnost u središnjoj polovici podataka.

Vrijednost zemljišta je kvantitativna varijabla mjerena na omjernoj razini. Mod za vrijednost zemljišta je 27000 dolara, dok je medijan 25000 dolara, a prosjek je 34557 dolara, što ukazuje na to da je distribucija pozitivno (desnostrano) asimetrična i vjerojatno je u pitanju višemodalna distribucija. Standardno odstupanje od prosjeka vrijednosti nekretnina iznosi 35021 dolara, što pokazuje značajnu varijabilnost u vrijednostima zemljišta. CV je 1,0134 (101,34%), što znači da je relativna varijabilnost vrijednosti zemljišta prilično izražena u odnosu na prosjek. Središnjih 50% podataka ima raspon od 25100 dolara, a raspon varijacija se proteže od 200 do 412600.

Životna površina je još jedna kvantitativna varijabla mjerena na omjernoj razini. Svih 1728 opažanja je valjano. Prosječna životna površina promatranih nekretnina je 1755 četvornih stopa, uz standardno odstupanje od prosjeka za 619.94 četvornih stopa. Koeficijent varijacije od 0,3532 (35,32%) ukazuje na umjerenu relativnu varijabilnost. Raspon varijacija stambenih površina kreće se od 616 do 5228 četvornih stopa, dok je raspon središnjih 50% nekretnina prema životnoj površini 837.75 četvornih stopa.

Fakultet je postotak ljudi s fakultetskim obrazovanjem u susjedstvu i radi se o varijabli mjerenoj na omjernoj razini. Susjedstva promatranih nekretnina najčešće imaju 64% fakultetski obrazovanoj stanovništva. Polovica susjedstva promatranih nekretnina ima 57% ili manje fakultetski obrazovanog stanovništva, dok preostala polovica ima toliki ili veći postotak fakultetski obrazovanih pojedinaca. Promatrane nekretnine u susjedstvu imaju prosječno 55,57% fakultetski obrazovanih stanovnika, sa standardnim odstupanjem od 10,33% od prosjeka. Koeficijent varijacije od 0,1860 (18,6%) ukazuje na nisku relativnu varijabilnost, što znači da udjeli fakultetski obrazovanih stanovnika u susjedstvu ne odstupaju puno od prosjeka. Raspon varijacija postotaka je od 20% do 82% fakultetski obrazovanih stanovnika u susjedstvu, uz raspon od 12% fakultetski obrazovanih susjeda u središnjih 50% nekretnina.

Kamini su diskontinuirana varijabla mjerena na omjernoj razini koja bilježi broj kamina u kući. Nekretnine prosječno imaju 0,60 kamina uz standardno odstupanje od prosjeka za 0,56 kamina. Koeficijent varijacije od 0,924 (92,4%) ukazuje na visoku relativnu varijabilnost u usporedbi s prosjekom. Raspon varijacija je od 0 do 4 kamina, ali s interkvartilom od 1.

Kupaonice su diskontinuirana varijabla mjerena na omjernoj razini bez podataka koji nedostaju. Promatrane nekretnine najčešće imaju po 2,5 kupaonica. Polovica nekretnina ima 2 kupaonice ili manje od toga, dok preostala polovica ima 2 kupaonice ili više. Nekretnine prosječno imaju 1.9 kupaonica, uz standardno odstupanje od prosjeka za 0,66 kupaonica. Koeficijent varijacije ukazuje na to da se radi o umjerenoj varijabilnosti u odnosu na prosjek (0,3465 ili 34,65%). Raspon varijacija kupaonica kreće seod 0 do 4.5 kupaonica. Interkvartil 1, što ukazuje da 50% nekretnina ima između 1 i 3 kupaonice.

Sobe su također diskontinuirana varijabla mjerena na omjernoj razini. Promatrane nekretnine imaju prosječno 7,04 sobe, koje standardno odstupaju od prosjeka za 2,32 sobe. Koeficijent varijacije ukazuje na umjerenu relativnu varijabilnost (0,329 ili 32,9%). Raspon varijacija soba u promatranim nekretninama kreće se od 2 do 12 soba. Interkvartilni raspon ukazuje na raspon od 3,25 soba za središnjih 50% nekretnina prema broju soba.

Usporedimo dvije varijable s različitim jedinicama. Varijabilnost u broju soba mnogo je niža od one u cijeni. Dok cijena ima visok CV od 0,4644, sobe pokazuju mnogo manju varijabilnost s nižim CV-om od 0,329. To sugerira da kuće obično imaju sličniji broj soba, dok cijene više variraju, vjerojatno zbog drugih čimbenika kao što su lokacija, veličina parcele i stambeni prostor.




Slučaj: Dijamanti

Za kraj ovog štiva usmjerit ćemo se na skup podataka o dijamantima. Već smo se ranije bavili ovim skupom podataka, no prvenstveno kvalitativnim varijablama. Sad će naša pozornost biti usmjerena kvantitativnim varijablama.

Izračunajmo i protumačimo pokazatelje deskriptivne statistike

Tablica 7. Pokazatelji deskriptivne statistike

Statistic Carat.Size Depth Price
Valid 2690 2690 2690
Missing 0 0 0
Mode 1.0100 62.2000 1037.0000
Median 0.9000 61.9000 3604.0000
Mean 0.8701 61.7115 3971.4714
Std. Deviation 0.3222 1.2101 2420.2342
Coefficient of variation 0.3703 0.0196 0.6094
MAD 0.2100 0.7000 1812.0000
IQR 0.4600 1.5000 3743.0000
Variance 0.1038 1.4643 5.8575×10⁶
Skewness 0.3199 -0.6624 0.6857
Std. Error of Skewness 0.0472 0.0472 0.0472
Kurtosis -0.4889 0.3234 -0.5057
Std. Error of Kurtosis 0.0944 0.0944 0.0944
Minimum 0.3000 56.4000 1000.0000
Maximum 2.0200 64.3000 10000.0000
25th percentile 0.6000 61.0000 1801.0000
50th percentile 0.9000 61.9000 3604.0000
75th percentile 1.0600 62.5000 5544.0000

* Izrađeno koristeći JASP.

Veličina dijamanata je kvantitativna kontinuirana varijabla mjerena na omjernoj razini, a mjerna jedinica je karat. Promatrani dijamanti najčešće su veliki 1,01 karata. Polovica dijamanata teži 0,9 karata ili manje, a druga polovica toliko ili više. Dijamanti su prosječno veliki 0,8701 karata, a veličina standardno odstupa od prosjeka za 0,3222 karata. Koeficijent varijacije je 0,3703 (ili 37,03%), što sugerira umjerenu razinu relativne varijabilnosti u veličinama dijamanata u usporedbi s prosjekom. Interkvartil od 0,4600 ukazuje na to da središnjih 50% dijamanata ima veličinu između 0,60 i 1,06 karata, dok raspon varijacija od minimuma (0,30 karata) do maksimuma (2,02 karata) pokazuje da postoje neka značajna odstupanja prema većim dijamantima.

Usmjerimo se na nekoliko mjera disperzije s najčešćom upotrebom u praksi: raspon varijacija, interkvartil, varijanca, standardna devijacija i koeficijent varijacije. Sada će se prikazati način izračuna za grupirane i negrupirane podatke.

Primjer izračuna mjera disperzije za negrupirane podatke

Kako su svi ovi pokazatelji već izračunati za negrupirane podatke i prikazani u tablici izračunatih statističkih pokazatelja, ovdje ćemo se radi jednostavnosti prikaza, pozabaviti s prvih 10 vrijednosti u nizu:

\(0,3, 0,44, 0,31, 0,66, 0,47, 0,4, 0,36, 0.52, 0.53\) i \(0.43\).

U prvom koraku, potrebno ih je sortirati, kao pomoćnu radnju za prve dvije mjere:

\(0.3, 0.31, 0.36, 0.4, 0.43, 0.44, 0.47, 0.52, 0.53\) i \(0.66\).

Pri izračunu raspona varijacija, potrebne su najmanja i najveća vrijednost u nizu:

\[R_x=x_{max}-x_{min}\]

\[R_x=0,66-0,3=0,36\]

Za podskup od prvih 10 opažanja iz originalnog seta, raspon varijacija iznosi 0,36 karata.

Sljedeći po redu je interkvartil, koji predstavlja razliku prvog i trećeg kvartila.

\[IQR=Q_3-Q_1\]

Dakle, kao pomoćna radnja, računaju se prvi i treći kvartil. Prvi kvartil iščitava se kao Q_1=x_r za skup podataka one veličine koja nije djeljiva s 4. Pritom se u prvom koraku određuje redni broj, \(r=INT(\frac{1}{4} \cdot N)+1\), što znači da se zadržava cjelobrojni dio dijeljenja veličine uzorka (10) sa 4 i dodaje 1. Tako dobivamo redno mjesto prvog kvartila, \(r=3\). U sljedećem koraku, iščitava se vrijednost na trećem mjestu u sortiranom nizu, \(Q_1=0,36\). Na sličan način, iščitava se i treći kvartil, a redno mjesto se utvrđuje pomoću izraza \(r=INT(\frac {3}{4} \cdot N)+1\), što daje \(r=8\) i \(Q_3=0,52\).

\[IQR=0,52-0,36=0,16\]

Središnjih 50% dijamanta (iz podskupa prvih deset opažanja) po veličini ima raspon od 0.16 karata i kreće se od 0,36 do 0,52 karata.

Sljedeće, računamo varijancu. Varijanca populacije označava se kao \(σ^2\) (sigma kvadrat), a uzorka \(s^2\).

\[σ^2= \frac{∑(x_i-μ)^2} {N}\]

\[s^2= \frac{∑(x_i- \bar{x} )^2} {n-1}\]

U prvom koraku, potrebno je izračunati prosjek za odabrana opažanja, \(\bar{x}=\frac{0,3+0,31+0,36+⋯+0,53+0,66}{10}=0,442\).

Potom, obraćamo pozornost na brojnik varijance. Brojnik predstavlja sumu kvadratnih odstupanja od prosjeka. Da bismo to izračunali, prvo moramo utvrditi razlike svakog opažanja od prosjeka. Nakon toga, te razlike trebamo kvadrirati. I u posljednjem koraku ih zbrajamo. Kako se ne bi zabunili oko koraka, možemo koristiti pomoćnu tablicu.

Tablica 8. Pomoćne radnje za izračun varijance i standardne devijacije

\(x_i\) \(x_i - x̄\) \((x_i - x̄)^2\)
0.3 -0.142 0.02016
0.31 -0.132 0.01742
0.36 -0.082 0.00672
0.4 -0.042 0.00176
0.43 -0.012 0.00014
0.44 -0.002 0.00000
0.47 0.028 0.00078
0.52 0.078 0.00608
0.53 0.088 0.00774
0.66 0.218 0.04752
Ukupno 0.10836

U prvom stupcu nalaze se opažanja. Iako su zapisani u tablici, to nisu sad grupirani podaci, i dalje se radi o negrupiranim podacima, samo smo ih zapisali pregledno za nastavak analize. U sljedećem stupcu računamo odstupanja (razlike) pojedinačnih opažanja od prosjeka. U trećem stupcu te razlike kvadriramo. U zbirnom retku zbrajamo kvadratna odstupanja od prosjeka i dobivamo 0,10836, što je brojnik varijance.

\[s^2= \frac{∑(x_i- \bar{x} )^2} {n-1} = \frac {0,10836} {10-1}=0,01204\]

Prosječna kvadratna odstupanja veličina dijamanata od prosjeka iznose 0,01204 (u podskupu prvih deset opažanja). S obzirom da je teško razmišljati u kvadratima, odnosno kvadriranim veličinama, varijanca se češće koristi u analitičkom dijelu, ali se rjeđe koristi direktno u izvještavanju. Dakle, problem su kvadrati, a suprotna računska operacija je korjenovanje. I upravo tako dobivamo standardnu devijaciju.

Standardna devijacija je pozitivno rješenje drugog korijena iz varijance.

\[σ= \sqrt{σ^2}\]

\[s=\sqrt{s^2}\]

Ovdje je važno sjetiti se da je \(s^2\) oznaka varijance i varijancu treba uvrstiti pod korijen. Molim vas, oduprite se porivu da ‘pokratite’ korijen i kvadrat – ovdje kvadrat nije računska operacija nego dio naziva (oznake) varijance.

\[s=\sqrt{0,01204}=0,1097\]

Veličine dijamanata (iz podskupa prvih deset opažanja) standardno odstupaju od prosjeka za 0,1097 karata. Preostaje još izračunati koeficijent varijacije. Koeficijent varijacije je postotni omjer standardne devijacije i aritmetičke sredine.

\[CV= \frac{s} {\bar{x}} \cdot 100\]

Pošto već imamo izračunate sve potrebne vrijednosti, pristupamo uvrštavanju i izračunu:

\[CV= \frac{0,1098}{0,442} \cdot 100=24,83 \% \]

Veličina dijamanata pokazuje relativno malu varijabilnost (24,83%) u odnosu na prosječnu veličinu (u podskupu prvih deset opažanja).

Primjer izračuna mjera disperzije za grupirane podatke

Izračunajmo i protumačimo mjere disperzije za grupirane podatke

U sljedećem koraku, pristupamo izračunu ovih pokazatelja za grupirane podatke. Za to je u prvom koraku potrebno podatke grupirati. Tablica prikazuje grupirane podatke (donja i gornja granica razreda, frekvencija, sredina razreda, kumulativni niz „manje od“ te pomoćne radnje za izračun pokazatelja).

Tablica 9. Tablica s pomoćnim radnjama za izračun mjera disperzije grupiranih podataka

\(L_1\) \(L_2\) \(f_i\) \(x_i\) Kum. niz „manje od“ \(f_i x_i\) \((xi-x̄)\) \((xi-x̄ )^2\) \(f_i (xi-x̄ )^2\)
0.3 0.396 101 0.35 101 35.15 -0.53 0.2820 28.49
0.396 0.492 214 0.44 315 95.02 -0.44 0.1893 40.51
0.492 0.588 338 0.54 653 182.52 -0.34 0.1150 38.86
0.588 0.684 114 0.64 767 72.50 -0.24 0.0591 6.74
0.684 0.78 415 0.73 1182 303.78 -0.15 0.0216 8.98
0.78 0.876 112 0.83 1294 92.74 -0.05 0.0026 0.29
0.876 0.972 232 0.92 1526 214.37 0.04 0.0020 0.47
0.972 1.068 504 1.02 2030 514.08 0.14 0.0199 10.01
1.068 1.164 173 1.12 2203 193.07 0.24 0.0561 9.71
1.164 1.26 187 1.21 2390 226.64 0.33 0.1108 20.73
1.26 1.356 100 1.31 2490 130.80 0.43 0.1840 18.40
1.356 1.452 45 1.40 2535 63.18 0.52 0.2756 12.40
1.452 1.548 99 1.50 2634 148.50 0.62 0.3856 38.17
1.548 1.644 39 1.60 2673 62.24 0.72 0.5140 20.05
1.644 1.74 9 1.69 2682 15.23 0.81 0.6609 5.95
1.74 1.836 5 1.79 2687 8.94 0.91 0.8262 4.13
1.836 1.932 0 1.88 2687 0.00 1.00 1.0099 0.00
1.932 2.028 3 1.98 2690 5.94 1.10 1.2120 3.64
Ukupno 2690 / / / 2364.70 / / 267.50

Pri izračunu raspona varijacija, potrebne su najmanja i najveća vrijednost u nizu, kao i ranije. No, ovdje se kao najmanja vrijednost iščitava donja granica prvog razreda, a kao najveća vrijednost u nizu iščitava se gornja granica posljednjeg razreda.

\[R_x=x_{max}-x_{min}\]

\[R_x=2,028-0,3=1,728\]

Za sva opažanja u ovom skupu, grupirana u razrede, raspon varijacija iznosi 1,728 karata i proteže se od 0,3 karata do 2,028 karata. Posljedice grupiranja rezultata već su ranije adresirane u štivu, pa se ovdje neće zasebno komentirati, iako se već ovdje mogu uočiti malene razlike u rezultatima pokazatelja temeljem negrupiranog i grupiranog niza.

Pri izračunu interkvartila za grupirane podatke, potrebno je prvo utvrditi kvartile.

\(n/4=2690/4=672,5\) (četvrti razred)

\[Q_1=0,588+ \frac{672,5-653}{114} \cdot (0,684-0,588)=0,588+\frac{19,5}{114} \cdot 0,096=0,6044\]

\(3n/4=(3 \cdot 2690)/4=2017,5\) (osmi razred)

\[Q_1=0.972+\frac{2017,5-1526}{504} \cdot(1.068-0.972)=0,972+\frac{491,5}{504} \cdot 0,096=1,066\]

\[IQ=Q_3-Q_1\]

\[IQ=1,066-0,604=0,462\]

Središnjih 50% svih promatranih dijamanta po veličini ima raspon od 0.462 karata i kreće se od 0,604 do 1,066 karata.

Sljedeće, računamo varijancu. Ovdje se radi o grupiranim podacima te se indeks i odnosi na razrede, a ne više pojedinačne podatke. Pa je varijanca suma kvadratnih odstupanja sredina razreda od prosjeka vaganih frekvencijama te podijeljena brojem opažanja.

Ovdje nam je još potreban prosjek grupiranih podataka, koji izračunavamo prema izrazu:

\[ \bar{x} = \frac{∑ (f_i \cdot x_i)}{n} = \frac{2364.70}{2690}=0,8791\]

Za izračun brojnika aritmetičke sredine grupiranih podataka, sredine razreda vagali smo s frekvencijom pripadajućih razreda i te radnje prikazane su u pomoćnom stupcu \(f_i x_i\). Sumu tih umnožaka zapisali smo u brojnik formule i podijelili s brojem opažanja. Promatrani dijamanti prosječno su veliki 0,8791 karata.

Kao pomoćne radnje u tablici imamo stupac s kvadratnim odstupanjima sredina razreda od prosjeka, pa potom stupac kvadrata tih odstupanja, a sljedeći stupac sadrži vrijednosti tih kvadrata pomnoženih s pripadajućom frekvencijom za svaki razred. Tek u posljednjem pomoćnom stupcu, \(f_i (x_i- \bar{x})^2\), zbrajamo vrijednosti (vrijednosti iz ostalih stupaca koji služe za pomoćnu radnju ne zbrajamo, jer zbrojevi \((x_i-\bar{x})\) i \((x_i- \bar{x})^2\) izračunati za grupirane podatke nemaju značenje/direktnu primjenu) i tu sumu uvrštavamo u brojnik varijance.

\[σ^2=\frac{∑ f_i (x_i-μ)^2}{N}\]

\[s^2= \frac{∑f_i (x_i- \bar{x})^2}{n-1}\]

\[s^2=\frac{∑f_i (x_i- \bar{x})^2}{n-1}=\frac{267,5}{2690}=0,09944\]

Prosječna kvadratna odstupanja od prosjeka iznose 0,09944.

Standardna devijacija je pozitivno rješenje drugog korijena iz varijance i izrazi za izračun ne razlikuju se u odnosu na negrupirane podatke. \[σ= \sqrt {σ^2} \]

\[s=\sqrt {s^2}\]

\[s= \sqrt{0,09944}=0,31534\]

Veličine dijamanata standardno odstupaju od prosjeka za 0,315 karata. Preostaje još izračunati koeficijent varijacije. Koeficijent varijacije je postotni omjer standardne devijacije i aritmetičke sredine.

\[CV=\frac{s}{\bar{x}} \cdot 100\]

Pošto već imamo izračunate sve potrebne vrijednosti, pristupamo uvrštavanju i izračunu:

\[CV=\frac{0,31534}{0,8791} \cdot 100=35,87 \%\]

Veličina dijamanata iskazuje umjerenu varijabilnost (35,87%) s obzirom na prosječnu veličinu.

Nastavimo s iščitavanjem pokazatelja za preostale varijable.

Cijene dijamanata su kvantitativna kontinuirana varijabla mjerena na omjernoj razini i mjerna jedinica je US dolar. Cijene dijamanata u ovom skupu podataka pokazuju širok raspon varijacija, s vrijednostima koje variraju od 1000 do 10000 dolar. Prosječna cijena od 3971,47 USD je veća od medijalne (3604 dolara), što ukazuje na to da veći broj dijamanata ima cijenu veću od prosječne. Na to upućuje i najčešća cijena od 1037 USD, što znači da se najčešće kupuju dijamanti na pristupačnijem kraju spektra. Velika standardna devijacija od 2420,23 USD odražava izraženu varijabilnost u cijenama dijamanata, što je dodatno potvrđeno koeficijentom varijacije od 0,6094 (60,94%), što sugerira visoku relativnu varijabilnost. Interkvartilni raspon (IQR) također je širok i iznosi 3743 USD, što znači da središnjih 50% dijamanata ima cijene između 1801 i 5544 USD. Ova varijabilnost može biti posljedica različitih čimbenika kao što su karatna veličina, kvaliteta ili rez, koji značajno utječu na cijenu.

Slika 4. Histogram dubina dijamanata

Dubina dijamanata, mjerena je kao postotak ukupne visine i širine te predstavlja kavantitativnu kontinuiranu varijablu mjerenu na omjernoj razini. Varijabla pokazuje relativno male varijacije. Prosječna dubina je 61,71%, a medijalna dubina je vrlo blizu prosječne, 61,90%, što ukazuje na dosljedan trend dubine dijamanata. Mod je malo viši i iznosi 62,20%, što pokazuje da je ova vrijednost dubine najčešća među dijamantima. Standardna devijacija od 1,21 sugerira da većina dijamanata ima postotke dubine koji se ne razlikuju mnogo od srednje vrijednosti. Mali koeficijent varijacije (0,0196 ili 1,96%) potvrđuje nisku relativnu varijabilnost u ovoj karakteristici dijamanata. Središnjih 50% dijamanata varira po dubini za 1,50%, odnosno središnjih 50% dijamanata ima dubine između 61,00% i 62,50%, dok se ukupni raspon varijacija dubine kreće od 56,40% do 64,30%, što sugerira da postoji izdužen lijevi krak distribucije. Ako u kombinaciji s ovim pokazateljima upotrijebimo i grafički prikaz, iščitane pravilnosti postaju uočljivije.

Slika 5. Box-plot dubina dijamanata




Pitanja za ponavljanje

  1. Kod analize kašnjenja polaska (dep_delay) i kašnjenja dolaska (arr_delay), primijetili ste da je standardna devijacija veća za dolaske. Koji biste zaključak mogli izvući iz toga?
  1. Kašnjenja dolaska imaju širu varijaciju vrijednosti (više raspršenosti) nego kašnjenja polaska.
  2. Kašnjenja polaska uvijek moraju biti veća od onih dolaska, pa je standardna devijacija zapravo ista.
  3. Standardna devijacija ne uspoređuje se za varijable s istim jedinicama.
  4. Ako je standardna devijacija veća za dolaske, to mora značiti da je aritmetička sredina manja za dolaske.

  1. U tablici 1. raspon varijacija za kašnjenje polaska (dep_delay) iznosi od -43 do 1301. Što znači ovaj interval?
  1. Da su svi polasci točno u tim vremenskim intervalima raspoređeni ujednačeno.
  2. Da su letovi krenuli najviše 43 sata ranije od planiranog i 1301 sat kasnije od planiranog.
  3. Da je maksimalno kašnjenje 1301 minuta, dok je najveće uranjeno polijetanje 43 minute prije rasporeda.
  4. Da 43 i 1301 predstavljaju binarne kodove polaznih vremena.

  1. Koeficijent varijacije (CV) za kašnjenje dolaska iznosi približno 6.47. Koji je najbolji opis što to znači?
  1. 6.47 govori nam da je standardna devijacija 647 puta veća od prosjeka.
  2. Relativna varijabilnost kašnjenja dolaska je oko 647% prosjeka, što sugerira veliku raspršenost.
  3. To je vrijednost standardne devijacije bez jedinica, što je uvijek između 0 i 1.
  4. Koeficijent varijacije se ne može primijeniti na intervalne varijable.

  1. Za varijablu air_time (trajanje leta) navedeno je da je mod = 42, medijan = 129, a prosjek = 150.69. Koja interpretacija najbolje opisuje raspodjelu?
  1. Distribucija je dvomodalna, jer se mod i medijan ne poklapaju.
  2. Distribucija je vjerojatno desno asimetrična, jer je mod < medijan < prosjek.
  3. Distribucija je lijevo asimetrična, jer prosjek prelazi 200.
  4. Distribucija je savršeno simetrična, jer se medijan i prosjek ne podudaraju.

  1. Koje je od tumačenja točno, ako je standardna devijacija udaljenosti (distance) letova 733 milja?
  1. Sva su kašnjenja standardno veća od 733 minuta.
  2. Udaljenost ima pravu nulu, pa se standardna devijacija ne može izračunati.
  3. Tipični let se nalazi unutar 1466 milje od prosjeka udaljenosti.
  4. To znači da se svi letovi nalaze unutar 733 milja od prosjeka udaljenosti.

  1. U tablici se navodi da je koeficijent varijacije (\(CV\)) za dep_delay oko 3.1814 (318%). Zašto takva vrijednost implicira izrazitu varijabilnost?
  1. Zato što 318% znači da medijan prelazi aritmetičku sredinu.
  2. Jer je standardna devijacija oko 3,18 puta veća od prosječne vrijednosti, što ukazuje na ekstremno visoku relativnu varijabilnost.
  3. Vrijednost je uvijek veća od 1, pa se tumači da nema varijabilnosti.
  4. Koeficijent varijacije manji od 10% ukazuje na veliku varijabilnost.

  1. Za varijablu arr_delay, IQ iznosi 31. Koje je najispravnije tumačenje tog podatka?
  1. Središnjih 50% letova kasni između 0 i 31 minute.
  2. Razlika između minimalne i maksimalne vrijednosti iznosi 31 minutu.
  3. Razlika između trećeg i prvog kvartila kašnjenja dolaska iznosi 31 minutu.
  4. Nemoguće je da IQ iznosi 31 ako su negativne vrijednosti prisutne.

  1. Promatrajući varijablu prijevoznik, primijetili ste da standardna devijacija i varijanca nisu prijavljeni. Zašto je to najvjerojatnije tako?
  1. Zato što se prijevoznik mjeri na nominalnoj razini pa su mjere disperzije koje uključuju odstupanja od prosjeka neprimjenjive.
  2. Zato što je standardna devijacija i varijanca uvijek 0 kod binarnih varijabli.
  3. Zato što mod prelazi medijan za tu varijablu.
  4. Zato što se rad s kategorijskim varijablama dopušta samo raspon varijacija i interkvartilni raspon.

  1. Kod tumačenja IQ-a za varijablu air_time, netko zaključuje da je 110 = 3 \(\times\) standardna devijacija. Koji je najbolji komentar?
  1. IQ se ne može direktno uspoređivati sa standardnom devijacijom, jer mjere različite aspekte raspodjele.
  2. To znači da je raspon varijacija uvijek 3 puta manji od IQR-a.
  3. Distribucija mora biti savršeno normalna, pa su IQR i standardna devijacija u fiksnom omjeru.
  4. IQ od 110 uvijek znači da je standardna devijacija oko 36.7.

  1. U tablici 1. piše da je minimalna vrijednost dep_delay -43. Kako to interpretirati?
  1. Let je poletio 43 dana ranije od rasporeda.
  2. Let je poletio 43 minute ranije od rasporeda.
  3. Distribucija ne može imati negativne vrijednosti, pa je to greška.
  4. Riječ je o diskontinuiranoj varijabli, pa se 43 mora interpretirati kao faktor.

  1. Varijabla Pct.College (u nekretninama) ima standardnu devijaciju 10.3336 i prosjek 55.5677. Koeficijent varijacije je naveden kao 0.1860. Koji je najbolji zaključak?
  1. Prosjek prelazi 100, pa je CV nerelevantan.
  2. Relativna varijabilnost (18.60%) ukazuje da postotak visokoobrazovanih stanovnika ne odstupa previše od srednje vrijednosti.
  3. Koeficijent varijacije od 0.186 ukazuje na ekstremnu varijabilnost.
  4. Kada je CV manji od 1, varijabla ima apsolutnu nulu.

  1. Veličina parcele (Lot.Size) ima koeficijent varijacije 1.3968 (139.68%). Kako to uspoređujemo s CV od oko 46.44% za cijene (Price)?
  1. Parcele su manje varijabilne u odnosu na svoju aritmetičku sredinu nego cijene.
  2. Cijene su više rasprostranjene jer je 1.3968 < 0.4644.
  3. Veličina parcele relativno više varira od cijena, jer je 139.68% > 46.44%.
  4. Koeficijent varijacije se ne može uspoređivati za različite varijable.

  1. Za varijablu Starost (Age) nekretnina u tablici stoji raspon varijacija 225 godina. Koji je najlogičniji komentar?
  1. Možemo zaključiti da je najmlađa nekretnina stara 0, a najstarija 225 godina.
  2. Ako je raspon 225, medijan mora biti 112.5.
  3. Raspon je uvijek jednak standardnoj devijaciji, stoga je Age = 225.
  4. Nemoguće je da starost kuće ide do 225 godina.

  1. Kod promatranja broja kamina (Fireplaces), standardna devijacija iznosi 0.5561, dok je prosjek 0.6019. Zašto su decimalne vrijednosti dopuštene u tim pokazateljima?
  1. Zato što je broj kamina kontinuirana varijabla pa decimalna mjesta imaju stvarno značenje.
  2. Jer je aritmetička sredina te standardna devijacija statistički izračun i ne moraju odgovarati diskretnim cjelobrojnim vrijednostima.
  3. Jer su kamini nominalna varijabla koju ne smijemo interpretirati.
  4. Decimalne vrijednosti ukazuju da je definicija kamina pogrešno unesena.

  1. U tablici za dijamante postoji varijabla cut (rez dijamanta) koja je kategorizirana od Fair do Ideal. Zašto joj nije navedena standardna devijacija?
  1. Zato što nije moguće izračunati standardnu devijaciju za nominalnu ili ordinalnu varijablu rezova.
  2. Zato što se standardna devijacija ne može primijeniti na kontinuirane varijable.
  3. Zato što je rez mjeren na omjernoj razini pa se mora koristiti interkvartil.
  4. Zato što ‘cut’ ima negativne vrijednosti.

  1. U tablici gdje je varijabla air_time ima standardnu devijaciju 93.6883, netko navodi da 93.6883 mora biti “prikladna za sve raspodjele”. Koja je najtočnija izjava?
  1. Standardna devijacija je pouzdana mjera isključivo za normalne distribucije.
  2. Može se koristiti na svim intervalnim/omjernim varijablama, neovisno o obliku distribucije, ali interpretacija može biti teža kod vrlo asimetričnih distribucija.
  3. Ne može se primijeniti ako varijabla ima decimalna mjesta.
  4. Ako je standardna devijacija veća od 10, varijabla nije normalna.

  1. Promatrane su dvije numeričke kontinuirane varijable. Njihove su distribucije prikazane histogramima. Odaberite točan i najpotpuniji opis od ponuđenih.

  1. Raspon varijacija veći je za obilježje Kašnjenja dolazaka (1300), nego obilježje Trajanje leta (700). Najčešća vrijednost varijable Trajanje leta je 9000, a varijable Kašnjenja dolazaka blizu 20000. Distribucija varijable Trajanje leta je blago pozitivno asimetrična, a distribucija varijable Kašnjenja dolazaka negativno asimetrična.

  2. Raspon varijacija veći je za obilježje Kašnjenja dolazaka (1300), nego obilježje Trajanje leta (700). Najčešća vrijednost varijable Trajanje leta je između 100 i 150 minuta, a najčešća vrijednost varijable Kašnjenja dolazaka između -50 i 0. Obje distribucije su pozitivno asimetrične.

  3. Raspon varijacija veći je za obilježje Trajanje leta (20000), nego obilježje Kašnjenja dolazaka (25000). Najčešća vrijednost varijable Trajanje leta je 2500, a varijable Kašnjenja dolazaka 1300. Distribucije su naizgled simetrične.

  4. Raspon varijacija veći je za obilježje Trajanje leta (20000), nego obilježje Kašnjenja dolazaka (25000). Obje distribucije su negativno asimetrične.


  1. Kod varijable Price za nekretnine, netko želi primijeniti Empirijsko pravilo (68–95–99.7). Zašto to može biti pogrešno?
  1. Ako je distribucija snažno asimetrična i ne približno normalna, Empirijsko pravilo ne vrijedi.
  2. Zato što se Empirijsko pravilo ne smije koristiti za varijable skuplje od 500000 USD.
  3. Jer Empirijsko pravilo vrijedi samo za kategorijske varijable.
  4. Empirijsko pravilo daje rezultate samo ako je varijabla binarna.

  1. Histogramima su prikazane distribucije trajanja i udaljenosti letova.

  1. Očekujem da će varijabla trajanje leta imati veću standardnu devijaciju od varijable udaljenosti.
  2. Očekujem da će varijabla trajanje leta imati manju standardnu devijaciju od varijable udaljenosti.
  3. Očekujem da će varijabla trajanje leta i varijabla udaljenosti imati podjednaku standardnu devijaciju.
  4. Nije moguće izračunati, pa ni usporediti standardne devijacije ovih dviju varijabli.

  1. Varijabla Dubina (dijamanata) ima CV = 1.96%. Što takva vrijednost CV-a govori o raspodjeli?
  1. Dobiva se da je standardna devijacija veća od prosjeka za 1.96%.
  2. Relativna varijabilnost dubine je vrlo niska, pa su dubine dijamanata poprilično slične.
  3. 1.96% implicira da 95% dijamanata ima dubinu veću od 96%.
  4. Zbog tako malog CV, raspon varijacija mora biti barem 50.




Repliciranje analize koristeći različite alate

S obzirom da su postpci za kreiranje jednostavnih grafikona prikazani u ranijim štivima, ovdje će se preskočiti.

Provedba postupka koristeći JASP


Za izračun mjera disperzije u JASPu, koristi se sekcija ‘Dispersion’ koja je dio izbornika/sekcije ‘Statistics’ u sklopu ‘Descriptive statistics’. Potrebno je označiti (kliknuti na prazan kvadratić da se pojavi plava pozadina s bijelom kvačicom) one mjere koje želite izračunati.


Ovo je uvid u podatkovni okvir ‘letovi’. S obzirom da se radi o puno opažanja, moguće je da će za učitavanje biti potrebna koja sekunda više (u odnosu na ostale podatkovne okvire s kojima smo do sad radili).

Za izračun pokazatelja deskriptivne statistike, odaberite ‘Descriptives’, odaberite varijable, a potom u izbonriku ‘Statistics’ označite sve pokazatelje koje želite izračunati.

Histogram udaljenosti.

Tablica frekvencija varijable prijevoznika. Odaberite varijablu, a potom kliknite na sekciju ‘Tables’. Označite ‘Frequency tables’ i, ako je potrebno, prilagodite maksimalan broj jedinstvenih vrijednosti.

Tablica frekvencija varijable polazišta. Odaberite varijablu, a potom kliknite na sekciju ‘Tables’. Označite ‘Frequency tables’ i, ako je potrebno, prilagodite maksimalan broj jedinstvenih vrijednosti.

Za velike skupove podataka, kao što je ovaj, potrebno je dulje vrijeme za kreiranje grafikona, osobito usporednih. Potrebno je strpljenje.

Ako dovoljno dugo pričekate, dobit ćete grafički prikaz nalik ovome. Dakle, ovdje su prikazani usporedni box-plotovi kašnjenja polazaka s obzirom na mjesto polaska.

Sljedeći graf prikazuje usporedne box-plotove kašnjenja polazaka s obzirom na mjesto prijevoznika.

Tablica kontingencije kreira se odabirom ‘Frequencies’ iz trake izbornika, a potom odabirete ‘Contingency table’ iz padajućeg izbornika. Odaberite odgovarajuće varijable u redak i stupac tablice.

Pokazatelji deskriptivne statistike za varijable iz podatkovnog okvira ‘Nekretnine’.

Pokazatelji deskriptivne statistike za varijablu cijena (‘Price’), podijeljene prema kvalitativnoj varijabli novogradnja.

Pokazatelji deskriptivne statistike za varijable iz podatkovnog okvira ‘Dijamanti’.

Provedba postupka koristeći R


Prvo ćemo učitati sve podatkovne skupove, pa pogledati kako podaci izgledaju koristeći head().

> library(dbplyr)
> library(nycflights13)
> letovi <- flights
> head(letovi, 10)
## # A tibble: 10 × 19
##     year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
##    <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
##  1  2013     1     1      517            515         2      830            819
##  2  2013     1     1      533            529         4      850            830
##  3  2013     1     1      542            540         2      923            850
##  4  2013     1     1      544            545        -1     1004           1022
##  5  2013     1     1      554            600        -6      812            837
##  6  2013     1     1      554            558        -4      740            728
##  7  2013     1     1      555            600        -5      913            854
##  8  2013     1     1      557            600        -3      709            723
##  9  2013     1     1      557            600        -3      838            846
## 10  2013     1     1      558            600        -2      753            745
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## #   tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## #   hour <dbl>, minute <dbl>, time_hour <dttm>
> Diamonds <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Diamonds.txt")
> head(Diamonds, 10)
##    Carat.Size Color Clarity Depth Table       Cut Report Price Log.Price
## 1        0.30     E    VVS1  60.0    59 Excellent    GIA  1000  6.907755
## 2        0.44     E     VS2  61.9    58 Excellent    GIA  1000  6.907755
## 3        0.31     E    VVS1  61.3    58 Excellent    GIA  1000  6.907755
## 4        0.66     K     SI1  62.8    57 Excellent    GIA  1000  6.907755
## 5        0.47     H     VS2  59.1    64 Very Good    GIA  1000  6.907755
## 6        0.40     G     VS1  62.0    59 Excellent    GIA  1000  6.907755
## 7        0.36     D     VS2  61.3    57 Excellent    GIA  1000  6.907755
## 8        0.52     H     SI2  61.7    61 Very Good    GIA  1000  6.907755
## 9        0.53     D     SI2  59.4    59 Very Good    GIA  1001  6.908755
## 10       0.43     F     VS2  61.5    60 Excellent    GIA  1001  6.908755
##    Table.Depth Table.Depth.1 Test
## 1         -1.0     0.9833333    0
## 2         -3.9     0.9369951    1
## 3         -3.3     0.9461664    0
## 4         -5.8     0.9076433    2
## 5          4.9     1.0829103    2
## 6         -3.0     0.9516129    2
## 7         -4.3     0.9298532    0
## 8         -0.7     0.9886548    0
## 9         -0.4     0.9932660    0
## 10        -1.5     0.9756098    2
> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 10)
##     Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1  132500     0.09          0  42      50000             0           0
## 2  181115     0.92          0   0      22300             0           0
## 3  109000     0.19          0 133       7300             0           0
## 4  155000     0.41          0  13      18700             0           0
## 5   86060     0.11          0   0      15000             1           1
## 6  120000     0.68          0  31      14000             0           0
## 7  153000     0.40          0  33      23300             0           0
## 8  170000     1.21          0  23      14600             0           0
## 9   90000     0.83          0  36      22200             0           0
## 10 122900     1.94          0   4      21200             0           0
##    Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1          3         4          2         906          35        2          1
## 2          2         3          2        1953          51        3          0
## 3          2         3          3        1944          51        4          1
## 4          2         2          2        1944          51        3          1
## 5          2         2          3         840          51        2          0
## 6          2         2          2        1152          22        4          1
## 7          4         3          2        2752          51        4          1
## 8          4         2          2        1662          35        4          1
## 9          3         4          2        1632          51        3          0
## 10         2         2          1        1416          44        3          0
##    Bathrooms Rooms
## 1        1.0     5
## 2        2.5     6
## 3        1.0     8
## 4        1.5     5
## 5        1.0     3
## 6        1.0     8
## 7        1.5     8
## 8        1.5     9
## 9        1.5     8
## 10       1.5     6
> library(psych)
> 
> deskr_letovi <- describe(letovi, quant = c(0.25, 0.75))
> deskr_letovi
##                vars      n    mean      sd median trimmed     mad  min  max
## year              1 336776 2013.00    0.00   2013 2013.00    0.00 2013 2013
## month             2 336776    6.55    3.41      7    6.56    4.45    1   12
## day               3 336776   15.71    8.77     16   15.70   11.86    1   31
## dep_time          4 328521 1349.11  488.28   1401 1346.82  634.55    1 2400
## sched_dep_time    5 336776 1344.25  467.34   1359 1341.60  613.80  106 2359
## dep_delay         6 328521   12.64   40.21     -2    3.32    5.93  -43 1301
## arr_time          7 328063 1502.05  533.26   1535 1526.42  619.73    1 2400
## sched_arr_time    8 336776 1536.38  497.46   1556 1550.67  618.24    1 2359
## arr_delay         9 327346    6.90   44.63     -5   -1.03   20.76  -86 1272
## carrier*         10 336776    7.14    4.14      6    7.00    5.93    1   16
## flight           11 336776 1971.92 1632.47   1496 1830.51 1608.62    1 8500
## tailnum*         12 334264 1814.32 1199.75   1798 1778.21 1587.86    1 4043
## origin*          13 336776    1.95    0.82      2    1.94    1.48    1    3
## dest*            14 336776   50.03   28.12     50   49.56   32.62    1  105
## air_time         15 327346  150.69   93.69    129  140.03   75.61   20  695
## distance         16 336776 1039.91  733.23    872  955.27  569.32   17 4983
## hour             17 336776   13.18    4.66     13   13.15    5.93    1   23
## minute           18 336776   26.23   19.30     29   25.64   23.72    0   59
## time_hour        19 336776     NaN      NA     NA     NaN      NA  Inf -Inf
##                range  skew kurtosis   se Q0.25 Q0.75
## year               0   NaN      NaN 0.00  2013  2013
## month             11 -0.01    -1.19 0.01     4    10
## day               30  0.01    -1.19 0.02     8    23
## dep_time        2399 -0.02    -1.09 0.85   907  1744
## sched_dep_time  2253 -0.01    -1.20 0.81   906  1729
## dep_delay       1344  4.80    43.95 0.07    -5    11
## arr_time        2399 -0.47    -0.19 0.93  1104  1940
## sched_arr_time  2358 -0.35    -0.38 0.86  1124  1945
## arr_delay       1358  3.72    29.23 0.08   -17    14
## carrier*          15  0.36    -1.21 0.01     4    12
## flight          8499  0.66    -0.85 2.81   553  3465
## tailnum*        4042  0.17    -1.24 2.08   731  2873
## origin*            2  0.09    -1.50 0.00     1     3
## dest*            104  0.13    -1.08 0.05    27    72
## air_time         675  1.07     0.86 0.16    82   192
## distance        4966  1.13     1.19 1.26   502  1389
## hour              22  0.00    -1.21 0.01     9    17
## minute            59  0.09    -1.24 0.03     8    44
## time_hour       -Inf    NA       NA   NA    NA    NA

U nastavku slijedi izračun pokazatelja deskriptivne statistike i to koristeći dva paketa: summarytools i psych.

> library(summarytools)
> 
> descr(letovi, stats = "all", style = "simple")
## Descriptive Statistics  
## letovi  
## N: 336776  
## 
##                      air_time   arr_delay    arr_time         day   dep_delay    dep_time
## ----------------- ----------- ----------- ----------- ----------- ----------- -----------
##              Mean      150.69        6.90     1502.05       15.71       12.64     1349.11
##           Std.Dev       93.69       44.63      533.26        8.77       40.21      488.28
##               Min       20.00      -86.00        1.00        1.00      -43.00        1.00
##                Q1       82.00      -17.00     1104.00        8.00       -5.00      907.00
##            Median      129.00       -5.00     1535.00       16.00       -2.00     1401.00
##                Q3      192.00       14.00     1940.00       23.00       11.00     1744.00
##               Max      695.00     1272.00     2400.00       31.00     1301.00     2400.00
##               MAD       75.61       20.76      619.73       11.86        5.93      634.55
##               IQR      110.00       31.00      836.00       15.00       16.00      837.00
##                CV        0.62        6.47        0.36        0.56        3.18        0.36
##          Skewness        1.07        3.72       -0.47        0.01        4.80       -0.02
##       SE.Skewness        0.00        0.00        0.00        0.00        0.00        0.00
##          Kurtosis        0.86       29.23       -0.19       -1.19       43.95       -1.09
##           N.Valid   327346.00   327346.00   328063.00   336776.00   328521.00   328521.00
##         Pct.Valid       97.20       97.20       97.41      100.00       97.55       97.55
## 
## Table: Table continues below
## 
##  
## 
##                      distance      flight        hour      minute       month   sched_arr_time
## ----------------- ----------- ----------- ----------- ----------- ----------- ----------------
##              Mean     1039.91     1971.92       13.18       26.23        6.55          1536.38
##           Std.Dev      733.23     1632.47        4.66       19.30        3.41           497.46
##               Min       17.00        1.00        1.00        0.00        1.00             1.00
##                Q1      502.00      553.00        9.00        8.00        4.00          1124.00
##            Median      872.00     1496.00       13.00       29.00        7.00          1556.00
##                Q3     1389.00     3465.00       17.00       44.00       10.00          1945.00
##               Max     4983.00     8500.00       23.00       59.00       12.00          2359.00
##               MAD      569.32     1608.62        5.93       23.72        4.45           618.24
##               IQR      887.00     2912.00        8.00       36.00        6.00           821.00
##                CV        0.71        0.83        0.35        0.74        0.52             0.32
##          Skewness        1.13        0.66        0.00        0.09       -0.01            -0.35
##       SE.Skewness        0.00        0.00        0.00        0.00        0.00             0.00
##          Kurtosis        1.19       -0.85       -1.21       -1.24       -1.19            -0.38
##           N.Valid   336776.00   336776.00   336776.00   336776.00   336776.00        336776.00
##         Pct.Valid      100.00      100.00      100.00      100.00      100.00           100.00
## 
## Table: Table continues below
## 
##  
## 
##                     sched_dep_time        year
## ----------------- ---------------- -----------
##              Mean          1344.25     2013.00
##           Std.Dev           467.34        0.00
##               Min           106.00     2013.00
##                Q1           906.00     2013.00
##            Median          1359.00     2013.00
##                Q3          1729.00     2013.00
##               Max          2359.00     2013.00
##               MAD           613.80        0.00
##               IQR           823.00        0.00
##                CV             0.35        0.00
##          Skewness            -0.01         NaN
##       SE.Skewness             0.00        0.00
##          Kurtosis            -1.20         NaN
##           N.Valid        336776.00   336776.00
##         Pct.Valid           100.00      100.00
> deskr_nekretnine <- describe(nekretnine, quant = c(0.25, 0.75))
> 
> deskr_nekretnine
##               vars    n      mean       sd    median   trimmed      mad  min
## Price            1 1728 211966.71 98441.39 189900.00 200230.92 78726.06 5000
## Lot.Size         2 1728      0.50     0.70      0.37      0.39     0.28    0
## Waterfront       3 1728      0.01     0.09      0.00      0.00     0.00    0
## Age              4 1728     27.92    29.21     19.00     22.18    14.83    0
## Land.Value       5 1728  34557.19 35021.17  25000.00  28350.54 16679.25  200
## New.Construct    6 1728      0.05     0.21      0.00      0.00     0.00    0
## Central.Air      7 1728      0.37     0.48      0.00      0.33     0.00    0
## Fuel.Type        8 1728      2.43     0.70      2.00      2.29     0.00    2
## Heat.Type        9 1728      2.53     0.78      2.00      2.41     0.00    2
## Sewer.Type      10 1728      2.70     0.48      3.00      2.75     0.00    1
## Living.Area     11 1728   1754.98   619.94   1634.50   1706.46   580.44  616
## Pct.College     12 1728     55.57    10.33     57.00     56.93     8.90   20
## Bedrooms        13 1728      3.15     0.82      3.00      3.14     1.48    1
## Fireplaces      14 1728      0.60     0.56      1.00      0.59     0.00    0
## Bathrooms       15 1728      1.90     0.66      2.00      1.88     0.74    0
## Rooms           16 1728      7.04     2.32      7.00      6.95     2.97    2
##                    max    range  skew kurtosis      se    Q0.25     Q0.75
## Price         775000.0 770000.0  1.57     4.17 2368.13 1.45e+05 259000.00
## Lot.Size          12.2     12.2  7.18    78.10    0.02 1.70e-01      0.54
## Waterfront         1.0      1.0 10.58   110.08    0.00 0.00e+00      0.00
## Age              225.0    225.0  2.49     7.38    0.70 1.30e+01     34.00
## Land.Value    412600.0 412400.0  3.10    16.13  842.48 1.51e+04  40200.00
## New.Construct      1.0      1.0  4.28    16.36    0.01 0.00e+00      0.00
## Central.Air        1.0      1.0  0.55    -1.70    0.01 0.00e+00      1.00
## Fuel.Type          4.0      2.0  1.32     0.25    0.02 2.00e+00      3.00
## Heat.Type          4.0      2.0  1.04    -0.55    0.02 2.00e+00      3.00
## Sewer.Type         3.0      2.0 -1.04    -0.43    0.01 2.00e+00      3.00
## Living.Area     5228.0   4612.0  0.90     1.26   14.91 1.30e+03   2137.75
## Pct.College       82.0     62.0 -1.04     0.60    0.25 5.20e+01     64.00
## Bedrooms           7.0      6.0  0.40     0.65    0.02 3.00e+00      4.00
## Fireplaces         4.0      4.0  0.40     0.72    0.01 0.00e+00      1.00
## Bathrooms          4.5      4.5  0.32    -0.45    0.02 1.50e+00      2.50
## Rooms             12.0     10.0  0.28    -0.60    0.06 5.00e+00      8.25
> descr(nekretnine, stats = "all", style = "simple")
## Descriptive Statistics  
## nekretnine  
## N: 1728  
## 
##                         Age   Bathrooms   Bedrooms   Central.Air   Fireplaces   Fuel.Type
## ----------------- --------- ----------- ---------- ------------- ------------ -----------
##              Mean     27.92        1.90       3.15          0.37         0.60        2.43
##           Std.Dev     29.21        0.66       0.82          0.48         0.56        0.70
##               Min      0.00        0.00       1.00          0.00         0.00        2.00
##                Q1     13.00        1.50       3.00          0.00         0.00        2.00
##            Median     19.00        2.00       3.00          0.00         1.00        2.00
##                Q3     34.00        2.50       4.00          1.00         1.00        3.00
##               Max    225.00        4.50       7.00          1.00         4.00        4.00
##               MAD     14.83        0.74       1.48          0.00         0.00        0.00
##               IQR     21.00        1.00       1.00          1.00         1.00        1.00
##                CV      1.05        0.35       0.26          1.31         0.92        0.29
##          Skewness      2.49        0.32       0.40          0.55         0.40        1.32
##       SE.Skewness      0.06        0.06       0.06          0.06         0.06        0.06
##          Kurtosis      7.38       -0.45       0.65         -1.70         0.72        0.25
##           N.Valid   1728.00     1728.00    1728.00       1728.00      1728.00     1728.00
##         Pct.Valid    100.00      100.00     100.00        100.00       100.00      100.00
## 
## Table: Table continues below
## 
##  
## 
##                     Heat.Type   Land.Value   Living.Area   Lot.Size   New.Construct   Pct.College
## ----------------- ----------- ------------ ------------- ---------- --------------- -------------
##              Mean        2.53     34557.19       1754.98       0.50            0.05         55.57
##           Std.Dev        0.78     35021.17        619.94       0.70            0.21         10.33
##               Min        2.00       200.00        616.00       0.00            0.00         20.00
##                Q1        2.00     15100.00       1300.00       0.17            0.00         52.00
##            Median        2.00     25000.00       1634.50       0.37            0.00         57.00
##                Q3        3.00     40200.00       2138.50       0.54            0.00         64.00
##               Max        4.00    412600.00       5228.00      12.20            1.00         82.00
##               MAD        0.00     16679.25        580.44       0.28            0.00          8.90
##               IQR        1.00     25100.00        837.75       0.37            0.00         12.00
##                CV        0.31         1.01          0.35       1.40            4.51          0.19
##          Skewness        1.04         3.10          0.90       7.18            4.28         -1.04
##       SE.Skewness        0.06         0.06          0.06       0.06            0.06          0.06
##          Kurtosis       -0.55        16.13          1.26      78.10           16.36          0.60
##           N.Valid     1728.00      1728.00       1728.00    1728.00         1728.00       1728.00
##         Pct.Valid      100.00       100.00        100.00     100.00          100.00        100.00
## 
## Table: Table continues below
## 
##  
## 
##                         Price     Rooms   Sewer.Type   Waterfront
## ----------------- ----------- --------- ------------ ------------
##              Mean   211966.71      7.04         2.70         0.01
##           Std.Dev    98441.39      2.32         0.48         0.09
##               Min     5000.00      2.00         1.00         0.00
##                Q1   145000.00      5.00         2.00         0.00
##            Median   189900.00      7.00         3.00         0.00
##                Q3   259000.00      8.50         3.00         0.00
##               Max   775000.00     12.00         3.00         1.00
##               MAD    78726.06      2.97         0.00         0.00
##               IQR   114000.00      3.25         1.00         0.00
##                CV        0.46      0.33         0.18        10.69
##          Skewness        1.57      0.28        -1.04        10.58
##       SE.Skewness        0.06      0.06         0.06         0.06
##          Kurtosis        4.17     -0.60        -0.43       110.08
##           N.Valid     1728.00   1728.00      1728.00      1728.00
##         Pct.Valid      100.00    100.00       100.00       100.00
> deskr_diamonds <- describe(Diamonds, quant = c(0.25, 0.75))
> 
> deskr_diamonds
##               vars    n    mean      sd  median trimmed     mad     min
## Carat.Size       1 2690    0.87    0.32    0.90    0.86    0.31    0.30
## Color*           2 2690    4.00    2.00    4.00    3.94    2.97    1.00
## Clarity*         3 2690    3.85    1.75    4.00    3.76    1.48    1.00
## Depth            4 2690   61.71    1.21   61.90   61.79    1.04   56.40
## Table            5 2690   57.86    1.93   58.00   57.78    1.48   53.00
## Cut*             6 2690    2.39    1.41    2.00    2.36    1.48    1.00
## Report*          7 2690    1.99    0.11    2.00    2.00    0.00    1.00
## Price            8 2690 3971.47 2420.23 3604.00 3724.70 2686.47 1000.00
## Log.Price        9 2690    8.08    0.66    8.19    8.09    0.76    6.91
## Table.Depth     10 2690   -3.85    2.66   -4.20   -4.03    2.67  -10.80
## Table.Depth.1   11 2690    0.94    0.04    0.93    0.94    0.04    0.83
## Test            12 2690    0.60    0.80    0.00    0.50    0.00    0.00
##                    max   range  skew kurtosis    se   Q0.25   Q0.75
## Carat.Size        2.02    1.72  0.32    -0.49  0.01    0.60    1.06
## Color*            8.00    7.00  0.26    -0.98  0.04    2.00    6.00
## Clarity*          7.00    6.00  0.29    -1.01  0.03    2.00    5.00
## Depth            64.30    7.90 -0.66     0.32  0.02   61.00   62.50
## Table            65.00   12.00  0.46     0.34  0.04   56.00   59.00
## Cut*              4.00    3.00  0.15    -1.86  0.03    1.00    4.00
## Report*           2.00    1.00 -9.00    79.01  0.00    2.00    2.00
## Price         10000.00 9000.00  0.68    -0.51 46.66 1801.00 5544.00
## Log.Price         9.21    2.30 -0.16    -1.14  0.01    7.50    8.62
## Table.Depth       7.60   18.40  0.66     0.47  0.05   -5.80   -2.20
## Table.Depth.1     1.13    0.30  0.74     0.69  0.00    0.91    0.96
## Test              2.00    2.00  0.84    -0.92  0.02    0.00    1.00
> descr(Diamonds, stats = "all", style = "simple")
## Descriptive Statistics  
## Diamonds  
## N: 2690  
## 
##                     Carat.Size     Depth   Log.Price      Price     Table   Table.Depth
## ----------------- ------------ --------- ----------- ---------- --------- -------------
##              Mean         0.87     61.71        8.08    3971.47     57.86         -3.85
##           Std.Dev         0.32      1.21        0.66    2420.23      1.93          2.66
##               Min         0.30     56.40        6.91    1000.00     53.00        -10.80
##                Q1         0.60     61.00        7.50    1801.00     56.00         -5.80
##            Median         0.90     61.90        8.19    3604.00     58.00         -4.20
##                Q3         1.06     62.50        8.62    5544.00     59.00         -2.20
##               Max         2.02     64.30        9.21   10000.00     65.00          7.60
##               MAD         0.31      1.04        0.76    2686.47      1.48          2.67
##               IQR         0.46      1.50        1.12    3743.00      3.00          3.60
##                CV         0.37      0.02        0.08       0.61      0.03         -0.69
##          Skewness         0.32     -0.66       -0.16       0.68      0.46          0.66
##       SE.Skewness         0.05      0.05        0.05       0.05      0.05          0.05
##          Kurtosis        -0.49      0.32       -1.14      -0.51      0.34          0.47
##           N.Valid      2690.00   2690.00     2690.00    2690.00   2690.00       2690.00
##         Pct.Valid       100.00    100.00      100.00     100.00    100.00        100.00
## 
## Table: Table continues below
## 
##  
## 
##                     Table.Depth.1      Test
## ----------------- --------------- ---------
##              Mean            0.94      0.60
##           Std.Dev            0.04      0.80
##               Min            0.83      0.00
##                Q1            0.91      0.00
##            Median            0.93      0.00
##                Q3            0.96      1.00
##               Max            1.13      2.00
##               MAD            0.04      0.00
##               IQR            0.06      1.00
##                CV            0.05      1.33
##          Skewness            0.74      0.84
##       SE.Skewness            0.05      0.05
##          Kurtosis            0.69     -0.92
##           N.Valid         2690.00   2690.00
##         Pct.Valid          100.00    100.00

Pokazatelji deskriptivne statistike cijena nekretnina, pri čemu su cijene razvrstane s obzirom na to radi li se o novogradnju (1) ili ne (0).

> deskr_cijene_nekretnina <- describe.by(nekretnine$Price, group=nekretnine$Waterfront, mat = TRUE)
> 
> deskr_cijene_nekretnina
##     item group1 vars    n     mean        sd median  trimmed      mad    min
## X11    1      0    1 1713 210547.9  96680.04 189000 199187.3  77095.2   5000
## X12    2      1    1   15 373991.7 155036.48 325000 361921.2 155673.0 129900
##        max  range      skew  kurtosis        se
## X11 775000 770000 1.5464542 4.0371967  2335.921
## X12 775000 645100 0.7715293 0.6986701 40030.246

Tablica frekvencija polazišta letova:

> table(letovi$origin)
## 
##    EWR    JFK    LGA 
## 120835 111279 104662

Tablica frekvencija prijevoznika:

> table(letovi$carrier)
## 
##    9E    AA    AS    B6    DL    EV    F9    FL    HA    MQ    OO    UA    US 
## 18460 32729   714 54635 48110 54173   685  3260   342 26397    32 58665 20536 
##    VX    WN    YV 
##  5162 12275   601

Tablica kontingence prijevoznika i letova:

> table(letovi$carrier, letovi$origin)
##     
##        EWR   JFK   LGA
##   9E  1268 14651  2541
##   AA  3487 13783 15459
##   AS   714     0     0
##   B6  6557 42076  6002
##   DL  4342 20701 23067
##   EV 43939  1408  8826
##   F9     0     0   685
##   FL     0     0  3260
##   HA     0   342     0
##   MQ  2276  7193 16928
##   OO     6     0    26
##   UA 46087  4534  8044
##   US  4405  2995 13136
##   VX  1566  3596     0
##   WN  6188     0  6087
##   YV     0     0   601

Provedba postupka koristeći MS Excel


Otvorite podatkovni okvir. Obratite pozornost na vrste varijabli.

S obzirom da su u podatkovnom okviru naizmjenično poredane kvantitativne i kvalitativne varijable, izdvajamo one varijable za koje želimo izračunati pokazatelje.

Kopiramo ih i zalijepimo na novi list. S obzirom da se u podacima nalaze nepoznate vrijednosti, označene s `NA˙(Not Available), ako to ne riješimo, nećemo moći izračunati pokazatelje. Odabiremo ‘Find & Select’ u traci izbornika (pojavljuje se s ikonom lupe). Potom će se otvoriti padajući izbornik iz kojeg odabiremo ‘Replace’. Potom će se pojaviti prikaz nalik onom na sljedećoj slici. U polje ‘Find what:’ upišemo NA, a sljedeće polje (‘Replace with:’) ostavimo prazno i kliknemo ‘Replace all’. Na taj način će opažanja koja nedostaju uistinu biti prazne ćelije.

Potom odabiremo ‘Data’, pa ‘Data Analysis’, nakon čega u prozorčiću odabiremo ‘Descriptive statistics’.

Unosimo raspon ćelija u kojima su upisana opažanja promatranih varijabli. Označavamo ‘Labels in first row’ te ‘Summary Statistics’, a potom kliknemo ‘OK’.

Na novom listu se prikazuju rezultati koje je potrebno malo urediti da izgledaju prikladno za korištenje u izvješćima, seminarskim ili drugim radovima.

Kopiramo nazive varijabli i pomičemo ih jedno mjesto udesno, a potom brišemo stupce viška (u kojima se ponavljaju nazivi pokazatelja već zapisani u predstupcu). Malo raširimo stupce radi preglednosti i dobivamo tablicu statističkih pokazatelja.

Sličan postupak ponavljamo za nekretnine. S obzirom da su ovdje sve varijable izražene putem brojeva (bilo da su uistinu kvantitativne varijable ili samo prekodirane kvalitativne varijable), nema potrebe za odabirom i kopiranjem varijabli na drugi list i odmah možemo krenuti s izračunima.

Odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’.

U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summar Statistics’.

Na novom listu dobivamo rezultate, koje uređujemo na isti način kao i u prethodnom primjeru da bismo dobili preglednu tablicu.

Ako želimo izračunati pokazatelje cijena zasebno za novogradnju i starogradnju, prvo moramo kreirati podskupove podataka o cijenama. U ranijim štivima prikazano je kako se varijabla može grupirati koristeći alate za tablice i pivotiranje. Ovdje će se koristiti direktniji pristup. Označimo i kopiramo varijable cijene i novogradnje.

Potom ih zalijepimo na novi list. U sljedećem koraku iz trake izbornika biramo ‘Sort & Filter’ (ima ikonu lijevka), a iz padajućeg izbornik ‘Custom Sort’. Otvorić će se prozorčić nalik onom na sljedećoj lici. Pod ‘Sort by’ odaberite varijablu novogradnje, tj. New.Construction i kliknite OK.

Odaberite sve cijene uz koje se nalazi 0 u stupcu ‘New.Construction’ i kopirajte ih te zalijepite u novi stupac pored (kao npr. na slici stupac F). Potom odaberite sve cijene uz koje se nalazi 1 u stupcu ‘New.Construction’ i kopirajte ih te zalijepite u novi stupac pored prethodnog (kao npr. na slici stupac G). Pri upotrebi ‘Data Analysis’, ovako će se svaki stupac tretirati kao zasebna varijable i izračunat će se zasebni pokazatelji.

Odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’. U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summary Statistics’.

Rezultate dobivamo na novom listu, a tablicu možete urediti po uzoru na prethodne.

Pri otvaranju podatkovnog okvira ‘Diamonds’ uočavamo da se u stupcima naizmjenično nalaze kvalitativne i kvanititativne varijable (kao i kod letova), pa bi izravan unos u ‘Data Analysis’ i ‘Descriptive statistics’ rezultirao upozorenjem da su uneseni nenumerički podaci. Stoga ćemo kvantitativne varijable za koje želimo izračunati pokazatelje odabrati, kopirati i zalijepiti na novi list.

Potom odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’.

U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summar Statistics’.

Na novom listu dobivamo rezultate, a tu tablicu možemo dodatno urediti koristeći ranije opisan postupak.

Provjera odgovora

  1. A; 2. C; 3. B; 4. B; 5. C; 6. B; 7. C; 8. A; 9. A; 10. B; 11. B; 12. C; 13. A; 14. B; 15. A; 16. B; 17. B; 18. A; 19. B; 20. B.

Korišteni izvori i literatura

De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

De Veaux, D. (2015). What Makes Diamonds so Expensive? Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=b8671ff3-a2d2-4ea4-a3f2-7c82dac7151f&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.

Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.

Horton, N.J., & Ben Baumer B. (2015) Better flight experiences with data (airline delays in New York City). Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=a3536a72-1caa-44ae-8172-4975c2ef50d0&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Horton, N. J., Baumer, B. S., & Wickham, H. (2015). Setting the stage for data science: integration of data management skills in introductory and second courses in statistics (nycflights13). https://nhorton.people.amherst.edu/precursors/nycflights13.pdf

Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.

JASP Team (2024). JASP (Version 0.19.3)[Computer software].

Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/

Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf

Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.

Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.

Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.