U ovom tekstu, fokusirat ćemo se na mjere disperzije.
Skup podataka koji ćemo koristiti podskup je opsežnog skupa podataka o kašnjenjima letova različitih zrakoplovnih prijevoznika, koji izvorno sadrži 180 milijuna zapisa. Specifični podskup korišten u ovoj studiji slučaja usmjeren je na 336776 komercijalnih letova unutar SAD-a koji polaze iz tri glavne zračne luke na području New Yorka: Newark (EWR), John F. Kennedy (JFK) i LaGuardia (LGA) u 2013. godini.
Podaci dolaze iz skupa podataka o kašnjenjima zrakoplovnih prijevoznika predstavljenog na Data Expo 2009., a više detalja dostupno je u resursima na Amherst Collegeu. Osim toga, skup podataka dostupan je putem nycflights13 paketa kojeg je kreirao australski statističar Hadley Wickham i dostupan je putam CRAN-a (Comprehensive R Archive Network, baza za R programske pakete).
Istražit ćemo ove podatke i ponoviti mjere koje smo do sada naučili.
Tablica 1. Sažetak statističkih pokazatelja o letovima
Statistički pokazatelji | Kašnjenje polaska (dep_delay) | Kašnjenje dolaska (arr_delay) | Trajanje leta (air_time) | udaljenost | prijevoznik | polazište | odredište |
---|---|---|---|---|---|---|---|
Važeći podaci | 328,521 | 327,346 | 327,346 | 336,776 | 336,776 | 336,776 | 336,776 |
Podaci koji nedostaju | 8,255 | 9,430 | 9,430 | 0 | 0 | 0 | 0 |
Mod | -5 | -13 | 42 | 2,475 | |||
Medijan | -2 | -5 | 129 | 872 | |||
Aritmetička sredina | 12.6391 | 6.8954 | 150.6865 | 1,039.9126 | |||
Standardna devijacija | 40.2101 | 44.6333 | 93.6883 | 733.233 | |||
Koeficijent varijacije | 3.1814 | 6.4729 | 0.6217 | 0.7051 | |||
MAD | 4 | 14 | 51 | 384 | |||
IQR | 16 | 31 | 110 | 887 | |||
Varijanca | 1,616.849 | 1,992.1307 | 8,777.4984 | 537,630.6812 | |||
Raspon varijacija | 1,344 | 1,358 | 675 | 4,966 | |||
Minimum | -43 | -86 | 20 | 17 | |||
Maksimaum | 1,301 | 1,272 | 695 | 4,983 |
Napomena: Nisu svi pokazatelji dostupni za varijable mjerene na nominalnoj razini. Izračunato koristeći JASP.
Tablica sadrži pokazatelje deskriptivne statistike za nekoliko varijabli iz skupa podataka, koje ćemo opisati i interpretirati jednu po jednu, počevši od određivanja vrste i razine mjerenja svake varijable, nakon čega slijedi objašnjenje izračunatih pokazatelja. Varijable uključuju dep_delay (kašnjenje polaska), arr_delay (kašnjenje dolaska), air_time (trajanje leta), udaljenost, prijevoznika, polazište i odredište.
Kašnjenje polaska (dep_delay – departure delay) je kvantitativna varijabla mjerena na intervalnoj razini. Poprima pozitivne i negativne vrijednosti, gdje negativne vrijednosti ukazuju na uranjene polaske (polazak prije vremena po rasporedu). U skupu podataka postoji 328521 valjano opažanje, a nedostaje 8255 vrijednosti opažanja. Mod je -5 minuta, što pokazuje da je pri polascima najčešće bio u pitanju odlazak za 5 minuta ranije. Medijalno vrijeme polazaka je -2 minute, što znači da je polovica letova poletjela barem 2 minute ranije od planiranog vremena, a preostala polovica nakon toga. Prosječno kašnjenje je 12,64 minute, što ukazuje na to da je distribucija vremena polaska iskrivljena udesno (Mo < Me < μ), pri čemu je nekoliko letova imalo značajna kašnjenja. Standardna devijacija od 40,21 minuta odražava znatnu varijabilnost u vremenu polaska. Nadalje, koeficijent varijacije je 3,18. JASP računa koeficijent varijacije kao omjer standardne devijacije i prosjeka, bez množenja sa 100 (što bismo inače očekivali prema standardnim formulama). Da bismo dobili vrijednost koja nam daje postotni omjer, izračunate vrijednosti množimo sa 100 te dobivamo koeficijent varijacije od 318,14 %, što jasnije dočarava izrazitu varijabilnost vrijednosti u ovoj varijabli. MAD (srednje apsolutno odstupanje) je 4 minute. MAD se koristi kao mjera disperzije koja je manje osjetljiva na ekstremne vrijednosti. To može biti korisno kod intervalnih varijabli, jer pokazuje apsolutno odstupanje od prosjeka, što je posebno korisno ako distribucija podataka nije simetrična ili ako sadrži izdvojenice. Kod intervalnih varijabli, kao što je ova, razlike između vrijednosti mogu biti jako izražene, ali nemaju apsolutnu nulu. To znači da se tumačenje MAD-a temelji na prosječnoj apsolutnoj udaljenosti od prosjeka, ali bez omjera koji imaju značenje kao kod varijabli mjerenih na omjernoj razini. Dakle, ako je distribucija podataka asimetrična ili ima izdvojenice, MAD može pružiti dodatne informacije koje standardna devijacija ili varijanca ne mogu adekvatno prikazati. Kod simetrične distribucije, standardna devijacija će biti prikladnija mjera. Interkvartil obuhvaća raspon od 16 minuta, što znači da se središnjih 50% polijetanja prema vremenu polaska odvilo u rasponu od 16 minuta. Ukupni raspon varijacija je 1344 minute, s vremenom polaska u rasponu od 43 minute ranije do 1301 minuta kasnije.
Kašnjenje dolaska (arr_delay – arrival delay) također je kvantitativna varijabla mjerena na intervalnoj razini. Postoji 327346 valjanih opažanja te 9430 vrijednosti koje nedostaju. Najčešće kašnjenje dolaska je -13 minuta, što znači da je najčešće vrijeme dolaska bilo 13 minuta ranije od planiranog. Medijalno kašnjenje dolaska je -5 minuta, što znači da je polovica letova stigla 5 minuta ranije, a druga polovica je stigla nakon toga. Prosječno kašnjenje je 6.9 minuta, što u kombinaciji s modom i medijanom ukazuje na izduženi desni krak distribucije (desnostrano asimetričnu distribuciju). Standardna devijacija je 44,63 minute, što odražava visok stupanj varijabilnosti u vremenu dolaska. Koeficijent varijacije od 6,47 (647,29 %) ukazuje da je relativna varijabilnost u vremenu dolaska izuzetno velika. MAD je 14 minuta, dok je IQR 31 minuta, što pokazuje širi raspon i veću varijaciju u odnosu na kašnjenje polaska. Raspon varijacija kašnjenja dolaska je 1358 minuta, uz dolaske od 86 minuta ranije do 1272 minute kasnije.
Uspoređujući varijabilnost kašnjenja polaska (dep_delay) i kašnjenja dolazaka (arr_delay), možemo izvući sljedeće zaključke:
Standardna devijacija kašnjenja dolazaka (44,63 minute) nešto je viša od one kašnjenja polaska (40,21 minuta). To ukazuje na to da su vremena dolaska varijabilnija od vremena polaska. U ovom slučaju, standardnu devijaciju možemo koristiti za izravnu usporedbu varijabilnosti varijabli jer se obje mjere u istoj mjernoj jedinici (u minutama) i na istoj razini mjerenja.
Koeficijent varijacije za kašnjenja dolazaka je 647%, u usporedbi s 318% za kašnjenja polazaka. To znači da kašnjenja dolazaka imaju veći stupanj varijabilnosti u usporedbi s kašnjenjima polaska.
Raspon kašnjenja dolazaka nešto je veći, kreće se od 86 minuta ranije do 1272 minute kašnjenja, dok se kašnjenja polaska kreću od 43 minute ranije do 1301 minuta kasnije. Širi raspon kašnjenja dolazaka može značiti da letovi mogu nadoknaditi ili izgubiti vrijeme tijekom leta, što pridonosi većoj varijabilnosti u vremenu dolaska.
Trajanje leta (air_time) je kvantitativna varijabla mjerena na omjernoj razini jer ima stvarnu nulu (trajanje leta 0 znači da avion nije poletio ili let je trajao 0 minuta – nije trajao, let se nije dogodio). Postoji 327346 valjanih zapažanja. Mod trajanja leta je 42 minute, što znači da su na promatranim letovima avioni najčešće proveli 42 minute u zraku. Medijalno trajanje leta je 129 minuta, što znači da je polovica letova trajala toliko ili kraće od tog vremena, a druga polovica je trajala toliko ili duže. Prosječno trajanje leta je 150,69 minuta, što je više od medijana i moda te ukazuje na to da su neki duži letovi povukli prosjek ka većim vrijednostima. Standardna devijacija od 93,69 minute pokazuje značajnu varijabilnost u trajanju leta. Koeficijent varijacije je 0,62 (62%), što ukazuje na umjerenu razinu varijabilnosti. Trajanje leta prosječno apsolutno odstupa od prosjeka za 51 minutu (MAD = 51). Središnjih 50 % trajanja leta kreira raspon od 110 minuta, ukazujući na umjerenu varijabilnost. Raspon varijacija je 675 minuta, s trajanjem leta u rasponu od 20 do 695 minuta, što pokazuje mješavinu kratkih i dugih letova.
Udaljenost je još jedna kvantitativna varijabla mjerena na omjernoj razini, jer ima apsolutnu nulu. Postoji 336776 valjanih opažanja za ovu varijablu. Mod udaljenosti je 2475 milja, što predstavlja najčešću udaljenost između polazne i odredišne zračne luke. Medijalna udaljenost je 872 milje, što ukazuje da je polovica letova bila kraća od ove udaljenosti. Prosječna udaljenost leta je 1039.91 milja, što odražava da su neki letovi bili duži, čime su podaci malo iskrivljeni udesno. U slučaju varijable udaljenost, redoslijed između moda, medijana i aritmetičke sredine je neuobičajen, s obzirom na to da je mod veći od medijana i prosjeka, a medijan je najmanji. Ovaj neobičan poredak može ukazivati na specifične karakteristike distribucije podataka, kao što je, na primjer, višemodalna distribucija podataka. Da bismo provjerili svoje sumnje, kreiramo histogram.
Slika 1. Histogram udaljenosti
Višemodalne distribucije mogu imati više od jednog lokalnog moda, što utječe na odnos između moda, medijana i prosjeka. U tom slučaju, mod prijavljen u sažetku izračunatih statističkih pokazatelja može biti neuobičajeno visok jer predstavlja jednu učestalu vrijednost koja nadmašuje druge vrijednosti u frekvenciji pojavljivanja. Grafikon pokazuje da postoje tri moda. Prvi se nalazi između 600 i 800 milja, drugi između 1000 i 1200 milja, a treći između 2400 i 2600 milja. No, na grafu su u pitanju grupirani podaci, dok se kod negrupiranih podataka pojedinačna vrijednost od 2475 milja pojavljuje najveći broj puta i predstavlja globalni mod za negrupirane podatke. Udaljenost standardno odstupa od prosjeka za 733.23 milje. Koeficijent varijacije je 0,71, što pokazuje umjerenu relativnu varijabilnost. IQR od 887 milja odražava široku rasprostranjenost u središnjih 50% udaljenosti leta. Raspon varijacija udaljenosti leta je 4966 milja, a letovi pokrivaju udaljenosti od 17 do 4983 milja, što pokazuje raznolikost letova na kraće i duže udaljenosti.
Da bismo usporedili varijabilnost između trajanja i udaljenosti leta, možemo pogledati koeficijent varijacije (CV). CV je standardizirana mjera disperzije koja izražava varijabilnost u odnosu na prosjek varijable:
\[CV= \frac {s}{\bar{x}} \cdot 100\]
odnosno, postotni omjer standardne devijacije i aritmetičke sredine. Budući da su mjerne jedinice u brojniku (standardna devijacija) i nazivniku (prosjek) jednake, one se međusobno krate, ostavljajući CV bez mjerne jedinice. To znači da CV predstavlja postotak varijabilnosti neovisno o mjerama u kojima su podaci izraženi. Na taj način se u obzir uzima kontekst, odnosno centralna tendencija podataka, tj. ovaj pokazatelj nam omogućuje razumijevanje koliko je standardna devijacija velika u odnosu na prosjek varijable, izražavajući varijabilnost u postotcima. S obzirom da više nemamo mjerne jedinice i da se mjera izražava u postotku, radi se o relativnoj mjeri disperzije. Za razliku od apsolutnih mjera disperzije, relativna mjera disperzije nema više mjernu jedinicu (primijetili ste da smo pri tumačenju svih ostalih mjera disperzije uvijek navodili i mjernu jedinicu, ovdje toga više neće biti). Kao relativna mjera disperzije, CV je posebno koristan kada uspoređujemo raznorodne varijable, odnosno podatke izražene u različitim mjernim jedinicama (npr., trajanje leta u minutama i udaljenost leta u kilometrima). To je nešto što nije moguće s apsolutnim mjerama disperzije, kao što su varijanca i standardna devijacija, koje imaju mjerne jedinice.
Usporedba ovih koeficijenata govori nam da udaljenost leta ima nešto veću relativnu varijabilnost od vremena leta. To sugerira da se, u odnosu na njihove prosjeke, udaljenosti leta više razlikuju među različitim letovima nego vrijeme leta.
Prijevoznik je kvalitativna varijabla mjerena na nominalnoj razini koja predstavlja različite zračne prijevoznike u skupu podataka. Postoji 336776 valjanih opažanja bez vrijednosti koje nedostaju. Budući da je prijevoznik opisna varijabla, možemo samo protumačiti distribuciju frekvencija različitih prijevoznika, što će pokazati koliko letova svaki prijevoznik obavlja unutar skupa podataka i koji to čini najčešće (mod).
Tablica 2. Podaci o prijevoznicima
prijevoznik | Frekvencija | Proporcija |
---|---|---|
9E | 18460 | 0.0548 |
AA | 32729 | 0.0972 |
KAO | 714 | 0.0021 |
B6 | 54635 | 0.1622 |
DL | 48110 | 0.1429 |
EV | 54173 | 0.1609 |
F9 | 685 | 0.0020 |
FL | 3260 | 0.0097 |
HA | 342 | 0.0010 |
MQ | 26397 | 0.0784 |
OO | 32 | 9.5019e-5 |
UA | 58665 | 0.1742 |
NAMA | 20536 | 0.0610 |
VX | 5162 | 0.0153 |
WN | 12275 | 0.0364 |
YV | 601 | 0.0018 |
Ova tablica daje raščlambu varijable prijevoznika, koji se odnosi na naziv zračnog prijevoznika koji obavlja let. Tablica uključuje frekvenciju (učestalost) ili broj letova koje obavlja svaki prijevoznik, kao i udio letova koje pojedini prijevoznik predstavlja u svim letovima.
Najčešći prijevoznik je UA (United Airlines), s 58665 letova, što čini 17,42% od ukupnog broja letova. Slijedi ga B6 (JetBlue), s 54635 letova, što čini 16.22% svih letova. EV (ExpressJet) također ima značajan udio od 16.09% svih letova. S druge strane, manji prijevoznici poput OO (SkyWest) i HA (Hawaiian Airlines) imaju mnogo manji udio, manje od 1% ukupnih letova.
Tablica 3. Podaci o polazištima
Polazište | Frekvencija | Posto | Kumulativni postotak |
---|---|---|---|
EWR | 120835 | 35.8799 | 35.8799 |
JFK | 111279 | 33.0424 | 68.9224 |
LGA | 104662 | 31.0776 | 100 |
Nedostaje | 0 | 0 | |
Ukupno | 336776 | 100 |
Varijabla polazište još je jedna kvalitativna varijabla, mjerena na nominalnoj razini, koja predstavlja zračnu luku polaska. Kao i za prethodnu varijablu, postoji 336776 valjanih opažanja bez podataka koji nedostaju.
Ova tablica prikazuje učestalost polazišta letova na području New Yorka, točnije iz zračnih luka Newark (EWR), John F. Kennedy (JFK) i LaGuardia (LGA). Za svaku zračnu luku tablica prikazuje učestalost (broj letova), postotak i kumulativni postotak (kumulativni niz „manje od“ temeljem postotaka).
Prva zračna luka, Newark (EWR), imala je 120.835 letova, što je 35,88% svih polijetanja. Slijedi John F. Kennedy (JFK) s 111279 letova, što predstavlja 33,04% svih polijetanja. U kombinaciji, iz Newarka i JFKa polazi 68,92% svih letova. Konačno, LaGuardia (LGA) imala je 104662 leta, što čini 31.08% svih polijetanja.
Može nas, na primjer zanimati postoji li očita razlika u kašnjenjima polazaka s obzirom na polazište… S obzirom na uvide iz prošlog štiva, za to možemo upotrijebiti usporedne box-plotove podskupina vremena kašnjenja s obzirom na polazište. Ovdje imamo rotirane box-plotove. Vrijeme kašnjenja polazaka prikazano je na x-osi, a polazišta su zabilježena na y-osi.
Prikaz ukazuje na to da je većina kašnjenja polazaka blizu nule. Medijani svih polazišta nalaze se blizu nule. JFK i LGA imaju nekoliko izdvojenica za preuranjene polaske. Dok se kvartili i inerkvartilni raspon podudaraju za sva ti polazišta, uočava se da JFK ima izdvojenice koje dosežu najveće vrijednosti.
Varijabla odredišta također je kvalitativna i mjeri se na nominalnoj razini, a predstavlja zračnu luku dolaska za svaki let. Kao i kod varijabli prijevoznik i polazište, odredište ima 336776 valjanih opažanja. Budući da se radi o nominalnoj varijabli, distribucije frekvencija su najprikladnija opisna statistika za sažimanje podataka. To nam omogućuje da vidimo najčešće odredište za letove u ovom skupu podataka. Tablica odredišta ovdje je izostavljena jer postoji mnogo različitih odredišta, što tablicu čini nečitljivom (možete ju samostalno kreirati). Međutim, pogledajmo raspodjelu prijevoznika po zračnim lukama polaska. To možemo učiniti pomoću tablice kontingence.
Tablica 4. Tablica kontingence prijevoznika i polazišta
prijevoznik / polazište | EWR | JFK | LGA | Ukupno |
---|---|---|---|---|
9E | 1268 | 14651 | 2541 | 18460 |
AA | 3487 | 13783 | 15459 | 32729 |
KAO | 714 | 0 | 0 | 714 |
B6 | 6557 | 42076 | 6002 | 54635 |
DL | 4342 | 20701 | 23067 | 48110 |
EV | 43939 | 1408 | 8826 | 54173 |
F9 | 0 | 0 | 685 | 685 |
FL | 0 | 0 | 3260 | 3260 |
HA | 0 | 342 | 0 | 342 |
MQ | 2276 | 7193 | 16928 | 26397 |
OO | 6 | 0 | 26 | 32 |
UA | 46087 | 4534 | 8044 | 58665 |
NAMA | 4405 | 2995 | 13136 | 20536 |
VX | 1566 | 3596 | 0 | 5162 |
WN | 6188 | 0 | 6087 | 12275 |
YV | 0 | 0 | 601 | 601 |
Ukupno | 120835 | 111279 | 104662 | 336776 |
Ova tablica prikazuje tablicu kontingencije za zračne prijevoznike i njihova polazišta iz tri glavne zračne luke: EWR (Newark), JFK (John F. Kennedy) i LGA (LaGuardia). Tablica navodi svakog prijevoznika, broj letova iz svake zračne luke i ukupan broj letova za svakog prijevoznika u sve tri zračne luke.
Na primjer, prijevoznik 9E je obavio 1268 letova iz EWR-a, 14651 s JFK-a i 2541 iz LGA-a, što je ukupno 18460 letova. Prijevoznik AA je imao 3487 letova iz EWR-a, 13783 s JFK-a i 15459 s LGA-a, s ukupno 32729 letova.
UA (United Airlines), s 46087 letova iz EWR-a, 4534 s JFK-a i 8044 s LGA-a, ističe se kao jedan od prijevoznika s najviše letova, ukupno 58665 letova. B6 (JetBlue), još jedan istaknuti prijevoznik, obavio je 6557 letova s EWR-a, 42076 s JFK-a i 6002 s LGA-a, za ukupno 54635 letova.
Tablica daje sveobuhvatan uvid u to kako su različiti prijevoznici raspoređeni po tim zračnim lukama, ističući razlike u njihovom poslovanju na svakoj lokaciji. U slučaju potrebe za daljnjom analizom, ova tablica čini osnovu za izračun kutno, okomito i vodoravno 100 za detaljnije usporedbe.
Recimo da nas zanima i postoje li razlike u kašnjenjima polazaka i dolazaka s obzirom na prijevoznika.
Čini se da postoje dva prijevoznika, označeni kao AS i OO, s najkraćim kašnjenjima - kako polazaka, tako i dolazaka. No, uvidom u prethodnu tablicu, vidjet ćemo da se radi o kompanijama s manjim brojem odrađenih letova. Za sve prijevoznike je treći kvartil nešto iznad nule, a kašnjenja duža od cca 50 minuta su neuobičajena i kreiraju dugi desni krak distribucije.
Nastavljamo istraživati neke od varijabli iz skupa podataka o nekretninama, s kojim smo se upoznali u posljednja dva štiva.
Izračunajmo i protumačimo pokazatelje deskriptivne statistike za promatrane nekretnine
Tablica 5. Pokazatelji deskriptivne statistike o nekretninama
Statistički pokazatelji | Cijena | Veličina parcele | Starost | Vrijednost zemljišta | Životna površina | Pct.College | Kamini | Kupaonice | Sobe |
---|---|---|---|---|---|---|---|---|---|
Važeći | 1728 | 1728 | 1728 | 1728 | 1728 | 1728 | 1728 | 1728 | 1728 |
Podaci koji nedostaju | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Mod | a | 120000 | 0.4600 | 19 | 27000 | 1,480 | 64 | 1 | 2.5000 |
Medijan | 189900 | 0.3700 | 19 | 25000 | 1634.5000 | 57 | 1 | 2 | 7 |
Aritmetička sredina | 211966.7054 | 0.5002 | 27.9161 | 34557.1875 | 1754.9757 | 55.5677 | 0.6019 | 1.9002 | 7.0417 |
Standardna devijacija | 98441.3910 | 0.6987 | 29.2100 | 35021.1681 | 619.9356 | 10.3336 | 0.5561 | 0.6584 | 2.3165 |
Koeficijent varijacije | 0.4644 | 1.3968 | 1.0463 | 1.0134 | 0.3532 | 0.1860 | 0.9240 | 0.3465 | 0.3290 |
MAD | 53100 | 0.1900 | 10 | 11250 | 391.5000 | 6 | 0 | 0.5000 | 2 |
IQR | 114000 | 0.3700 | 21 | 25100 | 837.7500 | 12 | 1 | 1 | 3.2500 |
Varijanca | 9.6907×10+9 | 0.4882 | 853.2234 | 1.2265×10+9 | 384320.0897 | 106.7829 | 0.3092 | 0.4334 | 5.3660 |
Raspon varijacija | 770000 | 12.2000 | 225 | 412400 | 4612 | 62 | 4 | 4.5000 | 10 |
Minimum | 5000 | 0 | 0 | 200 | 616 | 20 | 0 | 0 | 2 |
Maksimum | 775000 | 12.2000 | 225 | 412600 | 5228 | 82 | 4 | 4.5000 | 12 |
a Postoji više od jednog moda
Cijena je kvantitativna varijabla mjerena na omjernoj razini jer ima apsolutnu nulu, što ukazuje da vrijednost nula znači da uopće nema cijene. Tablica prikazuje 1728 valjanih opažanja bez podataka koji nedostaju. Mod (najčešća cijena) je 120000 dolara, dok je medijalna cijena 189900 dolara, a prosječna cijena 211967. Činjenica da je prosjek veći od medijana ukazuje na desnostrano asimetričnu distribuciju, gdje nekretnine s višom cijenom povlače prosjek prema gore. Standardna devijacija je 98441 dolara, što sugerira značajnu varijabilnost cijena nekretnina. Veća standardna devijacija znači veću varijabilnost, što u ovom slučaju sugerira da postoji značajna razlika u cijenama nekretnina na tržištu.
Digresija: Možemo li utvrditi intervale standardnih, tipičnih i gotovo svih odstupanja za cijene nekretnina?
Primjenom pravila za tipična i gotovo sva odstupanja možemo dobiti bolji uvid u to koliko se cijene nekretnina obično razlikuju od prosjeka. Ove procjene pomažu nam u razumijevanju ukupne varijabilnosti cijena, što je korisno za dublje razumijevanje i donošenje informiranih odluka, bilo da je riječ o predviđanju budućih cijena, procjeni rizika ili usporedbi s drugim tržištima. Empirijsko pravilo, koje pretpostavlja simetričnu i približno normalnu distribuciju, nije primjenjivo jer distribucija cijena nekretnina pokazuje izduženost desnog kraka. Čebiševljevo pravilo, koje je primjenjivo na sve distribucije, može nam pomoći u procjeni udjela vrijednosti unutar određenog broja standardnih devijacija od prosjeka. Prema Čebiševljevom pravilu, najmanje 75% vrijednosti leži unutar dvije standardne devijacije od aritmetičke sredine, a najmanje 89% vrijednosti unutar tri standardne devijacije. To nam omogućuje da procijenimo raspon u kojem se nalazi većina cijena, čak i kada distribucija nije simetrična.
Slika 2. Prikaz primjene Čebiševog pravila za cijene nekretnina
Dakle, prema Čebiševom pravilu, u intervalu od jedne standardne devijacije od prosjeka nalazi se vrlo malo podataka. U intervalu koji se kreira oduzimanjem i zbrajanjem dviju standardnih devijacija od prosjeka, nalazi se barem 75 % podataka. Dakle, najmanje 75 % nekretnina imat će cijenu između 15083,92 dolara i 408849,48 dolara. Na sličan način možemo zaključiti da će najmanje 89% nekretnina koštati do 507290,87 dolara. Ovdje nismo iščitavali donju granicu intervala, jer nije smislena u danom kontekstu. Ova aproksimacija je korisna jer, unatoč asimetričnoj distribuciji s izduženim desnim krakom, možemo dobiti bolji uvid u tipičnu varijabilnost cijena nekretnina i raspon u kojem se nalazi većina podataka, što je korisno za bolje razumijevanje tržišta.
Za isti niz, koeficijent varijacije (CV) je 0,4644, što znači da je varijabilnost cijene oko 46,44% prosječne cijene, što ukazuje na umjerenu razinu relativne varijacije. Raspon varijacija cijena je veliki, kreće se od minimalno 5000 do maksimalno 775000 dolara, što je dodatno naglašeno IQR-om od 114000 i MAD-om od 53100. To sugerira da su cijene široko raspršene, što odražava veliku razliku između različitih nekretnina.
No, ako promatramo samo cijene novoizgrađenih nekretnina, radi se o približno normalno distribuiranoj varijabli. Ovdje će se prikazati tablica izračunatih statističkih pokazatelja za bolje razumijevanje nastavka u kojem će se prikazati Empirijsko pravilo.
Tablica 6. Pokazatelji deskriptivne statistike o cijenama nekretninama s obzirom na to je li novogradnja ili nije
Statistika | 0 | 1 |
---|---|---|
Valid | 1,647 | 81 |
Missing | 0 | 0 |
Mode | 120,000 | 265,000 |
Median | 186,000 | 287,989 |
Mean | 208,507.3558 | 282,306.8148 |
Minimum | 5,000 | 84,950 |
Maximum | 775,000 | 469,900 |
25th percentile | 143,750 | 218,070 |
75th percentile | 250,000 | 345,264 |
Range | 770,000 | 384,950 |
IQR | 106,250 | 127,194 |
Variance | 9.5700×10+9 | 7.0404×10+9 |
Std. Deviation | 97,826.13 | 83,907.1874 |
Skewness | 1.7061 | -0.2830 |
Kurtosis | 4.8018 | -0.2182 |
Shapiro-Wilk | 0.8808 | 0.9867 |
P-value of Shapiro-Wilk | < .001 | 0.5672 |
Varijabla cijena podijeljena je na podskup koji spada u novogradnju (1) i podskup koji nije novogradnja (0). U prikazanim podacima za novoizgrađene nekretnine, prosjek i medijan su blizu jedan drugome (282306.81 za prosjek i 287989.00 za medijan), što ukazuje na relativno simetričnu distribuciju. Mod je nešto niži, ali s obzirom na rang veličina, nije izraženo udaljen od medijana i prosjeka.
Koeficijent asimetrije (skewness) pokazuje smjer i intenzitet asimetrije. Predznak minus ukazuje na negativno (lijevostrano) asimetričnu distribuciju (velika odstupanja na lijevoj strani, tj. izdužen lijevi krak distribucije), a pozitivan predznak na pozitivno (desnostrano) asimetričnu distribuciju (velika odstupanja na desnoj strani, tj. izdužen desni krak distribucije). Što je apsolutna vrijednost koeficijenta asimetrije veća, asimetrija je izraženija. Kada je vrijednost koeficijenta asimetrije blizu 0, distribucija je približno simetrična.
Kurtosis mjeri zaobljenost ili koncentraciju podataka oko prosjeka. Vrijednost kurtosis blizu 0 (ili oko 3 kada se koristi Pearsonova mjera zaobljenosti) sugerira normalnu raspodjelu podataka. Pozitivna vrijednost (kurtosis > 0 ili α_4>3) znači da je distribucija vrhom izduženija od normalne (leptokurtična), dok negativna vrijednost (kurtosis < 0 ili 1,8<α_4<3) ukazuje na plosnatiju distribuciju (platikurtična). Za podatke o cijeni novoizgrađenih nekretnina, mjera zaobljenosti iznosi -0.2182, što ukazuje na vrhom blago spljošteniju distribuciju od normalne, ali blizina nuli podržava tezu da je distribucija blizu normalne, što je karakteristično za simetričnu raspodjelu.
Ovdje se iznimno koristi jedno testiranje hipoteza kako bismo mogli tvrditi da se radi o približno normalno distribuiranoj varijabli. Shapiro-Wilk test koristi se za procjenu normalnosti distribucije podataka, što podrazumijeva simetriju kod normalne distribucije. Nul hipoteza (H₀) Shapiro-Wilk testa glasi: Podaci slijede normalnu distribuciju. Drugim riječima, nul hipoteza pretpostavlja da je raspodjela podataka normalna. Ako je p-vrijednost manja od unaprijed postavljenog praga značajnosti (obično 0.05), tada odbacujemo nultu hipotezu i zaključujemo da podaci ne slijede normalnu distribuciju. Ako je p-vrijednost veća od praga značajnosti, nema dovoljno dokaza da odbacimo nultu hipotezu, i stoga zaključujemo da podaci mogu biti normalno distribuirani. U prikazanom primjeru, p-vrijednost Shapiro-Wilk testa za cijene novoizgrađenih nekretnina iznosi 0.5672, što je veće od 0.05. To znači da nema dokaza protiv hipoteze o normalnosti, i možemo pretpostaviti da su podaci približno normalno distribuirani.
Nakon što smo potvrdili da su podaci približno normalno distribuirani, prelazimo na primjer primjene Empirijskog pravila. Ovdje će se primijeniti to pravilo samo na cijene novoizgrađenih nekretnina.
Slika 3. Prikaz primjena Empirijskog pravila za cijene novoizgrađenih nekretnina
Odstupanja unutar jedne standardne devijacije od prosjeka zovemo standardnim odstupanjima; odstupanja unutar dvije standardne devijacije od prosjeka zovemo tipičnim odstupanjima, dok se odstupanja unutar tri standardne devijacije od prosjeka odnose na gotovo sva odstupanja. Promatrane novogradnje standardno koštaju između 198399,62 dolara i 366214 dolara. Možemo reći i da 68% promatranih novoizgrađenih nekretnina ima cijenu između 198399,62 dolara i 366214 dolara.
Tipična cijena promatranih novogradnji kreće se od 114492,43 dolara i 450141,19 dolara. To ujedno znači da 95% promatranih novogradnji košta između 114492,43 dolara i 450141,19 dolara.
Gotovo sve promatrane novogradnje koštaju od 30585,25 dolara do 534028,38 dolara. Drugim riječima, 99.7 % promatranih novoizgrađenih nekretnina stoji najmanje 30585,25 dolara i najviše 534028,28 dolara.
Primjenom pojmova poput standardnih, tipičnih, i gotovo svih odstupanja, dobivamo složenije razumijevanje distribucije cijena, što nam pomaže u procjeni očekivanih odstupanja od prosjeka u različitim razinama preciznosti. Na ovaj način možemo jednostavno procijeniti koliko su cijene većine nekretnina koncentrirane oko prosjeka, te koliko rijetko dolazi do vrlo visokih ili niskih cijena, što je korisno za investicijske odluke i analizu tržišnog rizika.
Protumačimo pokazatelje za preostale varijable
Veličina parcele također je kvantitativna varijabla mjerena na omjernoj razini. Promatrane nekretnine imaju prosječnu veličinu parcele od 0,50 hektara, uz standardno odstupanje od prosjeka veličina parcela za 0,7 hektara. Koeficijent varijacije od 1,3968 (139,68%) sugerira izraženu relativnu varijabilnost u odnosu na prosjek. Raspon od 0 do 12.2 hektara pokazuje da postoje neke nekretnine s iznimno velikim parcelama. No, IQR od 0,37 hektara ukazuje na koncentraciju središnjih 50 % nekretnina prema veličini parcela.
Starost nekretnina, također mjerena na omjernoj razini, nema vrijednosti koje nedostaju. Mod je 19 godina, dok je medijan također 19 godina, što ukazuje na to da se mnoge starosto nekretnina grupiraju oko ove starosti. No, prosječna starost je nešto viša i iznosi 27,92 godine, što odražava nekoliko starijih nekretnina koje povlače prosjek prema višim vrijednostima. Starost nekretnina standardno odstupa od prosjeka za 29,21 godine. CV od 1,0463 (104,63 %) ukazuje na visoku relativnu varijabilnost u odnosu na prosjek godina. Raspon starosti nekretnina kreće se od 0 do 225 godina, što dodatno naglašava raznolikost starosti. IQR od 21 godine sugerira umjerenu varijabilnost u središnjoj polovici podataka.
Vrijednost zemljišta je kvantitativna varijabla mjerena na omjernoj razini. Mod za vrijednost zemljišta je 27000 dolara, dok je medijan 25000 dolara, a prosjek je 34557 dolara, što ukazuje na to da je distribucija pozitivno (desnostrano) asimetrična i vjerojatno je u pitanju višemodalna distribucija. Standardno odstupanje od prosjeka vrijednosti nekretnina iznosi 35021 dolara, što pokazuje značajnu varijabilnost u vrijednostima zemljišta. CV je 1,0134 (101,34%), što znači da je relativna varijabilnost vrijednosti zemljišta prilično izražena u odnosu na prosjek. Središnjih 50% podataka ima raspon od 25100 dolara, a raspon varijacija se proteže od 200 do 412600.
Životna površina je još jedna kvantitativna varijabla mjerena na omjernoj razini. Svih 1728 opažanja je valjano. Prosječna životna površina promatranih nekretnina je 1755 četvornih stopa, uz standardno odstupanje od prosjeka za 619.94 četvornih stopa. Koeficijent varijacije od 0,3532 (35,32%) ukazuje na umjerenu relativnu varijabilnost. Raspon varijacija stambenih površina kreće se od 616 do 5228 četvornih stopa, dok je raspon središnjih 50% nekretnina prema životnoj površini 837.75 četvornih stopa.
Fakultet je postotak ljudi s fakultetskim obrazovanjem u susjedstvu i radi se o varijabli mjerenoj na omjernoj razini. Susjedstva promatranih nekretnina najčešće imaju 64% fakultetski obrazovanoj stanovništva. Polovica susjedstva promatranih nekretnina ima 57% ili manje fakultetski obrazovanog stanovništva, dok preostala polovica ima toliki ili veći postotak fakultetski obrazovanih pojedinaca. Promatrane nekretnine u susjedstvu imaju prosječno 55,57% fakultetski obrazovanih stanovnika, sa standardnim odstupanjem od 10,33% od prosjeka. Koeficijent varijacije od 0,1860 (18,6%) ukazuje na nisku relativnu varijabilnost, što znači da udjeli fakultetski obrazovanih stanovnika u susjedstvu ne odstupaju puno od prosjeka. Raspon varijacija postotaka je od 20% do 82% fakultetski obrazovanih stanovnika u susjedstvu, uz raspon od 12% fakultetski obrazovanih susjeda u središnjih 50% nekretnina.
Kamini su diskontinuirana varijabla mjerena na omjernoj razini koja bilježi broj kamina u kući. Nekretnine prosječno imaju 0,60 kamina uz standardno odstupanje od prosjeka za 0,56 kamina. Koeficijent varijacije od 0,924 (92,4%) ukazuje na visoku relativnu varijabilnost u usporedbi s prosjekom. Raspon varijacija je od 0 do 4 kamina, ali s interkvartilom od 1.
Kupaonice su diskontinuirana varijabla mjerena na omjernoj razini bez podataka koji nedostaju. Promatrane nekretnine najčešće imaju po 2,5 kupaonica. Polovica nekretnina ima 2 kupaonice ili manje od toga, dok preostala polovica ima 2 kupaonice ili više. Nekretnine prosječno imaju 1.9 kupaonica, uz standardno odstupanje od prosjeka za 0,66 kupaonica. Koeficijent varijacije ukazuje na to da se radi o umjerenoj varijabilnosti u odnosu na prosjek (0,3465 ili 34,65%). Raspon varijacija kupaonica kreće seod 0 do 4.5 kupaonica. Interkvartil 1, što ukazuje da 50% nekretnina ima između 1 i 3 kupaonice.
Sobe su također diskontinuirana varijabla mjerena na omjernoj razini. Promatrane nekretnine imaju prosječno 7,04 sobe, koje standardno odstupaju od prosjeka za 2,32 sobe. Koeficijent varijacije ukazuje na umjerenu relativnu varijabilnost (0,329 ili 32,9%). Raspon varijacija soba u promatranim nekretninama kreće se od 2 do 12 soba. Interkvartilni raspon ukazuje na raspon od 3,25 soba za središnjih 50% nekretnina prema broju soba.
Usporedimo dvije varijable s različitim jedinicama. Varijabilnost u broju soba mnogo je niža od one u cijeni. Dok cijena ima visok CV od 0,4644, sobe pokazuju mnogo manju varijabilnost s nižim CV-om od 0,329. To sugerira da kuće obično imaju sličniji broj soba, dok cijene više variraju, vjerojatno zbog drugih čimbenika kao što su lokacija, veličina parcele i stambeni prostor.
Za kraj ovog štiva usmjerit ćemo se na skup podataka o dijamantima. Već smo se ranije bavili ovim skupom podataka, no prvenstveno kvalitativnim varijablama. Sad će naša pozornost biti usmjerena kvantitativnim varijablama.
Izračunajmo i protumačimo pokazatelje deskriptivne statistike
Tablica 7. Pokazatelji deskriptivne statistike
Statistic | Carat.Size | Depth | Price |
---|---|---|---|
Valid | 2690 | 2690 | 2690 |
Missing | 0 | 0 | 0 |
Mode | 1.0100 | 62.2000 | 1037.0000 |
Median | 0.9000 | 61.9000 | 3604.0000 |
Mean | 0.8701 | 61.7115 | 3971.4714 |
Std. Deviation | 0.3222 | 1.2101 | 2420.2342 |
Coefficient of variation | 0.3703 | 0.0196 | 0.6094 |
MAD | 0.2100 | 0.7000 | 1812.0000 |
IQR | 0.4600 | 1.5000 | 3743.0000 |
Variance | 0.1038 | 1.4643 | 5.8575×10⁶ |
Skewness | 0.3199 | -0.6624 | 0.6857 |
Std. Error of Skewness | 0.0472 | 0.0472 | 0.0472 |
Kurtosis | -0.4889 | 0.3234 | -0.5057 |
Std. Error of Kurtosis | 0.0944 | 0.0944 | 0.0944 |
Minimum | 0.3000 | 56.4000 | 1000.0000 |
Maximum | 2.0200 | 64.3000 | 10000.0000 |
25th percentile | 0.6000 | 61.0000 | 1801.0000 |
50th percentile | 0.9000 | 61.9000 | 3604.0000 |
75th percentile | 1.0600 | 62.5000 | 5544.0000 |
* Izrađeno koristeći JASP.
Veličina dijamanata je kvantitativna kontinuirana varijabla mjerena na omjernoj razini, a mjerna jedinica je karat. Promatrani dijamanti najčešće su veliki 1,01 karata. Polovica dijamanata teži 0,9 karata ili manje, a druga polovica toliko ili više. Dijamanti su prosječno veliki 0,8701 karata, a veličina standardno odstupa od prosjeka za 0,3222 karata. Koeficijent varijacije je 0,3703 (ili 37,03%), što sugerira umjerenu razinu relativne varijabilnosti u veličinama dijamanata u usporedbi s prosjekom. Interkvartil od 0,4600 ukazuje na to da središnjih 50% dijamanata ima veličinu između 0,60 i 1,06 karata, dok raspon varijacija od minimuma (0,30 karata) do maksimuma (2,02 karata) pokazuje da postoje neka značajna odstupanja prema većim dijamantima.
Usmjerimo se na nekoliko mjera disperzije s najčešćom upotrebom u praksi: raspon varijacija, interkvartil, varijanca, standardna devijacija i koeficijent varijacije. Sada će se prikazati način izračuna za grupirane i negrupirane podatke.
Kako su svi ovi pokazatelji već izračunati za negrupirane podatke i prikazani u tablici izračunatih statističkih pokazatelja, ovdje ćemo se radi jednostavnosti prikaza, pozabaviti s prvih 10 vrijednosti u nizu:
\(0,3, 0,44, 0,31, 0,66, 0,47, 0,4, 0,36, 0.52, 0.53\) i \(0.43\).
U prvom koraku, potrebno ih je sortirati, kao pomoćnu radnju za prve dvije mjere:
\(0.3, 0.31, 0.36, 0.4, 0.43, 0.44, 0.47, 0.52, 0.53\) i \(0.66\).
Pri izračunu raspona varijacija, potrebne su najmanja i najveća vrijednost u nizu:
\[R_x=x_{max}-x_{min}\]
\[R_x=0,66-0,3=0,36\]
Za podskup od prvih 10 opažanja iz originalnog seta, raspon varijacija iznosi 0,36 karata.
Sljedeći po redu je interkvartil, koji predstavlja razliku prvog i trećeg kvartila.
\[IQR=Q_3-Q_1\]
Dakle, kao pomoćna radnja, računaju se prvi i treći kvartil. Prvi kvartil iščitava se kao Q_1=x_r za skup podataka one veličine koja nije djeljiva s 4. Pritom se u prvom koraku određuje redni broj, \(r=INT(\frac{1}{4} \cdot N)+1\), što znači da se zadržava cjelobrojni dio dijeljenja veličine uzorka (10) sa 4 i dodaje 1. Tako dobivamo redno mjesto prvog kvartila, \(r=3\). U sljedećem koraku, iščitava se vrijednost na trećem mjestu u sortiranom nizu, \(Q_1=0,36\). Na sličan način, iščitava se i treći kvartil, a redno mjesto se utvrđuje pomoću izraza \(r=INT(\frac {3}{4} \cdot N)+1\), što daje \(r=8\) i \(Q_3=0,52\).
\[IQR=0,52-0,36=0,16\]
Središnjih 50% dijamanta (iz podskupa prvih deset opažanja) po veličini ima raspon od 0.16 karata i kreće se od 0,36 do 0,52 karata.
Sljedeće, računamo varijancu. Varijanca populacije označava se kao \(σ^2\) (sigma kvadrat), a uzorka \(s^2\).
\[σ^2= \frac{∑(x_i-μ)^2} {N}\]
\[s^2= \frac{∑(x_i- \bar{x} )^2} {n-1}\]
U prvom koraku, potrebno je izračunati prosjek za odabrana opažanja, \(\bar{x}=\frac{0,3+0,31+0,36+⋯+0,53+0,66}{10}=0,442\).
Potom, obraćamo pozornost na brojnik varijance. Brojnik predstavlja sumu kvadratnih odstupanja od prosjeka. Da bismo to izračunali, prvo moramo utvrditi razlike svakog opažanja od prosjeka. Nakon toga, te razlike trebamo kvadrirati. I u posljednjem koraku ih zbrajamo. Kako se ne bi zabunili oko koraka, možemo koristiti pomoćnu tablicu.
Tablica 8. Pomoćne radnje za izračun varijance i standardne devijacije
\(x_i\) | \(x_i - x̄\) | \((x_i - x̄)^2\) |
---|---|---|
0.3 | -0.142 | 0.02016 |
0.31 | -0.132 | 0.01742 |
0.36 | -0.082 | 0.00672 |
0.4 | -0.042 | 0.00176 |
0.43 | -0.012 | 0.00014 |
0.44 | -0.002 | 0.00000 |
0.47 | 0.028 | 0.00078 |
0.52 | 0.078 | 0.00608 |
0.53 | 0.088 | 0.00774 |
0.66 | 0.218 | 0.04752 |
Ukupno | 0.10836 |
U prvom stupcu nalaze se opažanja. Iako su zapisani u tablici, to nisu sad grupirani podaci, i dalje se radi o negrupiranim podacima, samo smo ih zapisali pregledno za nastavak analize. U sljedećem stupcu računamo odstupanja (razlike) pojedinačnih opažanja od prosjeka. U trećem stupcu te razlike kvadriramo. U zbirnom retku zbrajamo kvadratna odstupanja od prosjeka i dobivamo 0,10836, što je brojnik varijance.
\[s^2= \frac{∑(x_i- \bar{x} )^2} {n-1} = \frac {0,10836} {10-1}=0,01204\]
Prosječna kvadratna odstupanja veličina dijamanata od prosjeka iznose 0,01204 (u podskupu prvih deset opažanja). S obzirom da je teško razmišljati u kvadratima, odnosno kvadriranim veličinama, varijanca se češće koristi u analitičkom dijelu, ali se rjeđe koristi direktno u izvještavanju. Dakle, problem su kvadrati, a suprotna računska operacija je korjenovanje. I upravo tako dobivamo standardnu devijaciju.
Standardna devijacija je pozitivno rješenje drugog korijena iz varijance.
\[σ= \sqrt{σ^2}\]
\[s=\sqrt{s^2}\]
Ovdje je važno sjetiti se da je \(s^2\) oznaka varijance i varijancu treba uvrstiti pod korijen. Molim vas, oduprite se porivu da ‘pokratite’ korijen i kvadrat – ovdje kvadrat nije računska operacija nego dio naziva (oznake) varijance.
\[s=\sqrt{0,01204}=0,1097\]
Veličine dijamanata (iz podskupa prvih deset opažanja) standardno odstupaju od prosjeka za 0,1097 karata. Preostaje još izračunati koeficijent varijacije. Koeficijent varijacije je postotni omjer standardne devijacije i aritmetičke sredine.
\[CV= \frac{s} {\bar{x}} \cdot 100\]
Pošto već imamo izračunate sve potrebne vrijednosti, pristupamo uvrštavanju i izračunu:
\[CV= \frac{0,1098}{0,442} \cdot 100=24,83 \% \]
Veličina dijamanata pokazuje relativno malu varijabilnost (24,83%) u odnosu na prosječnu veličinu (u podskupu prvih deset opažanja).
Izračunajmo i protumačimo mjere disperzije za grupirane podatke
U sljedećem koraku, pristupamo izračunu ovih pokazatelja za grupirane podatke. Za to je u prvom koraku potrebno podatke grupirati. Tablica prikazuje grupirane podatke (donja i gornja granica razreda, frekvencija, sredina razreda, kumulativni niz „manje od“ te pomoćne radnje za izračun pokazatelja).
Tablica 9. Tablica s pomoćnim radnjama za izračun mjera disperzije grupiranih podataka
\(L_1\) | \(L_2\) | \(f_i\) | \(x_i\) | Kum. niz „manje od“ | \(f_i x_i\) | \((xi-x̄)\) | \((xi-x̄ )^2\) | \(f_i (xi-x̄ )^2\) |
---|---|---|---|---|---|---|---|---|
0.3 | 0.396 | 101 | 0.35 | 101 | 35.15 | -0.53 | 0.2820 | 28.49 |
0.396 | 0.492 | 214 | 0.44 | 315 | 95.02 | -0.44 | 0.1893 | 40.51 |
0.492 | 0.588 | 338 | 0.54 | 653 | 182.52 | -0.34 | 0.1150 | 38.86 |
0.588 | 0.684 | 114 | 0.64 | 767 | 72.50 | -0.24 | 0.0591 | 6.74 |
0.684 | 0.78 | 415 | 0.73 | 1182 | 303.78 | -0.15 | 0.0216 | 8.98 |
0.78 | 0.876 | 112 | 0.83 | 1294 | 92.74 | -0.05 | 0.0026 | 0.29 |
0.876 | 0.972 | 232 | 0.92 | 1526 | 214.37 | 0.04 | 0.0020 | 0.47 |
0.972 | 1.068 | 504 | 1.02 | 2030 | 514.08 | 0.14 | 0.0199 | 10.01 |
1.068 | 1.164 | 173 | 1.12 | 2203 | 193.07 | 0.24 | 0.0561 | 9.71 |
1.164 | 1.26 | 187 | 1.21 | 2390 | 226.64 | 0.33 | 0.1108 | 20.73 |
1.26 | 1.356 | 100 | 1.31 | 2490 | 130.80 | 0.43 | 0.1840 | 18.40 |
1.356 | 1.452 | 45 | 1.40 | 2535 | 63.18 | 0.52 | 0.2756 | 12.40 |
1.452 | 1.548 | 99 | 1.50 | 2634 | 148.50 | 0.62 | 0.3856 | 38.17 |
1.548 | 1.644 | 39 | 1.60 | 2673 | 62.24 | 0.72 | 0.5140 | 20.05 |
1.644 | 1.74 | 9 | 1.69 | 2682 | 15.23 | 0.81 | 0.6609 | 5.95 |
1.74 | 1.836 | 5 | 1.79 | 2687 | 8.94 | 0.91 | 0.8262 | 4.13 |
1.836 | 1.932 | 0 | 1.88 | 2687 | 0.00 | 1.00 | 1.0099 | 0.00 |
1.932 | 2.028 | 3 | 1.98 | 2690 | 5.94 | 1.10 | 1.2120 | 3.64 |
Ukupno | 2690 | / | / | / | 2364.70 | / | / | 267.50 |
Pri izračunu raspona varijacija, potrebne su najmanja i najveća vrijednost u nizu, kao i ranije. No, ovdje se kao najmanja vrijednost iščitava donja granica prvog razreda, a kao najveća vrijednost u nizu iščitava se gornja granica posljednjeg razreda.
\[R_x=x_{max}-x_{min}\]
\[R_x=2,028-0,3=1,728\]
Za sva opažanja u ovom skupu, grupirana u razrede, raspon varijacija iznosi 1,728 karata i proteže se od 0,3 karata do 2,028 karata. Posljedice grupiranja rezultata već su ranije adresirane u štivu, pa se ovdje neće zasebno komentirati, iako se već ovdje mogu uočiti malene razlike u rezultatima pokazatelja temeljem negrupiranog i grupiranog niza.
Pri izračunu interkvartila za grupirane podatke, potrebno je prvo utvrditi kvartile.
\(n/4=2690/4=672,5\) (četvrti razred)
\[Q_1=0,588+ \frac{672,5-653}{114} \cdot (0,684-0,588)=0,588+\frac{19,5}{114} \cdot 0,096=0,6044\]
\(3n/4=(3 \cdot 2690)/4=2017,5\) (osmi razred)
\[Q_1=0.972+\frac{2017,5-1526}{504} \cdot(1.068-0.972)=0,972+\frac{491,5}{504} \cdot 0,096=1,066\]
\[IQ=Q_3-Q_1\]
\[IQ=1,066-0,604=0,462\]
Središnjih 50% svih promatranih dijamanta po veličini ima raspon od 0.462 karata i kreće se od 0,604 do 1,066 karata.
Sljedeće, računamo varijancu. Ovdje se radi o grupiranim podacima te se indeks i odnosi na razrede, a ne više pojedinačne podatke. Pa je varijanca suma kvadratnih odstupanja sredina razreda od prosjeka vaganih frekvencijama te podijeljena brojem opažanja.
Ovdje nam je još potreban prosjek grupiranih podataka, koji izračunavamo prema izrazu:
\[ \bar{x} = \frac{∑ (f_i \cdot x_i)}{n} = \frac{2364.70}{2690}=0,8791\]
Za izračun brojnika aritmetičke sredine grupiranih podataka, sredine razreda vagali smo s frekvencijom pripadajućih razreda i te radnje prikazane su u pomoćnom stupcu \(f_i x_i\). Sumu tih umnožaka zapisali smo u brojnik formule i podijelili s brojem opažanja. Promatrani dijamanti prosječno su veliki 0,8791 karata.
Kao pomoćne radnje u tablici imamo stupac s kvadratnim odstupanjima sredina razreda od prosjeka, pa potom stupac kvadrata tih odstupanja, a sljedeći stupac sadrži vrijednosti tih kvadrata pomnoženih s pripadajućom frekvencijom za svaki razred. Tek u posljednjem pomoćnom stupcu, \(f_i (x_i- \bar{x})^2\), zbrajamo vrijednosti (vrijednosti iz ostalih stupaca koji služe za pomoćnu radnju ne zbrajamo, jer zbrojevi \((x_i-\bar{x})\) i \((x_i- \bar{x})^2\) izračunati za grupirane podatke nemaju značenje/direktnu primjenu) i tu sumu uvrštavamo u brojnik varijance.
\[σ^2=\frac{∑ f_i (x_i-μ)^2}{N}\]
\[s^2= \frac{∑f_i (x_i- \bar{x})^2}{n-1}\]
\[s^2=\frac{∑f_i (x_i- \bar{x})^2}{n-1}=\frac{267,5}{2690}=0,09944\]
Prosječna kvadratna odstupanja od prosjeka iznose 0,09944.
Standardna devijacija je pozitivno rješenje drugog korijena iz varijance i izrazi za izračun ne razlikuju se u odnosu na negrupirane podatke. \[σ= \sqrt {σ^2} \]
\[s=\sqrt {s^2}\]
\[s= \sqrt{0,09944}=0,31534\]
Veličine dijamanata standardno odstupaju od prosjeka za 0,315 karata. Preostaje još izračunati koeficijent varijacije. Koeficijent varijacije je postotni omjer standardne devijacije i aritmetičke sredine.
\[CV=\frac{s}{\bar{x}} \cdot 100\]
Pošto već imamo izračunate sve potrebne vrijednosti, pristupamo uvrštavanju i izračunu:
\[CV=\frac{0,31534}{0,8791} \cdot 100=35,87 \%\]
Veličina dijamanata iskazuje umjerenu varijabilnost (35,87%) s obzirom na prosječnu veličinu.
Nastavimo s iščitavanjem pokazatelja za preostale varijable.
Cijene dijamanata su kvantitativna kontinuirana varijabla mjerena na omjernoj razini i mjerna jedinica je US dolar. Cijene dijamanata u ovom skupu podataka pokazuju širok raspon varijacija, s vrijednostima koje variraju od 1000 do 10000 dolar. Prosječna cijena od 3971,47 USD je veća od medijalne (3604 dolara), što ukazuje na to da veći broj dijamanata ima cijenu veću od prosječne. Na to upućuje i najčešća cijena od 1037 USD, što znači da se najčešće kupuju dijamanti na pristupačnijem kraju spektra. Velika standardna devijacija od 2420,23 USD odražava izraženu varijabilnost u cijenama dijamanata, što je dodatno potvrđeno koeficijentom varijacije od 0,6094 (60,94%), što sugerira visoku relativnu varijabilnost. Interkvartilni raspon (IQR) također je širok i iznosi 3743 USD, što znači da središnjih 50% dijamanata ima cijene između 1801 i 5544 USD. Ova varijabilnost može biti posljedica različitih čimbenika kao što su karatna veličina, kvaliteta ili rez, koji značajno utječu na cijenu.
Slika 4. Histogram dubina dijamanata
Dubina dijamanata, mjerena je kao postotak ukupne visine i širine te predstavlja kavantitativnu kontinuiranu varijablu mjerenu na omjernoj razini. Varijabla pokazuje relativno male varijacije. Prosječna dubina je 61,71%, a medijalna dubina je vrlo blizu prosječne, 61,90%, što ukazuje na dosljedan trend dubine dijamanata. Mod je malo viši i iznosi 62,20%, što pokazuje da je ova vrijednost dubine najčešća među dijamantima. Standardna devijacija od 1,21 sugerira da većina dijamanata ima postotke dubine koji se ne razlikuju mnogo od srednje vrijednosti. Mali koeficijent varijacije (0,0196 ili 1,96%) potvrđuje nisku relativnu varijabilnost u ovoj karakteristici dijamanata. Središnjih 50% dijamanata varira po dubini za 1,50%, odnosno središnjih 50% dijamanata ima dubine između 61,00% i 62,50%, dok se ukupni raspon varijacija dubine kreće od 56,40% do 64,30%, što sugerira da postoji izdužen lijevi krak distribucije. Ako u kombinaciji s ovim pokazateljima upotrijebimo i grafički prikaz, iščitane pravilnosti postaju uočljivije.
Slika 5. Box-plot dubina dijamanata
S obzirom da su postpci za kreiranje jednostavnih grafikona prikazani u ranijim štivima, ovdje će se preskočiti.
Za izračun mjera disperzije u JASPu, koristi se sekcija ‘Dispersion’ koja je dio izbornika/sekcije ‘Statistics’ u sklopu ‘Descriptive statistics’. Potrebno je označiti (kliknuti na prazan kvadratić da se pojavi plava pozadina s bijelom kvačicom) one mjere koje želite izračunati.
Ovo je uvid u podatkovni okvir ‘letovi’. S obzirom da se radi o puno opažanja, moguće je da će za učitavanje biti potrebna koja sekunda više (u odnosu na ostale podatkovne okvire s kojima smo do sad radili).
Za izračun pokazatelja deskriptivne statistike, odaberite ‘Descriptives’, odaberite varijable, a potom u izbonriku ‘Statistics’ označite sve pokazatelje koje želite izračunati.
Histogram udaljenosti.
Tablica frekvencija varijable prijevoznika. Odaberite varijablu, a potom kliknite na sekciju ‘Tables’. Označite ‘Frequency tables’ i, ako je potrebno, prilagodite maksimalan broj jedinstvenih vrijednosti.
Tablica frekvencija varijable polazišta. Odaberite varijablu, a potom kliknite na sekciju ‘Tables’. Označite ‘Frequency tables’ i, ako je potrebno, prilagodite maksimalan broj jedinstvenih vrijednosti.
Za velike skupove podataka, kao što je ovaj, potrebno je dulje vrijeme za kreiranje grafikona, osobito usporednih. Potrebno je strpljenje.
Ako dovoljno dugo pričekate, dobit ćete grafički prikaz nalik ovome. Dakle, ovdje su prikazani usporedni box-plotovi kašnjenja polazaka s obzirom na mjesto polaska.
Sljedeći graf prikazuje usporedne box-plotove kašnjenja polazaka s obzirom na mjesto prijevoznika.
Tablica kontingencije kreira se odabirom ‘Frequencies’ iz trake izbornika, a potom odabirete ‘Contingency table’ iz padajućeg izbornika. Odaberite odgovarajuće varijable u redak i stupac tablice.
Pokazatelji deskriptivne statistike za varijable iz podatkovnog okvira ‘Nekretnine’.
Pokazatelji deskriptivne statistike za varijablu cijena (‘Price’), podijeljene prema kvalitativnoj varijabli novogradnja.
Pokazatelji deskriptivne statistike za varijable iz podatkovnog okvira ‘Dijamanti’.
Prvo ćemo učitati sve podatkovne skupove, pa pogledati kako podaci izgledaju koristeći head()
.
> library(dbplyr)
> library(nycflights13)
> letovi <- flights
> head(letovi, 10)
## # A tibble: 10 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 1 1 517 515 2 830 819
## 2 2013 1 1 533 529 4 850 830
## 3 2013 1 1 542 540 2 923 850
## 4 2013 1 1 544 545 -1 1004 1022
## 5 2013 1 1 554 600 -6 812 837
## 6 2013 1 1 554 558 -4 740 728
## 7 2013 1 1 555 600 -5 913 854
## 8 2013 1 1 557 600 -3 709 723
## 9 2013 1 1 557 600 -3 838 846
## 10 2013 1 1 558 600 -2 753 745
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
> Diamonds <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Diamonds.txt")
> head(Diamonds, 10)
## Carat.Size Color Clarity Depth Table Cut Report Price Log.Price
## 1 0.30 E VVS1 60.0 59 Excellent GIA 1000 6.907755
## 2 0.44 E VS2 61.9 58 Excellent GIA 1000 6.907755
## 3 0.31 E VVS1 61.3 58 Excellent GIA 1000 6.907755
## 4 0.66 K SI1 62.8 57 Excellent GIA 1000 6.907755
## 5 0.47 H VS2 59.1 64 Very Good GIA 1000 6.907755
## 6 0.40 G VS1 62.0 59 Excellent GIA 1000 6.907755
## 7 0.36 D VS2 61.3 57 Excellent GIA 1000 6.907755
## 8 0.52 H SI2 61.7 61 Very Good GIA 1000 6.907755
## 9 0.53 D SI2 59.4 59 Very Good GIA 1001 6.908755
## 10 0.43 F VS2 61.5 60 Excellent GIA 1001 6.908755
## Table.Depth Table.Depth.1 Test
## 1 -1.0 0.9833333 0
## 2 -3.9 0.9369951 1
## 3 -3.3 0.9461664 0
## 4 -5.8 0.9076433 2
## 5 4.9 1.0829103 2
## 6 -3.0 0.9516129 2
## 7 -4.3 0.9298532 0
## 8 -0.7 0.9886548 0
## 9 -0.4 0.9932660 0
## 10 -1.5 0.9756098 2
> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 10)
## Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1 132500 0.09 0 42 50000 0 0
## 2 181115 0.92 0 0 22300 0 0
## 3 109000 0.19 0 133 7300 0 0
## 4 155000 0.41 0 13 18700 0 0
## 5 86060 0.11 0 0 15000 1 1
## 6 120000 0.68 0 31 14000 0 0
## 7 153000 0.40 0 33 23300 0 0
## 8 170000 1.21 0 23 14600 0 0
## 9 90000 0.83 0 36 22200 0 0
## 10 122900 1.94 0 4 21200 0 0
## Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1 3 4 2 906 35 2 1
## 2 2 3 2 1953 51 3 0
## 3 2 3 3 1944 51 4 1
## 4 2 2 2 1944 51 3 1
## 5 2 2 3 840 51 2 0
## 6 2 2 2 1152 22 4 1
## 7 4 3 2 2752 51 4 1
## 8 4 2 2 1662 35 4 1
## 9 3 4 2 1632 51 3 0
## 10 2 2 1 1416 44 3 0
## Bathrooms Rooms
## 1 1.0 5
## 2 2.5 6
## 3 1.0 8
## 4 1.5 5
## 5 1.0 3
## 6 1.0 8
## 7 1.5 8
## 8 1.5 9
## 9 1.5 8
## 10 1.5 6
> library(psych)
>
> deskr_letovi <- describe(letovi, quant = c(0.25, 0.75))
> deskr_letovi
## vars n mean sd median trimmed mad min max
## year 1 336776 2013.00 0.00 2013 2013.00 0.00 2013 2013
## month 2 336776 6.55 3.41 7 6.56 4.45 1 12
## day 3 336776 15.71 8.77 16 15.70 11.86 1 31
## dep_time 4 328521 1349.11 488.28 1401 1346.82 634.55 1 2400
## sched_dep_time 5 336776 1344.25 467.34 1359 1341.60 613.80 106 2359
## dep_delay 6 328521 12.64 40.21 -2 3.32 5.93 -43 1301
## arr_time 7 328063 1502.05 533.26 1535 1526.42 619.73 1 2400
## sched_arr_time 8 336776 1536.38 497.46 1556 1550.67 618.24 1 2359
## arr_delay 9 327346 6.90 44.63 -5 -1.03 20.76 -86 1272
## carrier* 10 336776 7.14 4.14 6 7.00 5.93 1 16
## flight 11 336776 1971.92 1632.47 1496 1830.51 1608.62 1 8500
## tailnum* 12 334264 1814.32 1199.75 1798 1778.21 1587.86 1 4043
## origin* 13 336776 1.95 0.82 2 1.94 1.48 1 3
## dest* 14 336776 50.03 28.12 50 49.56 32.62 1 105
## air_time 15 327346 150.69 93.69 129 140.03 75.61 20 695
## distance 16 336776 1039.91 733.23 872 955.27 569.32 17 4983
## hour 17 336776 13.18 4.66 13 13.15 5.93 1 23
## minute 18 336776 26.23 19.30 29 25.64 23.72 0 59
## time_hour 19 336776 NaN NA NA NaN NA Inf -Inf
## range skew kurtosis se Q0.25 Q0.75
## year 0 NaN NaN 0.00 2013 2013
## month 11 -0.01 -1.19 0.01 4 10
## day 30 0.01 -1.19 0.02 8 23
## dep_time 2399 -0.02 -1.09 0.85 907 1744
## sched_dep_time 2253 -0.01 -1.20 0.81 906 1729
## dep_delay 1344 4.80 43.95 0.07 -5 11
## arr_time 2399 -0.47 -0.19 0.93 1104 1940
## sched_arr_time 2358 -0.35 -0.38 0.86 1124 1945
## arr_delay 1358 3.72 29.23 0.08 -17 14
## carrier* 15 0.36 -1.21 0.01 4 12
## flight 8499 0.66 -0.85 2.81 553 3465
## tailnum* 4042 0.17 -1.24 2.08 731 2873
## origin* 2 0.09 -1.50 0.00 1 3
## dest* 104 0.13 -1.08 0.05 27 72
## air_time 675 1.07 0.86 0.16 82 192
## distance 4966 1.13 1.19 1.26 502 1389
## hour 22 0.00 -1.21 0.01 9 17
## minute 59 0.09 -1.24 0.03 8 44
## time_hour -Inf NA NA NA NA NA
U nastavku slijedi izračun pokazatelja deskriptivne statistike i to koristeći dva paketa: summarytools
i psych
.
> library(summarytools)
>
> descr(letovi, stats = "all", style = "simple")
## Descriptive Statistics
## letovi
## N: 336776
##
## air_time arr_delay arr_time day dep_delay dep_time
## ----------------- ----------- ----------- ----------- ----------- ----------- -----------
## Mean 150.69 6.90 1502.05 15.71 12.64 1349.11
## Std.Dev 93.69 44.63 533.26 8.77 40.21 488.28
## Min 20.00 -86.00 1.00 1.00 -43.00 1.00
## Q1 82.00 -17.00 1104.00 8.00 -5.00 907.00
## Median 129.00 -5.00 1535.00 16.00 -2.00 1401.00
## Q3 192.00 14.00 1940.00 23.00 11.00 1744.00
## Max 695.00 1272.00 2400.00 31.00 1301.00 2400.00
## MAD 75.61 20.76 619.73 11.86 5.93 634.55
## IQR 110.00 31.00 836.00 15.00 16.00 837.00
## CV 0.62 6.47 0.36 0.56 3.18 0.36
## Skewness 1.07 3.72 -0.47 0.01 4.80 -0.02
## SE.Skewness 0.00 0.00 0.00 0.00 0.00 0.00
## Kurtosis 0.86 29.23 -0.19 -1.19 43.95 -1.09
## N.Valid 327346.00 327346.00 328063.00 336776.00 328521.00 328521.00
## Pct.Valid 97.20 97.20 97.41 100.00 97.55 97.55
##
## Table: Table continues below
##
##
##
## distance flight hour minute month sched_arr_time
## ----------------- ----------- ----------- ----------- ----------- ----------- ----------------
## Mean 1039.91 1971.92 13.18 26.23 6.55 1536.38
## Std.Dev 733.23 1632.47 4.66 19.30 3.41 497.46
## Min 17.00 1.00 1.00 0.00 1.00 1.00
## Q1 502.00 553.00 9.00 8.00 4.00 1124.00
## Median 872.00 1496.00 13.00 29.00 7.00 1556.00
## Q3 1389.00 3465.00 17.00 44.00 10.00 1945.00
## Max 4983.00 8500.00 23.00 59.00 12.00 2359.00
## MAD 569.32 1608.62 5.93 23.72 4.45 618.24
## IQR 887.00 2912.00 8.00 36.00 6.00 821.00
## CV 0.71 0.83 0.35 0.74 0.52 0.32
## Skewness 1.13 0.66 0.00 0.09 -0.01 -0.35
## SE.Skewness 0.00 0.00 0.00 0.00 0.00 0.00
## Kurtosis 1.19 -0.85 -1.21 -1.24 -1.19 -0.38
## N.Valid 336776.00 336776.00 336776.00 336776.00 336776.00 336776.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## sched_dep_time year
## ----------------- ---------------- -----------
## Mean 1344.25 2013.00
## Std.Dev 467.34 0.00
## Min 106.00 2013.00
## Q1 906.00 2013.00
## Median 1359.00 2013.00
## Q3 1729.00 2013.00
## Max 2359.00 2013.00
## MAD 613.80 0.00
## IQR 823.00 0.00
## CV 0.35 0.00
## Skewness -0.01 NaN
## SE.Skewness 0.00 0.00
## Kurtosis -1.20 NaN
## N.Valid 336776.00 336776.00
## Pct.Valid 100.00 100.00
> deskr_nekretnine <- describe(nekretnine, quant = c(0.25, 0.75))
>
> deskr_nekretnine
## vars n mean sd median trimmed mad min
## Price 1 1728 211966.71 98441.39 189900.00 200230.92 78726.06 5000
## Lot.Size 2 1728 0.50 0.70 0.37 0.39 0.28 0
## Waterfront 3 1728 0.01 0.09 0.00 0.00 0.00 0
## Age 4 1728 27.92 29.21 19.00 22.18 14.83 0
## Land.Value 5 1728 34557.19 35021.17 25000.00 28350.54 16679.25 200
## New.Construct 6 1728 0.05 0.21 0.00 0.00 0.00 0
## Central.Air 7 1728 0.37 0.48 0.00 0.33 0.00 0
## Fuel.Type 8 1728 2.43 0.70 2.00 2.29 0.00 2
## Heat.Type 9 1728 2.53 0.78 2.00 2.41 0.00 2
## Sewer.Type 10 1728 2.70 0.48 3.00 2.75 0.00 1
## Living.Area 11 1728 1754.98 619.94 1634.50 1706.46 580.44 616
## Pct.College 12 1728 55.57 10.33 57.00 56.93 8.90 20
## Bedrooms 13 1728 3.15 0.82 3.00 3.14 1.48 1
## Fireplaces 14 1728 0.60 0.56 1.00 0.59 0.00 0
## Bathrooms 15 1728 1.90 0.66 2.00 1.88 0.74 0
## Rooms 16 1728 7.04 2.32 7.00 6.95 2.97 2
## max range skew kurtosis se Q0.25 Q0.75
## Price 775000.0 770000.0 1.57 4.17 2368.13 1.45e+05 259000.00
## Lot.Size 12.2 12.2 7.18 78.10 0.02 1.70e-01 0.54
## Waterfront 1.0 1.0 10.58 110.08 0.00 0.00e+00 0.00
## Age 225.0 225.0 2.49 7.38 0.70 1.30e+01 34.00
## Land.Value 412600.0 412400.0 3.10 16.13 842.48 1.51e+04 40200.00
## New.Construct 1.0 1.0 4.28 16.36 0.01 0.00e+00 0.00
## Central.Air 1.0 1.0 0.55 -1.70 0.01 0.00e+00 1.00
## Fuel.Type 4.0 2.0 1.32 0.25 0.02 2.00e+00 3.00
## Heat.Type 4.0 2.0 1.04 -0.55 0.02 2.00e+00 3.00
## Sewer.Type 3.0 2.0 -1.04 -0.43 0.01 2.00e+00 3.00
## Living.Area 5228.0 4612.0 0.90 1.26 14.91 1.30e+03 2137.75
## Pct.College 82.0 62.0 -1.04 0.60 0.25 5.20e+01 64.00
## Bedrooms 7.0 6.0 0.40 0.65 0.02 3.00e+00 4.00
## Fireplaces 4.0 4.0 0.40 0.72 0.01 0.00e+00 1.00
## Bathrooms 4.5 4.5 0.32 -0.45 0.02 1.50e+00 2.50
## Rooms 12.0 10.0 0.28 -0.60 0.06 5.00e+00 8.25
> descr(nekretnine, stats = "all", style = "simple")
## Descriptive Statistics
## nekretnine
## N: 1728
##
## Age Bathrooms Bedrooms Central.Air Fireplaces Fuel.Type
## ----------------- --------- ----------- ---------- ------------- ------------ -----------
## Mean 27.92 1.90 3.15 0.37 0.60 2.43
## Std.Dev 29.21 0.66 0.82 0.48 0.56 0.70
## Min 0.00 0.00 1.00 0.00 0.00 2.00
## Q1 13.00 1.50 3.00 0.00 0.00 2.00
## Median 19.00 2.00 3.00 0.00 1.00 2.00
## Q3 34.00 2.50 4.00 1.00 1.00 3.00
## Max 225.00 4.50 7.00 1.00 4.00 4.00
## MAD 14.83 0.74 1.48 0.00 0.00 0.00
## IQR 21.00 1.00 1.00 1.00 1.00 1.00
## CV 1.05 0.35 0.26 1.31 0.92 0.29
## Skewness 2.49 0.32 0.40 0.55 0.40 1.32
## SE.Skewness 0.06 0.06 0.06 0.06 0.06 0.06
## Kurtosis 7.38 -0.45 0.65 -1.70 0.72 0.25
## N.Valid 1728.00 1728.00 1728.00 1728.00 1728.00 1728.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## Heat.Type Land.Value Living.Area Lot.Size New.Construct Pct.College
## ----------------- ----------- ------------ ------------- ---------- --------------- -------------
## Mean 2.53 34557.19 1754.98 0.50 0.05 55.57
## Std.Dev 0.78 35021.17 619.94 0.70 0.21 10.33
## Min 2.00 200.00 616.00 0.00 0.00 20.00
## Q1 2.00 15100.00 1300.00 0.17 0.00 52.00
## Median 2.00 25000.00 1634.50 0.37 0.00 57.00
## Q3 3.00 40200.00 2138.50 0.54 0.00 64.00
## Max 4.00 412600.00 5228.00 12.20 1.00 82.00
## MAD 0.00 16679.25 580.44 0.28 0.00 8.90
## IQR 1.00 25100.00 837.75 0.37 0.00 12.00
## CV 0.31 1.01 0.35 1.40 4.51 0.19
## Skewness 1.04 3.10 0.90 7.18 4.28 -1.04
## SE.Skewness 0.06 0.06 0.06 0.06 0.06 0.06
## Kurtosis -0.55 16.13 1.26 78.10 16.36 0.60
## N.Valid 1728.00 1728.00 1728.00 1728.00 1728.00 1728.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## Price Rooms Sewer.Type Waterfront
## ----------------- ----------- --------- ------------ ------------
## Mean 211966.71 7.04 2.70 0.01
## Std.Dev 98441.39 2.32 0.48 0.09
## Min 5000.00 2.00 1.00 0.00
## Q1 145000.00 5.00 2.00 0.00
## Median 189900.00 7.00 3.00 0.00
## Q3 259000.00 8.50 3.00 0.00
## Max 775000.00 12.00 3.00 1.00
## MAD 78726.06 2.97 0.00 0.00
## IQR 114000.00 3.25 1.00 0.00
## CV 0.46 0.33 0.18 10.69
## Skewness 1.57 0.28 -1.04 10.58
## SE.Skewness 0.06 0.06 0.06 0.06
## Kurtosis 4.17 -0.60 -0.43 110.08
## N.Valid 1728.00 1728.00 1728.00 1728.00
## Pct.Valid 100.00 100.00 100.00 100.00
> deskr_diamonds <- describe(Diamonds, quant = c(0.25, 0.75))
>
> deskr_diamonds
## vars n mean sd median trimmed mad min
## Carat.Size 1 2690 0.87 0.32 0.90 0.86 0.31 0.30
## Color* 2 2690 4.00 2.00 4.00 3.94 2.97 1.00
## Clarity* 3 2690 3.85 1.75 4.00 3.76 1.48 1.00
## Depth 4 2690 61.71 1.21 61.90 61.79 1.04 56.40
## Table 5 2690 57.86 1.93 58.00 57.78 1.48 53.00
## Cut* 6 2690 2.39 1.41 2.00 2.36 1.48 1.00
## Report* 7 2690 1.99 0.11 2.00 2.00 0.00 1.00
## Price 8 2690 3971.47 2420.23 3604.00 3724.70 2686.47 1000.00
## Log.Price 9 2690 8.08 0.66 8.19 8.09 0.76 6.91
## Table.Depth 10 2690 -3.85 2.66 -4.20 -4.03 2.67 -10.80
## Table.Depth.1 11 2690 0.94 0.04 0.93 0.94 0.04 0.83
## Test 12 2690 0.60 0.80 0.00 0.50 0.00 0.00
## max range skew kurtosis se Q0.25 Q0.75
## Carat.Size 2.02 1.72 0.32 -0.49 0.01 0.60 1.06
## Color* 8.00 7.00 0.26 -0.98 0.04 2.00 6.00
## Clarity* 7.00 6.00 0.29 -1.01 0.03 2.00 5.00
## Depth 64.30 7.90 -0.66 0.32 0.02 61.00 62.50
## Table 65.00 12.00 0.46 0.34 0.04 56.00 59.00
## Cut* 4.00 3.00 0.15 -1.86 0.03 1.00 4.00
## Report* 2.00 1.00 -9.00 79.01 0.00 2.00 2.00
## Price 10000.00 9000.00 0.68 -0.51 46.66 1801.00 5544.00
## Log.Price 9.21 2.30 -0.16 -1.14 0.01 7.50 8.62
## Table.Depth 7.60 18.40 0.66 0.47 0.05 -5.80 -2.20
## Table.Depth.1 1.13 0.30 0.74 0.69 0.00 0.91 0.96
## Test 2.00 2.00 0.84 -0.92 0.02 0.00 1.00
> descr(Diamonds, stats = "all", style = "simple")
## Descriptive Statistics
## Diamonds
## N: 2690
##
## Carat.Size Depth Log.Price Price Table Table.Depth
## ----------------- ------------ --------- ----------- ---------- --------- -------------
## Mean 0.87 61.71 8.08 3971.47 57.86 -3.85
## Std.Dev 0.32 1.21 0.66 2420.23 1.93 2.66
## Min 0.30 56.40 6.91 1000.00 53.00 -10.80
## Q1 0.60 61.00 7.50 1801.00 56.00 -5.80
## Median 0.90 61.90 8.19 3604.00 58.00 -4.20
## Q3 1.06 62.50 8.62 5544.00 59.00 -2.20
## Max 2.02 64.30 9.21 10000.00 65.00 7.60
## MAD 0.31 1.04 0.76 2686.47 1.48 2.67
## IQR 0.46 1.50 1.12 3743.00 3.00 3.60
## CV 0.37 0.02 0.08 0.61 0.03 -0.69
## Skewness 0.32 -0.66 -0.16 0.68 0.46 0.66
## SE.Skewness 0.05 0.05 0.05 0.05 0.05 0.05
## Kurtosis -0.49 0.32 -1.14 -0.51 0.34 0.47
## N.Valid 2690.00 2690.00 2690.00 2690.00 2690.00 2690.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## Table.Depth.1 Test
## ----------------- --------------- ---------
## Mean 0.94 0.60
## Std.Dev 0.04 0.80
## Min 0.83 0.00
## Q1 0.91 0.00
## Median 0.93 0.00
## Q3 0.96 1.00
## Max 1.13 2.00
## MAD 0.04 0.00
## IQR 0.06 1.00
## CV 0.05 1.33
## Skewness 0.74 0.84
## SE.Skewness 0.05 0.05
## Kurtosis 0.69 -0.92
## N.Valid 2690.00 2690.00
## Pct.Valid 100.00 100.00
Pokazatelji deskriptivne statistike cijena nekretnina, pri čemu su cijene razvrstane s obzirom na to radi li se o novogradnju (1) ili ne (0).
> deskr_cijene_nekretnina <- describe.by(nekretnine$Price, group=nekretnine$Waterfront, mat = TRUE)
>
> deskr_cijene_nekretnina
## item group1 vars n mean sd median trimmed mad min
## X11 1 0 1 1713 210547.9 96680.04 189000 199187.3 77095.2 5000
## X12 2 1 1 15 373991.7 155036.48 325000 361921.2 155673.0 129900
## max range skew kurtosis se
## X11 775000 770000 1.5464542 4.0371967 2335.921
## X12 775000 645100 0.7715293 0.6986701 40030.246
Tablica frekvencija polazišta letova:
> table(letovi$origin)
##
## EWR JFK LGA
## 120835 111279 104662
Tablica frekvencija prijevoznika:
> table(letovi$carrier)
##
## 9E AA AS B6 DL EV F9 FL HA MQ OO UA US
## 18460 32729 714 54635 48110 54173 685 3260 342 26397 32 58665 20536
## VX WN YV
## 5162 12275 601
Tablica kontingence prijevoznika i letova:
> table(letovi$carrier, letovi$origin)
##
## EWR JFK LGA
## 9E 1268 14651 2541
## AA 3487 13783 15459
## AS 714 0 0
## B6 6557 42076 6002
## DL 4342 20701 23067
## EV 43939 1408 8826
## F9 0 0 685
## FL 0 0 3260
## HA 0 342 0
## MQ 2276 7193 16928
## OO 6 0 26
## UA 46087 4534 8044
## US 4405 2995 13136
## VX 1566 3596 0
## WN 6188 0 6087
## YV 0 0 601
Otvorite podatkovni okvir. Obratite pozornost na vrste varijabli.
S obzirom da su u podatkovnom okviru naizmjenično poredane kvantitativne i kvalitativne varijable, izdvajamo one varijable za koje želimo izračunati pokazatelje.
Kopiramo ih i zalijepimo na novi list. S obzirom da se u podacima nalaze nepoznate vrijednosti, označene s `NA˙(Not Available), ako to ne riješimo, nećemo moći izračunati pokazatelje. Odabiremo ‘Find & Select’ u traci izbornika (pojavljuje se s ikonom lupe). Potom će se otvoriti padajući izbornik iz kojeg odabiremo ‘Replace’. Potom će se pojaviti prikaz nalik onom na sljedećoj slici. U polje ‘Find what:’ upišemo NA, a sljedeće polje (‘Replace with:’) ostavimo prazno i kliknemo ‘Replace all’. Na taj način će opažanja koja nedostaju uistinu biti prazne ćelije.
Potom odabiremo ‘Data’, pa ‘Data Analysis’, nakon čega u prozorčiću odabiremo ‘Descriptive statistics’.
Unosimo raspon ćelija u kojima su upisana opažanja promatranih varijabli. Označavamo ‘Labels in first row’ te ‘Summary Statistics’, a potom kliknemo ‘OK’.
Na novom listu se prikazuju rezultati koje je potrebno malo urediti da izgledaju prikladno za korištenje u izvješćima, seminarskim ili drugim radovima.
Kopiramo nazive varijabli i pomičemo ih jedno mjesto udesno, a potom brišemo stupce viška (u kojima se ponavljaju nazivi pokazatelja već zapisani u predstupcu). Malo raširimo stupce radi preglednosti i dobivamo tablicu statističkih pokazatelja.
Sličan postupak ponavljamo za nekretnine. S obzirom da su ovdje sve varijable izražene putem brojeva (bilo da su uistinu kvantitativne varijable ili samo prekodirane kvalitativne varijable), nema potrebe za odabirom i kopiranjem varijabli na drugi list i odmah možemo krenuti s izračunima.
Odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’.
U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summar Statistics’.
Na novom listu dobivamo rezultate, koje uređujemo na isti način kao i u prethodnom primjeru da bismo dobili preglednu tablicu.
Ako želimo izračunati pokazatelje cijena zasebno za novogradnju i starogradnju, prvo moramo kreirati podskupove podataka o cijenama. U ranijim štivima prikazano je kako se varijabla može grupirati koristeći alate za tablice i pivotiranje. Ovdje će se koristiti direktniji pristup. Označimo i kopiramo varijable cijene i novogradnje.
Potom ih zalijepimo na novi list. U sljedećem koraku iz trake izbornika biramo ‘Sort & Filter’ (ima ikonu lijevka), a iz padajućeg izbornik ‘Custom Sort’. Otvorić će se prozorčić nalik onom na sljedećoj lici. Pod ‘Sort by’ odaberite varijablu novogradnje, tj. New.Construction i kliknite OK.
Odaberite sve cijene uz koje se nalazi 0 u stupcu ‘New.Construction’ i kopirajte ih te zalijepite u novi stupac pored (kao npr. na slici stupac F). Potom odaberite sve cijene uz koje se nalazi 1 u stupcu ‘New.Construction’ i kopirajte ih te zalijepite u novi stupac pored prethodnog (kao npr. na slici stupac G). Pri upotrebi ‘Data Analysis’, ovako će se svaki stupac tretirati kao zasebna varijable i izračunat će se zasebni pokazatelji.
Odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’. U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summary Statistics’.
Rezultate dobivamo na novom listu, a tablicu možete urediti po uzoru na prethodne.
Pri otvaranju podatkovnog okvira ‘Diamonds’ uočavamo da se u stupcima naizmjenično nalaze kvalitativne i kvanititativne varijable (kao i kod letova), pa bi izravan unos u ‘Data Analysis’ i ‘Descriptive statistics’ rezultirao upozorenjem da su uneseni nenumerički podaci. Stoga ćemo kvantitativne varijable za koje želimo izračunati pokazatelje odabrati, kopirati i zalijepiti na novi list.
Potom odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’.
U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summar Statistics’.
Na novom listu dobivamo rezultate, a tu tablicu možemo dodatno urediti koristeći ranije opisan postupak.
De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
De Veaux, D. (2015). What Makes Diamonds so Expensive? Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=b8671ff3-a2d2-4ea4-a3f2-7c82dac7151f&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.
Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.
Horton, N.J., & Ben Baumer B. (2015) Better flight experiences with data (airline delays in New York City). Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=a3536a72-1caa-44ae-8172-4975c2ef50d0&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Horton, N. J., Baumer, B. S., & Wickham, H. (2015). Setting the stage for data science: integration of data management skills in introductory and second courses in statistics (nycflights13). https://nhorton.people.amherst.edu/precursors/nycflights13.pdf
Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.
JASP Team (2024). JASP (Version 0.19.3)[Computer software].
Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/
Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf
Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.
Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.
Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.