U ovom tekstu, fokusirat ćemo se na mjere asimetrije i zaobljenosti.
Nastavljamo se baviti skupom podataka o kašnjenjima polijetanja zrakoplova, no ovdje će naglasak biti na promatranju asimetrije i zaobljenosti distribucija varijabli.
Podsjetimo se, skup podataka koji ćemo koristiti podskup je opsežnog skupa podataka o kašnjenjima zrakoplovnih prijevoznika, koji izvorno sadrži 180 milijuna zapisa. Specifični podskup korišten u ovoj studiji slučaja usredotočen je na 336776 komercijalnih letova koji polaze iz tri glavne zračne luke na području New Yorka: Newark (EWR), John F. Kennedy (JFK) i LaGuardia (LGA) u 2013. godini. Podaci dolaze iz skupa podataka o kašnjenjima zrakoplovnih prijevoznika predstavljenog na Data Expo 2009., a više detalja dostupno je u resursima na Amherst Collegeu. Osim toga, skup podataka dostupan je putem nycflights13 paketa Hadleyja Wickhama na CRAN-u (Comprehensive R Archive Network, popularnom spremištu za R programske pakete).
Istražit ćemo ove podatke i ponoviti mjere koje smo do sada naučili.
Tablica 1. Sažetak statističkih pokazatelja o letovima
Pokazatelj | dep_delay | arr_delay | air_time | udaljenost |
---|---|---|---|---|
Važeća opažanja | 328521 | 327346 | 327346 | 336776 |
Opažanja koja nedostaju | 8255 | 9430 | 9430 | 0 |
Mod | -5 | -13 | 42 | 2475 |
Medijan | -2 | -5 | 129 | 872 |
25. percentil (Q1) | -5 | -17 | 82 | 502 |
25. percentil (Q3) | 11 | 14 | 192 | 1389 |
Aritmetička sredina | 12.6391 | 6.8954 | 150.6865 | 1039.9126 |
Standardna devijacija | 40.2101 | 44.6333 | 93.6883 | 733.2330 |
Koeficijent varijacije | 3.1814 | 6.4729 | 0.6217 | 0.7051 |
IQR | 16 | 31 | 110 | 887 |
Varijanca | 1616.8490 | 1992.1307 | 8777.4984 | 537630.6812 |
Mjera asimetrije (skewness) | 4.8025 | 3.7168 | 1.0707 | 1.1287 |
Mjera zaobljenosti (kurtosis) | 43.9501 | 29.2330 | 0.8631 | 1.1936 |
Raspon varijacija | 1344 | 1358 | 675 | 4966 |
Minimum | -43 | -86 | 20 | 17 |
Maksimum | 1301 | 1272 | 695 | 4983 |
Izračunato koristeći JASP
Tablica sadrži pokazatelje deskriptivne statistike za nekoliko varijabli iz skupa podataka, koje ćemo opisati i interpretirati jednu po jednu, pri čemu se usmjeravamo na oblik distribucije varijabli. Varijable uključuju dep_delay (kašnjenje polaska), arr_delay (kašnjenje dolaska), air_time (trajanje leta) i udaljenost.
Ovdje je važno napomenuti da su vrijednosti izračunate koristeći JASP te je referentna vrijednost za mjeru asimetrije i mjeru zaobljenosti 0. Osobito je važno obratiti pozornost na mjeru zaobljenosti, jer se pri klasičnom izračunu α_4 kao referentna vrijednost koristi 3. Rezimirajmo ključne aspekte iščitavanja.
Mjera asimetrije (Skewness):
Slika 1. Prikaz simetrične distribucije
Slika 2. Prikaz desnostrano (pozitivno) asimetrične distribucije
Slika 3. Prikaz lijevostrano (negativno) asimetrične distribucije
Mjera zaobljenosti (Kurtosis):
Slika 4. Prikaz normalne distribucije - referentni oblik za tumačenje zaobljenosti
Slika 5. Prikaz leptokurtične distribucije (vrhom izduženije od normalne distribucije)
Slika 6. Prikaz platikurtične distribucije (vrhom spljoštenije od normalne distribucije)
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 7. Histogram kašnjenja polazaka
Pozitivnu i veliku vrijednost mjere asimetrije od (4,80) tumačimo kao izraženu desnostrano asimetričnu distribuciju kašnjenja polazaka. To možemo i vizualno potvrditi uvidom u histogram, na kojem vidimo većinu vrijednosti koncentriranu oko manjih vrijednosti, kreirajući visoke stupce oko nule, te dugi krak na desnoj strani distribucije na kojem se relativno mali broj opažanja proteže do velikih vrijednosti.
Visoka vrijednost mjere zaobljenosti (43,95) sugerira da je distribucija izrazito šiljasta, odnosno vrhom izduženija od normalne. Ovakva se situacija pojavljuje kod distribucija varijabli u kojima je većina vrijednosti koncentrirana u malom rasponu, a postoji manji udio opažanja koji se proteže izvan tog raspona. Histogram pokazuje da je većina kašnjenja polaska grupirana oko 0, sa značajnim brojem negativnih vrijednosti koje ukazuju na rane odlaske. Postoji dugačak desni krak koji se proteže na više od 1200 minuta, što pokazuje da, iako većina letova polaže na vrijeme ili ranije, neki doživljavaju ekstremna kašnjenja.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 8. Histogram kašnjenja dolazaka
Pozitivna vrijednost mjere asimetrije od 3.72 ukazuje na desnostrano asimetričnu distribuciju, što potvrđuje dugi desni krak uočen na histogramu. Mjera zaobljenosti (29,23) je visoka, ali niža od one za kašnjenje polaska, što ukazuje na to da, iako je distribucija vrhom izduženija i sklona ekstremnim netipičnim vrijednostima, nije tako izražena kao za kašnjenje polaska. Slično kašnjenju polaska, histogram kašnjenja dolaska pokazuje da je većina vrijednosti pozicionirana oko 0, s većom koncentracijom negativnih vrijednosti (što ukazuje na rane dolaske). Desni krak se proteže na vrijednosti dulje od 1200 minuta, iako manje dramatično nego kod kašnjenja polaska.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 9. Histogram trajanja letova
Manje izražena pozitivna asimetričnost distribucije trajanja letova iskazana je mjerom asimetrije od 1,07, a što se odražava u izduženom desnom kraku histograma. Kurtoza (0,86) ukazuje na vrhom blago izduženiju distribuciju od normalne. Histogram trajanja letova pokazuje relativno normalnu distribuciju, s najvećom frekvencijom u razredu od 100 do 150 minuta. Desni krak je manje izražen u usporedbi s varijablama kašnjenja polazaka i dolazaka.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 10. Histogram udaljenosti
Izračunata veličina mjere asimetrije od 1.13 ukazuje na desnostranu asimetriju distribucije udaljenosti letova, što odražavaju dulje letove koji se nalaze na desnom kraku histograma. Zaobljenost od 1.19 sugerira da je distribucija vrhom izduženija od normalne. Histogram udaljenosti pokazuje su najčešće vrijednosti oko 600-800 milja te 1000-1200 milja, uz još jedan mod oko 2400-2600 milja, s izdvojenicama na desnom kraku koje protežu krak do 5000 milja. To ukazuje na to da, iako većina letova pokriva udaljenosti između 0 i 2600 milja, postoje mnogo duži letovi koji povećavaju raspon varijacija i desni krak distribucije.
Nastavljamo istraživati skup podataka o nekretninama, koji smo prethodno istraživali tijekom posljednjih tjedana.
Tablica 2. Sažetak statističkih pokazatelja o nekretninama
Pokazatelj | Cijena | Starost | Životna površina | Kamina | Kupaonice | Sobe |
---|---|---|---|---|---|---|
Važeća opažanja | 1728 | 1728 | 1728 | 1728 | 1728 | 1728 |
Opažanja koja nedostaju | 0 | 0 | 0 | 0 | 0 | 0 |
Mod | a | 120000 | 19 | 1480 | 1 | 2.5000 |
Medijan | 189900 | 19 | 1634.5000 | 1 | 2 | 7 |
Aritmetička sredina | 211966.7054 | 27.9161 | 1754.9757 | 0.6019 | 1.9002 | 7.0417 |
Standardna devijacija | 98441.3910 | 29.2100 | 619.9356 | 0.5561 | 0.6584 | 2.3165 |
Koeficijent varijacije | 0.4644 | 1.0463 | 0.3532 | 0.9240 | 0.3465 | 0.3290 |
IQR | 114000 | 21 | 837.7500 | 1 | 1 | 3.2500 |
Varijanca | 9.6907×10+9 | 853.2234 | 384320.0897 | 0.3092 | 0.4334 | 5.3660 |
Mjera asimetrije (skewness) | 1.5777 | 2.4978 | 0.9028 | 0.4011 | 0.3180 | 0.2792 |
Mjera zaobljenosti (kurtosis) | 4.1915 | 7.4211 | 1.2740 | 0.7259 | -0.4403 | -0.5913 |
Raspon varijacija | 770000 | 225 | 4612 | 4 | 4.5000 | 10 |
Minimum | 5000 | 0 | 616 | 0 | 0 | 2 |
Maksimum | 775000 | 225 | 5228 | 4 | 4.5000 | 12 |
Izračunato koristeći JASP
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 11. Histogram cijena
Prosječna cijena nekretnina je 211.967 dolara, što je više od medijana od 189.900 dolara, a što je više od moda od 120000, što ukazuje na desnostrano asimetričnu distribuciju. Izračunata vrijednost mjere asimetrije od 1,5777 sugerira da postoji nekoliko skupih nekretnina koje povlače prosjek prema gore. Histogram to potvrđuje, pokazujući koncentraciju nekretnina na nižim cijenama s dugim krakom koji se proteže prema višim cijenama. Izračunata vrijednost mjere zaobljenosti od 4.1915 ukazuje na leptokurtičku distribuciju, što znači da je distribucija vrhom izduženija uz ekstremne vrijednosti na krakovima. To je vidljivo i u histogramu, s nekolicinom nekretnina koje imaju iznimno visoke cijene.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 12. Histogram starosti nekretnina
Prosječna starost nekretnina je 27,92 godine, što je znatno više od medijana i moda od 19 godina. Izračunata vrijednost mjere asimetrije od 2,4978 sugerira da je većina nekretnina relativno nova, ali nekoliko puno starijih nekretnina povlači prosjek k većoj vrijednosti. Histogram potvrđuje da je u pitanju desnostrano asimetrična distribucija, s većinom nekretnina grupiranih u mlađoj dobi i dugim krakom na kojem se nalaze starije nekretnine. Izračunata vrijednost mjere zaobljenosti od 7,4211 ukazuje na leptokurtičku distribuciju, s vrhom izduženijim od normalne distribucije te ekstremnijim vrijednostima nego što se očekivalo u normalnoj distribuciji, što dokazuje prisutnost vrlo starih nekretnina u skupu podataka.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 13. Histogram životnih površina nekretnina
Prosječna životna površina je 1755 četvornih stopa, nešto više od medijana od 1634.5 četvornih stopa, koji je pak viši od moda (1480 četvornih stopa). Izračunata vrijednost mjere asimetrije od 0,9028 ukazuje na blago izraženu pozitivno asimetričnu distribuciju. Histogram pokazuje distribuciju u obliku zvona s izduženijim desnim krakom, što ukazuje na to da, dok većina nekretnina ima stambene površine između 500 i 3000 četvornih stopa, neke veće površine za stanovanje povlače srednju vrijednost udesno. Izračunata vrijednost mjere zaobljenosti od 1,274 sugeriraju distribuciju koja je vrhom malo više izdužena od normalne distribucije.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 14. Histogram distribucije kamina
Broj kamina ima prosjek od 0,60, niži od medijana i moda (1 kamin). Dok većina nekretnina nema kamin ili ima jedan kamin, nekolicina ima i do četiri kamina. Iako veće vrijednosti u ovom slučaju nisu toliko izražene ni mnogobrojne da odvuku prosjek prema većim vrijednostima, distribucija je pozitivno asimetrična. To možemo potvrditi vizualno te izračunatom vrijednosti mjere asimetrije od 0,4011. Ovdje je u pitanju blago izražena pozitivna asimetrija. Izračunata vrijednost mjere zaobljenosti od 0,7259 sugerira distribuciju koja vrhom blago izduženija od normalne.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 15. Histogram distribucije kupaonica
Promatrane nekretnine najčešće imaju 2,5 kupaonice, medijan je 2, a prosječan broj kupaonica je 1,90, što upućuje na blago izraženu negativno asimetričnu distribuciju. No, u obzir treba uzeti i raspon, koji se kreće do 4,5 kupaonica i izdužuje desni krak distribucije, no radi se o malim vrijednostima koje se ne pojavljuju dovoljno često da bi utjecale na vrijednosti aritmetičke sredine i medijana. Izračunata vrijednost mjere asimetrije od 0,3180 ukazuje na blago izraženu pozitivnu asimetriju distribucije. Dakle, iako su nam uvidi koje možemo dobiti od odnosa aritmetičke sredine, medijana i moda u većini situacija korisni i upućuju na isti zaključak kao i mjera asimetrije, ne možemo uvijek koristiti samo tu prečicu, osobito kad je u pitanju uski raspon vrijednosti s malim vrijednostima. Izračunata vrijednost mjere zaobljenosti od -0,4403 ukazuje na to da je distribucija vrhom malo spljoštenija od normalne.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 16. Histogram distribucije prostorija
Broj soba u skupu podataka ima prosjek od 7,04, a medijan i mod su 7, što inicijalno ukazuje na relativno simetričnu distribuciju. Izračunata vrijednost mjere asimetrije od 0,2792 prilično je niska, što sugerira vrlo blagu pozitivnu asimetriju podataka. Ovako male vrijednosti mjere asimetrije često tumačimo kao približno simetričnu distribuciju. Histogram pokazuje distribuciju u obliku zvona, s nešto težim krakovima. Izračunata vrijednost mjere zaobljenosti od -0,5913 ukazuje na distribuciju koja je vrhom malo spljoštenija od normalne distribucije.
Vraćamo se skupu podataka o dijamantima. Usmjeravamo pozornost na iščitavanje mjera asimetrije i zaobljenosti te tumačenje oblika distribucije.
Tablica 3. Sažetak statističkih pokazatelja o dijamantima
Pokazatelj | Veličina | Cijena | Dubina |
---|---|---|---|
Važeća opažanja | 2690 | 2690 | 2690 |
Opažanja koja nedostaju | 0 | 0 | 0 |
Mod | 1.0100 | 1037 | 62.2000 |
Medijan | 0.9000 | 3604 | 61.9000 |
Aritmetička sredina | 0.8701 | 3971.4714 | 61.7115 |
Standardno odstupanje | 0.3222 | 2420.2342 | 1.2101 |
Koeficijent varijacije | 0.3703 | 0.6094 | 0.0196 |
IQR | 0.4600 | 3743 | 1.5000 |
Varijanca | 0.1038 | 5.8575×10+6 | 1.4643 |
Mjera asimetrije (skewness) | 0.3199 | 0.6857 | -0.6624 |
Mjera zaobljenosti (kurtosis) | -0.4889 | -0.5057 | 0.3234 |
Raspon varijacija | 1.7200 | 9000 | 7.9000 |
Minimum | 0.3000 | 1000 | 56.4000 |
Maksimum | 2.0200 | 10000 | 64.3000 |
25. percentil (Q1) | 0.6000 | 1801 | 61 |
25. percentil (Q3) | 1.0600 | 5544 | 62.5000 |
Izračunato koristeći JASP
Prije nego se posvetimo daljnjem tumačenju, promotrit ćemo izračune mjere asimetrije i mjere zaobljenosti. Razmatranjem kako se te mjere izračunavaju, dobit ćemo dublje razumijevanje njihove svrhe i primjene. Ponovo ćemo koristiti istih 10 podataka za negrupirane podatke za koje su prikazani izračuni mjera disperzije. Za prikaz izračuna ovih mjera za grupirane podatke, koristit će se svi podaci, grupirani na isti način kao u prikazu izračuna mjera disperzije. Nadalje, za mjeru zaobljenosti, ovdje će se prikazati izračun koristeći dvije standardizirane mjere (jedna se češće koristi u statističkim softverima, dok će se druga češće naći u uvodnim udžbenicima iz statistike).
\[ \alpha_3 = \frac{\mu_3}{s^3} \]
α₃ je Fisherov koeficijent asimetrije na bazi momenata; ponekad se referira i kao Pearsonov koeficijent asimetrije – iako postoje još druge dvije Pearsonove mjere asimetrije (temeljene na odnosu medijana i moda s aritmetičkom sredinom), pa je poželjno pripaziti pri navođenju.
Način izračuna trećeg momenta oko sredine i standardne devijacije, kao pomoćnih radnji za izračun α₃, razlikovat će se ovisno o tome računamo li asimetriju uzorka ili populacije:
Populacija:
\[ \mu_3 = \frac{\sum (x_i - \mu)^3}{N} \]
\[\sigma^2 = \frac{\sum (x_i - \mu)^2}{N}\]
\[\sigma = \sqrt{\sigma^2}\]
Dobivene vrijednosti uvrštavaju se u:
\[ \alpha_3 = \frac{\mu_3}{\sigma^3} \]
Uzorak:
\[ \mu_3 = \frac{\sum (x_i - \bar{x})^3}{n - 1} \]
\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1} \]
\[ s = \sqrt{s^2} \]
Dobivene vrijednosti uvrštavaju se u:
\[ \alpha_3 = \frac{\mu_3}{s^3} \]
Također, postoji razlika u izračunu i ako koristimo grupirane podatke. Tada se koriste ove formule:
Populacija:
\[ \mu_3 = \frac{\sum f_i (x_i - \mu)^3}{N} \]
\[\sigma^2 = \frac{\sum f_i (x_i - \mu)^2}{N}\]
\[\sigma = \sqrt{\sigma^2}\]
\[ \alpha_3 = \frac{\mu_3}{\sigma^3} \]
Uzorak:
\[ \mu_3 = \frac{\sum f_i (x_i - \bar{x})^3}{n - 1} \]
\[ s^2 = \frac{\sum f_i (x_i - \bar{x})^2}{n - 1} \]
\[ s = \sqrt{s^2} \]
\[ \alpha_3 = \frac{\mu_3}{s^3} \]
Dakle, pri izračunu mjere asimetrije za negrupirane podatke, korisno je kreirati pomoćne stupce za izračun \((x_i - \bar{x})^2\) te \((x_i - \bar{x})^3\). Slično tome, pri ručnom izračunu mjere asimetrije za grupirane podatke, najčešće se kao pomoćne radnje kreiraju stupci \(f_i x_i\), \((x_i - \bar{x})\), \((x_i - \bar{x})^2\), \((x_i - \bar{x})^3\), \(f_i (x_i - \bar{x})^2\) te \(f_i (x_i - \bar{x})^3\).
Mjera asimetrije, \(α_3\), tumači se na sljedeći način:
Izvorna mjera zaobljenosti (ili kurtoze iz grč. κυρτός, kyrtos ili kurtos, što znači zakrivljenost ili luk) distribucije je Pearsonova mjera bazirana na četvrtom momentu oko sredine.
\[ \alpha_4 = \frac{\mu_4}{s^4} \]
Način izračuna četvrtog momenta oko sredine i standardne devijacije, kao pomoćnih radnji za izračun α₄, razlikovat će se ovisno o tome računamo li zaobljenost uzorka ili populacije:
Populacija:
\[ \mu_4 = \frac{\sum (x_i - \mu)^4}{N} \]
\[\sigma^2 = \frac{\sum (x_i - \mu)^2}{N}\]
\[\sigma = \sqrt{\sigma^2}\]
\[ \alpha_4 = \frac{\mu_4}{\sigma^4} \]
Uzorak:
\[ \mu_4 = \frac{\sum (x_i - \bar{x})^4}{n - 1} \]
\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1} \]
\[ s = \sqrt{s^2} \]
\[ \alpha_4 = \frac{\mu_4}{s^4} \]
U nazivniku se može koristiti i varijanca na kvadrat. Na taj način se može ‘uštedjeti’ jedan korak (korjenovanje varijance da bi se dobila standardna devijacija).
Također, postoji razlika u izračunu i ako koristimo grupirane podatke. Tada se koriste:
Populacija:
\[ \mu_4 = \frac{\sum f_i (x_i - \mu)^4}{N} \]
\[\sigma^2 = \frac{\sum f_i (x_i - \mu)^2}{N}\]
\[\sigma = \sqrt{\sigma^2}\]
Dobivene vrijednosti uvrštavaju se u:
\[ \alpha_4 = \frac{\mu_4}{\sigma^4} \]
Uzorak:
\[ \mu_4 = \frac{\sum f_i (x_i - \bar{x})^4}{n - 1} \]
\[ s^2 = \frac{\sum f_i (x_i - \bar{x})^2}{n - 1} \]
\[ s = \sqrt{s^2} \quad \sigma = \sqrt{\sigma^2} \]
Dobivene vrijednosti uvrštavaju se u:
\[ \alpha_4 = \frac{\mu_4}{s^4} \]
Dakle, pri izračunu mjere zaobljenosti za negrupirane podatke, korisno je kreirati pomoćne stupce za izračun \((x_i - \bar{x})^2\) te \((x_i - \bar{x})^4\). Slično tome, pri ručnom izračunu mjere zaobljenosti za grupirane podatke, najčešće se kao pomoćne radnje kreiraju stupci \(f_i x_i\), \((x_i - \bar{x})\), \((x_i - \bar{x})^2\), \((x_i - \bar{x})^4\), \(f_i (x_i - \bar{x})^2\) te \(f_i (x_i - \bar{x})^4\).
Pearsonova mjera zaobljenosti, α₄, tumači se na sljedeći način:
Prekomjerna kurtoza definirana je kao Pearsonova mjera zaobljenosti minus 3. Na taj se način uzima u obzir samo odstupanje od oblika normalne distribucije.
\[ \text{Prekomjerna kurtoza} = \alpha_4 - 3 \]
Pri iščitavanju, razlikuju se tri osnovna oblika:
Distribucije za koje je izračunata 0 prekomjerne kurtoze nazivaju se mezokurtičke. Tipično se radi o normalnoj distribuciji (koju koristimo kao referentnu distribuciju u tumačenjima), ali postoji i nekolicina drugih distribucija za koje se može izračunati ovakva vrijednost.
Distribucija s pozitivnim ekscesom kurtoze naziva se leptokurtička (‘lepto’ = ‘vitko’). Ovakva distribucija je vrhom izduženija od normalne i ima duge krakove.
Distribucija s negativnim ekscesom kurtoze naziva se platikurtička (‘platy-’ = ‘široko’). Ovakva distribucija je vrhom spljoštenija od normalne i često ima kraće repove. Ekstreman primjer s mjerom prekomjerne kurtoze od -2 je pravokutna distribucija (na primjer, Bernoulijeva distribucija uz \(p=1/2\) – ova referenca će biti jasnija kroz nekoliko tjedana).
U statističkim softverima, najčešće se koristi prilagođen izraz za izračun. Taj izraz sadrži \(\frac{n(n+1)}{(n-1)(n-2)(n-3)}\) , čija je svrha prilagoditi četvrti moment oko sredine s ciljem smanjivanja pristranosti u malim uzorcima te \(\frac{3(n-1)}{(n-2)(n-3)}\), što služi uklanjanju prekomjerne kurtoze i svođenje mjere na nulu za normalno distribuirane varijable. Na taj način distribucije možemo uspoređivati s normalnom distribucijom kao referentnim oblikom. Ovi faktori korekcije implicitno su bazirani su na Besselovom faktoru korekcije \(\frac{1}{n-1}\), kojeg smo zapravo prvi put upotrijebili još kod izračuna varijance uzorka. Naime, kad računamo mjere disperzije, asimetrije i zaobljenosti koje se oslanjaju na odstupanja od prosjeka, pritom koristimo prosjek uzorka (ne znamo koji je prosjek populacije). Bessel je dokazao da će odstupanja od prosjeka uzorka, u pravilu, biti veća od odstupanja od prosjeka populacije, pa je zbog toga potrebno primijeniti faktor korekcije. Za razliku u izračunatim vrijednostima temeljem podataka populacije i uzorka kažemo da predstavlja pristranost, pri čemu ta pristranost proizlazi iz rada s uzorkom. Pojednostavljeno, pristranost je razlika u vrijednosti pokazatelja uzorka u odnosu na parametar populacije. Kažemo da taj faktor korekcije smanjuje pristranost koja bi inače nastala zbog izračuna temeljem uzorka umjesto populacije i poboljšava preciznost kada radimo s manjim uzorcima.
\[ \text{Prekomjerna kurtoza} = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \sum \left(\frac{x_i - \bar{x}}{s}\right)^4 - \frac{3(n-1)^2}{(n-2)(n-3)} \]
Ovaj posljednji pristup koristi se npr. u JASP-u, R-u i MS Excelu. To treba imati na umu pri tumačenju rezultata dobivenih temeljem tih softvera.
Posvetimo se prvo izračunu pokazatelja za negrupirane podatke. Radi se o prvih deset opažanja o veličini dijamanata.
Tablica 4. Pomoćna tablica za izračun mjera asimetrije i zaobljenosti
\(x_i\) | \(x_i - \bar{x}\) | \((x_i - \bar{x})^2\) | \((x_i - \bar{x})^3\) | \((x_i - \bar{x})^4\) | \(\frac{x_i - \bar{x}}{s}\) | \(\left(\frac{x_i - \bar{x}}{s}\right)^4\) |
---|---|---|---|---|---|---|
0.3 | -0.142 | 0.02016 | -0.0028632880 | 0.0004065869 | -1.29412 | 2.80479 |
0.31 | -0.132 | 0.01742 | -0.0022999680 | 0.0003035958 | -1.20299 | 2.09432 |
0.36 | -0.082 | 0.00672 | -0.0005513680 | 0.0000452122 | -0.74731 | 0.31189 |
0.4 | -0.042 | 0.00176 | -0.0000740880 | 0.0000031117 | -0.38277 | 0.02147 |
0.43 | -0.012 | 0.00014 | -0.0000017280 | 0.0000000207 | -0.10936 | 0.00014 |
0.44 | -0.002 | 0.00000 | -0.0000000080 | 0.0000000000 | -0.01823 | 0.00000 |
0.47 | 0.028 | 0.00078 | 0.0000219520 | 0.0000006147 | 0.25518 | 0.00424 |
0.52 | 0.078 | 0.00608 | 0.0004745520 | 0.0000370151 | 0.71086 | 0.25534 |
0.53 | 0.088 | 0.00774 | 0.0006814720 | 0.0000599695 | 0.80199 | 0.41369 |
0.66 | 0.218 | 0.04752 | 0.0103602320 | 0.0022585306 | 1.98675 | 15.58020 |
Ukupno | 0 | 0.10836 | 0.0057477600 | 0.0031146571 | 0 | 21.48608 |
Kao pomoćna radnja, u prvom stupcu imamo odstupanja (razlike) vrijednosti pojedinačnih opažanja od prosjeka. Njihova suma daje nulu i time smo samo potvrdili prvo svojstvo aritmetičke sredine. Štoviše, ako bismo tu sumu podijelili s brojem opažanja minus jedan, zapravo bismo izračunali prvi moment oko sredine. Prvi moment oko sredine jednak je konstanti, odnosno 0, za bilo koji niz podataka.
U sljedećem stupcu računati su kvadrati odstupanja (razlika) vrijednosti pojedinačnih opažanja od prosjeka. Njihova je suma jednaka 0.10836. Ova suma, sama po sebi, nije prepoznatljiva, ali provedeni postupak vezan je uz drugo svojstvo aritmetičke sredine, prema kojem suma kvadrata odstupanja vrijednosti opažanja od prosjeka daje minimum. Ako tu sumu podijelimo brojem opažanja (minus 1, isto, jer je u pitanju uzorak), dobivamo drugi moment oko sredine. A drugi moment oko sredine ima svoj puno popularniji naziv – varijanca.
\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n - 1} = \frac{0,10836}{9} = 0,012 \]
Iz varijance izračunavamo standardnu devijaciju, na način da zadržimo pozitivno rješenje drugog korjena iz varijance.
\[ s = \sqrt{s^2} = \sqrt{0,012} = 0,1095 \]
U sljedećem stupcu računati su kubovi odstupanja (razlika) vrijednosti pojedinačnih opažanja od prosjeka. Ovdje više nisu u pitanju svojstva aritmetičke sredine, ali je u pitanju treći moment oko sredine. Svaki od momenata oko sredine na specifičan način bilježi karakteristike distribucije. Treći moment je prvi ‘iskoristivi’ moment oko sredine s neparnom potencijom. Ta neparna potencija je važna zbog toga što zadržava minuse pri potenciranju odstupanja vrijednosti pojedinačnih opažanja od prosjeka. Pa, ako postoji više negativnih odstupanja nego pozitivnih, minus ostaje u rezultatu i signalizira da višak odstupanja nastaje na lijevom kraku distribucije. Na sličan način, ako postoji više pozitivnih od negativnih odstupanja, to će biti zabilježeno u rezultatu trećeg momenta oko sredine i signalizirat će višak odstupanja koja nastaju na desnom kraku distribucije.
\[ \mu_3 = \frac{\sum (x_i - \bar{x})^3}{n - 1} = \frac{0,0057}{9} = 0,00066 \]
\[ \alpha_3 = \frac{\mu_3}{s^3} = \frac{0,00066}{0,1095^3} = 0,5027 \]
Distribucija vrijednosti prvih deset opažanja veličina dijamanata približno je blago pozitivno asimetrična. Vrijednost mjere asimetrije je blizu nule, pa možemo tumačiti i na način da je distribucija približno simetrična. No, ako želimo biti detaljisti, reći ćemo da postoji vrlo blaga pozitivna asimetrija distribucije veličina dijamanata.
Izračunata vrijednost od 0.5027 signalizira da postoji više odstupanja od prosjeka na desnom kraku distribucije u odnosu na odstupanja na lijevom kraku. Doduše, radi se o malim odstupanjima.
No, također, važno je voditi računa o tome da ćemo za male uzorke, gotovo uvijek dobivati i vrlo mala odstupanja od simetrije, čak i kad distribucija populacije zapravo nije simetrična. To se događa zato što su mali uzorci skloniji varijabilnosti, a odstupanja od simetrije su manje izražena ili se čak mogu poništiti zbog slučajnih varijacija u podacima. Tako da, čak i kad postoji određeni stupanj asimetrije u populaciji, mali uzorci mogu dovesti do vrijednosti koje su blizu nule. Važno je napomenuti da su mali uzorci općenito podložni slučajnim varijacijama, što utječe na stabilnost procjena mjera poput asimetrije i kurtoze (ali i drugih). Kod malih uzoraka, interpretacija simetrije i zaobljenosti može biti nepouzdana, pa se preporučuje oprez i tumačenje tako izračunatih vrijednosti s rezervom. Kako se uzorak povećava, procjene asimetrije i kurtoze (kao i svih ostalih pokazatelja) postaju stabilnije i pružaju pouzdaniji prikaz stvarne distribucije u populaciji.
Sljedeći pomoćni stupac izračunava odstupanja (razlike) vrijednosti pojedinačnih opažanja od prosjeka na četvrtu. Suma tih vrijednosti daje brojnik četvrtog momenta oko sredine. Time se postiže da su sva odstupanja pozitivna jer, bez obzira na to je li odstupanje pozitivno ili negativno, potenciranjem na četvrtu potenciju dobivamo pozitivan rezultat. To znači da nam četvrti moment ne pokazuje smjer odstupanja, kao što to čini treći moment, već isključivo njihovu veličinu. Potenciranjem na četvrtu potenciju dodatno se pojačava osjetljivost na ekstremne vrijednosti, odnosno izdvojenice u podacima. Velika odstupanja od prosjeka sada će dobiti još veću težinu u ukupnom rezultatu. Stoga je četvrti moment još osjetljiviji na zaobljenost distribucije i na raspored podataka oko prosjeka. Visoka vrijednost četvrtog momenta sugerira koncentraciju podataka oko prosjeka s naglaskom na izdužene krakove distribucije, što znači da podaci imaju veću tendenciju pojavljivanja oko sredine. S druge strane, niža vrijednost četvrtog momenta ukazuje na spljošteniju distribuciju, odnosno ravnomjerniju raspodjelu podataka i manje izdužene krakove.
\[μ_4=\frac {\sum (x_i- \bar{x})^4}{n-1}= \frac{0.003115}{9}=0,000346\]
\[α_4=\frac{μ_4}{s^4} =\frac{0,000346}{0,1095^4} =2,407\]
Izračunata vrijednost mjeri ukupnu zaobljenost distribucije podataka. Kako je izračunata vrijednost veća od 1,8 i manja od 3, tumačimo na način da je distribucija vrhom spljoštenija od normalne.
\[ \text{Prekomjerna kurtoza} = \frac{\mu_4}{s^4} - 3 =2,407-3=-0,59 \]
Oduzimanjem 3 od prethodnog rezultata, dobiva se prekomjerna kurtoza. Provjerimo hoće li se izračunata vrijednost podudarati s izrazom koji koristi faktore korekcije.
Pri izračunu prekomjerne kurtoze, koristi se standardizirano obilježje, \(Z=\frac{(x_i-\bar{x})}{s}\). Taj izraz imamo u pretposljednjem stupcu tablice. S obzirom da se radi o standardizaciji pojedinačnih obilježja, suma tih vrijednosti i dalje daje nulu, kao i suma odstupanja pojedinačnih opažanja od prosjeka. Zbog toga u sljedećem stupcu računamo standardizirane vrijednosti na četvrtu. Sumu tih opažanja uvrštavamo na mjesto \(\sum(\frac {x_i-\bar{x}}{s} )^4\).
\[\text{Prekomjerna kurtoza} = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \sum \left(\frac{x_i - \bar{x}}{s}\right)^4 - \frac{3(n-1)^2}{(n-2)(n-3)} \]
\[ = \frac{10(10+1)}{((10-1)(10-2)(10-3))} \cdot 21,486 - \frac{3(10-1)^2}{(10-2)(10-3)} = 0,21825 \cdot 21,486-4,3393=0,35\]
Vrijednost prekomjerne kurtoze od 0,35 ukazuje na blago leptokurtičnu distribuciju koja je vrhom blago izduženija i ima izduženije krakove od normalne distribucije.
Klasični pristup izračunu prekomjerne kurtoze koristi standardnu definiciju četvrtog momenta bez korektivnih faktora i prikladan je za veće uzorke gdje pristranost nije jako izražena. Međutim, kod malih uzoraka, ovaj pristup može navesti na pogrešan zaključak o kurtozi, jer ne prilagođava rezultat prirodnom “šumu” koji proizlazi iz ograničene veličine uzorka.
S druge strane, izračun prekomjerne kurtoze s korektivnim faktorima uključuje prilagodbe koje smanjuju pristranost kod manjih uzoraka, čime se postiže konzistentniji rezultat u različitim uvjetima uzorkovanja. Ovaj izračun omogućava da prekomjerna kurtoza za normalno distribuiranu populaciju uistinu bude bliža nuli, a odstupanja od nule jasnije ukazuju na to je li distribucija vrhom spljoštenija ili izduženija. Upravo zbog toga mnogi statistički softveri koriste ovu prilagođenu formulu.
Prema klasičnoj metodi prekomjerna kurtoza iznosila je -0.59, dok je prema formuli s korektivnim faktorima iznosila 0.35, što je rezultat drugačijeg načina izračuna i korektivnih faktora koji ublažavaju negativan utjecaj malih uzoraka.
Ovdje ćemo se još kratko zadržati na ulozi standarde devijacije u zaobljenosti distribucije. Naime, standardna devijacija se koristi pri oba načina izračuna zaobljenosti. Niže su prikazane konture dviju distribucija. Obje imaju prosjek jednak 10, no prva ima standardnu devijaciju 1, a druga ima standardnu devijaciju 2. Kad usporedimo ove dvije distribucije, vizualno možemo prepoznati posljedicu povećanja standardne devijacije.
Slika 17. Prikaz kontura distribucija s manjom i većom standardnom devijacijom
Standardna devijacija ima ključnu ulogu u signaliziranju zaobljenosti distribucije jer bilježi širenje podataka oko prosjeka. Što su podaci šire raspoređeni oko prosjeka i standardna devijacija će biti veća, ali i vrijednost mjere zaobljenosti distribucije. Na primjeru ovih dviju distribucija, lako možemo primijetiti kako su varijacije šire distribucije, s više odstupanja od prosjeka, zabilježene u standardnoj devijaciji, također vidljive i u zaobljenosti te distribucije. Druga distribucija je vrhom spljoštenija. Prva distribucija, sa standardnom devijacijom od 1, ima ‘uži’ oblik, što odražava veću koncentraciju podataka oko prosjeka i možemo reći da je vrhom izduženija od druge distribucije. Ovo je zapravo pravilnost. Što je standardna devijacija veća, očekujemo da će mjera zaobljenosti (koja ima standardnu devijaciju u nazivniku) biti manja.
Ovaj prikaz kreiran je u Geogebri i omogućuje uvide u to kako se oblik distribucije mijenja za različite kombinacije aritmetičke sredine i standardne devijacije. Upravo te dvije mjere određuju oblik distribucije kontinuiranih kvantitativnih varijabli (više o toj temi govorit ćemo u narednim tjednima).
Još preostaje prikazati izračune za grupirane podatke.
Tablica 5. Grupirani podaci veličina dijamanata i pomoćni stupci za izračun mjera asimetrije i zaobljenosti
\(L1\) | \(L2\) | \(f_i\) | \(x_i\) | \(f_i x_i\) | \(x_i - x̄\) | \((x_i - x̄ )^2\) | \(f_i (x_i - x̄ )^2\) | \((x_i - x̄ )^3\) | \(f_i (x_i - x̄ )^3\) | \((x_i - x̄ )^4\) | \(f_i (x_i - x̄ )^4\) | \((x_i - x̄)/s\) | \(f_i ((x_i - x̄)/s)^4\) |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0.3 | 0.396 | 101 | 0.35 | 35.15 | -0.53 | 0.2820 | 28.49 | -0.14978 | -15.13 | 0.07954 | 8.03 | -1.68377 | 811.812 |
0.396 | 0.492 | 214 | 0.44 | 95.02 | -0.44 | 0.1893 | 40.51 | -0.08235 | -17.62 | 0.03583 | 7.67 | -1.37940 | 774.777 |
0.492 | 0.588 | 338 | 0.54 | 182.52 | -0.34 | 0.1150 | 38.86 | -0.03898 | -13.18 | 0.01322 | 4.47 | -1.07503 | 451.439 |
0.588 | 0.684 | 114 | 0.64 | 72.50 | -0.24 | 0.0591 | 6.74 | -0.01436 | -1.64 | 0.00349 | 0.40 | -0.77066 | 40.212 |
0.684 | 0.78 | 415 | 0.73 | 303.78 | -0.15 | 0.0216 | 8.98 | -0.00318 | -1.32 | 0.00047 | 0.19 | -0.46629 | 19.618 |
0.78 | 0.876 | 112 | 0.83 | 92.74 | -0.05 | 0.0026 | 0.29 | -0.00013 | -0.01 | 0.00001 | 0.00 | -0.16192 | 0.077 |
0.876 | 0.972 | 232 | 0.92 | 214.37 | 0.04 | 0.0020 | 0.47 | 0.00009 | 0.02 | 0.00000 | 0.00 | 0.14245 | 0.096 |
0.972 | 1.068 | 504 | 1.02 | 514.08 | 0.14 | 0.0199 | 10.01 | 0.00280 | 1.41 | 0.00039 | 0.20 | 0.44683 | 20.090 |
1.068 | 1.164 | 173 | 1.12 | 193.07 | 0.24 | 0.0561 | 9.71 | 0.01330 | 2.30 | 0.00315 | 0.55 | 0.75120 | 55.089 |
1.164 | 1.26 | 187 | 1.21 | 226.64 | 0.33 | 0.1108 | 20.73 | 0.03690 | 6.90 | 0.01229 | 2.30 | 1.05557 | 232.160 |
1.26 | 1.356 | 100 | 1.31 | 130.80 | 0.43 | 0.1840 | 18.40 | 0.07892 | 7.89 | 0.03385 | 3.38 | 1.35994 | 342.042 |
1.356 | 1.452 | 45 | 1.40 | 63.18 | 0.52 | 0.2756 | 12.40 | 0.14465 | 6.51 | 0.07593 | 3.42 | 1.66431 | 345.264 |
1.452 | 1.548 | 99 | 1.50 | 148.50 | 0.62 | 0.3856 | 38.17 | 0.23940 | 23.70 | 0.14865 | 14.72 | 1.96868 | 1487.092 |
1.548 | 1.644 | 39 | 1.60 | 62.24 | 0.72 | 0.5140 | 20.05 | 0.36850 | 14.37 | 0.26419 | 10.30 | 2.27305 | 1041.126 |
1.644 | 1.74 | 9 | 1.69 | 15.23 | 0.81 | 0.6609 | 5.95 | 0.53723 | 4.84 | 0.43673 | 3.93 | 2.57743 | 397.179 |
1.74 | 1.836 | 5 | 1.79 | 8.94 | 0.91 | 0.8262 | 4.13 | 0.75092 | 3.75 | 0.68253 | 3.41 | 2.88180 | 344.844 |
1.836 | 1.932 | 0 | 1.88 | 0.00 | 1.00 | 1.0099 | 0.00 | 1.01487 | 0.00 | 1.01987 | 0.00 | 3.18617 | 0.000 |
1.932 | 2.028 | 3 | 1.98 | 5.94 | 1.10 | 1.2120 | 3.64 | 1.33438 | 4.00 | 1.46906 | 4.41 | 3.49054 | 445.339 |
Ukupno | 2690 | 2364.7 | 267.50 | 26.80 | 67.38 | 6808.257 |
\[ s^2 = \frac{\sum f_i (x_i - \bar{x})^2}{n - 1} = \frac{267.50}{2690 - 1} = 0.0995 \]
\[ s = \sqrt{s^2} = \sqrt{0.0995} = 0.3154 \]
Standardna devijacija od 0,3154 odražava umjerenu raspršenost podataka oko prosjeka.
\[ \mu_3 = \frac{\sum f_i (x_i - \bar{x})^3}{n - 1} = \frac{26.8}{2690 - 1} = 0.00997 \]
\[ \mu_4 = \frac{\sum f_i (x_i - \bar{x})^4}{n - 1} = \frac{67.38}{2690 - 1} = 0.0251 \]
\[ \alpha_3 = \frac{\mu_3}{\sigma^3} = \frac{0.00997}{0.3154^3} = 0.32 \]
Vrijednost asimetrije od 0,32 ukazuje na blago izraženu desnostranu asimetriju, odnosno da je distribucija malo izdužena na desnoj strani.
\[ \alpha_4 = \frac{\mu_4}{\sigma^4} = \frac{0.0251}{0.3154^4} = 2.53 \]
Vrijednost izračunate mjere asimetrije je između 1,8 i 3, pa možemo zaključiti da je distribucija vrhom spljoštenija od normalne. Na isti zaključak upućuje i prekomjerna kurtoza.
\[ \text{Prekomjerna kurtoza} = \alpha_4 - 3 = 2.53 - 3 = -0.47 \]
Za konačnu procjenu prekomjerne kurtoze primijenili smo izračun s korekcijskim faktorom kako bismo prilagodili rezultat radu s uzorkom. Izraz za izračun je prilagođen grupiranim podacima, pa umjesto \(\sum \left( \frac{x_i - \bar{x}}{s} \right)^4\) imamo \(\sum (f_i \left( \frac{x_i - \bar{x}}{s} \right)^4)\).
\[ \text{Prekomjerna kurtoza} = \frac{n(n + 1)}{(n - 1)(n - 2)(n - 3)} \cdot \sum ( f_i \left( \frac{x_i - \bar{x}}{s} \right)^4) - \frac{3(n - 1)^2}{(n - 2)(n - 3)} \]
\[ \text{Prekomjerna kurtoza} = \frac{2690(2690 + 1)}{(2690 - 1)(2690 - 2)(2690 - 3)} \cdot 6808.257 - \frac{3(2690 - 1)^2}{(2690 - 2)(2690 - 3)} = 0.00037 \cdot 6808.257 - 3.0056 = -0.4699 \]
Oba rezultata izračuna prekomjerne kurtoze potvrđuju vrhom blago zaobljeniju distribuciju od normalne, s vrijednostima prekomjerne kurtoze blizu -0.47. U usporedbi s prethodnim primjerom u kojem je u uzorak uzeto samo 10 opažanja i utvrđena su velika odstupanja u izračunima prekomjerne kurtoze prema različitim pristupima, u ovom slučaju ta je razlika bitno manja.
Nastavimo s opisom distribucija preostalih odabranih varijabli iz ovog skupa podataka.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 18. Histogram veličina dijamanata
Veličina dijamanata u karatu pokazuje prosjek od 0,8701, što znači da je prosječni dijamant u ovom skupu podataka nešto manji od jednog karata. Medijan iznosi 0,90 karata, što sugerira da polovica dijamanata teži manje od 0,90 karata, a druga polovica više. Mod, ili najčešća vrijednost, je 1,01 karata, što ukazuje da su jednokaratni dijamanti najčešći. Standardna devijacija od 0,3222 odražava umjerenu varijabilnost u veličini karata, a koeficijent varijacije (0,3703) pokazuje razumnu relativnu varijabilnost. Izračunata veličina mjere asimetrije od 0,3199, što sugerira da je distribucija samo malo iskrivljena udesno, s nekoliko većih dijamanata koji povlače distribuciju. Dakle, distribucija veličina dijamanata je blago desnostrano asimetrična. Histogram to potvrđuje koncentracijom dijamanata oko 1 karata i izduženim krakom s većim veličinama karata. Izračunata mjera zaobljenosti od -0,4889 ukazuje na to da je distribucija vrhom nešto spljoštenija od normalne distribucije, što potvrđuje i ravnomjernije širenje podataka u rasponu.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 19. Histogram cijena dijamanata
Cijene dijamanata u ovom skupu podataka pokazuju značajnu varijabilnost, sa prosjekom od 3971.47 dolara i medijanom od 3604 dolara. Mod je mnogo niži i najčešće su kupovani dijamanti koji stoje 1037 dolara. Visoka standardna devijacija od 2420,23 dolara odražava značajne varijacije u cijenama dijamanata. Koeficijent varijacije (0,6094 ili 60,94%) dodatno potvrđuje umjerenu do visoku relativnu varijabilnost cijena. Mjera asimetrije od 0,6857 sugerira desnostrano asimetričnu distribuciju, što znači da, iako je većina dijamanata umjerene cijene, postoji nekoliko skupih dijamanata koji povlače distribuciju udesno. Ova asimetrija vidljiva je u histogramu, gdje se visina stupaca smanjuje kako cijene rastu. Mjera zaobljenosti je -0,5057, što ukazuje da je distribucija vrhom spljoštenija od normalne distribucije.
Protumačite sljedeći grafički prikaz u kombinaciji s izračunatim pokazateljima.
Slika 20. Histogram dubina dijamanata
Dubina dijamanata, mjerena kao postotak ukupne visine u odnosu na širinu, pokazuje manju varijabilnost od ostalih varijabli. Prosječna dubina je 61,71%, a medijan i mod su blizu (61,90%, odnosno 62,2%), što sugerira relativno simetričnu raspodjelu vrijednosti dubine. Niska standardna devijacija od 1,21 ukazuje na to da se dubine ne razlikuju mnogo u skupu podataka, a koeficijent varijacije (0,0196) podržava ovu nisku relativnu varijabilnost. No, distribucija je negativno ili lijevostrano asimetrična (-0,6624), što se odražava u lijevom kraku distribucije na histogramu. Kurtoza je 0,3234, što ukazuje na to da je distribucija dubine dijamanata vrhom nešto izduženija od normalne distribucije.
S obzirom da su postpci za kreiranje jednostavnih grafikona prikazani u ranijim štivima, ovdje će se preskočiti.
Za izračun mjera asimetrije i zaobljenosti u JASPu, koristi se sekcija ‘Distribution’ koja je dio izbornika/sekcije ‘Statistics’ u sklopu ‘Descriptive statistics’. Potrebno je označiti (kliknuti na prazan kvadratić da se pojavi plava pozadina s bijelom kvačicom) one mjere koje želite izračunati.
Ovo je uvid u podatkovni okvir ‘letovi’. S obzirom da se radi o puno opažanja, moguće je da će za učitavanje biti potrebna koja sekunda više (u odnosu na ostale podatkovne okvire s kojima smo do sad radili).
Za izračun pokazatelja deskriptivne statistike, odaberite ‘Descriptives’, odaberite varijable, a potom u izbonriku ‘Statistics’ označite sve pokazatelje koje želite izračunati.
Pokazatelji deskriptivne statistike za varijable iz podatkovnog okvira ‘Nekretnine’.
Pokazatelji deskriptivne statistike za varijable iz podatkovnog okvira ‘Dijamanti’.
Prvo ćemo učitati sve podatkovne skupove, pa pogledati kako podaci izgledaju koristeći head()
.
> library(dbplyr)
> library(nycflights13)
> letovi <- flights
> head(letovi, 10)
## # A tibble: 10 × 19
## year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time
## <int> <int> <int> <int> <int> <dbl> <int> <int>
## 1 2013 1 1 517 515 2 830 819
## 2 2013 1 1 533 529 4 850 830
## 3 2013 1 1 542 540 2 923 850
## 4 2013 1 1 544 545 -1 1004 1022
## 5 2013 1 1 554 600 -6 812 837
## 6 2013 1 1 554 558 -4 740 728
## 7 2013 1 1 555 600 -5 913 854
## 8 2013 1 1 557 600 -3 709 723
## 9 2013 1 1 557 600 -3 838 846
## 10 2013 1 1 558 600 -2 753 745
## # ℹ 11 more variables: arr_delay <dbl>, carrier <chr>, flight <int>,
## # tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>,
## # hour <dbl>, minute <dbl>, time_hour <dttm>
> Diamonds <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Diamonds.txt")
> head(Diamonds, 10)
## Carat.Size Color Clarity Depth Table Cut Report Price Log.Price
## 1 0.30 E VVS1 60.0 59 Excellent GIA 1000 6.907755
## 2 0.44 E VS2 61.9 58 Excellent GIA 1000 6.907755
## 3 0.31 E VVS1 61.3 58 Excellent GIA 1000 6.907755
## 4 0.66 K SI1 62.8 57 Excellent GIA 1000 6.907755
## 5 0.47 H VS2 59.1 64 Very Good GIA 1000 6.907755
## 6 0.40 G VS1 62.0 59 Excellent GIA 1000 6.907755
## 7 0.36 D VS2 61.3 57 Excellent GIA 1000 6.907755
## 8 0.52 H SI2 61.7 61 Very Good GIA 1000 6.907755
## 9 0.53 D SI2 59.4 59 Very Good GIA 1001 6.908755
## 10 0.43 F VS2 61.5 60 Excellent GIA 1001 6.908755
## Table.Depth Table.Depth.1 Test
## 1 -1.0 0.9833333 0
## 2 -3.9 0.9369951 1
## 3 -3.3 0.9461664 0
## 4 -5.8 0.9076433 2
## 5 4.9 1.0829103 2
## 6 -3.0 0.9516129 2
## 7 -4.3 0.9298532 0
## 8 -0.7 0.9886548 0
## 9 -0.4 0.9932660 0
## 10 -1.5 0.9756098 2
> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 10)
## Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1 132500 0.09 0 42 50000 0 0
## 2 181115 0.92 0 0 22300 0 0
## 3 109000 0.19 0 133 7300 0 0
## 4 155000 0.41 0 13 18700 0 0
## 5 86060 0.11 0 0 15000 1 1
## 6 120000 0.68 0 31 14000 0 0
## 7 153000 0.40 0 33 23300 0 0
## 8 170000 1.21 0 23 14600 0 0
## 9 90000 0.83 0 36 22200 0 0
## 10 122900 1.94 0 4 21200 0 0
## Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1 3 4 2 906 35 2 1
## 2 2 3 2 1953 51 3 0
## 3 2 3 3 1944 51 4 1
## 4 2 2 2 1944 51 3 1
## 5 2 2 3 840 51 2 0
## 6 2 2 2 1152 22 4 1
## 7 4 3 2 2752 51 4 1
## 8 4 2 2 1662 35 4 1
## 9 3 4 2 1632 51 3 0
## 10 2 2 1 1416 44 3 0
## Bathrooms Rooms
## 1 1.0 5
## 2 2.5 6
## 3 1.0 8
## 4 1.5 5
## 5 1.0 3
## 6 1.0 8
## 7 1.5 8
## 8 1.5 9
## 9 1.5 8
## 10 1.5 6
U nastavku slijedi izračun pokazatelja deskriptivne statistike i to koristeći dva paketa: summarytools
i psych
.
> library(psych)
> deskr_letovi <- describe(letovi, quant = c(0.25, 0.75))
> deskr_letovi
## vars n mean sd median trimmed mad min max
## year 1 336776 2013.00 0.00 2013 2013.00 0.00 2013 2013
## month 2 336776 6.55 3.41 7 6.56 4.45 1 12
## day 3 336776 15.71 8.77 16 15.70 11.86 1 31
## dep_time 4 328521 1349.11 488.28 1401 1346.82 634.55 1 2400
## sched_dep_time 5 336776 1344.25 467.34 1359 1341.60 613.80 106 2359
## dep_delay 6 328521 12.64 40.21 -2 3.32 5.93 -43 1301
## arr_time 7 328063 1502.05 533.26 1535 1526.42 619.73 1 2400
## sched_arr_time 8 336776 1536.38 497.46 1556 1550.67 618.24 1 2359
## arr_delay 9 327346 6.90 44.63 -5 -1.03 20.76 -86 1272
## carrier* 10 336776 7.14 4.14 6 7.00 5.93 1 16
## flight 11 336776 1971.92 1632.47 1496 1830.51 1608.62 1 8500
## tailnum* 12 334264 1814.32 1199.75 1798 1778.21 1587.86 1 4043
## origin* 13 336776 1.95 0.82 2 1.94 1.48 1 3
## dest* 14 336776 50.03 28.12 50 49.56 32.62 1 105
## air_time 15 327346 150.69 93.69 129 140.03 75.61 20 695
## distance 16 336776 1039.91 733.23 872 955.27 569.32 17 4983
## hour 17 336776 13.18 4.66 13 13.15 5.93 1 23
## minute 18 336776 26.23 19.30 29 25.64 23.72 0 59
## time_hour 19 336776 NaN NA NA NaN NA Inf -Inf
## range skew kurtosis se Q0.25 Q0.75
## year 0 NaN NaN 0.00 2013 2013
## month 11 -0.01 -1.19 0.01 4 10
## day 30 0.01 -1.19 0.02 8 23
## dep_time 2399 -0.02 -1.09 0.85 907 1744
## sched_dep_time 2253 -0.01 -1.20 0.81 906 1729
## dep_delay 1344 4.80 43.95 0.07 -5 11
## arr_time 2399 -0.47 -0.19 0.93 1104 1940
## sched_arr_time 2358 -0.35 -0.38 0.86 1124 1945
## arr_delay 1358 3.72 29.23 0.08 -17 14
## carrier* 15 0.36 -1.21 0.01 4 12
## flight 8499 0.66 -0.85 2.81 553 3465
## tailnum* 4042 0.17 -1.24 2.08 731 2873
## origin* 2 0.09 -1.50 0.00 1 3
## dest* 104 0.13 -1.08 0.05 27 72
## air_time 675 1.07 0.86 0.16 82 192
## distance 4966 1.13 1.19 1.26 502 1389
## hour 22 0.00 -1.21 0.01 9 17
## minute 59 0.09 -1.24 0.03 8 44
## time_hour -Inf NA NA NA NA NA
> library(summarytools)
> descr(letovi, stats = "all", style = "simple")
## Non-numerical variable(s) ignored: carrier, tailnum, origin, dest, time_hour
## Descriptive Statistics
## letovi
## N: 336776
##
## air_time arr_delay arr_time day dep_delay dep_time
## ----------------- ----------- ----------- ----------- ----------- ----------- -----------
## Mean 150.69 6.90 1502.05 15.71 12.64 1349.11
## Std.Dev 93.69 44.63 533.26 8.77 40.21 488.28
## Min 20.00 -86.00 1.00 1.00 -43.00 1.00
## Q1 82.00 -17.00 1104.00 8.00 -5.00 907.00
## Median 129.00 -5.00 1535.00 16.00 -2.00 1401.00
## Q3 192.00 14.00 1940.00 23.00 11.00 1744.00
## Max 695.00 1272.00 2400.00 31.00 1301.00 2400.00
## MAD 75.61 20.76 619.73 11.86 5.93 634.55
## IQR 110.00 31.00 836.00 15.00 16.00 837.00
## CV 0.62 6.47 0.36 0.56 3.18 0.36
## Skewness 1.07 3.72 -0.47 0.01 4.80 -0.02
## SE.Skewness 0.00 0.00 0.00 0.00 0.00 0.00
## Kurtosis 0.86 29.23 -0.19 -1.19 43.95 -1.09
## N.Valid 327346.00 327346.00 328063.00 336776.00 328521.00 328521.00
## Pct.Valid 97.20 97.20 97.41 100.00 97.55 97.55
##
## Table: Table continues below
##
##
##
## distance flight hour minute month sched_arr_time
## ----------------- ----------- ----------- ----------- ----------- ----------- ----------------
## Mean 1039.91 1971.92 13.18 26.23 6.55 1536.38
## Std.Dev 733.23 1632.47 4.66 19.30 3.41 497.46
## Min 17.00 1.00 1.00 0.00 1.00 1.00
## Q1 502.00 553.00 9.00 8.00 4.00 1124.00
## Median 872.00 1496.00 13.00 29.00 7.00 1556.00
## Q3 1389.00 3465.00 17.00 44.00 10.00 1945.00
## Max 4983.00 8500.00 23.00 59.00 12.00 2359.00
## MAD 569.32 1608.62 5.93 23.72 4.45 618.24
## IQR 887.00 2912.00 8.00 36.00 6.00 821.00
## CV 0.71 0.83 0.35 0.74 0.52 0.32
## Skewness 1.13 0.66 0.00 0.09 -0.01 -0.35
## SE.Skewness 0.00 0.00 0.00 0.00 0.00 0.00
## Kurtosis 1.19 -0.85 -1.21 -1.24 -1.19 -0.38
## N.Valid 336776.00 336776.00 336776.00 336776.00 336776.00 336776.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## sched_dep_time year
## ----------------- ---------------- -----------
## Mean 1344.25 2013.00
## Std.Dev 467.34 0.00
## Min 106.00 2013.00
## Q1 906.00 2013.00
## Median 1359.00 2013.00
## Q3 1729.00 2013.00
## Max 2359.00 2013.00
## MAD 613.80 0.00
## IQR 823.00 0.00
## CV 0.35 0.00
## Skewness -0.01 NaN
## SE.Skewness 0.00 0.00
## Kurtosis -1.20 NaN
## N.Valid 336776.00 336776.00
## Pct.Valid 100.00 100.00
> deskr_nekretnine <- describe(nekretnine, quant = c(0.25, 0.75))
> deskr_nekretnine
## vars n mean sd median trimmed mad min
## Price 1 1728 211966.71 98441.39 189900.00 200230.92 78726.06 5000
## Lot.Size 2 1728 0.50 0.70 0.37 0.39 0.28 0
## Waterfront 3 1728 0.01 0.09 0.00 0.00 0.00 0
## Age 4 1728 27.92 29.21 19.00 22.18 14.83 0
## Land.Value 5 1728 34557.19 35021.17 25000.00 28350.54 16679.25 200
## New.Construct 6 1728 0.05 0.21 0.00 0.00 0.00 0
## Central.Air 7 1728 0.37 0.48 0.00 0.33 0.00 0
## Fuel.Type 8 1728 2.43 0.70 2.00 2.29 0.00 2
## Heat.Type 9 1728 2.53 0.78 2.00 2.41 0.00 2
## Sewer.Type 10 1728 2.70 0.48 3.00 2.75 0.00 1
## Living.Area 11 1728 1754.98 619.94 1634.50 1706.46 580.44 616
## Pct.College 12 1728 55.57 10.33 57.00 56.93 8.90 20
## Bedrooms 13 1728 3.15 0.82 3.00 3.14 1.48 1
## Fireplaces 14 1728 0.60 0.56 1.00 0.59 0.00 0
## Bathrooms 15 1728 1.90 0.66 2.00 1.88 0.74 0
## Rooms 16 1728 7.04 2.32 7.00 6.95 2.97 2
## max range skew kurtosis se Q0.25 Q0.75
## Price 775000.0 770000.0 1.57 4.17 2368.13 1.45e+05 259000.00
## Lot.Size 12.2 12.2 7.18 78.10 0.02 1.70e-01 0.54
## Waterfront 1.0 1.0 10.58 110.08 0.00 0.00e+00 0.00
## Age 225.0 225.0 2.49 7.38 0.70 1.30e+01 34.00
## Land.Value 412600.0 412400.0 3.10 16.13 842.48 1.51e+04 40200.00
## New.Construct 1.0 1.0 4.28 16.36 0.01 0.00e+00 0.00
## Central.Air 1.0 1.0 0.55 -1.70 0.01 0.00e+00 1.00
## Fuel.Type 4.0 2.0 1.32 0.25 0.02 2.00e+00 3.00
## Heat.Type 4.0 2.0 1.04 -0.55 0.02 2.00e+00 3.00
## Sewer.Type 3.0 2.0 -1.04 -0.43 0.01 2.00e+00 3.00
## Living.Area 5228.0 4612.0 0.90 1.26 14.91 1.30e+03 2137.75
## Pct.College 82.0 62.0 -1.04 0.60 0.25 5.20e+01 64.00
## Bedrooms 7.0 6.0 0.40 0.65 0.02 3.00e+00 4.00
## Fireplaces 4.0 4.0 0.40 0.72 0.01 0.00e+00 1.00
## Bathrooms 4.5 4.5 0.32 -0.45 0.02 1.50e+00 2.50
## Rooms 12.0 10.0 0.28 -0.60 0.06 5.00e+00 8.25
> descr(nekretnine, stats = "all", style = "simple")
## Descriptive Statistics
## nekretnine
## N: 1728
##
## Age Bathrooms Bedrooms Central.Air Fireplaces Fuel.Type
## ----------------- --------- ----------- ---------- ------------- ------------ -----------
## Mean 27.92 1.90 3.15 0.37 0.60 2.43
## Std.Dev 29.21 0.66 0.82 0.48 0.56 0.70
## Min 0.00 0.00 1.00 0.00 0.00 2.00
## Q1 13.00 1.50 3.00 0.00 0.00 2.00
## Median 19.00 2.00 3.00 0.00 1.00 2.00
## Q3 34.00 2.50 4.00 1.00 1.00 3.00
## Max 225.00 4.50 7.00 1.00 4.00 4.00
## MAD 14.83 0.74 1.48 0.00 0.00 0.00
## IQR 21.00 1.00 1.00 1.00 1.00 1.00
## CV 1.05 0.35 0.26 1.31 0.92 0.29
## Skewness 2.49 0.32 0.40 0.55 0.40 1.32
## SE.Skewness 0.06 0.06 0.06 0.06 0.06 0.06
## Kurtosis 7.38 -0.45 0.65 -1.70 0.72 0.25
## N.Valid 1728.00 1728.00 1728.00 1728.00 1728.00 1728.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## Heat.Type Land.Value Living.Area Lot.Size New.Construct Pct.College
## ----------------- ----------- ------------ ------------- ---------- --------------- -------------
## Mean 2.53 34557.19 1754.98 0.50 0.05 55.57
## Std.Dev 0.78 35021.17 619.94 0.70 0.21 10.33
## Min 2.00 200.00 616.00 0.00 0.00 20.00
## Q1 2.00 15100.00 1300.00 0.17 0.00 52.00
## Median 2.00 25000.00 1634.50 0.37 0.00 57.00
## Q3 3.00 40200.00 2138.50 0.54 0.00 64.00
## Max 4.00 412600.00 5228.00 12.20 1.00 82.00
## MAD 0.00 16679.25 580.44 0.28 0.00 8.90
## IQR 1.00 25100.00 837.75 0.37 0.00 12.00
## CV 0.31 1.01 0.35 1.40 4.51 0.19
## Skewness 1.04 3.10 0.90 7.18 4.28 -1.04
## SE.Skewness 0.06 0.06 0.06 0.06 0.06 0.06
## Kurtosis -0.55 16.13 1.26 78.10 16.36 0.60
## N.Valid 1728.00 1728.00 1728.00 1728.00 1728.00 1728.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## Price Rooms Sewer.Type Waterfront
## ----------------- ----------- --------- ------------ ------------
## Mean 211966.71 7.04 2.70 0.01
## Std.Dev 98441.39 2.32 0.48 0.09
## Min 5000.00 2.00 1.00 0.00
## Q1 145000.00 5.00 2.00 0.00
## Median 189900.00 7.00 3.00 0.00
## Q3 259000.00 8.50 3.00 0.00
## Max 775000.00 12.00 3.00 1.00
## MAD 78726.06 2.97 0.00 0.00
## IQR 114000.00 3.25 1.00 0.00
## CV 0.46 0.33 0.18 10.69
## Skewness 1.57 0.28 -1.04 10.58
## SE.Skewness 0.06 0.06 0.06 0.06
## Kurtosis 4.17 -0.60 -0.43 110.08
## N.Valid 1728.00 1728.00 1728.00 1728.00
## Pct.Valid 100.00 100.00 100.00 100.00
> deskr_diamonds <- describe(Diamonds, quant = c(0.25, 0.75))
> deskr_diamonds
## vars n mean sd median trimmed mad min
## Carat.Size 1 2690 0.87 0.32 0.90 0.86 0.31 0.30
## Color* 2 2690 4.00 2.00 4.00 3.94 2.97 1.00
## Clarity* 3 2690 3.85 1.75 4.00 3.76 1.48 1.00
## Depth 4 2690 61.71 1.21 61.90 61.79 1.04 56.40
## Table 5 2690 57.86 1.93 58.00 57.78 1.48 53.00
## Cut* 6 2690 2.39 1.41 2.00 2.36 1.48 1.00
## Report* 7 2690 1.99 0.11 2.00 2.00 0.00 1.00
## Price 8 2690 3971.47 2420.23 3604.00 3724.70 2686.47 1000.00
## Log.Price 9 2690 8.08 0.66 8.19 8.09 0.76 6.91
## Table.Depth 10 2690 -3.85 2.66 -4.20 -4.03 2.67 -10.80
## Table.Depth.1 11 2690 0.94 0.04 0.93 0.94 0.04 0.83
## Test 12 2690 0.60 0.80 0.00 0.50 0.00 0.00
## max range skew kurtosis se Q0.25 Q0.75
## Carat.Size 2.02 1.72 0.32 -0.49 0.01 0.60 1.06
## Color* 8.00 7.00 0.26 -0.98 0.04 2.00 6.00
## Clarity* 7.00 6.00 0.29 -1.01 0.03 2.00 5.00
## Depth 64.30 7.90 -0.66 0.32 0.02 61.00 62.50
## Table 65.00 12.00 0.46 0.34 0.04 56.00 59.00
## Cut* 4.00 3.00 0.15 -1.86 0.03 1.00 4.00
## Report* 2.00 1.00 -9.00 79.01 0.00 2.00 2.00
## Price 10000.00 9000.00 0.68 -0.51 46.66 1801.00 5544.00
## Log.Price 9.21 2.30 -0.16 -1.14 0.01 7.50 8.62
## Table.Depth 7.60 18.40 0.66 0.47 0.05 -5.80 -2.20
## Table.Depth.1 1.13 0.30 0.74 0.69 0.00 0.91 0.96
## Test 2.00 2.00 0.84 -0.92 0.02 0.00 1.00
> descr(Diamonds, stats = "all", style = "simple")
## Non-numerical variable(s) ignored: Color, Clarity, Cut, Report
## Descriptive Statistics
## Diamonds
## N: 2690
##
## Carat.Size Depth Log.Price Price Table Table.Depth
## ----------------- ------------ --------- ----------- ---------- --------- -------------
## Mean 0.87 61.71 8.08 3971.47 57.86 -3.85
## Std.Dev 0.32 1.21 0.66 2420.23 1.93 2.66
## Min 0.30 56.40 6.91 1000.00 53.00 -10.80
## Q1 0.60 61.00 7.50 1801.00 56.00 -5.80
## Median 0.90 61.90 8.19 3604.00 58.00 -4.20
## Q3 1.06 62.50 8.62 5544.00 59.00 -2.20
## Max 2.02 64.30 9.21 10000.00 65.00 7.60
## MAD 0.31 1.04 0.76 2686.47 1.48 2.67
## IQR 0.46 1.50 1.12 3743.00 3.00 3.60
## CV 0.37 0.02 0.08 0.61 0.03 -0.69
## Skewness 0.32 -0.66 -0.16 0.68 0.46 0.66
## SE.Skewness 0.05 0.05 0.05 0.05 0.05 0.05
## Kurtosis -0.49 0.32 -1.14 -0.51 0.34 0.47
## N.Valid 2690.00 2690.00 2690.00 2690.00 2690.00 2690.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## Table.Depth.1 Test
## ----------------- --------------- ---------
## Mean 0.94 0.60
## Std.Dev 0.04 0.80
## Min 0.83 0.00
## Q1 0.91 0.00
## Median 0.93 0.00
## Q3 0.96 1.00
## Max 1.13 2.00
## MAD 0.04 0.00
## IQR 0.06 1.00
## CV 0.05 1.33
## Skewness 0.74 0.84
## SE.Skewness 0.05 0.05
## Kurtosis 0.69 -0.92
## N.Valid 2690.00 2690.00
## Pct.Valid 100.00 100.00
Otvorite podatkovni okvir. Obratite pozornost na vrste varijabli.
S obzirom da su u podatkovnom okviru naizmjenično poredane kvantitativne i kvalitativne varijable, izdvajamo one varijable za koje želimo izračunati pokazatelje.
Kopiramo ih i zalijepimo na novi list. S obzirom da se u podacima nalaze nepoznate vrijednosti, označene s `NA˙(Not Available), ako to ne riješimo, nećemo moći izračunati pokazatelje. Odabiremo ‘Find & Select’ u traci izbornika (pojavljuje se s ikonom lupe). Potom će se otvoriti padajući izbornik iz kojeg odabiremo ‘Replace’. Potom će se pojaviti prikaz nalik onom na sljedećoj slici. U polje ‘Find what:’ upišemo NA, a sljedeće polje (‘Replace with:’) ostavimo prazno i kliknemo ‘Replace all’. Na taj način će opažanja koja nedostaju uistinu biti prazne ćelije.
Potom odabiremo ‘Data’, pa ‘Data Analysis’, nakon čega u prozorčiću odabiremo ‘Descriptive statistics’.
Unosimo raspon ćelija u kojima su upisana opažanja promatranih varijabli. Označavamo ‘Labels in first row’ te ‘Summary Statistics’, a potom kliknemo ‘OK’.
Na novom listu se prikazuju rezultati koje je potrebno malo urediti da izgledaju prikladno za korištenje u izvješćima, seminarskim ili drugim radovima.
Kopiramo nazive varijabli i pomičemo ih jedno mjesto udesno, a potom brišemo stupce viška (u kojima se ponavljaju nazivi pokazatelja već zapisani u predstupcu). Malo raširimo stupce radi preglednosti i dobivamo tablicu statističkih pokazatelja.
Sličan postupak ponavljamo za nekretnine. S obzirom da su ovdje sve varijable izražene putem brojeva (bilo da su uistinu kvantitativne varijable ili samo prekodirane kvalitativne varijable), nema potrebe za odabirom i kopiranjem varijabli na drugi list i odmah možemo krenuti s izračunima.
Odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’.
U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summar Statistics’.
Na novom listu dobivamo rezultate, koje uređujemo na isti način kao i u prethodnom primjeru da bismo dobili preglednu tablicu.
Pri otvaranju podatkovnog okvira ‘Diamonds’ uočavamo da se u stupcima naizmjenično nalaze kvalitativne i kvanititativne varijable (kao i kod letova), pa bi izravan unos u ‘Data Analysis’ i ‘Descriptive statistics’ rezultirao upozorenjem da su uneseni nenumerički podaci. Stoga ćemo kvantitativne varijable za koje želimo izračunati pokazatelje odabrati, kopirati i zalijepiti na novi list.
Potom odabiremo ‘Data’, a potom ‘Data Analysis’. Odabiremo ‘Descriptive statistics’.
U sljedećem koraku, unosimo raspon varijabli (tj. ćelija u kojima su opažanja zapisana) te označavamo ‘Labels in First Row’ i ‘Summar Statistics’.
Na novom listu dobivamo rezultate, a tu tablicu možemo dodatno urediti koristeći ranije opisan postupak.
De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
De Veaux, D. (2015). What Makes Diamonds so Expensive? Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=b8671ff3-a2d2-4ea4-a3f2-7c82dac7151f&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.
Hohenwarter, M., & Hohenwarter, M. (2002). GeoGebra. Available on-line at http://www.geogebra.org/cms/en.
Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.
Horton, N.J., & Ben Baumer B. (2015) Better flight experiences with data (airline delays in New York City). Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=a3536a72-1caa-44ae-8172-4975c2ef50d0&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Horton, N. J., Baumer, B. S., & Wickham, H. (2015). Setting the stage for data science: integration of data management skills in introductory and second courses in statistics (nycflights13). https://nhorton.people.amherst.edu/precursors/nycflights13.pdf
Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.
JASP Team (2024). JASP (Version 0.19.3)[Computer software].
Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/
Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf
Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.
Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.
Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.