U ovom tekstu, fokusirat ćemo se na osnovne statističke pojmove i metode analize kvalitativnih podataka, koristeći konkretan primjer na stvarnim podacima. Kroz primjer će se prikazati određivanje vrsta varijabli i razina mjerenja varijabli, a nakon toga ćemo se usmjeriti na prikaze podataka putem grafikona i tablica.
Ovdje ćemo se baviti prikazom podataka o dijamantima. Skup podataka dostupan je putem javne baze podataka ASA (American Statistical Association), a primjer analize kreirao je i Dick De Veaux, koji je tu analizu učinio dostupnu putem navedene baze u Listopadu 2015. godine.
Evo kratkog opisa motivacije za analizu. Zlato je desetljećima standardna dragocjena roba na financijskim terminskim tržištima, ali i dijamanti bi mogli funkcionirati na sličan način. Martin Rapaport, izvršni direktor burze dijamanata, nada se pokretanju terminskog tržišta dijamanata krajem 2016. i početkom 2017. godine (vidi http://www.marketwatch.com/story/forget-gold-diamonds-may-be-the-next-big-thing-in-the-futures-market-2015-08-04?siteid=bigcharts&dist=bigcharts)
Cijene zlata se računaju na relativno jednostavan način. Iako postoje male varijacije u čistoći (neki zlatnici imaju samo 91,7% – 22-karatno zlato, dok su poluge i druge poluge 99,99% čiste – 24 karata), cijene se temelje na jednoj (iako promjenjivoj) teorijskoj cijeni koja se naziva spot cijena.
Ali dijamanti su drugačiji. Sa zlatom, ako kupite polugu 10 puta težu od druge, platit ćete oko 10 puta više. S dijamantima je to kompliciranije. Ne samo da je veličina (karatna težina) važna, nego i četiri C (engl. carat, cut, color clarity): karat, rez, boja i jasnoća.
Napomena: pri analizi ovih podataka, u tablicama i grafikonima koriste se nazivi varijabli dodijeljeni u izvornom skupu podataka, a u tumačenjima prevedene inačice.
Odnos cijene (engl. Price) sa svakim od “C”-ova:
Veliki dijamanti su skuplji (ali ne nužno linearno)
Bezbojni dijamanti su skuplji (D, E i F su bezbojni, zatim G - K)
Jasnoća je također važna (interno besprijekorno)
Rez (idealan, vrlo dobar, dobar, dovoljno dobar, loš)
Ali što je najvažnije? Koji su kompromisi?
Imamo podatke o 2690 dijamanata koje je Lou Valente iz JMP-a prikupio s weba. Želimo dobiti dublje uvide o karakteristikama dijamanata temeljem podataka. Podatke o dijamantima korištene u štivu možete naći na linku ili na e-ucenju. Tablica 1. daje uvid u prvih 20 opažanja.
Tablica 1. Prvih 20 opažanja podatkovnog okvira Diamonds
Veličina | Boja | Jasnoća | Dubina | Tablica | Rez | Izvješće | Cijena | Log.cijena | Tablica.Dubina | Tablica.Dubina.1 | Test |
---|---|---|---|---|---|---|---|---|---|---|---|
0.3 | E | VVS1 | 60 | 59 | Odličan | GIA | 1000 | 6.90775528 | -1 | 0.98333333 | 0 |
0.44 | E | VS2 | 61.9 | 58 | Odličan | GIA | 1000 | 6.90775528 | -3.9 | 0.93699515 | 1 |
0.31 | E | VVS1 | 61.3 | 58 | Odličan | GIA | 1000 | 6.90775528 | -3.3 | 0.94616639 | 0 |
0.66 | K | SI1 | 62.8 | 57 | Odličan | GIA | 1000 | 6.90775528 | -5.8 | 0.90764331 | 2 |
0.47 | H | VS2 | 59.1 | 64 | Vrlo dobro | GIA | 1000 | 6.90775528 | 4.9 | 1.08291032 | 2 |
0.4 | G | VS1 | 62 | 59 | Odličan | GIA | 1000 | 6.90775528 | -3 | 0.9516129 | 2 |
0.36 | D | VS2 | 61.3 | 57 | Odličan | GIA | 1000 | 6.90775528 | -4.3 | 0.92985318 | 0 |
0.52 | H | SI2 | 61.7 | 61 | Vrlo dobro | GIA | 1000 | 6.90775528 | -0.7 | 0.98865478 | 0 |
0.53 | D | SI2 | 59.4 | 59 | Vrlo dobro | GIA | 1001 | 6.90875478 | -0.4 | 0.99326599 | 0 |
0.43 | F | VS2 | 61.5 | 60 | Odličan | GIA | 1001 | 6.90875478 | -1.5 | 0.97560976 | 2 |
0.43 | F | VS2 | 60.4 | 59 | Vrlo dobro | GIA | 1001 | 6.90875478 | -1.4 | 0.97682119 | 0 |
0.43 | F | VS2 | 62 | 58 | Vrlo dobro | GIA | 1001 | 6.90875478 | -4 | 0.93548387 | 1 |
0.3 | E | VVS1 | 59.1 | 62 | Dobar | GIA | 1001 | 6.90875478 | 2.9 | 1.04906937 | 2 |
0.47 | Ja | VS2 | 62.4 | 57 | Odličan | GIA | 1001 | 6.90875478 | -5.4 | 0.91346154 | 0 |
0.41 | E | VS2 | 62.8 | 56 | Odličan | GIA | 1001 | 6.90875478 | -6.8 | 0.89171975 | 0 |
0.44 | D | SI1 | 60.2 | 60 | Odličan | GIA | 1001 | 6.90875478 | -0.2 | 0.99667774 | 0 |
0.36 | F | VVS2 | 60.7 | 59 | Odličan | GIA | 1001 | 6.90875478 | -1.7 | 0.97199341 | 1 |
0.4 | E | VS1 | 62.5 | 62 | Dobar | GIA | 1001 | 6.90875478 | -0.5 | 0.992 | 2 |
0.4 | E | VS1 | 64.3 | 60 | Dobar | GIA | 1001 | 6.90875478 | -4.3 | 0.93312597 | 0 |
0.32 | F | AKO | 61.5 | 57 | Vrlo dobro | GIA | 1002 | 6.90975328 | -4.5 | 0.92682927 | 2 |
Podatkovni okvir je struktura podataka u kojoj svaki stupac predstavlja varijablu, a svaki redak pojedinačno opažanje. Za razliku od statističkih tablica koje predstavljaju prikaz grupiranih podataka ili rezultata obrade podataka, podatkovni okvir omogućava analizu podataka temeljem pojedinačnih opažanja, a prikladan je i kao input/ulaz za daljnju analizu putem softvera ili programskih jezika.
Na početku svake analize, prvo definiramo statistički skup
Pojmovno definiranje statističkog skupa
Statistički skup sastoji se od:
Jedinica opažanja (koga promatramo?):
Varijable (prema kojim karakteristikama ih promatramo?):
Prostorno određenje statističkog skupa
Prostorno određenje odnosi se prvenstveno na geografski aspekt skupa podataka:
Izvor podataka: Odakle dolaze podaci o dijamantima?
Gdje se geografski nalaze jedinice opažanja: Jesu li prikupljeni globalno, ili iz specifičnih tržišta/regija ili zemalja?
Vremensko određenje statističkog skupa
Vremensko određivanje odnosi se na vremenski okvir prikupljanja podataka. Ključni elementi uključuju:
Datum ili period prikupljanja: Kada su podaci prikupljeni? Jesu li svi dijamanti prikupljeni u istom vremenskom periodu ili tijekom različitih godina?
Statistički skup obuhvaća podatke o 2690 dijamanata prikupljenih online s globalnog tržišta tijekom 2014. godine, a promatrane karakteristike uključuju veličinu karata, boju, jasnoću, dubinu, tablicu, rez, izvješće, cijenu, logaritamsku cijenu, omjere tablice i testne kategorije.
Populacija ili uzorak?
Populacija:
Uzorak:
Ako još nije posve jasna razlika, pitamo se…
Ovaj skup podataka:
S obzirom na to da imamo podatke o samo 2690 dijamanata, to neće biti populacija (karakteristike svih dijamanata u 2014. godini), pa zaključujemo da se radi o uzorku. Taj zaključak možemo dodatno potkrijepiti time što nije navedeno da skup podataka pokriva sve dijamante unutar nekih definiranih kriterija (npr. svi certificirani dijamanti ili svi prodani dijamanti u 2014. godini, itd.). Temeljem toga, prilagođavamo svoj opis skupa:
Statistički skup obuhvaća uzorak od 2690 dijamanata prikupljenih online s globalnog tržišta tijekom 2014. godine, a promatrane karakteristike uključuju veličinu karata, boju, jasnoću, dubinu, tablicu, rez, izvješće, cijenu, logaritamsku cijenu, omjere tablice i testne kategorije.
Iščitajte Tablicu 1. Što predstavljaju stupci? Što predstavljaju redovi u ovoj tablici? Kako se može pročitati prvi red?
Tablica daje podatke o pojedinačnim dijamantima, pri čemu svaki redak predstavlja određeno opažanje ili jedan dijamant, a svaki stupac odgovara određenoj karakteristici ili mjeri koja se odnosi na dijamant. Ovako kreirana tablica zove se podatkovni okvir.
Potpitanje: Koje vrste varijabli postoje i koja je njihova razina mjerenja?
Veličina karata
Boja
Jasnoća
Dubina
Tablica
Rez
Izvješće
Cijena
Logaritmirana cijena:
Tablica.dubina i Tablica.dubina.1
Test
Dakle, prije nego počnemo s iščitavanjem i analizom, moramo dobro razumijeti na što se podaci odnose, što je statistički skup, što koja varijabla predstavlja, koje je vrste i na kojoj se razini mjeri. Sad pristupamo iščitavanju prvih nekoliko redaka.
Na primjer, prvi red prikazuje dijamant od 0,3 karata s E bojom, jasnoćom VVS1 i odličnim rezom, certificiranim od strane GIA-e, po cijeni od 1000 dolara. Također uključuje informacije o dubini dijamanta i omjerima tablice, što pomaže u daljnjem opisivanju njegovih fizičkih karakteristika.
Drugi redak opisuje dijamant od 0,44 karata s bojom E, jasnoćom VS2 i odličnim rezom, također certificiranim od strane GIA-e, po istoj cijeni od 1000 dolara. Ovaj dijamant ima dubinu od 61,9 i tablicu od 58, pružajući uvid u njegovu proporciju i estetiku.
Treći redak predstavlja dijamant od 0,31 karata s bojom E, jasnoćom VVS1 i odličnim rezom, certificiranim od GIA-e, po cijeni od 1000 dolara. Dubina ovog dijamanta iznosi 61,3, dok tablica iznosi 58, što ukazuje na njegovu ravnotežu i vizualnu privlačnost.
Četvrti redak prikazuje dijamant od 0,66 karata s bojom K, jasnoćom SI1 i odličnim rezom, certificiranim od strane GIA-e, po cijeni od 1000 dolara. Dubina dijamanta iznosi 62,8, a tablica je 57.
Peti redak opisuje dijamant od 0,47 karata s bojom H, jasnoćom VS2 i vrlo dobrim rezom, certificiranim od GIA-e, također po cijeni od 1000 dolara. Ovaj dijamant ima dubinu od 59,1 i tablicu od 64.
Ovdje ćemo se kratko pozabaviti pojmovima iščitavanje i tumačenje. Iščitavanje statističkih podataka i pokazatelja odnosi se na proces pregledavanja i razumijevanja osnovnih informacija koje podaci pružaju. Na primjer, pri iščitavanju tablice frekvencija boja dijamanata (pokazatelji), možete primijetiti koliko dijamanata pripada svakoj kategoriji boje, kao i ukupnu distribuciju boja u uzorku. Tumačenje statističkih podataka i pokazatelja ide korak dalje i uključuje interpretaciju značenja tih podataka u kontekstu istraživačkog pitanja ili poslovnog problema. Tumačenje podataka zahtijeva razumijevanje odnosa između različitih pokazatelja, prepoznavanje obrazaca, trendova i anomalija, te donošenje zaključaka koji mogu voditi donošenju odluka ili daljnjim istraživanjima. Dakle, dok je iščitavanje pomoćna radnja koju često automatski provodimo dok promatramo podatke, tumačenje podrazumijeva smislen i cjelovit opis koji (u pravilu, jednostavnim riječnikom) obuhvaća izračunati pokazatelj/ parametar, kontekst i glavne zaključke analize. Ovaj opis treba biti takav da bilo tko, čak i netko tko nije vidio postupak analize, može razumjeti o čemu se radi i zašto je određeni zaključak donesen.
Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?
Slika 1. Prikaz dijamanata prema boji
Stupčasti grafikon ilustrira raspodjelu učestalosti dijamanata na temelju njihove boje. Os x predstavlja različite kategorije boja, u rasponu od D (bezbojna) do K (više obojena), dok os y prikazuje broj dijamanata u svakoj kategoriji. Visina svakog stupca odgovara učestalosti dijamanata s tom specifičnom bojom. Iz grafikona je vidljivo da su dijamanti s bojom E najčešći, a slijede ih oni u kategorijama F i G. Nasuprot tome, dijamanti s bojom K su najrjeđi. Ovaj grafikon pruža pregled rasporeda boja dijamanata.
Kako čitati ovaj grafikon?
Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?
Slika 2. Prikaz dijamanata prema kvaliteti reza
Stupčasti grafikon predstavlja raspodjelu učestalosti dijamanata na temelju kvalitete njihovog reza. Os x prikazuje različite kategorije reza, u rasponu od idealnog do dobrog, dok os y označava broj dijamanata koji spadaju u svaku kategoriju reza. Visina svakog stupca odražava učestalost dijamanata s određenim rezom. Iz grafikona je jasno da je najčešći rez Odličan, a slijedi Vrlo dobar. Dijamanti s idealnim i dobrim rezovima rjeđi su u skupu podataka. Ovaj grafikon daje pregled načina na koji se dijamanti raspoređuju prema kvaliteti reza.
Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?
Slika 3. Prikaz dijamanata prema jasnoći
Stupčasti grafikon ilustrira raspodjelu učestalosti dijamanata na temelju njihove jasnoće. Os x navodi različite stupnjeve jasnoće (modalitete varijable), od IF (interno besprijekorno) do SI2 (malo uključeno), dok os y označava broj dijamanata u svakoj kategoriji jasnoće. Visina svakog stupca odgovara broju dijamanata unutar svakog stupnja čistoće. Prema grafikonu, najčešći stupnjevi jasnoće su SI1 i SI2, dok su najrjeđi IF. Ovaj grafikon daje pregled načina na koji su dijamanti raspoređeni s obzirom na svoju jasnoću, s većom koncentracijom u kategorijama SI1 i SI2.
Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?
Slika 4. Prikaz dijamanata prema cijeni
Prikazani grafikon je histogram koji predstavlja varijablu cijena dijamanata u skupu podataka. Os x prikazuje raspon cijena, dok os y predstavlja učestalost ili broj dijamanata koji spadaju u svaki raspon cijena. Svaki stupac odražava koliko je dijamanata cijenjeno unutar intervala prikazanih na osi x.
Iz histograma možemo primijetiti da je većina dijamanata koncentrirana u nižem cjenovnom rangu, s najvećom učestalošću oko 1,000 USD. Kako cijena raste, učestalost dijamanata se smanjuje, pokazujući desnostrano asimetričnu distribuciju (desni krak je izvučen udesno), što znači da su dijamanti s višom cijenom rjeđi. Ovaj histogram pruža jasan vizualni prikaz distribucije cijena dijamanata u skupu podataka.
Kako čitati ovaj grafikon?
*Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?
Slika 5. Prikaz dijamanata prema bojama
Strukturni krug ili torta-dijagram pruža vizualni prikaz distribucije dijamanata po kategorijama boja, označenih od D do K. Svaki segment kolača predstavlja određenu ocjenu boje, a različite boje u grafikonu odgovaraju tim ocjenama. Ovaj grafikon služi kao učinkovit način za brze uvide o strukturi i udjelima dijamanata prema ocjeni boje u skupu podataka.
Legenda na desnoj strani grafikona pomaže identificirati koji segment odgovara svakoj boji dijamanta. Npr: - Segment u zelenoj boji predstavlja dijamante u kategoriji D boja. - Narančasti segment predstavlja dijamante u kategoriji boja E i tako dalje.
Brojevi oko grafikona (0, 20, 40, 60, 80 i 100) sugeriraju postotne intervale, koji daju ideju o udjelima u krugu. Na grafikonu možemo vizualno usporediti koliki dio ukupne količine zauzima svaka skupina boja. Na primjer, čini se da dijamanti u boji G i H (u ružičastoj i zelenoj boji) zauzimaju značajne dijelove kolača, dok dijamanti u kategoriji boja K (u sivoj boji) čine bitno manji dio.
Kako iščitavati ovaj grafikon?
Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?
Slika 6. Prikaz cijena dijamanata za svaku skupinu boje dijamanata
Grafikon je box-plot dijagram (još se naziva i kutijasti dijagram), vizualni alat koji se koristi u analizi podataka, a u ovom slučaju prikazuje raspored cijena dijamanata (os y). Ovdje imamo prikazano više box-plotova, po jedan za svaku boju dijamanta. To znači da je skup podataka podijeljen na podskupove prema kriteriju boje, a potom je za svaku boju kreiran box-plot. Za svaku skupinu boja (npr. svi dijamanti koji su ocijenjeni kao D boja) uzimamo odgovarajuće cijene dijamanata i stvaramo vizualni sažetak. Ovaj se postupak ponavlja za svaku boju, tako da na kraju dobijemo zaseban pravokutnik i repove (krakove ili brkove – u različitoj literaturi naići ćete na različite nazive) za svaku kategoriju boja, koja pokazuje kako su cijene raspoređene unutar tog određenog podskupa dijamanata. Ovaj grafički prikaz usporedno prikazuje raspon i raspored cijena dijamanata s obzirom na boju dijamanata.
Os x dijagrama predstavlja kategorije boja od D do K, dok os y prikazuje cijenu dijamanata u tim kategorijama. Pravokutnici u dijagramu predstavljaju srednjih 50% podataka za svaku grupu boja. To znači da središnja polovica cijena dijamanata za određenu boju spada u ovaj pravokutnik (izuzima se rubnih 25% sa svake strane). Linija unutar pravokutnika predstavlja medijan, što je položajna središnja vrijednost cijena i označava da polovica dijamanata u toj skupini ima cijenu ispod ove vrijednosti, a polovica je iznad nje (ili, preciznije, polovica opažanja ima tu vrijednost ili manju, a druga polovica opažanja ima tu vrijednost ili veću). Linije koje se protežu od pravokutnika, nazivaju se krakovi ili brkovi, a pokazuju raspon cijena koje se nalaze na određenoj udaljenosti od pravokutnika i medijana. Ovi brkovi pomažu nam vidjeti ukupni raspon cijena u skupini boja.
Jednostavnije rečeno, box-plot nam daje ideju o tipičnom rasponu cijena dijamanata unutar svake skupine boja, pokazujući gdje je većina cijena grupirana i kako su raspršene. Također ističe postoje li dijamanti u skupini čija je cijena mnogo viša ili niža od ostalih, koji se nazivaju izdvojenice (ekstremi ili engl. outliers) i prikazani su kao pojedinačne točke iznad ili ispod brkova.
Dakle, opažanja (cijene dijamanata) prvo su podijeljena u podskupove na temelju njihove boje. Zatim su za svaki podskup (kategorija boja) kreirani box-plotovi. To nam omogućuje usporedbu raspodjele cijena u različitim bojama dijamanata na jasan, koncizan način. Čak i ako niste još upoznati s analizom podataka, boxplot pomaže brzo pokazati kako se cijene dijamanata razlikuju između različitih skupina boja bez potrebe za pregledavanjem svake pojedinačne cijene.
Kako čitati ovaj grafikon:
Na primjer, temeljem prvog box-plota možemo iščitati da dijamanti boje D uobičajeno stoje između približno 1000 i 9000 dolara. Središnjih 50% dijamanata (poredanih po cijeni) stoji između otprilike1500 i 4300 dolara. To također znači da, promatrajući najniže cijene, 25% dijamanata ove kategorije stoji manje od 1500 dolara. Promatrajući visoke cijene, rubnih 25% dijamanata ove kategorije stajat će najmanje 4300 dolara. Polovica dijamanata boje D stoji približno 2400 dolara ili manje od toga, a druga polovica stoji približno 2400 dolara ili više od toga. Mogu se uočiti i četiri izdvojenice, odnosno četiri dijamanta s netipično visokim cijenama (iznad 9000 dolara) za ovu kategoriju.
Napomena: Kod grafikona ćemo najčešće iščitavati približne vrijednosti, osobito ako ih nije moguće precizno iščitati. To se tolerira u situacijama u kojima imamo na raspolaganju samo grafikon. Kad sami kreirate grafikon, npr. za potrebe eseja, seminarskih, završnih i diplomskih radova, možete izvršiti i pomoćne izračune za lakše iščitavanje, pa tumačiti precizno.
Iz ovih box-plotova, možemo primijetiti da dijamanti s nižim ocjenama boja (poput J i K) imaju tendenciju imati više medijalne cijene u usporedbi s onima s bojama D i E (više ocjene boja). To bi se moglo dešavati zbog drugih čimbenika koji utječu, kao što su veličina ili jasnoća karata, koje ne uzimamo u obzir pri ovoj specifičnoj podjeli. Osim toga, izražena prisutnost odstupanja u kategorijama D i E sugerira da je nekoliko dijamanata s ovim ocjenama boja znatno skuplje od većine u istoj skupini.
Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?
Slika 7. Prikaz veličina dijamanata za svaku skupinu boje dijamanata
Ovdje imamo prikazano više box-plotova, po jedan za svaku boju dijamanta. To znači da je skup podataka podijeljen na podskupove prema kriteriju boje, a potom je za veličine unutar svake boje kreiran box-plot. Za svaku skupinu boja (npr. svi dijamanti koji su ocijenjeni kao D boja) uzimamo odgovarajuće veličine dijamanata i stvaramo vizualni sažetak. Ovaj se postupak ponavlja za svaku boju, tako da na kraju dobijemo zaseban pravokutnik i brkove za svaku kategoriju boja, koja pokazuje kako su veličine raspoređene unutar tog određenog podskupa dijamanata. Ovaj grafički prikaz usporedno prikazuje raspon i raspored veličina dijamanata s obzirom na boju dijamanata. Svaki box-plot odgovara određenoj kategoriji boja dijamanata, u rasponu od D (bezbojna) do K (više boja) i prikazuje raspodjelu veličina dijamanata unutar svake skupine boja.
Kako čitati ovaj grafikon:
Opažanja:
Sljedeća tablica stvorena je na temelju istog skupa podataka. Koje varijable predstavlja i kako čitamo takvu tablicu?
Tablica 2. Jednostavna statistička tablica s proširenim prikazom frekvencija
Rez | Frekvencije | Postotak | Kumulativne frekvencije manje od |
---|---|---|---|
Idealan | 185 | 6.8774 | 6.8774 |
Odličan | 1276 | 47.4349 | 54.3122 |
Vrlo dobar | 1064 | 39.5539 | 93.8661 |
Dobar | 165 | 6.1338 | 100 |
Ukupno | 2690 | 100.0000 |
Ova tablica je tablica distribucija frekvencija za varijablu Cut, koja opisuje kvalitetu dijamantnog reza (npr. Odličan, Dobar, Idealan, Vrlo dobar). Sljedeći stupci (Frekvencije, Postotak i Kumulativne frekvencije manje od) pružaju dodatne informacije o tome kako su vrijednosti za varijablu Rez raspoređene u skupu podataka. Prva dva stupca u osnovi predstavljaju jednostavnu statističku tablicu (izdvojeni u Tablici 3 radi lakšeg uočavanja razlika), iz koje čitamo varijablu u prvom stupcu i frekvencije u drugom stupcu.
Stupac ‘Frekvencije’ odnosi se na apsolutne frekvencije, odnosno prebrojavanje koliko ima dijemanata u pojedinoj kategoriji reza. U stupcu ‘Postotak’ zapisane su relativne frekvencije, odnosno relativna učestalost svake kategorije rezanja izražena kao postotak ukupnog broja dijamanata. Na taj način utvrđujemo udio dijemanata s pojedinim tipom reza u ukupnom tipu dijamanata. Na primjer, dijamanti s idealnim rezom čine \(\frac{185}{2690} \cdot 100 = 6.8774 \%\) dvih promatranih dijamanata. Ili, na primjer, 47,43% svih dijamanata kategorizirano je kao odličan rez (dobiveno dijeljenjem 1276 s 2690 i pomnoženo sa 100), dok je 6,13% kategorizirano kao dobar rez (dobiveno dijeljenjem 165 s 2690 i pomnoženo sa 100). Ovi postoci omogućuju usporedbu koliko je svaka kvaliteta reza zastupljena u skupu podataka.
Kumulativne frekvencije manje od predstavljaju kumulativni postotak dijamanata dok se krećemo prema dolje u kategorijama. Prikazuje tekući ukupni postotak dijamanata koji spadaju u određenu kategoriju rezanja ili prethodne kategorije. Na primjer, nakon što ste prebrojali dijamante s idealnim i odličnim rezom, prebrojali ste 54,31% ukupnih dijamanata u skupu podataka. Kada uključite dijamante s vrlo dobrim rezom, prebrojali ste 93.87%. Dakle, 93.87% dijamanata imat će barem vrlo dobar rez.
Tablica 3. Jednostavna statistička tablica
Rez | Frekvencije |
---|---|
Idealan | 185 |
Odličan | 1276 |
Vrlo dobar | 1064 |
Dobar | 165 |
Ukupno | 2690 |
Rez (varijabla) je kvalitativna varijabla koja se analizira, a odnosi se na kvalitetu reza dijamanta. Vrijednosti ili kategorije koje ova varijabla poprima - zovemo ih modaliteti - su: Odličan, Dobar, Idealan i Vrlo dobar. Ove kategorije opisuju različite razine kvalitete dijamantnog reza, tako da je to kvalitativna varijabla ranga.
Drugi stupac prikazuje broj dijamanata koji pripadaju svakoj kategoriji kvalitete rezanja. Na primjer, 1276 dijamanata ima odličan rez, 165 dijamanata ima dobar rez i tako dalje. Ukupan broj dijamanata u svim kategorijama u ovom skupu podataka je n = 2690.
Kako čitati tablicu
Sljedeća tablica stvorena je na temelju istog skupa podataka. Koje varijable predstavlja i kako čitamo takvu tablicu?
Tablica 4. Dijamanti prema boji i rezu
Boja | Odličan | Vrlo dobar | Dobar | Idealan | Ukupno |
---|---|---|---|---|---|
D | 139 | 106 | 16 | 16 | 277 |
E | 227 | 209 | 29 | 39 | 504 |
F | 213 | 164 | 23 | 31 | 431 |
G | 209 | 130 | 22 | 35 | 396 |
H | 192 | 154 | 23 | 25 | 394 |
Ja | 142 | 124 | 23 | 27 | 316 |
J | 102 | 121 | 21 | 9 | 253 |
K | 52 | 56 | 8 | 3 | 119 |
Ukupno | 1276 | 1064 | 165 | 185 | 2690 |
Navedena tablica poznata je kao tablica kontingencije ili skupna tablica. Organizira i prikazuje podatke u matričnom formatu, omogućujući usporedbu dviju kvalitativnih varijabli - u ovom slučaju dijamantne boje (redovi) i kvalitete reza (stupci). Tablica raščlanjuje raspored dijamanata na temelju njihove boje i odgovarajuće kvalitete reza. Stupac i redak Ukupno sažimaju podatke za svaku kategoriju boja i reza.
Na primjer, u prvom retku, koji odgovara boji D nalazi se 139 dijamanata s Odličnim rezom, 106 s Vrlo dobrim rezom, 16 s Dobrim rezom i 16 dijamanata s Idealnim rezom. To ukupno iznosi 277 dijamanata u kategoriji boje D.
Slično tome, za boju E postoji 227 dijamanata s Odličnim rezom, 209 dijamanata s Vrlo dobrim rezom, 29 dijamanata s Dobrim rezom i 39 dijamanata s Idealnim rezom, ukupno 504 dijamanata u kategoriji E boja.
Gledajući boju K, koja predstavlja dijamante s više boje (žućkasta nijansa), postoje 52 dijamanta ocijenjena kao Odličan, 56 dijamanata kao Vrlo dobar, 8 kao Dobar i samo 3 kao Idealan rez, što čini ukupno 119 dijamanata u skupini boja K.
Ako promatramo dijamante s Odličnim rezom, možemo uočiti da ih je 139 u kategoriji boje D, 227 u kategoriji boje E, 213 u kategoriji boje F, 209 u kategoriji boje G, 192 u kategoriji boje H, 142 u kategoriji boje Ja, 102 u kategoriji boje J i 52 u kategoriji boje K. U skupu promatranih podataka, 1276 ima Odličan rez.
Također, možemo uočiti da u uzorku od 2690 dijamanata, 105 dijamanata ima boju D i vrlo dobar rez. Nadalje, 31 dijamant ima boju F i idealan rez. 192 dijamanta ima boju H i odličan rez. Ovdje vidimo da vrijednosti u ćelijama tablice kontingence prikazuju specifične kombinacije modaliteta varijabli.
Redak Ukupno na dnu zbraja vrijednosti u svim kategorijama boja, pokazujući da skup podataka sadrži 1.276 dijamanata ocijenjenih kao Izvrstan, 1.064 dijamanata kao Vrlo dobar, 165 dijamanata kao Dobar i 185 dijamanata kao Idealan, čime je ukupan broj dijamanata porastao na 2.690.
Na temelju te tablice ispunite tablice kutnog zbroja, vodoravnog zbroja i okomitog zbroja te protumačite zasjenjeno polje. Kako se vrijednosti i njihova tumačenja razlikuju?
Tablica 5. Dijamanti prema boji i rezu - kutno sto
Boja | Odličan | Vrlo dobar | Dobar | Idealan | Ukupno |
---|---|---|---|---|---|
D | 139/2690*100 | ||||
E | |||||
F | |||||
G | |||||
H | |||||
Ja | |||||
J | |||||
K | |||||
Ukupno | 100 |
Tablica 6. Dijamanti prema boji s obzirom na rez - vodoravno sto
Boja | Odličan | Vrlo dobar | Dobar | Idealan | Ukupno |
---|---|---|---|---|---|
D | 139/277*100 | 100 | |||
E | 227/504*100 | 100 | |||
F | 100 | ||||
G | 100 | ||||
H | 100 | ||||
Ja | 100 | ||||
J | 100 | ||||
K | 100 | ||||
Ukupno | 100 |
Tablica 7. Dijamanti prema rezu s obzirom na boju - okomito sto
Boja | Odličan | Vrlo dobar | Dobar | Idealan | Ukupno |
---|---|---|---|---|---|
D | 139/1276*100 | 106/1064*100 | |||
E | |||||
F | |||||
G | |||||
H | |||||
Ja | |||||
J | |||||
K | |||||
Ukupno | 100 | 100 | 100 | 100 | 100 |
U tablici kutno sto, svaki postotak unutar retka pokazuje kako su dijamanti u određenoj kategoriji boja raspoređeni na četiri razine kvalitete rezanja s obzirom na sve podatke. To se izražava kao postotak ukupnih dijamanata za svaku određenu boju i kategoriju reza.
U tablici okomito sto, postoci u svakom stupcu predstavljaju kako su dijamanti s određenom kvalitetom reza raspoređeni prema različitim kategorijama boja. Postoci se izračunavaju na temelju ukupnog broja dijamanata za svaku kategoriju rezanja (nazivnik). Ovi postoci pomažu nam razumjeti kako su dijamanti unutar pojedine kategorije reza raspoređeni po kategorijama boja.
Tablica vodoravno sto prikazuje postotnu raspodjelu dijamanata unutar svake kategorije boja prema različitim kvalitetama reza. Ti se postoci izračunavaju tako da se uzme broj dijamanata u svakoj kategoriji rezanja za određenu boju i podijeli s ukupnim brojem dijamanata u toj skupini boja. Ti postoci nam govore kako su dijamanti unutar pojedine kategorije boje raspoređeni po kategorijama reza.
U tablici kutno-100, osjenčano polje za dijamante dobrog reza u skupini boja E iznosi 1,08%. To znači da dijamanti s dobrim rezom i E bojom predstavljaju 1,08% ukupnog broja dijamanata u cijelom skupu podataka (od 2690 dijamanata). Drugim riječima, to nam govori da 1.08% svih dijamanata u skupu podataka E boje i imaju dobar rez. Ova vrijednost odražava udio ove specifične kombinacije (E boja i Dobar rez) u cijelom uzorku dijamanta.
U tablici vodoravno sto, osjenčano polje za dijamante dobrog reza u skupini boja E pokazuje da je 5,75% svih dijamanata u skupini boja E ocijenjeno kao dobro. Ovaj postotak izračunava se dijeljenjem broja dijamanata s dobrim rezom (29) s ukupnim brojem dijamanata u E-boji (504) i množenjem sa sto, što daje 5,75%. Dakle, od svih dijamanata u boji E, 5.75% ima dobar rez. Također, ovaj postotak sugerira da ovo nije dominantna kvaliteta reza za dijamante u ovoj skupini boja.
U tablici okomito sto, osjenčano polje za dijamante dobrog reza u skupini boja E pokazuje da je 17,58% svih dijamanata s dobrim rezom u skupini boja E. Taj se postotak izračunava dijeljenjem broja dijamanata u E-boji s dobrim rezom (29) s ukupnim brojem dijamanata s dobrim rezom (165) i množenjem sa sto, što daje 17,58%. To znači da među svim dijamantima s dobrim rezom, 17,58% čine dijamanti iz skupine boja E.
Razlika u tumačenju zasjenjenih polja:
Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koje varijable predstavlja i kako čitamo takav grafikon?
Slika 8. Prikaz dijamanata prema boji i rezu
Ovaj je grafikon razdijeljeni stupčasti grafikon koji prikazuje raspodjelu dijamanata u dvije varijable: Boja i Rez. Stupci predstavljaju različite kategorije boja dijamanta (u rasponu od D do K), dok segmenti unutar svake trake odgovaraju različitim kvalitetama reza.
Os x prikazuje različite kategorije boja dijamanata, počevši od D i napredujući do K. Os y predstavlja broj dijamanata u svakoj grupi boja, a visina svakog stupca označava ukupan broj dijamanata u toj kategoriji boja.
Svaki stupac podijeljen je u više segmenata, koji predstavljaju broj dijamanata s određenom kvalitetom reza unutar te skupine boja. Različite boje u stupcu odgovaraju različitim rezovima: svijetlo narančasta predstavlja dijamante s izvrsnim rezom, plava za vrlo dobar, ljubičasta za dobar i tamno narančasta za ideal. Veličina svakog segmenta pokazuje koliko dijamanata iz te skupine boja spada u određenu kategoriju rezanja.
Da biste protumačili grafikon, možete pogledati i ukupnu visinu svakog stupca, koja označava ukupan broj dijamanata u svakoj kategoriji boja, i veličinu segmenata unutar stupca, koji pokazuju kako su ti dijamanti raspoređeni među različitim kvalitetama reza. Na primjer, u skupini boja E postoji puno dijamanata s izvrsnim rezom, kao što pokazuje veliki svijetlo narančasti segment, nakon čega slijedi značajan broj dijamanata s vrlo dobrim rezom (plavi segment). Nasuprot tome, skupina boja K ima manje dijamanata (ukupno), ali većina njih spada u kategoriju vrlo dobrog ili odličnog reza.
Sve u svemu, ovaj razdijeljeni stupčasti grafikon omogućuje nam usporedbu broja dijamanata u svakoj skupini boja i proporcija kvaliteta reza unutar tih skupina, dajući jasan vizualni prikaz kako kvaliteta reza varira u različitim stupnjevima boja dijamanata. Možemo primijetiti da zapravo prenosi istu vrstu informacije kao i tablica kontingence (ranije kreirana za iste ove podatke).
Sljedeća tablica stvorena je na temelju istog skupa podataka. Koje varijable predstavlja i kako čitamo takvu tablicu?
Tablica 8. Dijamanti s odličnim i vrlo dobrim rezom prema rezultatu testa
Test | Odličan | Vrlo dobar | RBK1 | RBK2 |
---|---|---|---|---|
0 | 770 | 631 | 1.22 | |
1 | 253 | 215 | 1.18 | |
2 | 253 | 218 | 1.16 |
Ova tablica prikazuje podatke o kvaliteti dijamantnog reza i mjeru relativnog broja koordinacije (RBK, odnosno RBK1) prema testnoj skupini (0, 1, 2 - Test grupira dijamante u tri kategorije: 0, 1 i 2). Za svaku testnu skupinu, stupci daju broj dijamanata s odličnim rezom i onih s vrlo dobrim rezom.
Vrijednosti RBK-a su mjere, u ovom slučaju, kako se izvrsno i vrlo dobri rezovi koordiniraju. Na primjer, u testnoj grupi 0 nalazi se 770 dijamanata s izvrsnim rezom i 631 dijamant s vrlo dobrim rezom, a odgovarajuća vrijednost RBK1 je 1,22. To znači da u testnoj skupini 0, postoji 1.22 dijamanta izvrsnog reza po jednom dijamantu s vrlo dobrim rezom.
Slično tome, testna skupina 1 pokazuje 253 dijamanta izvrsnog rezanja, 215 dijamanata vrlo dobrog reza i RBK1 od 1,18. Dakle, u ovoj skupini ima 1.18 dijamanata izvrsnog reza po svakom dijamantu vrlo dobrog reza.
Relativni brojevi koordinacije govore nam o tome kakav je odnos dvije pojave. Za RBK1, podijelili smo vrijednost pripisanu pojavi 1 s vrijednosti pripisanoj pojavi 2 u istoj kategoriji. Za RBK2, promatrali bismo obrnut odnos, kako se dijamanti s vrlo dobrim rezom koordiniraju s dijamantima s odličnim rezom, tj., podijelili bismo vrijednost pripisanu pojavi 2 s vrijednosti pripisanoj pojavi 1 u istoj kategoriji.
Pokušajte sami protumačiti RBK1 za testnu skupinu 2. Ispunite preostale vrijednosti u tablici i protumačite RBK2.
Za one koji žele replicirati prikazanu analizu koristeći različite alate za analizu podataka, sljedeća poglavlja prikazuju kako to učiniti koristeći JASP, R i MS Excel. Iako se štivo može pročitati i razumjeti i bez čitanja ovih poglavlja, ona mogu biti korisna onima koji se po prvi put susreću s analizom podataka ili žele proširiti svoje znanje u tom dijelu.
Dakle, unutar ovog poglavlja, pronaći ćete tri zasebna odjeljka koji detaljno opisuju postupke repliciranja analize u JASP-u, R-u i Microsoft Excelu. Svaki od ovih alata nudi jedinstvene mogućnosti i pristupe analizi podataka, omogućavajući vam da odaberete onaj koji najbolje odgovara vašem tehničkom znanju i preferiranim metodologijama. Kroz vođenje korak-po-korak, naučit ćete (ili ćete se podsjetiti) kako iskoristiti prednosti svakog softvera za izvođenje postupaka za kreiranje tablica i grafikona prikazanih u ovom štivu. Na taj način, možete se bolje upoznati s različitim alatima te njihovim prednostima i nedostacima, a potom odlučiti kojeg ćete primarno koristiti.
Npr. ako ćete se prvenstveno baviti negrupiranim podacima, JASP omogućuje vrlo jednostavno dolaženje do rezultata. JASP ne omogućuje manipulaciju grupiranih podataka, što je ponekad potrebno ako imamo na raspolaganju gotove tablice (uobičajeno za izvješća ili službene statističke pokazatelje) temeljem kojih želimo još nešto izračunati. Onda je poželjno znati i osnove analize podataka u MS Excelu. R i RStudio nude najveću širinu, ali iziskuju učenje programskog jezika. Ako imaju mogućnost birati, većina studenata bira JASP u kombinaciji s dodatnim izračunima u MS Excel-u (ako su potrebni).
JASP (Jeffrey’s Amazing Statistics Program) je besplatni, otvoreni softver za statističku analizu koji pruža intuitivno i korisnički prijateljsko sučelje za izvođenje raznih statističkih testova. Možete ga preuzeti na linku. Izgrađen na platformi R, JASP omogućava korisnicima lako pristupanje naprednim statističkim metodama, bez potrebe za programiranjem. Fokusiran je na transparentnost i jednostavnost korištenja te automatski generira jasne i razumljive tablice, kao i grafikone koji omogućuju interpretaciju rezultata. Softver je posebno koristan za istraživače i studente koji žele brzo i učinkovito provoditi statističke analize bez potrebe za učenjem programskih jezika.
Sučelje JASP-a karakterizira preglednost i jednostavnost, sličan je popularnim uredskim programima što olakšava navigaciju i korištenje. Gornja traka s alatima (engl. Ribbon) organizira različite statističke analize u kategorije poput deskriptivne statistike, T-testova, ANOVA, Regresije i drugih. Sučelje je dizajnirano intuitivno, omogućavajući lako navigiranje i brzo postavljanje analiza bez potrebe za naprednim tehničkim znanjem.
U lijevom prozoru JASP-a nalazi se glavni dio sučelja koji sadrži panel s popisom svih varijabli učitanih u projekt. Korisnici mogu pregledavati ove varijable i odabrati one koje žele uključiti u svoje analize jednostavnim povlačenjem i ispuštanjem u odgovarajuće sekcije za analizu ili klikom na varijablu, pa klikom na strelicu pored.
Osim toga, lijevi prozor, u donjem dijelu uključuje i sekcije za odabir statističkih metoda i analiza. Ova struktura omogućava učinkovito upravljanje podacima i metodama, čineći proces statističke analize u JASP-u jednostavnim i pristupačnim za korisnike svih razina stručnosti.
Ukratko, u prozoru na lijevoj strani nalazi se panel za odabir varijabli iz učitanog skupa podataka (lijevo), panel za zadavanje varijabli i parametara odabrane analize (u pravilu, desno), a ispod njih nalaze se sekcije za odabir metoda, analiza i izlaza. Dakle, panel služi kao glavni prostor za upravljanje podacima, odnosno - sve selekcije i unos elemenata za analizu obavljaju se odabirom i unosom isključivo u lijevom panelu JASP-a.
Na slici je primjer rasporeda panela i sekcija u lijevom prozoru po odabiru ‘Descriptives’ iz trake s alatima.
Rezultati analize, u pravilu - tablice i grafikoni, prikazuju se u desnom dijelu prozora, pružajući direktne uvide. JASP također podržava dinamičko ažuriranje rezultata pri promjeni postavki, što korisnicima omogućava brzu i fleksibilnu analizu podataka.
Rezultate analize u JASP-u moguće je jednostavno kopirati i zalijepiti u dokumente poput zadataka, eseja, seminara, završnih ili diplomskih radova, što olakšava prezentaciju postupka analize. Grafikoni se mogu i izravno spremiti kao slike, u različitim formatima. Cijela analiza može se sačuvati kao JASP datoteka, što omogućuje kasniji pregled i ponovnu upotrebu podataka i postavki analize. Osim toga, sve rezultate moguće je pohraniti kao HTML datoteku, pružajući interaktivnu i lako dostupnu verziju rezultata za dijeljenje ili prezentaciju.
Dodatni priručnici i udžbenici za korištenje JASPa dostupni su na linku.
U kontekstu analize kojom se ovdje bavimo, nakon preuzimanja JASPA, slijedi uvoz podataka. U prvom koraku, potrebno je preuzeti datoteku s podacima. Slijedite link izvora podataka dan u uvodnom dijelu i kliknite na preuzimanje (download).
Alternativno, podaci su Vam dostupni i na e-ucenju. Pri preuzimanju, obratite pozornost na to gdje se preuzeta datoteka nalazi, kako biste znali popratiti put do te datoteke. Ovi su podaci već pripremljeni u CSV formatu i možete ih direktno učitati u JASP. CSV (engl. Comma-Separated Values) datoteke su jednostavne tekstualne datoteke u kojima su podaci odvojeni zarezima, što omogućuje jednostavan prijenos podataka između različitih aplikacija i sustava. Ovo je dobar trenutak da vam skrenem pozornost na to da nije omogućeno učitavanje XLSX datoteka u JASP-u te ako želite obraditi tako pohranjene podatke koristeći JASP, morate ih prvo konvertirati. Za to je Libre Calc vrlo dobro rješenje.
Kliknite na tri vodoravne plave crte u gornjem lijevom uglu, kako bi Vam se otvorio izbornik. U sljedećem koraku, s obzrom da imate skup podataka pohranjen na računalu, odaberite ‘Computer’, a potom ‘Browse’.
Koristeći prozor koji se otvorio nakon što ste kliknuli ‘Browse’, slijedite put do mape u kojoj se nalaze preuzeti podaci (npr. Korisnik -> Documents, ili Downloads, ili Preuzimanja, itd.). Nakon što ste našli datoteku, kliknite na nju, a potom na ‘Open’ ili ‘Otvori’ - ovisno koju inačicu koristite. Odmah nakon toga prikazat će Vam se podaci.
U ovom trenutku moramo pregledati varijable i razine mjerenja - jesu li sve pravilno zadane. Na primjer, boja i rez su kategorizirane kao opisne kvalitativne varijable (a ne stupnjevite kvalitativne varijable) zbog toga jer su zapisane slovima.
Napomena: Ovdje će se nastavak analize prikazati bez prekodiranja varijabli, radi jednostavnosti. Inače ćete, po potrebi i vlastitom odabiru prekodirati varijable s obzirom na konceptualno definiranu razinu mjerenja.
Za one koji žele znati više:
Općenito, za prekodiranje u JASPu postoje tri opcije: prilagoditi podatke prije uvoza, preračunati podatke temeljem dostupnih opcija (‘drag-and-drop’) ili putem R skripte. Konverziju tipova podataka nije moguće provesti s ‘drag-and-drop’ opcijom. Stoga će se ovdje za ilustraciju koristiti varijanta s R skriptom. Ovaj pristup iziskuje znanja o nekim osnovnim naredbama i funkcijama u R-u. Prekodiranje (i izračuni dodatnih varijabli temeljem postojećih) započinju klikom na oznaku ‘+’ u gornjem desnom uglu podatkovnog okvira.
Potom se otvara izbornik kao što je prikazano na slici. Unosimo naziv varijable, ovdje je to ‘Re-color’, odabiremo oznaku R, a nakon toga, razinu mjerenja varijable (u ovom slučaju, ‘Ordinal’). Potom kliknemo na ‘Create Column’.
Nakon toga, otvara se prozorčić za unos koda. Ovdje koristimo ‘factor’ (faktor je specifični tip podataka u R-u koji obuhvaća različite tipove kvalitativnih varijabli s uređenim ili neuređenim redoslijedom kategorija), a u ovom slučaju funkcija ‘factor()’ zadaje i definira faktor koji se kreira temeljem vrijednosti varijable ‘Color’ i zadavanje rezina (‘levels’). Taj faktor nalazi se unutar funkcije ‘as.numeric()’, odnosno, predstavlja argument te funkcije, koja ga pretvara u brojčani vektor.
Digresija: za prekodiranje varijable ‘Cut’ (koju bi mogli prekodirati u npr. ‘Re_cut’) kod bi izgledao ovako:
> as.numeric(factor(Cut, levels = c("Good", "Very Good", "Excellent", "Ideal")))
Nakon unosa koda, treba kliknuti na ‘Compute column’, nakon čega će se stupac naziva ‘Re_color’ ispuniti odgovarajućim vrijednostima. Možemo vizualno usporediti znakovne oznake u varijabli ‘Color’ s numeričkim ekvivalentima u varijabli ‘Re_color’ i na taj način potvrditi ispravnost postupka.
Kliknite na Descriptives u traci izbornika. Nakon toga, prikaz će izgledati ovako:
Kliknite na varijablu ‘Cut’ u prozorčiću s lijeve strane, s potom na gornju strelicu između prozora. Nakon tog klika, varijabla ‘Cut’ će se pojaviti u prozorčiću s desne strane.
Potom, u lijevom dijelu prozora, na dnu, kliknite na ‘Tables’, a potom na ‘Frequency tables’. Nakon toga, u prozoru na desnoj strani, prikazat će Vam se tablica.
Jedina je razlika što ovdje razine nisu poslagane redom, nego abecedno, pa će zbroj u stupcu kumulativnih frekvencija biti različit. To možete urediti ručno ili koristeći drugi alat.
Ako tablicu želite spremiti za korištenje u seminaru ili radu, kliknite na strelicu i odaberite ‘Copy’ te zalijepite u Word, Docs ili drugi softver koji koristite za procesiranje teksta.
Ako ste c/p tablicu u Word, Docs ili drugi alat koji koristite za procesiranje teksta, odaberite posljednja dva stupca Tablice 2 i obrišite ih. Tako ćete dobiti ekvivalent Tablice 3.
U traci izbornika na vrhu, kliknite na ‘Frequencies’, a potom daberite ‘Contingency tables’.
Pojavit će vam se sljedeći prikaz:
U sljedećem koraku unosimo varijable. Boja se nalai u retcima, a rez u stupcima. Kliknite na ‘Color’ u lijevom bijelom prozorčiću, a potom na strelicu ispred prozorčića ‘Rows’. Dobit ćete sljedeći prikaz:
Kliknite na ‘Cut’ u lijevom bijelom prozorčiću, a potom na strelicu ispred prozorčića ‘Columns’. Dobit ćete sljedeći prikaz:
U prozoru s desne strane nalaze se rezultati, odnosno, tablica. Možete ju kopirati i dalje koristiti u radu, odnosno uklopiti ju u esej, seminarski rad, itd.
Tablice 5, 6 i 7 ne možete izračunati unutar JASPa, ali možete nastaviti izračune temeljem Tablice 4 u nekom drugom alatu ili ručno. S obzirom na kompatibilnost, možete tablicu 4 kopirati u MS Excel. Nakon što uredite tablicu (očekujte da će se pri kopiranju pojaviti stupci koji služe za postavljanje razmaka, a u MS Excelu nisu potrebni, pa ih možete obrisati radi jednostavnijeg formatiranja u nastavku prikaza i izračuna), nastavite prema postupku prikazanom u poglavlju “Provedba postupka koristeći MS Excel” za Tablice 5 - 7.
Također, ni Tablicu 8 nemamo kako izračunati u JASPu, ali možemo napraviti pripremu za izračun RBK1 i RBK2.
Ponovo kliknite na ‘Frequencies’, pa potom na ‘Contingency tables’.
Odaberite ‘Test’ za retke i ‘Cut’ za stupce. Ovako kreiranu tablicu možete kopirati (npr. u MS Excel, Libre Calc ili Sheets), izbristi suvišne stupce i izračunati preostale vrijednosti.
Odaberite Descriptives iz trake izbornika na vrhu. Kako biste odabrali varijablu ‘Color’ za daljnju analizu, kliknite na nju u lijevom prozorčiću, a nakon toga na strelicu. Odabrana varijabla pojavit će se na popisu varijabli (‘Variables’) u prozorčiću pored.
U sljedećem koraku, kliknite na izbornik ‘Basic plots’ niže u lijevom prozoru. To će rezultirati otkrivanjem mogućnosti kreiranja osnovnih grafikona. Odaberite ‘Distribution plots’. Ta radnja rezultirat će prikazom grafa u desnom prozoru.
Slično kao i s tablicama, i graf je moguće kopirati. Kliknite na strelicu pored ‘Color’ kao što je prikazano na slici niže, a potom odaberite ‘Copy’ i zalijepite sliku u dokument u kojem pripremate svoj rad.
Alternativno, sliku možete i spremiti, a u tom slučaju, odabirete ‘Save image as’. U tom slučaju, otvorit će se prozor (engl. Save as dialog box), u kojem možete odabrati mapu u kojoj ćete pohraniti sliku, upisati naziv slike i odabrati format slike (PNG, PDF, JPG i dr.).
Kao i pri kreiranju prethodne slike, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati.
Nakon što ste odabrali varijablu, u lijevom prozoru odabirete sekciju ‘Basic plots’ i nakon klika, otvorit će se opširniji izbornik. Po odabiru ‘Distribution plots’, prikazat će se grafički prikaz u desnom prozoru koji prikazuje rezultate. Također, možete spremiti sliku ili ju kopirati.
Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati.
Nakon što ste odabrali varijablu, u lijevom prozoru odabirete sekciju ‘Basic plots’ i nakon klika, otvorit će se opširniji izbornik. Po odabiru ‘Distribution plots’, prikazat će se grafički prikaz u desnom prozoru koji prikazuje rezultate. Također, možete spremiti sliku ili ju kopirati.
Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati.
Nakon što ste odabrali varijablu, u lijevom prozoru odabirete sekciju ‘Basic plots’ i nakon klika, otvorit će se opširniji izbornik. Po odabiru ‘Distribution plots’, prikazat će se grafički prikaz u desnom prozoru koji prikazuje rezultate. Također, možete spremiti sliku ili ju kopirati.
Ovdje možete primijetiti da je kreiran histogram, a ne stupčasti dijagram automatski, bez potrebe za dodatnim podešavanjima. To se događa zbog toga što JASP automatski kreira onaj grafički prikaz koji je primjeren s obzirom na razinu mjerenja varijabli. S obzirom da ovdje imamo kvantitativnu varijablu mjerenu na omjernoj razini, izlaz je histogram.
Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati.
Nakon što ste odabrali varijablu, u lijevom prozoru odabirete sekciju ‘Basic plots’ i nakon klika, otvorit će se opširniji izbornik. Po odabiru ‘Pie charts’, prikazat će se grafički prikaz u desnom prozoru koji prikazuje rezultate. Također, možete spremiti sliku ili ju kopirati.
Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati (Price). No, s obzirom da ovdje želite dobiti detaljnije uvide u svaku podskupinu prema boji, odabirete još i varijablu ‘Color’ i premještate ju u prozorčić iznad kojeg stoji naziv ‘Split’ (podijeli).
U lijevom prozoru odabirete sekciju ‘Customizable plots’ i nakon klika, otvorit će se opširniji izbornik. Po odabiru ‘Pie charts’, prikazat će se grafički prikaz u desnom prozoru koji prikazuje rezultate. Također, možete spremiti sliku ili ju kopirati.
Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati (Price). No, s obzirom da ovdje želite dobiti detaljnije uvide u svaku podskupinu prema boji, odabirete još i varijablu ‘Color’ i premještate ju (povlačenjem ili klikom na strelicu ispred tog prozora) u prozorčić iznad kojeg stoji naziv ‘Split’ (podijeli).
U lijevom prozoru odabirete sekciju ‘Customizable plots’ i nakon klika, otvorit će se opširniji izbornik. Po odabiru ‘Pie charts’, prikazat će se grafički prikaz u desnom prozoru koji prikazuje rezultate. Također, možete spremiti sliku ili ju kopirati.
Ovaj grafikon se ne može kreirati u JASPU, ali će alati poput MS EXcela, Libre Calc ili Sheets omogućiti kreiranje takvog grafa temeljem Tablice 4.
R je programski jezik i okruženje otvorenog koda namijenjeno statističkoj analizi, grafičkom prikazu podataka i izvještavanju. R je široko prihvaćen u akademskim, istraživačkim i industrijskim zajednicama zbog svoje fleksibilnosti i bogatog ekosustava paketa koji omogućuju izvođenje raznih statističkih metoda, modeliranja i vizualizacije. Koristeći R, možete pisati skripte za automatizaciju analiza, stvarati prilagođene funkcije te integrirati R s drugim alatima i programskim jezicima. Aktivna zajednica doprinosi stalnom razvoju novih alata i rješenja, čineći R jednim od neizbježnih alata za podatkovne znanstvenike, poslovne analitičare, statističare i istraživače koji žele učinkovito rukovati i interpretirati složene skupove podataka.
Jedan od najugodnijih načina korištenja R-a je putem okruženja R Studio. RStudio je integrirano razvojno okruženje (IDE) za programski jezik R, dizajnirano kako bi olakšalo pisanje, uređivanje i izvršavanje R koda. Korisnicima pruža pregledno i intuitivno sučelje koje uključuje uređivač koda, konzolu, okruženje za varijable, upravljanje paketima, grafičke prikaze i pomoćne alate. Osnovne opcije sučelja RStudia uključuju višepanelni raspored koji omogućava lak pristup svim potrebnim alatima za statističku analizu i reproducibilno istraživanje.
Kako preuzeti R i RStudio te započeti s radom možete pročitati u prvim poglavljima priručnika Uvod u R i RStudio.
Postupak započinje uvozom podataka i to možemo učiniti izravnim uvozom s web stranice:
> Diamonds <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Diamonds.txt")
Nakon toga započinjemo s uvidima u podatke. Jedan od najčešćih načina je korištenje funkcije str()
.
> str(Diamonds)
## 'data.frame': 2690 obs. of 12 variables:
## $ Carat.Size : num 0.3 0.44 0.31 0.66 0.47 0.4 0.36 0.52 0.53 0.43 ...
## $ Color : chr "E" "E" "E" "K" ...
## $ Clarity : chr "VVS1" "VS2" "VVS1" "SI1" ...
## $ Depth : num 60 61.9 61.3 62.8 59.1 62 61.3 61.7 59.4 61.5 ...
## $ Table : int 59 58 58 57 64 59 57 61 59 60 ...
## $ Cut : chr "Excellent" "Excellent" "Excellent" "Excellent" ...
## $ Report : chr "GIA" "GIA" "GIA" "GIA" ...
## $ Price : int 1000 1000 1000 1000 1000 1000 1000 1000 1001 1001 ...
## $ Log.Price : num 6.91 6.91 6.91 6.91 6.91 ...
## $ Table.Depth : num -1 -3.9 -3.3 -5.8 4.9 -3 -4.3 -0.7 -0.4 -1.5 ...
## $ Table.Depth.1: num 0.983 0.937 0.946 0.908 1.083 ...
## $ Test : int 0 1 0 2 2 2 0 0 0 2 ...
Ovdje možemo vidjeti da se podatkovni okvir sastoji od 12 varijabli i 2690 opažanja. U ovom trenutku možemo relativno jednostavno podesiti varijable ‘Cut’ i ‘Color’ kao stupnjevite varijable.
> Diamonds$Cut <- factor(Diamonds$Cut, levels = c("Good", "Very Good", "Excellent", "Ideal"), ordered = TRUE)
> Diamonds$Color <- factor(Diamonds$Color, levels = c("D", "E", "F", "G", "H", "I", "J", "K"), ordered = TRUE)
> str(Diamonds)
## 'data.frame': 2690 obs. of 12 variables:
## $ Carat.Size : num 0.3 0.44 0.31 0.66 0.47 0.4 0.36 0.52 0.53 0.43 ...
## $ Color : Ord.factor w/ 8 levels "D"<"E"<"F"<"G"<..: 2 2 2 8 5 4 1 5 1 3 ...
## $ Clarity : chr "VVS1" "VS2" "VVS1" "SI1" ...
## $ Depth : num 60 61.9 61.3 62.8 59.1 62 61.3 61.7 59.4 61.5 ...
## $ Table : int 59 58 58 57 64 59 57 61 59 60 ...
## $ Cut : Ord.factor w/ 4 levels "Good"<"Very Good"<..: 3 3 3 3 2 3 3 2 2 3 ...
## $ Report : chr "GIA" "GIA" "GIA" "GIA" ...
## $ Price : int 1000 1000 1000 1000 1000 1000 1000 1000 1001 1001 ...
## $ Log.Price : num 6.91 6.91 6.91 6.91 6.91 ...
## $ Table.Depth : num -1 -3.9 -3.3 -5.8 4.9 -3 -4.3 -0.7 -0.4 -1.5 ...
## $ Table.Depth.1: num 0.983 0.937 0.946 0.908 1.083 ...
## $ Test : int 0 1 0 2 2 2 0 0 0 2 ...
Da bismo prikazali prvih 20 podataka u podatkovnom okviru, koristimo funkciju head()
. Argument funkcije je naziv podatkovnog okvira, a možemo dodati i broj redaka koje želimo prikazati. Da bismo prikazali prvih dvadeset redaka, upisujemo 20 na mjesto drugog argumenta funkcije head()
.
> head(Diamonds, 20)
## Carat.Size Color Clarity Depth Table Cut Report Price Log.Price
## 1 0.30 E VVS1 60.0 59 Excellent GIA 1000 6.907755
## 2 0.44 E VS2 61.9 58 Excellent GIA 1000 6.907755
## 3 0.31 E VVS1 61.3 58 Excellent GIA 1000 6.907755
## 4 0.66 K SI1 62.8 57 Excellent GIA 1000 6.907755
## 5 0.47 H VS2 59.1 64 Very Good GIA 1000 6.907755
## 6 0.40 G VS1 62.0 59 Excellent GIA 1000 6.907755
## 7 0.36 D VS2 61.3 57 Excellent GIA 1000 6.907755
## 8 0.52 H SI2 61.7 61 Very Good GIA 1000 6.907755
## 9 0.53 D SI2 59.4 59 Very Good GIA 1001 6.908755
## 10 0.43 F VS2 61.5 60 Excellent GIA 1001 6.908755
## 11 0.43 F VS2 60.4 59 Very Good GIA 1001 6.908755
## 12 0.43 F VS2 62.0 58 Very Good GIA 1001 6.908755
## 13 0.30 E VVS1 59.1 62 Good GIA 1001 6.908755
## 14 0.47 I VS2 62.4 57 Excellent GIA 1001 6.908755
## 15 0.41 E VS2 62.8 56 Excellent GIA 1001 6.908755
## 16 0.44 D SI1 60.2 60 Excellent GIA 1001 6.908755
## 17 0.36 F VVS2 60.7 59 Excellent GIA 1001 6.908755
## 18 0.40 E VS1 62.5 62 Good GIA 1001 6.908755
## 19 0.40 E VS1 64.3 60 Good GIA 1001 6.908755
## 20 0.32 F IF 61.5 57 Very Good GIA 1002 6.909753
## Table.Depth Table.Depth.1 Test
## 1 -1.0 0.9833333 0
## 2 -3.9 0.9369951 1
## 3 -3.3 0.9461664 0
## 4 -5.8 0.9076433 2
## 5 4.9 1.0829103 2
## 6 -3.0 0.9516129 2
## 7 -4.3 0.9298532 0
## 8 -0.7 0.9886548 0
## 9 -0.4 0.9932660 0
## 10 -1.5 0.9756098 2
## 11 -1.4 0.9768212 0
## 12 -4.0 0.9354839 1
## 13 2.9 1.0490694 2
## 14 -5.4 0.9134615 0
## 15 -6.8 0.8917198 0
## 16 -0.2 0.9966777 0
## 17 -1.7 0.9719934 1
## 18 -0.5 0.9920000 2
## 19 -4.3 0.9331260 0
## 20 -4.5 0.9268293 2
Ako bismo na ovaj način htjeli prikazati samo određene varijable, one koje koristimo u daljnjoj analizi, to možemo učiniti na način da odaberemo samo one stupce koji predstavljaju te varijable.
> head(Diamonds[, c(1, 2, 3, 6, 11)], 20)
## Carat.Size Color Clarity Cut Table.Depth.1
## 1 0.30 E VVS1 Excellent 0.9833333
## 2 0.44 E VS2 Excellent 0.9369951
## 3 0.31 E VVS1 Excellent 0.9461664
## 4 0.66 K SI1 Excellent 0.9076433
## 5 0.47 H VS2 Very Good 1.0829103
## 6 0.40 G VS1 Excellent 0.9516129
## 7 0.36 D VS2 Excellent 0.9298532
## 8 0.52 H SI2 Very Good 0.9886548
## 9 0.53 D SI2 Very Good 0.9932660
## 10 0.43 F VS2 Excellent 0.9756098
## 11 0.43 F VS2 Very Good 0.9768212
## 12 0.43 F VS2 Very Good 0.9354839
## 13 0.30 E VVS1 Good 1.0490694
## 14 0.47 I VS2 Excellent 0.9134615
## 15 0.41 E VS2 Excellent 0.8917198
## 16 0.44 D SI1 Excellent 0.9966777
## 17 0.36 F VVS2 Excellent 0.9719934
## 18 0.40 E VS1 Good 0.9920000
## 19 0.40 E VS1 Good 0.9331260
## 20 0.32 F IF Very Good 0.9268293
Možemo kreirati i novi podatkovni skup koji može olakšati daljnje upravljanje podacima.
> Dijamanti <- Diamonds[, c(1, 2, 3, 6, 11)]
> str(Dijamanti)
## 'data.frame': 2690 obs. of 5 variables:
## $ Carat.Size : num 0.3 0.44 0.31 0.66 0.47 0.4 0.36 0.52 0.53 0.43 ...
## $ Color : Ord.factor w/ 8 levels "D"<"E"<"F"<"G"<..: 2 2 2 8 5 4 1 5 1 3 ...
## $ Clarity : chr "VVS1" "VS2" "VVS1" "SI1" ...
## $ Cut : Ord.factor w/ 4 levels "Good"<"Very Good"<..: 3 3 3 3 2 3 3 2 2 3 ...
## $ Table.Depth.1: num 0.983 0.937 0.946 0.908 1.083 ...
Ovaj postupak se može provesti na više načina. Ovdje će se prikazati dva načina, a prvi način podrazumijeva postupni izračun. Prvo kreiramo jednostavnu statističku tablicu.
U postupku koristimo sljedeće elemente:
table(Diamonds$Cut)
stvara tablicu frekvencija za varijablu Cut (iako već sad imamo elemente potrebne za jadnostavnu statističku tablicu, nastavljamo postupak, kako bi pripremili Tablica_2
za prihvat dodatnih stupaca i redaka).
as.vector()
pretvara tablicu u vektor.
data.frame()
pretvara vektor u data.frame.
colnames()
postavlja naziv stupca na “Apsolutne_frekvencije”.
rownames()
Postavlja nazive redova prema kategorijama Cut.
Tablica_2
Prikazuje trenutni sadržaj tablice.
> Tablica_2 <- as.vector(table(Diamonds$Cut))
> Tablica_2 <- data.frame(Tablica_2)
> colnames(Tablica_2) <- c("Apsolutne_frekvencije")
> rownames(Tablica_2) <- c("Good", "Very good", "Excellent", "Ideal")
> Tablica_2
## Apsolutne_frekvencije
## Good 165
## Very good 1064
## Excellent 1276
## Ideal 185
Sljedećom naredbom se izračunava postotak za svaki modalitet varijable i pohranjuje se kao vektor stupac u podatkovni okvir Tablica_2
, koji se potom ispisuje.
> Tablica_2$Postoci <- as.vector(Tablica_2[,1]/sum(Tablica_2[,1])*100)
> Tablica_2
## Apsolutne_frekvencije Postoci
## Good 165 6.133829
## Very good 1064 39.553903
## Excellent 1276 47.434944
## Ideal 185 6.877323
Sljedećim postupkom izračunavaju se kumulativne frekvencije za svaki modalitet varijable i pohranjuju se kao vektor stupac u podatkovni okvir Tablica_2
, koji se potom ispisuje.
> Tablica_2$Kum_fr[1] <- Tablica_2$Postoci[1]
> Tablica_2$Kum_fr[2] <- Tablica_2$Postoci[1] + Tablica_2$Postoci[2]
> Tablica_2$Kum_fr[3] <- Tablica_2$Postoci[1] + Tablica_2$Postoci[2] + Tablica_2$Postoci[3]
> Tablica_2$Kum_fr[4] <- Tablica_2$Postoci[1] + Tablica_2$Postoci[2] + Tablica_2$Postoci[3] + Tablica_2$Postoci[4]
> Tablica_2$Kum_fr <- as.vector(Tablica_2$Kum_fr)
>
> Tablica_2
## Apsolutne_frekvencije Postoci Kum_fr
## Good 165 6.133829 6.133829
## Very good 1064 39.553903 45.687732
## Excellent 1276 47.434944 93.122677
## Ideal 185 6.877323 100.000000
Potom se dodaje redak Ukupno
s ukupnim frekvencijama i postotkom od 100%, a kumulativni postotak postavlja na NA.
> total_Table_2 <- colSums(Tablica_2[, 1:2])
> total_Table_2[3] <- NA
> Tablica_2 <- rbind(Tablica_2, Ukupno =total_Table_2)
>
> Tablica_2
## Apsolutne_frekvencije Postoci Kum_fr
## Good 165 6.133829 6.133829
## Very good 1064 39.553903 45.687732
## Excellent 1276 47.434944 93.122677
## Ideal 185 6.877323 100.000000
## Ukupno 2690 100.000000 NA
Ovime je završen postupak postupnog kreiranja tablice 2.
Ako tablicu želite spremiti za daljnje korištenje u drugim formatima, možete ju pohraniti, na primjer, u .xlsx
ili .csv
formatu.
> writexl::write_xlsx(Tablica_2, "Tablica_2.xlsx")
>
> write.csv(Tablica_2, "Tablica_2.csv")
Alternativni postupak, koristeći paket dplyr
:
> library(dplyr)
> summary_table <- Diamonds %>%
+ group_by(Cut) %>%
+ summarise(Apsolutne_frekvencije = n()) %>%
+ mutate(
+ Postoci = (Apsolutne_frekvencije / sum(Apsolutne_frekvencije)) * 100,
+ Kum_fr = cumsum(Postoci)
+ ) %>%
+ ungroup()
> summary_table <- summary_table %>%
+ add_row(
+ Cut = "Ukupno",
+ Apsolutne_frekvencije = sum(summary_table$Apsolutne_frekvencije),
+ Postoci = 100,
+ Kum_fr = NA
+ )
> summary_table
## # A tibble: 5 × 4
## Cut Apsolutne_frekvencije Postoci Kum_fr
## <chr> <int> <dbl> <dbl>
## 1 Good 165 6.13 6.13
## 2 Very Good 1064 39.6 45.7
## 3 Excellent 1276 47.4 93.1
## 4 Ideal 185 6.88 100
## 5 Ukupno 2690 100 NA
Ovaj postupak uklljučuje učitavanje, grupiranje i dodavanje retka ukupno, a pritom su korišteni sljedeći elementi:
group_by(Cut)
- grupira podatke prema kategoriji Cut.
summarise(Apsolutne_frekvencije = n())
- prebrojava koliko se puta pojavljuje svaka kategorija.
mutate()
- dodaje stupce i izračunava vrijednosti za postotke i kumulativne postotke.
cumsum(Postoci)
- izračunava kumulativne postotke.
add_row()
- dodaje redak Ukupno
sa zbrojem frekvencija, postotkom od 100% i NA za kumulativni postotak.
S obzirom da je Tablica 3, zapravo dio Tablice 2, koristimo iste postupke (pogledajte objašnjenja za kreiranje prethodne tablice).
> Tablica_3 <- as.vector(table(Diamonds$Cut))
> Tablica_3 <- data.frame(Tablica_3)
> colnames(Tablica_3) <- c("Apsolutne_frekvencije")
> rownames(Tablica_3) <- c("Good", "Very good", "Excellent", "Ideal")
> Tablica_3 <- rbind(Tablica_3, Ukupno=sum(Tablica_3$Apsolutne_frekvencije))
> Tablica_3
## Apsolutne_frekvencije
## Good 165
## Very good 1064
## Excellent 1276
## Ideal 185
## Ukupno 2690
Alternativni postupak:
> library(dplyr)
> summary_table <- Diamonds %>%
+ group_by(Cut) %>%
+ summarise(Apsolutne_frekvencije = n()) %>%
+ ungroup()
> summary_table <- summary_table %>%
+ add_row(
+ Cut = "Ukupno",
+ Apsolutne_frekvencije = sum(summary_table$Apsolutne_frekvencije)
+ )
> summary_table
## # A tibble: 5 × 2
## Cut Apsolutne_frekvencije
## <chr> <int>
## 1 Good 165
## 2 Very Good 1064
## 3 Excellent 1276
## 4 Ideal 185
## 5 Ukupno 2690
> Tablica_4 <- table(Diamonds$Color, Diamonds$Cut)
> Tablica_4
##
## Good Very Good Excellent Ideal
## D 16 106 139 16
## E 29 209 227 39
## F 23 164 213 31
## G 22 130 209 35
## H 23 154 192 25
## I 23 124 142 27
## J 21 121 102 9
## K 8 56 52 3
table(Diamonds$Color, Diamonds$Cut)
- stvara tablicu kontingencije koja prikazuje brojanje (frekvencije) kombinacija vrijednosti varijabli Color i Cut.
Tablica_4
- prikaz tablice.
> Tablica_4 <- data.frame(matrix(Tablica_4, nrow = 8, ncol = 4))
> row.names(Tablica_4) <- levels(Diamonds$Color)
> colnames(Tablica_4) <- levels(Diamonds$Cut)
> Tablica_4
## Good Very Good Excellent Ideal
## D 16 106 139 16
## E 29 209 227 39
## F 23 164 213 31
## G 22 130 209 35
## H 23 154 192 25
## I 23 124 142 27
## J 21 121 102 9
## K 8 56 52 3
matrix(Tablica_4, nrow = 8, ncol = 4)
- pretvara tablicu u matricu s 8 redova i 4 kolone (međukorak potreban zbog toga što format podataka table
nije moguće direktno pretvoriti u data.frame
).
data.frame()
- konvertira matricu u data.frame
, odnosno podatkovni okvir.
row.names(Tablica_4) <- levels(Diamonds$Color)
- postavlja nazive redova prema razinama varijable Color.
colnames(Tablica_4) <- levels(Diamonds$Cut)
- postavlja nazive stupaca prema razinama varijable Cut.
Tablica_4
- prikazuje ažurirani data frame s imenovanim redovima i stupcima.
> Ukupno_stupac_T4 <- rowSums(Tablica_4)
> Tablica_4 <- cbind(Tablica_4, Ukupno = Ukupno_stupac_T4)
>
> Ukupno_redak_T4 <- colSums(Tablica_4)
> Tablica_4 <- rbind(Tablica_4, Ukupno = Ukupno_redak_T4)
> Tablica_4
## Good Very Good Excellent Ideal Ukupno
## D 16 106 139 16 277
## E 29 209 227 39 504
## F 23 164 213 31 431
## G 22 130 209 35 396
## H 23 154 192 25 394
## I 23 124 142 27 316
## J 21 121 102 9 253
## K 8 56 52 3 119
## Ukupno 165 1064 1276 185 2690
rowSums(Tablica_4)
- izračunava zbroj vrijednosti za svaki red (Color).
cbind(Tablica_4, Ukupno = Ukupno_stupac_T4)
- dodaje novi stupacu ‘Ukupno’ - zbirni stupac.
colSums(Tablica_4)
- izračunava zbroj vrijednosti za svaki stupac (Cut), uključujući novi stupac ‘Ukupno’.
rbind(Tablica_4, Ukupno_redak_T4)
- dodaje zbirni redak ‘Ukupno’.
Tablica_4
- prikazuje konačnu tablicu sa zbirnim recima i stupcima.
Alternativni postupak:
> library(dplyr)
> library(janitor)
## Warning: package 'janitor' was built under R version 4.3.3
> summary_table <- Diamonds %>%
+ tabyl(Color, Cut) %>%
+ adorn_totals("both")
> summary_table
## Color Good Very Good Excellent Ideal Total
## D 16 106 139 16 277
## E 29 209 227 39 504
## F 23 164 213 31 431
## G 22 130 209 35 396
## H 23 154 192 25 394
## I 23 124 142 27 316
## J 21 121 102 9 253
## K 8 56 52 3 119
## Total 165 1064 1276 185 2690
library()
- učitavanje paketa. Paketi moraju biti prethodno instalirani koristeći install.packages()
.
Diamonds %>%
- uzimanje podatkovnog okvira Diamonds kao početne točke.
tabyl(Color, Cut)
- kreira kontingencijsku tablicu između varijabli Color i Cut.
adorn_totals("both")
- dodaje ukupne redove (za svaku boju) i ukupne stupce (za svaki rez), uključujući ukupne zbrojeve na kraju.
summary_table
- prikazuje konačnu tablicu.
> Tablica_5 <- Tablica_4/Tablica_4[9, 5] * 100
> Tablica_5
## Good Very Good Excellent Ideal Ukupno
## D 0.5947955 3.940520 5.167286 0.5947955 10.297398
## E 1.0780669 7.769517 8.438662 1.4498141 18.736059
## F 0.8550186 6.096654 7.918216 1.1524164 16.022305
## G 0.8178439 4.832714 7.769517 1.3011152 14.721190
## H 0.8550186 5.724907 7.137546 0.9293680 14.646840
## I 0.8550186 4.609665 5.278810 1.0037175 11.747212
## J 0.7806691 4.498141 3.791822 0.3345725 9.405204
## K 0.2973978 2.081784 1.933086 0.1115242 4.423792
## Ukupno 6.1338290 39.553903 47.434944 6.8773234 100.000000
Svi elementi Tablice 4, dijele se ukupnim brojem opažanja (koji se nalazi u 10. retku i 5. stupcu tablice; Tablica_4[9, 5]
) i množe sa 100.
Alternativno…
> Tablica_4_kutno100 <- prop.table(as.matrix(Tablica_4[1:8, 1:4])) * 100
> Tablica_5 <- cbind(Tablica_4_kutno100, Ukupno = rowSums(Tablica_4_kutno100))
> Tablica_5 <- rbind(Tablica_5, Ukupno = colSums(Tablica_5))
> Tablica_5
## Good Very Good Excellent Ideal Ukupno
## D 0.5947955 3.940520 5.167286 0.5947955 10.297398
## E 1.0780669 7.769517 8.438662 1.4498141 18.736059
## F 0.8550186 6.096654 7.918216 1.1524164 16.022305
## G 0.8178439 4.832714 7.769517 1.3011152 14.721190
## H 0.8550186 5.724907 7.137546 0.9293680 14.646840
## I 0.8550186 4.609665 5.278810 1.0037175 11.747212
## J 0.7806691 4.498141 3.791822 0.3345725 9.405204
## K 0.2973978 2.081784 1.933086 0.1115242 4.423792
## Ukupno 6.1338290 39.553903 47.434944 6.8773234 100.000000
U drugom pristupu, korištena je funkcija prop.table()
koja računa proporcije. Uzeti su samo osnovni elementi tablice, a naknadno su dodani zbirni stupac i zbirni redak.
> Red_D <- Tablica_4[1,]/Tablica_4[1,5]*100
> Red_E <- Tablica_4[2,]/Tablica_4[2,5]*100
> Red_F <- Tablica_4[3,]/Tablica_4[3,5]*100
> Red_G <- Tablica_4[4,]/Tablica_4[4,5]*100
> Red_H <- Tablica_4[5,]/Tablica_4[5,5]*100
> Red_I <- Tablica_4[6,]/Tablica_4[6,5]*100
> Red_J <- Tablica_4[7,]/Tablica_4[7,5]*100
> Red_K <- Tablica_4[8,]/Tablica_4[8,5]*100
> Red_Uk <- Tablica_4[9,]/Tablica_4[9,5]*100
>
> Tablica_4_vodoravno100 <- rbind(Red_D, Red_E, Red_F, Red_G, Red_H, Red_I, Red_J, Red_K, Red_Uk)
> Tablica_4_vodoravno100
## Good Very Good Excellent Ideal Ukupno
## D 5.776173 38.26715 50.18051 5.776173 100
## E 5.753968 41.46825 45.03968 7.738095 100
## F 5.336427 38.05104 49.41995 7.192575 100
## G 5.555556 32.82828 52.77778 8.838384 100
## H 5.837563 39.08629 48.73096 6.345178 100
## I 7.278481 39.24051 44.93671 8.544304 100
## J 8.300395 47.82609 40.31621 3.557312 100
## K 6.722689 47.05882 43.69748 2.521008 100
## Ukupno 6.133829 39.55390 47.43494 6.877323 100
Koristeći odabir elemenata podatkovnog okvira (npr. Tablica_4[1,]
za odabir prvog retka, a Tablica_4[1,5]
za odabir sume prvog retka), elementi u recima su podijeljeni s pripadajućim sumama redaka, a potom su po recima (rbind()
) spojeni u podatkovni okvir.
Alternativno…
> Tablica_4_vodoravno100 <- prop.table(as.matrix(Tablica_4[,1:4]), 1) * 100
> Tablica_6 <- cbind(Tablica_4_vodoravno100, Ukupno = rowSums(Tablica_4_vodoravno100, na.rm = TRUE))
> Tablica_6
## Good Very Good Excellent Ideal Ukupno
## D 5.776173 38.26715 50.18051 5.776173 100
## E 5.753968 41.46825 45.03968 7.738095 100
## F 5.336427 38.05104 49.41995 7.192575 100
## G 5.555556 32.82828 52.77778 8.838384 100
## H 5.837563 39.08629 48.73096 6.345178 100
## I 7.278481 39.24051 44.93671 8.544304 100
## J 8.300395 47.82609 40.31621 3.557312 100
## K 6.722689 47.05882 43.69748 2.521008 100
## Ukupno 6.133829 39.55390 47.43494 6.877323 100
Ovdje je ponovno korištena funkcija prop.table()
. Prvi argument su elementi tablice i odabrana su prva četiri stupca pretvorena u matrični oblik (odnosno, as.matrix(Tablica_4[,1:4])
). Kako bi se naznačilo da svaki od redaka u odabranim stupcima treba biti podijeljen sumom retka, drugi argument funkcije prop.table()
je broj 1 (označava da će se elementi redaka dijeliti pripadajućom sumom retka). Rezultati su još pomnoženi sa 100, kako bi se proporcije preračunale u postotke. Potom je još izračunat zbirni stupac i spojen je s prvim dijelom podatkovnog okvira.
> St_Good <- Tablica_4[,1]/sum(Tablica_4[9,1])*100
> St_VGood <- Tablica_4[,2]/sum(Tablica_4[9,2])*100
> St_Exc <- Tablica_4[,3]/sum(Tablica_4[9,3])*100
> St_Ideal <- Tablica_4[,4]/sum(Tablica_4[9,4])*100
> St_Uk <- Tablica_4[,5]/sum(Tablica_4[9,5])*100
> Tablica_7 <- cbind(St_Good, St_VGood, St_Exc, St_Ideal, St_Uk)
> Tablica_7
## St_Good St_VGood St_Exc St_Ideal St_Uk
## [1,] 9.696970 9.962406 10.893417 8.648649 10.297398
## [2,] 17.575758 19.642857 17.789969 21.081081 18.736059
## [3,] 13.939394 15.413534 16.692790 16.756757 16.022305
## [4,] 13.333333 12.218045 16.379310 18.918919 14.721190
## [5,] 13.939394 14.473684 15.047022 13.513514 14.646840
## [6,] 13.939394 11.654135 11.128527 14.594595 11.747212
## [7,] 12.727273 11.372180 7.993730 4.864865 9.405204
## [8,] 4.848485 5.263158 4.075235 1.621622 4.423792
## [9,] 100.000000 100.000000 100.000000 100.000000 100.000000
Koristeći odabir elemenata podatkovnog okvira (npr. Tablica_4[,1]
za odabir prvog stupca, a Tablica_4[9,1]
za odabir sume prvog stupca), elementi u stupcima su podijeljeni s pripadajućim sumama stupaca, a potom su po stupcima (cbind()
) spojeni u podatkovni okvir.
Alternativno…
> Tablica_4_okomito100 <- prop.table(as.matrix(Tablica_4[1:8,]), 2) * 100
> Tablica_7 <- rbind(Tablica_4_okomito100, Ukupno = colSums(Tablica_4_okomito100))
> Tablica_7
## Good Very Good Excellent Ideal Ukupno
## D 9.696970 9.962406 10.893417 8.648649 10.297398
## E 17.575758 19.642857 17.789969 21.081081 18.736059
## F 13.939394 15.413534 16.692790 16.756757 16.022305
## G 13.333333 12.218045 16.379310 18.918919 14.721190
## H 13.939394 14.473684 15.047022 13.513514 14.646840
## I 13.939394 11.654135 11.128527 14.594595 11.747212
## J 12.727273 11.372180 7.993730 4.864865 9.405204
## K 4.848485 5.263158 4.075235 1.621622 4.423792
## Ukupno 100.000000 100.000000 100.000000 100.000000 100.000000
Ovdje je ponovno korištena funkcija prop.table()
. Prvi argument su elementi tablice i odabrano je prvih osam redaka koji su pretvoreni u matrični oblik (odnosno, as.matrix(Tablica_4[1:8,])
). Kako bi se naznačilo da svaki od stupaca u odabranim recima treba biti podijeljen sumom stupca, drugi argument funkcije prop.table()
je broj 2 (označava da će se elementi pojedinih stupaca dijeliti pripadajućom sumom stupca). Rezultati su još pomnoženi sa 100, kako bi se proporcije preračunale u postotke. Potom je još izračunat zbirni redak i spojen je s prvim dijelom podatkovnog okvira.
Početak postupka sličan je kao za tablicu 4. Nakon toga ekstrahiramo potrebne stupce te pojavu 1 dijelimo pojavom 2 za RBK1, odnosno pojavu 2 dijelimo pojavom 1 za
> Tablica_8 <- table(Diamonds$Test, Diamonds$Cut)
> Tablica_8
##
## Good Very Good Excellent Ideal
## 0 104 631 770 108
## 1 29 215 253 42
## 2 32 218 253 35
> Tablica_8[, c(3,2)]
##
## Excellent Very Good
## 0 770 631
## 1 253 215
## 2 253 218
> Tablica8 <- as.data.frame(matrix(Tablica_8[, c(3,2)], nrow= 3, ncol = 2))
> Tablica8
## V1 V2
## 1 770 631
## 2 253 215
## 3 253 218
> RBK1 <- Tablica8[, 1] / Tablica8[, 2]
> RBK2 <- Tablica8[, 2] / Tablica8[, 1]
>
> Tablica8 <- cbind(Tablica8, RBK1, RBK2)
> Tablica8
## V1 V2 RBK1 RBK2
## 1 770 631 1.220285 0.8194805
## 2 253 215 1.176744 0.8498024
## 3 253 218 1.160550 0.8616601
> barplot(as.vector(table(Diamonds$Color)), names.arg = levels(Diamonds$Color))
Funkcija barplot()
za prvi argument prihvaća vektor ili matricu frekvencija pojave koja se grafički prikazuje. Zato su prvo izračunate frekvencije (table(Diamonds$Color)
), pa pretvorene u vektor (as.vector()
) te uvrštene kao argument funkcije (barplot()
). Drugi argument funkcije zadaje nazive stupaca (names.arg = levels(Diamonds$Color)
).
Grafički prikaz je moguće dodatno prilagoditi, a više o tome možete naučiti ako u donjem desnom prozoru RStudia u ‘Help’ pretraživaču upišete barplot()
.
Slika 2 slijedi isti postupak kao Slika 1, za odgovarajuću varijablu.
> barplot(as.vector(table(Diamonds$Cut)), names.arg = levels(Diamonds$Cut))
Slika 3 slijedi isti postupak kao Slika 1, za odgovarajuću varijablu.
> barplot(as.vector(table(Diamonds$Clarity)), names.arg = levels(Diamonds$Clarity))
Za kreiranje hitograma, koristi se naredva hist()
, a kao argument dovoljno je odabrati varijablu za koju se histogram kreira.
> hist(Diamonds$Price)
Moguća su i dodatna podešavanja. Ovdje je primjer, a za više detalja, u donjem desnom prozoru RStudia u ‘Help’ pretraživaču upišete hist()
.
> hist(Diamonds$Price, main = NULL, xlim = c(0, 12000), ylim = c(0, 700), xlab = "Cijena", ylab = "Frekvencija", col = "lightgreen")
> pie(as.vector(table(Diamonds$Color)), labels = levels(Diamonds$Color), col = c(1:8))
Strukturni krug (engl. pie chart) moguće je kreirati naredbom pie()
. Prvi argument iziskuje unos frekvencija modaliteta u obliku vektora, a drugi unos naziva.
> boxplot(Diamonds$Price)
Box-plot kreiramo naredbom boxplot()
. Za kreiranje jednostavnog box-plota, potrebno je kao argument unijeti varijablu za koju se box-plot kreira.
Za dateljnije uvide, dijeljenjem opažanja na podskupove prema boji, kao argument se unosi Diamonds$Price ~ Diamonds$Color
.
> boxplot(Diamonds$Price ~ Diamonds$Color)
Ovaj se grafikon kreira na isti način kao i prethodni, uz prilagodbu naziva varijable.
> boxplot(Diamonds$Carat.Size ~ Diamonds$Color)
Za kreiranje ovog grafikona, koristit će se paket ggplot2
, kojeg treba instalirati i učitati.
> library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
> ggplot(Diamonds, aes(x = Color, fill = Cut)) +
+ geom_bar(position = "stack") +
+ labs(title = "Razdijeljeni stupcasti dijagram",
+ x = "Boja",
+ y = "Frekvencija") +
+ theme_minimal()
ggplot(Diamonds, aes(x = Color, fill = Cut))
:
ggplot(Diamonds, ...)
- inicijalizira grafikon koristeći skup podataka Diamonds.aes(x = Color, fill = Cut)
- definira estetske mape gdje je varijabla Color na x-osi, a Cut određuje stupce.geom_bar(position = "stack")
:
geom_bar
) koji automatski broji frekvencije.position = "stack"
- kreira razdijeljene stupce prema varijabli Cut, što omogućava pregled udjela svakog reza unutar pojedine boje.labs(title = "Razdijeljeni stupcasti dijagram", x = "Boja", y = "Frekvencija")
:
title
- naslov grafikona.x
- oznaka za x-os.y
- oznaka za y-os.theme_minimal()
:
MS Excel je program za proračunske tablice razvijen od strane Microsofta, koji je postao industrijski standard za jednostavnu obradu podataka, analizu i vizualizaciju. Koristi se u raznim područjima kao što su financije, računovodstvo, marketing, prodaja i drugi. Excel omogućava korisnicima unos, organizaciju i manipulaciju podacima pomoću različitih funkcija, formula i alata za analizu. Osim toga, pruža mogućnosti za kreiranje grafikona, pivot tablica i automatizaciju zadataka putem VBA programiranja, što ga čini korisnim alatom za potporu poslovnom odlučivanju.
Za one koji traže besplatne alternative, dostupne su opcije poput Google Sheets i LibreOffice Calc. Google Sheets je online aplikacija koja omogućava kolaborativni rad u stvarnom vremenu, pružajući slične funkcionalnosti kao Excel, ali s dodatnim pogodnostima integracije s drugim Google alatima i dostupnošću preko interneta. LibreOffice Calc je dio LibreOffice paketa otvorenog koda, koji nudi robustan set alata za proračunske tablice, kompatibilan s mnogim Excel formatima. Ove alternative pružaju korisnicima fleksibilnost i pristupačnost, posebno za one koji nemaju pristup plaćenim softverskim rješenjima.
Ovdje će se prikazati postupak koristeći MS Excel, prvenstveno zbog učestalosti njegove upotrebe.
Koristeći MS Excel, prvenstveno se uvoze i kreiraju XLS i XLSX datoteke, no mogu se uvesti i CSV datoteke. XLS je stariji format datoteke koji se koristio u starijim verzijama Excela, dok je XLSX noviji format baziran na XML tehnologiji, što omogućuje bolju kompatibilnost, manju veličinu datoteka i lakše dijeljenje podataka. CSV (Comma-Separated Values) datoteke su jednostavne tekstualne datoteke u kojima su podaci odvojeni zarezima, što omogućuje jednostavan prijenos podataka između različitih aplikacija i sustava. Osim ovih formata, Excel podržava i uvoz podataka iz drugih formata kao što su TXT datoteke, PDF dokumenti te izravno povezivanje s bazama podataka poput SQL Servera.
Na preuzetu datoteku kliknite dvaput ako je MS Excel dodijeljen za pregled svih datoteka ovog tipa. Alternativno, ako Excel nije zadani program, desnim klikom na datoteku otvorit će se kontekstni izbornik, iz kojeg odabirete Open with ili Otvori s i iz izbornika odabrati Excel - kliknite OK ili Otvori kako biste otvorili datoteku u Excelu. Ako često radite s Excel datotekama, možete postaviti Excel kao zadani program za otvaranje tih tipova datoteka. To možete učiniti desnim klikom na datoteku, odabirom Properties (Svojstva), te u odjeljku Opens with (Otvara se s) kliknuti Change (Promijeni) i odabrati Microsoft Excel.
Prije nego započnemo s radom, moramo izvršiti prilagodbu mogućnosti uključivanjem dodataka (Add-Ins) Analysis ToolPak i Analysis ToolPak-VBA, kako bismo imali na raspolaganju sve potrebne mogućnosti za analizu.
Nakon ovih koraka, dodaci Analysis ToolPak i Analysis ToolPak-VBA bit će instalirani i dostupni za korištenje u vašem Excel okruženju, omogućujući vam naprednije analitičke alate i funkcionalnosti.
Nakon instalacije, kliknite na karticu Data u traci izbornika. Tamo će se pojaviti opcija Data Analysis, koja vam omogućuje pristup različitim naprednim statističkim alatima unutar Excela. Analysis ToolPak pruža širok spektar statističkih metoda kao što su regresija, ANOVA, deskriptivne statistike, t-testovi i mnoge druge.
Prikaz svih elemenata prve tablice (prvih 20 elemenata podatkovnog okvira) dostupan je zapravo, čim otvorimo datoteku s podacima.
Kako biste kreirali drugu tablicu, odaberite podatke varijable ‘Cut’ (možete ih prethodno kopirati na drugi list ili sa strane), pa kliknite na Data (Podaci), a potom odaberite From table/range.
Potom će Vam se otvoriti prozor za upravljanje podacima. Iz alatne trake odaberite Group By.
Podesite na Basic, Count i Count rows. Odabirom opcije Group By uz ovakve postavke, Excel grupira podatke prema vrijednostima varijable ‘Cut’. Ova postavka omogućava da se za svaku jedinstvenu kategoriju u stupcu ‘Cut’ izračuna broj redaka koji pripadaju toj kategoriji. Basic način grupiranja koristi osnovne kriterije za grupiranje, dok Count funkcija prebrojava broj opažanja svake grupe. Na kraju, Count rows osigurava da se brojanje vrši na temelju broja redaka unutar svake grupe, rezultirajući tablicom koja prikazuje frekvenciju svake kategorije ‘Cut’.
Kreirana je tablica frekvencija varijable ‘Cut’. Kliknite na Close&Load.
Kreirana tablica pojavit će se na novom listu. Ovo ujedno odgovara prikazu Tablice 3.
Nakon što ste kreirali tablicu koja prikazuje broj dijamanata za svaku kategoriju reza (‘Cut’), sljedeći korak je dodavanje dva stupca koja će vam omogućiti detaljniju analizu: stupac postotaka i stupac kumulativnih frekvencija “Manje od”.
Za izračunavanje postotaka, u prvi redak novog stupca unesite formulu koja dijeli broj dijamanata u toj kategoriji s ukupnim brojem dijamanata. Na primjer, u ćeliju B2
upišite =B2/$B$6
, gdje je B2
broj dijamanata za prvu kategoriju reza, a B6
ukupni broj dijamanata. Korištenjem apsolutne reference ($B$6
), osiguravate da se uvijek referencira ista ćelija prilikom kopiranja formule niz stupac. Nakon što unesete formulu u prvi redak, jednostavno je kopirajte niz stupac kako bi se primijenila na sve ostale kategorije, čime ćete dobiti postotke za svaku kategoriju reza.
Za stupac kumulativnih frekvencija, koji vam omogućava praćenje akumuliranog udjela dijamanata do svake kategorije, proces je malo drugačiji. U prvi redak kumulativnog stupca unesite formulu =C2
, gdje C2
predstavlja postotak prve kategorije. U drugom retku unesite formulu =D2+C3
, gdje D2
predstavlja kumulativni postotak prethodne kategorije, a C3
postotak iz promatrane kategorije u drugom retku. Ova formula dodaje trenutni postotak na kumulativni postotak prethodne kategorije, stvarajući tako kumulativnu sumu. Nakon što unesete ovu formulu u drugi redak, kopirajte je niz stupac kako bi se automatski izračunavale kumulativne vrijednosti za sve ostale kategorije. Na taj način, stupac kumulativnih frekvencija postupno raste sve do ukupnog iznosa od 100%.
Postupak je prikazan u prvom dijelu kreiranja Tablice 2.
Ako varijable koje želite dalje analizirati nisu jedna do druge u podatkovnom okviru, ostatak postupka će biti lakši ako ih kopirate i zalijepite sa strane ili na drugi radni list, jednu do druge.
Umetnite PivotTable:
Na desnoj strani ekrana pojavit će se “PivotTable Fields” panel.
Trebali biste vidjeti tablicu kontingence gdje su Color redovi, Cut kolone, a brojevi predstavljaju frekvencije.
Kada kreiramo kutno sto u Excelu, unosimo formulu za jednu ćeliju, na primjer B5/$B$13*100
, gdje je $B$13
apsolutna referenca koja ostaje nepromijenjena prilikom kopiranja formule. Ovo omogućava da se svaki element u stupcu podijeli s ukupnom vrijednošću stupca ($B$13
), a zatim pomnoži sa 100 kako bi se dobili postoci. Kopiranjem formule u preostala polja stupca, relativna referenca (B5
) se automatski prilagođava za svaku ćeliju, dok apsolutna referenca osigurava da se dijeli uvijek s istom ukupnom vrijednošću.
Za vodoravno sto, unosimo formulu, npr. B5/$F13
, gdje je $F13
apsolutna referenca na ukupnu vrijednost reda. Ova formula dijeli svaki element u redu s ukupnom vrijednošću tog reda ($F13
) i kopira se kroz sve ćelije reda. Relativna referenca (B5
) prilagođava se za svaku ćeliju u redu, dok apsolutna referenca osigurava da se dijeli s istom ukupnom vrijednošću, omogućavajući precizno izračunavanje postotaka za svaki element unutar reda.
Kada kreiramo tablicu okomito sto, koristimo, npr. formulu B5/B$13
, gdje je B$13
apsolutna referenca na ukupnu vrijednost stupca, ali relativna referenca na red (B5
). Ovo omogućava da se svaki element u stupcu dijeli s ukupnom vrijednošću tog stupca (B$13
), dok se referenca na red automatski prilagođava prilikom kopiranja formule kroz stupac. Time se osigurava konzistentno izračunavanje postotaka za svaki element u stupcu, bez potrebe za ručnim unosom formule za svaku ćeliju.
Početak postupka je isti kao i pri kreiranju Tablice 4.
Nakon toga, obrišemo ili sakrijemo stupce viška te dodajemo stupce RBK1 i RBK2.
Kako biste kreirali odgovarajući grafički prikaz, označite podatke (u ovom slučaju, varijablu ‘Color’), a potom kliknite na Insert (Umetni). Odaberite Recommended Charts.
Nakon odabira Recommended Charts, otvorit će se preglednik ponuđenih grafova. Ponekad će se tu naći samo jedan graf, a ponekad će biti ponuđeno više njih. Odaberite stupčasti dijagram (bar plot).
Tim postupkom kreirali ste stupčasti grafikon. Ako želite, grafikon možete dodatno urediti (prilagoditi boje, osi, naslov grafa i dr.) odabirom na + ili kist u desnom gornjem uglu slike.
Slijedeći isti postupak kao za prvu sliku, kreirate stupčasti grafikon varijable ‘Cut’. Odaberete podatke varijable ‘Cut’, potom kliknete na Insert, Recommenden Charts te odaberete stupčasti grafikon.
Slijedeći isti postupak kao za prvu sliku, kreirate stupčasti grafikon varijable ‘Clarity’. Odaberete podatke varijable ‘Clarity’, potom kliknete na Insert, Recommenden Charts te odaberete stupčasti grafikon.
Za kreiranje ove slike, nije moguće direktno koristiti isti postupak kao za prve tri slike. Ako to učinite, dobit ćete sljedeći prikaz:
Kako bismo kreirali strukturni krug (pie chart) za varijablu ‘Color’, prvo kreiramo tablicu frekvencija (po uzoru na postupak kreiranja Tablice 1), a potom odabiremo te podatke, kliknemo na Insert, pa Recommended Charts i odabiremo Pie.
Nakon što kliknete na OK ili U redu, prikazat će se kreirani graf.
Za kreiranje grafa prikazanog na slici 5, odabiremo podatke varijable ‘Price’. Potom kliknemo na Insert. Nakon toga, iz sekcije grafova, odabirete statističke grafikone, koji su prikazani ikonom u obliku histograma (ikona je zaokružena crvenom bojom na slici).
Klikom na statističke grafove, u pravilu se nude tri opcije: (1) jednostavni histogram, (2) histogram s kumulativnim nizom (Pareto) i (3) Box-plot; a ispod toga stoji More Statistical Charts. Ako kratko zadržite kursor iznad svakog, prikazat će se objašnjenje.
Odaberite jednostavni histogram.
Nakon klika na histogram, kreiran je grafikon kojeg možete dodatno urediti (naslov, osi, boje, itd.) klikom na + i kist u gornjem desnom uglu grafikona.
Za kreiranje box-plota, prvo odaberite podatke varijable koju želite prikazati. Potom kliknemo na Insert. Nakon toga, iz sekcije grafova, odabirete statističke grafikone. Kao i pri kreiranju histograma, klikom na statističke grafove, u pravilu se nude tri opcije: (1) jednostavni histogram, (2) histogram s kumulativnim nizom (Pareto) i (3) Box-plot; a ispod toga stoji More Statistical Charts. Ako kratko zadržite kursor iznad svakog, prikazat će se objašnjenje.
Odaberite jednostavni box-plot. Time ste kreirali box-plot varijable ‘Price’.
No, u tekstu je prikazan grafikon u kojem je niz podataka varijable ‘Price’ podijeljen na poduzorke prema kategoriji boje. Da bi se to postiglo, odabirete Select data iz trake izbornika. Potom se otvorio novi prozor.
Panel pod nazivom Horizontal Category je prazan i potrebno je kliknuti na Edit. Nakon toga, otvara se prozorčić za unos podataka.
Kliknite na prvu vrijednost varijable ‘Color’ i označite cijeli niz podataka (sve podatke u stupcu - najlakše ako ste kliknuli na drugu ćeliju a potom odabrali Ctrl+Shift+ strelica za dolje). Kliknite OK i dobit ćete grafikon nalik prikazanom.
Za kreiranje grafikona prikazanim Slikom 7, koristimo isti postupak, kao i pri kreiranju prethodnog grafikona. U nastavku su isječci koji prate psotupak.
Za kreiranje grafikona prikazanim slikom 8, koristimo ranije kreiranu tablicu 4. Odabiremo elemente matrice podataka (bez zbirnog retka i zbirnog stupca) te kliknemo na Insert, Recommended Charts, te odabiremo Barplots, a potom razdijeljeni stupčasti grafikon kojeg možemo i vizualno prepoznati.
Nakon klika na OK, prikazat će se sljedeći grafikon.
De Veaux, D. (2015). What Makes Diamonds so Expensive? Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=b8671ff3-a2d2-4ea4-a3f2-7c82dac7151f&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.
Firke, S. (2021). Janitor: Simple tools for examining and cleaning dirty data. R package version, 2(0).
Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.
Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.
JASP Team (2024). JASP (Version 0.19.3)[Computer software].
Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://uvod-u-r-i-r-studio.netlify.app/
Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf
Saefong, M.P., (2015).Diamonds may be the next big thing in the futures market. MarketWatch. https://www.marketwatch.com/story/forget-gold-diamonds-may-be-the-next-big-thing-in-the-futures-market-2015-08-04?siteid=bigcharts&dist=bigcharts
Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb. Wickham, H., & Wickham, H. (2016). Programming with ggplot2. Ggplot2: elegant graphics for data analysis, 241-253.
Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.
Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.