U ovom tekstu, fokusirat ćemo se na osnovne statističke pojmove i metode analize kvalitativnih podataka, koristeći konkretan primjer na stvarnim podacima. Kroz primjer će se prikazati određivanje vrsta varijabli i razina mjerenja varijabli, a nakon toga ćemo se usmjeriti na prikaze podataka putem grafikona i tablica.

Slučaj: dijamanti

Ovdje ćemo se baviti prikazom podataka o dijamantima. Skup podataka dostupan je putem javne baze podataka ASA (American Statistical Association), a primjer analize kreirao je i Dick De Veaux, koji je tu analizu učinio dostupnu putem navedene baze u Listopadu 2015. godine.

Evo kratkog opisa motivacije za analizu. Zlato je desetljećima standardna dragocjena roba na financijskim terminskim tržištima, ali i dijamanti bi mogli funkcionirati na sličan način. Martin Rapaport, izvršni direktor burze dijamanata, nada se pokretanju terminskog tržišta dijamanata krajem 2016. i početkom 2017. godine (vidi http://www.marketwatch.com/story/forget-gold-diamonds-may-be-the-next-big-thing-in-the-futures-market-2015-08-04?siteid=bigcharts&dist=bigcharts)

Cijene zlata se računaju na relativno jednostavan način. Iako postoje male varijacije u čistoći (neki zlatnici imaju samo 91,7% – 22-karatno zlato, dok su poluge i druge poluge 99,99% čiste – 24 karata), cijene se temelje na jednoj (iako promjenjivoj) teorijskoj cijeni koja se naziva spot cijena.

Ali dijamanti su drugačiji. Sa zlatom, ako kupite polugu 10 puta težu od druge, platit ćete oko 10 puta više. S dijamantima je to kompliciranije. Ne samo da je veličina (karatna težina) važna, nego i četiri C (engl. carat, cut, color clarity): karat, rez, boja i jasnoća.

Napomena: pri analizi ovih podataka, u tablicama i grafikonima koriste se nazivi varijabli dodijeljeni u izvornom skupu podataka, a u tumačenjima prevedene inačice.

Odnos cijene (engl. Price) sa svakim od “C”-ova:

Veliki dijamanti su skuplji (ali ne nužno linearno)
Bezbojni dijamanti su skuplji (D, E i F su bezbojni, zatim G - K)
Jasnoća je također važna (interno besprijekorno)
Rez (idealan, vrlo dobar, dobar, dovoljno dobar, loš)

Ali što je najvažnije? Koji su kompromisi?

Imamo podatke o 2690 dijamanata koje je Lou Valente iz JMP-a prikupio s weba. Želimo dobiti dublje uvide o karakteristikama dijamanata temeljem podataka. Podatke o dijamantima korištene u štivu možete naći na linku ili na e-ucenju. Tablica 1. daje uvid u prvih 20 opažanja.

Iščitavanje podataka iz podatkovnog okvira

Tablica 1. Prvih 20 opažanja podatkovnog okvira Diamonds

Veličina	Boja	Jasnoća	Dubina	Tablica	Rez	Izvješće	Cijena	Log.cijena	Tablica.Dubina	Tablica.Dubina.1	Test
0.3	E	VVS1	60	59	Odličan	GIA	1000	6.90775528	-1	0.98333333	0
0.44	E	VS2	61.9	58	Odličan	GIA	1000	6.90775528	-3.9	0.93699515	1
0.31	E	VVS1	61.3	58	Odličan	GIA	1000	6.90775528	-3.3	0.94616639	0
0.66	K	SI1	62.8	57	Odličan	GIA	1000	6.90775528	-5.8	0.90764331	2
0.47	H	VS2	59.1	64	Vrlo dobro	GIA	1000	6.90775528	4.9	1.08291032	2
0.4	G	VS1	62	59	Odličan	GIA	1000	6.90775528	-3	0.9516129	2
0.36	D	VS2	61.3	57	Odličan	GIA	1000	6.90775528	-4.3	0.92985318	0
0.52	H	SI2	61.7	61	Vrlo dobro	GIA	1000	6.90775528	-0.7	0.98865478	0
0.53	D	SI2	59.4	59	Vrlo dobro	GIA	1001	6.90875478	-0.4	0.99326599	0
0.43	F	VS2	61.5	60	Odličan	GIA	1001	6.90875478	-1.5	0.97560976	2
0.43	F	VS2	60.4	59	Vrlo dobro	GIA	1001	6.90875478	-1.4	0.97682119	0
0.43	F	VS2	62	58	Vrlo dobro	GIA	1001	6.90875478	-4	0.93548387	1
0.3	E	VVS1	59.1	62	Dobar	GIA	1001	6.90875478	2.9	1.04906937	2
0.47	Ja	VS2	62.4	57	Odličan	GIA	1001	6.90875478	-5.4	0.91346154	0
0.41	E	VS2	62.8	56	Odličan	GIA	1001	6.90875478	-6.8	0.89171975	0
0.44	D	SI1	60.2	60	Odličan	GIA	1001	6.90875478	-0.2	0.99667774	0
0.36	F	VVS2	60.7	59	Odličan	GIA	1001	6.90875478	-1.7	0.97199341	1
0.4	E	VS1	62.5	62	Dobar	GIA	1001	6.90875478	-0.5	0.992	2
0.4	E	VS1	64.3	60	Dobar	GIA	1001	6.90875478	-4.3	0.93312597	0
0.32	F	AKO	61.5	57	Vrlo dobro	GIA	1002	6.90975328	-4.5	0.92682927	2

Podatkovni okvir je struktura podataka u kojoj svaki stupac predstavlja varijablu, a svaki redak pojedinačno opažanje. Za razliku od statističkih tablica koje predstavljaju prikaz grupiranih podataka ili rezultata obrade podataka, podatkovni okvir omogućava analizu podataka temeljem pojedinačnih opažanja, a prikladan je i kao input/ulaz za daljnju analizu putem softvera ili programskih jezika.

Na početku svake analize, prvo definiramo statistički skup

Pojmovno definiranje statističkog skupa

Statistički skup sastoji se od:

Jedinica opažanja (koga promatramo?):
- To je osnovni entitet koji se promatra i mjeri u istraživanju.
- U ovom skupu podataka, jedinice opažanja su dijamanti.
Varijable (prema kojim karakteristikama ih promatramo?):
- To su atributi, svojstva ili karakteristike koje mjerimo i bilježimo za svaku jedinicu opažanja.
- U skupu podataka o dijamantima, karakteristike uključuju veličinu (karat), boju, jasnoću, dubinu, tablicu, rez, izvješće, cijenu, logaritamsku cijenu, omjere tablice i testne kategorije.

Prostorno određenje statističkog skupa

Prostorno određenje odnosi se prvenstveno na geografski aspekt skupa podataka:

Izvor podataka: Odakle dolaze podaci o dijamantima?
Gdje se geografski nalaze jedinice opažanja: Jesu li prikupljeni globalno, ili iz specifičnih tržišta/regija ili zemalja?
- Ovo znamo, ili možemo saznati, jer imamo linkove navedene ranije: Podaci. Vidimo da su podaci prikupljeni online i da je to učinio Louis Valente (JMP Director of Global Field Enablement, SAS).
- Dakle, podaci su prikupljeni online i odnose se na globalno tržište dijamanata.

Vremensko određenje statističkog skupa

Vremensko određivanje odnosi se na vremenski okvir prikupljanja podataka. Ključni elementi uključuju:

Datum ili period prikupljanja: Kada su podaci prikupljeni? Jesu li svi dijamanti prikupljeni u istom vremenskom periodu ili tijekom različitih godina?
- Prema dostupnim podacima na linkovima, podaci su prikupljeni tijekom 2014. godine, a objavljeni u rujnu 2014. godine.

Statistički skup obuhvaća podatke o 2690 dijamanata prikupljenih online s globalnog tržišta tijekom 2014. godine, a promatrane karakteristike uključuju veličinu karata, boju, jasnoću, dubinu, tablicu, rez, izvješće, cijenu, logaritamsku cijenu, omjere tablice i testne kategorije.

Populacija ili uzorak?

Populacija:

Potpuni skup svih mogućih opažanja ili elemenata koji zadovoljavaju određene kriterije.
Primjer: Cijene svih dijamanata prodanih na globalnom tržištu tijekom jedne godine. Ili, cijene svih dijamanata oglašenih na stranici xy (ako je istraživački cilj specifično zaključivati o cijenama dijamanata ponuđenih putem te određene stranice). Ili, cijene svih dijamanata kojima se trgovalo u RH na dan DD.MM.GGGG. Dakle, populacija se može odnositi na veće ili manje skupove, ali ti skupovi moraju obuhvaćati sve jedinice kojima se zadovoljavaju zadani kriteriji relevantni za istraživanje i zaključke koji se žele donijeti.

Uzorak:

Dio populacije koji je odabran za analizu.
Primjer: 1000 cijena dijamanata prikupljenih s određenih web stranica. Ili, 1000 dostupnih cijena dijamanata prikupljenih s web-a. Ili, cijene odabranih 100 dijamanata oglašenih na stranici xy. Ili, cijene odabranih 200 dijamanata kojima se trgovalo u SAD-u na dan DD.MM.GGGG.

Ako još nije posve jasna razlika, pitamo se…

Uključuje li skup podataka sve dijamante koji zadovoljavaju određene kriterije (npr., svi dijamanti certificirani od strane GIA od-do određenog datuma, svi dijamanti kojima se trgovalo u određenoj godini, itd.)? Ako da, radi se o populaciji.
Uključuje li skup podataka samo dio dijamanata (npr., samo dijamanti za koje su bili dostupni podaci putem web-a)? Ako da, radi se o uzorku.

Ovaj skup podataka:

S obzirom na to da imamo podatke o samo 2690 dijamanata, to neće biti populacija (karakteristike svih dijamanata u 2014. godini), pa zaključujemo da se radi o uzorku. Taj zaključak možemo dodatno potkrijepiti time što nije navedeno da skup podataka pokriva sve dijamante unutar nekih definiranih kriterija (npr. svi certificirani dijamanti ili svi prodani dijamanti u 2014. godini, itd.). Temeljem toga, prilagođavamo svoj opis skupa:

Statistički skup obuhvaća uzorak od 2690 dijamanata prikupljenih online s globalnog tržišta tijekom 2014. godine, a promatrane karakteristike uključuju veličinu karata, boju, jasnoću, dubinu, tablicu, rez, izvješće, cijenu, logaritamsku cijenu, omjere tablice i testne kategorije.

Iščitajte Tablicu 1. Što predstavljaju stupci? Što predstavljaju redovi u ovoj tablici? Kako se može pročitati prvi red?

Tablica daje podatke o pojedinačnim dijamantima, pri čemu svaki redak predstavlja određeno opažanje ili jedan dijamant, a svaki stupac odgovara određenoj karakteristici ili mjeri koja se odnosi na dijamant. Ovako kreirana tablica zove se podatkovni okvir.

Potpitanje: Koje vrste varijabli postoje i koja je njihova razina mjerenja?

Veličina karata

Veličina karata predstavlja težinu dijamanta izraženu u karatima, što je osnovni indikator vrijednosti i tržišne cijene.
Vrsta: Kvantitativna, kontinuirana
Razina mjerenja: Omjerna (ima apsolutnu nulu, a omjeri između vrijednosti su smisleni, npr. dijamant od 0,6 karata dvostruko je teži od dijamanta od 0,3 karata).

Boja

Boja dijamanta ocjenjuje prisutnost i intenzitet boje, gdje bezbojni dijamanti (najviša kvaliteta) dobivaju najviše ocjene. Mjerenje boje omogućava procjenu kvalitete i estetike kamena te također utječu na njegovu vrijednost.
Vrsta: Kvalitativna, stupnjevita
Razina mjerenja: Ordinalna (boje su rangirane od D do K, gdje se D smatra najkvalitetnijom, ali razlika između rangova nije precizno mjerljiva u jednakim razmacima; iako su boje inače opisne kvalitativne varijable mjerene na nominalnoj razini, varijabla koja se ovdje zove ‘Boja’ zapravo mjeri razinu poželjnosti boje dijamanta).

Jasnoća

Jasnoća dijamanta označava prisutnost unutarnjih ili vanjskih nesavršenosti (inkluzije i ogrebotine). Ova karakteristika mjeri vizualnu čistoću kamena, što direktno utječe na njegov sjaj, ali i cijenu.
Vrsta: Kvalitativna, stupnjevita
Razina mjerenja: Ordinalna (ocjene jasnoće imaju redoslijed rangiranja, od interno besprijekorno (IF) do SI2, ali intervali između kategorija nisu numerički definirani u objektivnim, jednakim razmacima).

Dubina

Dubina se odnosi na visinu dijamanta u odnosu na širinu, izraženu kao postotak ukupne širine. Mjerenje dubine je važno za procjenu optičkih svojstava i svjetlosnog odbijanja dijamanta.
Vrsta: Kvantitativna, kontinuirana
Razina mjerenja: Omjerna (ima apsolutnu nulu, a omjer vrijednosti je smislen).

Tablica

Tablica dijamanta predstavlja najveći horizontalni dio kamena, izražen kao postotak ukupne širine. Ova varijabla mjeri proporcije kamena, što utječe na njegovu estetiku i vizualni dojam.
Vrsta: Kvantitativna, kontinuirana
Razina mjerenja: Omjerna (veličina tablice može se mjeriti u postotku širine, a razlike i omjeri su smisleni).

Rez

Rez dijamanta ocjenjuje način na koji je kamen izrezan, uključujući proporcionalnost i simetriju. Kvalitetni rez omogućuje maksimalno iskorištavanje svjetlosti i sjaja, što povećava vrijednost dijamanta.
Vrsta: Kvalitativna, stupnjevita
Razina mjerenja: Ordinalna (rez je rangiran od idealnog do dobrog).

Izvješće

Izvješće se odnosi na naziv nadležne agencije koja izdaje ceritifikat temeljem detaljne ocjene koju daju stručnjaci. Omogućuje transparentnost i povjerenje kupaca.
Vrsta: Kvalitativna, kategorička
Razina mjerenja: Nominalna (ovo je kategorička varijabla koja predstavlja tijelo za ocjenjivanje, bez inherentnog redoslijeda).

Cijena

Cijena dijamanta izražava njegovu tržišnu vrijednost u lokalnoj valuti. Ova varijabla mjeri ekonomsku vrijednost kamena, omogućavajući usporedbu različitih dijamanata na tržištu.
Vrsta: Kvantitativni, kontinuirani
Razina mjerenja: Omjerna (cijena ima pravu nulu i može se smisleno usporediti kroz omjere).

Logaritmirana cijena:

Logaritamska cijena je prirodni logaritam izvorne cijene dijamanta, što pomaže u normalizaciji distribucije cijena i olakšava neke statističke analize. Mjerenje log cijene omogućava bolje razumijevanje ekonomskih trendova i varijabilnosti cijena.
Vrsta: Kvantitativni, kontinuirani
Razina mjerenja: Omjerna (logaritamska transformacija cijene zadržava razinu mjerenja omjera).

Tablica.dubina i Tablica.dubina.1

Omjeri tablice i dubine odnose se na proporcionalne mjere dubine i širine i dubine i horizontalnog dijela. Ove varijable mjere simetriju i ravnotežu kamena, utječući na njegovu estetsku privlačnost.
Vrsta: Kvantitativna, kontinuirana
Razina mjerenja: Omjerna (to su izračunati udjeli ili razlike koje su značajne u smislu njihove veličine i omjera).

Test

Testne kategorije klasificiraju dijamante prema specifičnim karakteristikama i standardima koji se analiziraju. Ova kategorija omogućava detaljniju segmentaciju.
Vrsta: Kvalitativna, stupnjevita
Razina mjerenja: Ordinalna (čini se da ovo predstavlja rangiranje ili kategoriju testiranja, ali specifičnosti njegovog mjerenja nisu jasne iz danih podataka).

Dakle, prije nego počnemo s iščitavanjem i analizom, moramo dobro razumijeti na što se podaci odnose, što je statistički skup, što koja varijabla predstavlja, koje je vrste i na kojoj se razini mjeri. Sad pristupamo iščitavanju prvih nekoliko redaka.

Na primjer, prvi red prikazuje dijamant od 0,3 karata s E bojom, jasnoćom VVS1 i odličnim rezom, certificiranim od strane GIA-e, po cijeni od 1000 dolara. Također uključuje informacije o dubini dijamanta i omjerima tablice, što pomaže u daljnjem opisivanju njegovih fizičkih karakteristika.

Drugi redak opisuje dijamant od 0,44 karata s bojom E, jasnoćom VS2 i odličnim rezom, također certificiranim od strane GIA-e, po istoj cijeni od 1000 dolara. Ovaj dijamant ima dubinu od 61,9 i tablicu od 58, pružajući uvid u njegovu proporciju i estetiku.

Treći redak predstavlja dijamant od 0,31 karata s bojom E, jasnoćom VVS1 i odličnim rezom, certificiranim od GIA-e, po cijeni od 1000 dolara. Dubina ovog dijamanta iznosi 61,3, dok tablica iznosi 58, što ukazuje na njegovu ravnotežu i vizualnu privlačnost.

Četvrti redak prikazuje dijamant od 0,66 karata s bojom K, jasnoćom SI1 i odličnim rezom, certificiranim od strane GIA-e, po cijeni od 1000 dolara. Dubina dijamanta iznosi 62,8, a tablica je 57.

Peti redak opisuje dijamant od 0,47 karata s bojom H, jasnoćom VS2 i vrlo dobrim rezom, certificiranim od GIA-e, također po cijeni od 1000 dolara. Ovaj dijamant ima dubinu od 59,1 i tablicu od 64.

Ovdje ćemo se kratko pozabaviti pojmovima iščitavanje i tumačenje. Iščitavanje statističkih podataka i pokazatelja odnosi se na proces pregledavanja i razumijevanja osnovnih informacija koje podaci pružaju. Na primjer, pri iščitavanju tablice frekvencija boja dijamanata (pokazatelji), možete primijetiti koliko dijamanata pripada svakoj kategoriji boje, kao i ukupnu distribuciju boja u uzorku. Tumačenje statističkih podataka i pokazatelja ide korak dalje i uključuje interpretaciju značenja tih podataka u kontekstu istraživačkog pitanja ili poslovnog problema. Tumačenje podataka zahtijeva razumijevanje odnosa između različitih pokazatelja, prepoznavanje obrazaca, trendova i anomalija, te donošenje zaključaka koji mogu voditi donošenju odluka ili daljnjim istraživanjima. Dakle, dok je iščitavanje pomoćna radnja koju često automatski provodimo dok promatramo podatke, tumačenje podrazumijeva smislen i cjelovit opis koji (u pravilu, jednostavnim riječnikom) obuhvaća izračunati pokazatelj/ parametar, kontekst i glavne zaključke analize. Ovaj opis treba biti takav da bilo tko, čak i netko tko nije vidio postupak analize, može razumjeti o čemu se radi i zašto je određeni zaključak donesen.

Iščitavanje grafikona

Iščitavanje stupčastih grafikona

Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?

Slika 1. Prikaz dijamanata prema boji

Stupčasti grafikon ilustrira raspodjelu učestalosti dijamanata na temelju njihove boje. Os x predstavlja različite kategorije boja, u rasponu od D (bezbojna) do K (više obojena), dok os y prikazuje broj dijamanata u svakoj kategoriji. Visina svakog stupca odgovara učestalosti dijamanata s tom specifičnom bojom. Iz grafikona je vidljivo da su dijamanti s bojom E najčešći, a slijede ih oni u kategorijama F i G. Nasuprot tome, dijamanti s bojom K su najrjeđi. Ovaj grafikon pruža pregled rasporeda boja dijamanata.

Kako čitati ovaj grafikon?

Stupčasti grafikon se, u pravilu, koristi za prikaz kvalitativnih podataka.
Na x-osi će se naći modaliteti varijable.
Na y-osi će se naći frekvencije (tj. koliko se puta određeni modalitet pojavljuje u skupu podataka).
Iščitavanje se odnosi na povezivanje vrijednosti koje iščitamo s x-osi i y-osi. Na primjer, u ovom skupu podataka postoji približno 290 dijamanata boje D.

Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?

Slika 2. Prikaz dijamanata prema kvaliteti reza

Stupčasti grafikon predstavlja raspodjelu učestalosti dijamanata na temelju kvalitete njihovog reza. Os x prikazuje različite kategorije reza, u rasponu od idealnog do dobrog, dok os y označava broj dijamanata koji spadaju u svaku kategoriju reza. Visina svakog stupca odražava učestalost dijamanata s određenim rezom. Iz grafikona je jasno da je najčešći rez Odličan, a slijedi Vrlo dobar. Dijamanti s idealnim i dobrim rezovima rjeđi su u skupu podataka. Ovaj grafikon daje pregled načina na koji se dijamanti raspoređuju prema kvaliteti reza.

Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?

Slika 3. Prikaz dijamanata prema jasnoći

Stupčasti grafikon ilustrira raspodjelu učestalosti dijamanata na temelju njihove jasnoće. Os x navodi različite stupnjeve jasnoće (modalitete varijable), od IF (interno besprijekorno) do SI2 (malo uključeno), dok os y označava broj dijamanata u svakoj kategoriji jasnoće. Visina svakog stupca odgovara broju dijamanata unutar svakog stupnja čistoće. Prema grafikonu, najčešći stupnjevi jasnoće su SI1 i SI2, dok su najrjeđi IF. Ovaj grafikon daje pregled načina na koji su dijamanti raspoređeni s obzirom na svoju jasnoću, s većom koncentracijom u kategorijama SI1 i SI2.

Iščitavanje histograma

Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?

Slika 4. Prikaz dijamanata prema cijeni

Prikazani grafikon je histogram koji predstavlja varijablu cijena dijamanata u skupu podataka. Os x prikazuje raspon cijena, dok os y predstavlja učestalost ili broj dijamanata koji spadaju u svaki raspon cijena. Svaki stupac odražava koliko je dijamanata cijenjeno unutar intervala prikazanih na osi x.

Iz histograma možemo primijetiti da je većina dijamanata koncentrirana u nižem cjenovnom rangu, s najvećom učestalošću oko 1,000 USD. Kako cijena raste, učestalost dijamanata se smanjuje, pokazujući desnostrano asimetričnu distribuciju (desni krak je izvučen udesno), što znači da su dijamanti s višom cijenom rjeđi. Ovaj histogram pruža jasan vizualni prikaz distribucije cijena dijamanata u skupu podataka.

Kako čitati ovaj grafikon?

Histogram je grafički prikaz distribucije numeričkih podataka. Sastoji se od međusobno spojenih stupaca koji predstavljaju različite intervale vrijednosti, nazvane razredi. Visina svakog stupca pokazuje frekvenciju (broj) podataka unutar tog razreda.
Na x-osi uvijek će se naći aritmetičko mjerilo za varijablu, u mjernim jedinicama u kojima je varijabla iskazana. Pogledajte na osi x kako su podijeljeni podaci. Razredi mogu biti jednake širine ili različite, ovisno o svrsi analize. Provjerite raspon svakog razreda kako biste razumjeli koje vrijednosti obuhvaća.
Na y-osi će se uvijek naći frekvencije.
Svaki stupac predstavlja skupinu opažanja u određenom intervalu, odnosno jedan razred. Pritom interval vrijednosti iščitavamo s osi x, a na osi y iščitavamo koliko je opažanja s vrijednostima u tom interval zabilježeno u skupu podataka. Pritom je pozicija i širina stupca vezana uz interval vrijednosti koje stupac obuhvaća, a visina stupca vezana je uz frekvencije.
Na primjer, u skupu podataka postoji približno 250 dijamanata s rasponom cijene između 1500 i 2000 dolara.

Iščitavanje strukturnog kruga (pie chart)

*Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?

Slika 5. Prikaz dijamanata prema bojama

Strukturni krug ili torta-dijagram pruža vizualni prikaz distribucije dijamanata po kategorijama boja, označenih od D do K. Svaki segment kolača predstavlja određenu ocjenu boje, a različite boje u grafikonu odgovaraju tim ocjenama. Ovaj grafikon služi kao učinkovit način za brze uvide o strukturi i udjelima dijamanata prema ocjeni boje u skupu podataka.

Legenda na desnoj strani grafikona pomaže identificirati koji segment odgovara svakoj boji dijamanta. Npr: - Segment u zelenoj boji predstavlja dijamante u kategoriji D boja. - Narančasti segment predstavlja dijamante u kategoriji boja E i tako dalje.

Brojevi oko grafikona (0, 20, 40, 60, 80 i 100) sugeriraju postotne intervale, koji daju ideju o udjelima u krugu. Na grafikonu možemo vizualno usporediti koliki dio ukupne količine zauzima svaka skupina boja. Na primjer, čini se da dijamanti u boji G i H (u ružičastoj i zelenoj boji) zauzimaju značajne dijelove kolača, dok dijamanti u kategoriji boja K (u sivoj boji) čine bitno manji dio.

Kako iščitavati ovaj grafikon?

Strukturni krug prikazuje dijelove cijeline, a najčešće se koristi za prikaz kvalitativnih podataka. Cijeli krug predstavlja 100% ili sva opažanja u skupu podataka. Udjeli površina u tom krugu predstavljaju pojedinačne kategorije ili dijelove te cjeline.
Svaki udio obično ima oznaku ili boju koja je povezana s određenom kategorijom. Pogledajte legendu (ako postoji) kako biste razumjeli koje boje ili oznake pripadaju kojim kategorijama.
Veličina površine signalizira udio te kategorije u odnosu na cjelinu. Možete procijeniti udio gledajući veličinu površine (isječka) ili provjeriti pripadajuće postotke ako su označeni.

Iščitavanje box-plota

Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?

Slika 6. Prikaz cijena dijamanata za svaku skupinu boje dijamanata

Grafikon je box-plot dijagram (još se naziva i kutijasti dijagram), vizualni alat koji se koristi u analizi podataka, a u ovom slučaju prikazuje raspored cijena dijamanata (os y). Ovdje imamo prikazano više box-plotova, po jedan za svaku boju dijamanta. To znači da je skup podataka podijeljen na podskupove prema kriteriju boje, a potom je za svaku boju kreiran box-plot. Za svaku skupinu boja (npr. svi dijamanti koji su ocijenjeni kao D boja) uzimamo odgovarajuće cijene dijamanata i stvaramo vizualni sažetak. Ovaj se postupak ponavlja za svaku boju, tako da na kraju dobijemo zaseban pravokutnik i repove (krakove ili brkove – u različitoj literaturi naići ćete na različite nazive) za svaku kategoriju boja, koja pokazuje kako su cijene raspoređene unutar tog određenog podskupa dijamanata. Ovaj grafički prikaz usporedno prikazuje raspon i raspored cijena dijamanata s obzirom na boju dijamanata.

Os x dijagrama predstavlja kategorije boja od D do K, dok os y prikazuje cijenu dijamanata u tim kategorijama. Pravokutnici u dijagramu predstavljaju srednjih 50% podataka za svaku grupu boja. To znači da središnja polovica cijena dijamanata za određenu boju spada u ovaj pravokutnik (izuzima se rubnih 25% sa svake strane). Linija unutar pravokutnika predstavlja medijan, što je položajna središnja vrijednost cijena i označava da polovica dijamanata u toj skupini ima cijenu ispod ove vrijednosti, a polovica je iznad nje (ili, preciznije, polovica opažanja ima tu vrijednost ili manju, a druga polovica opažanja ima tu vrijednost ili veću). Linije koje se protežu od pravokutnika, nazivaju se krakovi ili brkovi, a pokazuju raspon cijena koje se nalaze na određenoj udaljenosti od pravokutnika i medijana. Ovi brkovi pomažu nam vidjeti ukupni raspon cijena u skupini boja.

Jednostavnije rečeno, box-plot nam daje ideju o tipičnom rasponu cijena dijamanata unutar svake skupine boja, pokazujući gdje je većina cijena grupirana i kako su raspršene. Također ističe postoje li dijamanti u skupini čija je cijena mnogo viša ili niža od ostalih, koji se nazivaju izdvojenice (ekstremi ili engl. outliers) i prikazani su kao pojedinačne točke iznad ili ispod brkova.

Dakle, opažanja (cijene dijamanata) prvo su podijeljena u podskupove na temelju njihove boje. Zatim su za svaki podskup (kategorija boja) kreirani box-plotovi. To nam omogućuje usporedbu raspodjele cijena u različitim bojama dijamanata na jasan, koncizan način. Čak i ako niste još upoznati s analizom podataka, boxplot pomaže brzo pokazati kako se cijene dijamanata razlikuju između različitih skupina boja bez potrebe za pregledavanjem svake pojedinačne cijene.

Kako čitati ovaj grafikon:

box-plot za svaku boju prikazuje interkvartilni raspon (IQ ili IQR), koji sadrži središnjih 50% podataka. Vodoravna crta unutar svakog pravokutnika predstavlja medijalnu cijenu za tu kategoriju boja.
Brkovi se protežu do minimalne i maksimalne cijene unutar raspona 1,5 puta većeg od IQR-a. Sve točke izvan ovog raspona smatraju se netipičnim vrijednostima (izdvojenicama ili ekstremima) i označavaju se kao pojedinačne točke (npr. netipične vrijednosti vidljive su u kategorijama boja D i E).
Visina svake kutije i udaljenost između brkova ukazuju na raspon i varijabilnost cijena za svaku boju.

Na primjer, temeljem prvog box-plota možemo iščitati da dijamanti boje D uobičajeno stoje između približno 1000 i 9000 dolara. Središnjih 50% dijamanata (poredanih po cijeni) stoji između otprilike1500 i 4300 dolara. To također znači da, promatrajući najniže cijene, 25% dijamanata ove kategorije stoji manje od 1500 dolara. Promatrajući visoke cijene, rubnih 25% dijamanata ove kategorije stajat će najmanje 4300 dolara. Polovica dijamanata boje D stoji približno 2400 dolara ili manje od toga, a druga polovica stoji približno 2400 dolara ili više od toga. Mogu se uočiti i četiri izdvojenice, odnosno četiri dijamanta s netipično visokim cijenama (iznad 9000 dolara) za ovu kategoriju.

Napomena: Kod grafikona ćemo najčešće iščitavati približne vrijednosti, osobito ako ih nije moguće precizno iščitati. To se tolerira u situacijama u kojima imamo na raspolaganju samo grafikon. Kad sami kreirate grafikon, npr. za potrebe eseja, seminarskih, završnih i diplomskih radova, možete izvršiti i pomoćne izračune za lakše iščitavanje, pa tumačiti precizno.

Iz ovih box-plotova, možemo primijetiti da dijamanti s nižim ocjenama boja (poput J i K) imaju tendenciju imati više medijalne cijene u usporedbi s onima s bojama D i E (više ocjene boja). To bi se moglo dešavati zbog drugih čimbenika koji utječu, kao što su veličina ili jasnoća karata, koje ne uzimamo u obzir pri ovoj specifičnoj podjeli. Osim toga, izražena prisutnost odstupanja u kategorijama D i E sugerira da je nekoliko dijamanata s ovim ocjenama boja znatno skuplje od većine u istoj skupini.

Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koju varijablu predstavlja i kako čitamo takav grafikon?

Slika 7. Prikaz veličina dijamanata za svaku skupinu boje dijamanata

Ovdje imamo prikazano više box-plotova, po jedan za svaku boju dijamanta. To znači da je skup podataka podijeljen na podskupove prema kriteriju boje, a potom je za veličine unutar svake boje kreiran box-plot. Za svaku skupinu boja (npr. svi dijamanti koji su ocijenjeni kao D boja) uzimamo odgovarajuće veličine dijamanata i stvaramo vizualni sažetak. Ovaj se postupak ponavlja za svaku boju, tako da na kraju dobijemo zaseban pravokutnik i brkove za svaku kategoriju boja, koja pokazuje kako su veličine raspoređene unutar tog određenog podskupa dijamanata. Ovaj grafički prikaz usporedno prikazuje raspon i raspored veličina dijamanata s obzirom na boju dijamanata. Svaki box-plot odgovara određenoj kategoriji boja dijamanata, u rasponu od D (bezbojna) do K (više boja) i prikazuje raspodjelu veličina dijamanata unutar svake skupine boja.

Kako čitati ovaj grafikon:

x-os (boja): Predstavlja kategorije boja dijamanata, od D (najbezbojniji) do K (žućkasti).
Os y (veličina): Prikazuje veličinu dijamanata, mjereno u karatima.
Pravokutnik predstavlja središnjih 50% veličina dijamanata za tu boju (interkvartilni raspon). To znači da polovica dijamanata u toj kategoriji boja spada u ovaj raspon veličina.
Debela linija unutar svakog pravokutnika je medijan, što znači da je polovica dijamanata veća od ili jednaka, a polovica manja od ili jednaka ovoj vrijednosti.
Brkovi (linije koje se protežu iz kutije) pokazuju raspon veličina, isključujući sve ekstremne netipične vrijednosti. Pomažu nam da vidimo minimalnu i maksimalnu veličinu unutar 1,5 puta IQR-a.
Krugovi iznad ili ispod brkova su iznimke, a to su dijamanti koji su mnogo veći ili manji od većine dijamanata u toj skupini.

Opažanja:

Veličina dijamanata ima tendenciju povećanja kako prelazimo iz D prema K kategoriji boja, pri čemu su dijamanti u kategorijama J i K općenito veći prema medijalnoj veličini.
U nekim kategorijama (kao što su D, E, K), vidljive su netipično velike vrijednosti, što ukazuje na to da u tim skupinama postoji nekoliko dijamanata koji su neobično veliki u usporedbi s ostalima.
Kategorije boja G, H, I, J i K pokazuju širi raspon veličina, s većim srednjim karatnim težinama u usporedbi s kategorijama D, E i F, koje u prosjeku imaju manje dijamante.

Iščitavanje i rad s tablicama

Jednostavna statistička tablica

Sljedeća tablica stvorena je na temelju istog skupa podataka. Koje varijable predstavlja i kako čitamo takvu tablicu?

Tablica 2. Jednostavna statistička tablica s proširenim prikazom frekvencija

Rez	Frekvencije	Postotak	Kumulativne frekvencije manje od
Idealan	185	6.8774	6.8774
Odličan	1276	47.4349	54.3122
Vrlo dobar	1064	39.5539	93.8661
Dobar	165	6.1338	100
Ukupno	2690	100.0000

Ova tablica je tablica distribucija frekvencija za varijablu Cut, koja opisuje kvalitetu dijamantnog reza (npr. Odličan, Dobar, Idealan, Vrlo dobar). Sljedeći stupci (Frekvencije, Postotak i Kumulativne frekvencije manje od) pružaju dodatne informacije o tome kako su vrijednosti za varijablu Rez raspoređene u skupu podataka. Prva dva stupca u osnovi predstavljaju jednostavnu statističku tablicu (izdvojeni u Tablici 3 radi lakšeg uočavanja razlika), iz koje čitamo varijablu u prvom stupcu i frekvencije u drugom stupcu.

Stupac ‘Frekvencije’ odnosi se na apsolutne frekvencije, odnosno prebrojavanje koliko ima dijemanata u pojedinoj kategoriji reza. U stupcu ‘Postotak’ zapisane su relativne frekvencije, odnosno relativna učestalost svake kategorije rezanja izražena kao postotak ukupnog broja dijamanata. Na taj način utvrđujemo udio dijemanata s pojedinim tipom reza u ukupnom tipu dijamanata. Na primjer, dijamanti s idealnim rezom čine $\frac{185}{2690} \cdot 100 = 6.8774 \%$ dvih promatranih dijamanata. Ili, na primjer, 47,43% svih dijamanata kategorizirano je kao odličan rez (dobiveno dijeljenjem 1276 s 2690 i pomnoženo sa 100), dok je 6,13% kategorizirano kao dobar rez (dobiveno dijeljenjem 165 s 2690 i pomnoženo sa 100). Ovi postoci omogućuju usporedbu koliko je svaka kvaliteta reza zastupljena u skupu podataka.

Kumulativne frekvencije manje od predstavljaju kumulativni postotak dijamanata dok se krećemo prema dolje u kategorijama. Prikazuje tekući ukupni postotak dijamanata koji spadaju u određenu kategoriju rezanja ili prethodne kategorije. Na primjer, nakon što ste prebrojali dijamante s idealnim i odličnim rezom, prebrojali ste 54,31% ukupnih dijamanata u skupu podataka. Kada uključite dijamante s vrlo dobrim rezom, prebrojali ste 93.87%. Dakle, 93.87% dijamanata imat će barem vrlo dobar rez.

Tablica 3. Jednostavna statistička tablica

Rez	Frekvencije
Idealan	185
Odličan	1276
Vrlo dobar	1064
Dobar	165
Ukupno	2690

Rez (varijabla) je kvalitativna varijabla koja se analizira, a odnosi se na kvalitetu reza dijamanta. Vrijednosti ili kategorije koje ova varijabla poprima - zovemo ih modaliteti - su: Odličan, Dobar, Idealan i Vrlo dobar. Ove kategorije opisuju različite razine kvalitete dijamantnog reza, tako da je to kvalitativna varijabla ranga.

Drugi stupac prikazuje broj dijamanata koji pripadaju svakoj kategoriji kvalitete rezanja. Na primjer, 1276 dijamanata ima odličan rez, 165 dijamanata ima dobar rez i tako dalje. Ukupan broj dijamanata u svim kategorijama u ovom skupu podataka je n = 2690.

Kako čitati tablicu

Počnite sa stupcem Rez - ovo je varijabla koja se analizira i navodi različite kategorije kvalitete rezanja dijamanata.
Pogledajte stupac Frekvencija - to vam govori koliko dijamanata spada u svaku kategoriju rezanja. Na primjer, 1276 dijamanata ima odličan rez, 165 dijamanata ima dobar rez, 185 dijamanata ima idealan rez, a 1064 dijamanata ima vrlo dobar rez. Ukupan broj dijamanata u skupu podataka je 2690 (sva opažanja, tj. svi promatrani dijamanti).
Provjerite stupac Postotak - on pokazuje koji udio u cjelokupnom skupu podataka predstavlja pojedina kategorija reza. Na primjer, 47,43% dijamanata ima izvrstan rez, a 6,13% ima dobar rez. Ovi postoci pomažu vam da vidite relativnu učestalost svake kategorije rezanja u usporedbi s ukupnim brojem dijamanata.
Razumijevanje stupca „Kumulativna učestalost – Manje od“ pomaže vam da vidite ukupan postotak dijamanata koji idu do određene kategorije rezanja. Na primjer, do trenutka kada prebrojite sve dijamante koji imaju idealni ili odlični rez, pokrili ste 54,31% ukupnog broja dijamanata u skupu podataka, itd.
Ako želite znati koliko dijamanata ima Odličan rez, pogledajte ćeliju presjeka stupca Frekvencija i retka Odličan, koja prikazuje 1276 dijamanata.
Da biste saznali koji dio u ukupnom skupu podataka predstavlja 1276 izvrsno brušenih dijamanata, pogledali biste ćeliju koja se nalazi u presjeku stupca Postotak i retka Odlično, koji vam govori da je 47.43% svih dijamanata kategorizirano kao odlično rezano.
Ako želite znati koliko dijamanata ima barem Odličan rez, pogledali biste stupac Kumulativna frekvencija ‘Manje od’ za Odličan, koji vam govori da je 54,31% dijamanata u ove dvije kategorije zajedno.

Tablica kontingencije

Sljedeća tablica stvorena je na temelju istog skupa podataka. Koje varijable predstavlja i kako čitamo takvu tablicu?

Tablica 4. Dijamanti prema boji i rezu

Boja	Odličan	Vrlo dobar	Dobar	Idealan	Ukupno
D	139	106	16	16	277
E	227	209	29	39	504
F	213	164	23	31	431
G	209	130	22	35	396
H	192	154	23	25	394
Ja	142	124	23	27	316
J	102	121	21	9	253
K	52	56	8	3	119
Ukupno	1276	1064	165	185	2690

Navedena tablica poznata je kao tablica kontingencije ili skupna tablica. Organizira i prikazuje podatke u matričnom formatu, omogućujući usporedbu dviju kvalitativnih varijabli - u ovom slučaju dijamantne boje (redovi) i kvalitete reza (stupci). Tablica raščlanjuje raspored dijamanata na temelju njihove boje i odgovarajuće kvalitete reza. Stupac i redak Ukupno sažimaju podatke za svaku kategoriju boja i reza.

Na primjer, u prvom retku, koji odgovara boji D nalazi se 139 dijamanata s Odličnim rezom, 106 s Vrlo dobrim rezom, 16 s Dobrim rezom i 16 dijamanata s Idealnim rezom. To ukupno iznosi 277 dijamanata u kategoriji boje D.

Slično tome, za boju E postoji 227 dijamanata s Odličnim rezom, 209 dijamanata s Vrlo dobrim rezom, 29 dijamanata s Dobrim rezom i 39 dijamanata s Idealnim rezom, ukupno 504 dijamanata u kategoriji E boja.

Gledajući boju K, koja predstavlja dijamante s više boje (žućkasta nijansa), postoje 52 dijamanta ocijenjena kao Odličan, 56 dijamanata kao Vrlo dobar, 8 kao Dobar i samo 3 kao Idealan rez, što čini ukupno 119 dijamanata u skupini boja K.

Ako promatramo dijamante s Odličnim rezom, možemo uočiti da ih je 139 u kategoriji boje D, 227 u kategoriji boje E, 213 u kategoriji boje F, 209 u kategoriji boje G, 192 u kategoriji boje H, 142 u kategoriji boje Ja, 102 u kategoriji boje J i 52 u kategoriji boje K. U skupu promatranih podataka, 1276 ima Odličan rez.

Također, možemo uočiti da u uzorku od 2690 dijamanata, 105 dijamanata ima boju D i vrlo dobar rez. Nadalje, 31 dijamant ima boju F i idealan rez. 192 dijamanta ima boju H i odličan rez. Ovdje vidimo da vrijednosti u ćelijama tablice kontingence prikazuju specifične kombinacije modaliteta varijabli.

Redak Ukupno na dnu zbraja vrijednosti u svim kategorijama boja, pokazujući da skup podataka sadrži 1.276 dijamanata ocijenjenih kao Izvrstan, 1.064 dijamanata kao Vrlo dobar, 165 dijamanata kao Dobar i 185 dijamanata kao Idealan, čime je ukupan broj dijamanata porastao na 2.690.

Na temelju te tablice ispunite tablice kutnog zbroja, vodoravnog zbroja i okomitog zbroja te protumačite zasjenjeno polje. Kako se vrijednosti i njihova tumačenja razlikuju?

Tablica 5. Dijamanti prema boji i rezu - kutno sto

Boja	Odličan	Ukupno
D	139/2690*100
E
F
G
H
Ja
J
K
Ukupno		100

Tablica 6. Dijamanti prema boji s obzirom na rez - vodoravno sto

Boja	Odličan	Ukupno
D	139/277*100	100
E	227/504*100	100
F		100
G		100
H		100
Ja		100
J		100
K		100
Ukupno		100

Tablica 7. Dijamanti prema rezu s obzirom na boju - okomito sto

Boja	Odličan	Vrlo dobar	Dobar	Idealan	Ukupno
D	139/1276*100	106/1064*100
E
F
G
H
Ja
J
K
Ukupno	100	100	100	100	100

U tablici kutno sto, svaki postotak unutar retka pokazuje kako su dijamanti u određenoj kategoriji boja raspoređeni na četiri razine kvalitete rezanja s obzirom na sve podatke. To se izražava kao postotak ukupnih dijamanata za svaku određenu boju i kategoriju reza.

U tablici okomito sto, postoci u svakom stupcu predstavljaju kako su dijamanti s određenom kvalitetom reza raspoređeni prema različitim kategorijama boja. Postoci se izračunavaju na temelju ukupnog broja dijamanata za svaku kategoriju rezanja (nazivnik). Ovi postoci pomažu nam razumjeti kako su dijamanti unutar pojedine kategorije reza raspoređeni po kategorijama boja.

Tablica vodoravno sto prikazuje postotnu raspodjelu dijamanata unutar svake kategorije boja prema različitim kvalitetama reza. Ti se postoci izračunavaju tako da se uzme broj dijamanata u svakoj kategoriji rezanja za određenu boju i podijeli s ukupnim brojem dijamanata u toj skupini boja. Ti postoci nam govore kako su dijamanti unutar pojedine kategorije boje raspoređeni po kategorijama reza.

U tablici kutno-100, osjenčano polje za dijamante dobrog reza u skupini boja E iznosi 1,08%. To znači da dijamanti s dobrim rezom i E bojom predstavljaju 1,08% ukupnog broja dijamanata u cijelom skupu podataka (od 2690 dijamanata). Drugim riječima, to nam govori da 1.08% svih dijamanata u skupu podataka E boje i imaju dobar rez. Ova vrijednost odražava udio ove specifične kombinacije (E boja i Dobar rez) u cijelom uzorku dijamanta.

U tablici vodoravno sto, osjenčano polje za dijamante dobrog reza u skupini boja E pokazuje da je 5,75% svih dijamanata u skupini boja E ocijenjeno kao dobro. Ovaj postotak izračunava se dijeljenjem broja dijamanata s dobrim rezom (29) s ukupnim brojem dijamanata u E-boji (504) i množenjem sa sto, što daje 5,75%. Dakle, od svih dijamanata u boji E, 5.75% ima dobar rez. Također, ovaj postotak sugerira da ovo nije dominantna kvaliteta reza za dijamante u ovoj skupini boja.

U tablici okomito sto, osjenčano polje za dijamante dobrog reza u skupini boja E pokazuje da je 17,58% svih dijamanata s dobrim rezom u skupini boja E. Taj se postotak izračunava dijeljenjem broja dijamanata u E-boji s dobrim rezom (29) s ukupnim brojem dijamanata s dobrim rezom (165) i množenjem sa sto, što daje 17,58%. To znači da među svim dijamantima s dobrim rezom, 17,58% čine dijamanti iz skupine boja E.

Razlika u tumačenju zasjenjenih polja:

Vodoravno 100 (5,75%): Prikazuje postotak dijamanata koji su E boje i imaju dobar rez, u odnosu na ukupan broj dijamanata u skupini E boja. Ovo odgovara na pitanje: Koliki postotak dijamanata boje E ima dobar rez? (ili, gramatički neprihvatljiva, ali potencijalno jasnija varijanta: Od svih dijamanata koji imaju boju E, koliko ih ima dobar rez?)
Okomito 100 (17,58%): Prikazuje postotak Dobrih brušenih dijamanata koji su iz skupine boja E u odnosu na ukupan broj dijamanata s dobrim rezom. Ovo odgovara na pitanje: Koliki postotak dobro rezanih dijamanata ima boju E? (ili, gramatički neprihvatljiva, ali potencijalno jasnija varijanta: Od svih dobro rezanih dijamanata, koliko ih ima boju E?)
Kutno 100 (1,08%): Prikazuje postotak dijamanata koji su i E boje i Dobar u odnosu na ukupan broj dijamanata u skupu podataka. Ovo odgovara na pitanje: Koliki postotak svih dijamanata ima E boju i dobar rez?

Sljedeći grafikon izrađen je je na temelju istog skupa podataka. Koje varijable predstavlja i kako čitamo takav grafikon?

Slika 8. Prikaz dijamanata prema boji i rezu

Ovaj je grafikon razdijeljeni stupčasti grafikon koji prikazuje raspodjelu dijamanata u dvije varijable: Boja i Rez. Stupci predstavljaju različite kategorije boja dijamanta (u rasponu od D do K), dok segmenti unutar svake trake odgovaraju različitim kvalitetama reza.

Os x prikazuje različite kategorije boja dijamanata, počevši od D i napredujući do K. Os y predstavlja broj dijamanata u svakoj grupi boja, a visina svakog stupca označava ukupan broj dijamanata u toj kategoriji boja.

Svaki stupac podijeljen je u više segmenata, koji predstavljaju broj dijamanata s određenom kvalitetom reza unutar te skupine boja. Različite boje u stupcu odgovaraju različitim rezovima: svijetlo narančasta predstavlja dijamante s izvrsnim rezom, plava za vrlo dobar, ljubičasta za dobar i tamno narančasta za ideal. Veličina svakog segmenta pokazuje koliko dijamanata iz te skupine boja spada u određenu kategoriju rezanja.

Da biste protumačili grafikon, možete pogledati i ukupnu visinu svakog stupca, koja označava ukupan broj dijamanata u svakoj kategoriji boja, i veličinu segmenata unutar stupca, koji pokazuju kako su ti dijamanti raspoređeni među različitim kvalitetama reza. Na primjer, u skupini boja E postoji puno dijamanata s izvrsnim rezom, kao što pokazuje veliki svijetlo narančasti segment, nakon čega slijedi značajan broj dijamanata s vrlo dobrim rezom (plavi segment). Nasuprot tome, skupina boja K ima manje dijamanata (ukupno), ali većina njih spada u kategoriju vrlo dobrog ili odličnog reza.

Sve u svemu, ovaj razdijeljeni stupčasti grafikon omogućuje nam usporedbu broja dijamanata u svakoj skupini boja i proporcija kvaliteta reza unutar tih skupina, dajući jasan vizualni prikaz kako kvaliteta reza varira u različitim stupnjevima boja dijamanata. Možemo primijetiti da zapravo prenosi istu vrstu informacije kao i tablica kontingence (ranije kreirana za iste ove podatke).

Kombinirana tablica

Sljedeća tablica stvorena je na temelju istog skupa podataka. Koje varijable predstavlja i kako čitamo takvu tablicu?

Tablica 8. Dijamanti s odličnim i vrlo dobrim rezom prema rezultatu testa

Test	Odličan	Vrlo dobar	RBK1
0	770	631	1.22
1	253	215	1.18
2	253	218	1.16

Ova tablica prikazuje podatke o kvaliteti dijamantnog reza i mjeru relativnog broja koordinacije (RBK, odnosno RBK1) prema testnoj skupini (0, 1, 2 - Test grupira dijamante u tri kategorije: 0, 1 i 2). Za svaku testnu skupinu, stupci daju broj dijamanata s odličnim rezom i onih s vrlo dobrim rezom.

Vrijednosti RBK-a su mjere, u ovom slučaju, kako se izvrsno i vrlo dobri rezovi koordiniraju. Na primjer, u testnoj grupi 0 nalazi se 770 dijamanata s izvrsnim rezom i 631 dijamant s vrlo dobrim rezom, a odgovarajuća vrijednost RBK1 je 1,22. To znači da u testnoj skupini 0, postoji 1.22 dijamanta izvrsnog reza po jednom dijamantu s vrlo dobrim rezom.

Slično tome, testna skupina 1 pokazuje 253 dijamanta izvrsnog rezanja, 215 dijamanata vrlo dobrog reza i RBK1 od 1,18. Dakle, u ovoj skupini ima 1.18 dijamanata izvrsnog reza po svakom dijamantu vrlo dobrog reza.

Relativni brojevi koordinacije govore nam o tome kakav je odnos dvije pojave. Za RBK1, podijelili smo vrijednost pripisanu pojavi 1 s vrijednosti pripisanoj pojavi 2 u istoj kategoriji. Za RBK2, promatrali bismo obrnut odnos, kako se dijamanti s vrlo dobrim rezom koordiniraju s dijamantima s odličnim rezom, tj., podijelili bismo vrijednost pripisanu pojavi 2 s vrijednosti pripisanoj pojavi 1 u istoj kategoriji.

Pokušajte sami protumačiti RBK1 za testnu skupinu 2. Ispunite preostale vrijednosti u tablici i protumačite RBK2.

Pitanja za ponavljanje

Što je podatkovni okvir?

Statistički prikaz podataka u obliku tablice
Struktura podataka gdje svaki stupac predstavlja varijablu, a svaki redak pojedinačno opažanje
Grafički prikaz distribucije podataka
Skup svih mogućih opažanja u istraživanju

Kako se podatkovni okvir razlikuje od statističke tablice?

Podatkovni okvir je statičan prikaz podataka, dok statistička tablica omogućava dinamično manipuliranje
Statistička tablica je dio podatkovnog okvira
Podatkovni okvir omogućava dinamično manipuliranje i analizu podataka, dok je statistička tablica statičan prikaz
Nema razlike

Što predstavlja “Jedinicu opažanja” u statističkom skupu?

Varijablu koja se mjeri
Osnovni entitet/pojava koji se promatra i mjeri u istraživanju
Rezultate analize podataka
Geografski aspekt podataka

Koja vrsta varijable opisuje boju dijamanta (D-K)?

Kvantitativna, kontinuirana
Kvalitativna, nominalna
Kvalitativna, ordinalna (stupnjevita)
Kvantitativna, diskretna

Koja razina mjerenja se primjenjuje na varijablu “Cijena”?

Nominalna
Ordinalna
Intervalna
Omjerna

Što predstavlja “Prostorno određenje” statističkog skupa?

Vremenski okvir prikupljanja podataka
Geografski aspekt skupa podataka
Definiciju varijabli
Vrstu analiziranih podataka

Koja je glavna razlika između populacije i uzorka?

Populacija je dio uzorka
Uzorak uključuje sve moguće opažanja
Populacija je cjelokupni skup svih mogućih opažanja, dok je uzorak dio te populacije
Uzorak je veći od populacije

Što označava kumulativna frekvencija manje od u tablici distribucije frekvencija?

Broj dijamanata u svakoj kategoriji
Ukupan broj dijamanata
Kumulativni postotak dijamanata do određene kategorije
Prosječna cijena dijamanata

Koju vrstu grafika najčešće koristimo za prikaz distribucije numeričkih podataka?

Stupčasti grafikon
Torta-dijagram
Histogram
Scatter plot

Što box-plot dijagram prikazuje?

Distribuciju frekvencija
Medijan, interkvartilni raspon i ekstremne vrijednosti
Relaciju između dvije varijable
Proporcije unutar cjeline

Na temelju tablice, koji je točan zaključak?

Boja	Odličan	Vrlo dobar	Dobar	Idealan	Ukupno
D	139	106	16	16	277
E	227	209	29	39	504
F	213	164	23	31	431
G	209	130	22	35	396
H	192	154	23	25	394
Ja	142	124	23	27	316
J	102	121	21	9	253
K	52	56	8	3	119
Ukupno	1276	1064	165	185	2690

Većina dijamanata boje E ima odličan rez.
U kategoriji boja K, većina dijamanata ima dobar rez.
Ukupno više dijamanata boje D ima idealan rez nego dijamanata boje E.
Svi dijamanti boje G imaju odličan rez.

Koje je točno tumačenje izračunatog polja u tablici?

Boja	Vrlo dobar	Ukupan
D
E
F
G
H
Ja
J	4,5%
K
Ukupno		100

Postoji 4,5% dijamanata s bojom J među svim dijamantima s vrlo dobrim rezom.
Postoji 4,5% dijamanata s vrlo dobrim rezom među svim dijamantima boje J.
Među svim promatranim dijamantima, 4,5% dijamanata su boje J i vrlo dobrog reza.
Postoji 4,5% dijamanata boje J i vrlo dobrog reza, među svim dijamantima boje E.

Prema tablici, koja je točna interpretacija ispunjenog polja?

Boja	Odličan	Vrlo dobar	Dobar	Idealan	Ukupan
D
E			5,75
F
G
H
Ja
J
K
Ukupno	100	100	100	100	100

Postoji 5,75% dijamanata boje E i dobrog reza u promatranom skupu podataka.
Postoji 5,75% dijamanata s dobrim rezom među svim dijamantima boje E.
Postoji 5,75% dijamanata s bojom E među svim dijamantima s dobrim rezom.
Postoji 5,75% dijamanata boje E i dobrog reza, među svim dijamantima boje E.

Što prema tablici predstavlja izračunati postotak?

Boja	Odličan	Ukupan
D		100
E	45,04%	100
F		100
G		100
H		100
Ja		100
J		100
K		100
Ukupno		100

Među svim promatranim dijamantima, 45,04% dijamanata su boje E i odličnog reza.
Postoji 45,04% dijamanata s odličnim rezom među svim dijamantima boje E.
Postoji 45,04% dijamanata s bojom E među svim dijamantima s odličnim rezom.
Postoji 45,04% dijamanata boje E i odličnog reza, među svim dijamantima s odličnim rezom.

Kako se razlikuje tumačenje postotka u kutno sto i vodoravno sto za dijamante dobrog reza u skupini boja E?

Boja	Odličan	Vrlo dobar	Dobar	Idealan	Ukupan
D
E
F
G
H
Ja
J
K			6,72%(v)/ 4,85%(o)
Ukupno

Među svim promatranim dijamantima, 4,85% dijamanata su boje K i dobrog reza. Postoji 6,72% dijamanata boje K i dobrog reza, među svim dijamantima s dobrim rezom.
Postoji 6,72% dijamanata s bojom K među svim dijamantima s dobrim rezom. Postoji 4,85% dijamanata s dobrim rezom među svim dijamantima boje K.
Postoji 4,85% dijamanata s bojom K među svim dijamantima s dobrim rezom. Postoji 6,72% dijamanata s dobrim rezom među svim dijamantima boje K.
Među svim promatranim dijamantima, 6,72% dijamanata su boje K i dobrog reza. Postoji 4,85% dijamanata boje K i dobrog reza, među svim dijamantima s dobrim rezom.

Što predstavlja os y u histogramu u prikazanim primjerima?

Kategorije varijable
Broj dijamanata
Ukupnu količinu dijamanata
Postotke distribucije

Što označava vrijednost RBK1 u prikazanom primjeru?

Relativni broj koordinacije izvrsnog reza
Relativni broj koordinacije vrlo dobrog reza
Ukupni broj dijamanata u testnoj skupini
Odnos dijamanata s odličnim rezom prema vrlo dobrim rezom

Koji od sljedećih pojmova je definiran kao “atribut, svojstvo ili karakteristika koja se mjeri ili bilježi za svaku jedinicu opažanja”?

Varijabla
Populacija
Statistički skup
Grafikon

Koja razina mjerenja se primjenjuje na varijablu ‘Color’?

Nominalna
Ordinalna
Intervalna
Omjerna

Što prikazuje stupčasti grafikon s razdijeljenim segmentima?

Raspodjelu frekvencija unutar jedne varijable
Relaciju između dvije kvantitativne varijable
Raspodjelu jedne varijable prema kategorijama druge varijable
Medijalnu vrijednost varijable

Sljedeći graf prikazuje distribuciju sati sna skupine studenata tijekom prošle noći. Odaberite najtočniji opis.

Stupci se kreću od 3 do 10, povećavajući u visini do 7, a potom opadajući do 0. Postoji rupa između tri i pet.
Distribucija je simetrična, sa sredinom od približno 7 sati sna i rasponom od približno 5 sati sna.

Čini se da se većina studenata dosta naspavala prošle noći, ali neki su studenti spavali više, a neki manje. Ipak, izgleda da je jedna osoba ostala sinoć jako dugo budna i spavala jako kratko.

Distribucija sati sna skupine studenata tijekom prošle noći je približno simetrična i zvonolika, s jednom izdvojenom vrijednosti (3). Studenti su najčešće spavali 7 sati, a raspon sati sna je 7 sati.

Distribucija niza ostvarenih bodova na ispitu, ako je ispit bio vrlo lagan, prikazana je:

Histogramom I.
Histogramom II.
Histogramom III.
Histogramom IV.

Prikazani box-plotovi prikazuju rezultate završnog ispita za sve studente jednog kolegija podijeljene u dvije nastavne grupe. Koja nastavna grupa ima veći postotak studenata s 80 ili više bodova?

Nastavna grupa A ima veći postotak studenata s 80 ili više bodova.
Nastavna grupa B ima veći postotak studenata s 80 ili više bodova.
U obje nastavne grupe je jednak postotak studenata s 80 ili više bodova.
Nije moguće odgovoriti samo temeljem ovog grafikona.

Tablica prikazuje zabilježene prometne nesreće. Iz ureda za motorna vozila žele utvrditi je li manje vjerojatno da će nesreća biti fatalna, ako osobe koriste pojas. Koja je od narednih usporedbi najprikladnija za potporu ovom zaključivanju?

Usporedba omjera $510/412878$ i $1601/164128$
Usporedba omjera $510/577006$ i $1601/577006$
Usporedba brojeva $510$ i $1601$

Prikupljeni su podaci o najvišoj završenoj razini obrazovanja u dvije tvrtke. Odaberite prikladno tumačenje temeljem grafa.

Tvrtka 1 nema zaposlenika s Doktorskim studijem, dok Tvrtka 2 ima jednog zaposlenika s tom obrazovnom razinom, pa to sigurno znači da su usmjereni na zapošljavanje osoba s doktoratom i isključivo visoko obrazovanog kadra.
Tvrtka 1 ima znatno veći broj zaposlenika s Specijalističkim studijem u usporedbi s Tvrtkom 2, što može značiti fokus na visoko obrazovane stručnjake.
Tvrtka 1 pokazuje ravnomjerniju raspodjelu zaposlenika kroz sve obrazovne razine, s manjim brojem u najnižim i najvišim kategorijama, što ukazuje na diversificiraniju radnu snagu.
Obje Tvrtke 1 i 2 imaju isti broj zaposlenika u kategoriji Srednje škole, što ukazuje na slične standarde zapošljavanja.

Repliciranje analize koristeći različite alate

Za one koji žele replicirati prikazanu analizu koristeći različite alate za analizu podataka, sljedeća poglavlja prikazuju kako to učiniti koristeći JASP, R i MS Excel. Iako se štivo može pročitati i razumjeti i bez čitanja ovih poglavlja, ona mogu biti korisna onima koji se po prvi put susreću s analizom podataka ili žele proširiti svoje znanje u tom dijelu.

Dakle, unutar ovog poglavlja, pronaći ćete tri zasebna odjeljka koji detaljno opisuju postupke repliciranja analize u JASP-u, R-u i Microsoft Excelu. Svaki od ovih alata nudi jedinstvene mogućnosti i pristupe analizi podataka, omogućavajući vam da odaberete onaj koji najbolje odgovara vašem tehničkom znanju i preferiranim metodologijama. Kroz vođenje korak-po-korak, naučit ćete (ili ćete se podsjetiti) kako iskoristiti prednosti svakog softvera za izvođenje postupaka za kreiranje tablica i grafikona prikazanih u ovom štivu. Na taj način, možete se bolje upoznati s različitim alatima te njihovim prednostima i nedostacima, a potom odlučiti kojeg ćete primarno koristiti.

Npr. ako ćete se prvenstveno baviti negrupiranim podacima, JASP omogućuje vrlo jednostavno dolaženje do rezultata. JASP ne omogućuje manipulaciju grupiranih podataka, što je ponekad potrebno ako imamo na raspolaganju gotove tablice (uobičajeno za izvješća ili službene statističke pokazatelje) temeljem kojih želimo još nešto izračunati. Onda je poželjno znati i osnove analize podataka u MS Excelu. R i RStudio nude najveću širinu, ali iziskuju učenje programskog jezika. Ako imaju mogućnost birati, većina studenata bira JASP u kombinaciji s dodatnim izračunima u MS Excel-u (ako su potrebni).

Provedba postupka koristeći JASP

JASP (Jeffrey’s Amazing Statistics Program) je besplatni, otvoreni softver za statističku analizu koji pruža intuitivno i korisnički prijateljsko sučelje za izvođenje raznih statističkih testova. Možete ga preuzeti na linku. Izgrađen na platformi R, JASP omogućava korisnicima lako pristupanje naprednim statističkim metodama, bez potrebe za programiranjem. Fokusiran je na transparentnost i jednostavnost korištenja te automatski generira jasne i razumljive tablice, kao i grafikone koji omogućuju interpretaciju rezultata. Softver je posebno koristan za istraživače i studente koji žele brzo i učinkovito provoditi statističke analize bez potrebe za učenjem programskih jezika.

Sučelje JASP-a karakterizira preglednost i jednostavnost, sličan je popularnim uredskim programima što olakšava navigaciju i korištenje. Gornja traka s alatima (engl. Ribbon) organizira različite statističke analize u kategorije poput deskriptivne statistike, T-testova, ANOVA, Regresije i drugih. Sučelje je dizajnirano intuitivno, omogućavajući lako navigiranje i brzo postavljanje analiza bez potrebe za naprednim tehničkim znanjem.

U lijevom prozoru JASP-a nalazi se glavni dio sučelja koji sadrži panel s popisom svih varijabli učitanih u projekt. Korisnici mogu pregledavati ove varijable i odabrati one koje žele uključiti u svoje analize jednostavnim povlačenjem i ispuštanjem u odgovarajuće sekcije za analizu ili klikom na varijablu, pa klikom na strelicu pored.

Osim toga, lijevi prozor, u donjem dijelu uključuje i sekcije za odabir statističkih metoda i analiza. Ova struktura omogućava učinkovito upravljanje podacima i metodama, čineći proces statističke analize u JASP-u jednostavnim i pristupačnim za korisnike svih razina stručnosti.

Ukratko, u prozoru na lijevoj strani nalazi se panel za odabir varijabli iz učitanog skupa podataka (lijevo), panel za zadavanje varijabli i parametara odabrane analize (u pravilu, desno), a ispod njih nalaze se sekcije za odabir metoda, analiza i izlaza. Dakle, panel služi kao glavni prostor za upravljanje podacima, odnosno - sve selekcije i unos elemenata za analizu obavljaju se odabirom i unosom isključivo u lijevom panelu JASP-a.

Na slici je primjer rasporeda panela i sekcija u lijevom prozoru po odabiru ‘Descriptives’ iz trake s alatima.

Rezultati analize, u pravilu - tablice i grafikoni, prikazuju se u desnom dijelu prozora, pružajući direktne uvide. JASP također podržava dinamičko ažuriranje rezultata pri promjeni postavki, što korisnicima omogućava brzu i fleksibilnu analizu podataka.

Rezultate analize u JASP-u moguće je jednostavno kopirati i zalijepiti u dokumente poput zadataka, eseja, seminara, završnih ili diplomskih radova, što olakšava prezentaciju postupka analize. Grafikoni se mogu i izravno spremiti kao slike, u različitim formatima. Cijela analiza može se sačuvati kao JASP datoteka, što omogućuje kasniji pregled i ponovnu upotrebu podataka i postavki analize. Osim toga, sve rezultate moguće je pohraniti kao HTML datoteku, pružajući interaktivnu i lako dostupnu verziju rezultata za dijeljenje ili prezentaciju.

Dodatni priručnici i udžbenici za korištenje JASPa dostupni su na linku.

U kontekstu analize kojom se ovdje bavimo, nakon preuzimanja JASPA, slijedi uvoz podataka. U prvom koraku, potrebno je preuzeti datoteku s podacima. Slijedite link izvora podataka dan u uvodnom dijelu i kliknite na preuzimanje (download).

Alternativno, podaci su Vam dostupni i na e-ucenju. Pri preuzimanju, obratite pozornost na to gdje se preuzeta datoteka nalazi, kako biste znali popratiti put do te datoteke. Ovi su podaci već pripremljeni u CSV formatu i možete ih direktno učitati u JASP. CSV (engl. Comma-Separated Values) datoteke su jednostavne tekstualne datoteke u kojima su podaci odvojeni zarezima, što omogućuje jednostavan prijenos podataka između različitih aplikacija i sustava. Ovo je dobar trenutak da vam skrenem pozornost na to da nije omogućeno učitavanje XLSX datoteka u JASP-u te ako želite obraditi tako pohranjene podatke koristeći JASP, morate ih prvo konvertirati. Za to je Libre Calc vrlo dobro rješenje.

Kliknite na tri vodoravne plave crte u gornjem lijevom uglu, kako bi Vam se otvorio izbornik. U sljedećem koraku, s obzrom da imate skup podataka pohranjen na računalu, odaberite ‘Computer’, a potom ‘Browse’.

Koristeći prozor koji se otvorio nakon što ste kliknuli ‘Browse’, slijedite put do mape u kojoj se nalaze preuzeti podaci (npr. Korisnik -> Documents, ili Downloads, ili Preuzimanja, itd.). Nakon što ste našli datoteku, kliknite na nju, a potom na ‘Open’ ili ‘Otvori’ - ovisno koju inačicu koristite. Odmah nakon toga prikazat će Vam se podaci.

Tablica 1.

U ovom trenutku moramo pregledati varijable i razine mjerenja - jesu li sve pravilno zadane. Na primjer, boja i rez su kategorizirane kao opisne kvalitativne varijable (a ne stupnjevite kvalitativne varijable) zbog toga jer su zapisane slovima.

Napomena: Ovdje će se nastavak analize prikazati bez prekodiranja varijabli, radi jednostavnosti. Inače ćete, po potrebi i vlastitom odabiru prekodirati varijable s obzirom na konceptualno definiranu razinu mjerenja.

Za one koji žele znati više:

Općenito, za prekodiranje u JASPu postoje tri opcije: prilagoditi podatke prije uvoza, preračunati podatke temeljem dostupnih opcija (‘drag-and-drop’) ili putem R skripte. Konverziju tipova podataka nije moguće provesti s ‘drag-and-drop’ opcijom. Stoga će se ovdje za ilustraciju koristiti varijanta s R skriptom. Ovaj pristup iziskuje znanja o nekim osnovnim naredbama i funkcijama u R-u. Prekodiranje (i izračuni dodatnih varijabli temeljem postojećih) započinju klikom na oznaku ‘+’ u gornjem desnom uglu podatkovnog okvira.

Potom se otvara izbornik kao što je prikazano na slici. Unosimo naziv varijable, ovdje je to ‘Re-color’, odabiremo oznaku R, a nakon toga, razinu mjerenja varijable (u ovom slučaju, ‘Ordinal’). Potom kliknemo na ‘Create Column’.

Nakon toga, otvara se prozorčić za unos koda. Ovdje koristimo ‘factor’ (faktor je specifični tip podataka u R-u koji obuhvaća različite tipove kvalitativnih varijabli s uređenim ili neuređenim redoslijedom kategorija), a u ovom slučaju funkcija ‘factor()’ zadaje i definira faktor koji se kreira temeljem vrijednosti varijable ‘Color’ i zadavanje rezina (‘levels’). Taj faktor nalazi se unutar funkcije ‘as.numeric()’, odnosno, predstavlja argument te funkcije, koja ga pretvara u brojčani vektor.

Digresija: za prekodiranje varijable ‘Cut’ (koju bi mogli prekodirati u npr. ‘Re_cut’) kod bi izgledao ovako:

> as.numeric(factor(Cut, levels = c("Good", "Very Good", "Excellent", "Ideal")))

Nakon unosa koda, treba kliknuti na ‘Compute column’, nakon čega će se stupac naziva ‘Re_color’ ispuniti odgovarajućim vrijednostima. Možemo vizualno usporediti znakovne oznake u varijabli ‘Color’ s numeričkim ekvivalentima u varijabli ‘Re_color’ i na taj način potvrditi ispravnost postupka.

Tablica 2.

Kliknite na Descriptives u traci izbornika. Nakon toga, prikaz će izgledati ovako:

Kliknite na varijablu ‘Cut’ u prozorčiću s lijeve strane, s potom na gornju strelicu između prozora. Nakon tog klika, varijabla ‘Cut’ će se pojaviti u prozorčiću s desne strane.

Potom, u lijevom dijelu prozora, na dnu, kliknite na ‘Tables’, a potom na ‘Frequency tables’. Nakon toga, u prozoru na desnoj strani, prikazat će Vam se tablica.

Jedina je razlika što ovdje razine nisu poslagane redom, nego abecedno, pa će zbroj u stupcu kumulativnih frekvencija biti različit. To možete urediti ručno ili koristeći drugi alat.

Ako tablicu želite spremiti za korištenje u seminaru ili radu, kliknite na strelicu i odaberite ‘Copy’ te zalijepite u Word, Docs ili drugi softver koji koristite za procesiranje teksta.

Tablica 3.

Ako ste c/p tablicu u Word, Docs ili drugi alat koji koristite za procesiranje teksta, odaberite posljednja dva stupca Tablice 2 i obrišite ih. Tako ćete dobiti ekvivalent Tablice 3.

Tablica 4.

U traci izbornika na vrhu, kliknite na ‘Frequencies’, a potom daberite ‘Contingency tables’.

Pojavit će vam se sljedeći prikaz:

U sljedećem koraku unosimo varijable. Boja se nalai u retcima, a rez u stupcima. Kliknite na ‘Color’ u lijevom bijelom prozorčiću, a potom na strelicu ispred prozorčića ‘Rows’. Dobit ćete sljedeći prikaz:

Kliknite na ‘Cut’ u lijevom bijelom prozorčiću, a potom na strelicu ispred prozorčića ‘Columns’. Dobit ćete sljedeći prikaz:

U prozoru s desne strane nalaze se rezultati, odnosno, tablica. Možete ju kopirati i dalje koristiti u radu, odnosno uklopiti ju u esej, seminarski rad, itd.

Tablice 5 - 7

Tablice 5, 6 i 7 ne možete izračunati unutar JASPa, ali možete nastaviti izračune temeljem Tablice 4 u nekom drugom alatu ili ručno. S obzirom na kompatibilnost, možete tablicu 4 kopirati u MS Excel. Nakon što uredite tablicu (očekujte da će se pri kopiranju pojaviti stupci koji služe za postavljanje razmaka, a u MS Excelu nisu potrebni, pa ih možete obrisati radi jednostavnijeg formatiranja u nastavku prikaza i izračuna), nastavite prema postupku prikazanom u poglavlju “Provedba postupka koristeći MS Excel” za Tablice 5 - 7.

Tablica 8

Također, ni Tablicu 8 nemamo kako izračunati u JASPu, ali možemo napraviti pripremu za izračun RBK1 i RBK2.

Ponovo kliknite na ‘Frequencies’, pa potom na ‘Contingency tables’.

Odaberite ‘Test’ za retke i ‘Cut’ za stupce. Ovako kreiranu tablicu možete kopirati (npr. u MS Excel, Libre Calc ili Sheets), izbristi suvišne stupce i izračunati preostale vrijednosti.

Slika 1.

Odaberite Descriptives iz trake izbornika na vrhu. Kako biste odabrali varijablu ‘Color’ za daljnju analizu, kliknite na nju u lijevom prozorčiću, a nakon toga na strelicu. Odabrana varijabla pojavit će se na popisu varijabli (‘Variables’) u prozorčiću pored.

U sljedećem koraku, kliknite na izbornik ‘Basic plots’ niže u lijevom prozoru. To će rezultirati otkrivanjem mogućnosti kreiranja osnovnih grafikona. Odaberite ‘Distribution plots’. Ta radnja rezultirat će prikazom grafa u desnom prozoru.

Slično kao i s tablicama, i graf je moguće kopirati. Kliknite na strelicu pored ‘Color’ kao što je prikazano na slici niže, a potom odaberite ‘Copy’ i zalijepite sliku u dokument u kojem pripremate svoj rad.

Alternativno, sliku možete i spremiti, a u tom slučaju, odabirete ‘Save image as’. U tom slučaju, otvorit će se prozor (engl. Save as dialog box), u kojem možete odabrati mapu u kojoj ćete pohraniti sliku, upisati naziv slike i odabrati format slike (PNG, PDF, JPG i dr.).

Slika 2.

Kao i pri kreiranju prethodne slike, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati.

Nakon što ste odabrali varijablu, u lijevom prozoru odabirete sekciju ‘Basic plots’ i nakon klika, otvorit će se opširniji izbornik. Po odabiru ‘Distribution plots’, prikazat će se grafički prikaz u desnom prozoru koji prikazuje rezultate. Također, možete spremiti sliku ili ju kopirati.

Slika 3.

Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati.

Slika 4.

Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati.

Ovdje možete primijetiti da je kreiran histogram, a ne stupčasti dijagram automatski, bez potrebe za dodatnim podešavanjima. To se događa zbog toga što JASP automatski kreira onaj grafički prikaz koji je primjeren s obzirom na razinu mjerenja varijabli. S obzirom da ovdje imamo kvantitativnu varijablu mjerenu na omjernoj razini, izlaz je histogram.

Slika 5.

Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati.

Nakon što ste odabrali varijablu, u lijevom prozoru odabirete sekciju ‘Basic plots’ i nakon klika, otvorit će se opširniji izbornik. Po odabiru ‘Pie charts’, prikazat će se grafički prikaz u desnom prozoru koji prikazuje rezultate. Također, možete spremiti sliku ili ju kopirati.

Slika 6.

Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati (Price). No, s obzirom da ovdje želite dobiti detaljnije uvide u svaku podskupinu prema boji, odabirete još i varijablu ‘Color’ i premještate ju u prozorčić iznad kojeg stoji naziv ‘Split’ (podijeli).

U lijevom prozoru odabirete sekciju ‘Customizable plots’ i nakon klika, otvorit će se opširniji izbornik. Po odabiru ‘Pie charts’, prikazat će se grafički prikaz u desnom prozoru koji prikazuje rezultate. Također, možete spremiti sliku ili ju kopirati.

Slika 7.

Kao i pri kreiranju prethodnih slika, odabirete ‘Descriptives’, a potom varijablu koju želite prikazati (Price). No, s obzirom da ovdje želite dobiti detaljnije uvide u svaku podskupinu prema boji, odabirete još i varijablu ‘Color’ i premještate ju (povlačenjem ili klikom na strelicu ispred tog prozora) u prozorčić iznad kojeg stoji naziv ‘Split’ (podijeli).

Slika 8.

Ovaj grafikon se ne može kreirati u JASPU, ali će alati poput MS EXcela, Libre Calc ili Sheets omogućiti kreiranje takvog grafa temeljem Tablice 4.

Provedba postupka koristeći R

R je programski jezik i okruženje otvorenog koda namijenjeno statističkoj analizi, grafičkom prikazu podataka i izvještavanju. R je široko prihvaćen u akademskim, istraživačkim i industrijskim zajednicama zbog svoje fleksibilnosti i bogatog ekosustava paketa koji omogućuju izvođenje raznih statističkih metoda, modeliranja i vizualizacije. Koristeći R, možete pisati skripte za automatizaciju analiza, stvarati prilagođene funkcije te integrirati R s drugim alatima i programskim jezicima. Aktivna zajednica doprinosi stalnom razvoju novih alata i rješenja, čineći R jednim od neizbježnih alata za podatkovne znanstvenike, poslovne analitičare, statističare i istraživače koji žele učinkovito rukovati i interpretirati složene skupove podataka.

Jedan od najugodnijih načina korištenja R-a je putem okruženja R Studio. RStudio je integrirano razvojno okruženje (IDE) za programski jezik R, dizajnirano kako bi olakšalo pisanje, uređivanje i izvršavanje R koda. Korisnicima pruža pregledno i intuitivno sučelje koje uključuje uređivač koda, konzolu, okruženje za varijable, upravljanje paketima, grafičke prikaze i pomoćne alate. Osnovne opcije sučelja RStudia uključuju višepanelni raspored koji omogućava lak pristup svim potrebnim alatima za statističku analizu i reproducibilno istraživanje.

Kako preuzeti R i RStudio te započeti s radom možete pročitati u prvim poglavljima priručnika Uvod u R i RStudio.

Postupak započinje uvozom podataka i to možemo učiniti izravnim uvozom s web stranice:

> Diamonds <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Diamonds.txt")

Nakon toga započinjemo s uvidima u podatke. Jedan od najčešćih načina je korištenje funkcije str().

> str(Diamonds)

## 'data.frame':    2690 obs. of  12 variables:
##  $ Carat.Size   : num  0.3 0.44 0.31 0.66 0.47 0.4 0.36 0.52 0.53 0.43 ...
##  $ Color        : chr  "E" "E" "E" "K" ...
##  $ Clarity      : chr  "VVS1" "VS2" "VVS1" "SI1" ...
##  $ Depth        : num  60 61.9 61.3 62.8 59.1 62 61.3 61.7 59.4 61.5 ...
##  $ Table        : int  59 58 58 57 64 59 57 61 59 60 ...
##  $ Cut          : chr  "Excellent" "Excellent" "Excellent" "Excellent" ...
##  $ Report       : chr  "GIA" "GIA" "GIA" "GIA" ...
##  $ Price        : int  1000 1000 1000 1000 1000 1000 1000 1000 1001 1001 ...
##  $ Log.Price    : num  6.91 6.91 6.91 6.91 6.91 ...
##  $ Table.Depth  : num  -1 -3.9 -3.3 -5.8 4.9 -3 -4.3 -0.7 -0.4 -1.5 ...
##  $ Table.Depth.1: num  0.983 0.937 0.946 0.908 1.083 ...
##  $ Test         : int  0 1 0 2 2 2 0 0 0 2 ...

Ovdje možemo vidjeti da se podatkovni okvir sastoji od 12 varijabli i 2690 opažanja. U ovom trenutku možemo relativno jednostavno podesiti varijable ‘Cut’ i ‘Color’ kao stupnjevite varijable.

> Diamonds$Cut <- factor(Diamonds$Cut, levels = c("Good", "Very Good", "Excellent", "Ideal"), ordered = TRUE)
> Diamonds$Color <- factor(Diamonds$Color, levels = c("D", "E", "F", "G", "H", "I", "J", "K"), ordered = TRUE)

> str(Diamonds)

## 'data.frame':    2690 obs. of  12 variables:
##  $ Carat.Size   : num  0.3 0.44 0.31 0.66 0.47 0.4 0.36 0.52 0.53 0.43 ...
##  $ Color        : Ord.factor w/ 8 levels "D"<"E"<"F"<"G"<..: 2 2 2 8 5 4 1 5 1 3 ...
##  $ Clarity      : chr  "VVS1" "VS2" "VVS1" "SI1" ...
##  $ Depth        : num  60 61.9 61.3 62.8 59.1 62 61.3 61.7 59.4 61.5 ...
##  $ Table        : int  59 58 58 57 64 59 57 61 59 60 ...
##  $ Cut          : Ord.factor w/ 4 levels "Good"<"Very Good"<..: 3 3 3 3 2 3 3 2 2 3 ...
##  $ Report       : chr  "GIA" "GIA" "GIA" "GIA" ...
##  $ Price        : int  1000 1000 1000 1000 1000 1000 1000 1000 1001 1001 ...
##  $ Log.Price    : num  6.91 6.91 6.91 6.91 6.91 ...
##  $ Table.Depth  : num  -1 -3.9 -3.3 -5.8 4.9 -3 -4.3 -0.7 -0.4 -1.5 ...
##  $ Table.Depth.1: num  0.983 0.937 0.946 0.908 1.083 ...
##  $ Test         : int  0 1 0 2 2 2 0 0 0 2 ...

Tablica 1.

Da bismo prikazali prvih 20 podataka u podatkovnom okviru, koristimo funkciju head(). Argument funkcije je naziv podatkovnog okvira, a možemo dodati i broj redaka koje želimo prikazati. Da bismo prikazali prvih dvadeset redaka, upisujemo 20 na mjesto drugog argumenta funkcije head().

> head(Diamonds, 20)

##    Carat.Size Color Clarity Depth Table       Cut Report Price Log.Price
## 1        0.30     E    VVS1  60.0    59 Excellent    GIA  1000  6.907755
## 2        0.44     E     VS2  61.9    58 Excellent    GIA  1000  6.907755
## 3        0.31     E    VVS1  61.3    58 Excellent    GIA  1000  6.907755
## 4        0.66     K     SI1  62.8    57 Excellent    GIA  1000  6.907755
## 5        0.47     H     VS2  59.1    64 Very Good    GIA  1000  6.907755
## 6        0.40     G     VS1  62.0    59 Excellent    GIA  1000  6.907755
## 7        0.36     D     VS2  61.3    57 Excellent    GIA  1000  6.907755
## 8        0.52     H     SI2  61.7    61 Very Good    GIA  1000  6.907755
## 9        0.53     D     SI2  59.4    59 Very Good    GIA  1001  6.908755
## 10       0.43     F     VS2  61.5    60 Excellent    GIA  1001  6.908755
## 11       0.43     F     VS2  60.4    59 Very Good    GIA  1001  6.908755
## 12       0.43     F     VS2  62.0    58 Very Good    GIA  1001  6.908755
## 13       0.30     E    VVS1  59.1    62      Good    GIA  1001  6.908755
## 14       0.47     I     VS2  62.4    57 Excellent    GIA  1001  6.908755
## 15       0.41     E     VS2  62.8    56 Excellent    GIA  1001  6.908755
## 16       0.44     D     SI1  60.2    60 Excellent    GIA  1001  6.908755
## 17       0.36     F    VVS2  60.7    59 Excellent    GIA  1001  6.908755
## 18       0.40     E     VS1  62.5    62      Good    GIA  1001  6.908755
## 19       0.40     E     VS1  64.3    60      Good    GIA  1001  6.908755
## 20       0.32     F      IF  61.5    57 Very Good    GIA  1002  6.909753
##    Table.Depth Table.Depth.1 Test
## 1         -1.0     0.9833333    0
## 2         -3.9     0.9369951    1
## 3         -3.3     0.9461664    0
## 4         -5.8     0.9076433    2
## 5          4.9     1.0829103    2
## 6         -3.0     0.9516129    2
## 7         -4.3     0.9298532    0
## 8         -0.7     0.9886548    0
## 9         -0.4     0.9932660    0
## 10        -1.5     0.9756098    2
## 11        -1.4     0.9768212    0
## 12        -4.0     0.9354839    1
## 13         2.9     1.0490694    2
## 14        -5.4     0.9134615    0
## 15        -6.8     0.8917198    0
## 16        -0.2     0.9966777    0
## 17        -1.7     0.9719934    1
## 18        -0.5     0.9920000    2
## 19        -4.3     0.9331260    0
## 20        -4.5     0.9268293    2

Ako bismo na ovaj način htjeli prikazati samo određene varijable, one koje koristimo u daljnjoj analizi, to možemo učiniti na način da odaberemo samo one stupce koji predstavljaju te varijable.

> head(Diamonds[, c(1, 2, 3, 6, 11)], 20)

##    Carat.Size Color Clarity       Cut Table.Depth.1
## 1        0.30     E    VVS1 Excellent     0.9833333
## 2        0.44     E     VS2 Excellent     0.9369951
## 3        0.31     E    VVS1 Excellent     0.9461664
## 4        0.66     K     SI1 Excellent     0.9076433
## 5        0.47     H     VS2 Very Good     1.0829103
## 6        0.40     G     VS1 Excellent     0.9516129
## 7        0.36     D     VS2 Excellent     0.9298532
## 8        0.52     H     SI2 Very Good     0.9886548
## 9        0.53     D     SI2 Very Good     0.9932660
## 10       0.43     F     VS2 Excellent     0.9756098
## 11       0.43     F     VS2 Very Good     0.9768212
## 12       0.43     F     VS2 Very Good     0.9354839
## 13       0.30     E    VVS1      Good     1.0490694
## 14       0.47     I     VS2 Excellent     0.9134615
## 15       0.41     E     VS2 Excellent     0.8917198
## 16       0.44     D     SI1 Excellent     0.9966777
## 17       0.36     F    VVS2 Excellent     0.9719934
## 18       0.40     E     VS1      Good     0.9920000
## 19       0.40     E     VS1      Good     0.9331260
## 20       0.32     F      IF Very Good     0.9268293

Možemo kreirati i novi podatkovni skup koji može olakšati daljnje upravljanje podacima.

> Dijamanti <- Diamonds[, c(1, 2, 3, 6, 11)]
> str(Dijamanti)

## 'data.frame':    2690 obs. of  5 variables:
##  $ Carat.Size   : num  0.3 0.44 0.31 0.66 0.47 0.4 0.36 0.52 0.53 0.43 ...
##  $ Color        : Ord.factor w/ 8 levels "D"<"E"<"F"<"G"<..: 2 2 2 8 5 4 1 5 1 3 ...
##  $ Clarity      : chr  "VVS1" "VS2" "VVS1" "SI1" ...
##  $ Cut          : Ord.factor w/ 4 levels "Good"<"Very Good"<..: 3 3 3 3 2 3 3 2 2 3 ...
##  $ Table.Depth.1: num  0.983 0.937 0.946 0.908 1.083 ...

Tablica 2.

Ovaj postupak se može provesti na više načina. Ovdje će se prikazati dva načina, a prvi način podrazumijeva postupni izračun. Prvo kreiramo jednostavnu statističku tablicu.

U postupku koristimo sljedeće elemente:

table(Diamonds$Cut) stvara tablicu frekvencija za varijablu Cut (iako već sad imamo elemente potrebne za jadnostavnu statističku tablicu, nastavljamo postupak, kako bi pripremili Tablica_2 za prihvat dodatnih stupaca i redaka).

as.vector() pretvara tablicu u vektor.

data.frame() pretvara vektor u data.frame.

colnames() postavlja naziv stupca na “Apsolutne_frekvencije”.

rownames() Postavlja nazive redova prema kategorijama Cut.

Tablica_2 Prikazuje trenutni sadržaj tablice.

> Tablica_2 <- as.vector(table(Diamonds$Cut))
> Tablica_2 <- data.frame(Tablica_2)
> colnames(Tablica_2) <- c("Apsolutne_frekvencije")
> rownames(Tablica_2) <- c("Good", "Very good", "Excellent", "Ideal")
> Tablica_2

##           Apsolutne_frekvencije
## Good                        165
## Very good                  1064
## Excellent                  1276
## Ideal                       185

Sljedećom naredbom se izračunava postotak za svaki modalitet varijable i pohranjuje se kao vektor stupac u podatkovni okvir Tablica_2, koji se potom ispisuje.

> Tablica_2$Postoci <- as.vector(Tablica_2[,1]/sum(Tablica_2[,1])*100)
> Tablica_2

##           Apsolutne_frekvencije   Postoci
## Good                        165  6.133829
## Very good                  1064 39.553903
## Excellent                  1276 47.434944
## Ideal                       185  6.877323

Sljedećim postupkom izračunavaju se kumulativne frekvencije za svaki modalitet varijable i pohranjuju se kao vektor stupac u podatkovni okvir Tablica_2, koji se potom ispisuje.

> Tablica_2$Kum_fr[1] <- Tablica_2$Postoci[1]
> Tablica_2$Kum_fr[2] <- Tablica_2$Postoci[1] + Tablica_2$Postoci[2] 
> Tablica_2$Kum_fr[3] <- Tablica_2$Postoci[1] + Tablica_2$Postoci[2] + Tablica_2$Postoci[3]
> Tablica_2$Kum_fr[4] <- Tablica_2$Postoci[1] + Tablica_2$Postoci[2] + Tablica_2$Postoci[3] + Tablica_2$Postoci[4]
> Tablica_2$Kum_fr <- as.vector(Tablica_2$Kum_fr)
> 
> Tablica_2

##           Apsolutne_frekvencije   Postoci     Kum_fr
## Good                        165  6.133829   6.133829
## Very good                  1064 39.553903  45.687732
## Excellent                  1276 47.434944  93.122677
## Ideal                       185  6.877323 100.000000

Potom se dodaje redak Ukupno s ukupnim frekvencijama i postotkom od 100%, a kumulativni postotak postavlja na NA.

> total_Table_2 <- colSums(Tablica_2[, 1:2])
> total_Table_2[3] <- NA
> Tablica_2 <- rbind(Tablica_2, Ukupno =total_Table_2)
> 
> Tablica_2

##           Apsolutne_frekvencije    Postoci     Kum_fr
## Good                        165   6.133829   6.133829
## Very good                  1064  39.553903  45.687732
## Excellent                  1276  47.434944  93.122677
## Ideal                       185   6.877323 100.000000
## Ukupno                     2690 100.000000         NA

Ovime je završen postupak postupnog kreiranja tablice 2.

Ako tablicu želite spremiti za daljnje korištenje u drugim formatima, možete ju pohraniti, na primjer, u .xlsx ili .csv formatu.

> writexl::write_xlsx(Tablica_2, "Tablica_2.xlsx")
> 
> write.csv(Tablica_2, "Tablica_2.csv")

Alternativni postupak, koristeći paket dplyr:

> library(dplyr)
> summary_table <- Diamonds %>%
+   group_by(Cut) %>%
+   summarise(Apsolutne_frekvencije = n()) %>%
+   mutate(
+     Postoci = (Apsolutne_frekvencije / sum(Apsolutne_frekvencije)) * 100,
+     Kum_fr = cumsum(Postoci)
+   ) %>%
+   ungroup()
> summary_table <- summary_table %>%
+   add_row(
+     Cut = "Ukupno",
+     Apsolutne_frekvencije = sum(summary_table$Apsolutne_frekvencije),
+     Postoci = 100,
+     Kum_fr = NA
+   )
> summary_table

## # A tibble: 5 × 4
##   Cut       Apsolutne_frekvencije Postoci Kum_fr
##   <chr>                     <int>   <dbl>  <dbl>
## 1 Good                        165    6.13   6.13
## 2 Very Good                  1064   39.6   45.7 
## 3 Excellent                  1276   47.4   93.1 
## 4 Ideal                       185    6.88 100   
## 5 Ukupno                     2690  100     NA

Ovaj postupak uklljučuje učitavanje, grupiranje i dodavanje retka ukupno, a pritom su korišteni sljedeći elementi:

group_by(Cut) - grupira podatke prema kategoriji Cut.

summarise(Apsolutne_frekvencije = n()) - prebrojava koliko se puta pojavljuje svaka kategorija.

mutate() - dodaje stupce i izračunava vrijednosti za postotke i kumulativne postotke.

cumsum(Postoci) - izračunava kumulativne postotke.

add_row() - dodaje redak Ukupno sa zbrojem frekvencija, postotkom od 100% i NA za kumulativni postotak.

Tablica 3.

S obzirom da je Tablica 3, zapravo dio Tablice 2, koristimo iste postupke (pogledajte objašnjenja za kreiranje prethodne tablice).

> Tablica_3 <- as.vector(table(Diamonds$Cut))
> Tablica_3 <- data.frame(Tablica_3)
> colnames(Tablica_3) <- c("Apsolutne_frekvencije")
> rownames(Tablica_3) <- c("Good", "Very good", "Excellent", "Ideal")
> Tablica_3 <- rbind(Tablica_3, Ukupno=sum(Tablica_3$Apsolutne_frekvencije))
> Tablica_3

##           Apsolutne_frekvencije
## Good                        165
## Very good                  1064
## Excellent                  1276
## Ideal                       185
## Ukupno                     2690

Alternativni postupak:

> library(dplyr)
> summary_table <- Diamonds %>%
+   group_by(Cut) %>%
+   summarise(Apsolutne_frekvencije = n()) %>%
+   ungroup()
> summary_table <- summary_table %>%
+   add_row(
+     Cut = "Ukupno",
+     Apsolutne_frekvencije = sum(summary_table$Apsolutne_frekvencije)
+   )
> summary_table

## # A tibble: 5 × 2
##   Cut       Apsolutne_frekvencije
##   <chr>                     <int>
## 1 Good                        165
## 2 Very Good                  1064
## 3 Excellent                  1276
## 4 Ideal                       185
## 5 Ukupno                     2690

Tablica 4.

> Tablica_4 <- table(Diamonds$Color, Diamonds$Cut)
> Tablica_4

##    
##     Good Very Good Excellent Ideal
##   D   16       106       139    16
##   E   29       209       227    39
##   F   23       164       213    31
##   G   22       130       209    35
##   H   23       154       192    25
##   I   23       124       142    27
##   J   21       121       102     9
##   K    8        56        52     3

table(Diamonds$Color, Diamonds$Cut) - stvara tablicu kontingencije koja prikazuje brojanje (frekvencije) kombinacija vrijednosti varijabli Color i Cut.

Tablica_4 - prikaz tablice.

> Tablica_4 <- data.frame(matrix(Tablica_4, nrow = 8, ncol = 4))
> row.names(Tablica_4) <- levels(Diamonds$Color)
> colnames(Tablica_4) <- levels(Diamonds$Cut)
> Tablica_4

##   Good Very Good Excellent Ideal
## D   16       106       139    16
## E   29       209       227    39
## F   23       164       213    31
## G   22       130       209    35
## H   23       154       192    25
## I   23       124       142    27
## J   21       121       102     9
## K    8        56        52     3

matrix(Tablica_4, nrow = 8, ncol = 4) - pretvara tablicu u matricu s 8 redova i 4 kolone (međukorak potreban zbog toga što format podataka table nije moguće direktno pretvoriti u data.frame).

data.frame() - konvertira matricu u data.frame, odnosno podatkovni okvir.

row.names(Tablica_4) <- levels(Diamonds$Color) - postavlja nazive redova prema razinama varijable Color.

colnames(Tablica_4) <- levels(Diamonds$Cut) - postavlja nazive stupaca prema razinama varijable Cut.

Tablica_4 - prikazuje ažurirani data frame s imenovanim redovima i stupcima.

> Ukupno_stupac_T4 <- rowSums(Tablica_4)
> Tablica_4 <- cbind(Tablica_4, Ukupno = Ukupno_stupac_T4)
> 
> Ukupno_redak_T4 <- colSums(Tablica_4)
> Tablica_4 <- rbind(Tablica_4, Ukupno = Ukupno_redak_T4)
> Tablica_4

##        Good Very Good Excellent Ideal Ukupno
## D        16       106       139    16    277
## E        29       209       227    39    504
## F        23       164       213    31    431
## G        22       130       209    35    396
## H        23       154       192    25    394
## I        23       124       142    27    316
## J        21       121       102     9    253
## K         8        56        52     3    119
## Ukupno  165      1064      1276   185   2690

rowSums(Tablica_4) - izračunava zbroj vrijednosti za svaki red (Color).

cbind(Tablica_4, Ukupno = Ukupno_stupac_T4) - dodaje novi stupacu ‘Ukupno’ - zbirni stupac.

colSums(Tablica_4) - izračunava zbroj vrijednosti za svaki stupac (Cut), uključujući novi stupac ‘Ukupno’.

rbind(Tablica_4, Ukupno_redak_T4) - dodaje zbirni redak ‘Ukupno’.

Tablica_4 - prikazuje konačnu tablicu sa zbirnim recima i stupcima.

Alternativni postupak:

> library(dplyr)
> library(janitor)

## Warning: package 'janitor' was built under R version 4.3.3

> summary_table <- Diamonds %>%
+   tabyl(Color, Cut) %>%
+   adorn_totals("both")
> summary_table

##  Color Good Very Good Excellent Ideal Total
##      D   16       106       139    16   277
##      E   29       209       227    39   504
##      F   23       164       213    31   431
##      G   22       130       209    35   396
##      H   23       154       192    25   394
##      I   23       124       142    27   316
##      J   21       121       102     9   253
##      K    8        56        52     3   119
##  Total  165      1064      1276   185  2690

library() - učitavanje paketa. Paketi moraju biti prethodno instalirani koristeći install.packages().

Diamonds %>% - uzimanje podatkovnog okvira Diamonds kao početne točke.

tabyl(Color, Cut) - kreira kontingencijsku tablicu između varijabli Color i Cut.

adorn_totals("both") - dodaje ukupne redove (za svaku boju) i ukupne stupce (za svaki rez), uključujući ukupne zbrojeve na kraju.

summary_table - prikazuje konačnu tablicu.

Tablica 5.

> Tablica_5 <- Tablica_4/Tablica_4[9, 5] * 100
> Tablica_5

##             Good Very Good Excellent     Ideal     Ukupno
## D      0.5947955  3.940520  5.167286 0.5947955  10.297398
## E      1.0780669  7.769517  8.438662 1.4498141  18.736059
## F      0.8550186  6.096654  7.918216 1.1524164  16.022305
## G      0.8178439  4.832714  7.769517 1.3011152  14.721190
## H      0.8550186  5.724907  7.137546 0.9293680  14.646840
## I      0.8550186  4.609665  5.278810 1.0037175  11.747212
## J      0.7806691  4.498141  3.791822 0.3345725   9.405204
## K      0.2973978  2.081784  1.933086 0.1115242   4.423792
## Ukupno 6.1338290 39.553903 47.434944 6.8773234 100.000000

Svi elementi Tablice 4, dijele se ukupnim brojem opažanja (koji se nalazi u 10. retku i 5. stupcu tablice; Tablica_4[9, 5]) i množe sa 100.

Alternativno…

> Tablica_4_kutno100 <- prop.table(as.matrix(Tablica_4[1:8, 1:4])) * 100
> Tablica_5 <- cbind(Tablica_4_kutno100, Ukupno = rowSums(Tablica_4_kutno100))
> Tablica_5 <- rbind(Tablica_5, Ukupno = colSums(Tablica_5))
> Tablica_5

##             Good Very Good Excellent     Ideal     Ukupno
## D      0.5947955  3.940520  5.167286 0.5947955  10.297398
## E      1.0780669  7.769517  8.438662 1.4498141  18.736059
## F      0.8550186  6.096654  7.918216 1.1524164  16.022305
## G      0.8178439  4.832714  7.769517 1.3011152  14.721190
## H      0.8550186  5.724907  7.137546 0.9293680  14.646840
## I      0.8550186  4.609665  5.278810 1.0037175  11.747212
## J      0.7806691  4.498141  3.791822 0.3345725   9.405204
## K      0.2973978  2.081784  1.933086 0.1115242   4.423792
## Ukupno 6.1338290 39.553903 47.434944 6.8773234 100.000000

U drugom pristupu, korištena je funkcija prop.table() koja računa proporcije. Uzeti su samo osnovni elementi tablice, a naknadno su dodani zbirni stupac i zbirni redak.

Tablica 6.

> Red_D <- Tablica_4[1,]/Tablica_4[1,5]*100
> Red_E <- Tablica_4[2,]/Tablica_4[2,5]*100
> Red_F <- Tablica_4[3,]/Tablica_4[3,5]*100
> Red_G <- Tablica_4[4,]/Tablica_4[4,5]*100
> Red_H <- Tablica_4[5,]/Tablica_4[5,5]*100
> Red_I <- Tablica_4[6,]/Tablica_4[6,5]*100
> Red_J <- Tablica_4[7,]/Tablica_4[7,5]*100
> Red_K <- Tablica_4[8,]/Tablica_4[8,5]*100
> Red_Uk <- Tablica_4[9,]/Tablica_4[9,5]*100
> 
> Tablica_4_vodoravno100 <- rbind(Red_D, Red_E, Red_F, Red_G, Red_H, Red_I, Red_J, Red_K, Red_Uk)
> Tablica_4_vodoravno100

##            Good Very Good Excellent    Ideal Ukupno
## D      5.776173  38.26715  50.18051 5.776173    100
## E      5.753968  41.46825  45.03968 7.738095    100
## F      5.336427  38.05104  49.41995 7.192575    100
## G      5.555556  32.82828  52.77778 8.838384    100
## H      5.837563  39.08629  48.73096 6.345178    100
## I      7.278481  39.24051  44.93671 8.544304    100
## J      8.300395  47.82609  40.31621 3.557312    100
## K      6.722689  47.05882  43.69748 2.521008    100
## Ukupno 6.133829  39.55390  47.43494 6.877323    100

Koristeći odabir elemenata podatkovnog okvira (npr. Tablica_4[1,] za odabir prvog retka, a Tablica_4[1,5] za odabir sume prvog retka), elementi u recima su podijeljeni s pripadajućim sumama redaka, a potom su po recima (rbind()) spojeni u podatkovni okvir.

Alternativno…

> Tablica_4_vodoravno100 <- prop.table(as.matrix(Tablica_4[,1:4]), 1) * 100
> Tablica_6 <- cbind(Tablica_4_vodoravno100, Ukupno = rowSums(Tablica_4_vodoravno100, na.rm = TRUE))
> Tablica_6

##            Good Very Good Excellent    Ideal Ukupno
## D      5.776173  38.26715  50.18051 5.776173    100
## E      5.753968  41.46825  45.03968 7.738095    100
## F      5.336427  38.05104  49.41995 7.192575    100
## G      5.555556  32.82828  52.77778 8.838384    100
## H      5.837563  39.08629  48.73096 6.345178    100
## I      7.278481  39.24051  44.93671 8.544304    100
## J      8.300395  47.82609  40.31621 3.557312    100
## K      6.722689  47.05882  43.69748 2.521008    100
## Ukupno 6.133829  39.55390  47.43494 6.877323    100

Ovdje je ponovno korištena funkcija prop.table(). Prvi argument su elementi tablice i odabrana su prva četiri stupca pretvorena u matrični oblik (odnosno, as.matrix(Tablica_4[,1:4])). Kako bi se naznačilo da svaki od redaka u odabranim stupcima treba biti podijeljen sumom retka, drugi argument funkcije prop.table() je broj 1 (označava da će se elementi redaka dijeliti pripadajućom sumom retka). Rezultati su još pomnoženi sa 100, kako bi se proporcije preračunale u postotke. Potom je još izračunat zbirni stupac i spojen je s prvim dijelom podatkovnog okvira.

Tablica 7.

> St_Good <- Tablica_4[,1]/sum(Tablica_4[9,1])*100
> St_VGood <- Tablica_4[,2]/sum(Tablica_4[9,2])*100
> St_Exc <- Tablica_4[,3]/sum(Tablica_4[9,3])*100
> St_Ideal <- Tablica_4[,4]/sum(Tablica_4[9,4])*100
> St_Uk <- Tablica_4[,5]/sum(Tablica_4[9,5])*100
> Tablica_7 <- cbind(St_Good, St_VGood, St_Exc, St_Ideal, St_Uk)
> Tablica_7

##          St_Good   St_VGood     St_Exc   St_Ideal      St_Uk
##  [1,]   9.696970   9.962406  10.893417   8.648649  10.297398
##  [2,]  17.575758  19.642857  17.789969  21.081081  18.736059
##  [3,]  13.939394  15.413534  16.692790  16.756757  16.022305
##  [4,]  13.333333  12.218045  16.379310  18.918919  14.721190
##  [5,]  13.939394  14.473684  15.047022  13.513514  14.646840
##  [6,]  13.939394  11.654135  11.128527  14.594595  11.747212
##  [7,]  12.727273  11.372180   7.993730   4.864865   9.405204
##  [8,]   4.848485   5.263158   4.075235   1.621622   4.423792
##  [9,] 100.000000 100.000000 100.000000 100.000000 100.000000

Koristeći odabir elemenata podatkovnog okvira (npr. Tablica_4[,1] za odabir prvog stupca, a Tablica_4[9,1] za odabir sume prvog stupca), elementi u stupcima su podijeljeni s pripadajućim sumama stupaca, a potom su po stupcima (cbind()) spojeni u podatkovni okvir.

Alternativno…

> Tablica_4_okomito100 <- prop.table(as.matrix(Tablica_4[1:8,]), 2) * 100
> Tablica_7 <- rbind(Tablica_4_okomito100, Ukupno = colSums(Tablica_4_okomito100))
> Tablica_7

##              Good  Very Good  Excellent      Ideal     Ukupno
## D        9.696970   9.962406  10.893417   8.648649  10.297398
## E       17.575758  19.642857  17.789969  21.081081  18.736059
## F       13.939394  15.413534  16.692790  16.756757  16.022305
## G       13.333333  12.218045  16.379310  18.918919  14.721190
## H       13.939394  14.473684  15.047022  13.513514  14.646840
## I       13.939394  11.654135  11.128527  14.594595  11.747212
## J       12.727273  11.372180   7.993730   4.864865   9.405204
## K        4.848485   5.263158   4.075235   1.621622   4.423792
## Ukupno 100.000000 100.000000 100.000000 100.000000 100.000000

Ovdje je ponovno korištena funkcija prop.table(). Prvi argument su elementi tablice i odabrano je prvih osam redaka koji su pretvoreni u matrični oblik (odnosno, as.matrix(Tablica_4[1:8,])). Kako bi se naznačilo da svaki od stupaca u odabranim recima treba biti podijeljen sumom stupca, drugi argument funkcije prop.table() je broj 2 (označava da će se elementi pojedinih stupaca dijeliti pripadajućom sumom stupca). Rezultati su još pomnoženi sa 100, kako bi se proporcije preračunale u postotke. Potom je još izračunat zbirni redak i spojen je s prvim dijelom podatkovnog okvira.

Tablica 8.

Početak postupka sličan je kao za tablicu 4. Nakon toga ekstrahiramo potrebne stupce te pojavu 1 dijelimo pojavom 2 za RBK1, odnosno pojavu 2 dijelimo pojavom 1 za

> Tablica_8 <- table(Diamonds$Test, Diamonds$Cut)
> Tablica_8

##    
##     Good Very Good Excellent Ideal
##   0  104       631       770   108
##   1   29       215       253    42
##   2   32       218       253    35

> Tablica_8[, c(3,2)]

##    
##     Excellent Very Good
##   0       770       631
##   1       253       215
##   2       253       218

> Tablica8 <- as.data.frame(matrix(Tablica_8[, c(3,2)], nrow= 3, ncol = 2))
> Tablica8

##    V1  V2
## 1 770 631
## 2 253 215
## 3 253 218

> RBK1 <- Tablica8[, 1] / Tablica8[, 2]
> RBK2 <- Tablica8[, 2] / Tablica8[, 1]
> 
> Tablica8 <- cbind(Tablica8, RBK1, RBK2)
> Tablica8

##    V1  V2     RBK1      RBK2
## 1 770 631 1.220285 0.8194805
## 2 253 215 1.176744 0.8498024
## 3 253 218 1.160550 0.8616601

Slika 1.

> barplot(as.vector(table(Diamonds$Color)), names.arg = levels(Diamonds$Color))

Funkcija barplot() za prvi argument prihvaća vektor ili matricu frekvencija pojave koja se grafički prikazuje. Zato su prvo izračunate frekvencije (table(Diamonds$Color)), pa pretvorene u vektor (as.vector()) te uvrštene kao argument funkcije (barplot()). Drugi argument funkcije zadaje nazive stupaca (names.arg = levels(Diamonds$Color)).

Grafički prikaz je moguće dodatno prilagoditi, a više o tome možete naučiti ako u donjem desnom prozoru RStudia u ‘Help’ pretraživaču upišete barplot().

Slika 2.

Slika 2 slijedi isti postupak kao Slika 1, za odgovarajuću varijablu.

> barplot(as.vector(table(Diamonds$Cut)), names.arg = levels(Diamonds$Cut))

Slika 3.

Slika 3 slijedi isti postupak kao Slika 1, za odgovarajuću varijablu.

> barplot(as.vector(table(Diamonds$Clarity)), names.arg = levels(Diamonds$Clarity))

Slika 4.

Za kreiranje hitograma, koristi se naredva hist(), a kao argument dovoljno je odabrati varijablu za koju se histogram kreira.

> hist(Diamonds$Price)

Moguća su i dodatna podešavanja. Ovdje je primjer, a za više detalja, u donjem desnom prozoru RStudia u ‘Help’ pretraživaču upišete hist().

> hist(Diamonds$Price, main = NULL, xlim = c(0, 12000), ylim = c(0, 700), xlab = "Cijena", ylab = "Frekvencija", col = "lightgreen")

Slika 5.

> pie(as.vector(table(Diamonds$Color)), labels = levels(Diamonds$Color), col = c(1:8))

Strukturni krug (engl. pie chart) moguće je kreirati naredbom pie(). Prvi argument iziskuje unos frekvencija modaliteta u obliku vektora, a drugi unos naziva.

Slika 6.

> boxplot(Diamonds$Price)

Box-plot kreiramo naredbom boxplot(). Za kreiranje jednostavnog box-plota, potrebno je kao argument unijeti varijablu za koju se box-plot kreira.

Za dateljnije uvide, dijeljenjem opažanja na podskupove prema boji, kao argument se unosi Diamonds$Price ~ Diamonds$Color.

> boxplot(Diamonds$Price ~ Diamonds$Color)

Slika 7.

Ovaj se grafikon kreira na isti način kao i prethodni, uz prilagodbu naziva varijable.

> boxplot(Diamonds$Carat.Size ~ Diamonds$Color)

Slika 8.

Za kreiranje ovog grafikona, koristit će se paket ggplot2, kojeg treba instalirati i učitati.

> library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.3

> ggplot(Diamonds, aes(x = Color, fill = Cut)) +
+   geom_bar(position = "stack") +
+   labs(title = "Razdijeljeni stupcasti dijagram",
+        x = "Boja",
+        y = "Frekvencija") +
+   theme_minimal()

ggplot(Diamonds, aes(x = Color, fill = Cut)):

ggplot(Diamonds, ...)- inicijalizira grafikon koristeći skup podataka Diamonds.
aes(x = Color, fill = Cut) - definira estetske mape gdje je varijabla Color na x-osi, a Cut određuje stupce.

geom_bar(position = "stack"):

Dodaje stupčasti grafikon (geom_bar) koji automatski broji frekvencije.
position = "stack" - kreira razdijeljene stupce prema varijabli Cut, što omogućava pregled udjela svakog reza unutar pojedine boje.

labs(title = "Razdijeljeni stupcasti dijagram", x = "Boja", y = "Frekvencija"):

Dodaje naslove grafikona i osi.
title - naslov grafikona.
x - oznaka za x-os.
y - oznaka za y-os.

theme_minimal():

Primjenjuje jednostavni stil na grafikon, uklanjajući nepotrebne elemente poput mrežnih linija (engl. grid) i pozadine, čime se fokus stavlja na podatke.

Provedba postupka koristeći MS Excel

MS Excel je program za proračunske tablice razvijen od strane Microsofta, koji je postao industrijski standard za jednostavnu obradu podataka, analizu i vizualizaciju. Koristi se u raznim područjima kao što su financije, računovodstvo, marketing, prodaja i drugi. Excel omogućava korisnicima unos, organizaciju i manipulaciju podacima pomoću različitih funkcija, formula i alata za analizu. Osim toga, pruža mogućnosti za kreiranje grafikona, pivot tablica i automatizaciju zadataka putem VBA programiranja, što ga čini korisnim alatom za potporu poslovnom odlučivanju.

Za one koji traže besplatne alternative, dostupne su opcije poput Google Sheets i LibreOffice Calc. Google Sheets je online aplikacija koja omogućava kolaborativni rad u stvarnom vremenu, pružajući slične funkcionalnosti kao Excel, ali s dodatnim pogodnostima integracije s drugim Google alatima i dostupnošću preko interneta. LibreOffice Calc je dio LibreOffice paketa otvorenog koda, koji nudi robustan set alata za proračunske tablice, kompatibilan s mnogim Excel formatima. Ove alternative pružaju korisnicima fleksibilnost i pristupačnost, posebno za one koji nemaju pristup plaćenim softverskim rješenjima.

Ovdje će se prikazati postupak koristeći MS Excel, prvenstveno zbog učestalosti njegove upotrebe.

Koristeći MS Excel, prvenstveno se uvoze i kreiraju XLS i XLSX datoteke, no mogu se uvesti i CSV datoteke. XLS je stariji format datoteke koji se koristio u starijim verzijama Excela, dok je XLSX noviji format baziran na XML tehnologiji, što omogućuje bolju kompatibilnost, manju veličinu datoteka i lakše dijeljenje podataka. CSV (Comma-Separated Values) datoteke su jednostavne tekstualne datoteke u kojima su podaci odvojeni zarezima, što omogućuje jednostavan prijenos podataka između različitih aplikacija i sustava. Osim ovih formata, Excel podržava i uvoz podataka iz drugih formata kao što su TXT datoteke, PDF dokumenti te izravno povezivanje s bazama podataka poput SQL Servera.

Na preuzetu datoteku kliknite dvaput ako je MS Excel dodijeljen za pregled svih datoteka ovog tipa. Alternativno, ako Excel nije zadani program, desnim klikom na datoteku otvorit će se kontekstni izbornik, iz kojeg odabirete Open with ili Otvori s i iz izbornika odabrati Excel - kliknite OK ili Otvori kako biste otvorili datoteku u Excelu. Ako često radite s Excel datotekama, možete postaviti Excel kao zadani program za otvaranje tih tipova datoteka. To možete učiniti desnim klikom na datoteku, odabirom Properties (Svojstva), te u odjeljku Opens with (Otvara se s) kliknuti Change (Promijeni) i odabrati Microsoft Excel.

Prije nego započnemo s radom, moramo izvršiti prilagodbu mogućnosti uključivanjem dodataka (Add-Ins) Analysis ToolPak i Analysis ToolPak-VBA, kako bismo imali na raspolaganju sve potrebne mogućnosti za analizu.

Otvorite MS Excel.
Kliknite na karticu Datoteka (File) u gornjem lijevom kutu.
Odaberite opciju Mogućnosti (Options) na dnu izbornika.

U prozoru mogućnosti Excela, kliknite na Dodaci (Add-Ins) s lijeve strane.

U donjem dijelu prozora, u padajućem izborniku Upravljanje (Manage), odaberite Excel dodaci (Excel Add-ins) i kliknite na Idi… (Go…).

U listi dostupnih dodataka označite Analysis ToolPak i Analysis ToolPak-VBA.
Kliknite na OK kako biste omogućili odabrane dodatke.

Nakon ovih koraka, dodaci Analysis ToolPak i Analysis ToolPak-VBA bit će instalirani i dostupni za korištenje u vašem Excel okruženju, omogućujući vam naprednije analitičke alate i funkcionalnosti.

Nakon instalacije, kliknite na karticu Data u traci izbornika. Tamo će se pojaviti opcija Data Analysis, koja vam omogućuje pristup različitim naprednim statističkim alatima unutar Excela. Analysis ToolPak pruža širok spektar statističkih metoda kao što su regresija, ANOVA, deskriptivne statistike, t-testovi i mnoge druge.

Tablica 1.

Prikaz svih elemenata prve tablice (prvih 20 elemenata podatkovnog okvira) dostupan je zapravo, čim otvorimo datoteku s podacima.

Tablica 2.

Kako biste kreirali drugu tablicu, odaberite podatke varijable ‘Cut’ (možete ih prethodno kopirati na drugi list ili sa strane), pa kliknite na Data (Podaci), a potom odaberite From table/range.

Potom će Vam se otvoriti prozor za upravljanje podacima. Iz alatne trake odaberite Group By.

Podesite na Basic, Count i Count rows. Odabirom opcije Group By uz ovakve postavke, Excel grupira podatke prema vrijednostima varijable ‘Cut’. Ova postavka omogućava da se za svaku jedinstvenu kategoriju u stupcu ‘Cut’ izračuna broj redaka koji pripadaju toj kategoriji. Basic način grupiranja koristi osnovne kriterije za grupiranje, dok Count funkcija prebrojava broj opažanja svake grupe. Na kraju, Count rows osigurava da se brojanje vrši na temelju broja redaka unutar svake grupe, rezultirajući tablicom koja prikazuje frekvenciju svake kategorije ‘Cut’.

Kreirana je tablica frekvencija varijable ‘Cut’. Kliknite na Close&Load.

Kreirana tablica pojavit će se na novom listu. Ovo ujedno odgovara prikazu Tablice 3.

Nakon što ste kreirali tablicu koja prikazuje broj dijamanata za svaku kategoriju reza (‘Cut’), sljedeći korak je dodavanje dva stupca koja će vam omogućiti detaljniju analizu: stupac postotaka i stupac kumulativnih frekvencija “Manje od”.

Za izračunavanje postotaka, u prvi redak novog stupca unesite formulu koja dijeli broj dijamanata u toj kategoriji s ukupnim brojem dijamanata. Na primjer, u ćeliju B2 upišite =B2/$B$6, gdje je B2 broj dijamanata za prvu kategoriju reza, a B6 ukupni broj dijamanata. Korištenjem apsolutne reference ($B$6), osiguravate da se uvijek referencira ista ćelija prilikom kopiranja formule niz stupac. Nakon što unesete formulu u prvi redak, jednostavno je kopirajte niz stupac kako bi se primijenila na sve ostale kategorije, čime ćete dobiti postotke za svaku kategoriju reza.

Za stupac kumulativnih frekvencija, koji vam omogućava praćenje akumuliranog udjela dijamanata do svake kategorije, proces je malo drugačiji. U prvi redak kumulativnog stupca unesite formulu =C2, gdje C2 predstavlja postotak prve kategorije. U drugom retku unesite formulu =D2+C3, gdje D2 predstavlja kumulativni postotak prethodne kategorije, a C3 postotak iz promatrane kategorije u drugom retku. Ova formula dodaje trenutni postotak na kumulativni postotak prethodne kategorije, stvarajući tako kumulativnu sumu. Nakon što unesete ovu formulu u drugi redak, kopirajte je niz stupac kako bi se automatski izračunavale kumulativne vrijednosti za sve ostale kategorije. Na taj način, stupac kumulativnih frekvencija postupno raste sve do ukupnog iznosa od 100%.

Tablica 3.

Postupak je prikazan u prvom dijelu kreiranja Tablice 2.

Tablica 4.

Ako varijable koje želite dalje analizirati nisu jedna do druge u podatkovnom okviru, ostatak postupka će biti lakši ako ih kopirate i zalijepite sa strane ili na drugi radni list, jednu do druge.

Umetnite PivotTable:

Idite na karticu “Insert” (Umetni) u traci izbornika na vrhu prozora.
Kliknite na “PivotTable”.
Otvorit će se dijaloški okvir “Create PivotTable”.

Odaberite podatke
Izaberite “New Worksheet” (Novi radni list) za smještaj PivotTable-a na novi list ili “Existing Worksheet” (Postojeći radni list) za smještaj na trenutni.
Kliknite “OK”.

Na desnoj strani ekrana pojavit će se “PivotTable Fields” panel.

Povucite polje “Color” u područje “Rows” (Redovi).
Povucite polje “Cut” u područje “Columns” (Kolone).
Povucite polje “Cut” (ili bilo koje drugo relevantno polje) u područje “Values” (Vrijednosti).
Excel će automatski postaviti funkciju na “Count” (Brojanje), što će prikazati prebrojavanje kombinacija Color i Cut.

Trebali biste vidjeti tablicu kontingence gdje su Color redovi, Cut kolone, a brojevi predstavljaju frekvencije.

Tablica 5.

Kada kreiramo kutno sto u Excelu, unosimo formulu za jednu ćeliju, na primjer B5/$B$13*100, gdje je $B$13 apsolutna referenca koja ostaje nepromijenjena prilikom kopiranja formule. Ovo omogućava da se svaki element u stupcu podijeli s ukupnom vrijednošću stupca ($B$13), a zatim pomnoži sa 100 kako bi se dobili postoci. Kopiranjem formule u preostala polja stupca, relativna referenca (B5) se automatski prilagođava za svaku ćeliju, dok apsolutna referenca osigurava da se dijeli uvijek s istom ukupnom vrijednošću.

Tablica 6.

Za vodoravno sto, unosimo formulu, npr. B5/$F13, gdje je $F13 apsolutna referenca na ukupnu vrijednost reda. Ova formula dijeli svaki element u redu s ukupnom vrijednošću tog reda ($F13) i kopira se kroz sve ćelije reda. Relativna referenca (B5) prilagođava se za svaku ćeliju u redu, dok apsolutna referenca osigurava da se dijeli s istom ukupnom vrijednošću, omogućavajući precizno izračunavanje postotaka za svaki element unutar reda.

Tablica 7.

Kada kreiramo tablicu okomito sto, koristimo, npr. formulu B5/B$13, gdje je B$13 apsolutna referenca na ukupnu vrijednost stupca, ali relativna referenca na red (B5). Ovo omogućava da se svaki element u stupcu dijeli s ukupnom vrijednošću tog stupca (B$13), dok se referenca na red automatski prilagođava prilikom kopiranja formule kroz stupac. Time se osigurava konzistentno izračunavanje postotaka za svaki element u stupcu, bez potrebe za ručnim unosom formule za svaku ćeliju.

Tablica 8.

Početak postupka je isti kao i pri kreiranju Tablice 4.

Nakon toga, obrišemo ili sakrijemo stupce viška te dodajemo stupce RBK1 i RBK2.

Slika 1.

Kako biste kreirali odgovarajući grafički prikaz, označite podatke (u ovom slučaju, varijablu ‘Color’), a potom kliknite na Insert (Umetni). Odaberite Recommended Charts.

Nakon odabira Recommended Charts, otvorit će se preglednik ponuđenih grafova. Ponekad će se tu naći samo jedan graf, a ponekad će biti ponuđeno više njih. Odaberite stupčasti dijagram (bar plot).

Tim postupkom kreirali ste stupčasti grafikon. Ako želite, grafikon možete dodatno urediti (prilagoditi boje, osi, naslov grafa i dr.) odabirom na + ili kist u desnom gornjem uglu slike.

Slika 2.

Slijedeći isti postupak kao za prvu sliku, kreirate stupčasti grafikon varijable ‘Cut’. Odaberete podatke varijable ‘Cut’, potom kliknete na Insert, Recommenden Charts te odaberete stupčasti grafikon.

Slika 3.

Slijedeći isti postupak kao za prvu sliku, kreirate stupčasti grafikon varijable ‘Clarity’. Odaberete podatke varijable ‘Clarity’, potom kliknete na Insert, Recommenden Charts te odaberete stupčasti grafikon.

Slika 4.

Za kreiranje ove slike, nije moguće direktno koristiti isti postupak kao za prve tri slike. Ako to učinite, dobit ćete sljedeći prikaz:

Kako bismo kreirali strukturni krug (pie chart) za varijablu ‘Color’, prvo kreiramo tablicu frekvencija (po uzoru na postupak kreiranja Tablice 1), a potom odabiremo te podatke, kliknemo na Insert, pa Recommended Charts i odabiremo Pie.

Nakon što kliknete na OK ili U redu, prikazat će se kreirani graf.

Slika 5.

Za kreiranje grafa prikazanog na slici 5, odabiremo podatke varijable ‘Price’. Potom kliknemo na Insert. Nakon toga, iz sekcije grafova, odabirete statističke grafikone, koji su prikazani ikonom u obliku histograma (ikona je zaokružena crvenom bojom na slici).

Klikom na statističke grafove, u pravilu se nude tri opcije: (1) jednostavni histogram, (2) histogram s kumulativnim nizom (Pareto) i (3) Box-plot; a ispod toga stoji More Statistical Charts. Ako kratko zadržite kursor iznad svakog, prikazat će se objašnjenje.

Odaberite jednostavni histogram.

Nakon klika na histogram, kreiran je grafikon kojeg možete dodatno urediti (naslov, osi, boje, itd.) klikom na + i kist u gornjem desnom uglu grafikona.

Slika 6.

Za kreiranje box-plota, prvo odaberite podatke varijable koju želite prikazati. Potom kliknemo na Insert. Nakon toga, iz sekcije grafova, odabirete statističke grafikone. Kao i pri kreiranju histograma, klikom na statističke grafove, u pravilu se nude tri opcije: (1) jednostavni histogram, (2) histogram s kumulativnim nizom (Pareto) i (3) Box-plot; a ispod toga stoji More Statistical Charts. Ako kratko zadržite kursor iznad svakog, prikazat će se objašnjenje.

Odaberite jednostavni box-plot. Time ste kreirali box-plot varijable ‘Price’.

No, u tekstu je prikazan grafikon u kojem je niz podataka varijable ‘Price’ podijeljen na poduzorke prema kategoriji boje. Da bi se to postiglo, odabirete Select data iz trake izbornika. Potom se otvorio novi prozor.

Panel pod nazivom Horizontal Category je prazan i potrebno je kliknuti na Edit. Nakon toga, otvara se prozorčić za unos podataka.

Kliknite na prvu vrijednost varijable ‘Color’ i označite cijeli niz podataka (sve podatke u stupcu - najlakše ako ste kliknuli na drugu ćeliju a potom odabrali Ctrl+Shift+ strelica za dolje). Kliknite OK i dobit ćete grafikon nalik prikazanom.

Slika 7.

Za kreiranje grafikona prikazanim Slikom 7, koristimo isti postupak, kao i pri kreiranju prethodnog grafikona. U nastavku su isječci koji prate psotupak.

Slika 8.

Za kreiranje grafikona prikazanim slikom 8, koristimo ranije kreiranu tablicu 4. Odabiremo elemente matrice podataka (bez zbirnog retka i zbirnog stupca) te kliknemo na Insert, Recommended Charts, te odabiremo Barplots, a potom razdijeljeni stupčasti grafikon kojeg možemo i vizualno prepoznati.

Nakon klika na OK, prikazat će se sljedeći grafikon.

Provjera odgovora

B; 2. C; 3. B; 4. C; 5. D; 6. B; 7. C; 8. C; 9. C; 10. B; 11. A; 12. C; 13. C; 14. B; 15. C; 16. B; 17. D; 18. A; 19. B; 20. C; 21. D; 22. C; 23. C; 24. A.; 25. B.

Korišteni izvori i literatura

De Veaux, D. (2015). What Makes Diamonds so Expensive? Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=b8671ff3-a2d2-4ea4-a3f2-7c82dac7151f&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.

Firke, S. (2021). Janitor: Simple tools for examining and cleaning dirty data. R package version, 2(0).

Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.

Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.

JASP Team (2024). JASP (Version 0.19.3)[Computer software].

Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://uvod-u-r-i-r-studio.netlify.app/

Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf

Saefong, M.P., (2015).Diamonds may be the next big thing in the futures market. MarketWatch. https://www.marketwatch.com/story/forget-gold-diamonds-may-be-the-next-big-thing-in-the-futures-market-2015-08-04?siteid=bigcharts&dist=bigcharts

Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb. Wickham, H., & Wickham, H. (2016). Programming with ggplot2. Ggplot2: elegant graphics for data analysis, 241-253.

Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.

Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.

1. štivo: Uvod u osnovne statističke pojmove i analiza kvalitativnih podataka kroz primjere

Katarina Kostelić

Slučaj: dijamanti

Iščitavanje podataka iz podatkovnog okvira

Iščitavanje grafikona

Iščitavanje stupčastih grafikona

Iščitavanje histograma

Iščitavanje strukturnog kruga (pie chart)

Iščitavanje box-plota

Iščitavanje i rad s tablicama

Jednostavna statistička tablica

Tablica kontingencije

Kombinirana tablica

Pitanja za ponavljanje

Repliciranje analize koristeći različite alate

Provedba postupka koristeći JASP

Tablica 1.

Tablica 2.

Tablica 3.

Tablica 4.

Tablice 5 - 7

Tablica 8

Slika 1.

Slika 2.

Slika 3.

Slika 4.

Slika 5.

Slika 6.

Slika 7.

Slika 8.

Provedba postupka koristeći R

Tablica 1.

Tablica 2.

Tablica 3.

Tablica 4.

Tablica 5.

Tablica 6.

Tablica 7.

Tablica 8.

Slika 1.

Slika 2.

Slika 3.

Slika 4.

Slika 5.

Slika 6.

Slika 7.

Slika 8.

Provedba postupka koristeći MS Excel

Tablica 1.

Tablica 2.

Tablica 3.

Tablica 4.

Tablica 5.

Tablica 6.

Tablica 7.

Tablica 8.

Slika 1.

Slika 2.

Slika 3.

Slika 4.

Slika 5.

Slika 6.

Slika 7.

Slika 8.

Provjera odgovora

Korišteni izvori i literatura