U ovom tekstu, fokusirat ćemo se na sredine: aritmetičku, harmonijsku i geometrijsku te iste prikazati kroz primjere.

Slučaj: Nekretnine

Web stranica Zillow procjenjuje cijene kuća za više od 100.000.000 domova diljem Sjedinjenih Država. (Pa, zapravo ih zovu Zestimates.) Prema njihovim vlastitim riječima: “Koristimo vlasničke automatizirane modele vrednovanja koji primjenjuju napredne algoritme za analizu naših podataka kako bismo identificirali odnose unutar određenog zemljopisnog područja, između ovih podataka vezanih uz kuću i stvarnih prodajnih cijena. Karakteristike kuće, kao što su kvadratura, lokacija ili broj kupaonica, dobivaju različite težine u skladu s njihovim utjecajem na prodajne cijene kuća u svakoj određenoj geografiji tijekom određenog vremenskog razdoblja, što rezultira skupom pravila vrednovanja ili modelima koji se primjenjuju za generiranje Zestimatea svake kuće. Konkretno, neki od podataka koje koristimo u ovom algoritmu uključuju:

Fizičke karakteristike: Lokacija, veličina parcele, kvadratura, broj spavaćih soba i kupaonica i mnogi drugi detalji.
Porezne procjene: informacije o porezu na imovinu, stvarni plaćeni porezi na imovinu, iznimke od poreznih procjena i druge informacije navedene u evidenciji poreznih procjenitelja.
Prethodne i tekuće transakcije: Stvarne prodajne cijene tijekom vremena same kuće i usporedive nedavne prodaje obližnjih domova”

(Prilagođeno iz Dick De Veaux, 7. listopada 2015.)

Ovo je prevedeni tekst opisa koji se u izvorniku može naći na linku) uz podatke koji su stavljeni na raspolaganje i kojima ćemo se baviti u nastavku.

Uvid u podatke

Ovo je uvid u podatke, prvih 20 opažanja:

Tablica 1. Prvih 20 opažanja podatkovnog okvira Real-Estate

Price	Lot.Size	Age	Land.Value	New.Construct	Central.Air	Fuel.Type	Heat.Type	Sewer.Type	Living.Area	Pct.College	Bedrooms	Fireplaces	Bathrooms	Rooms
132500	0.09	42	50000	0	0	3	4	2	906	35	2	1	1	5
181115	0.92	0	22300	0	0	2	3	2	1953	51	3	0	2.5	6
109000	0.19	133	7300	0	0	2	3	3	1944	51	4	1	1	8
155000	0.41	13	18700	0	0	2	2	2	1944	51	3	1	1.5	5
86060	0.11	0	15000	1	1	2	2	3	840	51	2	0	1	3
120000	0.68	31	14000	0	0	2	2	2	1152	22	4	1	1	8
153000	0.4	33	23300	0	0	4	3	2	2752	51	4	1	1.5	8
170000	1.21	23	14600	0	0	4	2	2	1662	35	4	1	1.5	9
90000	0.83	36	22200	0	0	3	4	2	1632	51	3	0	1.5	8
122900	1.94	4	21200	0	0	2	2	1	1416	44	3	0	1.5	6
325000	2.29	123	12600	0	0	4	2	2	2894	51	7	0	1	12
120000	0.92	1	22300	0	0	2	2	2	1624	51	3	0	2	6
85860	8.97	13	4800	0	0	3	4	2	704	41	2	0	1	4
97000	0.11	153	3100	0	0	2	3	3	1383	57	3	0	2	5
127000	0.14	9	300	0	0	4	2	2	1300	41	3	0	1.5	8
89900	0	88	2500	0	0	2	3	3	936	57	3	0	1	4
155000	0.13	9	300	0	0	4	2	2	1300	41	3	0	1.5	7
253750	2	0	49800	0	1	2	2	1	2816	71	4	1	2.5	12
60000	0.21	82	8500	0	0	4	3	2	924	35	2	0	1	6
87500	0.88	17	19400	0	0	4	2	2	1092	35	3	0	1	6

Promatra se uzorak od 1728 nekretnina u SADu prikupljenih tijekom 2015. godine putem web stranica, prema varijablama cijena, veličina parcele, blizina vode, starosti, vrijednosti zemljišta, novogradnje, posjedovanja klime, vrste goriva, načina grijanja, vrste kanalizacije, veličine stambenog prostora, postotku fakultetski obrazovanih pojedinaca u susjedstvu nekretnine, broju soba (prostorija), broju spavaćih soba, broju kupaonica i broju kamina.

Napomena: pri analizi ovih podataka, u tablicama i grafikonima koriste se nazivi varijabli dodijeljeni u izvornom skupu podataka, a u tumačenjima prevedene inačice.

Ova tablica sadrži nekoliko varijabli, od kojih svaka predstavlja različite aspekte podataka o nekretninama. Raščlanimo vrste varijabli i njihove razine mjerenja.

Cijena (Price)

Vrsta: Kontinuirana kvantitativna varijabla
Razina mjerenja: Omjerna
Objašnjenje: Cijena je kontinuirana varijabla jer može poprimiti bilo koju vrijednost unutar raspona (od 5.000 do 775.000). Ima smislenu nultu točku (cijena 0 znači da nema troškova), a razlike i omjeri između vrijednosti mogu se protumačiti (npr. kuća po cijeni od 500.000 pet je puta skuplja od one s cijenom od 100.000).

Veličina parcele (Lot.Size)

Vrsta: Kontinuirana kvantitativna varijabla
Razina mjerenja: Omjerna
Objašnjenje: Veličina lota je kontinuirana varijabla mjerena u intervalu koji može poprimiti vrijednosti od 0 do 12,2. Ovo je također varijabla mjerena na omjernoj razini jer ima pravu nulu (veličina parcele 0 znači da nema zemlje), a omjeri između vrijednosti su značajni.

Blizina vode (Waterfront)

Vrsta: Opisna kvalitativna varijabla - Dihotomna/binarna (kategorička)
Razina mjerenja: Nominalna
Objašnjenje: Waterfront je binarna kategorijska varijabla koja pokazuje nalazi li se nekretnina uz vodu (vrijednosti se kreću od 0 do 1). Nominalna je jer su kategorije jednostavno oznake bez ikakvog inherentnog redoslijeda.

Starost (Age)

Vrsta: Kontinuirana kvantitativna varijabla
Razina mjerenja: Omjerna
Objašnjenje: Dob je kontinuirana varijabla koja predstavlja starost nekretnine. To je varijabla mjerena na omjernoj razini jer ima pravu nulu i može se smisleno usporediti u smislu omjera (npr. zgrada stara 20 godina dvostruko je starija od 10 godina).

Vrijednost zemljišta (Land.Value)

Vrsta: Kontinuirana kvantitativna varijabla
Razina mjerenja: Omjerna
Objašnjenje: Vrijednost zemljišta, kao i cijena, kontinuirana je varijabla koja se mjeri u valutnim jedinicama. Ima pravu nultu točku i omogućuje smislene usporedbe razlika i omjera.

Nova gradnja (New.Construct)

Vrsta: Opisna kvalitativna varijabla - Dihotomna/binarna (kategorička)
Razina mjerenja: Nominalna
Objašnjenje: Ovo je binarna varijabla koja pokazuje je li objekt novokonstruiran (vrijednosti 0 ili 1). Kao i Waterfront, nominalna je, jer nema redoslijeda između kategorija.

Klima (Central.Air)

Vrsta: Opisna kvalitativna varijabla - Dihotomna/binarna (kategorička)
Razina mjerenja: Nominalna
Objašnjenje: Central Air pokazuje ima li objekt centralni klima uređaj (vrijednosti 0 ili 1). Ovo je također nominalno jer je to jednostavan pokazatelj da/ne bez ikakvog naloga.

Vrsta goriva (Fuel.Type)

Vrsta: Opisna kvalitativna varijabla (kategorička)
Razina mjerenja: Nominalna
Objašnjenje: Vrsta goriva vjerojatno kategorizira vrstu goriva koje nekretnina koristi (npr. plin, električno, ulje). Ovo je nominalna varijabla jer su kategorije nazivi bez ikakvog prirodnog redoslijeda.

Vrsta topline (Heat.Type)

Vrsta: Opisna kvalitativna varijabla (kategorička)
Razina mjerenja: Nominalna
Objašnjenje: Slično vrsti goriva, vrsta topline kategorizira korišteni sustav grijanja (npr. prisilni zrak, zračenje itd.). Također je nominalna, jer kategorije ne slijede nikakav određeni redoslijed.

Vrsta kanalizacije (Sewer.Type)

Vrsta: Opisna kvalitativna varijabla (kategorička)
Razina mjerenja: Nominalna
Objašnjenje: Vrsta kanalizacije kategorizira vrstu kanalizacijskog sustava koji nekretnina koristi (npr. javni, septički). To je nominalno, jer kategorije ne podrazumijevaju poredak ili redoslijed.

Stambeni prostor (Living.Area)

Vrsta: Kontinuirana kvantitativna varijabla
Razina mjerenja: Omjerna
Objašnjenje: Dnevni prostor predstavlja veličinu unutarnjeg prostora u kvadratnim stopama. To je kontinuirana varijabla sa smislenom nultom točkom, što je čini varijablom omjera.

Fakultet (Pct.College)

Vrsta: Kontinuirana kvantitativna varijabla
Razina mjerenja: Omjerna
Objašnjenje: Ova varijabla predstavlja postotak fakultetski obrazovanih pojedinaca na području nekretnine. To je kontinuirana varijabla jer može poprimiti bilo koju vrijednost između 0 i 100, a ima pravu nulu.

Spavaće sobe (Bedrooms)

Vrsta: Diskretna
Razina mjerenja: Omjerna
Objašnjenje: Spavaće sobe su diskretna varijabla jer broje cijele jedinice (broj spavaćih soba). Također je varijabla mjerena na omjernoj razini jer ima pravu nulu (nekretnina može imati 0 spavaćih soba), a omjeri su značajni.

Kamini (Fireplaces)

Vrsta: Diskontinuirana kvantitativna (diskretna) varijabla
Razina mjerenja: Omjerna
Objašnjenje: Slično spavaćim sobama, kamini su diskretna varijabla koja predstavlja broj jedinica (broj kamina). Ima pravu nulu, a omjeri su interpretabilni (npr. kuća s 4 kamina ima dvostruko više od one s 2 kamina).

Kupaonice (Bathrooms)

Vrsta: Diskontinuirana kvantitativna (diskretna) varijabla
Razina mjerenja: Omjerna
Objašnjenje: Kupaonice su broj jedinica i diskretne su. To je varijabla mjerena na omjernoj razini zbog svoje prave nule i činjenice da su razlike i omjeri između vrijednosti značajni.

Sobe (Rooms)

Vrsta: Diskontinuirana kvantitativna (diskretna) varijabla
Razina mjerenja: Omjerna
Objašnjenje: Sobe je diskretna varijabla koja broji ukupan broj soba u objektu. Ima smislenu nulu i omogućuje tumačenje omjera između vrijednosti.

Aritmetička sredina

Počinjemo istraživanjem svih varijabli.

Tablica 2. Izračunati statistički pokazatelji

	Valid	Mean	Minimum
Cijena	1728	211966.7054	5000.0000
Veličina parcele	1728	0.5002	0.0000
Blizina vode	1728	/	0.0000
Starost	1728	27.9161	0.0000
Vrijednost zemljišta	1728	34557.1875	200.0000
Novogradnja	1728	/	0.0000
Klima	1728	/	0.0000
Vrsta goriva	1728	/	2.0000
Vrsta grijanja	1728	/	2.0000
Tip kanalizacije	1728	/	1.0000
Životna površina	1728	1754.9757	616.0000
Post. fakult. obraz.	1728	55.5677	20.0000
Spavaće sobe	1728	3.1545	1.0000
Sobe	1728	7.0417	2.0000
Kamini	1728	0.6019	0.0000
Kupaonice	1728	1.9002	0.0000

Ovo je tablica sažetih statističkih izračuna i prikazuje upravo rezultate statističkih izračuna. Obično će imati varijable zapisane u retcima i statističke mjere u stupcima, ali se može i obrnuti (statistički pokazatelji u redovima i varijable u stupcima; to se rijetko radi). Stupac Valid broji broj valjanih opažanja. Mean izvještava o aritmetičkoj sredini, dok stupci Minimum i Maksimum izvještavaju o najnižim i najvišim vrijednostima promatrane varijable.

Nakon ispitivanja vrste varijable i razine mjerenja, možete li objasniti zašto prosjek nije prijavljen za neke od njih?

Prosjek nije prijavljen za određene varijable jer su kvalitativne, a izračun prosjeka za kategoričke ili nominalne podatke nije smislen.
Waterfront je dihotomna/binarna kategorijska varijabla. Mjeri se na nominalnoj skali s modalitetima da i ne, koji su kasnije prekodirani u 1 i 0. U slučajevima kada varijabla poprima vrijednosti 0 i 1, nazivamo je binarnom. Budući da njezine vrijednosti predstavljaju kategorije (0 bez pogleda na more, 1 s pogledom na more), izračunavanje prosjeka ne bi nam dalo nikakve korisne informacije. Koncept prosjeka ne odnosi se na kategorije na isti način kao za kontinuirane numeričke podatke.
Nova konstrukcija je također binarna varijabla, koja samo pokazuje je li objekt novoizgrađen (0 ili 1). Opet, prosjek ovih kategorija ne bi se mogao protumačiti.
Klima je binarna varijabla (0 bez, 1 sa).
Vrsta goriva, vrsta topline i vrsta kanalizacije opisne su nominalne varijable, gdje vrijednosti predstavljaju kategorije kao što su različite vrste goriva ili sustava grijanja. Ne postoji prirodno brojčano značenje ovih kategorija, pa izračunavanje prosjeka ne bi imalo smisla. Na primjer, izračunavanje prosječne vrste goriva između 2 i 4 ne bi imalo nikakvu interpretaciju u stvarnom svijetu.
Za kategorijske varijable kao što su Waterfront ili New Construction, prosjek predstavlja udio nekretnina s određenom značajkom, a ne stvarnu prosječnu vrijednost. To odražava postotak nekretnina s tom značajkom (npr. nekretnine s pogledom na rivu ili novoizgrađene nekretnine).
Prosjek je primjenjiv samo za numeričke varijable koje predstavljaju veličine (interval ili omjer, razine mjerenja). Za kategoričke varijable fokus je obično na frekvencijama ili proporcijama, a ne na srednjim vrijednostima, jer kategorije ne predstavljaju kontinuum vrijednosti. Zbog toga su u tablici varijable kao što su cijena, veličina parcele, starost i životna površina izvijestile o srednjim vrijednostima, dok varijable poput obale, novogradnje i središnjeg zraka nemaju.

Kako su izračunati ti pokazatelji?

Da bismo izračunali aritmetičku sredinu (prosjek) za svaku varijablu iz negrupiranih podataka, slijedimo jednostavan postupak koristeći formulu:

\[\bar{x} = \frac{\sum_{i=1}^n x_i}{n}\]

gdje:

$\bar{x}$ predstavlja prosjek uzorka

$x_i$ predstavlja svaku pojedinačnu vrijednost u skupu podataka za određenu varijablu.

$n$ je broj valjanih opažanja (ukupan broj opažanja za tu varijablu).

Veliko sigma ($Σ$) je operator sume (zbrajanja). Označava da treba zbrojiti sve vrijednosti koje slijede prema pravilu ili slijedu. Na primjer, u formuli za aritmetičku sredinu $Σ$ znači zbrojiti izraz koji slijedi, za sve vrijednosti prema njihovom redu pojavljivanja od 1 do $n$.

Za kontinuirane varijable (kao što su cijena, veličina lota, starost itd.):

Zbrajamo sve pojedinačne podatkeza varijablu. To će biti zbroj svih cijena, veličina lotova, starosti itd.
Taj ukupni broj dijelimo s brojem valjanih opažanja za tu varijablu.

Na primjer, za cijenu je prosjek izračunat zbrajanjem svih 1728 cijena nekretnina, a zatim dijeljenjem zbroja s 1728. Zbroj svih 1728 cijena = 365075883 dolara.

\[\bar{x} = \frac{365 075 883} {1 728}= 211 966.71\]

Veličina lota:

Zbroj svih veličina lota = 864,34

\[\bar{x} = \frac{864.34}{1 728}= 0.5\]

Za diskontinuirane (diskretne) varijable (kao što su spavaće sobe, sobe i kamini) vrijedi:

\[\bar{x} = \frac{\sum_{i=1}^n x_i}{n} = \frac{1040}{1728}=0.6019\]

Dakle, oni se također izračunavaju pomoću iste formule kao i kontinuirane varijable. Budući da predstavljaju brojeve, jednostavno zbrajamo broj spavaćih soba, soba ili kamina u svim promatranjima i dijelimo brojem opažanja.

Sada se vratimo i protumačimo tablicu. S obzirom na naučeno, kako biste protumačili pokazatelje u sažetoj tablici?

Sažeti statistički podaci u tablici pružaju pregled različitih varijabli za skup podataka koji se odnose na stanovanje. Promatrane nekretnine prosječno koštaju 211966.71$. Minimalna zabilježena cijena je 5000, a maksimalna 775000.
U prosjeku, nekretnine imaju veličinu parcele od 0,50 hektara. Minimalna zabilježena veličina parcele je 0 hektara, a maksimalna 12,20 hektara.
Nekretnine su u prosjeku stare 27,92 godine, pri čemu najmlađa nekretnina ima 0 godina, dok najstarija ima 225 godina.
U prosjeku, nekretnine imaju 1755 četvornih metara životnog prostora. Najmanja nekretnina ima 616 četvornih metara, a najveća 5228 četvornih metara životnog prostora.
Prosječan postotak fakultetski obrazovanih stanovnika u četvrtima je 55.57%. To znači da u prosjeku 55.57% stanovnika susjedstva (kvartova) promatranih nekretnina ima fakultetsku diplomu. Minimalni zabilježeni postotak je 20%, a maksimalni 82%.
U prosjeku, nekretnine imaju 3,15 spavaćih soba. Minimalni broj spavaćih soba je 1, a maksimalan 7.
Prosječan broj soba po objektu je 7,04. To znači da u prosjeku nekretnine imaju 7,04 sobe. Promatrane nekretnine najmanje imaju 2 sobe, a najveća 12.
Prosječan broj kamina po nekretnini je 0,60. U prosjeku, nekretnine imaju 0,60 kamina. Minimalni broj kamina je 0, a maksimalan 4.
Konačno, prosječan broj kupaonica po nekretnini je 1.90. U prosjeku, nekretnine imaju 1,90 kupaonica. Minimalni broj kupaonica je 0, a maksimalan 4,5.

Kratko ponavljanje i povezivanje s prošlim štivom

Ako se želite podsjetiti na prošlotjedne lekcije, evo nekoliko tablica kontingencije koje možete koristiti za vježbanje kutnog, okomitog i vodoravnog 100 i njihovih tumačenja

Tablica 3. Nekretnine prema klimi i broju kamina

	0	1	2	3	4	Ukupno kamini
0	585	488	20	0	0	1093
1	155	454	22	2	2	635
Ukupno klime	740	942	42	2	2	1728

Tablica 4. Nekretnine prema klimi i broju soba

	1	2	3	4	5	6	7	Ukupno soba
0	6	234	551	256	36	7	3	1093
1	1	114	271	231	17	1	0	635
Ukupno klima	7	348	822	487	53	8	3	1728

Tablica 5. Nekretnine prema klimi i novogradnji

	0	1	Ukupno novogradnja
0	1055	38	1093
1	592	43	635
Ukupno klima	1647	81	1728

Tablica 6. Nekretnine prema broju soba i novogradnji

Sobe	0	1	Ukupno
1	7	0	7
2	345	3	348
3	801	21	822
4	431	56	487
5	52	1	53
6	8	0	8
7	3	0	3
Ukupno	1647	81	1728

Tablica 7. Nekretnine prema broju soba i klimatizaciji

Sobe	0	1	Ukupno
1	6	1	7
2	234	114	348
3	551	271	822
4	256	231	487
5	36	17	53
6	7	1	8
7	3	0	3
Ukupno	1093	635	1728

To će, za sad, biti dovoljno. Ako želite stvoriti više tablica za ovaj skup podataka, možete koristiti Real_estate skup podataka. Sada ćemo se usredotočiti na grafičke prikaze.

Histogram

Slika 1. Histogram cijene

Prije nego što krenemo u tumačenja histograma, usmjerit ćemo pozornost na vrijednosti na apscisi. Vrijednosti na apscisi (x-osi) zapisane su znanstvenom notacijom. Evo kako ih protumačiti:

2e+05 znači $2×10^5$ ili 200000.
4e+05 znači $4×10^5$ ili 400000.
6e+05 znači $6×10^5$ ili 600000.
8e+05 znači $8×10^5$ ili 800000.

U znanstvenom zapisu, broj prije e predstavlja koeficijent, a broj nakon e označava potenciju 10. Dakle, 2e+05 znači 200000, a ostale čitamo na sličan način. Ovo je način kompaktnog predstavljanja velikih brojeva na grafikonu, omogućujući jasniju vizualizaciju bez pisanja mnogo nula. Vrijednosti na ordinati označavaju cijene nekretnina u ovom slučaju.

Posvetimo se sad tumačenju histograma. Ovaj histogram predstavlja distribuciju cijena nekretnina na temelju podataka grupiranih u raspone cijena s učestalosti (frekvencijom) za svaki raspon cijena. Svaki stupac odgovara određenom rasponu cijena, a visina stupca označava koliko nekretnina spada u taj raspon.

Os x predstavlja cijene nekretnina. Raspon cijena kreće se od gotovo nule do oko 800000 (točne minimalne i maksimalne vrijednosti možemo provjeriti u tablici sažetka pokazatelja). Razlika između najveće i najmanje vrijednosti u nizu naziva se i raspon varijacija. Os y prikazuje broj nekretnina (učestalost ili frekvenciju) u svakom cjenovnom rangu. Na toj osi iščitavamo frekvencije - brojeve vezane uz visine stupaca, koje označavaju broj nekretnina unutar svakog intervala.

Oblik histograma pokazuje da većina opažanja poprima niže vrijednosti, s dugim desnim krakom, što znači da je većina nekretnina koncentrirana u nižim cjenovnim razredima, dok je manje nekretnina u višim cjenovnim razredima. Čini se da većina nekretnina ima cijenu između 100000 i 300000, a najviša učestalost pojavljuje se nešto ispod 200000, kao što pokazuje najviši stupac.

Iako prosjek nije vidljiv na histogramu, desni krak histograma sugerira da je prosječna cijena vjerojatno viša od moda i medijana. To se događa jer nekoliko nekretnina s visokom cijenom (izdvojenice, netipične vrijednosti) povlače prosjek prema gornjem kraju cjenovne ljestvice, neovisno o tome što je većina nekretnina cijena niža (peto svojstvo aritmetičke sredine).

Stupci u histogramu predstavljaju učestalost nekretnina unutar različitih cjenovnih intervala. Najveća skupina nekretnina ima cijenu nešto ispod 200 000, dok manje nekretnina spada u najviše cjenovne razrede. Grupiranje podataka u intervale pomaže sažetom prikazu distribucije, što olakšava uvid u cijenu većine objekata i uočavanje kako se učestalost mijenja s rastom cijena.

Histogram pruža jasan vizualni prikaz raspodjele cijena nekretnina. Pokazuje da je većina nekretnina koncentrirana u nižim cjenovnim razredima, dok je nekoliko ima mnogo više cijene, a ova vizualizacija dobro se slaže s upotrebom grupiranih podataka za sažimanje i tumačenje cijena nekretnina.

Općenito, pri opisivanju distribucije frekvencija prikazane histogramom, pri iščitavanju i tumačenju obraćamo pozornost na sljedeće:

na x-osi se nalazi statističko obilježje (varijabla)
na y-osi na kojem se nalaze frekvencije
stupci predstavljaju količinu opažanja s vrijednostima u danom intervalu
visoki stupci upućuju na koncentraciju opažanja u tim vrijednostima
stupce na rubu zovemo krakovima distribucije
ako je većina podataka sadržana u visokim stupcima u sredini uz postupno smanjivanje prema krakovima s obje strane, kažemo da je distribucija simetrična
ako su podaci koncentrirani na jednoj strani uz izduženi krak s niskim stupcima na drugoj strani, kažemo da je distribucija asimetrična
ako histogram ima jedan jasno izražen vrh (mod), odnosno stupac u pitanju je jednomodalna ditribucija - postoji jedna najčešća vrijednost ili raspon vrijednosti u skupu podataka
ako histogram ima dva jasno izražena stupca koji su viši od susjednih stupaca, u pitanju je dvomodalna ditribucija; a ako postoji više takvih stupaca, u pitanju je višemodalna distribucija
temeljem širine raspršenosti oko središnjeg dijela distribucije, može se zaključivati o raspršenosti (uži ili širi stupci i manji ili veći raspon vrijednosti na x-osi)
ako postoji izduženiji vrh i duži krakovi, to ukazuje na istovremeno veću koncentraciju podataka oko srednje vrijednosti i više ekstremnih vrijednosti
ako histogram ima spljošteniji vrh i uže krakove, to sugerira ravnomjerniju raspodjelu podataka bez izraženih ekstremnih vrijednosti
ravnomjerna raspodjela stupaca (svi stupci su podjednako visoki) ukazuje na jednoličnu distribuciju frekvencija preko svih intervala
stupci koji su odvojeni od ostalih (bilo na lijevoj ili desnoj strani) ukazuju na posebne slučajeve u skupu podataka, izdvojenice

Grupiranje podataka

Sada, grupirajmo varijablu cijena

Grupiranje je preduvjet za izradu histograma, ali se grupirani podaci često nalaze u službenim i javno dostupnim izvješćima u obliku tablica. Za početak, iščitavamo podatke iz tablice u kojima su zapisani grupirani podaci. Iščitavanje je prvi korak prema temeljitom razumijevanju što tablice sadrže (i kasnije, što i kako dalje možemo računati s takvim podacima).

Tablica 8. Cijene nekretnina (grupirani podaci prikazani u jednostavnoj statističkoj tablici)

Cijena	Frekvencija
5000 - 53126	7
53126 - 101252	97
101252 - 149378	371
149378 - 197504	455
197504 - 245630	304
245630 - 293756	203
293756 - 341882	128
341882 - 390008	74
390008 - 438134	40
438134 - 486260	19
486260 - 534386	9
534386 - 582512	4
582512 - 630638	6
630638 - 678764	7
678764 - 726890	1
726890 - 775016	3
Ukupno	1728

Ova jednostavna statistička tablica predstavlja grupirane podatke za varijablu Cijena, koja je kategorizirana u raspone cijena (zovemo ih razredi), pri čemu je učestalost svakog razreda navedena u zasebnom retku. Rasponi cijena u prvom stupcu označavaju donju i gornju granicu svakog razreda, dok stupac učestalosti (frekvencija) pokazuje koliko nekretnina spada u svaki odgovarajući raspon cijena.

Da biste pročitali ovu tablicu, pogledajte određeni raspon cijena i njegovu povezanu učestalost. Na primjer, u trećem retku raspon cijena je 101252 - 149378, a učestalost je 371. To znači da 371 nekretnina ima cijene između 101252 i 149378 dolara. Slično tome, u sljedećem retku, cijene su od 149378 do 197504 dolara, a učestalost je 455, što znači da 455 nekretnina spada u ovaj cjenovni rang.

Da bismo stvorili takvu tablicu, prvo su podaci o cijenama podijeljeni u intervale ili razrede - tamo smo koristili Sturgesovo pravilo. Ti su intervali obično jednake širine, iako ne moraju biti. Postavljanje jednake širine intervala olakšava daljnje izračune i grafičke prikaze, pa se ta opcija preferira.

Nakon što su intervali postavljeni, podaci se sortiraju i broji se broj pojavljivanja (ili frekvencija) unutar svakog intervala. Ti se brojevi upisuju u stupac učestalosti (frekvencija), a ukupan broj opažanja zbraja se u posljednjem retku tablice (u zbirnom retku), gdje je ukupan broj opažanja: 1728 opažanja.

Čitajući tablicu, možete vidjeti da većina nekretnina (455) spada u raspon cijena od 149378 do 197504 dolara. Nasuprot tome, vrlo malo nekretnina (4) ima cijenu iznad 678764$. Metoda grupiranja podataka u intervale korisna je za razumijevanje kako su podaci raspoređeni u različitim rasponima, što olakšava prepoznavanje obrazaca kao što su gdje se nalazi većina opažanja i gdje je manje opažanja, osobito u skupovima s velikim brojem opažanja. Zapravo dobivamo uvide koje dobivamo iz histograma, ali bez iscrtavanja.

Aritmetička sredina grupiranih podataka (vagana aritmetička sredina)

Sljedeća tablica proširuje prethodnu distribuciju frekvencije (histogram) uvođenjem dodatnih izračuna: sredine razreda($x_i$) i umnoška frekvencije i sredine razreda($f_i x_i$). Ovi koraci dio su procesa određivanja statističkih pokazatelja kao što je prosjek za grupirane podatke (a kasnije ćemo taj dio postupka ponavljati za još neke pokazatelje). Raščlanimo ovo korak po korak.

Tablica 9. Cijene nekretnina uz pomoćne stupce za izračun aritmetičke sredine

Cijena L1	Cijena L2	Frekvencija (fi)	xi	fixi
5000	53126	7	29063	203441
53126	101252	97	77189	7487333
101252	149378	371	125315	46491865
149378	197504	455	173441	78915655
197504	245630	304	221567	67356368
245630	293756	203	269693	54747679
293756	341882	128	317819	40680832
341882	390008	74	365945	27079930
390008	438134	40	414071	16562840
438134	486260	19	462197	8781743
486260	534386	9	510323	4592907
534386	582512	4	558449	2233796
582512	630638	6	606575	3639450
630638	678764	7	654701	4582907
678764	726890	1	702827	702827
726890	775016	3	750953	2252859
Ukupno		1728	/	366312432

Cjenovni intervali (ili razredi) predstavljeni su u prva dva stupca, cijena L1 i cijena L2, gdje L1 označava donju granicu, a L2 gornju granicu intervala. L1 i L2 odnose se na vrijednosti varijable, odnosno donje i gornje granice razreda. Ti intervali definiraju raspon cijena unutar kojeg su podaci grupirani. Na primjer, prvi cjenovni interval je između 5000 i 53126, a drugi između 53126 i 101252, itd.

Stupac učestalosti ili frekvencija ($f_i$) označava koliko opažanja ili podataka spada u pojedini interval. Na primjer, u prvom cjenovnom intervalu (5000 do 53126) postoji 7 nekretnina. U drugom intervalu (53126 do 101252) postoji 97 nekretnina i tako dalje.

Stupac $x_i$ predstavlja sredinu razreda svakog cjenovnog intervala. Sredina razreda izračunava se uzimanjem prosjeka donje i gornje granice svakog intervala:

\[x_i= \frac {L1 +L2}{2}\]

Npr: Za prvi interval (5 000 do 53 126), sredina razreda je:

\[x_1= \frac {5000 +53126}{2}=29063\]

Za drugi interval (53 126 do 101 252), sredina razreda je:

\[x_1= \frac {53 126 +101 252}{2}=77 189\]

I tako dalje, za svaki razred. Sredine razreda daju po jednu reprezentativnu vrijednost za svaki interval, koja se koristi u daljnjim izračunima.

Stupac $f_ix_i$ predstavlja umnoške frekvencija ($f_i$) i sredina razreda ($x_i$) za svaki interval. Ova vrijednost pomaže u izračunavanju ukupne cijene (totala, odnosno brojnika aritmetičke sredine) za cijeli skup podataka.

$f_ix_i = f_i \cdot x_i$

Npr: Za prvi interval (i=1): $f_1 x_1=7 \cdot 29 063=203 441$ Za drugi interval (i=2): $f_2 x_2= 97 \cdot 77 189=7 487 333$

Na dnu tablice navedene su sume frekvencija ili ukupan broj opažanja (1728) i zbroj ponderiranih sredina razreda ili total (366 312 432). Oni su osnova za izračunavanje prosjeka grupiranih podataka. Prosjek grupiranih podataka može se izračunati pomoću sljedeće formule:

\[\bar{x}= \frac{ \sum{f_ix_i}}{ \sum{f_i}}\]

U ovom slučaju:

\[\bar{x}= \frac{366312432}{1728}=211986,36\]

Dakle, prosječna cijena nekretnina u grupiranim podacima iznosi približno 211 986.4$.

Tablica je detaljna raščlamba cjenovnih intervala, koja pokazuje koliko nekretnina spada u svaki raspon, sredine razreda i ponderirane ukupne vrijednosti. Ovi izračuni omogućuju nam izračun statističkih pokazatelja, kao što je prosjek, za cijeli skup od 1728 podataka, bez da moramo detaljno promatrati svaki od njih. Tablica predstavlja tipičan pristup za analizu grupiranih podataka pri radu s velikim skupovima podataka i pomaže u razumijevanju ukupne distribucije i središnje tendencije cijena nekretnina.

Kad uspoređujemo prosječnu cijenu dobivenu iz negrupiranih i grupiranih podataka, često uočavamo malu razliku između dvije vrijednosti. Zašto?

Prosjek za negrupirane podatke izračunava se zbrajanjem svih pojedinačnih vrijednosti cijena, a zatim dijeljenjem s ukupnim brojem opažanja. To daje točnu vrijednost prosjeka jer koristi točne cijene svih nekretnina. Na primjer, ako nam negrupirani podaci daju prosječnu cijenu od približno 211 966.71 USD (kao što je ranije protumačeno), to se temelji na svakoj pojedinačnoj cijeni. Za grupirane podatke, prosjek se procjenjuje na temelju sredina razreda cjenovnih intervala. Budući da su točne vrijednosti unutar svakog intervala nepoznate, sredina razreda svakog intervala koristi se kao reprezentativna vrijednost za sve cijene unutar tog raspona. To dovodi do aproksimacije, a ne do točne vrijednosti.

Iz prethodne tablice, prosječna cijena za grupirane podatke izračunata je kao 211 986,36 USD. Može se uočiti da nastaje razlika od 19,65 USD-a.

Razlika između prosjeka za negrupirane i grupirane podatke nastaje jer grupiranje podataka dovodi do gubitka preciznosti:

U grupiranim podacima pretpostavlja se da je svaka vrijednost unutar raspona sredina razreda tog raspona. To znači da tretiramo sve nekretnine unutar cjenovnog ranga (npr. 5000 USD - 53126 USD) kao da sve imaju istu cijenu (29063 USD). Ovo je aproksimacija koja može unijeti male netočnosti.
Metoda grupiranja „izglađuje“ točnu raspodjelu opažanja. Na primjer, ako je većina nekretnina u rasponu od 5000 do 53126 USD bliža 5000 USD, ali koristimo 29063 USD (sredina razreda) za cijeli raspon, to malo napuhuje prosjek.
Što su intervali veći, to je veći potencijal za pogreške aproksimacije. Kad su intervali široki, sredina razreda možda neće točno predstavljati vrijednosti unutar tog raspona, što dovodi do značajnijeg odstupanja od prosjeka izračunatog za negrupiranih podataka.

Karakteristike grupiranih podataka (rezime):

Podaci su pojednostavljeni – pojedinačne vrijednosti zamjenjuju se intervalima, a sve vrijednosti unutar svakog intervala tretiraju se kao iste (sredina razreda).
Detalji su izgubljeni - Točna raspodjela vrijednosti unutar svakog intervala nije poznata. Znamo samo koliko opažanja leži u svakom intervalu, ali ne i njihove točne vrijednosti.
Procjene postaju nužne - Sažete statistike poput prosjeka, varijance itd. se aproksimiraju, a ne točno izračunavaju. Te procjene ovise o tome koliko dobro sredine razreda predstavljaju stvarne vrijednosti.
U ovom slučaju, prosjek grupiranih podataka (211986,4$) nešto je viši od prosjeka negrupiranih podataka (211966,71 USD). Ova mala razlika posljedica je aproksimacije uključene u korištenje sredina razreda za predstavljanje raspona cijena. Što su intervali širi ili što je neravnomjernija raspodjela vrijednosti unutar intervala, to je veća potencijalna razlika između prosjeka grupiranih i negrupiranih podataka. Grupiranje podataka nužno je pojednostavljenje pri rukovanju velikim skupovima podataka, ali uvijek uvodi određeni stupanj aproksimacije.
Zašto bismo onda ikada željeli grupirati podatke? Ali grupirane podatke možemo vidjeti cijelo vrijeme, a to je najčešći prikaz službene statistike (osim vremenskih nizova, ali to sada nije tema).

Zašto je grupiranje podataka ipak korisno

Pojednostavnjenje i jasnoća
- Kad se radi o velikim skupovima podataka, grupiranje podataka pojednostavljuje uvide u iste, što olakšava njihovo tumačenje. Predstavljanje neobrađenih podataka sa stotinama ili tisućama pojedinačnih vrijednosti može biti pretjerani napor za osobu koja to mora čitati.
Učinkovito sažimanje podataka
- U službenoj statistici često je cilj pružiti sažetak o velikoj populaciji, kao što su ekonomski pokazatelji, podaci popisa stanovništva, (ne)zaposlenosti ili statistika zdravstva. Grupiranje podataka u razrede ili intervale omogućuje brzo i učinkovito sažimanje i uvide u glavne karakteristike skupa podataka. Grupirani podaci pružaju uvid u raspodjelu vrijednosti u rasponima, umjesto da se fokusiraju na svaki pojedini podatak.
Identifikacija obrazaca
- Grupiranje podataka pomaže u otkrivanju obrazaca i odstupanja koje je često teško uočiti u negrupiranim podacima. Na primjer, grupiranjem cijena postaje lakše identificirati raspon u kojem je koncentrirana većina objekata ili otkriti netipične vrijednosti (nekretnine s mnogo višom cijenom od ostalih).
- U službenim statističkim izvješćima, obrasci u grupiranim podacima pomažu predlagateljima zakona, intervencija i poticaja te regionalnoj i lokalnoj upravi, kao i menadžerima pri donošenju informiranih odluka. Na primjer, cijene stanova grupirane u razrede otkrivaju gdje je stanovanje najskuplje ili najpristupačnije, što omogućuje fokusiranije intervencije.
Rukovanje velikim skupovima podataka
- U situacijama s iznimno velikim skupovima podataka (npr. državna statistika), nije praktično objavljivati i analizirati svaki podatak. Grupiranje podataka smanjuje veličinu skupa podataka i omogućuje lakše upravljanje pohranom i objavom. To je ravnoteža između preciznosti podataka i analitičke izvedivosti.
- Na primjer, zamislite skup podataka s milijunima zapisa o prihodima. Objavljivanje svih tih podataka ne bi omogućilo direktne uvide. Grupiranjem prihoda u raspone, stanovnici, analitičari i menadžeri dobivaju preglednija izvješća.
Isticanje ključnih uvida
- Grupirani podaci mogu pomoći u isticanju uvida koji uglavnom nisu odmah vidljivi u negrupiranim podacima. Na primjer, lakše je vidjeti raspodjelu cijena ili raspona prihoda kada su podaci grupirani u intervale. Učestalost vrijednosti u svakoj skupini može dati korisne uvide u cjelokupni oblik distribucije (je li asimetrična, ima li izdužen krak, itd.).
- Npr., u službenoj statistici cilj je prenijeti ključne trendove i distribucije na jednostavan način koji je dostupan javnosti i kreatorima politika. Grupirani podaci pomažu u postizanju toga nudeći jednostavan format koji prenosi najrelevantnije uvide bez pretjeranih detalja.
Usporedba između raspona
- Grupirani podaci olakšavaju usporedbu različitih kategorija ili raspona. Na primjer, kad se analizira raspodjela dohotka u različitim regijama, predstavljanje grupiranih podataka u intervalima omogućuje brzu usporedbu između regija. Bilo bi zahtjevnije izvesti takve usporedbe koristeći neobrađene podatke za svaku regiju.
- U praksi, usporedba distribucije frekvencija grupiranih podataka pomaže istaknuti obrasce, kao što su nejednakost prihoda, stope nezaposlenosti ili čak dobna raspodjela u populaciji.
Privatnost i povjerljivost
- U javno objavljenim statističkim izvješćima, privatnost i povjerljivost mogu biti potencijalni problemi. Grupiranje podataka u intervale omogućuje izvještavanje o korisnim sažecima bez izlaganja pojedinačnih zapisa. Na primjer, u anketama o dohotku ili zdravstvenim istraživanjima, točne brojke mogu biti osjetljive informacije (a u specifičnim kombinacijama, čak mogu i signalizirati identitet). U takvim slučajevima, izvještavanje putem grupiranih podataka pomaže u zaštiti privatnosti pojedinca, a istovremeno pruža vrijedne uvide na razini populacije.
Standardizacija u službenom izvještavanju
- Mnoge nacionalne i međunarodne statističke agencije koriste grupiranje kao standardizirani način predstavljanja podataka. To čini izvješća dosljednijima i lakšima za usporedbu tijekom vremena ili između različitih regija ili zemalja. Standardizirana izvješća također su dosljedna i zbog toga lakše razumljiva javnosti, istraživačima i kreatorima politika.
- Na primjer, dohodovni razredi često su grupirani dosljedno kroz desetljeća, što omogućuje povijesnu usporedbu i analizu trendova. Slično tome, dobne skupine stanovništva kao što su 18-24 ili 25-34 standardne su skupine koje se globalno koriste za dosljedno demografsko izvještavanje.

Dakle, iako grupiranje podataka uvodi određeni gubitak detalja, pruža mnoge prednosti, posebno u izvještavanju o podacima velikih razmjera i službenoj statistici. Nudi jasnoću, jednostavnost i praktičan način rukovanja ogromnim skupovima podataka. Usredotočujući se na intervale, grupirani podaci pomažu u otkrivanju ključnih obrazaca i trendova koji su važniji u donošenju politika i odluka od točne vrijednosti svake opažanja. Grupiranje je bitan alat za učinkovito sažimanje podataka, uz istovremeno učinkovito komuniciranje uvida bez preopterećenja čitatelja sirovim podacima kojima se ne može upravljati. Budući da je grupiranje podataka vrlo uobičajeno u izvješćivanju, moramo naučiti raditi s negrupiranim i grupiranim podacima.

Dodatno, grupiranje podataka nužno je za kreiranje histograma. Pogledajmo jedan primjer kreiranja histograma. Nakon grupiranja razreda, na x-osi naznačili bismo granice razreda, odnosno koordinate $(x_i, 0)$. Potom bismo naznačili koordinate visine stupaca, odnosno $(L_{1i}, f_i)$ i $(L_{2i}, f_i)$.

U sljedećem koraku, kreiraju se povezani stupci.

Histogram se često definira i kao površina omeđena konturom povezanih stupaca, a ako bismo u potpunosti ispoštovali tu definiciju, onda to izgleda ovako:

Nadalje, ako kao koordinate uzmemo vrijednosti sredina razreda i frekvencija razreda, odnosno $(x_i, f_i)$, tada dobivamo osnovu za kreiranje poligona frekvencija. To izgleda ovako:

Dakle, kreiranje histograma je još jedan razlog grupiranja podataka. No, kad savladamo računanje s grupiranim podacima, tada će i grupirani podaci iz službenih izvješća, pa čak i kreirani histogrami moći poslužiti za daljnje izračune.

Dodatni prikaz aritmetičke sredine za negrupirane i grupirane podatke Negrupirani podaci odnose se na situaciju u kojoj imamo pristup svim pojedinačnim podatkovnim točkama bez ikakve kategorizacije. U ovom slučaju imat ćemo točne ocjene za 15 učenika:

3, 5, 4, 2, 3, 4, 3, 5, 4, 3, 4, 3, 5, 4, 4

Izračun aritmetičke sredine (negrupirani podaci):

Da bismo izračunali aritmetičku sredinu za negrupirane podatke, zbrajamo sve ocjene i dijelimo s brojem opažanja (učenika):

\[Prosjek = \frac{3 + 5 + 4 + 4 + 2 + 3 + 3 + 4 + 3 + 4 + 4 + 4 + 4}{15}\]

\[Prosjek = \frac{56}{15}≈3,73\]

Podaci su grupirani kad su pojedinačna opažanja grupirana u kategorije (ilirazrede) i broji se učestalost svake kategorije. U ovom slučaju grupiramo ocjene u kategorije, a zatim koristimo sredinu razreda za svaku skupinu za izračunavanje aritmetičke sredine.

Ocjene možemo grupirati na sljedeći način:

2: 1 učenik

3: 5 učenika

4: 6 učenika

5: 3 učenika

Tablica 10. Tablica frekvencija grupiranih podataka

Razredi	Frekvencija (fi)	L1	L2	xi	fixi
2	1	1.5	2.5	2	2
3	5	2.5	3.5	3	15
4	6	3.5	4.5	4	24
5	3	4.5	5.5	5	15
Ukupno	15	/	/	/	56

L1 i L2 su donja i gornja granica razreda s preciznim granicama, xi su sredine razreda, a fixi umnošci sredina i frekvencija razreda.

Izračun aritmetičke sredine (grupirani podaci):

Pronađite sredinu razreda (koja je u ovom slučaju jednostavno sama ocjena, budući da imamo diskretne vrijednosti, razrede s preciznim granicama i veličine 1).
Pomnožite sredinu razreda s frekvencijom svake skupine (to nam daje ukupnu vrijednost koju je doprinijela svaka skupina).
Zbrojite umnoške srednjih točaka i frekvencija.
Podijelite zbroj s ukupnim brojem učenika.

\[\bar{x}= \frac{ \sum{f_ix_i}}{ \sum{f_i}}\]

gdje:

$f_i$ je frekvencija razreda $i$, $x_i$ je ocjena (sredina razreda).

Izračun korak po korak:

\[\bar{x}= \frac{ (1 \cdot 2)+(5⋅3)+(6\cdot 4)+(3 \cdot 5)}{ 15}= \frac{56}{15} \approx 3,73\]

Usporedba dviju metoda:

Kad izračunavamo prosjek koristeći negrupirane podatke, koristimo svaku pojedinačnu ocjenu, što dovodi do točnijeg prosjeka.
Kad izračunavamo prosjek pomoću grupiranih podataka, sažimamo ocjene u kategorije i izračunavamo prosjek na temelju sredina tih kategorija.
Budući da je ovdje u pitanju diskontinuirana varijabla, sredine razreda jednake su cjelobrojnim opažanjima, tako da ne očekujemo da ćemo dobiti bilo kakve razlike u prosjecima (osim ako ne stvorimo intervale različite širine ili spojimo razrede).
Razlika nastaje kad metoda grupiranja koristi aproksimaciju i to će se češće događati za kontinuirane varijable i veće raspone razreda. Grupiranjem ocjena gubimo preciznost koju postižemo s negrupiranim podacima. Sredina razreda za svaku skupinu predstavlja sve ocjene u tom rasponu, što može malo pomaknuti prosjek.

Harmonijska sredina negrupiranih i grupiranih podataka

Izračunajmo harmonijsku sredinu.

Harmonijska sredina često se koristi kada se radi o stopama ili omjerima i izračunava se kao recipročna vrijednost aritmetičke sredine recipročnih vrijednosti skupa podataka. Formula za harmonijsku sredinu za skup podataka je:

\[H=\frac {n}{∑ \frac{1}{x_i}}\]

Gdje je:

$n$ broj opažanja,

$x_i$ predstavlja pojedinu vrijednost u skupu podataka.

$Σ$ je operator sume (treba zbrojiti sve vrijednosti ili izraze koji slijede).

Da bismo izračunali harmonijsku sredinu za negrupirane i grupirane podatke o nekretninama, slijedit ćemo dva pristupa. Za negrupirane podatke izračunat ćemo harmonijsku sredinu koristeći svaku pojedinačnu vrijednost cijena nekretnina. Pretpostavimo da imate popis cijena nekretnina:

132500, 181115, 109000, 155000, 86060, 120000, 153000, 170000, 90000 … i tako dalje, sve opažanja.

Na primjer, ako uzmemo u obzir pet vrijednosti radi jednostavnosti prikaza, 132500, 181115, 109000, 155000, 86060 i uvrstimo u dani izraz, to je:

\[H=\frac {5}{ \frac{1}{132500}+\frac{1}{181115}+\frac{1}{109000}+\frac{1}{155500}+\frac{1}{86060}}=124025,63\]

To nam daje harmonijsku sredinu od 124025.63 za ovih 5 vrijednosti. Budući da je stvarni skup podataka velik, koristili bismo softver za izračun. U ovom slučaju, harmonijska sredina svih cijena je 169158.95$.

Za grupirane podatke harmonijska sredina izračunava se pomoću sredina razreda grupiranih intervala. Harmonijsku sredinu izračunavamo uzimajući u obzir sredinu razreda svakog intervala kao reprezentativnu vrijednost za raspon. Formula za harmonijsku sredinu u grupiranim podacima je:

\[H= \frac{∑f_i}{∑ \frac{f_i}{x_i}}\]

Gdje je:

$∑f_i$ ukupna učestalost (zbroj svih frekvencija),

$f_i$ je frekvencija i-tog razreda,

$x_i$ je sredina i-tog razreda.

$Σ$ je operator zbrajanja (trebamo zbrojiti sve vrijednosti ili izraze koji slijede - to znači da ovdje prvo izračunavamo razlomke za sve $i$, a zatim ih zbrojimo).

Dakle, moramo:

Pronaći sredinu razreda $x_i$ svakog cjenovnog intervala
Pomnožiti recipročnu vrijednost svake sredine razreda xi s pripadajućom frekvencijom $f_i$, odnosno izračunati sve ($f_i/x_i$)
Zbrojiti izračunate vrijednosti ($f_i/x_i$ )
Sumu frekvencija (ukupni broj opažanja) podijeliti sumom izračunatom u prethodnom koraku.

S obzirom na naš primjer grupiranih podataka, Tablicu 10. proširujemo za dodatni pomoćni stupac.

Tablica 11. Cijene nekretnina uz pomoćne stupce za izračun aritmetičke i harmonijske sredine

Cijena L1	Cijena L2	Frekvencija (fi)	Xi	fi/Xi
5000	53126	7	29063	0.000241
53126	101252	97	77189	0.001257
101252	149378	371	125315	0.002961
149378	197504	455	173441	0.002623
197504	245630	304	221567	0.001372
245630	293756	203	269693	0.000753
293756	341882	128	317819	0.000403
341882	390008	74	365945	0.000202
390008	438134	40	414071	0.000097
438134	486260	19	462197	0.000041
486260	534386	9	510323	0.000018
534386	582512	4	558449	0.000007
582512	630638	6	606575	0.000010
630638	678764	7	654701	0.000011
678764	726890	1	702827	0.000001
726890	775016	3	750953	0.000004
Ukupno		1728	/	≈0.010000

Da bismo izračunali harmonijsku sredinu za ove podatke:

\[ H = \frac{1728}{\frac{7}{29063} + \frac{97}{77189} + \frac{371}{125315} + \frac{455}{173441} + \frac{304}{221567} + \frac{203}{269693} + \frac{128}{317819} + \frac{74}{365945} + \frac{40}{414071} + \frac{19}{462197} + \frac{9}{510323} + \frac{4}{558449} + \frac{6}{606575} + \frac{7}{654701} + \frac{1}{702827} + \frac{3}{750953}} \]

\[ H = \frac{1728}{0.000241 + 0.001257 + 0.002961 + 0.002623 + 0.001372 + 0.000753 + 0.000403 + 0.000202 + 0.000097 + 0.000041 + 0.000018 + 0.000007 + 0.000010 + 0.000011 + 0.000001 + 0.000004} \]

\[ H = \frac{1728}{0.01} = 172806.12 \]

Nakon zbrajanja umnožaka recipročnih vrijednosti sredina razreda s pripadajućim frekvencijama, podijelimo 1728 s tim zbrojem (≈0,01) da bismo dobili ponderiranu harmonijsku sredinu (harmonijsku sredinu grupiranog niza). Tada dobivamo 172806$ (odnosno, 172806.12 USD ako ne zaokružujemo).

Harmonijska sredina obično se koristi kada se želi utvrditi centralna tendencija stopa ili omjera. U slučaju cijena nekretnina, ako postoje nekretnine s vrlo visokim cijenama ili netipičnim vrijednostima, one će manje utjecati na harmonijsku sredinu nego što utječu na vrijednost aritmetičke sredine.

Geometrijska sredina negrupiranih i grupiranih podataka

Sada prođimo kroz postupak izračuna geometrijske sredine za negrupirane i grupirane podatke, počevši od negrupiranog skupa podataka.

Geometrijska sredina dobiva se tako da se izračuna umnožak svih vrijednosti, a zatim se na izračunatu vrijednost primijeni $n$-ti korijen, gdje je $n$ broj vrijednosti u nizu (za uzorak; za populaciju se označava s $N$, a za grupirane podatke $∑f_i$). Formula za geometrijsku sredinu ($G$) za negrupirane podatke je

\[ G = \sqrt[n]{\prod_{i=1}^n x_i} \]

Gdje su:

$x_i$ - pojedinačne vrijednosti
$n$ - broj opažanja
veliko štampano slovo pi ($\prod$) je operator množenja (produkta). Govori vam da pomnožite sve vrijednosti ili izraze koji ga slijede prema pravilu ili slijedu.

Primjera radi, izračunajmo geometrijsku sredinu za prvih 5 cijena nekretnina: 132500, 181115, 109000, 155000, 86060. Prvo pomnožimo cijene:

\[ 132500 \cdot 181115 \cdot 109000 \cdot 155000 \cdot 86060 = 3.101 \cdot 10^{20} \]

Sada, budući da imamo 5 opažanja, računamo 5. korijen dobivenog umnoška:

\[ G = \sqrt[5]{3.101 \cdot 10^{20}} \approx 128394.37 \]

Dakle, geometrijska sredina 5 negrupiranih opažanja je približno 128394.37 dolara. Međutim, geometrijska sredina varijable Cijena za sva opažanja je 192137.81 dolara.

Geometrijska sredina je mjera središnje tendencije na koju manje utječu vrlo velike ili vrlo male vrijednosti, posebno kada su podaci asimetrični. U ovom slučaju, geometrijska sredina signalizira tendenciju podataka o cijenama nekretnina ka središtu od oko 192137,81 USD, što odražava procjenu tipične cijene u ovom malom uzorku.

Za grupirane podatke geometrijska sredina izračunava se na temelju sredina razreda i njihovih odgovarajućih frekvencija. Formula je:

\[ G = \sqrt[\sum f_i]{\prod_{i=1}^n x_i^{f_i}} = \sqrt[n]{x_1^{f_1} \cdot x_2^{f_2} \cdot \dots \cdot x_n^{f_n}} \]

Gdje su:

$x_i$ - sredine razreda cjenovnih intervala,
$f_i$ - frekvencije svakog intervala,
$n$ - ukupan broj opažanja ($\sum f_i$).

Veliko štampano slovo pi ($\prod$) je operator množenja (produkta) i govori vam da pomnožite sve vrijednosti ili izraze koji ga slijede prema pravilu ili slijedu.

Upotrijebimo ranije navedene grupirane podatke. Evo pojednostavljene verzije:

Izračunamo sredine razreda (već imamo)
Pomnožimo sve sredine razreda potencirane pripadajućom frekvencijom:

\[x_1^{f_1} \cdot x_2^{f_2} \cdot \dots \cdot x_n^{f_n}\]

Za prvih nekoliko razreda to je

\[ 51,563^7 \cdot 77,189^{97} \cdot 125,315^{371} \cdot 173,441^{455} \cdot \dots \]

Nakon što dobijemo umnožak, izračunamo n-ti korijen, gdje je n ukupan broj opažanja (u ovom slučaju 1728):

\[ G = \sqrt[1728]{51,563^7 \cdot 77,189^{97} \cdot 125,315^{371} \cdot 173,441^{455} \cdot \dots} \]

Budući da umnošci mogu postati vrlo veliki, obično bismo koristili kalkulator ili statistički softver da biste to izračunali. Međutim, moguće je dobiti toliko velike brojeve da tipični kalkulatori i softver ne mogu izvršiti takav izračun.

Na primjer, ako u većinu kalkulatora upišemo $173441^{455}$, dobit ćemo Inf ili NaN,što znači da su vrijednosti prevelike za izračunavanje ili prikaz. Ovi veliki brojevi mogu rezultirati prelijevanjem, što dovodi do vraćanja beskonačne vrijednosti (Inf), a to znači da broj premašuje kapacitet uređaja ili softvera da ga obradi ili ispiše. Većina ručnih ili osnovnih znanstvenih kalkulatora dizajnirana je s ograničenom memorijom, a njihova sposobnost izračunavanja velikih vrijednosti ograničena je njihovom unutarnjom arhitekturom. Oni mogu predstavljati samo brojeve do određene veličine prije nego što vrate Inf ili proizvedu pogrešku. Na primjer, većina kalkulatora može obraditi izračune u rasponu od $10^{300}$ do $10^{308}$ prije nego što dosegnu gornju granicu. Prelijevanje se događa kada vrijednost premaši maksimalni broj koji sustav može podnijeti. To je uobičajeno i u kalkulatorima i u softveru koji koriste aritmetiku s pomičnim zarezom. Kada dođe do prelijevanja, rezultat se obično predstavlja kao Inf ili NaN (Not a Number - nije broj). Čak i softverski sustavi kao što su Excel, R ili Python koriste aritmetiku s pomičnim zarezom za predstavljanje velikih brojeva. Brojevi s pomičnim zarezom pohranjuju se pomoću ograničenog broja bitova, pa se točnost smanjuje kako brojevi postaju veći. Na primjer, standard IEEE 754 za brojeve s pomičnim zarezom (koji se koristi u većini sustava) dopušta prikaz samo do približno $1.8 \cdot 10^{308}$. Izračunavanje $173,441^{455}$ rezultiralo bi astronomskim brojem (oko $10^{2611}$), koji daleko premašuje granicu većine kalkulatora.

Jedan od najučinkovitijih načina za rješavanje velikih brojeva u ovim vrstama izračuna je korištenje logaritama, što nas dovodi do drugog pristupa izračunu geometrijske sredine. Geometrijska sredina uključuje množenje brojeva, što se može učinkovito riješiti zbrajanjem njihovih logaritama, a zatim potenciranjem rezultata. Na primjer, izračunavanje:

\[log(173441^{455})=455 \cdot log(173441)\]

preoblikuje problem u izvediv izračun.

Formula:

\[ \log(G) = \frac{1}{n} \sum_{i=1}^{n} \log(x_i) \]

Nakon izračuna zbroja logaritama, rezultat možete eksponencijalno povećati kako biste dobili geometrijsku sredinu. Ova metoda izbjegava velike brojeve jer logaritami “komprimiraju” raspon vrijednosti.

Formula za izračun geometrijske sredine za grupirane podatke pomoću logaritama:

\[ G = 10^{\left(\frac{\sum (f_i \cdot \log(x_i))}{n}\right)} \]

Gdje je:

$f_i$ – učestalost svakog razreda
$x_i$ – sredina svakog razreda
$n$ – ukupan broj opažanja, tj. suma frekvencija

I ovdje možemo izračunavati geometrijsku sredinu u koracima (i napisati u tablicu):

Početak je isti, trebamo $x_i$.
Izračunamo log svake sredine razreda ($log(x_i)$) - pretvorite svaku vrijednost sredine razreda u njezin logaritam. Koristimo bazu 10, osobito zato jer smo i u formuli prema kojoj smo odabrali računati koristimo bazu 10; no, mogli bismo koristiti i bazu prirodnog logaritma, a tad bi osnovna formula bila $e^\frac{∑(f_i \cdot \log(⁡x_i))}{n}$.
Pomnožimo logaritm svake sredine razreda s odgovarajućom frekvencijom ($f_i$) - to daje ponderirane logaritme.
Zbrojimo sve ponderirane logaritme - zbrojimo umnoške frekvencije i logaritama svake sredine razreda.
Podijelimo zbroj ponderiranih logaritama sa sumom frekvancija.
Uvrstimo u formulu, gdje eksponencijalno povećanje rezultata daje geometrijsku sredinu

U prvom razredu imamo:

$x_i = \frac{5000 + 53126}{2} = 29063$

$\log(x_i) = \log(29063) \approx 4.463$

$f_i \cdot \log(x_i) = 7 \cdot 4.463 = 31.234$

Na sličan način popunjavamo tablicu i za ostale vrijednosti.

Tablica 12. Cijene nekretnina uz pomoćne stupce za izračun aritmetičke, harmonijske i geometrijske sredine

Cijena L1	Cijena L2	Frekvencija (fi)	Xi	log(xi)	fi·log(xi)
5000	53126	7	29063	4.463	31.243
53126	101252	97	77189	4.888	474.093
101252	149378	371	125315	5.098	1891.359
149378	197504	455	173441	5.239	2383.814
197504	245630	304	221567	5.346	1625.034
245630	293756	203	269693	5.431	1102.467
293756	341882	128	317819	5.502	704.279
341882	390008	74	365945	5.563	411.693
390008	438134	40	414071	5.617	224.683
438134	486260	19	462197	5.665	107.632
486260	534386	9	510323	5.708	51.371
534386	582512	4	558449	5.747	22.988
582512	630638	6	606575	5.783	34.697
630638	678764	7	654701	5.816	40.712
678764	726890	1	702827	5.847	5.847
726890	775016	3	750953	5.876	17.627
Ukupno		1728	/		9129.538

U zbirnom retku upisujemo sumu $f_i \cdot \log⁡x_i$. Zatim uzimamo antilog (baza 10) rezultata da bismo pronašli geometrijsku sredinu:

$G = 10^{\left(\frac{\sum (f_i \cdot \log(x_i))}{n}\right)} = 10^{\left(\frac{9129.538}{1728}\right)} \approx 191998.33$

Dakle, geometrijska sredina (G) za grupirane podatke iznosi otprilike 191998.33$.

Geometrijska sredina grupiranih podataka je mjera središnje tendencije koja uzima u obzir raspodjelu cijena unutar promatranih intervala. Kao što je bio slučaj s aritmetičkom i harmonijskom sredinom, geometrijska sredina grupiranih podataka često će se malo razlikovati od one računate za negrupirane podatke zbog aproksimacije uključene u korištenje sredina razreda umjesto točnih vrijednosti. Međutim, geometrijska sredina ostaje korisna mjera, posebno kada se radi o podacima koji pokrivaju širok raspon ili uključuju izdvojenice.

Geometrijska sredina prikladnija je od aritmetičke sredine kada su podaci multiplikativne prirode ili kada se radi o stopama, proporcijama ili postotcima. Također, daje reprezentativniju mjeru središnje tendencije nego prosjek u skupovima podataka koje sadrže izdvojenice (ili asimetričnim skupovima podataka), što ga čini korisnim u podacima o nekretninama gdje nekoliko nekretnina može imati vrlo visoke cijene koje mogu iskriviti rezultate.

Rezimirajmo (ovdje ćemo koristiti prosjeke za negrupirane podatke).

Aritmetička sredina ($\bar{x}=211966.71$), ili prosjek, zbroj je svih cijena nekretnina podijeljen s brojem nekretnina. To je najčešće korištena mjera središnje tendencije. U ovom slučaju, aritmetička sredina nam govori da je prosječna cijena promatranih nekretnina 211966,71 USD. Međutim, budući da je aritmetička sredina osjetljiva na ekstremne vrijednosti (izdvojenice, netipične vrijednosti), ako u skupu podataka postoje vrlo visoke ili niske cijene nekretnina, taj prosjek možda nije reprezentativan za većinu nekretnina. Harmonijska sredina ($H = 169158.95$) često se koristi kada se radi o stopama ili omjerima. Daje veću težinu manjim vrijednostima i obično je niža od aritmetičke sredine. U tom kontekstu, harmonijska sredina od 169158,95 USD sugerira da postoji značajan broj nekretnina s nižim cijenama u skupu podataka. Ovo je korisno za razumijevanje prosjeka u slučajevima kada su manji brojevi relevantniji ili kada podaci uključuju stope (npr. cijena po jedinici površine). Geometrijska sredina ($G = 192137.81$) korisna je za podatke koji su multiplikativne prirode ili kada vrijednosti obuhvaćaju nekoliko redova veličine, jer smanjuje utjecaj vrlo visokih ili vrlo niskih vrijednosti. Daje nam uvid u opću cijenu bez pretjeranog utjecaja iznimno visokih vrijednosti. Usporedba:

Izračunate vrijednosti, prema očekivanjima, slijede tipičan redoslijed srednjih vrijednosti: $H < G < \bar{x}$ (za uzorak) ili $H < G < \mu$ (za populaciju). Ova tri prosjeka pružaju potpuniju sliku o podacima.

Pitanja za ponavljanje

Koja je glavna razlika između aritmetičke sredine dobivene iz negrupiranih podataka i aritmetičke sredine dobivene iz grupiranih podataka za varijablu Cijena?

Aritmetička sredina negrupiranih podataka uvijek je manja od one grupiranih podataka.
Aritmetička sredina grupiranih podataka najčešće je aproksimacija jer se koristi sredina razreda, dok je aritmetička sredina iz negrupiranih podataka izračunata točno iz svih pojedinačnih vrijednosti.
Nema razlike jer je zbroj frekvencija jednak zbroju pojedinačnih opažanja.
Razlike se pojavljuju samo kada je broj intervala manji od 5.

U tablici za grupirane podatke (cijena nekretnine) dobiven je iznos $\sum (f_i \cdot x_i) = 366312432$ i $\sum f_i = 1728$. Koji biste postupak dalje primijenili kako biste izračunali prosječnu cijenu (aritmetičku sredinu) za te podatke?

Zbroj frekvencija pomnožiti sa zbrojem sredina razreda i podijeliti s 100.
Zbroj frekvencija pomnožiti zbrojem svih cijena i podijeliti brojem intervala.
Zbroj umnožaka frekvencija i sredina razreda podijeliti sumom frekvencija.
Zbroj frekvencija pomnožiti sa zbrojem umnožaka frekvencija i sredina razreda za sve razrede te podijeliti brojem intervala.

Ako aritmetička sredina grupiranih podataka (cijena) iznosi 211986.4 $\$$, a aritmetička sredina negrupiranih podataka za istu varijablu iznosi 211966.71 $\$$, koja je najlogičnija interpretacija tog odstupanja?

Grupirani podaci su netočni, stoga je nužno odbaciti taj rezultat.
Minimalna razlika sugerira da je grupiranje dobro izvedeno i da se sredina razreda približno podudara s realnim vrijednostima.
Svi intervali su preširoki, pa je aritmetička sredina iz grupiranih podataka u potpunosti bezvrijedna.
Razlika je posljedica toga što je uvijek prosjek grupiranih podataka manji od prosjeka negrupiranih podataka.

Kad se govori o harmonijskoj sredini (H) za varijablu Cijena, dobivena je vrijednost od približno 169158.95 $\$$. Koje je najbolje objašnjenje zašto je harmonijska sredina niža od aritmetičke sredine?

Jer harmonijska sredina ne uključuje frekvencije.
Zato što se kod harmonijske sredine veća težina daje većim vrijednostima.
Harmonijska sredina je prikladnija kada su podaci multiplikativni, pa ‘kažnjava’ iznimno visoke vrijednosti dajući više težine manjim vrijednostima.
Riječ je o grešci u računanju logaritama.

Za grupirane podatke cijena nekretnina, izračunava se i geometrijska sredina. Zašto se, umjesto množenja svih $x_i^{f_i}$, često primjenjuje logaritamski pristup ($\log(G) = \frac{1}{n} \sum f_i \log(x_i)$)?

Zato što je formula za geometrijsku sredinu nepotpuna ako se ne koristi logaritmiranje.
Jer izravno množenje svih $(x_i)^{f_i}$ može rezultirati izrazito velikim brojevima, a zbrajanje logaritama izbjegava tu numeričku poteškoću.
Zato što logaritmi eliminiraju potrebu za korištenjem frekvencija.
Zato što se time dobiva uvijek veća geometrijska sredina.

U tablici raspona cijena (u kunama ili dolarima) uočavate da je najbrojniji cjenovni razred 149378 – 197504, s frekvencijom 455 nekretnina. Koju statističku mjeru to izravno sugerira i kako?

Moda, jer je to razred s najvećom frekvencijom (najčešća pojava).
Medijan, jer se radi o srednjoj vrijednosti.
Harmonijska sredina, jer daje veće ponderiranje tom intervalu.
Aritmetička sredina, jer se uvijek odnosi na najveću frekvenciju.

Za medijan grupiranih podataka (cijena), koristimo formulu: \[ M_e = L_1 + \frac{\left(\frac{N}{2} - F\right)}{f_m} \times i \] Gdje je $F$ kumulativna frekvencija do medijalnog razreda. Što označava $\left(\frac{N}{2} - F\right)$?

Veličinu izduženog kraka distribucije.
Koliko još opažanja nedostaje da dođemo do središnjeg opažanja (medijana) unutar medijalnog razreda.
Broj klasa razreda potrebnih za izračun medijana.
Ne označava ništa; to je nasumični pojam.

Koji ključni kriterij određuje medijalni razred pri izračunu medijana iz grupiranih podataka?

Razred s najvećim brojem opažanja (najveća frekvencija).
Razred u kojem se nalazi $\frac{N}{2}$-ti podatak prema kumulativnom nizu „manje od“.
Razred koji u sredini intervala ima najveću širinu.
Razred s najvišom cijenom.

U prethodnoj tablici, medijalni razred ima donju granicu $L_1 = 149378$, frekvencija tog razreda $(f_m) = 455$, a kumulativna frekvencija do tog razreda $(F)$ jednaka je 475. Pretpostavimo da je ukupni broj opažanja $N = 1728$. Veličina razreda $(i) = 48126$. Koji je prvi korak pri izračunu medijana?

Izračunati $\frac{N}{2} = \frac{1728}{2} = 864$.
Neposredno dodati $L_1$ i $(f_m - F)$.
Izračunati $(F - \frac{N}{2})$.
Primijeniti formulu za geometrijsku sredinu.

Ako su minimalna i maksimalna cijena nekretnina 5000 $\$$ i 775000 $\$$, zašto nije smisleno izračunavati aritmetičku sredinu za binarne varijable poput Waterfront (0/1) ili New.Construct (0/1)?

Zato što se radi o varijablama na omjernoj razini mjerenja, a za binarne varijable aritmetička sredina je uvijek jednaka nuli.
Jer je 0 i 1 nemoguće interpretirati u smislu “srednje vrijednosti” za kategorije koje znače “nema” ili “ima”.
Jer se ne mogu zbrajati frekvencije tih varijabli.
Zato što binarne varijable ne mogu imati mod.

U tablici kontingencije za klimu (Central.Air) i broj kamina (Fireplaces) primijetili ste da je najviše nekretnina u kategoriji nema klimu (0) i nema kamina (0). Koji zaključak možete izvesti?

Nema statistički relevantnog zaključka jer su binarne varijable.
Većina nekretnina nema klimu i nema kamina.
To znači da su sve nekretnine smještene daleko od mora.
Znači da je prosječna cijena najviša u toj kategoriji.

Što usporedba geometrijske sredine (G) i aritmetičke sredine govori o distribuciji cijena?

Cijene su ravnomjerno raspoređene bez izraženih ekstremnih vrijednosti.
Distribucija cijena ima dugačak desni krak (asimetrična je), što povisuje aritmetičku sredinu bitno više nego geometrijsku.
Većina cijena je iznad 500000 $\$$.
Distribucija je simetrična pa je aritmetička sredina uvijek veća od geometrijske sredine.

Pretpostavimo da ste za 1728 nekretnina izračunali da je $\sum (f_i \cdot \log(x_i)) = 9129.538$ (baza 10), pri čemu je $\sum f_i = 1728$. Koja je geometrijska sredina (G) grupiranih podataka?

$10^{\left(\frac{9129.538}{1728}\right)} \approx 191998.33$
$10^{9129.538}$
$\sqrt{9129.538}$
$1728^{9129.538}$

Varijabla Bedrooms (broj spavaćih soba) klasificirana je kao diskretna kvantitativna varijabla. Zašto?

Zato što može poprimiti realne vrijednosti od 0 do 7.
Zato što se broj spavaćih soba uvijek prikazuje binarno.
Zato što broj spavaćih soba mora biti cijeli broj (1, 2, 3, …), a ima smislenu nultu točku.
Zato što mjeri spavaće sobe na intervalnoj razini.

Ako ste na histogramu cijena nekretnina uočili da postoji jedan jasno izražen vrh oko 180000 $\$$, a zatim se frekvencije postupno i podjednako smanjuju prema lijevim i desnim krakovima, kako biste okarakterizirali takvu distribuciju?

Višemodalna i simetrična.
Jednomodalna i vjerojatno asimetrična s desnim krakom.
Jednomodalna i približno simetrična.
Dvomodalna, s vrhovima na lijevom i desnom kraju.

U kontingencijskoj tablici za klimu i novogradnju, vidljivo je da među promatranih 1728 nekretnina postoji 81 novogradnja, od čega 43 ima klimu. Koliki je približni udio novogradnji s klimom unutar svih novogradnji?

$\frac{43}{81} \approx 0.53$ (53%)
$\frac{81}{43} \approx 1.88$ (188%)
$\frac{43}{1728} \approx 0.025$ (2.5%)
$\frac{81}{1728} \approx 0.0469$ (4.69%)

Zašto prosjek nije prijavljen u tablici sažetih pokazatelja za varijable Waterfront, New.Construct i Central.Air?

Zato što su to nominalne varijable (0/1) i aritmetička sredina nema smisla za kategorije.
Zato što se prosjek za binarne varijable uvijek mora prvo podijeliti s logaritmom.
Zato što je te varijable nemoguće učitati u statistički softver.
Zato što su prevelike frekvencije.

Koja je najbolja primjena harmonijske sredine?

Kada želimo sažeti razlike između npr. dvije ekstremno visoke cijene.
Kada radimo s podacima koji su u obliku stopa ili omjera (npr. cijena po kvadratnom metru).
Kad želimo dobiti najveću moguću srednju vrijednost.
U slučajevima kad je distribucija potpuno simetrična bez izdvojenih vrijednosti.

Prilikom tumačenja histograma cijena nekretnina, primijetili ste dugi desni rep (izduženi krak). Koja dva statistička zaključka to obično implicira?

1. Distribucija je simetrična. 2) Medijan je jednak aritmetičkoj sredini.
1. Velik broj podataka koncentrira se u nižim rasponima cijena. 2) Aritmetička sredina je povučena prema većim vrijednostima.
1. Postoje dva moda. 2) Geometrijska sredina je veća od aritmetičke sredine.
1. Većina podataka nalazi se u najvišem cjenovnom rangu. 2) Harmonijska sredina uvijek prelazi aritmetičku sredinu.

Zašto je grupiranje podataka (npr. cijena nekretnina) korisno čak i uz gubitak detalja? Odaberite dva najprikladnija razloga.

Zato što tablica sadrži više redaka, pa je zanimljivija.
Radi pregleda i otkrivanja obrazaca u velikim skupovima podataka, kao i olakšavanja usporedbe intervala.
Zato što se brže dolazi do harmonijske sredine.
Radi smanjenja količine podataka i učinkovitijeg komuniciranja ključnih uvida (npr. u službenoj statistici).

Repliciranje analize koristeći različite alate

Provedba postupka koristeći JASP

Ovaj prikaz će biti relativno kratak, jer JASP ne podržava izračune temeljem grupiranih podataka.

Učitajte podatke. Ako se trebate dodatno podsjetiti kako, upute ćete naći u 1. štivu.

Po uspješnom učitavanju podataka, dobivate ovakav prikaz. Kliknite na Descriptives.

Odaberite sve varijable osim V1 (rednog broja opažanja) i uključite ih u panel ‘Variables’ s desne strane u lijevom prozoru.

To bi trebalo izgledati ovako. S obzirom da ćemo ovdje imati veći broj varijabli, a manji broj statističkih pokazatelja, kliknut ćemo na ‘Transpose descriptives table’. To će transponirati tablicu na način da će varijable biti prikazane u retcima, a statistički pokazatelji u stupcima.

Kliknite na izbornik ‘Statistics’. Odaberite ‘Valid’ (broj valjanih opažanja), ‘Mean’ (aritmetička sredina), ‘Minimum’ i ’Maximum.

S takvim postavkama, trebali biste dobiti sljedeći prikaz:

Za kreiranje histograma, kliknite na izbornik ‘Basic plots’ i odaberite ‘Distribution plots’. Ova radnja će kreirati histograme za sve uključene varijable.

Provedba postupka koristeći R

Učitajte podatke.

> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 20)

##     Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1  132500     0.09          0  42      50000             0           0
## 2  181115     0.92          0   0      22300             0           0
## 3  109000     0.19          0 133       7300             0           0
## 4  155000     0.41          0  13      18700             0           0
## 5   86060     0.11          0   0      15000             1           1
## 6  120000     0.68          0  31      14000             0           0
## 7  153000     0.40          0  33      23300             0           0
## 8  170000     1.21          0  23      14600             0           0
## 9   90000     0.83          0  36      22200             0           0
## 10 122900     1.94          0   4      21200             0           0
## 11 325000     2.29          0 123      12600             0           0
## 12 120000     0.92          0   1      22300             0           0
## 13  85860     8.97          0  13       4800             0           0
## 14  97000     0.11          0 153       3100             0           0
## 15 127000     0.14          0   9        300             0           0
## 16  89900     0.00          0  88       2500             0           0
## 17 155000     0.13          0   9        300             0           0
## 18 253750     2.00          0   0      49800             0           1
## 19  60000     0.21          0  82       8500             0           0
## 20  87500     0.88          0  17      19400             0           0
##    Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1          3         4          2         906          35        2          1
## 2          2         3          2        1953          51        3          0
## 3          2         3          3        1944          51        4          1
## 4          2         2          2        1944          51        3          1
## 5          2         2          3         840          51        2          0
## 6          2         2          2        1152          22        4          1
## 7          4         3          2        2752          51        4          1
## 8          4         2          2        1662          35        4          1
## 9          3         4          2        1632          51        3          0
## 10         2         2          1        1416          44        3          0
## 11         4         2          2        2894          51        7          0
## 12         2         2          2        1624          51        3          0
## 13         3         4          2         704          41        2          0
## 14         2         3          3        1383          57        3          0
## 15         4         2          2        1300          41        3          0
## 16         2         3          3         936          57        3          0
## 17         4         2          2        1300          41        3          0
## 18         2         2          1        2816          71        4          1
## 19         4         3          2         924          35        2          0
## 20         4         2          2        1092          35        3          0
##    Bathrooms Rooms
## 1        1.0     5
## 2        2.5     6
## 3        1.0     8
## 4        1.5     5
## 5        1.0     3
## 6        1.0     8
## 7        1.5     8
## 8        1.5     9
## 9        1.5     8
## 10       1.5     6
## 11       1.0    12
## 12       2.0     6
## 13       1.0     4
## 14       2.0     5
## 15       1.5     8
## 16       1.0     4
## 17       1.5     7
## 18       2.5    12
## 19       1.0     6
## 20       1.0     6

Naredba summary() daje Tuckeyevih pet brojeva i prosjek. Iz izlaza izdvajamo minimum, maksimum i prosjek.

> tablica_1 <- summary(nekretnine)
> tablica_1[c(1, 4, 6),]

##      Price           Lot.Size         Waterfront            Age        
##  Min.   :  5000   Min.   : 0.0000   Min.   :0.000000   Min.   :  0.00  
##  Mean   :211967   Mean   : 0.5002   Mean   :0.008681   Mean   : 27.92  
##  Max.   :775000   Max.   :12.2000   Max.   :1.000000   Max.   :225.00  
##    Land.Value     New.Construct      Central.Air       Fuel.Type    
##  Min.   :   200   Min.   :0.00000   Min.   :0.0000   Min.   :2.000  
##  Mean   : 34557   Mean   :0.04688   Mean   :0.3675   Mean   :2.432  
##  Max.   :412600   Max.   :1.00000   Max.   :1.0000   Max.   :4.000  
##    Heat.Type       Sewer.Type     Living.Area    Pct.College       Bedrooms    
##  Min.   :2.000   Min.   :1.000   Min.   : 616   Min.   :20.00   Min.   :1.000  
##  Mean   :2.528   Mean   :2.695   Mean   :1755   Mean   :55.57   Mean   :3.155  
##  Max.   :4.000   Max.   :3.000   Max.   :5228   Max.   :82.00   Max.   :7.000  
##    Fireplaces       Bathrooms       Rooms       
##  Min.   :0.0000   Min.   :0.0   Min.   : 2.000  
##  Mean   :0.6019   Mean   :1.9   Mean   : 7.042  
##  Max.   :4.0000   Max.   :4.5   Max.   :12.000

Kreiranje tablica za ponavljanje.

> table(nekretnine$Central.Air, nekretnine$Fireplaces) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu

##    
##       0   1   2   3   4
##   0 585 488  20   0   0
##   1 155 454  22   2   2

> table(nekretnine$Central.Air, nekretnine$Bedrooms) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu

##    
##       1   2   3   4   5   6   7
##   0   6 234 551 256  36   7   3
##   1   1 114 271 231  17   1   0

> table(nekretnine$Central.Air, nekretnine$New.Construct) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu

##    
##        0    1
##   0 1055   38
##   1  592   43

> table(nekretnine$Bedrooms, nekretnine$New.Construct) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu

##    
##       0   1
##   1   7   0
##   2 345   3
##   3 801  21
##   4 431  56
##   5  52   1
##   6   8   0
##   7   3   0

> table(nekretnine$Bedrooms, nekretnine$Central.Air) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu

##    
##       0   1
##   1   6   1
##   2 234 114
##   3 551 271
##   4 256 231
##   5  36  17
##   6   7   1
##   7   3   0

Pri grupiranju podataka, možemo koristiti različite pristupe. Na primjer, ako kreiramo histogram, možemo izdvojiti granične vrijednosti razreda i frekvencije.

> grupiranje_hist <- hist(nekretnine$Price)

> grupiranje_hist$breaks

##  [1]      0  50000 100000 150000 200000 250000 300000 350000 400000 450000
## [11] 500000 550000 600000 650000 700000 750000 800000

> grupiranje_hist$counts

##  [1]   7  93 400 459 308 198 117  67  34  18   8   5   7   3   1   3

Možemo vidjeti da je donja granica prvog razreda 0, iako je najmanja vrijednost u nizu 5000 dolara. To dodatno ukazuje na donekle proizvoljne odabire granica razreda. Nerijetko se pri izračunu i grafičkim prikazima granice zaokružuju na najbliže stotice ili tisućice (ovisno o rasponu varijable), zbog preglednosti i lakšeg iščitavanja.

Alternativno, postoje pravila za određivanje broja i veličina razreda.

Sturgesovo pravilo

Sturgesovo pravilo je najjednostavnije, jer uzima u obzir samo broj opažanja.

\[k \approx 1+ 3.3 \cdot \log_{10}N\]

na ovaj se način dobiva broj razreda, a potom se raspon vrijednosti varijable dijeli tim brojem za utvrđivanje širine razreda.

\[h = \frac{x_{max}-x_{min}}{k}\]

Scottovo pravilo

Scottovo pravilo temelji se na standardnoj devijaciji podataka i broju opažanja. Cilj je minimizirati varijancu procijene distribucije.

\[h = \frac{3.5 \cdot \sigma}{n^{1/3}}\]

\[k = \frac{x_{max}-x_{min}}{h}\]

Freedman-Diaconisovo pravilo

Freedman-Diaconisovo pravilo koristi interkvartilni raspon (IQ) kako bi se odredila širina razreda, čime se smanjuje utjecaj ekstremnih vrijednosti na izbor širine.

\[h = 2 \cdot \frac{IQR}{n^{1/3}}\] \[k = \frac{x_{max}-x_{min}}{h}\]

> min_cijena <- min(nekretnine$Price)
> min_cijena

## [1] 5000

> max_cijena <- max(nekretnine$Price)
> max_cijena

## [1] 775000

> # broj razreda prema Sturgesovom pravilu
> 
> sturges <- 1+3.322*log10(length(nekretnine$Price))
> sturges

## [1] 11.75512

> broj_razreda <- round(sturges, 0) # ovo je preporuka, broj razreda može se definirati i prema drugim pravilima
> print("Broj razreda - Sturges")

## [1] "Broj razreda - Sturges"

> broj_razreda

## [1] 12

> vel_razreda <- (max_cijena-min_cijena)/broj_razreda
> print("veličina razreda - Sturges")

## [1] "veličina razreda - Sturges"

> round(vel_razreda, 0)

## [1] 64167

> # broj razreda prema Scottovom pravilu
> 
> h <- (3.5*sd(nekretnine$Price))/(1728^(1/3))
> print("veličina razreda - Scott")

## [1] "veličina razreda - Scott"

> round(h, 0)

## [1] 28712

> print("Broj razreda - Scott")

## [1] "Broj razreda - Scott"

> round((max_cijena-min_cijena)/h, 0)

## [1] 27

> # broj razreda prema Freedman-Diaconisovom pravilu
> 
> h <- 2*(IQR(nekretnine$Price))/(1728^(1/3))
> print("veličina razreda - Freedman-Diaconis")

## [1] "veličina razreda - Freedman-Diaconis"

> round(h, 0)

## [1] 19000

> print("Broj razreda - Freedman-Diaconis")

## [1] "Broj razreda - Freedman-Diaconis"

> round((max_cijena-min_cijena)/h, 0)

## [1] 41

Kad su podaci približno normalno distribuirani i imate relativno mali broj opažanja, Sturgesovo pravilo pruža adekvatan izbor širine razreda. Scottovo pravilo je optimalno za veće skupove podataka s normalnom distribucijom, jer uzima u obzir standardnu devijaciju za preciznije određivanje širine razreda. Freedman-Diaconisovo pravilo je prikladnije za podatke koji su asimetrični ili sadrže ekstremne vrijednosti, jer koristi interkvartilni raspon koji smanjuje utjecaj outliera na odabir širine razreda.

Sturgesovo, Scottovo i Freedman-Diaconisovo pravilo služe kao orijentiri pri odabiru širine i broja razreda za histogram, ali nisu apsolutna pravila koja se moraju strogo slijediti. Ovisno o specifičnostima i karakteristikama skupa podataka, nakon izračuna i prvih uvida u podatke, možete prilagoditi ove smjernice kako bi najbolje prikazali distribuciju podataka.

Također, sjetimo se da se uobičajeno kreiraju tablice s 5 do 15 razreda, a u iznimnim slučajevima tolerira se minimalno 3 do maksimalno 25 razreda. Dakle, pristupi se malo razlikuju ovisno o tome je li cilj kreirati tablice ili nacrtati što precizniji histogram. Ovdje će se kompromisno odabrati 16 razreda.

> min_cijena <- min(nekretnine$Price)
> min_cijena

## [1] 5000

> max_cijena <- max(nekretnine$Price)
> max_cijena

## [1] 775000

> broj_razreda <- 16
> broj_razreda

## [1] 16

> vel_razreda <- round((max_cijena-min_cijena)/broj_razreda, 0) +1
> vel_razreda

## [1] 48126

> breaks_hist <- seq(from = min_cijena, to = max_cijena + vel_razreda/2, by = vel_razreda)
> breaks_hist

##  [1]   5000  53126 101252 149378 197504 245630 293756 341882 390008 438134
## [11] 486260 534386 582512 630638 678764 726890 775016

> grupiranje_hist <- hist(nekretnine$Price, breaks = breaks_hist)

> grupiranje_hist$breaks

##  [1]   5000  53126 101252 149378 197504 245630 293756 341882 390008 438134
## [11] 486260 534386 582512 630638 678764 726890 775016

> grupiranje_hist$counts

##  [1]   7  97 371 455 304 203 128  74  40  19   9   4   6   7   1   3

> L1 <- grupiranje_hist$breaks[-16]
> L2 <- grupiranje_hist$breaks[-1]
> fi <- grupiranje_hist$counts
> 
> grupirani_podaci_cijena <- cbind(L1 = L1, L2 = L2, fi = fi)
> grupirani_podaci_cijena <- as.data.frame(grupirani_podaci_cijena)
> grupirani_podaci_cijena

##        L1     L2  fi
## 1    5000  53126   7
## 2   53126 101252  97
## 3  101252 149378 371
## 4  149378 197504 455
## 5  197504 245630 304
## 6  245630 293756 203
## 7  293756 341882 128
## 8  341882 390008  74
## 9  390008 438134  40
## 10 438134 486260  19
## 11 486260 534386   9
## 12 534386 582512   4
## 13 582512 630638   6
## 14 630638 678764   7
## 15 678764 726890   1
## 16 775016 775016   3

Kod započinje definiranjem osnovnih parametara za grupiranje podataka o cijenama nekretnina. Funkcija min() se koristi za pronalaženje minimalne vrijednosti cijena u skupu podataka nekretnine$Price, dok max() određuje maksimalnu cijenu. Nakon toga, postavlja se broj razreda na 16, a širina svakog razreda izračunava se dijeljenjem raspona cijena s brojem razreda, uz zaokruživanje rezultata na najbliži cijeli broj pomoću funkcije round() te dodavanje 1 kako bi se osigurala odgovarajuća pokrivenost svih vrijednosti. Sljedeći korak uključuje stvaranje niza granica razreda (breaks_hist) pomoću funkcije seq(), koja generira sekvencu od minimalne do maksimalne cijene, povećanu za polovinu širine razreda (kako bi se obuhvatila gornja granica posljednjeg razreda bez da se kreira prazan razred iznad), s korakom jednakim širini razreda. Funkcija hist() zatim generira histogram za varijablu Price koristeći prethodno definirane granice razreda, te se iz njega izdvajaju te granice i frekvencije (counts). Donje granice razreda (L1) dobijaju se isključivanjem zadnjeg elementa iz niza granica razreda koju kreira hist(), dok gornje granice (L2) izostavljaju prvi element, čime se definiraju intervali svakog razreda. Frekvencije (fi) preuzimaju se direktno iz podataka kreiranim funkcijom hist(). Konačno, pomoću funkcije cbind() kombiniraju se donje granice, gornje granice i frekvencije u matricu, koja se potom pretvara u data frame koristeći as.data.frame(), omogućujući preglednu tablicu grupiranih podataka o cijenama nekretnina.

Postoje i drugi pristup koje možete koristiti, evo još jednog za primjer. Ovdje se koristi for petlja.

> L1_vektor <- numeric(broj_razreda)
> L2_vektor <- numeric(broj_razreda)
> frekv_vektor <- numeric(broj_razreda)
> 
> for(i in 1:broj_razreda){
+     L1_vektor[i] <- min_cijena + (i - 1) * vel_razreda
+     
+     L2_vektor[i] <- L1_vektor[i] + vel_razreda
+     
+     if(i != broj_razreda){
+         frekv_vektor[i] <- sum(nekretnine$Price >= L1_vektor[i] & nekretnine$Price < L2_vektor[i])
+     } else {
+         frekv_vektor[i] <- sum(nekretnine$Price >= L1_vektor[i] & nekretnine$Price <= L2_vektor[i])
+     }
+ }
> 
> tablica_frekvencija <- data.frame(
+     L1 = L1_vektor,
+     L2 = L2_vektor,
+     Frekvencija = frekv_vektor
+ )
> 
> tablica_frekvencija

##        L1     L2 Frekvencija
## 1    5000  53126           7
## 2   53126 101252          97
## 3  101252 149378         371
## 4  149378 197504         455
## 5  197504 245630         304
## 6  245630 293756         203
## 7  293756 341882         128
## 8  341882 390008          74
## 9  390008 438134          40
## 10 438134 486260          19
## 11 486260 534386           9
## 12 534386 582512           4
## 13 582512 630638           6
## 14 630638 678764           7
## 15 678764 726890           1
## 16 726890 775016           3

Kod započinje inicijaliziranjem tri numerička vektora koja će pohraniti donje granice razreda (L1_vektor), gornje granice razreda (L2_vektor) i frekvencije (frekv_vektor) za svaki od definiranih razreda. Zatim, kroz for petlju prolazi se kroz svaki razred od 1 do broja razreda, pri čemu se za svaki razred izračunava donja granica dodavanjem umnoška indeksa razreda smanjenog za jedan i širine razreda na minimalnu cijenu. Gornja granica razreda dobiva se dodavanjem širine razreda na donju granicu. Unutar petlje, za sve razrede osim posljednjeg, frekvencija se računa prebrojavanjem nekretnina čija cijena je veća ili jednaka donjoj granici i manja od gornje granice, dok se za posljednji razred uključuje i gornja granica kako bi se obuhvatile sve vrijednosti do maksimalne cijene. Nakon završetka petlje, tri vektora se kombiniraju u data frame koristeći funkciju data.frame(), čime se stvara pregledna tablica frekvencija za grupirane podatke o cijenama nekretnina. Ova tablica omogućuje jednostavan pregled raspodjele cijena kroz definirane razrede.

Alternativno, to se može napraviti i na sljedeći način.

> nekretnine$Price_group <- cut(nekretnine$Price, breaks = broj_razreda, include.lowest = TRUE, right = FALSE)
> 
> # Kreirajte tablicu frekvencija
> freq_table <- as.data.frame(table(nekretnine$Price_group))
> colnames(freq_table) <- c("Cjenovni_razred", "Frekvencija")
> 
> freq_table <- as.data.frame(freq_table)
> freq_table

##        Cjenovni_razred Frekvencija
## 1  [4.23e+03,5.31e+04)           7
## 2  [5.31e+04,1.01e+05)          97
## 3  [1.01e+05,1.49e+05)         371
## 4  [1.49e+05,1.98e+05)         454
## 5  [1.98e+05,2.46e+05)         305
## 6  [2.46e+05,2.94e+05)         203
## 7  [2.94e+05,3.42e+05)         128
## 8   [3.42e+05,3.9e+05)          74
## 9   [3.9e+05,4.38e+05)          40
## 10 [4.38e+05,4.86e+05)          19
## 11 [4.86e+05,5.34e+05)           9
## 12 [5.34e+05,5.82e+05)           4
## 13 [5.82e+05,6.31e+05)           6
## 14 [6.31e+05,6.79e+05)           7
## 15 [6.79e+05,7.27e+05)           1
## 16 [7.27e+05,7.76e+05]           3

Alternativno, paket dplyr omogućuje elegantno grupiranje i brojanje pomoću funkcija group_by() i summarise():

> library(dplyr)
> 
> # Definirajte razrede
> nekretnine <- nekretnine %>%
+   mutate(Price_group = cut(Price, breaks = broj_razreda, include.lowest = TRUE))
> 
> # Kreirajte tablicu frekvencija
> freq_table <- nekretnine %>%
+   group_by(Price_group) %>%
+   summarise(Frekvencija = n())
> 
> freq_table

## # A tibble: 16 × 2
##    Price_group         Frekvencija
##    <fct>                     <int>
##  1 [4.23e+03,5.31e+04]           7
##  2 (5.31e+04,1.01e+05]          97
##  3 (1.01e+05,1.49e+05]         371
##  4 (1.49e+05,1.98e+05]         455
##  5 (1.98e+05,2.46e+05]         304
##  6 (2.46e+05,2.94e+05]         203
##  7 (2.94e+05,3.42e+05]         128
##  8 (3.42e+05,3.9e+05]           74
##  9 (3.9e+05,4.38e+05]           40
## 10 (4.38e+05,4.86e+05]          19
## 11 (4.86e+05,5.34e+05]           9
## 12 (5.34e+05,5.82e+05]           4
## 13 (5.82e+05,6.31e+05]           6
## 14 (6.31e+05,6.79e+05]           7
## 15 (6.79e+05,7.27e+05]           1
## 16 (7.27e+05,7.76e+05]           3

Također, paket Hmisc nudi funkciju cut2() koja automatski određuje razrede (može se specificirati broj razreda):

> library(Hmisc)
> 
> # Kreiranje razreda koristeći cut2()
> nekretnine$Price_group <- cut2(nekretnine$Price, g = broj_razreda)
> 
> # Kreirajte tablicu frekvencija
> freq_table <- as.data.frame(table(nekretnine$Price_group))
> colnames(freq_table) <- c("Cjenovni_Razred", "Frekvencija")
> 
> freq_table

##    Cjenovni_Razred Frekvencija
## 1  [  5000,103000)         108
## 2  [103000,120975)         113
## 3  [120975,133300)         105
## 4  [133300,145200)         115
## 5  [145200,156000)         111
## 6  [156000,166500)          96
## 7  [166500,178000)         108
## 8  [178000,190000)         110
## 9  [190000,203600)         109
## 10 [203600,220000)         105
## 11 [220000,235900)         108
## 12 [235900,259142)         109
## 13 [259142,285558)         113
## 14 [285558,320000)         103
## 15 [320000,377500)         109
## 16 [377500,775000]         106

Dakle, iako postoje jednostavniji i direktniji načini kreiranja tablica, ako su nam za daljnje izračune potrebni grupirani podaci, tada će nam više odgovarati da L1 i L2 budu u zasebnim stupcima te da razredi budu jednakih veličina. Usporedite ove pristupe i procijenite koji načini daju izlaz koji možemo izravno koristiti pri daljnjim izračunima.

> tablica_frekvencija$xi <- (tablica_frekvencija$L1 + tablica_frekvencija$L2)/2
> tablica_frekvencija$fixi <- tablica_frekvencija$xi * tablica_frekvencija$Frekvencija
> tablica_frekvencija

##        L1     L2 Frekvencija     xi     fixi
## 1    5000  53126           7  29063   203441
## 2   53126 101252          97  77189  7487333
## 3  101252 149378         371 125315 46491865
## 4  149378 197504         455 173441 78915655
## 5  197504 245630         304 221567 67356368
## 6  245630 293756         203 269693 54747679
## 7  293756 341882         128 317819 40680832
## 8  341882 390008          74 365945 27079930
## 9  390008 438134          40 414071 16562840
## 10 438134 486260          19 462197  8781743
## 11 486260 534386           9 510323  4592907
## 12 534386 582512           4 558449  2233796
## 13 582512 630638           6 606575  3639450
## 14 630638 678764           7 654701  4582907
## 15 678764 726890           1 702827   702827
## 16 726890 775016           3 750953  2252859

> prosjek <- sum(tablica_frekvencija$fixi)/sum(tablica_frekvencija$Frekvencija)
> prosjek

## [1] 211986.4

Dodatni prikaz aritmetičke sredine za negrupirane i grupirane podatke

> podaci <- c(3, 5, 4, 2, 3, 4, 3, 5, 4, 3, 4, 3, 5, 4, 4)
> mean(podaci)

## [1] 3.733333

> razredi <- c(2, 3, 4, 5)
> frekvencije <- c(1, 5, 6, 3)
> fixi <- razredi * frekvencije
> 
> primjer <- as.data.frame(cbind(L1 = razredi - 0.5, L2 = razredi + 0.5, frekvencije = frekvencije, xi = razredi, fixi = fixi))
> primjer

##    L1  L2 frekvencije xi fixi
## 1 1.5 2.5           1  2    2
## 2 2.5 3.5           5  3   15
## 3 3.5 4.5           6  4   24
## 4 4.5 5.5           3  5   15

> prosjek_primjer <- sum(primjer$fixi)/sum(primjer$frekvencije)
> prosjek_primjer

## [1] 3.733333

Harmonijska sredina

> library(psych)
> podaci_h <- c(132500, 181115, 109000, 155000, 86060)
> harmonic.mean(podaci_h)

## [1] 124025.6

> tablica_frekvencija$za_nazivnik_ha <- tablica_frekvencija$Frekvencija/tablica_frekvencija$xi
> tablica_frekvencija

##        L1     L2 Frekvencija     xi     fixi za_nazivnik_ha
## 1    5000  53126           7  29063   203441   2.408561e-04
## 2   53126 101252          97  77189  7487333   1.256656e-03
## 3  101252 149378         371 125315 46491865   2.960539e-03
## 4  149378 197504         455 173441 78915655   2.623370e-03
## 5  197504 245630         304 221567 67356368   1.372045e-03
## 6  245630 293756         203 269693 54747679   7.527077e-04
## 7  293756 341882         128 317819 40680832   4.027450e-04
## 8  341882 390008          74 365945 27079930   2.022162e-04
## 9  390008 438134          40 414071 16562840   9.660179e-05
## 10 438134 486260          19 462197  8781743   4.110801e-05
## 11 486260 534386           9 510323  4592907   1.763589e-05
## 12 534386 582512           4 558449  2233796   7.162695e-06
## 13 582512 630638           6 606575  3639450   9.891605e-06
## 14 630638 678764           7 654701  4582907   1.069190e-05
## 15 678764 726890           1 702827   702827   1.422825e-06
## 16 726890 775016           3 750953  2252859   3.994924e-06

> sum(tablica_frekvencija$Frekvencija)/sum(tablica_frekvencija$za_nazivnik_ha)

## [1] 172806.1

Geometrijska sredina

> podaci_g <- c(132500, 181115, 109000, 155000, 86060)
> 
> library(psych)
> geometric.mean(podaci_g)

## [1] 128394.4

> tablica_frekvencija$logxi <- log10(tablica_frekvencija$xi)
> tablica_frekvencija$filogxi <- tablica_frekvencija$logxi * tablica_frekvencija$Frekvencija
> tablica_frekvencija

##        L1     L2 Frekvencija     xi     fixi za_nazivnik_ha    logxi
## 1    5000  53126           7  29063   203441   2.408561e-04 4.463340
## 2   53126 101252          97  77189  7487333   1.256656e-03 4.887555
## 3  101252 149378         371 125315 46491865   2.960539e-03 5.098003
## 4  149378 197504         455 173441 78915655   2.623370e-03 5.239152
## 5  197504 245630         304 221567 67356368   1.372045e-03 5.345505
## 6  245630 293756         203 269693 54747679   7.527077e-04 5.430870
## 7  293756 341882         128 317819 40680832   4.027450e-04 5.502180
## 8  341882 390008          74 365945 27079930   2.022162e-04 5.563416
## 9  390008 438134          40 414071 16562840   9.660179e-05 5.617075
## 10 438134 486260          19 462197  8781743   4.110801e-05 5.664827
## 11 486260 534386           9 510323  4592907   1.763589e-05 5.707845
## 12 534386 582512           4 558449  2233796   7.162695e-06 5.746984
## 13 582512 630638           6 606575  3639450   9.891605e-06 5.782885
## 14 630638 678764           7 654701  4582907   1.069190e-05 5.816043
## 15 678764 726890           1 702827   702827   1.422825e-06 5.846848
## 16 726890 775016           3 750953  2252859   3.994924e-06 5.875613
##        filogxi
## 1    31.243383
## 2   474.092875
## 3  1891.359135
## 4  2383.814055
## 5  1625.033544
## 6  1102.466544
## 7   704.279022
## 8   411.692771
## 9   224.682993
## 10  107.631715
## 11   51.370606
## 12   22.987934
## 13   34.697307
## 14   40.712301
## 15    5.846848
## 16   17.626838

> 10 ^((sum(tablica_frekvencija$filogxi))/sum(tablica_frekvencija$Frekvencija))

## [1] 191998.3

Provedba postupka koristeći MS Excel

Učitajte skup podataka.

Iako je moguće za svaku varijablu zasebno izračunati pokazatelje koristeći ugrađene funkcije (za važeće podatke koristili bi =COUNT(), za najmanju vrijednost u nizu =MIN(), za najveću vrijednost u nizu =MAX(), a za prosjek =AVERAGE()), brže ćemo to učiniti koristeći ‘Data Analysis’.

Kliknite na ‘Data’, a potom na ‘Data Analysis’.

U novootvorenom izborniku odaberite ‘Descriptive Statistics’ i kliknite OK.

U sljedećem izborniku pod ‘Input Range’, odaberite raspon cijena (tj. sve ćelije u stupcu Price; najjednostavnije je kliknuti na ćeliju u kojoj piše ‘Price’, a potom istovremeno stisnuti CTRL, SHIFT i &darr. Označite ‘Labels in First Row’, jer je u prvom retku zapisan naziv varijable (u suprotnom bi javljalo grešku kako ne prihvaća nenumeričke podatke). Odaberite ‘Summary statistics’.

Dobit ćete sljedeći prikaz. Pomalo je nepregledan, jer imamo puno varijabli, a ‘Descriptive Statistics’ računa i brojne pokazatelje koji nam ovdje ne trebaju. Općenito, iako je lako dobiti statističke pokazatelje izračunate na ovaj način, tablicu će uvijek biti potrebno dodatno urediti, prije nego se može uvrstiti u kakvo izvješće.

Možemo na drugi list kopirati samo one retke koji su nam potrebni.

U sljedećem koraku, kopiramo kreiranu tablicu. Kliknemo na proizvoljno odabranu ćeliju ispod desnim klikom. U ponudi opcija lijepljena, odaberite transponirenje.

Odaberite prvi stupac u novoj tablici, kopirajte i zalijepite u redak ispod. Izbrišite retke u kojima se ponavljaju nazivi stupaca. Tablica bi trebala izgledati ovako:

Sljedeći korak je kreiranje histograma. Odaberite varijablu ‘Price’ na početnom listu, kliknite na ‘Insert’, a potom među statističkim grafikonima odaberite histogram.

Grupiranju podataka se također može pristupiti putem histograma. Tematika odabira veličina i broja razreda obrađena je u prethodnom poglavlju (Provedba postupka koristeći R), pa se ovdje neće ponavljati.

No, prije repliciranja, pročitajte postupak grupiranja do kraja. Prvo ćemo isprobati grupiranje koristeći opciju ‘Histogram’ iz ‘Data Analysis’.

U ‘Input Range’ uvrštavamo vrijednosti varijable Price te označavamo ‘Labels’ (jer je naziv varijable u prvom retku, a obuhvatili smo taj redak). Nije potrebno kliknuti ništa osim toga, jer nam nije potreban grafički output, ni kumulativni niz.

Ovdje dobivamo stupac s gornjim granicama razreda i brojem opažanja u pojedinom razredu. No, možemo uočiti da je ovo veliki broj razreda, što vodi do nepreglednosti.

Kako bismo prilagodili ovaj postupak, kreirat ćemo vlastite granice razreda. Utvrđujemo najmanju i najveću vrijednost u nizu te zadajemo broj razreda. Potom izračunavamo veličinu razreda (razlika najveće i najmanje vrijednosti u nizu podijeljena brojem razreda).

Potom kreiramo granice na način da najmanju vrijednost prepišemo. Sljedeći broj dobivamo tako što ćemo upisanoj vrijednosti dodati veličinu razreda (h). Nakon toga, za sljedeću vrijednost uzimamo prethodnu i pridodajemo joj veličinu razreda i taj postupak ponavljamo dok ne dobijemo prvu vrijednost koja je veća od najveće vrijednosti u nizu.

Onda ponovo odabiremo ‘Histogram’ iz ‘Data Analysis’.

Unos će izgledati kao i ranije, osim što sad popunjavamo i ‘Bin Range’ granicama razreda koje smo upravo izračunali.

Dobivamo sljedeći output.

Kako bi to izgledalo urednije i bilo prikladno za nastavak analize, dijelove ćemo kopirati u zasebnu tablicu. Za L1 kopiramo granice razreda počevši s 5000, ali bez zadnje vrijednosti. Za L2 kopiramo granice bez prve vrijednosti (uključujući posljednju). Za fi kopiramo vrijednosti iz stupca ‘Frequency’.

Ovdje se prikazuje postupak za izračun aritmetičke, harmonijske i geometrijske sredine za grupirane podatke.

Za negrupirane podatke, vraćamo se na stranicu na koju smo kopirali sva opažanja varijable ‘Price’. Ovdje ćemo primijeniti ugrađene funkcije koje je primjereno koristiti za negrupirane podatke: =AVERAGE() za aritmetičku sredinu, =HARMEAN() za harmonijsku sredinu i =GEOMEAN() za geometrijsku sredinu.

Provjera odgovora

B; 2. C; 3. B; 4. C; 5. B; 6. A; 7. B; 8. B; 9. A; 10. B; 11. B; 12. B; 13. A; 14. C; 15. B; 16. A; 17. A; 18. B; 19. B; 20. B, D

Korišteni izvori i literatura

De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.

Harrell Jr, F. E., & Harrell Jr, M. F. E. (2019). Package ‘hmisc’. CRAN2018, 2019, 235-236. https://cran.uib.no/web/packages/Hmisc/Hmisc.pdf

Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.

Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.

JASP Team (2024). JASP (Version 0.19.3)[Computer software].

Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/

Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf

Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.

Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.

Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.

2. štivo: Aritmetička, harmonijska i geometrijska sredina kroz primjere

Katarina Kostelić

Slučaj: Nekretnine

Uvid u podatke

Aritmetička sredina

Kratko ponavljanje i povezivanje s prošlim štivom

Grupiranje podataka

Aritmetička sredina grupiranih podataka (vagana aritmetička sredina)

Harmonijska sredina negrupiranih i grupiranih podataka

Geometrijska sredina negrupiranih i grupiranih podataka

Pitanja za ponavljanje

Repliciranje analize koristeći različite alate

Provedba postupka koristeći JASP

Provedba postupka koristeći R

Provedba postupka koristeći MS Excel

Provjera odgovora

Korišteni izvori i literatura