U ovom tekstu, fokusirat ćemo se na sredine: aritmetičku, harmonijsku i geometrijsku te iste prikazati kroz primjere.
Web stranica Zillow procjenjuje cijene kuća za više od 100.000.000 domova diljem Sjedinjenih Država. (Pa, zapravo ih zovu Zestimates.) Prema njihovim vlastitim riječima: “Koristimo vlasničke automatizirane modele vrednovanja koji primjenjuju napredne algoritme za analizu naših podataka kako bismo identificirali odnose unutar određenog zemljopisnog područja, između ovih podataka vezanih uz kuću i stvarnih prodajnih cijena. Karakteristike kuće, kao što su kvadratura, lokacija ili broj kupaonica, dobivaju različite težine u skladu s njihovim utjecajem na prodajne cijene kuća u svakoj određenoj geografiji tijekom određenog vremenskog razdoblja, što rezultira skupom pravila vrednovanja ili modelima koji se primjenjuju za generiranje Zestimatea svake kuće. Konkretno, neki od podataka koje koristimo u ovom algoritmu uključuju:
(Prilagođeno iz Dick De Veaux, 7. listopada 2015.)
Ovo je prevedeni tekst opisa koji se u izvorniku može naći na linku) uz podatke koji su stavljeni na raspolaganje i kojima ćemo se baviti u nastavku.
Tablica 1. Prvih 20 opažanja podatkovnog okvira Real-Estate
Price | Lot.Size | Waterfront | Age | Land.Value | New.Construct | Central.Air | Fuel.Type | Heat.Type | Sewer.Type | Living.Area | Pct.College | Bedrooms | Fireplaces | Bathrooms | Rooms |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
132500 | 0.09 | 0 | 42 | 50000 | 0 | 0 | 3 | 4 | 2 | 906 | 35 | 2 | 1 | 1 | 5 |
181115 | 0.92 | 0 | 0 | 22300 | 0 | 0 | 2 | 3 | 2 | 1953 | 51 | 3 | 0 | 2.5 | 6 |
109000 | 0.19 | 0 | 133 | 7300 | 0 | 0 | 2 | 3 | 3 | 1944 | 51 | 4 | 1 | 1 | 8 |
155000 | 0.41 | 0 | 13 | 18700 | 0 | 0 | 2 | 2 | 2 | 1944 | 51 | 3 | 1 | 1.5 | 5 |
86060 | 0.11 | 0 | 0 | 15000 | 1 | 1 | 2 | 2 | 3 | 840 | 51 | 2 | 0 | 1 | 3 |
120000 | 0.68 | 0 | 31 | 14000 | 0 | 0 | 2 | 2 | 2 | 1152 | 22 | 4 | 1 | 1 | 8 |
153000 | 0.4 | 0 | 33 | 23300 | 0 | 0 | 4 | 3 | 2 | 2752 | 51 | 4 | 1 | 1.5 | 8 |
170000 | 1.21 | 0 | 23 | 14600 | 0 | 0 | 4 | 2 | 2 | 1662 | 35 | 4 | 1 | 1.5 | 9 |
90000 | 0.83 | 0 | 36 | 22200 | 0 | 0 | 3 | 4 | 2 | 1632 | 51 | 3 | 0 | 1.5 | 8 |
122900 | 1.94 | 0 | 4 | 21200 | 0 | 0 | 2 | 2 | 1 | 1416 | 44 | 3 | 0 | 1.5 | 6 |
325000 | 2.29 | 0 | 123 | 12600 | 0 | 0 | 4 | 2 | 2 | 2894 | 51 | 7 | 0 | 1 | 12 |
120000 | 0.92 | 0 | 1 | 22300 | 0 | 0 | 2 | 2 | 2 | 1624 | 51 | 3 | 0 | 2 | 6 |
85860 | 8.97 | 0 | 13 | 4800 | 0 | 0 | 3 | 4 | 2 | 704 | 41 | 2 | 0 | 1 | 4 |
97000 | 0.11 | 0 | 153 | 3100 | 0 | 0 | 2 | 3 | 3 | 1383 | 57 | 3 | 0 | 2 | 5 |
127000 | 0.14 | 0 | 9 | 300 | 0 | 0 | 4 | 2 | 2 | 1300 | 41 | 3 | 0 | 1.5 | 8 |
89900 | 0 | 0 | 88 | 2500 | 0 | 0 | 2 | 3 | 3 | 936 | 57 | 3 | 0 | 1 | 4 |
155000 | 0.13 | 0 | 9 | 300 | 0 | 0 | 4 | 2 | 2 | 1300 | 41 | 3 | 0 | 1.5 | 7 |
253750 | 2 | 0 | 0 | 49800 | 0 | 1 | 2 | 2 | 1 | 2816 | 71 | 4 | 1 | 2.5 | 12 |
60000 | 0.21 | 0 | 82 | 8500 | 0 | 0 | 4 | 3 | 2 | 924 | 35 | 2 | 0 | 1 | 6 |
87500 | 0.88 | 0 | 17 | 19400 | 0 | 0 | 4 | 2 | 2 | 1092 | 35 | 3 | 0 | 1 | 6 |
Promatra se uzorak od 1728 nekretnina u SADu prikupljenih tijekom 2015. godine putem web stranica, prema varijablama cijena, veličina parcele, blizina vode, starosti, vrijednosti zemljišta, novogradnje, posjedovanja klime, vrste goriva, načina grijanja, vrste kanalizacije, veličine stambenog prostora, postotku fakultetski obrazovanih pojedinaca u susjedstvu nekretnine, broju soba (prostorija), broju spavaćih soba, broju kupaonica i broju kamina.
Napomena: pri analizi ovih podataka, u tablicama i grafikonima koriste se nazivi varijabli dodijeljeni u izvornom skupu podataka, a u tumačenjima prevedene inačice.
Ova tablica sadrži nekoliko varijabli, od kojih svaka predstavlja različite aspekte podataka o nekretninama. Raščlanimo vrste varijabli i njihove razine mjerenja.
Počinjemo istraživanjem svih varijabli.
Tablica 2. Izračunati statistički pokazatelji
Valid | Mean | Minimum | |
---|---|---|---|
Cijena | 1728 | 211966.7054 | 5000.0000 |
Veličina parcele | 1728 | 0.5002 | 0.0000 |
Blizina vode | 1728 | / | 0.0000 |
Starost | 1728 | 27.9161 | 0.0000 |
Vrijednost zemljišta | 1728 | 34557.1875 | 200.0000 |
Novogradnja | 1728 | / | 0.0000 |
Klima | 1728 | / | 0.0000 |
Vrsta goriva | 1728 | / | 2.0000 |
Vrsta grijanja | 1728 | / | 2.0000 |
Tip kanalizacije | 1728 | / | 1.0000 |
Životna površina | 1728 | 1754.9757 | 616.0000 |
Post. fakult. obraz. | 1728 | 55.5677 | 20.0000 |
Spavaće sobe | 1728 | 3.1545 | 1.0000 |
Sobe | 1728 | 7.0417 | 2.0000 |
Kamini | 1728 | 0.6019 | 0.0000 |
Kupaonice | 1728 | 1.9002 | 0.0000 |
Ovo je tablica sažetih statističkih izračuna i prikazuje upravo rezultate statističkih izračuna. Obično će imati varijable zapisane u retcima i statističke mjere u stupcima, ali se može i obrnuti (statistički pokazatelji u redovima i varijable u stupcima; to se rijetko radi). Stupac Valid broji broj valjanih opažanja. Mean izvještava o aritmetičkoj sredini, dok stupci Minimum i Maksimum izvještavaju o najnižim i najvišim vrijednostima promatrane varijable.
Nakon ispitivanja vrste varijable i razine mjerenja, možete li objasniti zašto prosjek nije prijavljen za neke od njih?
Kako su izračunati ti pokazatelji?
Da bismo izračunali aritmetičku sredinu (prosjek) za svaku varijablu iz negrupiranih podataka, slijedimo jednostavan postupak koristeći formulu:
\[\bar{x} = \frac{\sum_{i=1}^n x_i}{n}\]
gdje:
\(\bar{x}\) predstavlja prosjek uzorka
\(x_i\) predstavlja svaku pojedinačnu vrijednost u skupu podataka za određenu varijablu.
\(n\) je broj valjanih opažanja (ukupan broj opažanja za tu varijablu).
Veliko sigma (\(Σ\)) je operator sume (zbrajanja). Označava da treba zbrojiti sve vrijednosti koje slijede prema pravilu ili slijedu. Na primjer, u formuli za aritmetičku sredinu \(Σ\) znači zbrojiti izraz koji slijedi, za sve vrijednosti prema njihovom redu pojavljivanja od 1 do \(n\).
Za kontinuirane varijable (kao što su cijena, veličina lota, starost itd.):
Na primjer, za cijenu je prosjek izračunat zbrajanjem svih 1728 cijena nekretnina, a zatim dijeljenjem zbroja s 1728. Zbroj svih 1728 cijena = 365075883 dolara.
\[\bar{x} = \frac{365 075 883} {1 728}= 211 966.71\]
Veličina lota:
Zbroj svih veličina lota = 864,34
\[\bar{x} = \frac{864.34}{1 728}= 0.5\]
Za diskontinuirane (diskretne) varijable (kao što su spavaće sobe, sobe i kamini) vrijedi:
\[\bar{x} = \frac{\sum_{i=1}^n x_i}{n} = \frac{1040}{1728}=0.6019\]
Dakle, oni se također izračunavaju pomoću iste formule kao i kontinuirane varijable. Budući da predstavljaju brojeve, jednostavno zbrajamo broj spavaćih soba, soba ili kamina u svim promatranjima i dijelimo brojem opažanja.
Sada se vratimo i protumačimo tablicu. S obzirom na naučeno, kako biste protumačili pokazatelje u sažetoj tablici?
Sada, grupirajmo varijablu cijena
Grupiranje je preduvjet za izradu histograma, ali se grupirani podaci često nalaze u službenim i javno dostupnim izvješćima u obliku tablica. Za početak, iščitavamo podatke iz tablice u kojima su zapisani grupirani podaci. Iščitavanje je prvi korak prema temeljitom razumijevanju što tablice sadrže (i kasnije, što i kako dalje možemo računati s takvim podacima).
Tablica 8. Cijene nekretnina (grupirani podaci prikazani u jednostavnoj statističkoj tablici)
Cijena | Frekvencija |
---|---|
5000 - 53126 | 7 |
53126 - 101252 | 97 |
101252 - 149378 | 371 |
149378 - 197504 | 455 |
197504 - 245630 | 304 |
245630 - 293756 | 203 |
293756 - 341882 | 128 |
341882 - 390008 | 74 |
390008 - 438134 | 40 |
438134 - 486260 | 19 |
486260 - 534386 | 9 |
534386 - 582512 | 4 |
582512 - 630638 | 6 |
630638 - 678764 | 7 |
678764 - 726890 | 1 |
726890 - 775016 | 3 |
Ukupno | 1728 |
Ova jednostavna statistička tablica predstavlja grupirane podatke za varijablu Cijena, koja je kategorizirana u raspone cijena (zovemo ih razredi), pri čemu je učestalost svakog razreda navedena u zasebnom retku. Rasponi cijena u prvom stupcu označavaju donju i gornju granicu svakog razreda, dok stupac učestalosti (frekvencija) pokazuje koliko nekretnina spada u svaki odgovarajući raspon cijena.
Da biste pročitali ovu tablicu, pogledajte određeni raspon cijena i njegovu povezanu učestalost. Na primjer, u trećem retku raspon cijena je 101252 - 149378, a učestalost je 371. To znači da 371 nekretnina ima cijene između 101252 i 149378 dolara. Slično tome, u sljedećem retku, cijene su od 149378 do 197504 dolara, a učestalost je 455, što znači da 455 nekretnina spada u ovaj cjenovni rang.
Da bismo stvorili takvu tablicu, prvo su podaci o cijenama podijeljeni u intervale ili razrede - tamo smo koristili Sturgesovo pravilo. Ti su intervali obično jednake širine, iako ne moraju biti. Postavljanje jednake širine intervala olakšava daljnje izračune i grafičke prikaze, pa se ta opcija preferira.
Nakon što su intervali postavljeni, podaci se sortiraju i broji se broj pojavljivanja (ili frekvencija) unutar svakog intervala. Ti se brojevi upisuju u stupac učestalosti (frekvencija), a ukupan broj opažanja zbraja se u posljednjem retku tablice (u zbirnom retku), gdje je ukupan broj opažanja: 1728 opažanja.
Čitajući tablicu, možete vidjeti da većina nekretnina (455) spada u raspon cijena od 149378 do 197504 dolara. Nasuprot tome, vrlo malo nekretnina (4) ima cijenu iznad 678764$. Metoda grupiranja podataka u intervale korisna je za razumijevanje kako su podaci raspoređeni u različitim rasponima, što olakšava prepoznavanje obrazaca kao što su gdje se nalazi većina opažanja i gdje je manje opažanja, osobito u skupovima s velikim brojem opažanja. Zapravo dobivamo uvide koje dobivamo iz histograma, ali bez iscrtavanja.
Sljedeća tablica proširuje prethodnu distribuciju frekvencije (histogram) uvođenjem dodatnih izračuna: sredine razreda(\(x_i\)) i umnoška frekvencije i sredine razreda(\(f_i x_i\)). Ovi koraci dio su procesa određivanja statističkih pokazatelja kao što je prosjek za grupirane podatke (a kasnije ćemo taj dio postupka ponavljati za još neke pokazatelje). Raščlanimo ovo korak po korak.
Tablica 9. Cijene nekretnina uz pomoćne stupce za izračun aritmetičke sredine
Cijena L1 | Cijena L2 | Frekvencija (fi) | xi | fixi |
---|---|---|---|---|
5000 | 53126 | 7 | 29063 | 203441 |
53126 | 101252 | 97 | 77189 | 7487333 |
101252 | 149378 | 371 | 125315 | 46491865 |
149378 | 197504 | 455 | 173441 | 78915655 |
197504 | 245630 | 304 | 221567 | 67356368 |
245630 | 293756 | 203 | 269693 | 54747679 |
293756 | 341882 | 128 | 317819 | 40680832 |
341882 | 390008 | 74 | 365945 | 27079930 |
390008 | 438134 | 40 | 414071 | 16562840 |
438134 | 486260 | 19 | 462197 | 8781743 |
486260 | 534386 | 9 | 510323 | 4592907 |
534386 | 582512 | 4 | 558449 | 2233796 |
582512 | 630638 | 6 | 606575 | 3639450 |
630638 | 678764 | 7 | 654701 | 4582907 |
678764 | 726890 | 1 | 702827 | 702827 |
726890 | 775016 | 3 | 750953 | 2252859 |
Ukupno | 1728 | / | 366312432 |
Cjenovni intervali (ili razredi) predstavljeni su u prva dva stupca, cijena L1 i cijena L2, gdje L1 označava donju granicu, a L2 gornju granicu intervala. L1 i L2 odnose se na vrijednosti varijable, odnosno donje i gornje granice razreda. Ti intervali definiraju raspon cijena unutar kojeg su podaci grupirani. Na primjer, prvi cjenovni interval je između 5000 i 53126, a drugi između 53126 i 101252, itd.
Stupac učestalosti ili frekvencija (\(f_i\)) označava koliko opažanja ili podataka spada u pojedini interval. Na primjer, u prvom cjenovnom intervalu (5000 do 53126) postoji 7 nekretnina. U drugom intervalu (53126 do 101252) postoji 97 nekretnina i tako dalje.
Stupac \(x_i\) predstavlja sredinu razreda svakog cjenovnog intervala. Sredina razreda izračunava se uzimanjem prosjeka donje i gornje granice svakog intervala:
\[x_i= \frac {L1 +L2}{2}\]
Npr: Za prvi interval (5 000 do 53 126), sredina razreda je:
\[x_1= \frac {5000 +53126}{2}=29063\]
Za drugi interval (53 126 do 101 252), sredina razreda je:
\[x_1= \frac {53 126 +101 252}{2}=77 189\]
I tako dalje, za svaki razred. Sredine razreda daju po jednu reprezentativnu vrijednost za svaki interval, koja se koristi u daljnjim izračunima.
Stupac \(f_ix_i\) predstavlja umnoške frekvencija (\(f_i\)) i sredina razreda (\(x_i\)) za svaki interval. Ova vrijednost pomaže u izračunavanju ukupne cijene (totala, odnosno brojnika aritmetičke sredine) za cijeli skup podataka.
\(f_ix_i = f_i \cdot x_i\)
Npr: Za prvi interval (i=1): \(f_1 x_1=7 \cdot 29 063=203 441\) Za drugi interval (i=2): \(f_2 x_2= 97 \cdot 77 189=7 487 333\)
Na dnu tablice navedene su sume frekvencija ili ukupan broj opažanja (1728) i zbroj ponderiranih sredina razreda ili total (366 312 432). Oni su osnova za izračunavanje prosjeka grupiranih podataka. Prosjek grupiranih podataka može se izračunati pomoću sljedeće formule:
\[\bar{x}= \frac{ \sum{f_ix_i}}{ \sum{f_i}}\]
U ovom slučaju:
\[\bar{x}= \frac{366312432}{1728}=211986,36\]
Dakle, prosječna cijena nekretnina u grupiranim podacima iznosi približno 211 986.4$.
Tablica je detaljna raščlamba cjenovnih intervala, koja pokazuje koliko nekretnina spada u svaki raspon, sredine razreda i ponderirane ukupne vrijednosti. Ovi izračuni omogućuju nam izračun statističkih pokazatelja, kao što je prosjek, za cijeli skup od 1728 podataka, bez da moramo detaljno promatrati svaki od njih. Tablica predstavlja tipičan pristup za analizu grupiranih podataka pri radu s velikim skupovima podataka i pomaže u razumijevanju ukupne distribucije i središnje tendencije cijena nekretnina.
Kad uspoređujemo prosječnu cijenu dobivenu iz negrupiranih i grupiranih podataka, često uočavamo malu razliku između dvije vrijednosti. Zašto?
Prosjek za negrupirane podatke izračunava se zbrajanjem svih pojedinačnih vrijednosti cijena, a zatim dijeljenjem s ukupnim brojem opažanja. To daje točnu vrijednost prosjeka jer koristi točne cijene svih nekretnina. Na primjer, ako nam negrupirani podaci daju prosječnu cijenu od približno 211 966.71 USD (kao što je ranije protumačeno), to se temelji na svakoj pojedinačnoj cijeni. Za grupirane podatke, prosjek se procjenjuje na temelju sredina razreda cjenovnih intervala. Budući da su točne vrijednosti unutar svakog intervala nepoznate, sredina razreda svakog intervala koristi se kao reprezentativna vrijednost za sve cijene unutar tog raspona. To dovodi do aproksimacije, a ne do točne vrijednosti.
Iz prethodne tablice, prosječna cijena za grupirane podatke izračunata je kao 211 986,36 USD. Može se uočiti da nastaje razlika od 19,65 USD-a.
Razlika između prosjeka za negrupirane i grupirane podatke nastaje jer grupiranje podataka dovodi do gubitka preciznosti:
Karakteristike grupiranih podataka (rezime):
Zašto je grupiranje podataka ipak korisno
Pojednostavnjenje i jasnoća
Učinkovito sažimanje podataka
Identifikacija obrazaca
Rukovanje velikim skupovima podataka
Isticanje ključnih uvida
Usporedba između raspona
Privatnost i povjerljivost
Standardizacija u službenom izvještavanju
Dakle, iako grupiranje podataka uvodi određeni gubitak detalja, pruža mnoge prednosti, posebno u izvještavanju o podacima velikih razmjera i službenoj statistici. Nudi jasnoću, jednostavnost i praktičan način rukovanja ogromnim skupovima podataka. Usredotočujući se na intervale, grupirani podaci pomažu u otkrivanju ključnih obrazaca i trendova koji su važniji u donošenju politika i odluka od točne vrijednosti svake opažanja. Grupiranje je bitan alat za učinkovito sažimanje podataka, uz istovremeno učinkovito komuniciranje uvida bez preopterećenja čitatelja sirovim podacima kojima se ne može upravljati. Budući da je grupiranje podataka vrlo uobičajeno u izvješćivanju, moramo naučiti raditi s negrupiranim i grupiranim podacima.
Dodatno, grupiranje podataka nužno je za kreiranje histograma. Pogledajmo jedan primjer kreiranja histograma. Nakon grupiranja razreda, na x-osi naznačili bismo granice razreda, odnosno koordinate \((x_i, 0)\). Potom bismo naznačili koordinate visine stupaca, odnosno \((L_{1i}, f_i)\) i \((L_{2i}, f_i)\).
U sljedećem koraku, kreiraju se povezani stupci.
Histogram se često definira i kao površina omeđena konturom povezanih stupaca, a ako bismo u potpunosti ispoštovali tu definiciju, onda to izgleda ovako:
Nadalje, ako kao koordinate uzmemo vrijednosti sredina razreda i frekvencija razreda, odnosno \((x_i, f_i)\), tada dobivamo osnovu za kreiranje poligona frekvencija. To izgleda ovako:
Dakle, kreiranje histograma je još jedan razlog grupiranja podataka. No, kad savladamo računanje s grupiranim podacima, tada će i grupirani podaci iz službenih izvješća, pa čak i kreirani histogrami moći poslužiti za daljnje izračune.
Dodatni prikaz aritmetičke sredine za negrupirane i grupirane podatke Negrupirani podaci odnose se na situaciju u kojoj imamo pristup svim pojedinačnim podatkovnim točkama bez ikakve kategorizacije. U ovom slučaju imat ćemo točne ocjene za 15 učenika:
3, 5, 4, 2, 3, 4, 3, 5, 4, 3, 4, 3, 5, 4, 4
Izračun aritmetičke sredine (negrupirani podaci):
Da bismo izračunali aritmetičku sredinu za negrupirane podatke, zbrajamo sve ocjene i dijelimo s brojem opažanja (učenika):
\[Prosjek = \frac{3 + 5 + 4 + 4 + 2 + 3 + 3 + 4 + 3 + 4 + 4 + 4 + 4}{15}\]
\[Prosjek = \frac{56}{15}≈3,73\]
Podaci su grupirani kad su pojedinačna opažanja grupirana u kategorije (ilirazrede) i broji se učestalost svake kategorije. U ovom slučaju grupiramo ocjene u kategorije, a zatim koristimo sredinu razreda za svaku skupinu za izračunavanje aritmetičke sredine.
Ocjene možemo grupirati na sljedeći način:
2: 1 učenik
3: 5 učenika
4: 6 učenika
5: 3 učenika
Tablica 10. Tablica frekvencija grupiranih podataka
Razredi | Frekvencija (fi) | L1 | L2 | xi | fixi |
---|---|---|---|---|---|
2 | 1 | 1.5 | 2.5 | 2 | 2 |
3 | 5 | 2.5 | 3.5 | 3 | 15 |
4 | 6 | 3.5 | 4.5 | 4 | 24 |
5 | 3 | 4.5 | 5.5 | 5 | 15 |
Ukupno | 15 | / | / | / | 56 |
L1 i L2 su donja i gornja granica razreda s preciznim granicama, xi su sredine razreda, a fixi umnošci sredina i frekvencija razreda.
Izračun aritmetičke sredine (grupirani podaci):
\[\bar{x}= \frac{ \sum{f_ix_i}}{ \sum{f_i}}\]
gdje:
\(f_i\) je frekvencija razreda \(i\), \(x_i\) je ocjena (sredina razreda).
Izračun korak po korak:
\[\bar{x}= \frac{ (1 \cdot 2)+(5⋅3)+(6\cdot 4)+(3 \cdot 5)}{ 15}= \frac{56}{15} \approx 3,73\]
Usporedba dviju metoda:
Kad izračunavamo prosjek koristeći negrupirane podatke, koristimo svaku pojedinačnu ocjenu, što dovodi do točnijeg prosjeka.
Kad izračunavamo prosjek pomoću grupiranih podataka, sažimamo ocjene u kategorije i izračunavamo prosjek na temelju sredina tih kategorija.
Budući da je ovdje u pitanju diskontinuirana varijabla, sredine razreda jednake su cjelobrojnim opažanjima, tako da ne očekujemo da ćemo dobiti bilo kakve razlike u prosjecima (osim ako ne stvorimo intervale različite širine ili spojimo razrede).
Razlika nastaje kad metoda grupiranja koristi aproksimaciju i to će se češće događati za kontinuirane varijable i veće raspone razreda. Grupiranjem ocjena gubimo preciznost koju postižemo s negrupiranim podacima. Sredina razreda za svaku skupinu predstavlja sve ocjene u tom rasponu, što može malo pomaknuti prosjek.
Izračunajmo harmonijsku sredinu.
Harmonijska sredina često se koristi kada se radi o stopama ili omjerima i izračunava se kao recipročna vrijednost aritmetičke sredine recipročnih vrijednosti skupa podataka. Formula za harmonijsku sredinu za skup podataka je:
\[H=\frac {n}{∑ \frac{1}{x_i}}\]
Gdje je:
\(n\) broj opažanja,
\(x_i\) predstavlja pojedinu vrijednost u skupu podataka.
\(Σ\) je operator sume (treba zbrojiti sve vrijednosti ili izraze koji slijede).
Da bismo izračunali harmonijsku sredinu za negrupirane i grupirane podatke o nekretninama, slijedit ćemo dva pristupa. Za negrupirane podatke izračunat ćemo harmonijsku sredinu koristeći svaku pojedinačnu vrijednost cijena nekretnina. Pretpostavimo da imate popis cijena nekretnina:
132500, 181115, 109000, 155000, 86060, 120000, 153000, 170000, 90000 … i tako dalje, sve opažanja.
Na primjer, ako uzmemo u obzir pet vrijednosti radi jednostavnosti prikaza, 132500, 181115, 109000, 155000, 86060 i uvrstimo u dani izraz, to je:
\[H=\frac {5}{ \frac{1}{132500}+\frac{1}{181115}+\frac{1}{109000}+\frac{1}{155500}+\frac{1}{86060}}=124025,63\]
To nam daje harmonijsku sredinu od 124025.63 za ovih 5 vrijednosti. Budući da je stvarni skup podataka velik, koristili bismo softver za izračun. U ovom slučaju, harmonijska sredina svih cijena je 169158.95$.
Za grupirane podatke harmonijska sredina izračunava se pomoću sredina razreda grupiranih intervala. Harmonijsku sredinu izračunavamo uzimajući u obzir sredinu razreda svakog intervala kao reprezentativnu vrijednost za raspon. Formula za harmonijsku sredinu u grupiranim podacima je:
\[H= \frac{∑f_i}{∑ \frac{f_i}{x_i}}\]
Gdje je:
\(∑f_i\) ukupna učestalost (zbroj svih frekvencija),
\(f_i\) je frekvencija i-tog razreda,
\(x_i\) je sredina i-tog razreda.
\(Σ\) je operator zbrajanja (trebamo zbrojiti sve vrijednosti ili izraze koji slijede - to znači da ovdje prvo izračunavamo razlomke za sve \(i\), a zatim ih zbrojimo).
Dakle, moramo:
Pronaći sredinu razreda \(x_i\) svakog cjenovnog intervala
Pomnožiti recipročnu vrijednost svake sredine razreda xi s pripadajućom frekvencijom \(f_i\), odnosno izračunati sve (\(f_i/x_i\))
Zbrojiti izračunate vrijednosti (\(f_i/x_i\) )
Sumu frekvencija (ukupni broj opažanja) podijeliti sumom izračunatom u prethodnom koraku.
S obzirom na naš primjer grupiranih podataka, Tablicu 10. proširujemo za dodatni pomoćni stupac.
Tablica 11. Cijene nekretnina uz pomoćne stupce za izračun aritmetičke i harmonijske sredine
Cijena L1 | Cijena L2 | Frekvencija (fi) | Xi | fi/Xi |
---|---|---|---|---|
5000 | 53126 | 7 | 29063 | 0.000241 |
53126 | 101252 | 97 | 77189 | 0.001257 |
101252 | 149378 | 371 | 125315 | 0.002961 |
149378 | 197504 | 455 | 173441 | 0.002623 |
197504 | 245630 | 304 | 221567 | 0.001372 |
245630 | 293756 | 203 | 269693 | 0.000753 |
293756 | 341882 | 128 | 317819 | 0.000403 |
341882 | 390008 | 74 | 365945 | 0.000202 |
390008 | 438134 | 40 | 414071 | 0.000097 |
438134 | 486260 | 19 | 462197 | 0.000041 |
486260 | 534386 | 9 | 510323 | 0.000018 |
534386 | 582512 | 4 | 558449 | 0.000007 |
582512 | 630638 | 6 | 606575 | 0.000010 |
630638 | 678764 | 7 | 654701 | 0.000011 |
678764 | 726890 | 1 | 702827 | 0.000001 |
726890 | 775016 | 3 | 750953 | 0.000004 |
Ukupno | 1728 | / | ≈0.010000 |
Da bismo izračunali harmonijsku sredinu za ove podatke:
\[ H = \frac{1728}{\frac{7}{29063} + \frac{97}{77189} + \frac{371}{125315} + \frac{455}{173441} + \frac{304}{221567} + \frac{203}{269693} + \frac{128}{317819} + \frac{74}{365945} + \frac{40}{414071} + \frac{19}{462197} + \frac{9}{510323} + \frac{4}{558449} + \frac{6}{606575} + \frac{7}{654701} + \frac{1}{702827} + \frac{3}{750953}} \]
\[ H = \frac{1728}{0.000241 + 0.001257 + 0.002961 + 0.002623 + 0.001372 + 0.000753 + 0.000403 + 0.000202 + 0.000097 + 0.000041 + 0.000018 + 0.000007 + 0.000010 + 0.000011 + 0.000001 + 0.000004} \]
\[ H = \frac{1728}{0.01} = 172806.12 \]
Nakon zbrajanja umnožaka recipročnih vrijednosti sredina razreda s pripadajućim frekvencijama, podijelimo 1728 s tim zbrojem (≈0,01) da bismo dobili ponderiranu harmonijsku sredinu (harmonijsku sredinu grupiranog niza). Tada dobivamo 172806$ (odnosno, 172806.12 USD ako ne zaokružujemo).
Harmonijska sredina obično se koristi kada se želi utvrditi centralna tendencija stopa ili omjera. U slučaju cijena nekretnina, ako postoje nekretnine s vrlo visokim cijenama ili netipičnim vrijednostima, one će manje utjecati na harmonijsku sredinu nego što utječu na vrijednost aritmetičke sredine.
Sada prođimo kroz postupak izračuna geometrijske sredine za negrupirane i grupirane podatke, počevši od negrupiranog skupa podataka.
Geometrijska sredina dobiva se tako da se izračuna umnožak svih vrijednosti, a zatim se na izračunatu vrijednost primijeni \(n\)-ti korijen, gdje je \(n\) broj vrijednosti u nizu (za uzorak; za populaciju se označava s \(N\), a za grupirane podatke \(∑f_i\)). Formula za geometrijsku sredinu (\(G\)) za negrupirane podatke je
\[ G = \sqrt[n]{\prod_{i=1}^n x_i} \]
Gdje su:
\(x_i\) - pojedinačne vrijednosti
\(n\) - broj opažanja
veliko štampano slovo pi (\(\prod\)) je operator množenja (produkta). Govori vam da pomnožite sve vrijednosti ili izraze koji ga slijede prema pravilu ili slijedu.
Primjera radi, izračunajmo geometrijsku sredinu za prvih 5 cijena nekretnina: 132500, 181115, 109000, 155000, 86060. Prvo pomnožimo cijene:
\[ 132500 \cdot 181115 \cdot 109000 \cdot 155000 \cdot 86060 = 3.101 \cdot 10^{20} \]
Sada, budući da imamo 5 opažanja, računamo 5. korijen dobivenog umnoška:
\[ G = \sqrt[5]{3.101 \cdot 10^{20}} \approx 128394.37 \]
Dakle, geometrijska sredina 5 negrupiranih opažanja je približno 128394.37 dolara. Međutim, geometrijska sredina varijable Cijena za sva opažanja je 192137.81 dolara.
Geometrijska sredina je mjera središnje tendencije na koju manje utječu vrlo velike ili vrlo male vrijednosti, posebno kada su podaci asimetrični. U ovom slučaju, geometrijska sredina signalizira tendenciju podataka o cijenama nekretnina ka središtu od oko 192137,81 USD, što odražava procjenu tipične cijene u ovom malom uzorku.
Za grupirane podatke geometrijska sredina izračunava se na temelju sredina razreda i njihovih odgovarajućih frekvencija. Formula je:
\[ G = \sqrt[\sum f_i]{\prod_{i=1}^n x_i^{f_i}} = \sqrt[n]{x_1^{f_1} \cdot x_2^{f_2} \cdot \dots \cdot x_n^{f_n}} \]
Gdje su:
\(x_i\) - sredine razreda cjenovnih intervala,
\(f_i\) - frekvencije svakog intervala,
\(n\) - ukupan broj opažanja (\(\sum f_i\)).
Veliko štampano slovo pi (\(\prod\)) je operator množenja (produkta) i govori vam da pomnožite sve vrijednosti ili izraze koji ga slijede prema pravilu ili slijedu.
Upotrijebimo ranije navedene grupirane podatke. Evo pojednostavljene verzije:
\[x_1^{f_1} \cdot x_2^{f_2} \cdot \dots \cdot x_n^{f_n}\]
Za prvih nekoliko razreda to je
\[ 51,563^7 \cdot 77,189^{97} \cdot 125,315^{371} \cdot 173,441^{455} \cdot \dots \]
Nakon što dobijemo umnožak, izračunamo n-ti korijen, gdje je n ukupan broj opažanja (u ovom slučaju 1728):
\[ G = \sqrt[1728]{51,563^7 \cdot 77,189^{97} \cdot 125,315^{371} \cdot 173,441^{455} \cdot \dots} \]
Budući da umnošci mogu postati vrlo veliki, obično bismo koristili kalkulator ili statistički softver da biste to izračunali. Međutim, moguće je dobiti toliko velike brojeve da tipični kalkulatori i softver ne mogu izvršiti takav izračun.
Na primjer, ako u većinu kalkulatora upišemo \(173441^{455}\), dobit ćemo Inf ili NaN,što znači da su vrijednosti prevelike za izračunavanje ili prikaz. Ovi veliki brojevi mogu rezultirati prelijevanjem, što dovodi do vraćanja beskonačne vrijednosti (Inf), a to znači da broj premašuje kapacitet uređaja ili softvera da ga obradi ili ispiše. Većina ručnih ili osnovnih znanstvenih kalkulatora dizajnirana je s ograničenom memorijom, a njihova sposobnost izračunavanja velikih vrijednosti ograničena je njihovom unutarnjom arhitekturom. Oni mogu predstavljati samo brojeve do određene veličine prije nego što vrate Inf ili proizvedu pogrešku. Na primjer, većina kalkulatora može obraditi izračune u rasponu od \(10^{300}\) do \(10^{308}\) prije nego što dosegnu gornju granicu. Prelijevanje se događa kada vrijednost premaši maksimalni broj koji sustav može podnijeti. To je uobičajeno i u kalkulatorima i u softveru koji koriste aritmetiku s pomičnim zarezom. Kada dođe do prelijevanja, rezultat se obično predstavlja kao Inf ili NaN (Not a Number - nije broj). Čak i softverski sustavi kao što su Excel, R ili Python koriste aritmetiku s pomičnim zarezom za predstavljanje velikih brojeva. Brojevi s pomičnim zarezom pohranjuju se pomoću ograničenog broja bitova, pa se točnost smanjuje kako brojevi postaju veći. Na primjer, standard IEEE 754 za brojeve s pomičnim zarezom (koji se koristi u većini sustava) dopušta prikaz samo do približno \(1.8 \cdot 10^{308}\). Izračunavanje \(173,441^{455}\) rezultiralo bi astronomskim brojem (oko \(10^{2611}\)), koji daleko premašuje granicu većine kalkulatora.
Jedan od najučinkovitijih načina za rješavanje velikih brojeva u ovim vrstama izračuna je korištenje logaritama, što nas dovodi do drugog pristupa izračunu geometrijske sredine. Geometrijska sredina uključuje množenje brojeva, što se može učinkovito riješiti zbrajanjem njihovih logaritama, a zatim potenciranjem rezultata. Na primjer, izračunavanje:
\[log(173441^{455})=455 \cdot log(173441)\]
preoblikuje problem u izvediv izračun.
Formula:
\[ \log(G) = \frac{1}{n} \sum_{i=1}^{n} \log(x_i) \]
Nakon izračuna zbroja logaritama, rezultat možete eksponencijalno povećati kako biste dobili geometrijsku sredinu. Ova metoda izbjegava velike brojeve jer logaritami “komprimiraju” raspon vrijednosti.
Formula za izračun geometrijske sredine za grupirane podatke pomoću logaritama:
\[ G = 10^{\left(\frac{\sum (f_i \cdot \log(x_i))}{n}\right)} \]
Gdje je:
\(f_i\) – učestalost svakog razreda
\(x_i\) – sredina svakog razreda
\(n\) – ukupan broj opažanja, tj. suma frekvencija
I ovdje možemo izračunavati geometrijsku sredinu u koracima (i napisati u tablicu):
Početak je isti, trebamo \(x_i\).
Izračunamo log svake sredine razreda (\(log(x_i)\)) - pretvorite svaku vrijednost sredine razreda u njezin logaritam. Koristimo bazu 10, osobito zato jer smo i u formuli prema kojoj smo odabrali računati koristimo bazu 10; no, mogli bismo koristiti i bazu prirodnog logaritma, a tad bi osnovna formula bila \(e^\frac{∑(f_i \cdot \log(x_i))}{n}\).
Pomnožimo logaritm svake sredine razreda s odgovarajućom frekvencijom (\(f_i\)) - to daje ponderirane logaritme.
Zbrojimo sve ponderirane logaritme - zbrojimo umnoške frekvencije i logaritama svake sredine razreda.
Podijelimo zbroj ponderiranih logaritama sa sumom frekvancija.
Uvrstimo u formulu, gdje eksponencijalno povećanje rezultata daje geometrijsku sredinu
U prvom razredu imamo:
\(x_i = \frac{5000 + 53126}{2} = 29063\)
\(\log(x_i) = \log(29063) \approx 4.463\)
\(f_i \cdot \log(x_i) = 7 \cdot 4.463 = 31.234\)
Na sličan način popunjavamo tablicu i za ostale vrijednosti.
Tablica 12. Cijene nekretnina uz pomoćne stupce za izračun aritmetičke, harmonijske i geometrijske sredine
Cijena L1 | Cijena L2 | Frekvencija (fi) | Xi | log(xi) | fi·log(xi) |
---|---|---|---|---|---|
5000 | 53126 | 7 | 29063 | 4.463 | 31.243 |
53126 | 101252 | 97 | 77189 | 4.888 | 474.093 |
101252 | 149378 | 371 | 125315 | 5.098 | 1891.359 |
149378 | 197504 | 455 | 173441 | 5.239 | 2383.814 |
197504 | 245630 | 304 | 221567 | 5.346 | 1625.034 |
245630 | 293756 | 203 | 269693 | 5.431 | 1102.467 |
293756 | 341882 | 128 | 317819 | 5.502 | 704.279 |
341882 | 390008 | 74 | 365945 | 5.563 | 411.693 |
390008 | 438134 | 40 | 414071 | 5.617 | 224.683 |
438134 | 486260 | 19 | 462197 | 5.665 | 107.632 |
486260 | 534386 | 9 | 510323 | 5.708 | 51.371 |
534386 | 582512 | 4 | 558449 | 5.747 | 22.988 |
582512 | 630638 | 6 | 606575 | 5.783 | 34.697 |
630638 | 678764 | 7 | 654701 | 5.816 | 40.712 |
678764 | 726890 | 1 | 702827 | 5.847 | 5.847 |
726890 | 775016 | 3 | 750953 | 5.876 | 17.627 |
Ukupno | 1728 | / | 9129.538 |
U zbirnom retku upisujemo sumu \(f_i \cdot \logx_i\). Zatim uzimamo antilog (baza 10) rezultata da bismo pronašli geometrijsku sredinu:
\(G = 10^{\left(\frac{\sum (f_i \cdot \log(x_i))}{n}\right)} = 10^{\left(\frac{9129.538}{1728}\right)} \approx 191998.33\)
Dakle, geometrijska sredina (G) za grupirane podatke iznosi otprilike 191998.33$.
Geometrijska sredina grupiranih podataka je mjera središnje tendencije koja uzima u obzir raspodjelu cijena unutar promatranih intervala. Kao što je bio slučaj s aritmetičkom i harmonijskom sredinom, geometrijska sredina grupiranih podataka često će se malo razlikovati od one računate za negrupirane podatke zbog aproksimacije uključene u korištenje sredina razreda umjesto točnih vrijednosti. Međutim, geometrijska sredina ostaje korisna mjera, posebno kada se radi o podacima koji pokrivaju širok raspon ili uključuju izdvojenice.
Geometrijska sredina prikladnija je od aritmetičke sredine kada su podaci multiplikativne prirode ili kada se radi o stopama, proporcijama ili postotcima. Također, daje reprezentativniju mjeru središnje tendencije nego prosjek u skupovima podataka koje sadrže izdvojenice (ili asimetričnim skupovima podataka), što ga čini korisnim u podacima o nekretninama gdje nekoliko nekretnina može imati vrlo visoke cijene koje mogu iskriviti rezultate.
Rezimirajmo (ovdje ćemo koristiti prosjeke za negrupirane podatke).
Aritmetička sredina (\(\bar{x}=211966.71\)), ili prosjek, zbroj je svih cijena nekretnina podijeljen s brojem nekretnina. To je najčešće korištena mjera središnje tendencije. U ovom slučaju, aritmetička sredina nam govori da je prosječna cijena promatranih nekretnina 211966,71 USD. Međutim, budući da je aritmetička sredina osjetljiva na ekstremne vrijednosti (izdvojenice, netipične vrijednosti), ako u skupu podataka postoje vrlo visoke ili niske cijene nekretnina, taj prosjek možda nije reprezentativan za većinu nekretnina. Harmonijska sredina (\(H = 169158.95\)) često se koristi kada se radi o stopama ili omjerima. Daje veću težinu manjim vrijednostima i obično je niža od aritmetičke sredine. U tom kontekstu, harmonijska sredina od 169158,95 USD sugerira da postoji značajan broj nekretnina s nižim cijenama u skupu podataka. Ovo je korisno za razumijevanje prosjeka u slučajevima kada su manji brojevi relevantniji ili kada podaci uključuju stope (npr. cijena po jedinici površine). Geometrijska sredina (\(G = 192137.81\)) korisna je za podatke koji su multiplikativne prirode ili kada vrijednosti obuhvaćaju nekoliko redova veličine, jer smanjuje utjecaj vrlo visokih ili vrlo niskih vrijednosti. Daje nam uvid u opću cijenu bez pretjeranog utjecaja iznimno visokih vrijednosti. Usporedba:
Izračunate vrijednosti, prema očekivanjima, slijede tipičan redoslijed srednjih vrijednosti: \(H < G < \bar{x}\) (za uzorak) ili \(H < G < \mu\) (za populaciju). Ova tri prosjeka pružaju potpuniju sliku o podacima.
Ovaj prikaz će biti relativno kratak, jer JASP ne podržava izračune temeljem grupiranih podataka.
Učitajte podatke. Ako se trebate dodatno podsjetiti kako, upute ćete naći u 1. štivu.
Po uspješnom učitavanju podataka, dobivate ovakav prikaz. Kliknite na Descriptives.
Odaberite sve varijable osim V1 (rednog broja opažanja) i uključite ih u panel ‘Variables’ s desne strane u lijevom prozoru.
To bi trebalo izgledati ovako. S obzirom da ćemo ovdje imati veći broj varijabli, a manji broj statističkih pokazatelja, kliknut ćemo na ‘Transpose descriptives table’. To će transponirati tablicu na način da će varijable biti prikazane u retcima, a statistički pokazatelji u stupcima.
Kliknite na izbornik ‘Statistics’. Odaberite ‘Valid’ (broj valjanih opažanja), ‘Mean’ (aritmetička sredina), ‘Minimum’ i ’Maximum.
S takvim postavkama, trebali biste dobiti sljedeći prikaz:
Za kreiranje histograma, kliknite na izbornik ‘Basic plots’ i odaberite ‘Distribution plots’. Ova radnja će kreirati histograme za sve uključene varijable.
Učitajte podatke.
> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 20)
## Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1 132500 0.09 0 42 50000 0 0
## 2 181115 0.92 0 0 22300 0 0
## 3 109000 0.19 0 133 7300 0 0
## 4 155000 0.41 0 13 18700 0 0
## 5 86060 0.11 0 0 15000 1 1
## 6 120000 0.68 0 31 14000 0 0
## 7 153000 0.40 0 33 23300 0 0
## 8 170000 1.21 0 23 14600 0 0
## 9 90000 0.83 0 36 22200 0 0
## 10 122900 1.94 0 4 21200 0 0
## 11 325000 2.29 0 123 12600 0 0
## 12 120000 0.92 0 1 22300 0 0
## 13 85860 8.97 0 13 4800 0 0
## 14 97000 0.11 0 153 3100 0 0
## 15 127000 0.14 0 9 300 0 0
## 16 89900 0.00 0 88 2500 0 0
## 17 155000 0.13 0 9 300 0 0
## 18 253750 2.00 0 0 49800 0 1
## 19 60000 0.21 0 82 8500 0 0
## 20 87500 0.88 0 17 19400 0 0
## Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1 3 4 2 906 35 2 1
## 2 2 3 2 1953 51 3 0
## 3 2 3 3 1944 51 4 1
## 4 2 2 2 1944 51 3 1
## 5 2 2 3 840 51 2 0
## 6 2 2 2 1152 22 4 1
## 7 4 3 2 2752 51 4 1
## 8 4 2 2 1662 35 4 1
## 9 3 4 2 1632 51 3 0
## 10 2 2 1 1416 44 3 0
## 11 4 2 2 2894 51 7 0
## 12 2 2 2 1624 51 3 0
## 13 3 4 2 704 41 2 0
## 14 2 3 3 1383 57 3 0
## 15 4 2 2 1300 41 3 0
## 16 2 3 3 936 57 3 0
## 17 4 2 2 1300 41 3 0
## 18 2 2 1 2816 71 4 1
## 19 4 3 2 924 35 2 0
## 20 4 2 2 1092 35 3 0
## Bathrooms Rooms
## 1 1.0 5
## 2 2.5 6
## 3 1.0 8
## 4 1.5 5
## 5 1.0 3
## 6 1.0 8
## 7 1.5 8
## 8 1.5 9
## 9 1.5 8
## 10 1.5 6
## 11 1.0 12
## 12 2.0 6
## 13 1.0 4
## 14 2.0 5
## 15 1.5 8
## 16 1.0 4
## 17 1.5 7
## 18 2.5 12
## 19 1.0 6
## 20 1.0 6
Naredba summary()
daje Tuckeyevih pet brojeva i prosjek.
Iz izlaza izdvajamo minimum, maksimum i prosjek.
> tablica_1 <- summary(nekretnine)
> tablica_1[c(1, 4, 6),]
## Price Lot.Size Waterfront Age
## Min. : 5000 Min. : 0.0000 Min. :0.000000 Min. : 0.00
## Mean :211967 Mean : 0.5002 Mean :0.008681 Mean : 27.92
## Max. :775000 Max. :12.2000 Max. :1.000000 Max. :225.00
## Land.Value New.Construct Central.Air Fuel.Type
## Min. : 200 Min. :0.00000 Min. :0.0000 Min. :2.000
## Mean : 34557 Mean :0.04688 Mean :0.3675 Mean :2.432
## Max. :412600 Max. :1.00000 Max. :1.0000 Max. :4.000
## Heat.Type Sewer.Type Living.Area Pct.College Bedrooms
## Min. :2.000 Min. :1.000 Min. : 616 Min. :20.00 Min. :1.000
## Mean :2.528 Mean :2.695 Mean :1755 Mean :55.57 Mean :3.155
## Max. :4.000 Max. :3.000 Max. :5228 Max. :82.00 Max. :7.000
## Fireplaces Bathrooms Rooms
## Min. :0.0000 Min. :0.0 Min. : 2.000
## Mean :0.6019 Mean :1.9 Mean : 7.042
## Max. :4.0000 Max. :4.5 Max. :12.000
Kreiranje tablica za ponavljanje.
> table(nekretnine$Central.Air, nekretnine$Fireplaces) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu
##
## 0 1 2 3 4
## 0 585 488 20 0 0
## 1 155 454 22 2 2
> table(nekretnine$Central.Air, nekretnine$Bedrooms) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu
##
## 1 2 3 4 5 6 7
## 0 6 234 551 256 36 7 3
## 1 1 114 271 231 17 1 0
> table(nekretnine$Central.Air, nekretnine$New.Construct) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu
##
## 0 1
## 0 1055 38
## 1 592 43
> table(nekretnine$Bedrooms, nekretnine$New.Construct) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu
##
## 0 1
## 1 7 0
## 2 345 3
## 3 801 21
## 4 431 56
## 5 52 1
## 6 8 0
## 7 3 0
> table(nekretnine$Bedrooms, nekretnine$Central.Air) #ostatak postupka provedite po uzoru na postupke prikazane u 1. štivu
##
## 0 1
## 1 6 1
## 2 234 114
## 3 551 271
## 4 256 231
## 5 36 17
## 6 7 1
## 7 3 0
Pri grupiranju podataka, možemo koristiti različite pristupe. Na primjer, ako kreiramo histogram, možemo izdvojiti granične vrijednosti razreda i frekvencije.
> grupiranje_hist <- hist(nekretnine$Price)
> grupiranje_hist$breaks
## [1] 0 50000 100000 150000 200000 250000 300000 350000 400000 450000
## [11] 500000 550000 600000 650000 700000 750000 800000
> grupiranje_hist$counts
## [1] 7 93 400 459 308 198 117 67 34 18 8 5 7 3 1 3
Možemo vidjeti da je donja granica prvog razreda 0, iako je najmanja vrijednost u nizu 5000 dolara. To dodatno ukazuje na donekle proizvoljne odabire granica razreda. Nerijetko se pri izračunu i grafičkim prikazima granice zaokružuju na najbliže stotice ili tisućice (ovisno o rasponu varijable), zbog preglednosti i lakšeg iščitavanja.
Alternativno, postoje pravila za određivanje broja i veličina razreda.
Sturgesovo pravilo je najjednostavnije, jer uzima u obzir samo broj opažanja.
\[k \approx 1+ 3.3 \cdot \log_{10}N\]
na ovaj se način dobiva broj razreda, a potom se raspon vrijednosti varijable dijeli tim brojem za utvrđivanje širine razreda.
\[h = \frac{x_{max}-x_{min}}{k}\]
Scottovo pravilo temelji se na standardnoj devijaciji podataka i broju opažanja. Cilj je minimizirati varijancu procijene distribucije.
\[h = \frac{3.5 \cdot \sigma}{n^{1/3}}\]
\[k = \frac{x_{max}-x_{min}}{h}\]
Freedman-Diaconisovo pravilo koristi interkvartilni raspon (IQ) kako bi se odredila širina razreda, čime se smanjuje utjecaj ekstremnih vrijednosti na izbor širine.
\[h = 2 \cdot \frac{IQR}{n^{1/3}}\] \[k = \frac{x_{max}-x_{min}}{h}\]
> min_cijena <- min(nekretnine$Price)
> min_cijena
## [1] 5000
> max_cijena <- max(nekretnine$Price)
> max_cijena
## [1] 775000
> # broj razreda prema Sturgesovom pravilu
>
> sturges <- 1+3.322*log10(length(nekretnine$Price))
> sturges
## [1] 11.75512
> broj_razreda <- round(sturges, 0) # ovo je preporuka, broj razreda može se definirati i prema drugim pravilima
> print("Broj razreda - Sturges")
## [1] "Broj razreda - Sturges"
> broj_razreda
## [1] 12
> vel_razreda <- (max_cijena-min_cijena)/broj_razreda
> print("veličina razreda - Sturges")
## [1] "veličina razreda - Sturges"
> round(vel_razreda, 0)
## [1] 64167
> # broj razreda prema Scottovom pravilu
>
> h <- (3.5*sd(nekretnine$Price))/(1728^(1/3))
> print("veličina razreda - Scott")
## [1] "veličina razreda - Scott"
> round(h, 0)
## [1] 28712
> print("Broj razreda - Scott")
## [1] "Broj razreda - Scott"
> round((max_cijena-min_cijena)/h, 0)
## [1] 27
> # broj razreda prema Freedman-Diaconisovom pravilu
>
> h <- 2*(IQR(nekretnine$Price))/(1728^(1/3))
> print("veličina razreda - Freedman-Diaconis")
## [1] "veličina razreda - Freedman-Diaconis"
> round(h, 0)
## [1] 19000
> print("Broj razreda - Freedman-Diaconis")
## [1] "Broj razreda - Freedman-Diaconis"
> round((max_cijena-min_cijena)/h, 0)
## [1] 41
Kad su podaci približno normalno distribuirani i imate relativno mali broj opažanja, Sturgesovo pravilo pruža adekvatan izbor širine razreda. Scottovo pravilo je optimalno za veće skupove podataka s normalnom distribucijom, jer uzima u obzir standardnu devijaciju za preciznije određivanje širine razreda. Freedman-Diaconisovo pravilo je prikladnije za podatke koji su asimetrični ili sadrže ekstremne vrijednosti, jer koristi interkvartilni raspon koji smanjuje utjecaj outliera na odabir širine razreda.
Sturgesovo, Scottovo i Freedman-Diaconisovo pravilo služe kao orijentiri pri odabiru širine i broja razreda za histogram, ali nisu apsolutna pravila koja se moraju strogo slijediti. Ovisno o specifičnostima i karakteristikama skupa podataka, nakon izračuna i prvih uvida u podatke, možete prilagoditi ove smjernice kako bi najbolje prikazali distribuciju podataka.
Također, sjetimo se da se uobičajeno kreiraju tablice s 5 do 15 razreda, a u iznimnim slučajevima tolerira se minimalno 3 do maksimalno 25 razreda. Dakle, pristupi se malo razlikuju ovisno o tome je li cilj kreirati tablice ili nacrtati što precizniji histogram. Ovdje će se kompromisno odabrati 16 razreda.
> min_cijena <- min(nekretnine$Price)
> min_cijena
## [1] 5000
> max_cijena <- max(nekretnine$Price)
> max_cijena
## [1] 775000
> broj_razreda <- 16
> broj_razreda
## [1] 16
> vel_razreda <- round((max_cijena-min_cijena)/broj_razreda, 0) +1
> vel_razreda
## [1] 48126
> breaks_hist <- seq(from = min_cijena, to = max_cijena + vel_razreda/2, by = vel_razreda)
> breaks_hist
## [1] 5000 53126 101252 149378 197504 245630 293756 341882 390008 438134
## [11] 486260 534386 582512 630638 678764 726890 775016
> grupiranje_hist <- hist(nekretnine$Price, breaks = breaks_hist)
> grupiranje_hist$breaks
## [1] 5000 53126 101252 149378 197504 245630 293756 341882 390008 438134
## [11] 486260 534386 582512 630638 678764 726890 775016
> grupiranje_hist$counts
## [1] 7 97 371 455 304 203 128 74 40 19 9 4 6 7 1 3
> L1 <- grupiranje_hist$breaks[-16]
> L2 <- grupiranje_hist$breaks[-1]
> fi <- grupiranje_hist$counts
>
> grupirani_podaci_cijena <- cbind(L1 = L1, L2 = L2, fi = fi)
> grupirani_podaci_cijena <- as.data.frame(grupirani_podaci_cijena)
> grupirani_podaci_cijena
## L1 L2 fi
## 1 5000 53126 7
## 2 53126 101252 97
## 3 101252 149378 371
## 4 149378 197504 455
## 5 197504 245630 304
## 6 245630 293756 203
## 7 293756 341882 128
## 8 341882 390008 74
## 9 390008 438134 40
## 10 438134 486260 19
## 11 486260 534386 9
## 12 534386 582512 4
## 13 582512 630638 6
## 14 630638 678764 7
## 15 678764 726890 1
## 16 775016 775016 3
Kod započinje definiranjem osnovnih parametara za grupiranje podataka
o cijenama nekretnina. Funkcija min()
se koristi za
pronalaženje minimalne vrijednosti cijena u skupu podataka
nekretnine$Price, dok max()
određuje maksimalnu cijenu.
Nakon toga, postavlja se broj razreda na 16, a širina svakog razreda
izračunava se dijeljenjem raspona cijena s brojem razreda, uz
zaokruživanje rezultata na najbliži cijeli broj pomoću funkcije
round()
te dodavanje 1 kako bi se osigurala odgovarajuća
pokrivenost svih vrijednosti. Sljedeći korak uključuje stvaranje niza
granica razreda (breaks_hist
) pomoću funkcije
seq()
, koja generira sekvencu od minimalne do maksimalne
cijene, povećanu za polovinu širine razreda (kako bi se obuhvatila
gornja granica posljednjeg razreda bez da se kreira prazan razred
iznad), s korakom jednakim širini razreda. Funkcija hist()
zatim generira histogram za varijablu Price koristeći prethodno
definirane granice razreda, te se iz njega izdvajaju te granice i
frekvencije (counts
). Donje granice razreda (L1) dobijaju
se isključivanjem zadnjeg elementa iz niza granica razreda koju kreira
hist()
, dok gornje granice (L2) izostavljaju prvi element,
čime se definiraju intervali svakog razreda. Frekvencije
(fi
) preuzimaju se direktno iz podataka kreiranim funkcijom
hist()
. Konačno, pomoću funkcije cbind()
kombiniraju se donje granice, gornje granice i frekvencije u matricu,
koja se potom pretvara u data frame koristeći
as.data.frame()
, omogućujući preglednu tablicu grupiranih
podataka o cijenama nekretnina.
Postoje i drugi pristup koje možete koristiti, evo još jednog za
primjer. Ovdje se koristi for
petlja.
> L1_vektor <- numeric(broj_razreda)
> L2_vektor <- numeric(broj_razreda)
> frekv_vektor <- numeric(broj_razreda)
>
> for(i in 1:broj_razreda){
+ L1_vektor[i] <- min_cijena + (i - 1) * vel_razreda
+
+ L2_vektor[i] <- L1_vektor[i] + vel_razreda
+
+ if(i != broj_razreda){
+ frekv_vektor[i] <- sum(nekretnine$Price >= L1_vektor[i] & nekretnine$Price < L2_vektor[i])
+ } else {
+ frekv_vektor[i] <- sum(nekretnine$Price >= L1_vektor[i] & nekretnine$Price <= L2_vektor[i])
+ }
+ }
>
> tablica_frekvencija <- data.frame(
+ L1 = L1_vektor,
+ L2 = L2_vektor,
+ Frekvencija = frekv_vektor
+ )
>
> tablica_frekvencija
## L1 L2 Frekvencija
## 1 5000 53126 7
## 2 53126 101252 97
## 3 101252 149378 371
## 4 149378 197504 455
## 5 197504 245630 304
## 6 245630 293756 203
## 7 293756 341882 128
## 8 341882 390008 74
## 9 390008 438134 40
## 10 438134 486260 19
## 11 486260 534386 9
## 12 534386 582512 4
## 13 582512 630638 6
## 14 630638 678764 7
## 15 678764 726890 1
## 16 726890 775016 3
Kod započinje inicijaliziranjem tri numerička vektora koja će
pohraniti donje granice razreda (L1_vektor
), gornje granice
razreda (L2_vektor
) i frekvencije
(frekv_vektor
) za svaki od definiranih razreda. Zatim, kroz
for petlju prolazi se kroz svaki razred od 1 do broja razreda, pri čemu
se za svaki razred izračunava donja granica dodavanjem umnoška indeksa
razreda smanjenog za jedan i širine razreda na minimalnu cijenu. Gornja
granica razreda dobiva se dodavanjem širine razreda na donju granicu.
Unutar petlje, za sve razrede osim posljednjeg, frekvencija se računa
prebrojavanjem nekretnina čija cijena je veća ili jednaka donjoj granici
i manja od gornje granice, dok se za posljednji razred uključuje i
gornja granica kako bi se obuhvatile sve vrijednosti do maksimalne
cijene. Nakon završetka petlje, tri vektora se kombiniraju u data frame
koristeći funkciju data.frame()
, čime se stvara pregledna
tablica frekvencija za grupirane podatke o cijenama nekretnina. Ova
tablica omogućuje jednostavan pregled raspodjele cijena kroz definirane
razrede.
Alternativno, to se može napraviti i na sljedeći način.
> nekretnine$Price_group <- cut(nekretnine$Price, breaks = broj_razreda, include.lowest = TRUE, right = FALSE)
>
> # Kreirajte tablicu frekvencija
> freq_table <- as.data.frame(table(nekretnine$Price_group))
> colnames(freq_table) <- c("Cjenovni_razred", "Frekvencija")
>
> freq_table <- as.data.frame(freq_table)
> freq_table
## Cjenovni_razred Frekvencija
## 1 [4.23e+03,5.31e+04) 7
## 2 [5.31e+04,1.01e+05) 97
## 3 [1.01e+05,1.49e+05) 371
## 4 [1.49e+05,1.98e+05) 454
## 5 [1.98e+05,2.46e+05) 305
## 6 [2.46e+05,2.94e+05) 203
## 7 [2.94e+05,3.42e+05) 128
## 8 [3.42e+05,3.9e+05) 74
## 9 [3.9e+05,4.38e+05) 40
## 10 [4.38e+05,4.86e+05) 19
## 11 [4.86e+05,5.34e+05) 9
## 12 [5.34e+05,5.82e+05) 4
## 13 [5.82e+05,6.31e+05) 6
## 14 [6.31e+05,6.79e+05) 7
## 15 [6.79e+05,7.27e+05) 1
## 16 [7.27e+05,7.76e+05] 3
Alternativno, paket dplyr
omogućuje elegantno grupiranje
i brojanje pomoću funkcija group_by()
i
summarise()
:
> library(dplyr)
>
> # Definirajte razrede
> nekretnine <- nekretnine %>%
+ mutate(Price_group = cut(Price, breaks = broj_razreda, include.lowest = TRUE))
>
> # Kreirajte tablicu frekvencija
> freq_table <- nekretnine %>%
+ group_by(Price_group) %>%
+ summarise(Frekvencija = n())
>
> freq_table
## # A tibble: 16 × 2
## Price_group Frekvencija
## <fct> <int>
## 1 [4.23e+03,5.31e+04] 7
## 2 (5.31e+04,1.01e+05] 97
## 3 (1.01e+05,1.49e+05] 371
## 4 (1.49e+05,1.98e+05] 455
## 5 (1.98e+05,2.46e+05] 304
## 6 (2.46e+05,2.94e+05] 203
## 7 (2.94e+05,3.42e+05] 128
## 8 (3.42e+05,3.9e+05] 74
## 9 (3.9e+05,4.38e+05] 40
## 10 (4.38e+05,4.86e+05] 19
## 11 (4.86e+05,5.34e+05] 9
## 12 (5.34e+05,5.82e+05] 4
## 13 (5.82e+05,6.31e+05] 6
## 14 (6.31e+05,6.79e+05] 7
## 15 (6.79e+05,7.27e+05] 1
## 16 (7.27e+05,7.76e+05] 3
Također, paket Hmisc
nudi funkciju cut2()
koja automatski određuje razrede (može se specificirati broj
razreda):
> library(Hmisc)
>
> # Kreiranje razreda koristeći cut2()
> nekretnine$Price_group <- cut2(nekretnine$Price, g = broj_razreda)
>
> # Kreirajte tablicu frekvencija
> freq_table <- as.data.frame(table(nekretnine$Price_group))
> colnames(freq_table) <- c("Cjenovni_Razred", "Frekvencija")
>
> freq_table
## Cjenovni_Razred Frekvencija
## 1 [ 5000,103000) 108
## 2 [103000,120975) 113
## 3 [120975,133300) 105
## 4 [133300,145200) 115
## 5 [145200,156000) 111
## 6 [156000,166500) 96
## 7 [166500,178000) 108
## 8 [178000,190000) 110
## 9 [190000,203600) 109
## 10 [203600,220000) 105
## 11 [220000,235900) 108
## 12 [235900,259142) 109
## 13 [259142,285558) 113
## 14 [285558,320000) 103
## 15 [320000,377500) 109
## 16 [377500,775000] 106
Dakle, iako postoje jednostavniji i direktniji načini kreiranja tablica, ako su nam za daljnje izračune potrebni grupirani podaci, tada će nam više odgovarati da L1 i L2 budu u zasebnim stupcima te da razredi budu jednakih veličina. Usporedite ove pristupe i procijenite koji načini daju izlaz koji možemo izravno koristiti pri daljnjim izračunima.
> tablica_frekvencija$xi <- (tablica_frekvencija$L1 + tablica_frekvencija$L2)/2
> tablica_frekvencija$fixi <- tablica_frekvencija$xi * tablica_frekvencija$Frekvencija
> tablica_frekvencija
## L1 L2 Frekvencija xi fixi
## 1 5000 53126 7 29063 203441
## 2 53126 101252 97 77189 7487333
## 3 101252 149378 371 125315 46491865
## 4 149378 197504 455 173441 78915655
## 5 197504 245630 304 221567 67356368
## 6 245630 293756 203 269693 54747679
## 7 293756 341882 128 317819 40680832
## 8 341882 390008 74 365945 27079930
## 9 390008 438134 40 414071 16562840
## 10 438134 486260 19 462197 8781743
## 11 486260 534386 9 510323 4592907
## 12 534386 582512 4 558449 2233796
## 13 582512 630638 6 606575 3639450
## 14 630638 678764 7 654701 4582907
## 15 678764 726890 1 702827 702827
## 16 726890 775016 3 750953 2252859
> prosjek <- sum(tablica_frekvencija$fixi)/sum(tablica_frekvencija$Frekvencija)
> prosjek
## [1] 211986.4
Dodatni prikaz aritmetičke sredine za negrupirane i grupirane podatke
> podaci <- c(3, 5, 4, 2, 3, 4, 3, 5, 4, 3, 4, 3, 5, 4, 4)
> mean(podaci)
## [1] 3.733333
> razredi <- c(2, 3, 4, 5)
> frekvencije <- c(1, 5, 6, 3)
> fixi <- razredi * frekvencije
>
> primjer <- as.data.frame(cbind(L1 = razredi - 0.5, L2 = razredi + 0.5, frekvencije = frekvencije, xi = razredi, fixi = fixi))
> primjer
## L1 L2 frekvencije xi fixi
## 1 1.5 2.5 1 2 2
## 2 2.5 3.5 5 3 15
## 3 3.5 4.5 6 4 24
## 4 4.5 5.5 3 5 15
> prosjek_primjer <- sum(primjer$fixi)/sum(primjer$frekvencije)
> prosjek_primjer
## [1] 3.733333
Harmonijska sredina
> library(psych)
> podaci_h <- c(132500, 181115, 109000, 155000, 86060)
> harmonic.mean(podaci_h)
## [1] 124025.6
> tablica_frekvencija$za_nazivnik_ha <- tablica_frekvencija$Frekvencija/tablica_frekvencija$xi
> tablica_frekvencija
## L1 L2 Frekvencija xi fixi za_nazivnik_ha
## 1 5000 53126 7 29063 203441 2.408561e-04
## 2 53126 101252 97 77189 7487333 1.256656e-03
## 3 101252 149378 371 125315 46491865 2.960539e-03
## 4 149378 197504 455 173441 78915655 2.623370e-03
## 5 197504 245630 304 221567 67356368 1.372045e-03
## 6 245630 293756 203 269693 54747679 7.527077e-04
## 7 293756 341882 128 317819 40680832 4.027450e-04
## 8 341882 390008 74 365945 27079930 2.022162e-04
## 9 390008 438134 40 414071 16562840 9.660179e-05
## 10 438134 486260 19 462197 8781743 4.110801e-05
## 11 486260 534386 9 510323 4592907 1.763589e-05
## 12 534386 582512 4 558449 2233796 7.162695e-06
## 13 582512 630638 6 606575 3639450 9.891605e-06
## 14 630638 678764 7 654701 4582907 1.069190e-05
## 15 678764 726890 1 702827 702827 1.422825e-06
## 16 726890 775016 3 750953 2252859 3.994924e-06
> sum(tablica_frekvencija$Frekvencija)/sum(tablica_frekvencija$za_nazivnik_ha)
## [1] 172806.1
Geometrijska sredina
> podaci_g <- c(132500, 181115, 109000, 155000, 86060)
>
> library(psych)
> geometric.mean(podaci_g)
## [1] 128394.4
> tablica_frekvencija$logxi <- log10(tablica_frekvencija$xi)
> tablica_frekvencija$filogxi <- tablica_frekvencija$logxi * tablica_frekvencija$Frekvencija
> tablica_frekvencija
## L1 L2 Frekvencija xi fixi za_nazivnik_ha logxi
## 1 5000 53126 7 29063 203441 2.408561e-04 4.463340
## 2 53126 101252 97 77189 7487333 1.256656e-03 4.887555
## 3 101252 149378 371 125315 46491865 2.960539e-03 5.098003
## 4 149378 197504 455 173441 78915655 2.623370e-03 5.239152
## 5 197504 245630 304 221567 67356368 1.372045e-03 5.345505
## 6 245630 293756 203 269693 54747679 7.527077e-04 5.430870
## 7 293756 341882 128 317819 40680832 4.027450e-04 5.502180
## 8 341882 390008 74 365945 27079930 2.022162e-04 5.563416
## 9 390008 438134 40 414071 16562840 9.660179e-05 5.617075
## 10 438134 486260 19 462197 8781743 4.110801e-05 5.664827
## 11 486260 534386 9 510323 4592907 1.763589e-05 5.707845
## 12 534386 582512 4 558449 2233796 7.162695e-06 5.746984
## 13 582512 630638 6 606575 3639450 9.891605e-06 5.782885
## 14 630638 678764 7 654701 4582907 1.069190e-05 5.816043
## 15 678764 726890 1 702827 702827 1.422825e-06 5.846848
## 16 726890 775016 3 750953 2252859 3.994924e-06 5.875613
## filogxi
## 1 31.243383
## 2 474.092875
## 3 1891.359135
## 4 2383.814055
## 5 1625.033544
## 6 1102.466544
## 7 704.279022
## 8 411.692771
## 9 224.682993
## 10 107.631715
## 11 51.370606
## 12 22.987934
## 13 34.697307
## 14 40.712301
## 15 5.846848
## 16 17.626838
> 10 ^((sum(tablica_frekvencija$filogxi))/sum(tablica_frekvencija$Frekvencija))
## [1] 191998.3
Učitajte skup podataka.
Iako je moguće za svaku varijablu zasebno izračunati pokazatelje
koristeći ugrađene funkcije (za važeće podatke koristili bi
=COUNT()
, za najmanju vrijednost u nizu
=MIN()
, za najveću vrijednost u nizu =MAX()
, a
za prosjek =AVERAGE()
), brže ćemo to učiniti koristeći
‘Data Analysis’.
Kliknite na ‘Data’, a potom na ‘Data Analysis’.
U novootvorenom izborniku odaberite ‘Descriptive Statistics’ i kliknite OK.
U sljedećem izborniku pod ‘Input Range’, odaberite raspon cijena (tj. sve ćelije u stupcu Price; najjednostavnije je kliknuti na ćeliju u kojoj piše ‘Price’, a potom istovremeno stisnuti CTRL, SHIFT i &darr. Označite ‘Labels in First Row’, jer je u prvom retku zapisan naziv varijable (u suprotnom bi javljalo grešku kako ne prihvaća nenumeričke podatke). Odaberite ‘Summary statistics’.
Dobit ćete sljedeći prikaz. Pomalo je nepregledan, jer imamo puno varijabli, a ‘Descriptive Statistics’ računa i brojne pokazatelje koji nam ovdje ne trebaju. Općenito, iako je lako dobiti statističke pokazatelje izračunate na ovaj način, tablicu će uvijek biti potrebno dodatno urediti, prije nego se može uvrstiti u kakvo izvješće.
Možemo na drugi list kopirati samo one retke koji su nam potrebni.
U sljedećem koraku, kopiramo kreiranu tablicu. Kliknemo na proizvoljno odabranu ćeliju ispod desnim klikom. U ponudi opcija lijepljena, odaberite transponirenje.
Odaberite prvi stupac u novoj tablici, kopirajte i zalijepite u redak ispod. Izbrišite retke u kojima se ponavljaju nazivi stupaca. Tablica bi trebala izgledati ovako:
Sljedeći korak je kreiranje histograma. Odaberite varijablu ‘Price’ na početnom listu, kliknite na ‘Insert’, a potom među statističkim grafikonima odaberite histogram.
Grupiranju podataka se također može pristupiti putem histograma. Tematika odabira veličina i broja razreda obrađena je u prethodnom poglavlju (Provedba postupka koristeći R), pa se ovdje neće ponavljati.
No, prije repliciranja, pročitajte postupak grupiranja do kraja. Prvo ćemo isprobati grupiranje koristeći opciju ‘Histogram’ iz ‘Data Analysis’.
U ‘Input Range’ uvrštavamo vrijednosti varijable Price te označavamo ‘Labels’ (jer je naziv varijable u prvom retku, a obuhvatili smo taj redak). Nije potrebno kliknuti ništa osim toga, jer nam nije potreban grafički output, ni kumulativni niz.
Ovdje dobivamo stupac s gornjim granicama razreda i brojem opažanja u pojedinom razredu. No, možemo uočiti da je ovo veliki broj razreda, što vodi do nepreglednosti.
Kako bismo prilagodili ovaj postupak, kreirat ćemo vlastite granice razreda. Utvrđujemo najmanju i najveću vrijednost u nizu te zadajemo broj razreda. Potom izračunavamo veličinu razreda (razlika najveće i najmanje vrijednosti u nizu podijeljena brojem razreda).
Potom kreiramo granice na način da najmanju vrijednost prepišemo. Sljedeći broj dobivamo tako što ćemo upisanoj vrijednosti dodati veličinu razreda (h). Nakon toga, za sljedeću vrijednost uzimamo prethodnu i pridodajemo joj veličinu razreda i taj postupak ponavljamo dok ne dobijemo prvu vrijednost koja je veća od najveće vrijednosti u nizu.
Onda ponovo odabiremo ‘Histogram’ iz ‘Data Analysis’.
Unos će izgledati kao i ranije, osim što sad popunjavamo i ‘Bin Range’ granicama razreda koje smo upravo izračunali.
Dobivamo sljedeći output.
Kako bi to izgledalo urednije i bilo prikladno za nastavak analize, dijelove ćemo kopirati u zasebnu tablicu. Za L1 kopiramo granice razreda počevši s 5000, ali bez zadnje vrijednosti. Za L2 kopiramo granice bez prve vrijednosti (uključujući posljednju). Za fi kopiramo vrijednosti iz stupca ‘Frequency’.
Ovdje se prikazuje postupak za izračun aritmetičke, harmonijske i geometrijske sredine za grupirane podatke.
Za negrupirane podatke, vraćamo se na stranicu na koju smo kopirali
sva opažanja varijable ‘Price’. Ovdje ćemo primijeniti ugrađene funkcije
koje je primjereno koristiti za negrupirane podatke:
=AVERAGE()
za aritmetičku sredinu, =HARMEAN()
za harmonijsku sredinu i =GEOMEAN()
za geometrijsku
sredinu.
De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.
Harrell Jr, F. E., & Harrell Jr, M. F. E. (2019). Package ‘hmisc’. CRAN2018, 2019, 235-236. https://cran.uib.no/web/packages/Hmisc/Hmisc.pdf
Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.
Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.
JASP Team (2024). JASP (Version 0.19.3)[Computer software].
Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/
Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf
Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.
Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.
Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.