U ovom tekstu, fokusirat ćemo se na položajne mjere središnje tendencije: mod, medijan i kvartile.
Web stranica Zillow procjenjuje cijene kuća za više od 100.000.000 domova diljem Sjedinjenih Država. (Pa, zapravo ih zovu Zestimates.) Prema njihovim vlastitim riječima,Koristimo vlasničke automatizirane modele vrednovanja koji primjenjuju napredne algoritme za analizu naših podataka kako bismo identificirali odnose unutar određenog zemljopisnog područja, između ovih podataka vezanih uz kuću i stvarnih prodajnih cijena. Karakteristike kuće, kao što su kvadratura, lokacija ili broj kupaonica, dobivaju različite težine u skladu s njihovim utjecajem na prodajne cijene kuća u svakoj određenoj geografiji tijekom određenog vremenskog razdoblja, što rezultira skupom pravila vrednovanja ili modelima koji se primjenjuju za generiranje Zestimatea svake kuće. Konkretno, neki od podataka koje koristimo u ovom algoritmu uključuju:
(Prilagođeno iz Dick De Veaux, 7. listopada 2015.)
Promatra se uzorak od 1728 nekretnina u SADu prikupljenih tijekom 2015. godine putem web stranica, prema varijablama cijena, veličina parcele, blizina vode, starosti, vrijednosti zemljišta, novogradnje, posjedovanja klime, vrste goriva, načina grijanja, vrste kanalizacije, veličine stambenog prostora, postotku fakultetski obrazovanih pojedinaca u susjedstvu nekretnine, broju soba (prostorija), broju spavaćih soba, broju kupaonica i broju kamina.
Napomena: pri analizi ovih podataka, u tablicama i grafikonima koriste se nazivi varijabli dodijeljeni u izvornom skupu podataka, a u tumačenjima prevedene inačice.
Razmatrane varijable prema vrsti i razini mjerenja:
Prvo ćemo se posvetiti grafičkim prikazima i usporedbi histograma i box-plotova. Iščitavanje histograma detaljno je opisano u prošlom štivu. Box-plot dijagram, koji se naziva i kutijasti ili pravokutni dijagram, jednostavan je način vizualnog prikaza distribucije skupa podataka. Čak i ako još uvijek niste upoznati s određenim statističkim pojmovima kao što su kvartili i medijan, grafikon još uvijek može pomoći da steknete dojam kako su vaši podaci raspoređeni, gdje se nalazi većina opažanja i postoje li ekstremne ili netipične vrijednosti.
Box-plot sastoji se od pravokutnika i dva kraka (nazivaju se još i brkovi) koji se protežu s obje strane pravokutnika.
Box-plot:
Pravokutnik predstavlja središnjih 50% podataka. Ovdje je grupirana središnja polovica opažanja.
Linija u sredini pravokutnika predstavlja medijan, što je vrijednost koja dijeli podatke na dva jednaka dijela. Polovica opažanja poprima vrijednosti manje ili jednake naznačene linijom, dok druga polovica poprima linijom naznačenu vrijednost ili veće vrijednosti.
50 % središnjih podataka ujedno predstavlja i interkvartilni raspon. Donja stranica pravokutnika predstavlja prvi kvartil, a gornja predstavlja treći kvartil. Prvi kvartil dijeli niz na prvu četvrtinu koja poprima vrijednosti manje ili jednaku prvom kvartilu, dok preostale tri četvrtine poprimaju vrijednost naznačenu prvim kvartilom ili veće od toga. Slično, treći kvartil dijeli niz na 75% podataka koji poprimaju vrijednosti manje ili jednake trećem kvartilu, dok preostalih 25% opažanja poprima vrijednosti veće ili jednake trećem kvartlu.
Također, između donje stranice pravokutnika (tj. prvog kvartila) i linije u sredini (medijana), nalazi se 25% podataka. Između linije u sredini pravokutnika (medijana) i gornje granice pravokutnika (tj. trećeg kvartila), također se rasprostire 25 % podataka.
Linije koje se protežu od pravokutnika, nazvani krakovi ili brkovi, pokazuju koliko se podaci rasprostiru izvan središnjih 50% podataka.
Brkovi se općenito protežu do minimalnih i maksimalnih vrijednosti podataka, iako se ponekad zaustave u određenoj točki i ne idu sve do krajnosti (to se događa u slučaju kad određena opažanja bitno odstupaju od većine podataka, odnosno u slučaju izdvojenica). U situaciji kad se krakovi ili brkovi protežu od najmanje do najveće vrijednosti u nizu, zapravo predstavljaju raspon varijacija (razlika između najmanje i najveće vrijednosti u nizu).
Izdvojenice, ekstremi ili netipične vrijednosti su točke koje su znatno veće ili niže od ostalih podataka. Prikazane su kao pojedinačne točkice izvan ruba krakova ili brkova. Ove netipične vrijednosti mogu ukazivati na posebne slučajeve ili neobične opažanja.
Kako čitati box-plot:
Gdje je većina podataka? Što je pravokutnik veći, to je srednjih 50% podataka više raspršeno. Ako je pravokutnik mali (uzak), to znači da su podaci više koncentrirani u malom rasponu vrijednosti oko medijana.
Što signalizira središte podataka? Linija unutar pravokutnika (medijan) govori vam gdje je se nalazi onaj član niza koji dijeli niz na dva jednaka dijela, tako da možete lako vidjeti jesu li podaci uravnoteženi ili je više njih raspršeno prema jednom kraju.
Koliko su podaci raspršeni? Duljina brkova i veličina pravokutnika pomažu stjecanju uvida jesu li opažanja koncentrirana ili raspoređena u širem rasponu.
Postoje li ekstremne vrijednosti? Sve pojedinačne točke (izdvojenice) izvan krakova ili brkova pokazuju opažanja koje se prilično razlikuju od ostalih.
Protumačite sljedeće grafičke prikaze.
Slika 1. Histogram i box-plot starosti nekretnina
Histogram prikazuje distribuciju varijable Starosti, pri čemu os y predstavlja broj nekretnina (frekvencije), a os x prikazuje dobne skupine. Raspodjela je izrazito izdužena udesno, što ukazuje na to da je većina nekretnina novija, što se vidi po visokoj učestalosti u nižim dobnim skupinama i naglom padu u starijim dobnim skupinama. Najveći broj nekretnina star je otprilike između 0 i 20 godina, s naglim padom učestalosti nekretnina kako se starost povećava. Vrlo malo nekretnina je starije od 100 godina, a samo mali broj nekretnina spada u raspon od 50-100 godina. Dugi desni rep označava da, iako postoje neke starije nekretnine, one su daleko rjeđe u skupu podataka. Ukupni raspon, ili razliku između najveće i najmanje vrijednosti u nizu nazivamo raspon varijacija. Prema histogramu, taj se raspon kreće od 0 do otprilike 240 godina.
Drugi grafikon je box-plot dijagram koji daje sažetak dobne raspodjele nekretnina, usredotočujući se na statističke mjere kao što su medijan, kvartili i izdvojenice.
Medijalna dob je relativno niska, na što ukazuje središnja linija unutar box-plotova, što odražava središnju tendenciju prema mlađim nekretninama.
Interkvartilni raspon (IQ ili IQR), predstavljen je širinom pravokutnika i pokazuje srednjih 50% starosti nekretnina. Širina je relativno mala, što sugerira da je većina nekretnina grupirana u mlađim dobnim skupinama.
Krakovi ili brkovi pokazuju raspon podataka, pri čemu su donji brkovi ovdje puno kraći, što ukazuje na manje iznimno mladih nekretnina, a gornji brkovi se protežu prema starijim nekretninama, iako s relativno malo ekstremnih vrijednosti.
Postoje neke iznimke predstavljene točkama izvan gornjeg brka, što pokazuje da je nekoliko nekretnina mnogo starije od većine.
Oba grafikona su vizualni prikazi varijable Starosti, ali prikazuju podatke iz različitih perspektiva. I histogram i box-plot dijagram odražavaju starosnu raspodjelu nekretnina. Oba otkrivaju da je većina nekretnina relativno nova (mlađa), s malim brojem starijih nekretnina. Histogram pruža detaljne informacije o učestalosti različitih skupina starosti nekretnina, što olakšava uvid u to koliko nekretnina spada u svaku starosnu kategoriju. Također, naglašava desnostranu iskrivljenost i raspodjelu nekretnina. Box-plot dijagram, s druge strane, sažima podatke kroz statističke mjere (medijan, kvartili, IQ i izdvojenice). Učinkovitije prikazuje opći trend podataka i prisutnost netipičnih vrijednosti. Brkovi i izdvojenice daju uvide koliko su podaci rasprostranjeni, dok nam histogram omogućuje uvid u točnu raspodjelu podataka i gdje se nalazi koliko podataka.
Histogram prikazuje više detalja o učestalosti nekretnina u svakoj dobnoj skupini, što nam omogućuje uvide kako su podaci raspoređeni u svim dobnim skupinama. Box-plot dijagram učinkovito ističe širenje i odstupanja u podacima. Pruža jasnu vizualizaciju središnje tendencije (medijan) i prisutnosti bilo kakvih ekstremnih vrijednosti. Iako oba grafikona predstavljaju varijablu starosti nekretnina, pružaju komplementarne uvide.
Protumačimo sljedeće grafičke prikaze.
Slika 2. Histogram i box-plot cijena nekretnina
Box-plot na slici ilustrira raspodjelu cijena nekretnina. Medijalna cijena je jasno vidljiva nešto ispod 200000. Čini se da je prvi ili donji kvartil (\(Q_1\)) oko 145000 dolara, a treći ili gornji kvartil (\(Q_3\)) blizu 259000 dolara. To nam daje interkvartilni raspon (IQ) od oko 114000 dolara. Brkovi se protežu do najnižih i najviših opažanja unutar 1,5 puta većeg IQ-a, a postoji nekoliko odstupanja koja se protežu iznad 500000 dolara, dostižući maksimalnu cijenu od oko 775000 dolara. Sve u svemu, ovaj box-plot dijagram pokazuje asimetričnu distribuciju s nekoliko nekretnina s visokim cijenama koje kreiraju izduženi desni krak distribucije cijena.
Histogram pruža detaljniju raspodjelu frekvencija cijena nekretnina. Većina nekretnina prema svojoj cijeni spada u raspon od 150000 do 250000 dolara. Tamo se nalazi i modalna (najčešća) cijena, a grafičko određivanje moda prikazano je narančastim linijama na histogramu. Nakon otprilike 200000 dolara, broj nekretnina počinje se smanjivati, a vrlo je malo nekretnina s cijenom većom od 600000 dolara. Ovaj histogram dodatno potvrđuje asimetriju s velikim brojem nekretnina s nižim cijenama i dugim krakom koji se proteže na više vrijednosti.
Box-plot i histogram zajedno nude komplementarne uvide u raspodjelu cijena nekretnina. Box-plot ističe ključne pokazatelje poput medijana, kvartila i izdvojenica, vizualno naglašavajući širinu raspona vrijednosti srednjih 50% podataka. S druge strane, histogram pruža detaljnije informacije o rasporedu učestalosti cijena. Oba grafa potvrđuju desnostrano asimetričnu raspodjelu cijena nekretnina, pri čemu je većina nekretnina koncentrirana u nižim cjenovnim razredima, ali nekolicina netipičnih vrijednosti proteže se prema višem cjenovnom rangu.
Protumačimo sljedeće grafičke prikaze.
Slika 3. Histogram i box-plot broja kamina u nekretninama
Histogram prikazuje učestalost nekretnina prema broju kamina (koliko nekretnina ima koji broj kamina). Na x-osi se nalazi varijabla – broj kamina. Vidimo da ima precizne granice razreda, jer prikazuje diskontinuiranu varijablu. Većina nekretnina ima nula ili jedan kamin, s nešto više nekretnina koje imaju jedan kamin od onih koje nemaju kamin. Broj nekretnina s dva kamina dramatično pada, a vrlo malo nekretnina ima tri ili četiri kamina. Ovaj histogram pokazuje izrazito desnostrano asimetričnu distribuciju (desni dio je izdužen), što ukazuje na to da većina nekretnina u skupu podataka ima manje kamina. Histogram nam omogućuje stvaranje dojma koliko je svaka kategorija kamina česta, a vizualno naglašava dominaciju nula do jednog kamina u nekretninama.
Box-plot predstavlja istu varijablu - Kamini. Pravokutnik prikazuje rasprostranjenost središnjih 50% podataka, pri čemu je medijan oko 1 kamina. Prvi kvartil (\(Q_1\), 25. percentil) predstavlja nekretnine s 0 kamina, a treći kvartil (\(Q_3\), 75. percentil) uključuje nekretnine s 1 kaminom. Dakle, središnjih 50% nekretnina ima od nula do jednog kamina. Istovremeno, prvi kvartil podudara se s minimumom, a medijan s trećim kvartilom. Ovo se događa zbog relativno malog raspona vrijednosti koje varijabla poprima (od nula do četiri) te koncentracije opažanja s nižim vrijednostima. Brkovi se protežu kako bi pokrili ostatak podataka, s najvećom vrijednošću na 2 kamina, ali uz izdvojenice koje se pojavljuju za nekretnine s 3 i 4 kamina. Ovaj graf daje jasniju sliku prisutnosti netipičnih vrijednosti u skupu podataka.
I histogram i box-plot dijagram ukazuju na to da većina nekretnina ima ili nula ili jedan kamin. Međutim, histogram je bolji u prikazivanju točne učestalosti svakog broja kamina (također, zbog činjenice da imamo diskontinuiranu varijablu i mali broj razreda, što ga čini vrlo lakim za čitanje) i olakšava uvid u točne brojeve za svaki razred. Nasuprot tome, box-plot nudi kompaktniji sažetak,usredotočujući se na središnju tendenciju i disperziju podataka te identificirajući izdvojenice.
Protumačimo sljedeće grafičke prikaze.
Slika 4. Histogram i box-plot broja soba (prostorija) u nekretninama
Prvi grafikon je histogram koji prikazuje distribuciju broja soba. Histogram pokazuje da je najčešći broj soba u nekretninama između 6 i 7. Čini se da je distribucija malo iskrivljena udesno, s nešto manjim brojem nekretnina koje imaju više od 9 soba. Vrh distribucije je stupac koji broji nekretnine sa 6 do 7 soba, nešto više od 300 opažanja i tu se nalazi mod distribucije.
Box-plot pokazuje da se interkvartilni raspon (IQ), koji predstavlja središnjih 50% podataka, nalazi između otprilike 5 i 8 soba. Medijan je otprilike 7 soba, što sugerira da polovica nekretnina ima 7 soba ili više, dok druga polovica ima 7 soba ili manje. Brkovi ili krakovi, koji se protežu iz pravokutnika, označavaju minimalni i maksimalni broj prostorija. U ovom slučaju, čini se da nema značajnih odstupanja (izdvojenica), a raspršenost podataka djeluje relativno simetrično.
Oba grafikona dosljedno ukazuju da objekti najčešće imaju između 6 i 7 soba. Histogram daje detaljniji prikaz distribucije frekvencija, omogućujući nam da vidimo točan broj nekretnina u svakoj kategoriji soba. S druge strane, box-plot pruža sažeti sažetak raspršenosti podataka. Dok histogram ukazuje na blagu iskrivljenost distribucije, box-plot naglašava središnju tendenciju i varijabilnost broja soba. Oba se grafikona međusobno nadopunjuju predstavljajući različite aspekte iste varijable, dajući jasniju sliku skupa podataka.
Nastavljamo s pokazateljima središnje tendencije za sve varijable.
Tablica 1. Pokazatelji središnje tendencije
Varijabla | Broj opažanja | Mod | Medijan | Aritmetička sredina | Minimum | Maksimum | 25. percentil (Q1) | 50. percentil (Q2=Medijan) | 75. percentil (Q3) |
---|---|---|---|---|---|---|---|---|---|
Cijena | 1728 | 120000 | 189900 | 211966.71 | 5000 | 775000 | 145000 | 189900 | 259000 |
Veličina parcele | 1728 | 0.4600 | 0.3700 | 0.5002 | 0.0000 | 12.2000 | 0.1700 | 0.3700 | 0.5400 |
Uz more | 1728 | 0.0000 | 0.0000 | 0.0087 | 0.0000 | 1.0000 | 0.0000 | 0.0000 | 0.0000 |
Starost | 1728 | 19.0000 | 19.0000 | 27.9161 | 0.0000 | 225.0000 | 13.0000 | 19.0000 | 34.0000 |
Vrijednost zemljišta | 1728 | 27000 | 25000 | 34557.19 | 200 | 412600 | 15100 | 25000 | 40200 |
Nova gradnja | 1728 | 0.0000 | 0.0000 | 0.0469 | 0.0000 | 1.0000 | 0.0000 | 0.0000 | 0.0000 |
Klima | 1728 | 0.0000 | 0.0000 | 0.3675 | 0.0000 | 1.0000 | 0.0000 | 0.0000 | 1.0000 |
Gorivo.Vrsta | 1728 | 2.0000 | 2.0000 | 2.4323 | 2.0000 | 4.0000 | 2.0000 | 2.0000 | 3.0000 |
Toplina.Tip | 1728 | 2.0000 | 2.0000 | 2.5278 | 2.0000 | 4.0000 | 2.0000 | 2.0000 | 3.0000 |
Kanalizacija.Tip | 1728 | 3.0000 | 3.0000 | 2.6950 | 1.0000 | 3.0000 | 2.0000 | 3.0000 | 3.0000 |
Površina za život | 1728 | 1480 | 1634.5 | 1754.98 | 616 | 5228 | 1300 | 1634.5 | 2137.75 |
Postotak.fakultet | 1728 | 64.0000 | 57.0000 | 55.5677 | 20.0000 | 82.0000 | 52.0000 | 57.0000 | 64.0000 |
Spavaće sobe | 1728 | 3.0000 | 3.0000 | 3.1545 | 1.0000 | 7.0000 | 3.0000 | 3.0000 | 4.0000 |
Sobe | 1728 | 7.0000 | 7.0000 | 7.0417 | 2.0000 | 12.0000 | 5.0000 | 7.0000 | 8.2500 |
Kamini | 1728 | 1.0000 | 1.0000 | 0.6019 | 0.0000 | 4.0000 | 0.0000 | 1.0000 | 1.0000 |
Kupaonice | 1728 | 2.5000 | 2.0000 | 1.9002 | 0.0000 | 4.5000 | 1.5000 | 2.0000 | 2.5000 |
a Postoji više od jednog moda, izvještava se samo o prvom
Ovo je tablica sažetka izračunatih statističkih pokazatelja (koristeći JASP). Obično će imati varijable zapisane u retku i statističke pokazatelje u stupcima, ali se može i obrnuti (tj. transponirati; statistički pokazatelji u redovima i varijable u stupcima). Ova tablica sadrži nekoliko varijabli, od kojih svaka predstavlja različite aspekte podataka o nekretninama.
S obzirom na naučeno tijekom čitanja predviđenih stranica u udžbeniku te odslušanih predavanja i vježbi, kako biste protumačili podatke u tablici?
Sažeti pokazatelji u tablici pružaju uvid u središnju tendenciju i raspored varijabli iz skupa podataka koji se odnose na nekretnine. Promatrane nekretnine prosječno stoje približno 211966,71 dolara. 50% promatranih nekretnina košta 189900 dolara ili manje od toga, a 50% košta toliko ili više. Najčešća cijena nekretnine je 120000 dolara. Minimalna zabilježena cijena je 5000 dolara, a maksimalna 775000 dolara, pri čemu interkvartilni raspon pokazuje da se središnjih 50% podataka nalazi između 145000 i 259000 dolara.
Parcele promatranih nekretnina prosječno su velike 0,50 hektara. Polovica nekretnina ima veličinu parcele od 0.37 hektara ili manje, dok druga polovica ima parcelu 0.37 hektara ili veću od toga. Najčešća veličina parcele je 0,46 hektara. Minimalna zabilježena veličina parcele je 0 hektara, a maksimalna 12,2 hektara. Središnjih 50% nekretnina nalazi se na parcelama veličine između 0,17 i 0,54 hektara.
‘Uz more’ je binarna varijabla (prekodirana kategorijska varijabla, odnosno kvalitativna opisna) gdje većina nekretnina nije uz more (mod = 0). Isti obrazac vrijedi i za novogradnju, gdje većina nekretnina nije novoizgrađena. Na isti način promatramo i ostale varijable mjerene na nominalnoj razini. Iz ovakvih tablica, za njih je jedino smisleno iščitavati mod. Klima je još jedna binarna varijabla, s približno 36,75% nekretnina koja imaju klimu, dok većina nema (mod = 0). Obratite pozornost na to da u ovom kontekstu prosjek zapravo označava udio jedinica u broju ukupnih opažanja, tj. udio nekretnina s klimama među svim promatranim nekretninama.
Nekretnine su prosječno stare 27,92 godine. 50% nekretnina staro je 19 godina ili manje, dok je ostalih 50% staro 19 godina ili starije od toga. Nekretnine su najčešće 19 godina stare. Najmlađa nekretnina ima 0 godina, a najstarija 225 godina. Središnjih 50% nekretnina je staro od 13 do 34 godine.
Najčešći tip izvora topline - kodiran kao 2 - koristi većina nekretnina, a najčešći tip kanalizacije koji koristi većina nekretnina kodiran je kao 3.
Prosječna životna površina nekretnina je 1755 četvornih stopa. 50% nekretnina ima 1634.5 četvornih stopa ili manje, dok ostalih 50% ima toliko ili više četvornih stopa životnog prostora. Najčešća stambena površina je 1480 četvornih metara. Najmanja nekretnina ima 616 četvornih metara životnog/stambenog prostora, a najveća 5228 četvornih metara. Središnjih 50% nekretnina ima između 1300 i 2137.75 četvornih stopa životnog prostora.
Prosječan postotak fakultetski obrazovanih stanovnika u četvrtima je 55,57%, s medijanom od 57% i modom od 64%. To znači da, u prosjeku, 55,57% stanovnika promatranih četvrti ima fakultetsku diplomu. 50% četvrti ima 57% fakultetski obrazovanih stanovnika ili manje, a ostalih 50% ima toliko ili više fakultetski obrazovanih stanovnika. Susjedstva promatranih nekretnina najčešće imaju 64% fakultetski obrazovanih stanovnika. Minimalni zabilježeni postotak je 20%, a maksimalni 82%, dok središnjih 50% susjedstva nekretnina ima između 52% i 64% fakultetski obrazovanih stanovnika.
Nekretnine imaju prosječno 3,15 spavaćih soba. Polovica promatranih nekretnina ima 3 spavaće sobe ili manje, a preostala polovica ima bar 3 spavaće sobe. Nekretnine najčešće imaju 3 spavaće sobe. Minimalni broj spavaćih soba je 1, a maksimalan 7.
Nekretnine prosječno sadrže 7,04 soba, odnosno prostorija. Pritom polovica nekretnina ima 7 soba ili manje, a preostala polovica ima barem 7 soba. Nekretnine najčešće imaju 7 soba. Promatrane nekretnine imaju najmanje 2 sobe, a najviše 12. Središnjih 50% nekretnina prema broju soba (prostorija) sadrži između 5 i 8,25 soba.
U prosjeku, nekretnine imaju 0,60 kamina. Polovica nekretnina ima 1 kamin ili nema kamina, dok druga polovica ima barem jedan kamin. Nekretnine najčešće imaju po jedan kamin. Raspon broja kamina kreće se od nekretnina koje nemaju kamin (nula), do nekretnina koje imaju četiri kamina.
Nekretnine prosječno imaju 1,90 kupaonica. 50% nekretnina ima 2 kupaonice ili manje, dok preostala polovica ima barem 2 kupaonice. Nekretnine najčešće imaju 2 kupaonice. Među promatranim nekretninama uočava se da je minimalan broj kupaonica 0, a maksimalan 4,5. Središnjih 50% nekretnina prema broju kupaonica sadrži između 1,5 i 2,5 kupaonice.
Sada, grupirajmo cijenu kako bismo prikazali izračune preostalih mjera središnje tendencije za grupirane podatke.
Tablica 2. Cijene nekretnina
Cijena | Frekvencija |
---|---|
50000 - 53126 | 7 |
53126 - 101252 | 97 |
101252 - 149378 | 371 |
149378 - 197504 | 455 |
197504 - 245630 | 304 |
245630 - 293756 | 203 |
293756 - 341882 | 128 |
341882 - 390008 | 74 |
390008 - 438134 | 40 |
438134 - 486260 | 19 |
486260 - 534386 | 9 |
534386 - 582512 | 4 |
582512 - 630638 | 6 |
630638 - 678764 | 7 |
678764 - 726890 | 1 |
726890 - 775016 | 3 |
Ukupno | 1728 |
Ova jednostavna statistička tablica predstavlja grupirane podatke za varijablu cijene, koja je svrstana u intervale cijena (razredi), pri čemu je učestalost svakog razreda navedena u drugom stupcu. Rasponi cijena u prvom stupcu označavaju donju i gornju granicu svakog razreda, dok stupac frekvencija (učestalosti) pokazuje koliko nekretnina spada u pripadajući raspon cijena.
Sljedeća tablica proširuje prethodnu uvođenjem dodatnih izračuna: sredine razreda (\(x_i\)) i umnoška frekvencije i sredine razreda(\(f_i x_i\)). Ovi koraci dio su procesa određivanja mjera kao što je prosjek za grupirane podatke. No, nismo još izračunavali mod, medijan i kvartile, pa ćemo se sad posvetiti tome i pritom objasniti dodane stupce u tablici.
Tablica 3. Cijene nekretnina s pomoćnim stupcima
Cijena L1 | Cijena L2 | Frekvencija (fi) | xi | fixi | i | Kumulativni niz „manje od“ |
---|---|---|---|---|---|---|
5000 | 53126 | 7 | 29063 | 203441 | 48126 | 7 |
53126 | 101252 | 97 | 77189 | 7487333 | 48126 | 104 |
101252 | 149378 | 371 | 125315 | 46491865 | 48126 | 475 |
149378 | 197504 | 455 | 173441 | 78915655 | 48126 | 930 |
197504 | 245630 | 304 | 221567 | 67356368 | 48126 | 1234 |
245630 | 293756 | 203 | 269693 | 54747679 | 48126 | 1437 |
293756 | 341882 | 128 | 317819 | 40680832 | 48126 | 1565 |
341882 | 390008 | 74 | 365945 | 27079930 | 48126 | 1639 |
390008 | 438134 | 40 | 414071 | 16562840 | 48126 | 1679 |
438134 | 486260 | 19 | 462197 | 8781743 | 48126 | 1698 |
486260 | 534386 | 9 | 510323 | 4592907 | 48126 | 1707 |
534386 | 582512 | 4 | 558449 | 2233796 | 48126 | 1711 |
582512 | 630638 | 6 | 606575 | 3639450 | 48126 | 1717 |
630638 | 678764 | 7 | 654701 | 4582907 | 48126 | 1724 |
678764 | 726890 | 1 | 702827 | 702827 | 48126 | 1725 |
726890 | 775016 | 3 | 750953 | 2252859 | 48126 | 1728 |
Ukupan | 1728 | / | 366312432 | / | / |
Da bismo izračunali mod za grupirane podatke u našoj tablici, moramo identificirati modalni razred, a to je onaj koji ima najveću učestalost (označena crvenom bojom u tablici). Evo koraka:
Identificiramo modalni razred: razred s najvećom frekvencijom (\(f_i\)) ili najvećom korigiranom frekvencijom ako nemamo jednake širine razreda.
Primijenimo formulu za način grupiranih podataka:
\[ M_o = L_1 + \frac{(f_m - f_{m-1})}{(f_m - f_{m-1}) + (f_m - f_{m+1})} \times i \]
Gdje je:
\(L_1\) – donja granica modalnog razreda
\(f_m\) – frekvencija modalnog razreda
\(f_{m-1}\) – frekvencija razreda koji prethodi modalnom razredu
\(f_{m+1}\) – frekvencija razreda nakon modalnog razreda
\(i\) – veličina razreda (razlika između gornje i donje granice modalnog razreda)
Simbol | Vrijednost | Opis |
---|---|---|
\(L_1\) | 149,378 | Donja granica modalnog razreda |
\(f_m\) | 455 | Frekvencija modalnog razreda |
\(f_{m-1}\) | 371 | Frekvencija prethodnog razreda |
\(f_{m+1}\) | 304 | Frekvencija razreda nakon modalnog razreda |
\(i\) | 197504 - 149378 = 48126 | Širina modalnog razreda |
\[ M_o = 149378 + \frac{84}{84 + 151} \times 48126 \]
\[ M_o = 149378 + \frac{84}{235} \times 48126 \]
\[ \frac{84}{235} \approx 0.3583 \]
\[ 0.3583 \times 48126 \approx 17202.49 \]
\[ M_o = 149378 + 17202.49 = 166580.49 \]
Stoga je mod za grupirane podatke približno 166,580.49 dolara. To znači da je najčešća cijena nekretnine u ovom skupu podataka oko 166,580.49$.
Za izračunavanje medijana za grupirane podatke koristimo sljedeću formulu:
\[ M_e = L_1 + \frac{\left(\frac{N}{2} - F\right)}{f_m} \times i \]
Gdje je:
\(L_1\) – donja granica medijalnog razreda
\(f_m\) – frekvencija medijalnog razreda
\(N\) – ukupan broj opažanja
\(F\) – suma frekvencija do medijalnog razreda (iz stupca Kumulativni niz „manje od“)
\(i\) – veličina razreda (razlika između gornje i donje granice medijalnog razreda)
Koraci:
Pronađemo medijalni razred - Prvo izračunamo \(N/2\). Za \(N=1728\) dobivamo: \(1728/2=864\). To znači da moramo pronaći razred u kojem se nalazi \(864.\) član niza. U stupcu kumulativnih frekvencija u našoj tablici, 864. vrijednost nalazi se u razredu s rasponom cijena od 149378 do 197504, budući da je kumulativna frekvencija ovog razreda 930 (označena zelenom bojom u tablici), a kumulativna frekvencija zaključno s prethodnim razredom obuhvaća 475 članova. 864 je veće od 475, ali manje od 930, što znači da je 864. član obuhvaćen kumulativnom frekvencijom o 930, koja se nalazi u 4. razredu.
Utvrdimo vrijednosti za formulu:
\(L= 149378\) (donja granica medijalnog razreda)
\(N= 1728\)
\(F = 475\) (kumulativna frekvencija razreda prije medijalnog)
\(f_m= 455\) (frekvencija medijalnog razreda)
\(i = 197504 - 149378 = 48126\) (veličina razreda)
Uvrštavamo vrijednosti u formulu:
$M_e=149378+ $
\(M_e=149378+\frac{864-475}{455} \cdot 48126 = 149378+0.855 \cdot 48126 = 190523,09\)
Medijan je prema svom položaju centralni član u sortiranom skupu podataka, što znači da 50% nekretnina ima cijene niže ili jednake 190523.09$, a 50% ima cijene više ili jednake ovoj vrijednosti. Budući da je distribucija cijena nekretnina razvučena udesno, medijan je manje pod utjecajem ekstremno visokih cijena u usporedbi s prosjekom, što ga čini reprezentativnijom mjerom središnje tendencije u iskrivljenim (asimetričnim) distribucijama.
Ovdje je dan jedan primjer grafičkog određivanja medijana. Kreirali bismo kumulativne nizove “manje od” i “više od”. Kumulativni niz “manje od” crta se i tumači u odnosu na gornju granicu razreda. Kumulativni niz “više od” crta se i tumači u odnosu na donju granicu razreda. Neovisno koristimo li apsolutne ili relativne frekvencije, oni će se sjeći točno na polovici niza - to jest, u točci koja dijeli niz na dva jednaka dijela. Ta točka označava medijan kojeg iščitavamo na x-osi.
Za izračun prvog kvartila (Q1) za grupirane podatke koristimo formulu sličnu onoj koja se koristi za medijan:
\[Q_1=L_1+\frac{1/4 \cdot N-F}{f_{Q_1}} \cdot i\]
Gdje je:
\(L_1\) - donja granica razreda prvog kvartila
\(N\) - ukupan broj opažanja
\(F\) - kumulativna frekvencija do razreda prvog kvartila
\(f_{Q_1}\)- frekvencija razreda prvog kvartila
\(i\) - širina intervala razreda prvog kvartila
Koraci:
To znači da moramo pronaći razred u kojem se nalazi 432. član. Promatramo kumulativne frekvencije u našoj tablici i uočavamo da se 432. član nalazi u razredu s rasponom cijena od 101252 do 149378, budući da kumulativna učestalost zaključno s ovim razredom iznosi 475 (označena plavom bojom u tablici).
Utvrdimo vrijednosti za formulu:
\(L= 101252\) (donja granica razreda prvog kvartila)
\(N = 1728\)
\(F = 104\) (kumulativna učestalost do razreda prvog kvartila)
\(f_{Q_1} = 371\) (frekvencija razreda prvog kvartila)
\(i = 149378 - 101252 = 48,126\) (širina razreda prvog kvartila)
Uvrstimo vrijednosti u formulu i izračunamo:
\(Q1=101252+\frac{(432-104)}{371} \cdot 48126=101252+0,884098 \cdot 48126=143800,05\)
Prvi kvartil (Q1) predstavlja vrijednost koja dijeli sortirani niz na 25% članova niza koji imaju istu ili manju vrijednost te 75 % članova koji imaju istu ili veću vrijednost. To znači da 25% nekretnina ima cijene 143800.05 dolara ili niže od toga, dok 75% nekretnina košta 143800,05 dolara ili više od toga.
Za izračun trećeg kvartila (Q3) za grupirane podatke slijedimo isti pristup kao i za prvi kvartil i medijan, ali s drugačijim položajem u podacima. Formula je:
\[Q_3=L_1+\frac{3/4 \cdot N-F}{f_{Q_3}} \cdot i\]
Gdje je:
\(L_1\) - donja granica razreda trećeg kvartila
\(N\) - ukupan broj opažanja
\(F\) - kumulativna frekvencija do razreda trećeg kvartila
\(f_{Q_1}\)- frekvencija razreda trećeg kvartila
\(i\) - širina intervala razreda trećeg kvartila
Koraci:
To znači da moramo pronaći razred u kojem se nalazi 1296. član. Promatramo kumulativne frekvencije u našoj tablici i uočavamo da se 1296. član nalazi u razredu s rasponom cijena od 245630 do 293756, budući da kumulativna učestalost zaključno s ovim razredom iznosi 1437 (označenu ljubičastom bojom u tablici), što uključuje i vrijednost na 1296. mjestu.
Utvrdimo vrijednosti za formulu:
\(L= 197504\) (donja granica razreda trećeg kvartila)
\(N = 1728\)
\(F = 1234\) (kumulativna učestalost do razreda trećeg kvartila)
\(f= 203\) (frekvencija razreda trećeg kvartila)
\(i = 245630-19754=48126\)(širina razreda trećeg kvartila)
Uvrstimo vrijednosti u formulu i izračunamo:
\(Q3=245,630+ \frac{1296-1234}{203} \cdot 48,126=245630+0,204 \cdot 48126=260328,58\)
Treći kvartil (Q3) predstavlja vrijednost koja dijeli sortirani niz na 75% članova niza koji imaju istu ili manju vrijednost te 25 % članova koji imaju istu ili veću vrijednost.To znači da 75% nekretnina ima cijene niže ili jednake 260328.58$, dok 25% nekretnina ima toliku cijenu ili višu.
Interkvartil ili interkvartilni raspon (IQR) je mjera disperzije ili raspršenosti, koja pokazuje raspon unutar kojeg se prostire središnjih 50% vrijednosti podataka. Izračunava se kao razlika između trećeg kvartila (Q3) i prvog kvartila (Q1). Na taj način, uklanja se rubnih 25 % podataka sa svake strane distribucije i ono što preostaje je 50% podataka koji se nalaze u sredini distribucije. Iako ne pripada mjerama središnje tendencije, ovdje se ova mjera navodi zbog svoje komplementarnosti s kvartilima te povezanosti s box-plot grafičkim prikazom.
IQR je koristan jer je otporan na netipične vrijednosti, usredotočujući se na središnji dio podataka i dajući bolje razumijevanje rasprostranjenosti središnjih 50% skupa podataka. Koristi se u Box-plotu kako bi se pokazala varijabilnost podataka.
Interkvartil možemo izračunati pomoću formule:
\(IQ=Q_3-Q_1\)
Gdje je:
\(Q_1\) - 1. kvartil
\(Q_3\) -3. kvartil
Budući da smo ih već izračunali, možemo ih uvrstiti u formulu i izračunati:
\(IQR = 260328,58-143800,05 = 116528,53\)
Kako tumačiti:
Interkvartil mjeri raspršenost središnjih 50% podataka. Otporan je na netipične vrijednosti jer se fokusira na središnji dio skupa podataka, zanemarujući ekstremne vrijednosti na oba kraja distribucije.
Veći IQR sugerira veću varijabilnost podataka u središnjem dijelu, dok manji IQR ukazuje na to da je središnjih 50% podataka koncentriranije.
Interkvartil za grupirane podatke o cijenama iznosi 116528.53$. I ova vrijednost predstavlja raspon srednjih 50% grupiranih cijena nekretnina u skupu podataka.
Ovdje je dan jedan primjer grafičkog određivanja kvartila. Kreirali bismo kumulativni niz “manje od”, koji se crta se i tumači u odnosu na gornju granicu razreda. Na y-osi, gdje se nalaze frekvencije, označavamo 25% opažanja (kumulativno) i iz te točke vučemo okomicu na y-os prema grafu kumulativnog niza. Iz presjeka s kumulativnim nizom, vučemo okomicu na x-os i iščitavamo prvi kvartil. Postupak ponavljamo za treći kvartil, uz tu razliku što ćemo na y-osi označiti 75%-tni element niza.
Budući da je izvorna studija željela ispitati što se događa s cijenama ako ih promatramo s obzirom na broj kamina, usmjerit ćemo pozornost na to pitanje. Ono što ćemo sljedeće učiniti je podijeliti (ili razdvojiti) zapažanja o cijenama, s obzirom na kamina. Kao što se možda sjećate iz prošlotjednog čitanja, box-plot dijagrami mogu lijepo poslužiti za to.
Sada kad smo se detaljnije upoznali s konceptima medijana i kvartila, možemo obogatiti svoje razumijevanje box-plot dijagrama. Okvirni dijagram vizualno sažima distribuciju skupa podataka i pruža ključne uvide u njegovu središnju tendenciju, širenje i simetriju, sve kroz pet sažetih statistika (poznatih i kao Tuckeyevih 5 brojeva): minimum, prvi kvartil (\(Q_1\)), medijan, treći kvartil (\(Q_3\)) i maksimum.
Koje uvide dobivamo temeljem ovih box-plotova?
Slika 5. Usporedni prikaz cijena putem box-plotova s obzirom na broj kamina u nekretninama
Box-plotovi pokazuju jasan odnos između broja kamina i cijene nekretnina. Za nekretnine bez kamina, medijalna cijena je najniža među svim kategorijama. Interkvartil ukazuje na relativno širok raspon vrijednosti, što ukazuje na varijabilnost cijena. Iako postoji nekoliko odstupanja s višim cijenama, većina nekretnina bez kamina ima cijenu ispod 300000$, što pokazuje koncentraciju u nižem cjenovnom rangu.
Kako se povećava broj kamina, raste i medijalna cijena. Nekretnine s jednim kaminom imaju višu medijalnu cijenu od onih bez ijednog, a IQR ukazuje na izraženiju varijabilnost cijene.
Međutim, u prve dvije kategorije ima više odstupanja, posebno na gornjem kraju cjenovnog spektra, što sugerira da, iako je jedan kamin povezan s višim cijenama, vjerojatno postoje i drugi faktori koje ovdje nismo razmatrali, a koji utječu na visinu cijena.
Za nekretnine s dva kamina, medijalna cijena nastavlja rasti, a IQR pokazuje još veću varijabilnost središnjih 50% cijena u odnosu na prethodne kategorije. Međutim, broj izdvojenica u ovoj skupini manji je nego u kategorijama s nula i jednim kaminom, što sugerira da kuće s dva kamina općenito spadaju u viši i stabilniji cjenovni rang.
Nekretnine s tri kamina pokazuju daljnji porast srednje cijene, s mnogo užim IQR-om, što ukazuje na manju varijabilnost, odnosno veću koncentraciju cijena oko medijalne cijene. To sugerira da kuće s tri kamina imaju dosljedne cijene unutar visokog cjenovnog ranga. Konačno, kuće s četiri kamina pokazuju najvišu medijalnu cijenu od svih kategorija, a IQR je uzak, što pokazuje da ove nekretnine imaju dosljedno visoke cijene, bez značajnih odstupanja.
Čini se da postoji trend u kojem nekretnine s više kamina obično imaju više medijalne cijene. Osim toga, varijabilnost cijena smanjuje se kako se povećava broj kamina. Iznimke su češće u nižim kategorijama kamina, posebno među kućama s jednim kaminom ili bez njega, što ukazuje na to da, iako postoje neke skupe nekretnine bez kamina, one su iznimke, a ne tipična opažanja.
Ako se ovdje zaustavimo s analizom, mogli bismo jednostavno reći da kamini povećavaju vrijednost nekretnine. Međutim, i drugi čimbenici mogu igrati ulogu, pa bi ta izjava mogla biti pogrešna ili nepotpuna. Provjerimo.
Koje uvide dobivamo temeljem ovih box-plotova?
Slika 6. Usporedni prikaz cijena nekretnina putem box-plotova s obzirom na pogled na more
Box-plot dijagrami ilustriraju cijene nekretnina razdvojene s obzirom na to nalazi li se nekretnina uz more. Za nekretnine koje se ne nalaze uz more (predstavljeno s 0), medijalna cijena znatno je niža nego za one uz more. Raspon varijacija za nekretnine koje nisu uz more pokazuje značajnu varijabilnost, s cijenama u rasponu od donje granice od oko 150000 do gornje granice nešto iznad 400000. Osim toga, u ovoj kategoriji postoje mnoge izdvojenice, s cijenama koje dosežu i preko 700000, što ukazuje na to da, iako većina nekretnina koje nisu uz more spada u niži cjenovni rang, neke dosežu više cijene (možda imaju više kamina). S druge strane, nekretnine uz more (predstavljene s 1) pokazuju mnogo višu medijalnu cijenu, s manje odstupanja. IQR je širi, ali je ukupan raspon varijacija uži u usporedbi s objektima koji se ne nalaze uz more, što sugerira manju varijabilnost cijena. To ukazuje na to da nekretnine uz obalu dosljedno imaju više cijene, a većina tih nekretnina spada u visoki cjenovni rang. Odstupanja u ovoj kategoriji su minimalna, što sugerira i da kuće uz obalu imaju stabilniju strukturu cijena, s manje ekstremnih varijacija u cijenama.
Zasad se čini da više kamina i boravak na rivi povećavaju cijenu nekretnine. Međutim, postoje i drugi čimbenici koji također mogu igrati ulogu. Pokušajte ih sami protumačiti, gledajući sljedeće grafičke prikaze. Prvi graf prikazuje podjelu cijena s obzirom na to radi li se o novoj gradnji (1) ili ne (0). Drugi graf prikazuje dva box-plota cijena, pri čemu prvi prikazuje cijene nekretnina bez klime (0), a drugi cijene nekretnina s klimom (1). Treći graf prikazuje sedam box-plotova koji prikazuju varijacije cijena nekretnina s obzirom na broj spavaćih soba.
Koje uvide dobivamo temeljem ovih box-plotova?
Slika 7. Usporedni prikaz cijena nekretnina putem box-plotova s obzirom na novogradnju, klimu i broj spavaćih soba
Protumačite sami.
Kroz ovih nekoliko primjera također smo naučili da možemo koristiti kvalitativne varijable (čak i diskontinuirane varijable, osobito ako nemaju mnogo razreda) za podjelu opažanja u skupu podataka u grupe. Na taj način uvodimo novu perspektivu za ispitivanje varijabli.
Za izračun mjera središnje tendencije u JASPu, koristi se sekcija ‘Central tendency’ koja je dio izbornika/sekcije ‘Statistics’ u sklopu ‘Descriptive statistics’. Potrebno je označiti (kliknuti na prazan kvadratić da se pojavi plava pozadina s bijelom kvačicom) one mjere koje želite izračunati.
Nakon što su podaci učitani, trebat će prilagoditi razine mjerenja za neke varijable. Prije početka rada, provjerite da sve varijable imaju odgovarajuću razinu mjerenja.(Prikaz postupka učitavanja podataka prikazan je u prvom štivu.)
Odaberite ‘Descriptives’. Za kreiranje histograma i box-plotova prikazanih u tekstu, potrebno je odabrati varijable koje se prikazuju, a potom u izborniku ‘Basic plots’ odabrati ‘Distribution plots’. Na taj su način kreirani histogrami.
U izborniku ‘Customizable plots’ odaberite ‘Bpxplots’ kako bi kreirali box-plotove.
Za kreiranje pokazatelja deskriptivne statistike, odaberite varijable, a potom odaberite pokazatelje koje želite izračunati i prikazati.
Za kreiranje usporednih box-plotova s obzirom na broj kamina, prvo moramo prilagoditi varijablu Fireplaces
. Ona je trenutno kvantitativna varijabla, no za podjelu na podskupove, JASP prihvaća samo varijable mjerene na nominalnoj i ordinalnoj razini. Kliknemo na trokutić usmjeren ulijevo na lijevom rubu prozora kako bismo dobili prikaz podataka i izmijenimo tip varijable (kliknemo na oznaku razine mjerenja uz naziv varijable i odaberemo ‘Ordinal’).
Potom odaberemo Descriptive statistics
. U desni panel lijevog prozora pod ‘Variables’ uvrstimo varijablu Price
, a potom pod ‘Split’ uvrstimo varijablu Fireplaces
. To će rezultirati sljedećim prikazom.
Slično, za podjelu prema poziciji Waterfront
odabiremo tu varijablu i unosimo ju pod ‘Split’ te dijelimo opažanja varijable Price
na prikladne podskupove.
Slijedeći ovaj postupak, kreirajte preostale usporedne box-plotove.
Učitajte podatke.
> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 20)
## Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1 132500 0.09 0 42 50000 0 0
## 2 181115 0.92 0 0 22300 0 0
## 3 109000 0.19 0 133 7300 0 0
## 4 155000 0.41 0 13 18700 0 0
## 5 86060 0.11 0 0 15000 1 1
## 6 120000 0.68 0 31 14000 0 0
## 7 153000 0.40 0 33 23300 0 0
## 8 170000 1.21 0 23 14600 0 0
## 9 90000 0.83 0 36 22200 0 0
## 10 122900 1.94 0 4 21200 0 0
## 11 325000 2.29 0 123 12600 0 0
## 12 120000 0.92 0 1 22300 0 0
## 13 85860 8.97 0 13 4800 0 0
## 14 97000 0.11 0 153 3100 0 0
## 15 127000 0.14 0 9 300 0 0
## 16 89900 0.00 0 88 2500 0 0
## 17 155000 0.13 0 9 300 0 0
## 18 253750 2.00 0 0 49800 0 1
## 19 60000 0.21 0 82 8500 0 0
## 20 87500 0.88 0 17 19400 0 0
## Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1 3 4 2 906 35 2 1
## 2 2 3 2 1953 51 3 0
## 3 2 3 3 1944 51 4 1
## 4 2 2 2 1944 51 3 1
## 5 2 2 3 840 51 2 0
## 6 2 2 2 1152 22 4 1
## 7 4 3 2 2752 51 4 1
## 8 4 2 2 1662 35 4 1
## 9 3 4 2 1632 51 3 0
## 10 2 2 1 1416 44 3 0
## 11 4 2 2 2894 51 7 0
## 12 2 2 2 1624 51 3 0
## 13 3 4 2 704 41 2 0
## 14 2 3 3 1383 57 3 0
## 15 4 2 2 1300 41 3 0
## 16 2 3 3 936 57 3 0
## 17 4 2 2 1300 41 3 0
## 18 2 2 1 2816 71 4 1
## 19 4 3 2 924 35 2 0
## 20 4 2 2 1092 35 3 0
## Bathrooms Rooms
## 1 1.0 5
## 2 2.5 6
## 3 1.0 8
## 4 1.5 5
## 5 1.0 3
## 6 1.0 8
## 7 1.5 8
## 8 1.5 9
## 9 1.5 8
## 10 1.5 6
## 11 1.0 12
## 12 2.0 6
## 13 1.0 4
## 14 2.0 5
## 15 1.5 8
## 16 1.0 4
## 17 1.5 7
## 18 2.5 12
## 19 1.0 6
## 20 1.0 6
> par(mfrow = c(1,2))
>
> hist(nekretnine$Age)
> boxplot(nekretnine$Age)
> par(mfrow = c(1,2))
>
> hist(nekretnine$Price)
> boxplot(nekretnine$Price)
> par(mfrow = c(1,2))
>
> hist(nekretnine$Fireplaces)
> boxplot(nekretnine$Fireplaces)
> par(mfrow = c(1,2))
>
> hist(nekretnine$Rooms)
> boxplot(nekretnine$Rooms)
> library(psych)
## Warning: package 'psych' was built under R version 4.3.3
> deskr_nekretnine <- describe(nekretnine, quant = c(0.25, 0.75))
> deskr_nekretnine
## vars n mean sd median trimmed mad min
## Price 1 1728 211966.71 98441.39 189900.00 200230.92 78726.06 5000
## Lot.Size 2 1728 0.50 0.70 0.37 0.39 0.28 0
## Waterfront 3 1728 0.01 0.09 0.00 0.00 0.00 0
## Age 4 1728 27.92 29.21 19.00 22.18 14.83 0
## Land.Value 5 1728 34557.19 35021.17 25000.00 28350.54 16679.25 200
## New.Construct 6 1728 0.05 0.21 0.00 0.00 0.00 0
## Central.Air 7 1728 0.37 0.48 0.00 0.33 0.00 0
## Fuel.Type 8 1728 2.43 0.70 2.00 2.29 0.00 2
## Heat.Type 9 1728 2.53 0.78 2.00 2.41 0.00 2
## Sewer.Type 10 1728 2.70 0.48 3.00 2.75 0.00 1
## Living.Area 11 1728 1754.98 619.94 1634.50 1706.46 580.44 616
## Pct.College 12 1728 55.57 10.33 57.00 56.93 8.90 20
## Bedrooms 13 1728 3.15 0.82 3.00 3.14 1.48 1
## Fireplaces 14 1728 0.60 0.56 1.00 0.59 0.00 0
## Bathrooms 15 1728 1.90 0.66 2.00 1.88 0.74 0
## Rooms 16 1728 7.04 2.32 7.00 6.95 2.97 2
## max range skew kurtosis se Q0.25 Q0.75
## Price 775000.0 770000.0 1.57 4.17 2368.13 1.45e+05 259000.00
## Lot.Size 12.2 12.2 7.18 78.10 0.02 1.70e-01 0.54
## Waterfront 1.0 1.0 10.58 110.08 0.00 0.00e+00 0.00
## Age 225.0 225.0 2.49 7.38 0.70 1.30e+01 34.00
## Land.Value 412600.0 412400.0 3.10 16.13 842.48 1.51e+04 40200.00
## New.Construct 1.0 1.0 4.28 16.36 0.01 0.00e+00 0.00
## Central.Air 1.0 1.0 0.55 -1.70 0.01 0.00e+00 1.00
## Fuel.Type 4.0 2.0 1.32 0.25 0.02 2.00e+00 3.00
## Heat.Type 4.0 2.0 1.04 -0.55 0.02 2.00e+00 3.00
## Sewer.Type 3.0 2.0 -1.04 -0.43 0.01 2.00e+00 3.00
## Living.Area 5228.0 4612.0 0.90 1.26 14.91 1.30e+03 2137.75
## Pct.College 82.0 62.0 -1.04 0.60 0.25 5.20e+01 64.00
## Bedrooms 7.0 6.0 0.40 0.65 0.02 3.00e+00 4.00
## Fireplaces 4.0 4.0 0.40 0.72 0.01 0.00e+00 1.00
## Bathrooms 4.5 4.5 0.32 -0.45 0.02 1.50e+00 2.50
## Rooms 12.0 10.0 0.28 -0.60 0.06 5.00e+00 8.25
> deskr_nekretnine[, c(2, 3, 5, 7, 8, 14, 15)]
## n mean median mad min Q0.25 Q0.75
## Price 1728 211966.71 189900.00 78726.06 5000 1.45e+05 259000.00
## Lot.Size 1728 0.50 0.37 0.28 0 1.70e-01 0.54
## Waterfront 1728 0.01 0.00 0.00 0 0.00e+00 0.00
## Age 1728 27.92 19.00 14.83 0 1.30e+01 34.00
## Land.Value 1728 34557.19 25000.00 16679.25 200 1.51e+04 40200.00
## New.Construct 1728 0.05 0.00 0.00 0 0.00e+00 0.00
## Central.Air 1728 0.37 0.00 0.00 0 0.00e+00 1.00
## Fuel.Type 1728 2.43 2.00 0.00 2 2.00e+00 3.00
## Heat.Type 1728 2.53 2.00 0.00 2 2.00e+00 3.00
## Sewer.Type 1728 2.70 3.00 0.00 1 2.00e+00 3.00
## Living.Area 1728 1754.98 1634.50 580.44 616 1.30e+03 2137.75
## Pct.College 1728 55.57 57.00 8.90 20 5.20e+01 64.00
## Bedrooms 1728 3.15 3.00 1.48 1 3.00e+00 4.00
## Fireplaces 1728 0.60 1.00 0.00 0 0.00e+00 1.00
## Bathrooms 1728 1.90 2.00 0.74 0 1.50e+00 2.50
## Rooms 1728 7.04 7.00 2.97 2 5.00e+00 8.25
Za izračune s grupiranim podacima možemo se poslužiti s grupiranim podacima kreiranim u prošlom štivu.
## [1] 5000
## [1] 775000
## [1] 16
## [1] 48126
> tablica_frekvencija
## L1 L2 Frekvencija xi fixi za_nazivnik_ha logxi
## 1 5000 53126 7 29063 203441 2.408561e-04 4.463340
## 2 53126 101252 97 77189 7487333 1.256656e-03 4.887555
## 3 101252 149378 371 125315 46491865 2.960539e-03 5.098003
## 4 149378 197504 455 173441 78915655 2.623370e-03 5.239152
## 5 197504 245630 304 221567 67356368 1.372045e-03 5.345505
## 6 245630 293756 203 269693 54747679 7.527077e-04 5.430870
## 7 293756 341882 128 317819 40680832 4.027450e-04 5.502180
## 8 341882 390008 74 365945 27079930 2.022162e-04 5.563416
## 9 390008 438134 40 414071 16562840 9.660179e-05 5.617075
## 10 438134 486260 19 462197 8781743 4.110801e-05 5.664827
## 11 486260 534386 9 510323 4592907 1.763589e-05 5.707845
## 12 534386 582512 4 558449 2233796 7.162695e-06 5.746984
## 13 582512 630638 6 606575 3639450 9.891605e-06 5.782885
## 14 630638 678764 7 654701 4582907 1.069190e-05 5.816043
## 15 678764 726890 1 702827 702827 1.422825e-06 5.846848
## 16 726890 775016 3 750953 2252859 3.994924e-06 5.875613
## filogxi
## 1 31.243383
## 2 474.092875
## 3 1891.359135
## 4 2383.814055
## 5 1625.033544
## 6 1102.466544
## 7 704.279022
## 8 411.692771
## 9 224.682993
## 10 107.631715
## 11 51.370606
## 12 22.987934
## 13 34.697307
## 14 40.712301
## 15 5.846848
## 16 17.626838
> tablica_stivo3 <- tablica_frekvencija[,c(1:4)]
> tablica_stivo3
## L1 L2 Frekvencija xi
## 1 5000 53126 7 29063
## 2 53126 101252 97 77189
## 3 101252 149378 371 125315
## 4 149378 197504 455 173441
## 5 197504 245630 304 221567
## 6 245630 293756 203 269693
## 7 293756 341882 128 317819
## 8 341882 390008 74 365945
## 9 390008 438134 40 414071
## 10 438134 486260 19 462197
## 11 486260 534386 9 510323
## 12 534386 582512 4 558449
## 13 582512 630638 6 606575
## 14 630638 678764 7 654701
## 15 678764 726890 1 702827
## 16 726890 775016 3 750953
> tablica_stivo3$kn_manje_od <- c()
>
> tablica_stivo3$kn_manje_od <-cumsum(tablica_stivo3$Frekvencija)
>
> tablica_stivo3
## L1 L2 Frekvencija xi kn_manje_od
## 1 5000 53126 7 29063 7
## 2 53126 101252 97 77189 104
## 3 101252 149378 371 125315 475
## 4 149378 197504 455 173441 930
## 5 197504 245630 304 221567 1234
## 6 245630 293756 203 269693 1437
## 7 293756 341882 128 317819 1565
## 8 341882 390008 74 365945 1639
## 9 390008 438134 40 414071 1679
## 10 438134 486260 19 462197 1698
## 11 486260 534386 9 510323 1707
## 12 534386 582512 4 558449 1711
## 13 582512 630638 6 606575 1717
## 14 630638 678764 7 654701 1724
## 15 678764 726890 1 702827 1725
## 16 726890 775016 3 750953 1728
> redak_max_frekvencije <- which.max(tablica_stivo3$Frekvencija)
> redak_max_frekvencije
## [1] 4
> mod_grupirani <- tablica_stivo3$L1[redak_max_frekvencije] + (tablica_stivo3$Frekvencija[redak_max_frekvencije]-tablica_stivo3$Frekvencija[redak_max_frekvencije-1])/(tablica_stivo3$Frekvencija[redak_max_frekvencije]-tablica_stivo3$Frekvencija[redak_max_frekvencije-1] +tablica_stivo3$Frekvencija[redak_max_frekvencije]-tablica_stivo3$Frekvencija[redak_max_frekvencije+1])*(tablica_stivo3$L2[redak_max_frekvencije]-tablica_stivo3$L1[redak_max_frekvencije])
>
> mod_grupirani
## [1] 166580.5
> n_q1 <- sum(tablica_stivo3$Frekvencija)/4
>
> n_q1
## [1] 432
> n_me <- sum(tablica_stivo3$Frekvencija)/2
>
> n_me
## [1] 864
> n_q3 <- sum(tablica_stivo3$Frekvencija)*3/4
>
> n_q3
## [1] 1296
> redak_Q1 <- which(tablica_stivo3$kn_manje_od >= n_q1)[1]
> redak_Q1
## [1] 3
> redak_me <- which(tablica_stivo3$kn_manje_od >= n_me)[1]
> redak_me
## [1] 4
> redak_Q3 <- which(tablica_stivo3$kn_manje_od >= n_q3)[1]
> redak_Q3
## [1] 6
> q1_grupirani <- tablica_stivo3$L1[redak_Q1] + (n_q1 - tablica_stivo3$kn_manje_od[redak_Q1-1])/tablica_stivo3$Frekvencija[redak_Q1]* (tablica_stivo3$L2[redak_Q1] - tablica_stivo3$L1[redak_Q1])
>
> q1_grupirani
## [1] 143800.1
> medijan_grupirani <- tablica_stivo3$L1[redak_me] + (n_me - tablica_stivo3$kn_manje_od[redak_me-1])/tablica_stivo3$Frekvencija[redak_me]* (tablica_stivo3$L2[redak_me] - tablica_stivo3$L1[redak_me])
>
> medijan_grupirani
## [1] 190523.1
> q3_grupirani <- tablica_stivo3$L1[redak_Q3] + (n_q3 - tablica_stivo3$kn_manje_od[redak_Q3-1])/tablica_stivo3$Frekvencija[redak_Q3]* (tablica_stivo3$L2[redak_Q3] - tablica_stivo3$L1[redak_Q3])
>
> q3_grupirani
## [1] 260328.6
> IQ = q3_grupirani - q1_grupirani
> IQ
## [1] 116528.5
> boxplot(nekretnine$Price ~ nekretnine$Fireplaces)
> boxplot(nekretnine$Price ~ nekretnine$Waterfront)
> par(mfrow= c(1,3))
> boxplot(nekretnine$Price ~ nekretnine$New.Construct, ylab = "Cijena nekretnina", xlab = "Novogradnja")
> boxplot(nekretnine$Price ~ nekretnine$Central.Air, ylab = "Cijena nekretnina", xlab = "Klima")
> boxplot(nekretnine$Price ~ nekretnine$Bedrooms, ylab = "Cijena nekretnina", xlab = "Broj spavacih soba")
Za kreiranje grafičkih prikaza, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s historgamom.
Za kreiranje box-plota, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s box-plotom.
Za kreiranje grafičkih prikaza, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s historgamom.
Za kreiranje box-plota, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s box-plotom.
Za kreiranje histograma, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s historgamom.
Ovdje možemo uočiti da dobiveni histogram nije pretjerano informativan i ima nepotrebno puno razreda. To možete izmijeniti ako dvaput kliknete na razrede na x-osi. Tada će se s desne strane otvoriti izbornik u kojem ispod ‘Axis Options’ odaberete ikonu sa stupcima. U izborniku koji se potom otvori, odaberite ‘Number of Bins’ i upišite primjereni broj razreda (u ovom slučaju, 4).
Ovdje već možete vidjeti razliku između MS Excela i specijaliziranih statističkih softvera. Iako bi za diskontinuiranu kvantitativnu varijablu trebali imati precizne granice, ovdje su kreirane prave granice (jer ovaj softver ne razmatra vrstu varijable pri kreiranju grafova).
Za kreiranje box-plota, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s box-plotom.
U prošlom štivu ste se upoznali s kreiranje pokazatelja deskriptivne statistike za negrupirane podatke koristeći ‘Descriptive statistics’ iz ‘Data Analysis’. Ovdje ćemo pristupiti izračunu koristeći ugrađene funkcije. Jedan od razloga je to što prvi pristup ne daje izračune kvartila. Funkcije su =MIN()
za minimum, =QUARTILE.EXC()
za prvi i treći kvartil, =MEDIAN()
za medijan, =AVERAGE()
za prosjek te =MODE.SNGL()
za prvu modalnu vrijednost.
Funkcija =QUARTILE.EXC()
ima dva argumenta: prvi argument je niz podataka, a drugi argument ukazuje na kvartil koji se želi izračunati. Za prvi kvartil, upišite 1 (npr. =QUARTILE.EXC(A1:A100, 1)
). Za drugi kvartil (medijan) upišite 2 (npr. =QUARTILE.EXC(A1:A100, 2)
). Za treći kvartil upišite 3 (npr. =QUARTILE.EXC(A1:A100, 3)
). U jednoj ćeliji moguće je izračunati samo po jednu vrijednost, pa ako upišete npr. =QUARTILE.EXC(A1:A100, 1,2,3)
dobit ćete grešku.
Po izračunu, dobivaju se sljedeće vrijednosti:
Za grupirani niz podataka, koriste se izrazi za izračun (formule) prikazane u tekstu.
Dobivaju se sljedeći rezultati:
Moguće je kreirati i box-plotove za dijelove varijabli, podijeljene prema modalitetima druge varijable, kao što je prikazano na grafu. Kreirajte prvo box-plot za osnovnu varijablu, tj. cijenu (Price).
Potom kliknite na ‘Chart Tools’, ‘Design’ i odaberite ‘Select data’. Otvorit će se izbornik kao što je prikazano slikom niže. Ispod ‘Horizontal (category) Axis Labels’ kliknite na ‘Edit’ te unesite raspon varijable prema čijom modalitetima se vrši podjela cijena.
S obzirom da se varijabla ‘Fireplaces’ tretira kao varijabla na nominalnoj razini mjerenja (kategorijska), modaliteti su prikazani onim redoslijedom kojim se pojavljuju u podacima (umjesto po veličini).
Na sličan način kreira se i sljedeći graf. Prvo kreirajte box-plot za varijablu cijena. Ako ste već spremili kreirani graf, možete u postojećem kliknuti na ‘Select data’, a potom izmijeniti raspon, tj. varijablu u desnom dijelu prozora.
Za ‘Waterfront’ to izgleda ovako:
Po uzoru na prikazano, kreirajte ostale grafikone samostalno.
De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.
Harrell Jr, F. E., & Harrell Jr, M. F. E. (2019). Package ‘hmisc’. CRAN2018, 2019, 235-236. https://cran.uib.no/web/packages/Hmisc/Hmisc.pdf
Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.
Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.
JASP Team (2024). JASP (Version 0.19.3)[Computer software].
Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/
Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf
Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.
Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.
Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.