U ovom tekstu, fokusirat ćemo se na položajne mjere središnje tendencije: mod, medijan i kvartile.

Slučaj: Nekretnine

Web stranica Zillow procjenjuje cijene kuća za više od 100.000.000 domova diljem Sjedinjenih Država. (Pa, zapravo ih zovu Zestimates.) Prema njihovim vlastitim riječima,Koristimo vlasničke automatizirane modele vrednovanja koji primjenjuju napredne algoritme za analizu naših podataka kako bismo identificirali odnose unutar određenog zemljopisnog područja, između ovih podataka vezanih uz kuću i stvarnih prodajnih cijena. Karakteristike kuće, kao što su kvadratura, lokacija ili broj kupaonica, dobivaju različite težine u skladu s njihovim utjecajem na prodajne cijene kuća u svakoj određenoj geografiji tijekom određenog vremenskog razdoblja, što rezultira skupom pravila vrednovanja ili modelima koji se primjenjuju za generiranje Zestimatea svake kuće. Konkretno, neki od podataka koje koristimo u ovom algoritmu uključuju:

  • Fizičke karakteristike: Lokacija, veličina parcele, kvadratura, broj spavaćih soba i kupaonica i mnogi drugi detalji.
  • Porezne procjene: informacije o porezu na imovinu, stvarni plaćeni porezi na imovinu, iznimke od poreznih procjena i druge informacije navedene u evidenciji poreznih procjenitelja.
  • Prethodne i tekuće transakcije: Stvarne prodajne cijene tijekom vremena same kuće i usporedive nedavne prodaje obližnjih domova

(Prilagođeno iz Dick De Veaux, 7. listopada 2015.)

Uvid u statistički skup i varijable

Promatra se uzorak od 1728 nekretnina u SADu prikupljenih tijekom 2015. godine putem web stranica, prema varijablama cijena, veličina parcele, blizina vode, starosti, vrijednosti zemljišta, novogradnje, posjedovanja klime, vrste goriva, načina grijanja, vrste kanalizacije, veličine stambenog prostora, postotku fakultetski obrazovanih pojedinaca u susjedstvu nekretnine, broju soba (prostorija), broju spavaćih soba, broju kupaonica i broju kamina.

Napomena: pri analizi ovih podataka, u tablicama i grafikonima koriste se nazivi varijabli dodijeljeni u izvornom skupu podataka, a u tumačenjima prevedene inačice.

Razmatrane varijable prema vrsti i razini mjerenja:

  1. Cijena (Price)
  • Vrsta: Kontinuirana kvantitativna varijabla
  • Razina mjerenja: Omjerna
  • Objašnjenje: Cijena je kontinuirana varijabla jer može poprimiti bilo koju vrijednost unutar raspona (od 5.000 do 775.000). Ima smislenu nultu točku (cijena 0 znači da nema troškova), a razlike i omjeri između vrijednosti mogu se protumačiti (npr. kuća po cijeni od 500.000 pet je puta skuplja od one s cijenom od 100.000).
  1. Veličina parcele (Lot.Size)
  • Vrsta: Kontinuirana kvantitativna varijabla
  • Razina mjerenja: Omjerna
  • Objašnjenje: Veličina lota je kontinuirana varijabla mjerena u intervalu koji može poprimiti vrijednosti od 0 do 12,2. Ovo je također varijabla mjerena na omjernoj razini jer ima pravu nulu (veličina parcele 0 znači da nema zemlje), a omjeri između vrijednosti su značajni.
  1. Blizina vode (Waterfront)
  • Vrsta: Opisna kvalitativna varijabla - Dihotomna/binarna (kategorička)
  • Razina mjerenja: Nominalna
  • Objašnjenje: Waterfront je binarna kategorijska varijabla koja pokazuje nalazi li se nekretnina uz vodu (vrijednosti se kreću od 0 do 1). Nominalna je jer su kategorije jednostavno oznake bez ikakvog inherentnog redoslijeda.
  1. Starost (Age)
  • Vrsta: Kontinuirana kvantitativna varijabla
  • Razina mjerenja: Omjerna
  • Objašnjenje: Dob je kontinuirana varijabla koja predstavlja starost nekretnine. To je varijabla mjerena na omjernoj razini jer ima pravu nulu i može se smisleno usporediti u smislu omjera (npr. zgrada stara 20 godina dvostruko je starija od 10 godina).
  1. Vrijednost zemljišta (Land.Value)
  • Vrsta: Kontinuirana kvantitativna varijabla
  • Razina mjerenja: Omjerna
  • Objašnjenje: Vrijednost zemljišta, kao i cijena, kontinuirana je varijabla koja se mjeri u valutnim jedinicama. Ima pravu nultu točku i omogućuje smislene usporedbe razlika i omjera.
  1. Nova gradnja (New.Construct)
  • Vrsta: Opisna kvalitativna varijabla - Dihotomna/binarna (kategorička)
  • Razina mjerenja: Nominalna
  • Objašnjenje: Ovo je binarna varijabla koja pokazuje je li objekt novokonstruiran (vrijednosti 0 ili 1). Kao i Waterfront, nominalna je, jer nema redoslijeda između kategorija.
  1. Klima (Central.Air)
  • Vrsta: Opisna kvalitativna varijabla - Dihotomna/binarna (kategorička)
  • Razina mjerenja: Nominalna
  • Objašnjenje: Central Air pokazuje ima li objekt centralni klima uređaj (vrijednosti 0 ili 1). Ovo je također nominalno jer je to jednostavan pokazatelj da/ne bez ikakvog naloga.
  1. Vrsta goriva (Fuel.Type)
  • Vrsta: Opisna kvalitativna varijabla (kategorička)
  • Razina mjerenja: Nominalna
  • Objašnjenje: Vrsta goriva vjerojatno kategorizira vrstu goriva koje nekretnina koristi (npr. plin, električno, ulje). Ovo je nominalna varijabla jer su kategorije nazivi bez ikakvog prirodnog redoslijeda.
  1. Vrsta topline (Heat.Type)
  • Vrsta: Opisna kvalitativna varijabla (kategorička)
  • Razina mjerenja: Nominalna
  • Objašnjenje: Slično vrsti goriva, vrsta topline kategorizira korišteni sustav grijanja (npr. prisilni zrak, zračenje itd.). Također je nominalna, jer kategorije ne slijede nikakav određeni redoslijed.
  1. Vrsta kanalizacije (Sewer.Type)
  • Vrsta: Opisna kvalitativna varijabla (kategorička)
  • Razina mjerenja: Nominalna
  • Objašnjenje: Vrsta kanalizacije kategorizira vrstu kanalizacijskog sustava koji nekretnina koristi (npr. javni, septički). To je nominalno, jer kategorije ne podrazumijevaju poredak ili redoslijed.
  1. Stambeni prostor (Living.Area)
  • Vrsta: Kontinuirana kvantitativna varijabla
  • Razina mjerenja: Omjerna
  • Objašnjenje: Dnevni prostor predstavlja veličinu unutarnjeg prostora u kvadratnim stopama. To je kontinuirana varijabla sa smislenom nultom točkom, što je čini varijablom omjera.
  1. Fakultet (Pct.College)
  • Vrsta: Kontinuirana kvantitativna varijabla
  • Razina mjerenja: Omjerna
  • Objašnjenje: Ova varijabla predstavlja postotak fakultetski obrazovanih pojedinaca na području nekretnine. To je kontinuirana varijabla jer može poprimiti bilo koju vrijednost između 0 i 100, a ima pravu nulu.
  1. Spavaće sobe (Bedrooms)
  • Vrsta: Diskretna
  • Razina mjerenja: Omjerna
  • Objašnjenje: Spavaće sobe su diskretna varijabla jer broje cijele jedinice (broj spavaćih soba). Također je varijabla mjerena na omjernoj razini jer ima pravu nulu (nekretnina može imati 0 spavaćih soba), a omjeri su značajni.
  1. Kamini (Fireplaces)
  • Vrsta: Diskontinuirana kvantitativna (diskretna) varijabla
  • Razina mjerenja: Omjerna
  • Objašnjenje: Slično spavaćim sobama, kamini su diskretna varijabla koja predstavlja broj jedinica (broj kamina). Ima pravu nulu, a omjeri su interpretabilni (npr. kuća s 4 kamina ima dvostruko više od one s 2 kamina).
  1. Kupaonice (Bathrooms)
  • Vrsta: Diskontinuirana kvantitativna (diskretna) varijabla
  • Razina mjerenja: Omjerna
  • Objašnjenje: Kupaonice su broj jedinica i diskretne su. To je varijabla mjerena na omjernoj razini zbog svoje prave nule i činjenice da su razlike i omjeri između vrijednosti značajni.
  1. Sobe (Rooms)
  • Vrsta: Diskontinuirana kvantitativna (diskretna) varijabla
  • Razina mjerenja: Omjerna
  • Objašnjenje: Sobe je diskretna varijabla koja broji ukupan broj soba u objektu. Ima smislenu nulu i omogućuje tumačenje omjera između vrijednosti.



Grafički prikazi: histogram i box-plot

Prvo ćemo se posvetiti grafičkim prikazima i usporedbi histograma i box-plotova. Iščitavanje histograma detaljno je opisano u prošlom štivu. Box-plot dijagram, koji se naziva i kutijasti ili pravokutni dijagram, jednostavan je način vizualnog prikaza distribucije skupa podataka. Čak i ako još uvijek niste upoznati s određenim statističkim pojmovima kao što su kvartili i medijan, grafikon još uvijek može pomoći da steknete dojam kako su vaši podaci raspoređeni, gdje se nalazi većina opažanja i postoje li ekstremne ili netipične vrijednosti.

Box-plot sastoji se od pravokutnika i dva kraka (nazivaju se još i brkovi) koji se protežu s obje strane pravokutnika.

Box-plot:

  • Pravokutnik predstavlja središnjih 50% podataka. Ovdje je grupirana središnja polovica opažanja.

  • Linija u sredini pravokutnika predstavlja medijan, što je vrijednost koja dijeli podatke na dva jednaka dijela. Polovica opažanja poprima vrijednosti manje ili jednake naznačene linijom, dok druga polovica poprima linijom naznačenu vrijednost ili veće vrijednosti.

  • 50 % središnjih podataka ujedno predstavlja i interkvartilni raspon. Donja stranica pravokutnika predstavlja prvi kvartil, a gornja predstavlja treći kvartil. Prvi kvartil dijeli niz na prvu četvrtinu koja poprima vrijednosti manje ili jednaku prvom kvartilu, dok preostale tri četvrtine poprimaju vrijednost naznačenu prvim kvartilom ili veće od toga. Slično, treći kvartil dijeli niz na 75% podataka koji poprimaju vrijednosti manje ili jednake trećem kvartilu, dok preostalih 25% opažanja poprima vrijednosti veće ili jednake trećem kvartlu.

  • Također, između donje stranice pravokutnika (tj. prvog kvartila) i linije u sredini (medijana), nalazi se 25% podataka. Između linije u sredini pravokutnika (medijana) i gornje granice pravokutnika (tj. trećeg kvartila), također se rasprostire 25 % podataka.

  • Linije koje se protežu od pravokutnika, nazvani krakovi ili brkovi, pokazuju koliko se podaci rasprostiru izvan središnjih 50% podataka.

  • Brkovi se općenito protežu do minimalnih i maksimalnih vrijednosti podataka, iako se ponekad zaustave u određenoj točki i ne idu sve do krajnosti (to se događa u slučaju kad određena opažanja bitno odstupaju od većine podataka, odnosno u slučaju izdvojenica). U situaciji kad se krakovi ili brkovi protežu od najmanje do najveće vrijednosti u nizu, zapravo predstavljaju raspon varijacija (razlika između najmanje i najveće vrijednosti u nizu).

  • Izdvojenice, ekstremi ili netipične vrijednosti su točke koje su znatno veće ili niže od ostalih podataka. Prikazane su kao pojedinačne točkice izvan ruba krakova ili brkova. Ove netipične vrijednosti mogu ukazivati na posebne slučajeve ili neobične opažanja.

Kako čitati box-plot:

  • Gdje je većina podataka? Što je pravokutnik veći, to je srednjih 50% podataka više raspršeno. Ako je pravokutnik mali (uzak), to znači da su podaci više koncentrirani u malom rasponu vrijednosti oko medijana.

  • Što signalizira središte podataka? Linija unutar pravokutnika (medijan) govori vam gdje je se nalazi onaj član niza koji dijeli niz na dva jednaka dijela, tako da možete lako vidjeti jesu li podaci uravnoteženi ili je više njih raspršeno prema jednom kraju.

  • Koliko su podaci raspršeni? Duljina brkova i veličina pravokutnika pomažu stjecanju uvida jesu li opažanja koncentrirana ili raspoređena u širem rasponu.

  • Postoje li ekstremne vrijednosti? Sve pojedinačne točke (izdvojenice) izvan krakova ili brkova pokazuju opažanja koje se prilično razlikuju od ostalih.

Protumačite sljedeće grafičke prikaze.

Slika 1. Histogram i box-plot starosti nekretnina

  • Histogram prikazuje distribuciju varijable Starosti, pri čemu os y predstavlja broj nekretnina (frekvencije), a os x prikazuje dobne skupine. Raspodjela je izrazito izdužena udesno, što ukazuje na to da je većina nekretnina novija, što se vidi po visokoj učestalosti u nižim dobnim skupinama i naglom padu u starijim dobnim skupinama. Najveći broj nekretnina star je otprilike između 0 i 20 godina, s naglim padom učestalosti nekretnina kako se starost povećava. Vrlo malo nekretnina je starije od 100 godina, a samo mali broj nekretnina spada u raspon od 50-100 godina. Dugi desni rep označava da, iako postoje neke starije nekretnine, one su daleko rjeđe u skupu podataka. Ukupni raspon, ili razliku između najveće i najmanje vrijednosti u nizu nazivamo raspon varijacija. Prema histogramu, taj se raspon kreće od 0 do otprilike 240 godina.

  • Drugi grafikon je box-plot dijagram koji daje sažetak dobne raspodjele nekretnina, usredotočujući se na statističke mjere kao što su medijan, kvartili i izdvojenice.

  • Medijalna dob je relativno niska, na što ukazuje središnja linija unutar box-plotova, što odražava središnju tendenciju prema mlađim nekretninama.

  • Interkvartilni raspon (IQ ili IQR), predstavljen je širinom pravokutnika i pokazuje srednjih 50% starosti nekretnina. Širina je relativno mala, što sugerira da je većina nekretnina grupirana u mlađim dobnim skupinama.

  • Krakovi ili brkovi pokazuju raspon podataka, pri čemu su donji brkovi ovdje puno kraći, što ukazuje na manje iznimno mladih nekretnina, a gornji brkovi se protežu prema starijim nekretninama, iako s relativno malo ekstremnih vrijednosti.

  • Postoje neke iznimke predstavljene točkama izvan gornjeg brka, što pokazuje da je nekoliko nekretnina mnogo starije od većine.

  • Oba grafikona su vizualni prikazi varijable Starosti, ali prikazuju podatke iz različitih perspektiva. I histogram i box-plot dijagram odražavaju starosnu raspodjelu nekretnina. Oba otkrivaju da je većina nekretnina relativno nova (mlađa), s malim brojem starijih nekretnina. Histogram pruža detaljne informacije o učestalosti različitih skupina starosti nekretnina, što olakšava uvid u to koliko nekretnina spada u svaku starosnu kategoriju. Također, naglašava desnostranu iskrivljenost i raspodjelu nekretnina. Box-plot dijagram, s druge strane, sažima podatke kroz statističke mjere (medijan, kvartili, IQ i izdvojenice). Učinkovitije prikazuje opći trend podataka i prisutnost netipičnih vrijednosti. Brkovi i izdvojenice daju uvide koliko su podaci rasprostranjeni, dok nam histogram omogućuje uvid u točnu raspodjelu podataka i gdje se nalazi koliko podataka.

  • Histogram prikazuje više detalja o učestalosti nekretnina u svakoj dobnoj skupini, što nam omogućuje uvide kako su podaci raspoređeni u svim dobnim skupinama. Box-plot dijagram učinkovito ističe širenje i odstupanja u podacima. Pruža jasnu vizualizaciju središnje tendencije (medijan) i prisutnosti bilo kakvih ekstremnih vrijednosti. Iako oba grafikona predstavljaju varijablu starosti nekretnina, pružaju komplementarne uvide.




Protumačimo sljedeće grafičke prikaze.

Slika 2. Histogram i box-plot cijena nekretnina

  • Box-plot na slici ilustrira raspodjelu cijena nekretnina. Medijalna cijena je jasno vidljiva nešto ispod 200000. Čini se da je prvi ili donji kvartil (\(Q_1\)) oko 145000 dolara, a treći ili gornji kvartil (\(Q_3\)) blizu 259000 dolara. To nam daje interkvartilni raspon (IQ) od oko 114000 dolara. Brkovi se protežu do najnižih i najviših opažanja unutar 1,5 puta većeg IQ-a, a postoji nekoliko odstupanja koja se protežu iznad 500000 dolara, dostižući maksimalnu cijenu od oko 775000 dolara. Sve u svemu, ovaj box-plot dijagram pokazuje asimetričnu distribuciju s nekoliko nekretnina s visokim cijenama koje kreiraju izduženi desni krak distribucije cijena.

  • Histogram pruža detaljniju raspodjelu frekvencija cijena nekretnina. Većina nekretnina prema svojoj cijeni spada u raspon od 150000 do 250000 dolara. Tamo se nalazi i modalna (najčešća) cijena, a grafičko određivanje moda prikazano je narančastim linijama na histogramu. Nakon otprilike 200000 dolara, broj nekretnina počinje se smanjivati, a vrlo je malo nekretnina s cijenom većom od 600000 dolara. Ovaj histogram dodatno potvrđuje asimetriju s velikim brojem nekretnina s nižim cijenama i dugim krakom koji se proteže na više vrijednosti.

  • Box-plot i histogram zajedno nude komplementarne uvide u raspodjelu cijena nekretnina. Box-plot ističe ključne pokazatelje poput medijana, kvartila i izdvojenica, vizualno naglašavajući širinu raspona vrijednosti srednjih 50% podataka. S druge strane, histogram pruža detaljnije informacije o rasporedu učestalosti cijena. Oba grafa potvrđuju desnostrano asimetričnu raspodjelu cijena nekretnina, pri čemu je većina nekretnina koncentrirana u nižim cjenovnim razredima, ali nekolicina netipičnih vrijednosti proteže se prema višem cjenovnom rangu.




Protumačimo sljedeće grafičke prikaze.

Slika 3. Histogram i box-plot broja kamina u nekretninama

  • Histogram prikazuje učestalost nekretnina prema broju kamina (koliko nekretnina ima koji broj kamina). Na x-osi se nalazi varijabla – broj kamina. Vidimo da ima precizne granice razreda, jer prikazuje diskontinuiranu varijablu. Većina nekretnina ima nula ili jedan kamin, s nešto više nekretnina koje imaju jedan kamin od onih koje nemaju kamin. Broj nekretnina s dva kamina dramatično pada, a vrlo malo nekretnina ima tri ili četiri kamina. Ovaj histogram pokazuje izrazito desnostrano asimetričnu distribuciju (desni dio je izdužen), što ukazuje na to da većina nekretnina u skupu podataka ima manje kamina. Histogram nam omogućuje stvaranje dojma koliko je svaka kategorija kamina česta, a vizualno naglašava dominaciju nula do jednog kamina u nekretninama.

  • Box-plot predstavlja istu varijablu - Kamini. Pravokutnik prikazuje rasprostranjenost središnjih 50% podataka, pri čemu je medijan oko 1 kamina. Prvi kvartil (\(Q_1\), 25. percentil) predstavlja nekretnine s 0 kamina, a treći kvartil (\(Q_3\), 75. percentil) uključuje nekretnine s 1 kaminom. Dakle, središnjih 50% nekretnina ima od nula do jednog kamina. Istovremeno, prvi kvartil podudara se s minimumom, a medijan s trećim kvartilom. Ovo se događa zbog relativno malog raspona vrijednosti koje varijabla poprima (od nula do četiri) te koncentracije opažanja s nižim vrijednostima. Brkovi se protežu kako bi pokrili ostatak podataka, s najvećom vrijednošću na 2 kamina, ali uz izdvojenice koje se pojavljuju za nekretnine s 3 i 4 kamina. Ovaj graf daje jasniju sliku prisutnosti netipičnih vrijednosti u skupu podataka.

  • I histogram i box-plot dijagram ukazuju na to da većina nekretnina ima ili nula ili jedan kamin. Međutim, histogram je bolji u prikazivanju točne učestalosti svakog broja kamina (također, zbog činjenice da imamo diskontinuiranu varijablu i mali broj razreda, što ga čini vrlo lakim za čitanje) i olakšava uvid u točne brojeve za svaki razred. Nasuprot tome, box-plot nudi kompaktniji sažetak,usredotočujući se na središnju tendenciju i disperziju podataka te identificirajući izdvojenice.




Protumačimo sljedeće grafičke prikaze.

Slika 4. Histogram i box-plot broja soba (prostorija) u nekretninama

  • Prvi grafikon je histogram koji prikazuje distribuciju broja soba. Histogram pokazuje da je najčešći broj soba u nekretninama između 6 i 7. Čini se da je distribucija malo iskrivljena udesno, s nešto manjim brojem nekretnina koje imaju više od 9 soba. Vrh distribucije je stupac koji broji nekretnine sa 6 do 7 soba, nešto više od 300 opažanja i tu se nalazi mod distribucije.

  • Box-plot pokazuje da se interkvartilni raspon (IQ), koji predstavlja središnjih 50% podataka, nalazi između otprilike 5 i 8 soba. Medijan je otprilike 7 soba, što sugerira da polovica nekretnina ima 7 soba ili više, dok druga polovica ima 7 soba ili manje. Brkovi ili krakovi, koji se protežu iz pravokutnika, označavaju minimalni i maksimalni broj prostorija. U ovom slučaju, čini se da nema značajnih odstupanja (izdvojenica), a raspršenost podataka djeluje relativno simetrično.

  • Oba grafikona dosljedno ukazuju da objekti najčešće imaju između 6 i 7 soba. Histogram daje detaljniji prikaz distribucije frekvencija, omogućujući nam da vidimo točan broj nekretnina u svakoj kategoriji soba. S druge strane, box-plot pruža sažeti sažetak raspršenosti podataka. Dok histogram ukazuje na blagu iskrivljenost distribucije, box-plot naglašava središnju tendenciju i varijabilnost broja soba. Oba se grafikona međusobno nadopunjuju predstavljajući različite aspekte iste varijable, dajući jasniju sliku skupa podataka.




Pokazatelji središnje tendencije negrupiranih podataka

Nastavljamo s pokazateljima središnje tendencije za sve varijable.

Tablica 1. Pokazatelji središnje tendencije

Varijabla Broj opažanja Mod Medijan Aritmetička sredina Minimum Maksimum 25. percentil (Q1) 50. percentil (Q2=Medijan) 75. percentil (Q3)
Cijena 1728 120000 189900 211966.71 5000 775000 145000 189900 259000
Veličina parcele 1728 0.4600 0.3700 0.5002 0.0000 12.2000 0.1700 0.3700 0.5400
Uz more 1728 0.0000 0.0000 0.0087 0.0000 1.0000 0.0000 0.0000 0.0000
Starost 1728 19.0000 19.0000 27.9161 0.0000 225.0000 13.0000 19.0000 34.0000
Vrijednost zemljišta 1728 27000 25000 34557.19 200 412600 15100 25000 40200
Nova gradnja 1728 0.0000 0.0000 0.0469 0.0000 1.0000 0.0000 0.0000 0.0000
Klima 1728 0.0000 0.0000 0.3675 0.0000 1.0000 0.0000 0.0000 1.0000
Gorivo.Vrsta 1728 2.0000 2.0000 2.4323 2.0000 4.0000 2.0000 2.0000 3.0000
Toplina.Tip 1728 2.0000 2.0000 2.5278 2.0000 4.0000 2.0000 2.0000 3.0000
Kanalizacija.Tip 1728 3.0000 3.0000 2.6950 1.0000 3.0000 2.0000 3.0000 3.0000
Površina za život 1728 1480 1634.5 1754.98 616 5228 1300 1634.5 2137.75
Postotak.fakultet 1728 64.0000 57.0000 55.5677 20.0000 82.0000 52.0000 57.0000 64.0000
Spavaće sobe 1728 3.0000 3.0000 3.1545 1.0000 7.0000 3.0000 3.0000 4.0000
Sobe 1728 7.0000 7.0000 7.0417 2.0000 12.0000 5.0000 7.0000 8.2500
Kamini 1728 1.0000 1.0000 0.6019 0.0000 4.0000 0.0000 1.0000 1.0000
Kupaonice 1728 2.5000 2.0000 1.9002 0.0000 4.5000 1.5000 2.0000 2.5000

a Postoji više od jednog moda, izvještava se samo o prvom

Ovo je tablica sažetka izračunatih statističkih pokazatelja (koristeći JASP). Obično će imati varijable zapisane u retku i statističke pokazatelje u stupcima, ali se može i obrnuti (tj. transponirati; statistički pokazatelji u redovima i varijable u stupcima). Ova tablica sadrži nekoliko varijabli, od kojih svaka predstavlja različite aspekte podataka o nekretninama.

S obzirom na naučeno tijekom čitanja predviđenih stranica u udžbeniku te odslušanih predavanja i vježbi, kako biste protumačili podatke u tablici?

Sažeti pokazatelji u tablici pružaju uvid u središnju tendenciju i raspored varijabli iz skupa podataka koji se odnose na nekretnine. Promatrane nekretnine prosječno stoje približno 211966,71 dolara. 50% promatranih nekretnina košta 189900 dolara ili manje od toga, a 50% košta toliko ili više. Najčešća cijena nekretnine je 120000 dolara. Minimalna zabilježena cijena je 5000 dolara, a maksimalna 775000 dolara, pri čemu interkvartilni raspon pokazuje da se središnjih 50% podataka nalazi između 145000 i 259000 dolara.

Parcele promatranih nekretnina prosječno su velike 0,50 hektara. Polovica nekretnina ima veličinu parcele od 0.37 hektara ili manje, dok druga polovica ima parcelu 0.37 hektara ili veću od toga. Najčešća veličina parcele je 0,46 hektara. Minimalna zabilježena veličina parcele je 0 hektara, a maksimalna 12,2 hektara. Središnjih 50% nekretnina nalazi se na parcelama veličine između 0,17 i 0,54 hektara.

‘Uz more’ je binarna varijabla (prekodirana kategorijska varijabla, odnosno kvalitativna opisna) gdje većina nekretnina nije uz more (mod = 0). Isti obrazac vrijedi i za novogradnju, gdje većina nekretnina nije novoizgrađena. Na isti način promatramo i ostale varijable mjerene na nominalnoj razini. Iz ovakvih tablica, za njih je jedino smisleno iščitavati mod. Klima je još jedna binarna varijabla, s približno 36,75% nekretnina koja imaju klimu, dok većina nema (mod = 0). Obratite pozornost na to da u ovom kontekstu prosjek zapravo označava udio jedinica u broju ukupnih opažanja, tj. udio nekretnina s klimama među svim promatranim nekretninama.

Nekretnine su prosječno stare 27,92 godine. 50% nekretnina staro je 19 godina ili manje, dok je ostalih 50% staro 19 godina ili starije od toga. Nekretnine su najčešće 19 godina stare. Najmlađa nekretnina ima 0 godina, a najstarija 225 godina. Središnjih 50% nekretnina je staro od 13 do 34 godine.

Najčešći tip izvora topline - kodiran kao 2 - koristi većina nekretnina, a najčešći tip kanalizacije koji koristi većina nekretnina kodiran je kao 3.

Prosječna životna površina nekretnina je 1755 četvornih stopa. 50% nekretnina ima 1634.5 četvornih stopa ili manje, dok ostalih 50% ima toliko ili više četvornih stopa životnog prostora. Najčešća stambena površina je 1480 četvornih metara. Najmanja nekretnina ima 616 četvornih metara životnog/stambenog prostora, a najveća 5228 četvornih metara. Središnjih 50% nekretnina ima između 1300 i 2137.75 četvornih stopa životnog prostora.

Prosječan postotak fakultetski obrazovanih stanovnika u četvrtima je 55,57%, s medijanom od 57% i modom od 64%. To znači da, u prosjeku, 55,57% stanovnika promatranih četvrti ima fakultetsku diplomu. 50% četvrti ima 57% fakultetski obrazovanih stanovnika ili manje, a ostalih 50% ima toliko ili više fakultetski obrazovanih stanovnika. Susjedstva promatranih nekretnina najčešće imaju 64% fakultetski obrazovanih stanovnika. Minimalni zabilježeni postotak je 20%, a maksimalni 82%, dok središnjih 50% susjedstva nekretnina ima između 52% i 64% fakultetski obrazovanih stanovnika.

Nekretnine imaju prosječno 3,15 spavaćih soba. Polovica promatranih nekretnina ima 3 spavaće sobe ili manje, a preostala polovica ima bar 3 spavaće sobe. Nekretnine najčešće imaju 3 spavaće sobe. Minimalni broj spavaćih soba je 1, a maksimalan 7.

Nekretnine prosječno sadrže 7,04 soba, odnosno prostorija. Pritom polovica nekretnina ima 7 soba ili manje, a preostala polovica ima barem 7 soba. Nekretnine najčešće imaju 7 soba. Promatrane nekretnine imaju najmanje 2 sobe, a najviše 12. Središnjih 50% nekretnina prema broju soba (prostorija) sadrži između 5 i 8,25 soba.

U prosjeku, nekretnine imaju 0,60 kamina. Polovica nekretnina ima 1 kamin ili nema kamina, dok druga polovica ima barem jedan kamin. Nekretnine najčešće imaju po jedan kamin. Raspon broja kamina kreće se od nekretnina koje nemaju kamin (nula), do nekretnina koje imaju četiri kamina.

Nekretnine prosječno imaju 1,90 kupaonica. 50% nekretnina ima 2 kupaonice ili manje, dok preostala polovica ima barem 2 kupaonice. Nekretnine najčešće imaju 2 kupaonice. Među promatranim nekretninama uočava se da je minimalan broj kupaonica 0, a maksimalan 4,5. Središnjih 50% nekretnina prema broju kupaonica sadrži između 1,5 i 2,5 kupaonice.

Pokazatelji središnje tendencije grupiranih podataka: mod, medijan i kvartili

Sada, grupirajmo cijenu kako bismo prikazali izračune preostalih mjera središnje tendencije za grupirane podatke.

Tablica 2. Cijene nekretnina

Cijena Frekvencija
50000 - 53126 7
53126 - 101252 97
101252 - 149378 371
149378 - 197504 455
197504 - 245630 304
245630 - 293756 203
293756 - 341882 128
341882 - 390008 74
390008 - 438134 40
438134 - 486260 19
486260 - 534386 9
534386 - 582512 4
582512 - 630638 6
630638 - 678764 7
678764 - 726890 1
726890 - 775016 3
Ukupno 1728

Ova jednostavna statistička tablica predstavlja grupirane podatke za varijablu cijene, koja je svrstana u intervale cijena (razredi), pri čemu je učestalost svakog razreda navedena u drugom stupcu. Rasponi cijena u prvom stupcu označavaju donju i gornju granicu svakog razreda, dok stupac frekvencija (učestalosti) pokazuje koliko nekretnina spada u pripadajući raspon cijena.

Sljedeća tablica proširuje prethodnu uvođenjem dodatnih izračuna: sredine razreda (\(x_i\)) i umnoška frekvencije i sredine razreda(\(f_i x_i\)). Ovi koraci dio su procesa određivanja mjera kao što je prosjek za grupirane podatke. No, nismo još izračunavali mod, medijan i kvartile, pa ćemo se sad posvetiti tome i pritom objasniti dodane stupce u tablici.

Tablica 3. Cijene nekretnina s pomoćnim stupcima

Cijena L1 Cijena L2 Frekvencija (fi) xi fixi i Kumulativni niz „manje od“
5000 53126 7 29063 203441 48126 7
53126 101252 97 77189 7487333 48126 104
101252 149378 371 125315 46491865 48126 475
149378 197504 455 173441 78915655 48126 930
197504 245630 304 221567 67356368 48126 1234
245630 293756 203 269693 54747679 48126 1437
293756 341882 128 317819 40680832 48126 1565
341882 390008 74 365945 27079930 48126 1639
390008 438134 40 414071 16562840 48126 1679
438134 486260 19 462197 8781743 48126 1698
486260 534386 9 510323 4592907 48126 1707
534386 582512 4 558449 2233796 48126 1711
582512 630638 6 606575 3639450 48126 1717
630638 678764 7 654701 4582907 48126 1724
678764 726890 1 702827 702827 48126 1725
726890 775016 3 750953 2252859 48126 1728
Ukupan 1728 / 366312432 / /

Mod

Da bismo izračunali mod za grupirane podatke u našoj tablici, moramo identificirati modalni razred, a to je onaj koji ima najveću učestalost (označena crvenom bojom u tablici). Evo koraka:

  1. Identificiramo modalni razred: razred s najvećom frekvencijom (\(f_i\)) ili najvećom korigiranom frekvencijom ako nemamo jednake širine razreda.

  2. Primijenimo formulu za način grupiranih podataka:

\[ M_o = L_1 + \frac{(f_m - f_{m-1})}{(f_m - f_{m-1}) + (f_m - f_{m+1})} \times i \]

Gdje je:

  • \(L_1\) – donja granica modalnog razreda

  • \(f_m\) – frekvencija modalnog razreda

  • \(f_{m-1}\) – frekvencija razreda koji prethodi modalnom razredu

  • \(f_{m+1}\) – frekvencija razreda nakon modalnog razreda

  • \(i\) – veličina razreda (razlika između gornje i donje granice modalnog razreda)

  1. Unesite vrijednosti:
Simbol Vrijednost Opis
\(L_1\) 149,378 Donja granica modalnog razreda
\(f_m\) 455 Frekvencija modalnog razreda
\(f_{m-1}\) 371 Frekvencija prethodnog razreda
\(f_{m+1}\) 304 Frekvencija razreda nakon modalnog razreda
\(i\) 197504 - 149378 = 48126 Širina modalnog razreda
  1. Izračunamo: \[ M_o = 149378 + \frac{455 - 371}{(455 - 371) + (455 - 304)} \times 48126 \]

\[ M_o = 149378 + \frac{84}{84 + 151} \times 48126 \]

\[ M_o = 149378 + \frac{84}{235} \times 48126 \]

\[ \frac{84}{235} \approx 0.3583 \]

\[ 0.3583 \times 48126 \approx 17202.49 \]

\[ M_o = 149378 + 17202.49 = 166580.49 \]

Stoga je mod za grupirane podatke približno 166,580.49 dolara. To znači da je najčešća cijena nekretnine u ovom skupu podataka oko 166,580.49$.

Medijan

Za izračunavanje medijana za grupirane podatke koristimo sljedeću formulu:

\[ M_e = L_1 + \frac{\left(\frac{N}{2} - F\right)}{f_m} \times i \]

Gdje je:

  • \(L_1\) – donja granica medijalnog razreda

  • \(f_m\) – frekvencija medijalnog razreda

  • \(N\) – ukupan broj opažanja

  • \(F\) – suma frekvencija do medijalnog razreda (iz stupca Kumulativni niz „manje od“)

  • \(i\) – veličina razreda (razlika između gornje i donje granice medijalnog razreda)

Koraci:

  1. Pronađemo medijalni razred - Prvo izračunamo \(N/2\). Za \(N=1728\) dobivamo: \(1728/2=864\). To znači da moramo pronaći razred u kojem se nalazi \(864.\) član niza. U stupcu kumulativnih frekvencija u našoj tablici, 864. vrijednost nalazi se u razredu s rasponom cijena od 149378 do 197504, budući da je kumulativna frekvencija ovog razreda 930 (označena zelenom bojom u tablici), a kumulativna frekvencija zaključno s prethodnim razredom obuhvaća 475 članova. 864 je veće od 475, ali manje od 930, što znači da je 864. član obuhvaćen kumulativnom frekvencijom o 930, koja se nalazi u 4. razredu.

  2. Utvrdimo vrijednosti za formulu:

    \(L= 149378\) (donja granica medijalnog razreda)

    \(N= 1728\)

    \(F = 475\) (kumulativna frekvencija razreda prije medijalnog)

    \(f_m= 455\) (frekvencija medijalnog razreda)

    \(i = 197504 - 149378 = 48126\) (veličina razreda)

  3. Uvrštavamo vrijednosti u formulu:

$M_e=149378+ $

  1. Izračunamo:

\(M_e=149378+\frac{864-475}{455} \cdot 48126 = 149378+0.855 \cdot 48126 = 190523,09\)

Medijan je prema svom položaju centralni član u sortiranom skupu podataka, što znači da 50% nekretnina ima cijene niže ili jednake 190523.09$, a 50% ima cijene više ili jednake ovoj vrijednosti. Budući da je distribucija cijena nekretnina razvučena udesno, medijan je manje pod utjecajem ekstremno visokih cijena u usporedbi s prosjekom, što ga čini reprezentativnijom mjerom središnje tendencije u iskrivljenim (asimetričnim) distribucijama.

Grafičko određivanje medijana

Ovdje je dan jedan primjer grafičkog određivanja medijana. Kreirali bismo kumulativne nizove “manje od” i “više od”. Kumulativni niz “manje od” crta se i tumači u odnosu na gornju granicu razreda. Kumulativni niz “više od” crta se i tumači u odnosu na donju granicu razreda. Neovisno koristimo li apsolutne ili relativne frekvencije, oni će se sjeći točno na polovici niza - to jest, u točci koja dijeli niz na dva jednaka dijela. Ta točka označava medijan kojeg iščitavamo na x-osi.

Kvartili

Za izračun prvog kvartila (Q1) za grupirane podatke koristimo formulu sličnu onoj koja se koristi za medijan:

\[Q_1=L_1+\frac{1/4 \cdot N-F}{f_{Q_1}} \cdot i\]

Gdje je:

  • \(L_1\) - donja granica razreda prvog kvartila

  • \(N\) - ukupan broj opažanja

  • \(F\) - kumulativna frekvencija do razreda prvog kvartila

  • \(f_{Q_1}\)- frekvencija razreda prvog kvartila

  • \(i\) - širina intervala razreda prvog kvartila

Koraci:

  1. Pronađemo razred prvog kvartila - Prvo izračunamo \(1/4 N\), što je u ovom slučaju \(1728/4=432\).

To znači da moramo pronaći razred u kojem se nalazi 432. član. Promatramo kumulativne frekvencije u našoj tablici i uočavamo da se 432. član nalazi u razredu s rasponom cijena od 101252 do 149378, budući da kumulativna učestalost zaključno s ovim razredom iznosi 475 (označena plavom bojom u tablici).

  1. Utvrdimo vrijednosti za formulu:

    \(L= 101252\) (donja granica razreda prvog kvartila)

    \(N = 1728\)

    \(F = 104\) (kumulativna učestalost do razreda prvog kvartila)

    \(f_{Q_1} = 371\) (frekvencija razreda prvog kvartila)

    \(i = 149378 - 101252 = 48,126\) (širina razreda prvog kvartila)

  2. Uvrstimo vrijednosti u formulu i izračunamo:

\(Q1=101252+\frac{(432-104)}{371} \cdot 48126=101252+0,884098 \cdot 48126=143800,05\)

Prvi kvartil (Q1) predstavlja vrijednost koja dijeli sortirani niz na 25% članova niza koji imaju istu ili manju vrijednost te 75 % članova koji imaju istu ili veću vrijednost. To znači da 25% nekretnina ima cijene 143800.05 dolara ili niže od toga, dok 75% nekretnina košta 143800,05 dolara ili više od toga.

Za izračun trećeg kvartila (Q3) za grupirane podatke slijedimo isti pristup kao i za prvi kvartil i medijan, ali s drugačijim položajem u podacima. Formula je:

\[Q_3=L_1+\frac{3/4 \cdot N-F}{f_{Q_3}} \cdot i\]

Gdje je:

  • \(L_1\) - donja granica razreda trećeg kvartila

  • \(N\) - ukupan broj opažanja

  • \(F\) - kumulativna frekvencija do razreda trećeg kvartila

  • \(f_{Q_1}\)- frekvencija razreda trećeg kvartila

  • \(i\) - širina intervala razreda trećeg kvartila

Koraci:

  1. Pronađemo razred prvog kvartila - Prvo izračunamo \(3/4 N\), što je u ovom slučaju \((3 \cdot 1728)/4=1296\).

To znači da moramo pronaći razred u kojem se nalazi 1296. član. Promatramo kumulativne frekvencije u našoj tablici i uočavamo da se 1296. član nalazi u razredu s rasponom cijena od 245630 do 293756, budući da kumulativna učestalost zaključno s ovim razredom iznosi 1437 (označenu ljubičastom bojom u tablici), što uključuje i vrijednost na 1296. mjestu.

  1. Utvrdimo vrijednosti za formulu:

    \(L= 197504\) (donja granica razreda trećeg kvartila)

    \(N = 1728\)

    \(F = 1234\) (kumulativna učestalost do razreda trećeg kvartila)

    \(f= 203\) (frekvencija razreda trećeg kvartila)

    \(i = 245630-19754=48126\)(širina razreda trećeg kvartila)

  2. Uvrstimo vrijednosti u formulu i izračunamo:

\(Q3=245,630+ \frac{1296-1234}{203} \cdot 48,126=245630+0,204 \cdot 48126=260328,58\)

Treći kvartil (Q3) predstavlja vrijednost koja dijeli sortirani niz na 75% članova niza koji imaju istu ili manju vrijednost te 25 % članova koji imaju istu ili veću vrijednost.To znači da 75% nekretnina ima cijene niže ili jednake 260328.58$, dok 25% nekretnina ima toliku cijenu ili višu.

Interkvartil ili interkvartilni raspon (IQR) je mjera disperzije ili raspršenosti, koja pokazuje raspon unutar kojeg se prostire središnjih 50% vrijednosti podataka. Izračunava se kao razlika između trećeg kvartila (Q3) i prvog kvartila (Q1). Na taj način, uklanja se rubnih 25 % podataka sa svake strane distribucije i ono što preostaje je 50% podataka koji se nalaze u sredini distribucije. Iako ne pripada mjerama središnje tendencije, ovdje se ova mjera navodi zbog svoje komplementarnosti s kvartilima te povezanosti s box-plot grafičkim prikazom.

IQR je koristan jer je otporan na netipične vrijednosti, usredotočujući se na središnji dio podataka i dajući bolje razumijevanje rasprostranjenosti središnjih 50% skupa podataka. Koristi se u Box-plotu kako bi se pokazala varijabilnost podataka.

Interkvartil možemo izračunati pomoću formule:

\(IQ=Q_3-Q_1\)

Gdje je:

\(Q_1\) - 1. kvartil

\(Q_3\) -3. kvartil

Budući da smo ih već izračunali, možemo ih uvrstiti u formulu i izračunati:

\(IQR = 260328,58-143800,05 = 116528,53\)

Kako tumačiti:

  • Interkvartil mjeri raspršenost središnjih 50% podataka. Otporan je na netipične vrijednosti jer se fokusira na središnji dio skupa podataka, zanemarujući ekstremne vrijednosti na oba kraja distribucije.

  • Veći IQR sugerira veću varijabilnost podataka u središnjem dijelu, dok manji IQR ukazuje na to da je središnjih 50% podataka koncentriranije.

Interkvartil za grupirane podatke o cijenama iznosi 116528.53$. I ova vrijednost predstavlja raspon srednjih 50% grupiranih cijena nekretnina u skupu podataka.

Grafičko određivanje kvartila

Ovdje je dan jedan primjer grafičkog određivanja kvartila. Kreirali bismo kumulativni niz “manje od”, koji se crta se i tumači u odnosu na gornju granicu razreda. Na y-osi, gdje se nalaze frekvencije, označavamo 25% opažanja (kumulativno) i iz te točke vučemo okomicu na y-os prema grafu kumulativnog niza. Iz presjeka s kumulativnim nizom, vučemo okomicu na x-os i iščitavamo prvi kvartil. Postupak ponavljamo za treći kvartil, uz tu razliku što ćemo na y-osi označiti 75%-tni element niza.

Uvidi temeljem pokazatelja središnje tendencije podataka

Budući da je izvorna studija željela ispitati što se događa s cijenama ako ih promatramo s obzirom na broj kamina, usmjerit ćemo pozornost na to pitanje. Ono što ćemo sljedeće učiniti je podijeliti (ili razdvojiti) zapažanja o cijenama, s obzirom na kamina. Kao što se možda sjećate iz prošlotjednog čitanja, box-plot dijagrami mogu lijepo poslužiti za to.

Sada kad smo se detaljnije upoznali s konceptima medijana i kvartila, možemo obogatiti svoje razumijevanje box-plot dijagrama. Okvirni dijagram vizualno sažima distribuciju skupa podataka i pruža ključne uvide u njegovu središnju tendenciju, širenje i simetriju, sve kroz pet sažetih statistika (poznatih i kao Tuckeyevih 5 brojeva): minimum, prvi kvartil (\(Q_1\)), medijan, treći kvartil (\(Q_3\)) i maksimum.

Koje uvide dobivamo temeljem ovih box-plotova?

Slika 5. Usporedni prikaz cijena putem box-plotova s obzirom na broj kamina u nekretninama

Box-plotovi pokazuju jasan odnos između broja kamina i cijene nekretnina. Za nekretnine bez kamina, medijalna cijena je najniža među svim kategorijama. Interkvartil ukazuje na relativno širok raspon vrijednosti, što ukazuje na varijabilnost cijena. Iako postoji nekoliko odstupanja s višim cijenama, većina nekretnina bez kamina ima cijenu ispod 300000$, što pokazuje koncentraciju u nižem cjenovnom rangu.

Kako se povećava broj kamina, raste i medijalna cijena. Nekretnine s jednim kaminom imaju višu medijalnu cijenu od onih bez ijednog, a IQR ukazuje na izraženiju varijabilnost cijene.

Međutim, u prve dvije kategorije ima više odstupanja, posebno na gornjem kraju cjenovnog spektra, što sugerira da, iako je jedan kamin povezan s višim cijenama, vjerojatno postoje i drugi faktori koje ovdje nismo razmatrali, a koji utječu na visinu cijena.

Za nekretnine s dva kamina, medijalna cijena nastavlja rasti, a IQR pokazuje još veću varijabilnost središnjih 50% cijena u odnosu na prethodne kategorije. Međutim, broj izdvojenica u ovoj skupini manji je nego u kategorijama s nula i jednim kaminom, što sugerira da kuće s dva kamina općenito spadaju u viši i stabilniji cjenovni rang.

Nekretnine s tri kamina pokazuju daljnji porast srednje cijene, s mnogo užim IQR-om, što ukazuje na manju varijabilnost, odnosno veću koncentraciju cijena oko medijalne cijene. To sugerira da kuće s tri kamina imaju dosljedne cijene unutar visokog cjenovnog ranga. Konačno, kuće s četiri kamina pokazuju najvišu medijalnu cijenu od svih kategorija, a IQR je uzak, što pokazuje da ove nekretnine imaju dosljedno visoke cijene, bez značajnih odstupanja.

Čini se da postoji trend u kojem nekretnine s više kamina obično imaju više medijalne cijene. Osim toga, varijabilnost cijena smanjuje se kako se povećava broj kamina. Iznimke su češće u nižim kategorijama kamina, posebno među kućama s jednim kaminom ili bez njega, što ukazuje na to da, iako postoje neke skupe nekretnine bez kamina, one su iznimke, a ne tipična opažanja.

Ako se ovdje zaustavimo s analizom, mogli bismo jednostavno reći da kamini povećavaju vrijednost nekretnine. Međutim, i drugi čimbenici mogu igrati ulogu, pa bi ta izjava mogla biti pogrešna ili nepotpuna. Provjerimo.

Koje uvide dobivamo temeljem ovih box-plotova?

Slika 6. Usporedni prikaz cijena nekretnina putem box-plotova s obzirom na pogled na more

Box-plot dijagrami ilustriraju cijene nekretnina razdvojene s obzirom na to nalazi li se nekretnina uz more. Za nekretnine koje se ne nalaze uz more (predstavljeno s 0), medijalna cijena znatno je niža nego za one uz more. Raspon varijacija za nekretnine koje nisu uz more pokazuje značajnu varijabilnost, s cijenama u rasponu od donje granice od oko 150000 do gornje granice nešto iznad 400000. Osim toga, u ovoj kategoriji postoje mnoge izdvojenice, s cijenama koje dosežu i preko 700000, što ukazuje na to da, iako većina nekretnina koje nisu uz more spada u niži cjenovni rang, neke dosežu više cijene (možda imaju više kamina). S druge strane, nekretnine uz more (predstavljene s 1) pokazuju mnogo višu medijalnu cijenu, s manje odstupanja. IQR je širi, ali je ukupan raspon varijacija uži u usporedbi s objektima koji se ne nalaze uz more, što sugerira manju varijabilnost cijena. To ukazuje na to da nekretnine uz obalu dosljedno imaju više cijene, a većina tih nekretnina spada u visoki cjenovni rang. Odstupanja u ovoj kategoriji su minimalna, što sugerira i da kuće uz obalu imaju stabilniju strukturu cijena, s manje ekstremnih varijacija u cijenama.

Zasad se čini da više kamina i boravak na rivi povećavaju cijenu nekretnine. Međutim, postoje i drugi čimbenici koji također mogu igrati ulogu. Pokušajte ih sami protumačiti, gledajući sljedeće grafičke prikaze. Prvi graf prikazuje podjelu cijena s obzirom na to radi li se o novoj gradnji (1) ili ne (0). Drugi graf prikazuje dva box-plota cijena, pri čemu prvi prikazuje cijene nekretnina bez klime (0), a drugi cijene nekretnina s klimom (1). Treći graf prikazuje sedam box-plotova koji prikazuju varijacije cijena nekretnina s obzirom na broj spavaćih soba.

Koje uvide dobivamo temeljem ovih box-plotova?

Slika 7. Usporedni prikaz cijena nekretnina putem box-plotova s obzirom na novogradnju, klimu i broj spavaćih soba

Protumačite sami.

Kroz ovih nekoliko primjera također smo naučili da možemo koristiti kvalitativne varijable (čak i diskontinuirane varijable, osobito ako nemaju mnogo razreda) za podjelu opažanja u skupu podataka u grupe. Na taj način uvodimo novu perspektivu za ispitivanje varijabli.

Pitanja za ponavljanje


  1. Koji je najispravniji zaključak kada se gleda raspodjela cijena nekretnina na histogramu i box-plotu, a uočava se dugačak desni rep (asimetrija na desno)?
  1. Sva su opažanja ravnomjerno raspoređena u širokom rasponu, pa nema ekstremnih vrijednosti.

  2. Većina nekretnina je u nižem cjenovnom rasponu, uz nekolicinu vrlo skupih nekretnina koje „vuku“ prosjek naviše.

  3. Raspodjela je potpuno simetrična, s podjednakim brojem jeftinih i skupih nekretnina.

  4. Medijan i aritmetička sredina moraju se nužno podudarati.


  1. Zašto su binarne varijable poput Waterfront ili New.Construct na nominalnoj razini mjerenja?
  1. Zato što se mogu zbrajati i oduzimati, pa imaju nultu točku.

  2. Zato što njihove kategorije (0 i 1) predstavljaju redoslijed “manje–više” i imaju intervalnu skalu.

  3. Zato što 0 i 1 ovdje samo označavaju različite kategorije bez prirodnog redoslijeda.

  4. Zato što, ako su 0 i 1, automatski ulaze u aritmetičku sredinu kao kontinuirane vrijednosti.


  1. Kod analize varijable Starost (Age) primijetili ste da je histogram snažno asimetričan, a box-plot pokazuje dosta izdvojenih vrijednosti na desnom kraju. Koji statistički pokazatelj središnje tendencije daje prikladan, a reprezentativniji uvid od aritmetičke sredine, s točnim objašnjenjem?
  1. Mod, budući da je starost nekretnine kategorička varijabla.

  2. Harmonijska sredina, zato što se time eliminira utjecaj ekstremnih vrijednosti.

  3. Medijan, jer je manje osjetljiv na ekstremno stare nekretnine i dugi desni rep.

  4. Geometrijska sredina, zato što je starost nekretnine vremenski niz.


  1. Varijabla Gorivo.Vrsta (Fuel.Type) ima vrijednosti 2, 3, ili 4. Zašto iz tablice sažetih podataka nije smisleno tumačiti njezinu aritmetičku sredinu, iako je izračunata kao 2.4323?
  1. Zato što ta varijabla nema diskontinuirane, nego isključivo kontinuirane vrijednosti.

  2. Zato što 2.4323 nema interpretaciju u smislu “vrste goriva”, budući da su 2, 3 i 4 samo oznake kategorija bez smislenog intervalnog ili omjernog odnosa.

  3. Zato što je to zapravo geometrijska sredina, a ne aritmetička.

  4. Jer je raspon uvijek 1 za takve varijable.


  1. U histogramu cijena nekretnina, najviši stupac nalazi se približno između 150000 i 200000 dolara. Box-plot iste varijable pokazuje medijan od 189900 dolara. Koji je ispravan zaključak o distribuciji cijena?
  1. Raspodjela je bimodalna (dvomodalna), jer se najveći broj opažanja nalazi na dva različita mjesta.

  2. Raspodjela je približno simetrična, s manjim brojem nekretnina ispod 150000 dolara.

  3. Raspodjela je asimetrična s desnim repom, pri čemu se najveća skupina nalazi u srednjem cjenovnom rasponu, a nekoliko vrlo skupih nekretnina blago povlači medijan prema većim vrijednostima.

  4. Cijene su ravnomjerno raspoređene, jer se histogram i box-plot uvijek slažu kada je distribucija ravna.


  1. U tablici s negrupiranim podacima za Price, dobili ste aritmetičku sredinu od 211966.71 dolara. U tablici grupiranih podataka za istu varijablu, izračunali ste prosjek od 211986.4 dolara. Što to govori o preciznosti i vrijednosti grupiranog prosjeka?
  1. Razlike ne smije biti; mora da je došlo do pogreške u računanju.

  2. Prosjek negrupiranih podataka je uvijek točniji, ali male razlike ukazuju da grupirani prosjek može biti dovoljno dobra aproksimacija.

  3. Uvijek mora postojati velika razlika između grupiranog i negrupiranog prosjeka (barem 2000 dolara).

  4. Prosjek grupiranih podataka je uvijek točniji, zato što poništava ekstremne vrijednosti.


  1. Varijabla Lot.Size iznosi 0 hektara za neke nekretnine. Zašto to možemo tumačiti kao apsolutnu nulu na omjernoj razini?
  1. Jer veličina parcele ima prirodnu nulu, što znači da takva nekretnina nema zemljište (npr. stanovi) ili ima zanemarivo malo.

  2. Jer je 0 uvijek umjetno dodijeljeno kao minimalna vrijednost i zapravo ne postoje takve nekretnine.

  3. Jer se mjeri na intervalnoj razini, a nulta vrijednost služi samo kao fiksna referentna točka.

  4. Jer se nultu vrijednost ne može prikazati na histogramu.


  1. Zašto se u tablici s opisnim statistikama ne navodi prosjek za binarne varijable (Waterfront, New.Construct), iako bi se mogao izračunati kao udio nekretnina koje imaju vrijednost 1?
  1. Zato što je R ne može izračunati prosjek za varijable koje sadrže vrijednosti 0 i 1.

  2. Zato što se za binarne varijable uobičajeno izvještava proporcija ili udio, a ne aritmetička sredina (čak i ako su prekodirane u 0/1).

  3. Zato što je mod uvijek 1 za binarne varijable.

  4. Zato što u tablici mora pisati samo minimum i maksimum, a ne i prosjek.


  1. Ako varijabla Age ima medijan od 19 godina, a prosječna starost iznosi 27.9161 godina, što to govori o obliku distribucije?
  1. Distribucija je savršeno simetrična, jer medijan i prosjek nisu jednaki.

  2. Distribucija je asimetrična s dugačkim repom na desnoj strani, budući da su ekstremne vrijednosti „povukle“ prosjek naviše.

  3. Znači da nema ekstremnih vrijednosti, pa je raspon minimalan.

  4. Distribucija je dvomodalna, što objašnjava razliku između medijana i aritmetičke sredine.


  1. Kako biste najbolje objasnili razliku između histograma i box-plota pri analizi varijable Bathrooms (broj kupaonica)?
  1. Histogram prikazuje preciznu raspodjelu i broj nekretnina u svakom razredu, dok box-plot vizualno sažima neke statističke pokazatelje i ne prikazuje točne frekvencije.

  2. Histogram je primjeren samo za kvalitativne varijable, a box-plot samo za kvantitativne.

  3. Box-plot nudi detaljnu raspodjelu svih vrijednosti, a histogram samo sažetak.

  4. Box-plot se ne može crtati za diskontinuiranu varijablu kao što je broj kupaonica.


  1. Promatrajući box-plot za Price razdvojeno prema Waterfront (0/1), vidite da je medijan znatno viši, a IQ širi za waterfront=1 nego za waterfront=0. Koji je najlogičniji zaključak?

  1. Nekretnine uz more imaju stabilno niske cijene i manju varijabilnost.

  2. Binarna varijabla 0 ili 1 ne dopušta usporedbu cijena.

  3. Nekretnine uz more generalno su skuplje i cijene variraju više u središnjih 50% (širi IQ).

  4. Središnji 50% cijena za nekretnine uz more mora uvijek imati minimalni IQ, jer su takve nekretnine rijetke.


  1. Za diskretnu varijablu Fireplaces, histogram pokazuje najveću frekvenciju kod 1 kamina, dok box-plot pokazuje da se najmanje 25% nekretnina nalazi na 0 kamina, a 50% ili više je na 1 kaminu. Koji je najtočniji opis tih rezultata?

  1. Ne postoji način da histogram i box-plot prikazuju različite informacije o istoj varijabli, mora biti greška.

  2. Histogram i box-plot se dopunjuju: histogram kaže da je 1 kamin najčešći, dok box-plot kaže da je 25% nekretnina na 0 kamina i barem 50% na 1 kaminu ili više.

  3. Box-plot ovdje nije prikladan jer varijabla ima premalo kategorija.

  4. Budući da je varijabla diskretna, box-plot pogrešno prikazuje središnju tendenciju.


  1. Ako su sredine razreda (xi) za cijenu nekretnina računane kao (donja granica + gornja granica)/2 za svaki razred, zašto se time uvodi aproksimacija kod izračuna prosjeka u grupiranim podacima?
  1. Zato što se uvijek uzima donja granica razreda kao istinita vrijednost, gornja se ignorira.

  2. Zato što se sve vrijednosti u jednom razredu tretiraju kao da su jednake sredini razreda, iako zapravo mogu biti bilo gdje unutar raspona.

  3. Zato što se logaritmiraju sve vrijednosti, a zatim radi ekspanzija.

  4. Zato što je raspon razreda uvijek nula.


  1. Zabilježena je težina svih 80 promatrača jednog triatlona i prikazana je histogramom. Što možete zaključiti o mjerama središnje tendencije temeljem histograma?

  1. Aritmetička sredina iznosi približno 50 kilograma, a očekujem da je medijan jednak ili veći od aritmetičke sredine, a mod jednak ili veći od medijana zbog izdvojenica na lijevom kraku distribucije.

  2. Mod iznosi približno 50 kilograma, a očekujem da je medijan jednak ili veći od moda, a aritmetička sredina jednaka ili veća od medijana zbog izdvojenica na desnom kraku distribucije.

  3. Aritmetička sredina iznosi približno 50 kilograma, što znači da su promatrači triatlona najčešće imali 50 kg.

  4. Mod iznosi približno 50 kg, što znači da je polovica promatrača imala 50 kg ili manje, a druga polovica 50 kg ili više.


  1. Grafom su prikazani box-plotovi za četiri niza podataka. Odaberite točan i najpotpuniji opis od ponuđenih.

  1. Medijani sva četiri niza podataka su jednaki, ali se ne očekuje da će i prosjeci biti jednaki. Kvartili prvog i četvrtog niza podataka su približno jednaki, pa su i interkvartili približno jednaki, iako se ne može očekivati da će standardna devijacija biti jednaka. Prvi i četvrti niz sadrže izdvojenice. Najveća varijabilnost podataka očituje se u trećem nizu, a najmanja u drugom nizu.

  2. Medijani sva četiri niza podataka su jednaki, pa se očekuje da će i ostale mjere središnje tendencije biti jednake. Interkvartili prvog i četvrtog niza podataka su približno jednaki, pa se može očekivati da će standardna devijacija biti jednaka. Prvi i četvrti niz sadrže izdvojenice, pa će njihovi rasponi varijacija biti jednaki. Najveća varijabilnost podataka očituje se u prvom nizu, jer sadrži jednu izdvojenicu.

  3. Kvartili sva četiri niza podataka su jednaki, što znači da će i interkvartili biti jednaki. Ako su interkvartili jednaki, to znači da će i raspon varijacija biti približno jednak u promatrana četiri niza. Prvi i četvrti niz sadrže izdvojenice, a to znači da se ta dva niza ne smiju koristiti za daljnje izračune.

  4. Prosjeci sva četiri niza podataka su jednaki, ali se ne očekuje da će i ostale mjere središnje tendencije biti jednake. Interkvartili prvog i četvrtog niza podataka su približno jednaki, pa se može očekivati da će standardna devijacija biti jednaka. Prvi i četvrti niz sadrže izdvojenice, pa će njihovi medijani biti jednaki. Najveća varijabilnost podataka očituje se u četvrtom nizu, jer sadrži najviše izdvojenica.


  1. Varijabla Spavaće sobe (Bedrooms) ima minimalnu vrijednost 1, maksimalnu 7, a aritmetička sredina je 3.1545. Ako bi netko tvrdio da nije moguće da postoji 3.1545 spavaćih soba, kako bi točno statistički opravdali taj prosjek?
  1. Varijabla je zapravo kontinuirana, pa je 3.1545 realna mjera.

  2. Radi se o prosjeku diskretnih vrijednosti, pa decimalni broj samo odražava srednju tendenciju, iako pojedinačna opažanja moraju biti cijele vrijednosti.

  3. Aritmetička sredina mora biti cijeli broj, pa je 3.1545 očita pogreška.

  4. Sobe se računaju tako da se polovine soba zbrajaju, pa je 3.1545 točna mjera.


  1. Za varijablu Sobe (Rooms) dobili ste mod = 7, medijan = 7 i prosjek = 7.04. Kako biste opisali takvu distribuciju?
  1. Jasno se radi o dvostrukoj asimetriji, s modom i medijanom većim od prosjeka.

  2. Distribucija je simetrična ili približno simetrična, jer su mod, medijan i prosjek vrlo blizu.

  3. Ne postoji raspodjela koja ima iste vrijednosti za mod i medijan, mora biti greška.

  4. Raspodjela ima dugi lijevi krak, što povlači prosjek ispod medijana.


  1. Promatrane su dvije numeričke kontinuirane varijable, a i b. Njihove su distribucije prikazane histogramima. Odaberite točan i najpotpuniji opis od ponuđenih.

  1. Raspon varijacija veći je za obilježje b (35), nego obilježje a (14). Najčešća vrijednost varijable a je 40, a varijable b 35. Distribucija varijable a je blago negativno asimetrična, a distribucija varijable b blago pozitivno asimetrična.

  2. Raspon varijacija veći je za obilježje b (35), nego obilježje a (14). Najčešća vrijednost varijable a je između 24 i 26 (bliže 24), a najčešća vrijednost varijable b između 30 i 35 (bliže 35). Distribucija varijable a je blago negativno asimetrična, a distribucija varijable b blago pozitivno asimetrična.

  3. Raspon varijacija veći je za obilježje a (40), nego obilježje b (35). Najčešća vrijednost varijable a je 40, a varijable b 35. Distribucije su naizgled simetrične.

  4. Raspon varijacija veći je za obilježje a (40), nego obilježje b (35). Najčešća vrijednost varijable a je između 24 i 26, a najčešća vrijednost varijable b između 30 i 35. Distribucija varijable b je blago negativno asimetrična, a distribucija varijable a blago pozitivno asimetrična.


  1. Ako box-plot Bedrooms pokazuje da su Q1 = 3 i Q3 = 4, a medijan je također 3, što to možemo zaključiti o raspodjeli broja spavaćih soba?
  1. Da je 50% nekretnina između 3 i 4 spavaće sobe, a medijan također iznosi 3, što sugerira da polovica nekratnina ima do tri sobe, a druga polovica barem tri sobe.

  2. Da nema nekretnina s 2 ili 5 spavaćih soba.

  3. Da su sve nekretnine ravnomjerno raspoređene na 3 ili 4 spavaće sobe, bez drugih vrijednosti.

  4. Da je interkvartilni raspon zapravo 1/4, jer je (4 - 3)/4.


  1. Promatrane su dvije numeričke kontinuirane varijable, a i b. Njihove su distribucije prikazane histogramima. Odaberite točan i najpotpuniji opis od ponuđenih.

  1. Raspon varijacija veći je za obilježje a (180), nego obilježje b (140). Najčešća vrijednost varijable a je oko 125, a varijable b oko 65. Distribucija varijable a je blago negativno asimetrična, a distribucija varijable b blago pozitivno asimetrična.

  2. Raspon varijacija veći je za obilježje b (120), nego obilježje a (30). Najčešća vrijednost varijable a je između 170 i 180, a najčešća vrijednost varijable b između 120 i 140. Distribucija varijable b je blago negativno asimetrična, a distribucija varijable a blago pozitivno asimetrična.

  3. Raspon varijacija veći je za obilježje a (140), nego obilježje b (120). Najčešća vrijednost varijable a je oko 180, a varijable b 140. Distribucije su naizgled simetrične.

  4. Raspon varijacija veći je za obilježje b (120), nego obilježje a (30). Najčešća vrijednost varijable a je između 120 i 125 (bliže 125), a najčešća vrijednost varijable b između 60 i 70. Distribucija varijable a je blago pozitivno asimetrična, a distribucija varijable b blago negativno asimetrična.


Repliciranje analize koristeći različite alate

Provedba postupka koristeći JASP


Za izračun mjera središnje tendencije u JASPu, koristi se sekcija ‘Central tendency’ koja je dio izbornika/sekcije ‘Statistics’ u sklopu ‘Descriptive statistics’. Potrebno je označiti (kliknuti na prazan kvadratić da se pojavi plava pozadina s bijelom kvačicom) one mjere koje želite izračunati.


Nakon što su podaci učitani, trebat će prilagoditi razine mjerenja za neke varijable. Prije početka rada, provjerite da sve varijable imaju odgovarajuću razinu mjerenja.(Prikaz postupka učitavanja podataka prikazan je u prvom štivu.)


Odaberite ‘Descriptives’. Za kreiranje histograma i box-plotova prikazanih u tekstu, potrebno je odabrati varijable koje se prikazuju, a potom u izborniku ‘Basic plots’ odabrati ‘Distribution plots’. Na taj su način kreirani histogrami.

U izborniku ‘Customizable plots’ odaberite ‘Bpxplots’ kako bi kreirali box-plotove.

Za kreiranje pokazatelja deskriptivne statistike, odaberite varijable, a potom odaberite pokazatelje koje želite izračunati i prikazati.

Za kreiranje usporednih box-plotova s obzirom na broj kamina, prvo moramo prilagoditi varijablu Fireplaces. Ona je trenutno kvantitativna varijabla, no za podjelu na podskupove, JASP prihvaća samo varijable mjerene na nominalnoj i ordinalnoj razini. Kliknemo na trokutić usmjeren ulijevo na lijevom rubu prozora kako bismo dobili prikaz podataka i izmijenimo tip varijable (kliknemo na oznaku razine mjerenja uz naziv varijable i odaberemo ‘Ordinal’).

Potom odaberemo Descriptive statistics. U desni panel lijevog prozora pod ‘Variables’ uvrstimo varijablu Price, a potom pod ‘Split’ uvrstimo varijablu Fireplaces. To će rezultirati sljedećim prikazom.

Slično, za podjelu prema poziciji Waterfront odabiremo tu varijablu i unosimo ju pod ‘Split’ te dijelimo opažanja varijable Price na prikladne podskupove.

Slijedeći ovaj postupak, kreirajte preostale usporedne box-plotove.

Provedba postupka koristeći R

Učitajte podatke.

> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 20)
##     Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1  132500     0.09          0  42      50000             0           0
## 2  181115     0.92          0   0      22300             0           0
## 3  109000     0.19          0 133       7300             0           0
## 4  155000     0.41          0  13      18700             0           0
## 5   86060     0.11          0   0      15000             1           1
## 6  120000     0.68          0  31      14000             0           0
## 7  153000     0.40          0  33      23300             0           0
## 8  170000     1.21          0  23      14600             0           0
## 9   90000     0.83          0  36      22200             0           0
## 10 122900     1.94          0   4      21200             0           0
## 11 325000     2.29          0 123      12600             0           0
## 12 120000     0.92          0   1      22300             0           0
## 13  85860     8.97          0  13       4800             0           0
## 14  97000     0.11          0 153       3100             0           0
## 15 127000     0.14          0   9        300             0           0
## 16  89900     0.00          0  88       2500             0           0
## 17 155000     0.13          0   9        300             0           0
## 18 253750     2.00          0   0      49800             0           1
## 19  60000     0.21          0  82       8500             0           0
## 20  87500     0.88          0  17      19400             0           0
##    Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1          3         4          2         906          35        2          1
## 2          2         3          2        1953          51        3          0
## 3          2         3          3        1944          51        4          1
## 4          2         2          2        1944          51        3          1
## 5          2         2          3         840          51        2          0
## 6          2         2          2        1152          22        4          1
## 7          4         3          2        2752          51        4          1
## 8          4         2          2        1662          35        4          1
## 9          3         4          2        1632          51        3          0
## 10         2         2          1        1416          44        3          0
## 11         4         2          2        2894          51        7          0
## 12         2         2          2        1624          51        3          0
## 13         3         4          2         704          41        2          0
## 14         2         3          3        1383          57        3          0
## 15         4         2          2        1300          41        3          0
## 16         2         3          3         936          57        3          0
## 17         4         2          2        1300          41        3          0
## 18         2         2          1        2816          71        4          1
## 19         4         3          2         924          35        2          0
## 20         4         2          2        1092          35        3          0
##    Bathrooms Rooms
## 1        1.0     5
## 2        2.5     6
## 3        1.0     8
## 4        1.5     5
## 5        1.0     3
## 6        1.0     8
## 7        1.5     8
## 8        1.5     9
## 9        1.5     8
## 10       1.5     6
## 11       1.0    12
## 12       2.0     6
## 13       1.0     4
## 14       2.0     5
## 15       1.5     8
## 16       1.0     4
## 17       1.5     7
## 18       2.5    12
## 19       1.0     6
## 20       1.0     6


> par(mfrow = c(1,2))
> 
> hist(nekretnine$Age)
> boxplot(nekretnine$Age)

> par(mfrow = c(1,2))
> 
> hist(nekretnine$Price)
> boxplot(nekretnine$Price)

> par(mfrow = c(1,2))
> 
> hist(nekretnine$Fireplaces)
> boxplot(nekretnine$Fireplaces)

> par(mfrow = c(1,2))
> 
> hist(nekretnine$Rooms)
> boxplot(nekretnine$Rooms)

> library(psych)
## Warning: package 'psych' was built under R version 4.3.3
> deskr_nekretnine <- describe(nekretnine, quant = c(0.25, 0.75))
> deskr_nekretnine
##               vars    n      mean       sd    median   trimmed      mad  min
## Price            1 1728 211966.71 98441.39 189900.00 200230.92 78726.06 5000
## Lot.Size         2 1728      0.50     0.70      0.37      0.39     0.28    0
## Waterfront       3 1728      0.01     0.09      0.00      0.00     0.00    0
## Age              4 1728     27.92    29.21     19.00     22.18    14.83    0
## Land.Value       5 1728  34557.19 35021.17  25000.00  28350.54 16679.25  200
## New.Construct    6 1728      0.05     0.21      0.00      0.00     0.00    0
## Central.Air      7 1728      0.37     0.48      0.00      0.33     0.00    0
## Fuel.Type        8 1728      2.43     0.70      2.00      2.29     0.00    2
## Heat.Type        9 1728      2.53     0.78      2.00      2.41     0.00    2
## Sewer.Type      10 1728      2.70     0.48      3.00      2.75     0.00    1
## Living.Area     11 1728   1754.98   619.94   1634.50   1706.46   580.44  616
## Pct.College     12 1728     55.57    10.33     57.00     56.93     8.90   20
## Bedrooms        13 1728      3.15     0.82      3.00      3.14     1.48    1
## Fireplaces      14 1728      0.60     0.56      1.00      0.59     0.00    0
## Bathrooms       15 1728      1.90     0.66      2.00      1.88     0.74    0
## Rooms           16 1728      7.04     2.32      7.00      6.95     2.97    2
##                    max    range  skew kurtosis      se    Q0.25     Q0.75
## Price         775000.0 770000.0  1.57     4.17 2368.13 1.45e+05 259000.00
## Lot.Size          12.2     12.2  7.18    78.10    0.02 1.70e-01      0.54
## Waterfront         1.0      1.0 10.58   110.08    0.00 0.00e+00      0.00
## Age              225.0    225.0  2.49     7.38    0.70 1.30e+01     34.00
## Land.Value    412600.0 412400.0  3.10    16.13  842.48 1.51e+04  40200.00
## New.Construct      1.0      1.0  4.28    16.36    0.01 0.00e+00      0.00
## Central.Air        1.0      1.0  0.55    -1.70    0.01 0.00e+00      1.00
## Fuel.Type          4.0      2.0  1.32     0.25    0.02 2.00e+00      3.00
## Heat.Type          4.0      2.0  1.04    -0.55    0.02 2.00e+00      3.00
## Sewer.Type         3.0      2.0 -1.04    -0.43    0.01 2.00e+00      3.00
## Living.Area     5228.0   4612.0  0.90     1.26   14.91 1.30e+03   2137.75
## Pct.College       82.0     62.0 -1.04     0.60    0.25 5.20e+01     64.00
## Bedrooms           7.0      6.0  0.40     0.65    0.02 3.00e+00      4.00
## Fireplaces         4.0      4.0  0.40     0.72    0.01 0.00e+00      1.00
## Bathrooms          4.5      4.5  0.32    -0.45    0.02 1.50e+00      2.50
## Rooms             12.0     10.0  0.28    -0.60    0.06 5.00e+00      8.25
> deskr_nekretnine[, c(2, 3, 5, 7, 8, 14, 15)]
##                  n      mean    median      mad  min    Q0.25     Q0.75
## Price         1728 211966.71 189900.00 78726.06 5000 1.45e+05 259000.00
## Lot.Size      1728      0.50      0.37     0.28    0 1.70e-01      0.54
## Waterfront    1728      0.01      0.00     0.00    0 0.00e+00      0.00
## Age           1728     27.92     19.00    14.83    0 1.30e+01     34.00
## Land.Value    1728  34557.19  25000.00 16679.25  200 1.51e+04  40200.00
## New.Construct 1728      0.05      0.00     0.00    0 0.00e+00      0.00
## Central.Air   1728      0.37      0.00     0.00    0 0.00e+00      1.00
## Fuel.Type     1728      2.43      2.00     0.00    2 2.00e+00      3.00
## Heat.Type     1728      2.53      2.00     0.00    2 2.00e+00      3.00
## Sewer.Type    1728      2.70      3.00     0.00    1 2.00e+00      3.00
## Living.Area   1728   1754.98   1634.50   580.44  616 1.30e+03   2137.75
## Pct.College   1728     55.57     57.00     8.90   20 5.20e+01     64.00
## Bedrooms      1728      3.15      3.00     1.48    1 3.00e+00      4.00
## Fireplaces    1728      0.60      1.00     0.00    0 0.00e+00      1.00
## Bathrooms     1728      1.90      2.00     0.74    0 1.50e+00      2.50
## Rooms         1728      7.04      7.00     2.97    2 5.00e+00      8.25

Za izračune s grupiranim podacima možemo se poslužiti s grupiranim podacima kreiranim u prošlom štivu.

## [1] 5000
## [1] 775000
## [1] 16
## [1] 48126
> tablica_frekvencija
##        L1     L2 Frekvencija     xi     fixi za_nazivnik_ha    logxi
## 1    5000  53126           7  29063   203441   2.408561e-04 4.463340
## 2   53126 101252          97  77189  7487333   1.256656e-03 4.887555
## 3  101252 149378         371 125315 46491865   2.960539e-03 5.098003
## 4  149378 197504         455 173441 78915655   2.623370e-03 5.239152
## 5  197504 245630         304 221567 67356368   1.372045e-03 5.345505
## 6  245630 293756         203 269693 54747679   7.527077e-04 5.430870
## 7  293756 341882         128 317819 40680832   4.027450e-04 5.502180
## 8  341882 390008          74 365945 27079930   2.022162e-04 5.563416
## 9  390008 438134          40 414071 16562840   9.660179e-05 5.617075
## 10 438134 486260          19 462197  8781743   4.110801e-05 5.664827
## 11 486260 534386           9 510323  4592907   1.763589e-05 5.707845
## 12 534386 582512           4 558449  2233796   7.162695e-06 5.746984
## 13 582512 630638           6 606575  3639450   9.891605e-06 5.782885
## 14 630638 678764           7 654701  4582907   1.069190e-05 5.816043
## 15 678764 726890           1 702827   702827   1.422825e-06 5.846848
## 16 726890 775016           3 750953  2252859   3.994924e-06 5.875613
##        filogxi
## 1    31.243383
## 2   474.092875
## 3  1891.359135
## 4  2383.814055
## 5  1625.033544
## 6  1102.466544
## 7   704.279022
## 8   411.692771
## 9   224.682993
## 10  107.631715
## 11   51.370606
## 12   22.987934
## 13   34.697307
## 14   40.712301
## 15    5.846848
## 16   17.626838
> tablica_stivo3 <- tablica_frekvencija[,c(1:4)]
> tablica_stivo3
##        L1     L2 Frekvencija     xi
## 1    5000  53126           7  29063
## 2   53126 101252          97  77189
## 3  101252 149378         371 125315
## 4  149378 197504         455 173441
## 5  197504 245630         304 221567
## 6  245630 293756         203 269693
## 7  293756 341882         128 317819
## 8  341882 390008          74 365945
## 9  390008 438134          40 414071
## 10 438134 486260          19 462197
## 11 486260 534386           9 510323
## 12 534386 582512           4 558449
## 13 582512 630638           6 606575
## 14 630638 678764           7 654701
## 15 678764 726890           1 702827
## 16 726890 775016           3 750953
> tablica_stivo3$kn_manje_od <- c()
> 
> tablica_stivo3$kn_manje_od <-cumsum(tablica_stivo3$Frekvencija)
> 
> tablica_stivo3
##        L1     L2 Frekvencija     xi kn_manje_od
## 1    5000  53126           7  29063           7
## 2   53126 101252          97  77189         104
## 3  101252 149378         371 125315         475
## 4  149378 197504         455 173441         930
## 5  197504 245630         304 221567        1234
## 6  245630 293756         203 269693        1437
## 7  293756 341882         128 317819        1565
## 8  341882 390008          74 365945        1639
## 9  390008 438134          40 414071        1679
## 10 438134 486260          19 462197        1698
## 11 486260 534386           9 510323        1707
## 12 534386 582512           4 558449        1711
## 13 582512 630638           6 606575        1717
## 14 630638 678764           7 654701        1724
## 15 678764 726890           1 702827        1725
## 16 726890 775016           3 750953        1728
> redak_max_frekvencije <- which.max(tablica_stivo3$Frekvencija)
> redak_max_frekvencije
## [1] 4
> mod_grupirani <- tablica_stivo3$L1[redak_max_frekvencije] + (tablica_stivo3$Frekvencija[redak_max_frekvencije]-tablica_stivo3$Frekvencija[redak_max_frekvencije-1])/(tablica_stivo3$Frekvencija[redak_max_frekvencije]-tablica_stivo3$Frekvencija[redak_max_frekvencije-1] +tablica_stivo3$Frekvencija[redak_max_frekvencije]-tablica_stivo3$Frekvencija[redak_max_frekvencije+1])*(tablica_stivo3$L2[redak_max_frekvencije]-tablica_stivo3$L1[redak_max_frekvencije])
> 
> mod_grupirani
## [1] 166580.5
> n_q1 <- sum(tablica_stivo3$Frekvencija)/4
> 
> n_q1
## [1] 432
> n_me <- sum(tablica_stivo3$Frekvencija)/2
> 
> n_me
## [1] 864
> n_q3 <- sum(tablica_stivo3$Frekvencija)*3/4
> 
> n_q3
## [1] 1296
> redak_Q1 <- which(tablica_stivo3$kn_manje_od >= n_q1)[1]
> redak_Q1
## [1] 3
> redak_me <- which(tablica_stivo3$kn_manje_od >= n_me)[1]
> redak_me
## [1] 4
> redak_Q3 <- which(tablica_stivo3$kn_manje_od >= n_q3)[1]
> redak_Q3
## [1] 6
> q1_grupirani <- tablica_stivo3$L1[redak_Q1] + (n_q1 - tablica_stivo3$kn_manje_od[redak_Q1-1])/tablica_stivo3$Frekvencija[redak_Q1]* (tablica_stivo3$L2[redak_Q1] - tablica_stivo3$L1[redak_Q1])
> 
> q1_grupirani
## [1] 143800.1
> medijan_grupirani <- tablica_stivo3$L1[redak_me] + (n_me - tablica_stivo3$kn_manje_od[redak_me-1])/tablica_stivo3$Frekvencija[redak_me]* (tablica_stivo3$L2[redak_me] - tablica_stivo3$L1[redak_me])
> 
> medijan_grupirani
## [1] 190523.1
> q3_grupirani <- tablica_stivo3$L1[redak_Q3] + (n_q3 - tablica_stivo3$kn_manje_od[redak_Q3-1])/tablica_stivo3$Frekvencija[redak_Q3]* (tablica_stivo3$L2[redak_Q3] - tablica_stivo3$L1[redak_Q3])
> 
> q3_grupirani
## [1] 260328.6
> IQ = q3_grupirani - q1_grupirani
> IQ
## [1] 116528.5
> boxplot(nekretnine$Price ~ nekretnine$Fireplaces)

> boxplot(nekretnine$Price ~ nekretnine$Waterfront)

> par(mfrow= c(1,3))
> boxplot(nekretnine$Price ~ nekretnine$New.Construct, ylab = "Cijena nekretnina", xlab = "Novogradnja")
> boxplot(nekretnine$Price ~ nekretnine$Central.Air, ylab = "Cijena nekretnina", xlab = "Klima")
> boxplot(nekretnine$Price ~ nekretnine$Bedrooms, ylab = "Cijena nekretnina", xlab = "Broj spavacih soba")

Provedba postupka koristeći MS Excel

Za kreiranje grafičkih prikaza, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s historgamom.

Za kreiranje box-plota, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s box-plotom.

Za kreiranje grafičkih prikaza, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s historgamom.

Za kreiranje box-plota, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s box-plotom.

Za kreiranje histograma, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s historgamom.

Ovdje možemo uočiti da dobiveni histogram nije pretjerano informativan i ima nepotrebno puno razreda. To možete izmijeniti ako dvaput kliknete na razrede na x-osi. Tada će se s desne strane otvoriti izbornik u kojem ispod ‘Axis Options’ odaberete ikonu sa stupcima. U izborniku koji se potom otvori, odaberite ‘Number of Bins’ i upišite primjereni broj razreda (u ovom slučaju, 4).

Ovdje već možete vidjeti razliku između MS Excela i specijaliziranih statističkih softvera. Iako bi za diskontinuiranu kvantitativnu varijablu trebali imati precizne granice, ovdje su kreirane prave granice (jer ovaj softver ne razmatra vrstu varijable pri kreiranju grafova).

Za kreiranje box-plota, odaberite varijablu, a potom kliknite na ‘Insert’. Odaberite statističke grafikone, a potom ikonu s box-plotom.

U prošlom štivu ste se upoznali s kreiranje pokazatelja deskriptivne statistike za negrupirane podatke koristeći ‘Descriptive statistics’ iz ‘Data Analysis’. Ovdje ćemo pristupiti izračunu koristeći ugrađene funkcije. Jedan od razloga je to što prvi pristup ne daje izračune kvartila. Funkcije su =MIN() za minimum, =QUARTILE.EXC() za prvi i treći kvartil, =MEDIAN() za medijan, =AVERAGE() za prosjek te =MODE.SNGL() za prvu modalnu vrijednost.

Funkcija =QUARTILE.EXC() ima dva argumenta: prvi argument je niz podataka, a drugi argument ukazuje na kvartil koji se želi izračunati. Za prvi kvartil, upišite 1 (npr. =QUARTILE.EXC(A1:A100, 1)). Za drugi kvartil (medijan) upišite 2 (npr. =QUARTILE.EXC(A1:A100, 2)). Za treći kvartil upišite 3 (npr. =QUARTILE.EXC(A1:A100, 3)). U jednoj ćeliji moguće je izračunati samo po jednu vrijednost, pa ako upišete npr. =QUARTILE.EXC(A1:A100, 1,2,3) dobit ćete grešku.

Po izračunu, dobivaju se sljedeće vrijednosti:

Za grupirani niz podataka, koriste se izrazi za izračun (formule) prikazane u tekstu.

Dobivaju se sljedeći rezultati:

Moguće je kreirati i box-plotove za dijelove varijabli, podijeljene prema modalitetima druge varijable, kao što je prikazano na grafu. Kreirajte prvo box-plot za osnovnu varijablu, tj. cijenu (Price).

Potom kliknite na ‘Chart Tools’, ‘Design’ i odaberite ‘Select data’. Otvorit će se izbornik kao što je prikazano slikom niže. Ispod ‘Horizontal (category) Axis Labels’ kliknite na ‘Edit’ te unesite raspon varijable prema čijom modalitetima se vrši podjela cijena.

S obzirom da se varijabla ‘Fireplaces’ tretira kao varijabla na nominalnoj razini mjerenja (kategorijska), modaliteti su prikazani onim redoslijedom kojim se pojavljuju u podacima (umjesto po veličini).

Na sličan način kreira se i sljedeći graf. Prvo kreirajte box-plot za varijablu cijena. Ako ste već spremili kreirani graf, možete u postojećem kliknuti na ‘Select data’, a potom izmijeniti raspon, tj. varijablu u desnom dijelu prozora.

Za ‘Waterfront’ to izgleda ovako:

Po uzoru na prikazano, kreirajte ostale grafikone samostalno.

Provjera odgovora

  1. B; 2. C; 3. C; 4. B; 5. C; 6. B; 7. A; 8. B; 9. B; 10. A; 11. C; 12. B; 13. B; 14. B; 15. A; 16. B; 17. B; 18. B; 19. A; 20. D.

Korišteni izvori i literatura

De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.

Harrell Jr, F. E., & Harrell Jr, M. F. E. (2019). Package ‘hmisc’. CRAN2018, 2019, 235-236. https://cran.uib.no/web/packages/Hmisc/Hmisc.pdf

Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.

Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.

JASP Team (2024). JASP (Version 0.19.3)[Computer software].

Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/

Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf

Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.

Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.

Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.