U ovom tekstu, bavimo se korelacijskom i regresijskom analizom, kao uvodom u modeliranje. Pritom je naglasak stavljen na linearnu povezanost, a pojmovi su razloženi kroz primjere.

Simbolična ilustracija

Simbolična ilustracija


U ovom štivu pozabavit ćemo se korelacijskom i regresijskom analizom. Razumijevanje odnosa između varijabli ključan je korak u istraživačkom procesu, ali bez šireg konteksta i teorijskog okvira, postoji rizik pogrešnih zaključaka. Korelacija, primjerice, ukazuje na povezanost između pojava, ali sama po sebi ne nudi odgovore na pitanje uzročnosti. Bez preciznog razmatranja uzročnih mehanizama, lako se može dogoditi da se povezanost pogrešno protumači kao uzročno-posljedična veza.

Korelacijska i regresijska analiza ujedno predstavljaju i uvod u modeliranje, jer služe za otkrivanje i kvantificiranje odnosa među varijablama. Kao takve, one zahtijevaju čvrstu teorijsku podlogu i jasno razumijevanje mehanizama povezanosti kako bi se osigurala ispravna interpretacija rezultata i daljnja primjena u složenijim modelima. Zbog toga ćemo započeti s dubljim povezivanjem modeliranja s teorijskim osnovama istraživanja, kako bismo osigurali da naši modeli budu temeljeni na jasnim pretpostavkama i razumijevanju složenih međusobnih odnosa između varijabli. Takav pristup omogućava ispravnu interpretaciju rezultata i postavlja čvrste temelje za daljnje istraživanje i naprednije modeliranje.


Uvod u modeliranje

Modeli mogu opisivati, objašnjavati i/ili predviđati ishode ili slijed ishoda, a kreiraju se povezivanjem poznatih ili uočenih pravilnosti i zakonitosti te vezanih čimbenika. Modeli se razlikuju prema svojim svojstvima i biraju se s obzirom na obilježja odluke koju je potrebno donijeti ili problema kojeg je potrebno riješiti. Na primjer, modeli koji dobro predviđaju budućih stanja pojave neće nužno biti korisni pri objašnjavanju pojave. Dakle, modeli i metode promatraju se u kontekstu njihove svrhe – odluke koju je potrebno donijeti ili problema koji treba riješiti. Nadalje, odabir modela (i kvaliteta rješenja) često će ovisiti i o dostupnim podacima, ali i o kvaliteti tih podataka. Zato je pri kreiranju modela ili primjene metode nužno obratiti pozornost na relevantne čimbenike koji će se uzeti u obzir pri modeliranju, kao i načine njihovog mjerenja.

Treba imati na umu da modele obilježavaju idealizacija, karikatura i apstrakcija (Morgan i Knuuttila, 2012):

  • Idealizacija se odnosi na pristup modeliranju u kojem se promatra idealna situacija ili dio pojave, uz pretpostavku nepromjenjivosti ostalih uvjeta (lat. ceteris paribus).
  • Svojstvo karikature odnosi se na izdvajanje nekolicine glavnih karakteristika, zanemarujući pritom ostale.
  • Apstrahiranje se odnosi na generalizaciju zaključaka temeljem rezultata dobivenih modelom, što dovodi do potencijalnih rizika pri zaključivanju jer se rezultati zapravo dobivaju temeljem analize dijela raščlanjene stvarnosti.

S druge strane, upravo te karakteristike omogućuju izdvajanje i analizu elemenata u složenim odnosima. Dakle, može se reći da svi modeli imaju svoje prednosti i nedostatke. Na koji će način prednosti biti iskorištene, uz vođenje računa o nedostacima, ovisi upravo o osobi koja se upušta u modeliranje. Očito je da ni upotrebom formalnih modela nije u potpunosti isključen ljudski faktor. Nedostacima je moguće doskočiti pravilnim odabirom modela i metoda, pravilnim odabirom čimbenika uključenih u modeliranje te pažljivom interpretacijom i zaključivanjem temeljem rezultata. Zbog toga je nužno osnovno teorijsko znanje o promatranoj pojavi i vezanim zakonitostima te razumijevanje svojstva modela i metoda. Jedan od mogućih pristupa koji se u današnjici koristi jest primjena metodološkog individualizma (Elster, 2000), pri čemu se promatrani problem ili situacija raščlanjuje na dijelove i na svaki se dio promatranog problema primjenjuje adekvatna metodologija.

Prvo, važno je steći temeljito razumijevanje razlika između korelacije i kauzacije. Također, važno je razumjeti da ne bismo smjeli proizvoljno stavljati varijable u odnos. Slično kao kod testiranja hipoteza, odabir varijabli mora biti temeljen na dobro osmišljenim teorijskim pretpostavkama i jasnim istraživačkim ciljevima kako bismo izbjegli površne ili pogrešne zaključke. Stoga je nužno ne samo istražiti odnose među varijablama, već i razumjeti dublje teorijske i empirijske aspekte koji oblikuju te odnose.

Kad kažemo teorijske osnove, misli se na skup temeljnih principa, pretpostavki i koncepata koji čine okvir za razumijevanje, istraživanje i objašnjavanje određenog fenomena. Ove osnove uključuju:

  • Relevantne teorije: Postojeće teorije koje su razvijene u određenom području istraživanja i koje pružaju objašnjenja o tome kako i zašto određeni fenomeni djeluju. Na primjer, u ekonomiji to može biti teorija ponude i potražnje, dok u sociologiji može biti teorija društvenog identiteta. U sestrinstvu, teorije poput teorije ljudske brige Jean Watson ili teorije samopomoći Dorothee Orem pružaju osnove za razumijevanje kako sestrinska skrb utječe na zdravlje pacijenata. Na primjer, Watsonina teorija naglašava važnost empatije, brige i holističkog pristupa, dok Oremina teorija govori o važnosti potpore pacijentima u njihovim naporima za samostalnu brigu. Nadalje, na primjer, teorija ponude i potražnje objašnjava kako se tržišne cijene formiraju kroz interakciju između proizvođača i potrošača, a teorija planiranog ponašanja (Theory of Planned Behavior, TPB) može se primijeniti za razumijevanje koje efekte očekivanja i stavovi potrošača imaju na njihovu potrošačku odluku. Teorije vođenja, poput transformacijskog vođenja, nude objašnjenja kako lideri mogu inspirirati i motivirati zaposlenike te utjecati na organizacijsku kulturu. Teorija prihvaćanja tehnologije (Technology Acceptance Model, TAM) istražuje čimbenike koji određuju hoće li korisnici prihvatiti i koristiti novu tehnologiju. Model AIDA (Attention, Interest, Desire, Action) služi za razumijevanje procesa kojim se potrošači privlače i motiviraju prema kupnji proizvoda ili usluge. Ovo su samo neke češće korištene teorijske osnove.

  • Pretpostavke: Izjave koje su prihvaćene kao istinite unutar okvira određene teorije, čak i ako se možda ne mogu izravno empirijski provjeriti. Na primjer, pretpostavka da su ljudi racionalni donositelji odluka u određenim ekonomskim modelima; ili pretpostavka da su emocije pacijenata i njihovih obitelji ključne za proces ozdravljenja. Nadalje, pretpostavka hijerarhijske strukture organizacije, gdje se vjeruje da jasna podjela odgovornosti povećava učinkovitost. U informatici, često postoji pretpostavka da korisnici imaju određenu razinu digitalne pismenosti te razumiju osnovne funkcionalnosti tehnologije. U marketinškim istraživanjima, pretpostavlja se da su potrošači pod utjecajem marketinških poruka i da im komunikacijske kampanje mogu značajno promijeniti ponašanje.

  • Koncepti i definicije: Ključni pojmovi i njihova značenja koji se koriste za opisivanje i analiziranje fenomena. Na primjer, koncept „korelacije“ u statistici ili „kulture“ u antropologiji. U sestrinstvu, koncept „okruženja“ može uključivati ne samo fizičko okruženje, već i emocionalnu podršku i komunikaciju koju pruža sestrinsko osoblje. Također, pojmovi poput elastičnosti potražnje i ravnoteže na tržištu definiraju kako promjene u cijeni utječu na količinu tražene robe. Nadalje, koncept organizacijske kulture objašnjava skup vrijednosti i normi koji utječu na ponašanje unutar organizacije. Definicije algoritama i struktura podataka ključne su za razumijevanje načina na koji se podaci obrađuju i organiziraju u računalnim sustavima. Ili pak, pojmovi poput segmentacije tržišta i brand equity (vrijednost brenda) koriste se za analizu tržišta i upravljanje brendom.

  • Uzročni mehanizmi: Ideje o tome kako i zašto određeni fenomeni utječu jedan na drugi, uključujući procese ili veze koji povezuju uzroke i posljedice. Teorijske osnove u sestrinstvu uključuju mehanizme koji objašnjavaju kako sestrinska intervencija dovodi do poboljšanja zdravlja. Primjerice, teorijski okvir može objašnjavati kako osiguranje emocionalne podrške smanjuje stres pacijenata, što zauzvrat može poboljšati imunološki odgovor i ubrzati oporavak. Nadalje, mehanizam određivanja cijena – kako promjene u ponudi ili potražnji uzrokuju pomake u tržišnoj ravnoteži. Ili, kako stil vođenja (npr. transformacijsko vođenje) može voditi k promjenama u motivaciji i angažmanu zaposlenika, što posljedično vodi do boljih poslovnih rezultata. Mehanizmi korisničkog sučelja – kako poboljšanja u dizajnu mogu uzrokovati veći angažman i učinkovitost rada u informacijskim sustavima. Uzročni lanci u oglašavanju – primjerice, kako kreativna kampanja može povećati svijest o brendu, što posljedično dovodi do rasta prodaje.

  • Empirijska podrška: Dokazi iz prethodnih istraživanja koji potvrđuju ili dovode u pitanje teorijske tvrdnje i pružaju temelje za postavljanje novih istraživačkih pitanja. U sestrinskim istraživanjima često se koriste empirijski podaci kako bi se potvrdili teorijski koncepti. Na primjer, istraživanja mogu pokazati kako učestalost edukacije pacijenata o samostalnom upravljanju kroničnim bolestima poboljšava njihovu kvalitetu života. Nadalje, empirijska istraživanja pokazuju povezanost između promjena kamatnih stopa i investicijskih odluka poduzeća, što potvrđuje teorijske modele tržišnih kretanja. Studije o utjecaju edukacije i treninga na produktivnost zaposlenika pružaju dokaz da ulaganja u ljudski kapital mogu poboljšati performanse organizacije. Istraživanja o upotrebljivosti (usability) informacijskih sustava pokazuju da bolje dizajnirana sučelja rezultiraju većom učinkovitošću i zadovoljstvom korisnika. Empirijski dokazi o učinkovitosti digitalnog marketinga – kao što su A/B testiranja i analize konverzija – potvrđuju važnost personaliziranih kampanja u povećanju prodaje.

  • Normativni okvir: Vrednovanja ili smjernice koje određuju što je poželjno istražiti ili kako bi određeni fenomen trebao funkcionirati u idealnim uvjetima (ako se primjenjuje). Na primjer, Svjetska zdravstvena organizacija (WHO) naglašava potrebu za dostupnošću kvalitetne zdravstvene skrbi za sve pacijente, što se reflektira u teorijama koje zagovaraju ravnopravnost i uključenost u sestrinskoj skrbi. U ekonomiji, primjena antimonopolskih zakona i regulacija tržišta osigurava fer konkurenciju i zaštitu potrošača, što je u skladu s teorijskim principima tržišne ravnoteže. Etnički kodeksi i standardi korporativnog upravljanja definiraju idealne prakse u vođenju i poslovnom ponašanju unutar organizacija. Propisi o zaštiti podataka, poput Opće uredbe o zaštiti podataka (GDPR), osiguravaju da se razvoj i primjena informacijskih sustava provode u skladu s etičkim i pravnim standardima. Normativni okviri kao što su smjernice za oglašavanje i zaštitu potrošača reguliraju način na koji marketinške aktivnosti smiju utjecati na javnost, osiguravajući istinitost i etičnost reklamnih poruka.

Ideje vodilje:

  • Korelacija i regresija služe kao prvi koraci u modeliranju, jer omogućuju otkrivanje i kvantificiranje odnosa među varijablama.
  • Da bi se rezultati ispravno interpretirali, modeli moraju biti utemeljeni na jasnim teorijskim okvirima i hipotezama.
  • Korelacija vs. kauzalnost: Korelacija ukazuje na povezanost između varijabli, ali sama po sebi ne dokazuje uzročnost.
  • Pouzdana primjena korelacijske i regresijske analize zahtijeva da podaci zadovolje određene statističke pretpostavke (npr. normalnost reziduala kod Pearsonove korelacije).
  • Stratifikacija i kontrola dodatnih čimbenika ključni su za precizno razumijevanje uzročnih mehanizama i sprječavanje pogrešnih zaključaka.

Teorijske osnove su ključne jer pružaju kontekst i smjer istraživanju, pomažu u formuliranju hipoteza, izboru metodologije i tumačenju rezultata. Ako vam je ovaj TL;DR dovoljan, možete preći na poglavlje Primjeri korelacija, a tekst u narednim potpoglavljima detaljnije se bavi ovim osnovama i prilagođen je iz Abend (2008) i Neuman (2014) te mjestimično nadopunjen dodatnim primjerima i pojašnjenjima.


Teorija i istraživanje

„Veza između glazbenog ukusa osobe i njezinog pušačkog ponašanja može biti neočekivana, ali ilustrira kako teorijske pretpostavke mogu usmjeravati istraživanje. Teorija nam pomaže razumjeti složenosti društvenog života na način da objašnjava zašto ljudi rade ono što rade, ali i da pruži uvide i sugerira smjerove daljnjih istraživanja. Kao što je, na primjer, teorija kulturnog ukusa potaknula Pampela da postavi nova pitanja i ponovno razmotri obrasce ponašanja u vezi s glazbenim ukusom i pušenjem, teorija može pružiti koncepte kojima možemo istraživati i razmišljati o društvenom svijetu na nov način. Također pokazuje kako različite teorije pružaju različite načine objašnjavanja događaja.

Mnogi istraživači početnici se boje teorije ili ju smatraju nepotrebnom. Djeluje im kao labirint nejasnog žargona i apstrakcija koje su irelevantne za svakodnevni život. Nadam se da ćete shvatiti da teorija nije samo korisna već i ključna za razumijevanje društvenog svijeta oko vas. Teorija radi mnogo stvari: pojašnjava razmišljanje, produbljuje razumijevanje, produbljuje raspravu i obogaćuje analizu. Ima ključnu ulogu u napredovanju znanja i u organizaciji načina na koji provodimo istraživanje.

Moji studenti dijele svoje tjeskobe i zbunjenost oko teorije u društvenim znanostima sa mnom. Jedan izvor zbunjenosti je taj što malo ljudi razumije što teorija zaista uključuje. Ne pomaže ni to što teorija ima višestruka značenja i ima nekoliko oblika. Čak i profesionalci raspravljaju o značenju teorije i dali su joj nekoliko značenja.

1. Teorija je logički povezan skup općih propozicija koje uspostavljaju vezu između dvije ili više varijabli.

2. Teorija je objašnjenje određenog društvenog fenomena koje identificira skup uzročno relevantnih faktora ili uvjeta.

3. Teorija pruža uvide u stvarno značenje društvenog fenomena nudeći osvjetljujuću interpretaciju i govoreći nam “o čemu se radi”.

4. Teorija je ono što je poznati društveni mislilac stvarno mislio.

5. Teorija je cjelokupan svjetonazor, ili način gledanja, tumačenja i razumijevanja događaja u svijetu.

6. Teorija je kritika utemeljena na političko-moralnom gledištu; predstavlja i zastupa skup vjerovanja-vrijednosti iz kojih kritizira stav i argumente protivnika.

7. Teorija je filozofski komentar na ključna pitanja ili probleme o temeljnim pitanjima o tome kako razvijamo znanje o društvenom svijetu (npr. kako doista konstruiramo osjećaj društvene stvarnosti).

Izvor: Abend, G. (2008). The meaning of ‘theory’. Sociological theory, 26(2), 173-199.

Jedan izvor zbunjenosti u vezi s teorijom je taj što se većina nas svakodnevno susreće i koristi sličnim, ali neznanstvenim objašnjenjima. Teorije su objašnjenja, ali nisu jedini izvor objašnjenja. Objašnjenja nude ideje za razumijevanje stvari i govore nam što je važno, zašto ljudi rade ono što rade i kako se događaji u svijetu uklapaju u ta zbivanja. Objašnjenja možemo čuti u razgovorima s prijateljima, na televizijskim emisijama, od političara i poslovnih lidera, u novinskim izvješćima pa čak i putem filmova. To su objašnjenja, ali ne dosežu razine onih koje nudi znanstvena teorija.

Mnogi se ljudi zabrinu, uplaše ili reagiraju odustajanjem kada se susretnu s nepoznatim apstraktnim idejama. Svi prepoznajemo da svijet ima i konkretnih događaja i fizičkih objekata koje možemo dodirnuti i vidjeti (npr. držati knjigu u rukama) kao i apstraktnih ideja koje postoje u našim umovima (npr. značenje slobode i pravde). Kad se susretnemo s mnogim nepoznatim apstraktnim idejama, a ideje su slabo definirane, bilo namjerno ili ne, brzo doživljavamo anksioznost i frustraciju.

Socijalna teorija sastoji se od međusobno povezanih apstraktnih ideja. Neke od tih ideja labavo su povezane s opažajnim svijetom ili poznatim idejama. Dok ne naučimo ideje određene teorije i vidimo njihove veze, nije iznenađujuće da nam razgovor o apstraktnim idejama može izazvati nelagodu.

Posljednji izvor zbunjenosti izravno se odnosi na istraživanje. Neki od nas, kao istraživači, ne čine teoriju eksplicitnom i lako vidljivom. Iako to zahtijeva malo više vremena i truda, kada je teorija istraživanja jasna i vidljiva, svi je možemo lakše procijeniti te razumjeti snage i slabosti istraživanja. Gubitak jasne i jake teorije istraživanja jedan je od pokazatelja slabe studije - ako teorija ostaje nejasna, nepotpuna ili slabo oblikovana, onda se niti ne može od čitatelja očekivati da ju razumije ili prihvati.

Izvor (prilagođeno iz): Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.


Pretpostavke

Sve teorije sadrže ugrađene pretpostavke, koje su izjave o prirodi stvari koje (ne)možemo promatrati ili empirijski ocijeniti. One su potrebne početne točke. U društvenim znanostima kreiramo pretpostavke o prirodi ljudi (npr. ljudi su suštinski natjecateljski nastrojeni ili ljubazni i suradljivi), društvenoj stvarnosti (npr. lako je vidljiva ili sadrži skrivene elemente) ili određenom fenomenu ili pitanju.

Jedna vrsta pretpostavke je „pozadinska pretpostavka“: ona mora postojati kako bismo nastavili istraživanje. Teorije o složenim društvenim pitanjima, poput npr. rasnih predrasuda, oslanjaju se na nekoliko implicitnih pozadinskih pretpostavki. Neke od njih povezane s rasnom predrasudom su sljedeće: ljudi u društvu prepoznaju rasne kategorije ili rasne razlike; vide razlike među pojedincima na temelju članstva osobe u rasnoj grupi; temeljem članstva u rasnoj grupi pripisuju osobine, motivacije i karakteristike; i vrednuju dobrotu osobina, motivacija i karakteristika članova. To su pozadinske pretpostavke – jer, ako ljudi ne bi razlikovali “rase” (tj. određene fizičke karakteristike povezane s podrijetlom), nikada ne bi pridružili karakteristike članovima rasne grupe itd. i tada koncept rasne predrasude prestaje biti koristan. Dakle, koncept i teorija koja ga objašnjava grade se na pozadinskim pretpostavkama.

Pozadinska pretpostavka nekih ekonomskih modela temelji se na pretpostavci da pojedinci imaju stabilne preference i da donose odluke s ciljem maksimizacije svoje koristi. Bez pretpostavke da potrošači razumiju i vrednuju razliku između proizvoda (npr. kvaliteta, cijene ili dodatnih usluga), koncept potrošačkog viška i teorija tržišne ravnoteže gubi smisao. Primjerice, ako kupci ne bi imali jasne preference, ne bi bilo moguće definirati što je „vrijednost“ nekog proizvoda.

U menadžmentu, teorije upravljanja i organizacijskog ponašanja oslanjaju se na pretpostavku da zaposlenici percipiraju radno okruženje i organizacijsku kulturu na sličan način te da imaju očekivanja u pogledu motivacije i nagrađivanja. Ako se ne pretpostavi da zaposlenici prepoznaju hijerarhijske strukture i da na temelju njih donose odluke i stavove (npr. o angažmanu ili zadovoljstvu poslom), modeli učinkovitog vođenja ili implementacije strategija postaju nelogični. Bez te zajedničke pozadine, koncepti poput motivacijskih teorija gube svoju primjenjivost.

U području informatike, osobito u području razvoja korisničkog sučelja, pretpostavlja se da korisnici mogu prepoznati i razlikovati vizualne i funkcionalne elemente te da se njihova kognitivna obrada informacija može sustavno modelirati. Ako se ne pretpostavi da korisnici mogu razlikovati tipične elemente (npr. gumbe, izbornike ili ikone), koncepti dizajna usmjerenog na korisnika, kao i evaluacijski kriteriji upotrebljivosti, postaju besmisleni. Ta zajednička pretpostavka omogućava da se standardiziraju metode testiranja i analize sučelja.

Osim pozadinskih pretpostavki, možemo imati „stipulirane pretpostavke“ (pretpostavka postavljena radi argumentacije ili dogovorena pretpostavka; tj. one pretpostavke koje omogućuju napredovanje argumenta [vidi Abbott 2004:152]). Takva pretpostavka može ili ne mora biti točna. Ako bismo željeli proučavati rasnu predrasudu, mogli bismo pretpostaviti da je ljudi imaju u različitim mjerama, a neki ljudi je uopće nemaju. Mogli bismo pretpostaviti da se rasna predrasuda osobe odnosi na ljude u drugim rasnim grupama, ali ne i na vlastitu rasnu grupu. Mogli bismo pretpostaviti da se rasna predrasuda održava tijekom vremena u osobi i ne pojavljuje se ili nestaje trenutačno.

Pri analizi tržišne konkurencije može se stipulirati da svaki kupac uspoređuje proizvode isključivo na temelju cijene i kvalitete, čime se pojednostavljuje model tržišne ravnoteže. Ova pretpostavka omogućuje daljnju argumentaciju i razvoj teorije, premda u stvarnosti kupci mogu donositi odluke pod utjecajem emocionalnih i društvenih čimbenika.

Svi menadžeri djeluju etički i transparentno, a njihove se odluke temelje isključivo na podacima i analizi situacije. Takva pretpostavka omogućava razvoj modela učinkovitog vođenja i implementacije promjena, iako se u praksi mogu pojaviti odstupanja zbog subjektivnih procjena, emocija ili osobnih interesa.

Korisnici će se ponašati dosljedno pri interakciji s računalnim sustavom, tj. određeni dizajnerski elementi će uvijek izazvati predvidljive reakcije (npr. povećati angažman ili smanjiti greške). Ova stipulirana pretpostavka omogućuje razvoj standardiziranih metoda testiranja, iako stvarno ponašanje korisnika može varirati ovisno o kontekstu i individualnim razlikama.

Potrošači će reagirati na promotivne kampanje na unaprijed definirani način, primjerice, povećanjem svijesti o brendu i namjerom kupovine. Time se omogućuje razvoj marketinških strategija i mjerenje učinkovitosti kampanja, premda u praksi postoji širok raspon reakcija koje nisu uvijek predvidljive.

U svakom od ovih primjera, stipulirana pretpostavka služi kao polazišna točka za teoretsku argumentaciju i modeliranje, omogućujući istraživačima da dalje razvijaju i testiraju svoje hipoteze, unatoč mogućim odstupanjima u stvarnosti. Kao i kod teorije rasne predrasude, takve pretpostavke nisu nužno empirijski dokazane, ali su ključne za napredovanje argumenta i analitičkog pristupa u datoj disciplini.

Karakteristike teorija i pretpostavki:

  • Sigurnost odgovora: Prelazni, uvjetni odgovori koji su nepotpuni i otvoreni
  • Vrsta znanja: Otvoreno, proširujući sistem vjerovanja
  • Vrsta pretpostavki: Eksplicitne, promjenjive pretpostavke temeljene na otvorenoj, informiranoj raspravi i racionalnom razmatranju
  • Upotreba normativnih izjava: Razdvajanje opisnih tvrdnji, objašnjenja i normativnih izjava
  • Empirijski dokazi: Razmatranje svih dokaza, traženje ponovljenih testova tvrdnji, mijenjanje na temelju novih dokaza
  • Logička konzistentnost: Najviši stupanj konzistentnosti i usklađenosti, izbjegavanje logičkih pogrešaka
  • Transparentnost: Poticanje transparentnosti

Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Teorijski fokus

Konstruiramo, razrađujemo i testiramo ili provjeravamo dva tipa teorije, substantive i formalne.

Substantivna teorija usredotočuje se na sadržaj specifičnih fenomena ili tematskih područja. Ona objašnjava konkretne aspekte društvene stvarnosti i usmjerena je na detaljno proučavanje određenih sadržaja.

Na primjer, obiteljski odnosi, delinkventno ponašanje ili rasno-etnički odnosi. Možemo imati teoriju koja se usredotočuje na ekonomski razvoj, kao u Mahoneyjevom (2003) proučavanju Španjolske Amerike. Takva teorija analizira kako se strukture proizvodnje, institucionalni aranžmani i kulturne vrijednosti međusobno isprepliću u procesu ekonomskog razvoja određene regije. Ili teoriju koja se usredotočuje na to kako se socijalne nejednakosti reproduciraju u svakodnevnim međuljudskim interakcijama, kao u Williamsovom (2006) proučavanju trgovine igračkama. Substantivna teorija u menadžmentu može se usredotočiti na obiteljske odnose unutar organizacija (npr. obiteljski poduzetnici) ili na specifične oblike delinkventnog ponašanja u radnom okruženju. Studije o tome kako obiteljska kultura utječe na donošenje odluka u malim i srednjim poduzećima mogu pružiti dubinsko razumijevanje tih specifičnih fenomena. U informatici, substantivna teorija može se usredotočiti na određene aspekte digitalne transformacije, poput analize digitalne nejednakosti ili pristupa informacijama. Primjer može biti teorija o digitalnoj pismenosti koja istražuje kako različite skupine korisnika pristupaju i koriste informacijske tehnologije, čime se osvjetljavaju specifični obrasci uporabe i prepreke. U marketingu se substantivna teorija može posvetiti proučavanju specifičnih tržišnih segmenata ili ponašanja potrošača, primjerice, teorija o formiranju lojalnosti brendu. Primjer može biti istraživanje koje analizira kako interakcije potrošača s brendom u specifičnom kontekstu (npr. premium proizvodi) utječu na dugoročnu lojalnost i identitet potrošača.

Formalna teorija se usredotočuje na opće procese ili strukture koje djeluju na više tematskih područja. Ona nudi apstraktne modele i konceptualne okvire koji se mogu primijeniti na različite sadržaje i kontekste.

Formalna teorija o pristupu resursima i održavanju pozicije moći i autoriteta može se primijeniti na nekoliko područja. Ona može objasniti kako vlasnici poduzeća koriste svoj pristup vrijednim resursima u razvijenim kapitalističkim društvima kako bi održali ekonomsku i društvenu moć; kako su vladini elitisti koristili kontrolu nad resursima kako bi pokušali zadržati vlast tijekom prijelaza iz komunizma u postkomunistički svijet; i kako su kolonijalne elite u čvrstom sustavu kontrole resursa zadržavale lokalnu moć u devetnaestom stoljeću na način koji je zaustavio kasniji nacionalni razvoj. U menadžmentu, formalna teorija može se koristiti za objašnjavanje kako organizacijske strukture i procesi omogućuju održavanje moći unutar poduzeća. Na primjer, model koji analizira kako vrhovno vodstvo koristi kontrolu nad informacijama, resursima i strateškim odlukama da bi osiguralo svoju poziciju, može se primijeniti u različitim kontekstima – od tradicionalnih velikih poduzeća do startupova. U informatici se koncepti poput mrežnih efekata i centralizacije podataka mogu interpretirati kroz formalne modele. Primjer je analiza kako velike digitalne platforme koriste algoritme i kontrolu nad podacima da bi stvorile barijere ulasku za konkurente te time održavale svoju tržišnu poziciju. U svim tim situacijama djelovala je slična socijalno-ekonomska dinamika: entiteti na poziciji moći koriste svoje vlasništvo i kontrolu nad vrijednim resursima kako bi održale svoj položaj moći i odolijevale izazovima svog autoriteta.

Ova dva tipa teorije međusobno se prožimaju. Substantivna teorija o određenoj temi često se oslanja na formalne teorije ili kombinira formalne teorije, a formalna teorija može imati primjene u nekoliko substantivnih područja. Kako je Layder (1993:44) primijetio, „kumulativni proces teorije poboljšava se poticanjem višestrukih substantivnih i formalnih teorija“.

Svaki teorijski fokus ima svoje prednosti i ograničenja. Substantivna teorija nudi moćna objašnjenja za određeno tematsko područje. Uključuje detalje iz određenih postavki, procesa ili događaja. Ipak, može ju biti teško generalizirati preko različitih tematskih područja. U usporedbi s formalnom teorijom, koncepti u substantivnoj teoriji obično su na nižim razinama apstrakcije i uže u opsegu. U usporedbi s formalnom teorijom, lakše možemo vidjeti relevantnost substantivne teorije za trenutne događaje. Snaga formalne teorije leži u njezinoj sposobnosti da premosti više tematskih područja i unaprijedi opće znanje. Njezina slabost je što, budući da se manje temelji na specifičnim pitanjima i socijalnim okruženjima, moramo ju prilagoditi kako bismo vidjeli kako se odnosi prema određenom pitanju ili temi. Formalne teorije pomažu nam prepoznati i objasniti slične karakteristike na više tematskih područja. One su apstraktnije, što ih čini složenijima i lakšima za izražavanje u potpuno logičkom, analitičkom obliku.

Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Predviđanje i objašnjenje

Osnovna svrha teorije je objasniti. Međutim, objašnjenje ima dva značenja: teorijsko i svakodnevno.

Istraživači se usredotočuju na teorijsko objašnjenje, logički argument koji objašnjava zašto nešto poprima određeni oblik ili zašto se događa. Obično kad to radimo, pozivamo se na opće pravilo ili načelo, i povezujemo ga s teorijskim argumentom s mnogo veza među konceptima.

Svakodnevno objašnjenje čini nešto jasnim ili opisuje nešto na način koji ga ilustrira i čini razumljivim drugima. Na primjer, dobar učitelj „objašnjava“ u svakodnevnom smislu. Ta dva oblika objašnjenja mogu se prožimati kad objašnjavamo (tj. činimo razumljivim) objašnjenje (tj. logički argument koji uključuje teoriju).

Prije nego što proučimo oblike teorijskog objašnjenja, napravit ćemo kratku digresiju jer mnogi ljudi miješaju predviđanje s objašnjenjem. Predviđanje je izjava da će se nešto dogoditi. Objašnjenje logički povezuje što se događa u određenoj situaciji s apstraktnijim ili osnovnijim principom o “kako stvari funkcioniraju” kako bi odgovorilo na pitanje zašto. Konkretna situacija pokazuje se kao primjer ili specifičan slučaj općeg principa.

Lakše je predviđati nego objasniti, a objašnjenje ima više logičke snage od predviđanja jer dobra objašnjenja također predviđaju. Konkretno objašnjenje rijetko predviđa više od jednog ishoda, ali konkurentska objašnjenja mogu predvidjeti isti ishod. Iako je manje snažno od objašnjenja, mnoge ljude očarava dramatičnost predviđanja.

Primjer kockanja ilustrira razliku između objašnjenja i predviđanja. Ako uđem u kasino i dosljedno i precizno predviđam sljedeću kartu ili sljedeći broj na ruletu, to će biti senzacija. Mogu osvojiti puno novca, barem dok voditelji kasina ne shvate da uvijek pobjeđujem i izbace me. Ipak, način na koji vršim predviđanja je zanimljiviji od činjenice da to mogu učiniti.

Evo još jednog primjera. Znate da sunce „izlazi“ svako jutro. Možete predvidjeti da će svakog jutra, bez obzira na oblake, sunce „izaći“. Ali zašto je to tako? Jedno objašnjenje je da Velika kornjača nosi sunce preko neba na svojoj leđima. Drugo objašnjenje je da bog pali svoju strijelu, koja se nama čini kao sunce, i puca je preko neba. Ipak, malo ljudi danas vjeruje u ta drevna objašnjenja.

Fizičar i nobelovac Steven Weinberg (2001:47) dao je „tvrdi znanstveni“ pogled na objašnjenje:

Znanstvenici koji se bave čistim istraživanjima umjesto primijenjenim često govore javnosti i agencijama za financiranje da je njihova misija objašnjenje nečega ili nečega sličnog… U okvirima fizike, mislim da se može… [razlikovati] objašnjenje od pukog opisa, što je ono što fizičari misle kad kažu da su objasnili neku pravilnost… Objasnimo fizički princip kada pokažemo da se može deducirati iz temeljnijeg fizičkog principa.

Teorijska objašnjenja dolaze u tri oblika: uzročna, strukturalna i interpretativna. Svako od njih objašnjava, ili odgovara na pitanje zašto se događaji događaju te povezuje određeni specifični slučaj s nekom vrstom općeg principa.

Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Korelacija vs. kauzalno objašnjenje

Kauzalno objašnjenje ukazuje na uzročno-posljedični odnos između koncepata/ varijabli. Koristimo ovakvu vrstu objašnjenja u svakodnevnom jeziku, iako svakodnevni jezik često zna biti prilično neprecizan i dvosmislen.

Evo kauzalnog objašnjenja: Recimo da tvrdite da siromaštvo uzrokuje kriminal ili da slabljenje društvenih moralnih vrijednosti uzrokuje povećanje razvoda. Ovo su elementarna kauzalna objašnjenja. Ipak, znanstvenici nastoje biti precizniji i točniji kada razgovaraju o uzročnim odnosima. Također pokušavaju utvrditi kako ili zašto uzročni proces funkcionira (npr. kako i zašto siromaštvo uzrokuje kriminal).

Barem od vremena škotskog filozofa Davida Humea iz osamnaestog stoljeća (1711.-1776.), filozofi raspravljaju o pojmu uzroka. Neki ljudi tvrde da uzročnost postoji u empirijskom svijetu. Iako je ne možemo lako vidjeti, ona je „tamo negdje“ u objektivnoj stvarnosti, i možemo pronaći neizravne dokaze o njoj. Drugi tvrde da uzročnost ne postoji u objektivnoj stvarnosti. To je mentalna konstrukcija „u našim glavama“. Mi smo subjektivno stvorili ideju uzročnosti kako bismo si pomogli razmišljati o događajima u objektivnoj stvarnosti. Bez ulaska u filozofsku raspravu, mnogi društveni znanstvenici teoretiziraju i provode istraživanja o uzročnim odnosima.

Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Uvjeti za uzročnost


Potrebne su minimalno tri stvari da bi se uspostavila uzročnost: vremenski red, empirijska povezanost i isključivanje vjerojatnih alternativa. Implicitan četvrti uvjet je da uzročni odnos ima smisla ili se uklapa u šire pretpostavke ili teorijski okvir. Razmotrimo tri osnovna uvjeta. Osim ovih triju, potrebno je i precizirati uzročni mehanizam i nacrtati uzročni lanac.


Tekst u potpoglavljima preuzet je i preveden te djelomično prilagođen (nadopunjen) iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Vremenski redoslijed

Vremenski redoslijed znači da uzrok mora doći prije posljedice. Ova je pretpostavka zdravorazumska i uspostavlja smjer uzročnosti: od uzroka prema posljedici. Možete se pitati kako uzrok može doći nakon onog što treba utjecati. Ne može, ali vremenski red je samo jedan od uvjeta potrebnih za uzročnost. Vremenski red je nužan, ali ne i dovoljan za zaključivanje o uzročnosti. Ponekad ljudi griješe kad govore o „uzroku“ samo na temelju vremenskog reda.

Promjena kamatnih stopa u središnjoj banci može se dogoditi prije nego što se promijeni razina investicija u gospodarstvu. Iako je vremenski redoslijed zadovoljen – prvo promjena kamatnih stopa, zatim promjena investicija – to ne dokazuje nužno da je promjena kamatnih stopa jedini ili primarni uzrok investicijskih odluka. Drugi čimbenici poput poslovne klime, političkih odluka ili očekivanja tržišta također mogu imati ulogu.

Uvođenje novog programa obuke zaposlenika događa se prije nego što se primijeti poboljšanje radne učinkovitosti. Ovdje je vremenski redoslijed jasan – prvo obuka, zatim poboljšanje performansi. Međutim, iako je obuka nužno povezana s poboljšanjem, ona sama po sebi nije dovoljna da bi se zaključilo da je upravo ona izazvala povećanje učinkovitosti, jer mogu postojati i drugi čimbenici, poput promjena u menadžerskim stilovima, načinima nagrađivanja zaposlenika ili tržišnim uvjetima.

Nakon implementacije novog dizajna korisničkog sučelja, broj korisničkih pogrešaka opada. Vremenski redoslijed – redizajn prije smanjenja pogrešaka – je zadovoljen, ali smanjenje pogrešaka može biti rezultat i drugih promjena, kao što su dodatna edukacija korisnika ili promjene u radnom okruženju. Dakle, samo redoslijed događaja nije dovoljan dokaz da je redizajn izravno uzrokovao pad pogrešaka.

Lansiranje marketinške kampanje dolazi prije povećanja prodaje. Iako je kampanja pokrenuta prije rasta prodaje, vremenski redoslijed je samo jedan element uzročnosti. Povećanje prodaje može biti potaknuto i drugim faktorima – sezonskim trendovima, promjenama u konkurentskom okruženju ili ekonomskim uvjetima – te stoga nije moguće zaključiti da je kampanja jedini uzrok bez dodatne analize.

Na primjer, rasni nemiri dogodili su se u dvanaest američkih gradova 1968. godine dan nakon intenzivnog vala sunčevih pjega. No, vremenski poredak ne uspostavlja uzročnu vezu između sunčevih pjega i rasnih nemira. Na kraju krajeva, sva ljudska povijest dogodila se nakon nekog određenog događaja. Uvjet vremenskog reda jednostavno isključuje iz razmatranja potencijalne uzroke koji su se dogodili kasnije u vremenu.

Uspostavljanje vremenskog reda može biti komplicirano u presječnim istraživanjima (engl. cross-sectional). Na primjer, istraživač može otkriti da ljudi koji imaju značajno formalno obrazovanje izražavaju manje predrasuda od drugih. Uzrokuje li obrazovanje smanjenje predrasuda ili se ljudi koji imaju puno predrasuda suzdržavaju od školovanja? Na primjer, u ekonomiji presječno istraživanje može otkriti da osobe s višim primanjima pokazuju manju financijsku nesigurnost. U ovom slučaju se postavlja pitanje: uzrokuje li visoka razina prihoda smanjenje financijske nesigurnosti ili se, pak, osobe koje se osjećaju financijski sigurno uspješnije samoostvaruju (samoaktualizacija) i time postižu veće prihode?

Sličan problem pojavljuje se i u području menadžmenta, gdje se u presječnom istraživanju poduzeća može utvrditi da organizacije s visokom razinom angažmana zaposlenika izvještavaju o većoj razini inovacija. U takvom slučaju postavlja se pitanje: potiče li visoki angažman zaposlenika inovativnost, ili inovativna radna okruženja privlače angažiranije zaposlenike? Bez praćenja promjena tijekom vremena, teško je razlučiti koji od faktora inicijalno pokreće ostale.

Na primjer, presječno istraživanje korisnika društvenih mreža može pokazati da oni koji češće koriste platformu također iskazuju veće zadovoljstvo životom. Međutim, postavlja se pitanje: je li intenzivna upotreba društvenih mreža uzrok povećanog zadovoljstva životom, ili su korisnici koji su već zadovoljniji skloniji većoj aktivnosti na mreži? S obzirom na to da se sve varijable mjere u isto vrijeme, teško je sa sigurnošću odrediti redoslijed događaja.

U marketingu, presječna istraživanja među potrošačima mogu otkriti da oni koji iskazuju visoku lojalnost brendu također navode veću razinu zadovoljstva kupljenim proizvodima. Ovdje se također postavlja pitanje uzročnosti: potiče li lojalnost brendu veće zadovoljstvo, ili zadovoljstvo proizvodom potiče potrošače da postanu lojalniji? Možemo pretpostavljato, no bez longitudinalnog praćenja nije moguće sa sigurnošću utvrditi koji je faktor inicijalni uzrok.

Ovi primjeri ilustriraju da, iako je vremenski redoslijed nužan (uzrok mora doći prije posljedice) za uspostavljanje uzročnosti, on sam po sebi nije dovoljan dokaz. Presječna istraživanja često ne mogu razotkriti pravi smjer uzročnosti.

To je problem kokoš ili jaje. Da bi se riješio, istraživač treba prikupiti dodatne informacije ili provesti longitudinalno istraživanje kako bi testirao vremenski red. Jednostavni uzročni odnosi su jednosmjerni, djelujući u jednom smjeru od uzroka prema posljedici. Složenije teorije specificiraju uzajamno-učinke uzročnih odnosa - to jest, međusobni uzročni odnos ili simultanu uzročnost. Na primjer, mnogo učenja može uzrokovati da student dobije dobre ocjene, ali dobivanje dobrih ocjena također motivira studenta da nastavi učiti. Teorije često imaju uzajamne ili povratne odnose, ali neke od njih je teško testirati. Neki istraživači nazivaju jednosmjerni odnos nerekurzivnim, a uzajamne uzročne odnose rekurzivnim.

Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Povezanost

Povezanost je druga pretpostavka i znači da se dvije pojave pojavljuju zajedno na smisleni način ili se čini da djeluju zajedno. Ljudi često zamjenjuju riječ korelacija sa povezanošću.

Korelacija ima određeno tehničko značenje i postoje određeni statistički zahtjevi za nju. Povezanost je opća ideja. Korelacijski koeficijent je statistička mjera koja ukazuje na snagu povezanosti, ali postoje i drugi načini mjerenja povezanosti. Ponekad istraživači nazivaju povezanost istodobnom varijacijom jer se dvije varijable mijenjaju zajedno (istu ideju prenosti kovarijanca). U svakom slučaju, u kontekstu korelacije, prikladnije je koristiti pojam povezanost ili veza, nego uzročnost, uzrokuje i sl.

No, neki ljudi zamjenjuju povezanost sa stvarnom uzročnošću. “Na primjer, kad sam bio na fakultetu, dobivao sam visoke ocjene na ispitima koje sam polagao petkom, ali niske ocjene na onima koje sam polagao ponedjeljkom. Dakle, postojala je povezanost između dana u tjednu i ocjene na ispitima. Ova povezanost ne znači da je sam dan u tjednu uzrokovao ocjenu na ispitima. Umjesto toga, razlog za povezanost bio je taj što sam svaki vikend radio 20 sati i bio jako umoran ponedjeljkom.”

Ako ne možete pronaći povezanost, uzročni odnos je vrlo malo vjerojatan. Zato želite pronaći korelacije i druge mjere povezanosti. Ipak, samo zato što pronađete korelaciju ne znači da imate uzročnost, a ponekad čak ni smislenu povezanost. Korelacija je nužan, ali ne i dovoljan uvjet za uzročnost. Drugim riječima, potrebno vam je za uzročnost, ali to samo po sebi nije dovoljno da bi se utvrdila uzročnost.

“Da biste pokazali uzročnost, povezanost ne mora biti savršena. U primjeru koji se odnosi na ocjene na ispitima i dane u tjednu, postoji povezanost ako sam na deset petaka dobio sedam ocjena A, dvije B i jednu C, dok su ocjene na deset ponedjeljaka bile šest D, dvije C i dvije B. Povezanost postoji, ali dani u tjednu i ocjene na ispitima nisu savršeno povezani.”

Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Isključivanje alternativa

Isključivanje alternativa znači da moramo pokazati da je učinak uzrokovan uzročnom varijablom, a ne nečim drugim.

To se također naziva i spornost jer se prividni uzročni odnos koji je zapravo posljedica druge, ali neprepoznate uzročne varijable zove spornim odnosom. Iako možemo promatrati vremenski red i povezanosti, ne možemo empirijski isključiti sve logičke alternative. Isključivanje mogućih alternativa je idealno. To znači da to možemo pokazati samo neizravno ili isključiti očitije alternativne objašnjenja. U eksperimentu ugrađujemo kontrole u sam dizajn istraživanja kako bismo isključili alternativne uzroke i izolirali eksperimentalnu situaciju od utjecaja svih varijabli osim glavne uzročne varijable.

Ne-eksperimentalna istraživanja isključuju alternative tako da identificiraju moguće alternativne uzroke i mjere ih. To je uobičajeno u istraživanjima provedenim putem anketa. Nakon što izmjerimo potencijalne alternative, koristimo statističke tehnike kako bismo saznali radi li uzročna varijabla ili nešto drugo na zavisnoj varijabli.

Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

U kontekstu spornih odnosa, korisno je razmotriti Simpsonov paradoks o kojem se govori detaljnije u jednom od narednih poglavlja.

Specifikacija mehanizma

Specifikacija mehanizama u uzročnom odnosu znači da kad stvorimo uzročno objašnjenje, moramo imati više od dvije varijable koje su povezane, što „zahtijeva dostatno objašnjenje i preciziranje društvenih ‘zupčanika i kotača’“ (Hedstrom i Swedberg, 1998:7). Idemo dalje od toga da nezavisna i zavisna varijabla budu povezane (kao da je to veza kroz “crnu kutiju” nepoznatih procesa). Potpuno uzročno objašnjenje identificira uzročni odnos i precizira uzročni mehanizam.

Recimo da pronađemo snažnu povezanost između društvenog statusa osobe i njezinog zdravlja. Možemo iznijeti svoju “teoriju” kao da ljudi iz višeg društvenog razreda žive dulje i manje obolijevaju od ljudi iz nižeg društvenog razreda. Međutim, nije dovoljno reći da društveni razred uzrokuje zdravstvene ishode. Moramo također objasniti zašto i kako društveni razred to čini. Ukratko, trebali bismo opisati točno što je to u društvenom razredu što uzrokuje da se događaju zdravstveni ishodi. Možda vjerujemo da viši društveni razred pruža ljudima više društvenih resursa (znanje, društvene veze, slobodno vrijeme, fleksibilno radno vrijeme) koji im omogućuju da jedu zdravu hranu, doživljavaju manji stres, bave se tjelesnom aktivnošću i tako dalje, što rezultira boljim zdravljem. Društveni resursi su mehanizam koji povezuje društveni status i ishode (resursi uključuju „biti u tijeku“, „poznati prave ljude“ i imati pristup prilikama).

U ekonomiji, jedan specifičan mehanizam koji povezuje ulagačke odluke s ekonomskim rastom jest utjecaj infrastrukturnih investicija na smanjenje logističkih troškova. Na primjer, izgradnja novih cesta i željezničkih linija omogućuje bržu distribuciju roba i usluga, što poboljšava povezanost između regija, povećava učinkovitost tržišta i potiče gospodarsku aktivnost. Ovaj lanac uzročnosti ilustrira kako konkretna ulaganja u infrastrukturu mogu posredno utjecati na ulaganja i rast produktivnosti i ekonomski razvoj.

U menadžmentu, transformacijski stil vođenja predstavlja specifičan mehanizam kojim se poboljšava angažman i motivacija zaposlenika. Vođe koji uspostavljaju jasnu viziju, prepoznaju individualne doprinose i potiču inovativnost čime stvaraju radno okruženje u kojem se zaposlenici osjećaju cijenjeno i motivirano. Ovaj pristup ne samo da povećava produktivnost, već i potiče suradnju te smanjuje fluktuaciju kadrova, čime se dugoročno poboljšavaju performanse organizacije.

U području informacijskih znanosti, mehanizam difuzije inovacija unutar digitalnih i društvenih mreža objašnjava kako se nove tehnologije šire među korisnicima. Rani usvojitelji, koji putem svojih digitalnih platformi dijele pozitivna iskustva, potiču prijatelje, sljedbenike i širu zajednicu da prihvate novu tehnologiju. Ovaj proces, poznat i kao efekt mreže, ubrzava usvajanje inovacija i doprinosi bržem tehnološkom napretku unutar organizacija i društva u cjelini.

U marketingu, emocionalno oglašavanje djeluje kao specifičan mehanizam koji utječe na ponašanje potrošača. Kampanje koje koriste snažne emotivne priče, simboliku i emotivne poruke uspostavljaju dublju povezanost između potrošača i brenda. Ova emocionalna angažiranost ne samo da potiče trenutnu kupovinu, nego i gradi dugoročnu lojalnost, čime se osigurava kontinuirani pozitivan utjecaj na percepciju brenda, a posljedično i njegovu tržišnu konkurentnost.

Ovi primjeri ilustriraju kako specifični mehanizmi unutar pojedinih područja — ekonomije, menadžmenta, informacijskih znanosti i marketinga — pomažu objasniti uzročno-posljedične odnose kroz konkretne mehanizme i lanac djelovanja, čime se omogućava dublje razumijevanje i preciznija analiza promatranih fenomena.

Mehanizme možemo koristiti u modelima procesa za koje vjerujemo da povezuju ulazne podatke s ishodima kako bismo razjasnili mehanizme. U ekonomiji, tržište je uobičajeni mehanizam; to je proces obavljanja razmjena između neovisnih kupaca i prodavatelja, svaki s vlastitim željama i resursima. Tržište objašnjava kako funkcionira odnos ponude i potražnje.

U sociologiji, često korišteni mehanizam je „Mertonovo samoispunjavajuće proročanstvo“. Samoispunjavajuće proročanstvo događa se kada definicija situacije potiče ponašanje koje čini lažnu definiciju stvarnom. „Negativni povratni“ mehanizam u proročanstvu povezuje vjerovanja i ponašanja ljudi u jednom trenutku s kasnijim ishodima. Razmotrimo primjer s razgovorom za posao. Osoba koja je uvjerena da će intervju proći loše može razviti intenzivan osjećaj nervoze. Ova anksioznost može se manifestirati kroz nesigurno držanje, brzi govor i poteškoće u koncentraciji tijekom razgovora. Zbog tih znakova, poslodavac doživljava kandidata kao manje kompetentnog, što potvrđuje prvotno negativno očekivanje osobe. Time se stvara lanac: negativna očekivanja potiču ponašanje koje ih i ostvaruje, odnosno, intervju zaista ne prolazi dobro. Ovaj primjer ilustrira Mertonovo samoispunjavajuće proročanstvo jer subjektivno vjerovanje o neuspjehu aktivno utječe na ponašanje koje vodi do negativnog ishoda.

Klasični primjer samoispunjavajućeg proročanstva je bankovna kriza. Banka može biti vrlo financijski stabilna, ali krene glasina kako će propasti. Ova nova definicija situacije, iako netočna, vodi do toga da mnogi ljudi brzo povuku svoj novac. Kako ljudi povlače velike iznose novca, banka oslabljuje (smanjuje se likvidnost). Slabljenje banke potiče još glasina o njenom bankrotu. Nove glasine, pak, potiču još povlačenja. Na kraju, pojava straha (zbog lažne definicije situacije) i povlačenja (ponašanje na temelju definicije) uzrokuju bankrot banke (lažna definicija postaje istinita). Sličan mehanizam može se primijeniti na šire financijsko tržište. Ako veliki broj investitora počne vjerovati da će tržište krahirati, ta uvjerenja mogu ih potaknuti da naglo povuku svoja ulaganja. Ovaj masovni izlaz iz tržišta može, pak, dovesti do pada cijena dionica i potaknuti lančanu reakciju, što rezultira stvarnim kolapsom tržišta. Iako bi se moglo reći da uzrok kraha leži u samom pogledu investitora, u ovom slučaju uvjerenja su sama po sebi inicirala promjene u ponašanju koje su dovele do kraha. U oba primjera, negativni povratni mehanizam veže vjerovanja i ponašanja s kasnijim ishodima, čime se potvrđuje da su samoispunjavajuća proročanstva vrlo primjenjiva i u svakodnevnim situacijama, bilo u osobnom ili ekonomskom kontekstu.

Ponekad iznosimo teorije kao zakonite generalizacije: Kad se dogodi X, dogodit će se i Y. Međutim, takve „teorije“ nisu potpuno objašnjenje (Elster 1998). Potrebno im je uzročno objašnjenje. Mehanizam je često specifičniji od opće zakonite tvrdnje, ali općenitiji od određenog slučaja.

U potpunom objašnjenju, mehanizam može biti raspored mogućnosti ili želja pojedinaca, koje su općenitije od određene prilike ili jedne želje, ali manje općenite od zakonite tvrdnje. Mehanizmi dodaju složenost. Umjesto jednostavnog zakona (ako B onda R), u konkretnim situacijama nalazimo da ako B ponekad R, ali ponekad P ili D. Mehanizam objašnjava zašto B ne uzrokuje uvijek R, već može stvoriti druge ishode. Možda vjerujemo da kada su ekonomske prilike loše (B), ljudi se bune (R). Međutim, kako proučavamo mnoge konkretne situacije, otkrivamo da to nije uvijek istina. Ponekad se ljudi bune, ali drugi puta postaju pasivni i prihvaćaju svoju sudbinu (P), a u trećim slučajevima bore se jedni protiv drugih i postaju destruktivni (D). Za potpuno objašnjenje moramo uključiti mehanizam koji nam govori kada koji uvjeti stvaraju svaki od tih ishoda.

Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Dijagram uzročnog lanca

Dijagram uzročnog lanca je proces u kojem se procjenjuje svaki dio lanca. Evo povezanosti u uzročnoj teoriji: Porast nezaposlenosti uzrokuje povećanje zlostavljanja djece. Želimo objasniti ove promjene. Objasnimo ih kao posljedicu porasta nezaposlenosti. Da bismo „objasnili“ povećano zlostavljanje djece, moramo identificirati njegov glavni uzrok, ali potpuno objašnjenje također zahtijeva preciziranje kako se to događa (tj. identificirati uzročni mehanizam i staviti ga u uzročni lanac). Mehanički element u ovoj teoriji je situacija u kojoj ljudi gube poslove. Nakon što izgube poslove, osjećaju gubitak samopouzdanja i povećani stres. Kako gube samopouzdanje i doživljavaju visok stres, lakše postaju frustrirani i brže postaju ljuti. Unutarnja društvena kontrola slabi, a obrasci života se remete. Visoko frustrirani ljudi s nižom unutarnjom kontrolom mogu izraziti svoj bijes usmjeravajući nasilne radnje prema onima s kojima imaju bliski osobni kontakt (npr. prijatelji, supružnici, djeca). To je posebno istinito ako ne mogu usmjeriti svoj bijes prema izvoru (npr. poslodavcu, vladinoj politici ili ekonomskim silama). Mehanički element je dio je većeg procesa ili uzročnog lanca i događa se nakon početnog uzroka (nezaposlenost) i prije posljedice (zlostavljanje djece).

Možemo testirati svaki dio uzročnog lanca. Osim što određujemo pojavljuju li se stope nezaposlenosti i zlostavljanje djece zajedno, moramo razmotriti i povećava li nezaposlenost frustraciju te postaju li frustrirane osobe nasilne prema članovima obitelji. Tipična istraživačka strategija je podijeliti uzročni lanac na njegove dijelove, a zatim procijeniti svaki dio lanca na temelju podataka.

Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Praktični primjeri

Primjer 1. Pretpostavimo da istražujete učinak sestrinskih intervencija na smanjenje stope hospitalizacije kod pacijenata s dijabetesom tipa 2.
Teorijske osnove mogu uključivati:

  • Teoriju samopomoći Dorothee Orem, koja objašnjava kako pacijentova sposobnost za samostalno upravljanje bolešću može smanjiti rizik od komplikacija.
  • Ključne koncepte poput samopomoći, edukacija pacijenata i kontrola šećera u krvi.
  • Mehanizam: Edukacija pacijenata putem sestrinskih intervencija povećava njihovu sposobnost samokontrole, što smanjuje rizik od hiperglikemijskih epizoda i potrebe za hospitalizacijom.
  • Empirijska podrška: Ranija istraživanja koja su pokazala da edukativni programi značajno smanjuju stope komplikacija kod kroničnih bolesnika.

Temeljem ovakvog teorijskog okvira, može se osmisliti istraživanje kako bi se testirala veza između sestrinskih intervencija i smanjenja stope hospitalizacija pacijenata s dijabetesom tipa 2. Dizajn istraživanja uključuje jasno definiranje nezavisnih i zavisnih varijabli, mjerila i metoda za prikupljanje podataka. Na primjer:

Nezavisna varijabla:

  • Npr., sestrinske edukativne intervencije, koje uključuju:
    • Edukaciju o pravilnoj prehrani.
    • Praćenje razine šećera u krvi.
    • Prepoznavanje simptoma hiperglikemije i hipoglikemije.
    • Pružanje emocionalne podrške.

Zavisna varijabla:

  • Stopa hospitalizacije pacijenata s dijabetesom tipa 2 tijekom razdoblja od 6 do 12 mjeseci.

Kontrolne varijable:

  • Dob, spol, trajanje dijabetesa, komorbiditeti, socioekonomski status.

Metode prikupljanja podataka:

  • Longitudinalno praćenje pacijenata prije i nakon sestrinskih intervencija.
  • Korištenje medicinskih kartona za praćenje hospitalizacija.
  • Ankete ili upitnici za procjenu znanja i samostalnosti pacijenata.

Mjere:

  • Stopa hospitalizacije: Broj hospitalizacija po pacijentu u određenom vremenskom razdoblju.
  • Kontrola šećera u krvi: Vrijednost HbA1c u razdoblju od 6 do 12 mjeseci.
  • Razina samopomoći: Procjena pomoću standardiziranih alata (npr. Diabetes Self-Management Questionnaire - DSMQ)
  • Pacijentovo znanje o dijabetesu: Ocjenjivanje putem kviza znanja prije i poslije intervencije.

Istraživačka hipoteza

  • Sestrinske edukativne intervencije značajno smanjuju stope hospitalizacije kod pacijenata s dijabetesom tipa 2 poboljšavajući njihovu sposobnost samokontrole i upravljanja bolešću.

Za presječno istraživanje, mogli bi se usporediti rezultati na DSMQ testu s razinom šećera u krvi. Na taj način, može se utvrditi koeficijent korelacije za danu skupinu, temeljem čega se može tvrditi o povezanosti samostalne regulacije dijabetesa i razine šećera u krvi. No, takav pristup nam ne bi omogućio zaključke o rezultatima intervencije. Ovaj pristup je brži i jeftiniji za provedbu te omogućuje identifikaciju povezanosti između varijabli, ali ne omogućuje utvrđivanje uzročno-posljedičnih odnosa niti učinaka intervencija. Alternativno, mogli bismo provesti testiranje hipoteza kako bi se utvrdila razlika prije i nakon tretmana. No, također treba imati na umu da time možemo dokazati kratkoročne učinke, a ne trajne promjene u ponašanju. Za dokazivanje uzročno-posljedičnih odnosa s obzirom na intervenciju, potrebno je longitudinalno istraživanje, koje iziskuje više resursa (vrijeme, financije) i može biti osjetljivo na gubitak ispitanika tijekom vremena.

Mala digresija, za slučaj da niste upoznati s presječnim i longitudinalnim istraživanjem. Presječno istraživanje fokusira se na prikupljanje podataka u jednom trenutku, omogućujući istraživačima da istovremeno procijene stanje varijabli i njihove međusobne odnose. Ova vrsta istraživanja idealna je za usporedbu grupa, procjenu prevalencije određenih pojava ili testiranje povezanosti među varijablama. Prednosti presječnog istraživanja uključuju brzinu provedbe, niže troškove i jednostavnost dizajna. Međutim, glavna ograničenja su nemogućnost praćenja promjena tijekom vremena i utvrđivanja uzročno-posljedičnih odnosa, budući da su podaci prikupljeni samo u jednoj vremenskoj točki. Na primjer, ako je anketa provedena jednom među ispitanicima, u pitanju je presječno istraživanje. Longitudinalno istraživanje prati iste sudionike tijekom određenog vremenskog razdoblja, u pravilu, kroz više vremenskih točaka. Ovaj pristup omogućuje istraživačima da analiziraju promjene i procijene uzročno-posljedične odnose između varijabli. Na primjer, može se pratiti kako intervencija utječe na ishode tijekom vremena. Iako pruža bogatije uvide i jače dokaze o kauzalnosti, longitudinalno istraživanje zahtijeva više resursa, vremena i pažljivo osmišljen dizajn. Također je osjetljivije na probleme poput odustajanja sudionika, što može utjecati na valjanost rezultata. Naime, u ovakvom istraživanju, ne postoji strogo definiran vremenski period koji se mora pokriti da bi se istraživanje smatralo longitudinalnim, nego se podaci prikupljaju od istih sudionika u više vremenskih točaka. To iziskuje povećan angažman ispitanika, pa je teže osigurati njihovo sudjelovanje.

Kad analiziramo odnose među varijablama, često koristimo korelaciju i regresiju kako bismo razumjeli povezanost između njih. Na primjer, možemo primijetiti da postoji povezanost između visoke razine samopomoći (samoregulacije) kod pacijenata i bolje kontrole šećera u krvi. No, vrlo je važno razumjeti da povezanost (korelacija) ne znači uzročnost (kauzaciju).

Što bi korelacija pokazala?

  • Korelacija pokazuje da dvije varijable variraju zajedno, tj. da postoji povezanost među njima. Na primjer:

    • Pacijenti koji pokazuju bolje rezultate na testovima samopomoći često imaju niže vrijednosti HbA1c.
    • Uočili bismo povezanost, ali korelacija nam ne govori zašto su ove varijable povezane.

Što korelacija ne pokazuje?

  • Korelacija ne dokazuje da jedna varijabla uzrokuje promjenu druge. Drugim riječima, samo zato što su dvije varijable povezane, ne znači da je jedna ‘odgovorna’ za promjenu druge.
  • Na primjer, možda pacijenti s nižim HbA1c ujedno imaju pristup boljoj medicinskoj skrbi, a ne samo boljoj samopomoći. To znači da neka treća varijabla (pristup zdravstvenoj skrbi) može objasniti povezanost.

Zašto je to važno?

  • Ako korelaciju pogrešno tumačimo kao uzročnost, možemo donijeti krive zaključke i poduzeti pogrešne mjere. Na primjer, ako kažemo da visoki rezultati na DSMQ testu izravno uzrokuju bolje rezultate u kontroli šećera u krvi, a zanemarimo druge čimbenike, možemo krivo oblikovati intervencije ili pogrešno interpretirati rezultate.

Primjer 2. Pretpostavimo sad da istražujemo kako društveno odgovorno poslovanje poduzeća (CSR, corporate social responsibility) utječe na lojalnost kupaca prema maloprodajnom lancu. Teorijske osnove mogu uključivati:

  • CSR inicijative, poput ulaganja u lokalne zajednice i smanjenja ekološkog otiska, ključne su za stvaranje dugoročne vrijednosti za sve dionike. Tvrtke bi trebale djelovati odgovorno prema društvu i okolišu, čak i ako kratkoročno to ne donosi maksimalnu financijsku dobit.
  • Ključni koncepti: Društveno odgovorno poslovanje poduzeća, percepcija potrošača, lojalnost brendu i etika u poslovanju.
  • CSR inicijative povećavaju povjerenje potrošača jer kupci percipiraju tvrtku kao etičnu i odgovornu, što rezultira višom razinom emocionalne povezanosti s brendom i većom lojalnošću.
  • Ranija istraživanja pokazala su da 70% potrošača preferira brendove koji aktivno sudjeluju u društveno odgovornim aktivnostima. Studije su također pokazale da CSR inicijative povećavaju povjerenje i zadovoljstvo potrošača, što pridonosi dugoročnoj lojalnosti.

Kako bi se testirao utjecaj CSR inicijativa na lojalnost kupaca, istraživanje bi uključivalo jasno definiranje varijabli, mjera i metoda prikupljanja podataka.

Nezavisna varijabla (intervencija):

  • CSR inicijative koje uključuju:

    • Donacije za lokalne zajednice (npr. podrška obrazovanju ili zdravstvu).
    • Smanjenje ekološkog otiska (npr. prelazak na reciklirane materijale).
    • Transparentnu komunikaciju o društvenim i okolišnim aktivnostima (npr. objava godišnjih izvještaja o utjecaju CSR aktivnosti).
  • Zavisna varijabla (ishod):

    • Razina lojalnosti kupaca, mjerena učestalošću kupnji, namjerom ponovne kupnje ili spremnošću na preporuku brenda drugim osobama.
  • Kontrolne varijable:

    • Demografske karakteristike (dob, spol, prihod).
    • Preferencije potrošača (sklonost prema ekološki prihvatljivim proizvodima).
    • Percepcija cijene proizvoda.
  • Metode prikupljanja podataka:

    • Ankete među kupcima za procjenu njihove percepcije društvene odgovornosti poduzeća i njihove lojalnosti.
    • Analiza podataka o kupnji iz sustava vjernosti kako bi se utvrdile promjene u ponašanju kupaca prije i nakon implementacije CSR inicijativa.
  • Mjere:

    • Percepcija CSR-a: Procjena pomoću standardiziranih upitnika (npr. Corporate Social Responsibility Perception Scale - CSRP).
    • Lojalnost kupaca: Mjerenje putem ponovljenih kupnji (podaci iz baze klijenata) i ocjena kupaca na ljestvici zadovoljstva.
    • Povjerenje potrošača: Procjena stupnja povjerenja putem anketa, s pitanjima poput “Vjerujem da ovaj brend doprinosi društvu na pozitivan način”.
  • Istraživačka hipoteza:

    • CSR inicijative značajno povećavaju lojalnost kupaca prema maloprodajnom lancu kroz poboljšanje povjerenja i percepcije etičnosti tvrtke.

Presječno istraživanje bi se moglo koristiti za procjenu povezanosti između percepcije CSR-a i lojalnosti kupaca. Na temelju podataka prikupljenih kroz anketu, uspoređuju se percepcije CSR-a s razinom lojalnosti kupaca. Koeficijent korelacije mogao bi pokazati povezanost između dviju varijabli, na način da što je percipirana viša razina CSR-a, veća je lojalnost. Presječno istraživanje pruža uvid u povezanost, ali ne omogućuje donošenje zaključaka o uzročno-posljedičnim odnosima između CSR-a i lojalnosti. Dodatno se mogu ispitati razlike s obzirom na demografske karakteristike i ostale kontrolne varijable.

CSR inicijative mogu značajno utjecati na lojalnost kupaca, ali interpretacija njihovog utjecaja zahtijeva pažljiv pristup. Korelacija između percepcije CSR-a i lojalnosti ne smije se tumačiti kao dokaz uzročno-posljedične veze. Za precizne zaključke potrebno je koristiti dugoročno praćenje i kombinirati različite istraživačke metode.

Primjer 3. Recimo da nas zanima prihvaćanje metaverse učionica u odnosu na tradicionalnu online nastavu među studentima. Teorijske osnove:

  • Model prihvaćanja tehnologija (Technology Acceptance Model - TAM, Davis, 1989) objašnjava kako percepcija korisnosti i jednostavnosti korištenja utječe na prihvaćanje novih tehnologija. U kontekstu metaverse učionica, korisnici će ih prihvatiti ako smatraju da im takvo okruženje olakšava učenje i interakciju.
  • Percepcija korisnosti, jednostavnost korištenja, angažman, interaktivnost, i prihvaćanje tehnologije.
  • Metaverse omogućuje veću interaktivnost i osjećaj prisutnosti kroz virtualnu stvarnost, a pretpostavlja se da će se isto preslikati na virtualne učionice.

Sljedeće, u lancu uzročnosti, pretpostavlja se da povećani angažman i percepcija korisnosti ovih učionica dovode do većeg prihvaćanja u usporedbi s tradicionalnom online nastavom.

  • Ranija istraživanja pokazala su da osobe preferiraju interaktivna okruženja koja simuliraju stvarne događaje. Studije o virtualnoj stvarnosti ukazuju na povećanu angažiranost i uronjenost u sadržaj kojem su osobe izložene.

Kako bi se testirao utjecaj metaverse učionica na prihvaćanje digitalne nastave, istraživanje mora imati jasno definirane varijable, mjere i metode prikupljanja podataka.

Nezavisna varijabla (intervencija):

  • Vrsta digitalne nastave:

    • Metaverse učionice: Interaktivne virtualne učionice sa simuliranim okruženjem i avatarima.
    • Tradicionalna online nastava: Klasična platforma za virtualnu nastavu, poput Zooma ili Google Meet-a.
  • Zavisna varijabla (ishod):

    • Razina prihvaćanja tehnologije, mjerena kroz percepciju korisnosti i jednostavnost korištenja (skladno TAM modelu).
  • Kontrolne varijable:

    • Dob, prethodno iskustvo s tehnologijom, tehnička infrastruktura (npr. brzina interneta, dostupnost VR opreme).
  • Metode prikupljanja podataka:

    • Ankete među studentima za procjenu njihovog iskustva i percepcije korisnosti metaverse učionica.
    • Eksperimentalni dizajn: Nasumično dodijeliti studente u dvije grupe – jedna koristi metaverse učionice, druga tradicionalnu online nastavu – i mjeriti njihove odgovore nakon nekoliko sesija.
  • Mjere:

    • Percepcija korisnosti: Procjena putem standardiziranih skala TAM modela
    • Jednostavnost korištenja: Skale koje procjenjuju kako lako studenti koriste platformu.
    • Angažiranost: Mjerenje putem alata za procjenu angažiranosti (npr. Student Engagement Scale - SES).
    • Razina prihvaćanja: Namjera za ponovnim korištenjem tehnologije.
  • Istraživačka hipoteza:

    • Metaverse učionice povećavaju angažman i percepciju korisnosti digitalne nastave, što rezultira većom razinom prihvaćanja tehnologije u usporedbi s tradicionalnom online nastavom.

Ako je cilj procijeniti razlike u percepciji korisnosti, jednostavnosti korištenja i angažmana između studenata koji koriste metaverse učionice i onih koji koriste tradicionalnu online nastavu, takve razlike mogu se pokazati testiranjem hipoteza, pa korelacija nije potrebna. Ipak, razina prihvaćanja tehnologije (prema TAM modelu) može korelirati s akademskim uspjehom ostvarenim putem metaverse učionica, pa to može poslužiti kao dodatni dokaz ili opažanje pravilnosti u ispitivanju karakteristika učenja u metaverse učionicama.

Metaverse učionice možda nude mogućnost povećanja angažmana i poboljšanja korisničkog iskustva u nastavi u digitalnom obliku, ali pažljivo istraživanje potrebno je za razumijevanje uzročno-posljedičnih odnosa. Iako presječno istraživanje može otkriti povezanosti, za konačne zaključke bilo bi potrebno dugoročno praćenje, kako bi se izbjeglo zaključivanje samo temeljem početne fascinacije.




Kroz ove primjere vidljivo je da su osnovni principi istraživačkog procesa prilagodljivi različitim kontekstima, bilo da se radi o zdravstvenoj skrbi, poslovanju ili ICT-u. Ključni elementi – teorijske osnove (koje pružaju okvir za razumijevanje problema), pretpostavke (koje usmjeravaju istraživačka pitanja) te dizajn istraživanja (koji osigurava strukturirani pristup prikupljanju i analizi podataka) – univerzalni su i primjenjivi na svaki znanstveni ili praktični problem.

Ovi primjeri također naglašavaju važnost pravilne interpretacije rezultata. Bez obzira na kontekst, nužno je razlučiti razlike, povezanosti i uzročno-posljedične odnose te rezultate uvijek tumačiti u širem teorijskom i praktičnom okviru. Na taj način istraživanje ne samo da doprinosi razumijevanju pojedinačnih problema, već osigurava temelje za donošenje informiranih odluka i daljnji razvoj znanja. Vjerujem da sad možete uočiti bitnu razliku u svim aktivnostima koje je potrebno poduzeti kako bi se dokazala kauzacija, pa korelaciju nećete ni slučajno tumačiti kao kauzaciju.


Primjeri korelacija



– Više sestrinskog osoblja po pacijentu korelira s nižom stopom smrtnosti pacijenata. Izvor: Aiken, C. S., Clarke, S. P., Sloane, D. M., Sochalski, J., & Silber, J. H. (2002). Hospital nurse staffing and patient mortality, nurse burnout, and job dissatisfaction. JAMA, 288(16), 1987-1993.

– Veći radni teret za medicinske sestre povezan je s nižim ocjenama zadovoljstva pacijenata. Izvor: Kutney-Lee, A. et al. (2009). Changes in hospital nurse work environments and nurse job outcomes. Medical Care, 47(6), 594-600.

– Viša razina burnouta kod sestara korelira s većim brojem medicinskih pogrešaka. Izvor: Vahey, D. E., et al. (2004). Nurse burnout and patient satisfaction. Medical Care, 42(2 Suppl), II57-II66.

– Viša razina obrazovanja medicinskih sestara korelira s boljim ishodima za pacijente, uključujući nižu stopu smrtnosti.Izvor: Aiken, C. S., et al. (2003). Educational levels of hospital nurses and surgical patient mortality. JAMA, 290(12), 1617-1623.

– Bolje radno okruženje povezano je s većom zadržanošću medicinskog osoblja. Izvor: Kane, R. L., et al. (2007). The association of registered nurse staffing levels and patient outcomes. Medical Care, 45(12), 1195-1204.

– Viša kvaliteta dizajna korisničkog sučelja korelira s većim zadovoljstvom korisnika.Izvor: Nielsen, J. (1994). Usability engineering. Morgan Kaufmann.

– Brži odgovor sustava povezan je s većim zadovoljstvom korisnika.Izvor: Parasuraman, A., Zeithaml, V. A., & Malhotra, A. (2005). ES-QUAL: A multiple-item scale for assessing electronic service quality. Journal of service research, 7(3), 213-233.

– Bolji dizajn sučelja korelira s višim stopama uspješnog završetka zadataka. Izvor: Norman, D. A. (1988). The Psychology of Everyday Things. Basic Books.

– Percepcija jednostavnosti korištenja povećava stopu usvajanja novog softvera. Izvor: Davis, F. D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS quarterly, 319-340.

– Postoji li veza između digitalne pismenosti i stavova prema ICT-u? Izvor: Jan, S. (2018). Investigating the Relationship between Students’ Digital Literacy and Their Attitude towards Using ICT. International Journal of Educational Technology, 5(2), 26-34.

– Veza između inovacija, transformacijskog vodstva i organizacijskog učinka. Izvor: Samad, S. (2012). The influence of innovation and transformational leadership on organizational performance. Procedia-Social and behavioral sciences, 57, 486-493.

– Korelacija zadovoljstva i angažmana zaposlenika s učinkom poslovne jedinice. Izvor: Harter, J. K., Schmidt, F. L., & Hayes, T. L. (2002). Business-unit-level relationship between employee satisfaction, employee engagement, and business outcomes: a meta-analysis. Journal of applied psychology, 87(2), 268.

– Više mogućnosti za obuku povezuje se s boljim radnim rezultatima. Izvor: Arthur, J. B., et al. (2003). Effectiveness of training in organizations. Journal of Applied Psychology, 88(2), 234-245.

– Osjećaj podrške od strane menadžera korelira s nižom stopom fluktuacije zaposlenika. Izvor: Eisenberger, R., Huntington, R., Hutchison, S., & Sowa, D. (1986). Perceived organizational support. Journal of Applied psychology, 71(3), 500.

– Bolja strateška planiranja povezana je s boljim financijskim rezultatima. Izvor: Arasa, R., & Obonyo, P. K. (2012). The relationship between strategic planning and firm performance.

– Izdaci za oglašavanje prije velike recesije koreliraju s prihodima od prodaje. Izvor: Taşar, I., Demirel, G., & Kalayci, I. (2014). Correlation of-previous advertisement expenses-and-total sales-of firms during the big recession. Procedia Economics and Finance, 15, 1677-1688.

– Veće zadovoljstvo kupaca povezano je s većom lojalnošću brendu. Izvor: Anderson, E. W., Fornell, C., & Lehmann, D. R. (1994). Customer satisfaction, market share, and profitability: Findings from Sweden. Journal of marketing, 58(3), 53-66.

– Viša vrijednost brenda korelira s većim udjelom na tržištu. Izvor: Keller, K. L. (1993). Conceptualizing, measuring, and managing customer-based brand equity. Journal of marketing, 57(1), 1-22.

– Pozitivne online recenzije povezane su s većom prodajom proizvoda. Izvor: Luca, M. (2016). Reviews, reputation, and revenue: The case of Yelp. com. Com (March 15, 2016). Harvard Business School NOM Unit Working Paper, (12-016).

– Korelacije između korištenja kanala i kreativne strategije i mjera o angažmanu na društvenim medijima. Izvor: Ashley, C., & Tuten, T. (2015). Creative strategies in social media marketing: An exploratory study of branded social content and consumer engagement. Psychology & marketing, 32(1), 15-27.

Ovi primjeri pokazuju raznoliku primjenu korelacijskih analiza u različitim disciplinama – od jednostavnijih do kompleksnijih odnosa i pojava. Svaki primjer nudi uvid u način na koji se varijable mogu međusobno povezati, a povezani članci daju dodatne uvide na koji način teorijska podloga i empirijski dokazi podržavaju analize u tim područjima.

Iako neki od ovih članaka ne prikazuju korelacije izravno, već se oslanjaju na regresijske modele ili konceptualne okvire, svi govore o vezama među varijablama i pružaju temeljitu teorijsku podlogu za očekivane veze među varijablama navodeći prethodna empirijska istraživanja, pomoću kojih grade argumente za svoje tvrdnje. Takvi radovi ističu složenost odnosa, pokazujući da su veze među varijablama višedimenzionalne i ponekad pod utjecajem dodatnih čimbenika te uspostavljaju metodološki okvir i smjernice za dizajn studija. Na taj način, čak i kada se rezultati ne prezentiraju eksplicitno kao koeficijenti korelacije, oni obogaćuju naše razumijevanje i interpretaciju povezanosti.



Osmislite sami 10 primjera korelacije iz svakodnevice.


Anti-primjeri korelacija

Anti-primjeri korelacije su osobito popularni zbog toga što djeluju smiješno kad se pokušaju objasniti u uzročno-posljedičnom kontekstu. Na takav način možemo lako naučiti kako prepoznati varijable za koje ne bismo trebali ispitivati korelaciju.

Na stranici spurious correlations možete naći brojne zanimljive primjere u kojima je moguće naći numeričku povezanost između varijabli, ali ta povezanost nema smisla (zbog toga su to anti-primjeri). Ovdje su izdvojeni neki simpatični primjeri, nadam se da će vas nasmijati.

Postoji li veza između stečenih diploma u području edukacijskih znanosti i pretraživanja „Gangam style“ na google-u?


Izvor: Tyler Vigen, Spurious Correlations

Postoji li veza između postotka posađenog pamuka u Teksasu i broja piratskih napada globalno?


Izvor: Tyler Vigen, Spurious Correlations

Postoji li veza između globalne potrošnje riže i pretraživanja „imam glavobolju“ putem google-a?


Izvor: Tyler Vigen, Spurious Correlations

Postoji li veza između potrošnje margarina po glavi stanovnika u SAD-u i stope razvoda u državi Maine?


Izvor: Tyler Vigen, Spurious Correlations

Postoji li veza između prosječne godišnje potrošnje kućanstva na sredstva za pranje rublja i pretraživanja na googlu „letovi na Antartiku“


Izvor: Tyler Vigen, Spurious Correlations

Postoji li veza između stope dostave pisama pošte u SAD-u i količine (u postotku) google pretraživanja „vrti mi se“?


Izvor: Tyler Vigen, Spurious Correlations

Postoji li veza između prosječne udaljenosti između Merkura i Venere i broja njegovatelja u Indiani?


Izvor: Tyler Vigen, Spurious Correlations

Više anti-primjera korelacija ili lažnih korelacija možete naći na stranici: https://www.tylervigen.com/spurious-correlations

Važno je naglasiti da statistička povezanost, čak i kada je jaka, ne implicira da jedna varijabla uzrokuje drugu. Poželjno je uvijek kombinirati statističke podatke s teorijskim i empirijskim argumentima kako bi se utvrdio pravi uzročno-posljedični odnos. Prikazani anti-primjeri upravo ilustriraju zašto je to potrebno.

Također, u velikim skupovima podataka ili pri testiranju velikog broja varijabli, korelacije mogu nastati i slučajno. Ovaj fenomen dodatno ilustrira potrebu za kritičkim pristupom prilikom interpretacije statističkih rezultata. U istraživanjima se ne smijemo oslanjati isključivo na statističke vrijednosti bez uzimanja u obzir teorijske osnove i logike koja bi povezivala varijable.

No, osim što se može napraviti pogreška i tražiti veza među nepovezanim pojavama, postoje i druge poteškoće, o kojima govori sljedeće poglavlje.


Simpsonov paradoks

Appleton et al. (1996) proveli su studiju u Whickhamu u Engleskoj na 1314 ispitanice temeljem dva promatranja u razmaku od 10 godina. U prvom promatranju prikupili su podatke o ispitanicama na temu pušenja cigareta, tj. puše li ispitanice ili ne. U drugom ispitivanju, kontaktirali su iste ispitanice kako bi saznali jesu li još žive.

Tablica 1. Sažeti rezultati istraživanja o pušenju i doživljenju

Pušači Živi Mrtvi
Ne 502 (68.6 %) 230 (31.4 %)
Da 443 (76.1 %) 139 (23.9 %)

Promatranjem ovako prikazanih podataka u tablici moglo bi se doći do pogrešnog zaključka da postoji veza između nepušenja i veće stope smrtnosti. Ako se pak, u obzir uzme dob ispitanika te detaljniji uvid u udjele, situacija se razjašnjava.

Razdijeljeni stupčasti dijagrami u kombinacijama varijabli pušenja, smrtnosti i dobi
Razdijeljeni stupčasti dijagrami u kombinacijama varijabli pušenja, smrtnosti i dobi

Nakon što su rezultati kontrolirani za varijablu dobi, vidi se da je rizik smrtnosti veći za pušačice, u obje dobne skupine. To je, u ovom primjeru, učinjeno metodom stratifikacije.

U ovom slučaju, temeljem prvog prikaza rezultata, činilo se da je pušenje „zaštitni” faktor i vodi do nižeg mortaliteta. Ipak, nakon podjele ispitanica prema godinama (kontrolirano za godine), jasno se može uočiti da je rizik umiranja veći za pušače u obje dobne skupine. Nadalje, promatranjem odnosa dobi i smrtnosti, uočavaju se veće stope smrtnosti za starije ispitanike. Također, promatranjem udjela pušača u uzorku prema dobi, može se uočiti da je više pušača mlađe dobi. U ovoj situaciji, dob moderira odnos između pušenja i smrtnosti.

Dakle, pri promatranju odnosa dviju varijabli, važno je imati na umu kompleksnost stvarnog svijeta, pri čemu na taj odnos može djelovati (ili ga moderirati) dodatna varijabla. Ovo je primjer Simpsonovog paradoksa, u kojem rezultati mogu dovesti do pogrešnih zaključaka ako se isti ne analiziraju dublje i ako se ne utvrdi postojanje drugih relevantnih varijabli koje mogu utjecati na odnose. Radi se o tzv. zbunjujućim ili konfuznim varijablama (engl. confounding variable). Zbunjujuće ili konfuzne varijable su one koje ometaju donošenje zaključka o odnosu dviju varijabli. Simpsonov paradoks češće se pojavljuje u multivarijantnoj analizi.




Još jedan od poznatijih primjera Simpsonovog paradoksa odnosi se na analizu pristupa sveučilišnom obrazovanju, a posebno na studiju o prijemnim ispitima u Kaliforniji (University of California, Berkeley) tijekom 1970-ih (Bickel i sur. 1975).

U tom slučaju, analizirani su podaci o prijemnim ispitima pokazivali su da muškarci imaju nešto veću stopu prihvaćanja u odnosu na žene, što bi na prvi pogled sugeriralo postojanje spolne diskriminacije u korist muškaraca. Međutim, kada su se podaci stratificirali prema pojedinim fakultetima ili odjelima, ispostavilo se da unutar svake skupine žene imaju jednako ili čak veću stopu prihvaćanja u odnosu na muškarce. Sukladno tome, ukupna, agregirana statistika zavarala je jer je bilo razlika u izboru fakulteta – žene su se češće prijavljivale na fakultete s nižim stopama prihvaćanja, dok su muškarci birali odjele s većim postotkom prijema.

Ovaj primjer ilustrira kako se, kada se uzmu u obzir dodatne varijable (u ovom slučaju, specifični fakulteti ili odjeli), može promijeniti interpretacija odnosa između varijabli. Bez stratifikacije, zaključak bi bio pogrešan – da postoji diskriminacija u korist muškaraca – dok detaljnijom analizom postaje jasno da rezultati zapravo odražavaju strukturalne razlike u izboru fakulteta među spolovima, a ne inherentnu pristranost u procesu prijema.




Ovaj je paradoks važno imati na umu pri odabiru varijabli za model, kao i pri tumačenju modela. U nekim će situacijama čak i konstanta u modelu imati ulogu konfuzne varijable. U svakom slučaju, ako rezultati regresijske ili korelacijske analize vode do suprotnih zaključaka postojećim teorijskim spoznajama, potrebno je preispitati ulogu drugih varijabli s obzirom na djelovanje nezavisne na zavisnu varijablu.





Korelacijska analiza

Korelacijska analiza je statistička tehnika koja omogućuje mjerenje intenziteta i smjera veze između dviju ili više varijabli. Ona je često među prvim koracima u istraživačkom procesu jer otkriva skrivene obrasce u podacima koji mogu biti ključni za daljnje modeliranje. U suštini, korelacija nam pomaže pretvoriti ‘sirove’ podatke u vrijedne uvide, dajući nam temelj za donošenje informiranih odluka i postavljanje dodatnih pitanja koja usmjeravaju daljnje analize.

Koeficijent korelacije opisuje smjer i jakost povezanosti dviju varijabli. Izračunate vrijednosti koeficijenta korelacije kreću se u intervalu [-1, 1]. Ovdje će se prikazati još neki oblici mjerenja povezanosti, kao na primjer, kovarijanca, koja mjeri povezanost, ali nije koeficijent korelacije i može poprimati vrijednosti izvan tog intervala.

Pearsonov koeficijent korelacije (koji se najčešće izračunava) moguće je računati samo za linearnu povezanost kvantitativnih varijabli. Naravno, koeficijent korelacije moguće je izračunavati i za druge vrste i kombinacije vrsta varijabli, ali u tom slučaju treba obratiti pozornost na odabir odgovarajućeg koeficijenta korelacije (većina nije ponuđena u standardnim alatima za obradu podataka i treba ih postepeno izračunati).


Dijagram raspršenosti

Simbolična ilustracija





Dijagram raspršenosti (eng. scatter plot) je vrsta grafikona koji prikazuje odnos između dvije numeričke varijable. Svaka točka na dijagramu predstavlja jedno opažanje s vrijednostima za obje varijable.











Kako se iščitava dijagram raspršenosti:


  • Položaj točke - određen je vrijednostima varijabli na x i y osi. Svaka točka je uređeni par (x, y), koji predstavlja vrijednosti varijabli x i y za pojedino opažanje. Na primjer, gledajući s lijeva na desno, prva točka na grafu bilježi vrijednost visine od 160 cm i težine od 50 kg za jednog ispitanika.


  • Obrazac raspršenosti - pokazuje postoji li veza između varijabli


  • Smjer veze - pozitivan (točke su rasprostranjene od dolje lijevo prema gore desno) ili negativan (točke su rasprostranjene od gore lijevo prema dolje desno)


  • Jačina veze - što su točke bliže zamišljenoj liniji, veza je jača


  • Oblik veze - linearan ili nelinearan (zakrivljen)


  • Odstupanja - točke koje značajno odskaču od općeg obrasca


Na što treba obratiti pozornost:

  • Korelaciju - ukazuje na povezanost, ali ne nužno na uzročnost
  • Grupiranje podataka u različitim prepoznatljivim oblicima na grafu - može ukazivati na različite podpopulacije u uzorku
  • Netipične vrijednosti - mogu utjecati na izračune i interpretaciju
  • Gustoću točaka - područja s većom ili manjom gustoćom podataka
  • Ograničenja podataka - umjetna ograničenja koja mogu utjecati na raspršenost
  • Aritmetičko mjerilo na osima - različite skale mogu vizualno promijeniti dojam o odnosu

Dijagram raspršenosti je koristan alat za početnu analizu podataka jer omogućuje brzu vizualnu procjenu odnosa između varijabli prije detaljnije statističke analize. Uobičajeno je crtanje dijagrama raspršenosti prvi korak u korelacijskoj analizi.


Pearsonov koeficijent korelacije

Najčešće se koristi Pearsonov koeficijent korelacije i njegova je upotreba prikladna za kontinuirano numeričko obilježje. Pearsonov koeficijent korelacije može se izračunati na sljedeće načine:

\[ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}} \]

Ista formula, zapisana putem oznaka suma kvadratnih odstupanja (\(SS\)):

\[r = \frac{SS_{xy}}{\sqrt{SS_{xx} \cdot SS_{yy}}}\]

Dvije verzije “raspisane formule” (koje su korisne ako imamo neke od ovih vrijednosti već izračunate kao pomoćne radnje):

\[r = \frac{n\sum xy - \sum x \sum y}{\sqrt{(n\sum x^2 - (\sum x)^2) \cdot (n\sum y^2 - (\sum y)^2)}}\]

\[r = \frac{\sum xy - n\bar{x} \bar{y}}{\sqrt{(\sum x^2 - n\bar{x}^2) (\sum y^2 - n\bar{y}^2)}}\]

Izračunavanje iz koeficijenta determinacije (ako su nam poznati rezultati modela jednostavne linearne regresije, ali nije naveden koeficijent korelacije, može se izračunati putem ovog izraza):

\[r = \pm \sqrt{R^2}\]


Ilustrativni primjer. Na raspolaganju imamo podatke o visini i težini četiri osobe. Koristit ćemo izraz za izračun:

\[ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}} \]

gdje su \(x_i\) i \(y_i\) vrijednosti varijabli, a \(\bar{x}\) i \(\bar{y}\) njihove aritmetičke sredine.

Podaci:

Osoba Visina (cm) Težina (kg)
1 160 50
2 165 60
3 170 70
4 175 70

Aritmetičke sredine:

  • \(\bar{x} = \frac{160+165+170+175}{4} = 167.5\) cm
  • \(\bar{y} = \frac{55+60+65+70}{4} = 62.5\) kg

Pomoćni izračuni:

Osoba \(x_i\) \(y_i\) \(x_i - \bar{x}\) \(y_i - \bar{y}\) \((x_i - \bar{x})(y_i - \bar{y})\) \((x_i - \bar{x})^2\) \((y_i - \bar{y})^2\)
1 160 50 -7.5 -12.5 93.75 56.25 156.25
2 165 60 -2.5 -2.5 6.25 6.25 6.25
3 170 70 2.5 7.5 18.75 6.25 56.25
4 175 70 7.5 7.5 56.25 56.25 56.25
Ukupno 175.00 125.00 275.00

Stoga, Pearsonov koeficijent korelacije je:

\[r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}} = \frac{175.00}{\sqrt{125.00 \times 275.00}}\]

\[r \approx \frac{175.00}{185.41} \approx 0.944\]

Rezultat \(r = 0.944\) ukazuje na vrlo jaku pozitivnu linearnu korelaciju između visine i težine u ovom skupu podataka.




Kovarijanca

Uz Pearsonov koeficijent korelacije, za opisivanje odnosa dviju kontinuiranih numeričkih varijabli često se koristi kovarijanca. Kovarijanca pokazuje koliko se dvije varijable mijenjaju zajedno. Kovarijanca je mjera udružene varijabilnosti dviju varijabli (prisjetimo se - varijanca, \(σ^2\), pokazuje koliko se jedna varijabla mijenja, varira). Kovarijanca postaje više pozitivnom za svaki par vrijednosti koji se razlikuje od njihovih srednjih vrijednosti u istom smjeru te postaje više negativna za svaki par vrijednosti koji se razlikuje od njih ovih srednjih vrijednosti u suprotnim smjerovima


\[\sigma_{xy}^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{N}\]


Kovarijanca nije normalizirana/ standardizirana mjera, pa njezina interpretacija ovisi o vrijednostima koje poprimaju promatrane varijable.

Pokušajte sami izračunati za prethodni primjer. (Hint: usporedite brojnike)




Spearmanov koeficijent korelacije ranga

Za utvrđivanje odnosa između dviju varijabli od kojih je barem jedna mjerena na ordinalnoj ljestvici (a druga može biti kvantitativna), koristi se Spearmanov koeficijent korelacije. Iako je to primarna namjena ovog koeficijenta, on se koristi i za kvantifikaciju nelinearnih monotonih odnosa između dviju kvantitativnih (ili ordinalne i kvantitativne, ili dvije ordinalne) varijable. Izračunava se prema izrazu:


\[r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)}\]


gdje je d je razlika rangova varijabla, n je broj opažanja (broj članova niza).

Ilustrativni primjer. Prikazana je tablica s četiri opažanja, gdje “Sati treninga” predstavlja kontinuiranu varijablu, a “Zadovoljstvo” je ordinalna varijabla (s interpretiranim numeričkim rangom).

Opažanje Sati treninga Zadovoljstvo (ordinalno) Rang sati treninga Rang zadovoljstva d
1 2 Srednji (2) 1 2 -1 1
2 4 Visok (3) 3 3 0 0
3 3 Nizak (1) 2 1 1 1
4 5 Vrlo visok (4) 4 4 0 0

Koraci izračuna:

  1. Rangiramo “Sate treninga”: vrijednosti 2, 3, 4 i 5 dobivaju rangove 1, 2, 3 i 4. “Zadovoljstvo” već ima pripisane rangove prema svojim ordinalnim vrijednostima (Nizak = 1, Srednji = 2, Visok = 3, Vrlo visok = 4).

  2. Za svako opažanje izračunavamo razliku između ranga sati treninga i ranga zadovoljstva (d), te kvadriramo tu razliku u sljedećem pomoćnom stupcu (d²). U ovom primjeru, zbroj kvadrata razlika je 1 + 0 + 1 + 0 = 2.

  3. Primjenjujemo Spearmanovu formulu:

\[r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)}\]

gdje je \(n = 4\). Tako dobivamo:

\[r_s = 1 - \frac{6 \cdot 2}{4(16-1)} = 1 - \frac{12}{4 \cdot 15} = 1 - \frac{12}{60} = 1 - 0.2 = 0.8\]

Spearmanov koeficijent korelacije iznosi 0.8, što ukazuje na umjerenu do jaku pozitivnu monotonu povezanost između sati treninga i zadovoljstva.




Kendallov τ

Kendallov τ (tau) bez uvažavanja veza je:


\[ \tau = \frac{N_c - N_d}{\frac{1}{2}n(n-1)}, \]


gdje su \(N_c\) i \(N_d\) brojevi konkordantnih i diskordantnih parova, a n ukupan broj promatranja. Postoje i varijante koje uvažavaju veze.

Ilustrativni primjer. U našem primjeru, istražujemo povezanost između rangova zadovoljstva zaposlenika i rangova ocjene radnog okruženja. Obje varijable su ordinalne, što znači da se vrijednosti ne mogu precizno mjeriti u količinama, nego samo rangirati. Za procjenu njihove povezanosti prikladno je koristiti Kendallov koeficijent korelacije. Ako su parovi u oba skupa rangova usklađeni (tj. oba se povećavaju ili smanjuju zajedno), par se smatra konkordantnim, dok su oni koji se razlikuju diskordantni.

Zaposlenik Rang zadovoljstva Rang radnog okruženja
A 1 2
B 2 1
C 3 4
D 4 3

U ovom primjeru, nakon identifikacije konkordantnih i diskordantnih parova, izračunata vrijednost Kendallovog \(τ\) (ili \(τ_B\) ako su prisutne vezane vrijednosti) daje mjeru povezanosti koja se kreće između -1 i 1, gdje negativna vrijednost ukazuje na inverznu, a pozitivna na direktnu povezanost. Ova mjera je posebno korisna kod ordinalnih podataka jer ne zahtijeva pretpostavku o normalnoj distribuciji i robustnija je na prisutnost izdvojenica.

Par Rang zadovoljstva (razlika) Rang okruženja (razlika) Tip
A, B 1 – 2 = –1 2 – 1 = 1 Diskordantno
A, C 1 – 3 = –2 2 – 4 = –2 Konkordantno
A, D 1 – 4 = –3 2 – 3 = –1 Konkordantno
B, C 2 – 3 = –1 1 – 4 = –3 Konkordantno
B, D 2 – 4 = –2 1 – 3 = –2 Konkordantno
C, D 3 – 4 = –1 4 – 3 = 1 Diskordantno

Iz tablice vidimo da su: - Broj konkordantnih parova, \(N_c = 4\) - Broj diskordantnih parova, \(N_d = 2\) - Ukupan broj parova je \(\frac{1}{2} \times 4 \times (4-1) = 6\)

Stoga se Kendallov τ računa kao:

\[ \tau = \frac{N_c - N_d}{\frac{1}{2}n(n-1)} = \frac{4 - 2}{6} = 0.3333 \]

Dakle, postoji umjerena povezanost pozitivnog smjera između zadovoljstva zaposlenika i ocjene radnog okruženja.




Goodman i Kruskalov λ

Goodman i Kruskalov λ (lambda) mjeri proporcionalno smanjenje pogreške kada se uzme u obzir kategorijska varijabla. Jedan od oblika zapisa je:


\[ \lambda = \frac{\sum_{i=1}^{I} n_{i\cdot} - \sum_{i=1}^{I} \max_j(n_{ij})}{N - \max_i(n_{i\cdot})} \]


gdje je \(n_{ij}\) broj promatranja u ćeliji \((i,j)\), \(n_i\) zbroj redaka, a \(N\) ukupni broj promatranja.

Ilustrativni primjer. Ovaj primjer ilustrira izračun Goodman i Kruskalovog λ, mjere koja pokazuje koliko se pogreška u predviđanju smanjuje kada se uzme u obzir dodatna kategorizacijska varijabla. U ovom slučaju, ispitujemo koliko informacija o tipu prebivališta (Urbano, Prigradsko, Ruralno) doprinosi boljoj predikciji preferencije restorana (Brza hrana, Srednji, Luksuzni).

Prebivalište Brza hrana Srednji Luksuzni Ukupno
Urbano 30 50 20 100
Prigradsko 10 60 30 100
Ruralno 50 30 20 100
Ukupno 90 140 70 300

Koraci izračuna:

  1. Bez dodatnih informacija, najbolja predikcija za sve slučajeve je odabrati najčešću kategoriju u cijelom uzorku. U ovom primjeru, to je „Srednji“ jer se pojavljuje 140 puta. Greška predviđanja bez stratifikacije iznosi 300 − 140 = 160.

  2. Kada se podaci stratificiraju prema tipu prebivališta:

    • Urban: Najčešća kategorija je „Srednji“ (50 puta), pa je greška 100 − 50 = 50.
    • Suburban: Najčešća kategorija je „Srednji“ (60 puta), pa je greška 100 − 60 = 40.
    • Rural: Najčešća kategorija je „Brza hrana“ (50 puta), pa je greška 100 − 50 = 50. Ukupna greška sa stratifikacijom je 50 + 40 + 50 = 140.
  3. Goodman i Kruskalov λ izračunava se kao:

    \[ \lambda = \frac{(160 - 140)}{160} = \frac{20}{160} = 0.125 \]

Goodman i Kruskalov λ se može promatrati kao mjera korelacije jer kvantificira koliko se preciznije može predvidjeti kategorijska zavisna varijabla kada se uključi informacija o nekoj drugoj varijabli. Na taj način λ mjeri jačinu povezanosti između varijabli na način sličan tradicionalnim korelacijskim mjerama, gdje veća vrijednost λ (bliža 1) ukazuje na jaču povezanost i značajnije smanjenje pogreške predviđanja. Veća vrijednost λ znači da ‘znanje’ o jednoj varijabli značajno poboljšava predviđanje vrijednosti druge varijable, čime se pokazuje da su varijable povezane, iako se radi o mjeri prilagođenoj za kategorijske podatke.




Fleiss Kappa

Fleiss Kappa standardno mjeri inter-rater pouzdanost kod više ocjenjivača. Jedan standardni zapis je:


\[\kappa = \frac{\bar{P} - \bar{P_e}}{1 - \bar{P_e}},\]

\[\bar{P} = \frac{1}{N}\sum_{i=1}^{N} \frac{1}{n(n-1)} \sum_{j=1}^{k} n_{ij}(n_{ij} - 1),\]

\[\bar{P_e} = \sum_{j=1}^{k} p_j^2,\quad \text{gdje je } p_j = \frac{1}{Nn}\sum_{i=1}^{N} n_{ij}.\]


Ovdje \(n_{ij}\) označava broj ocjena kategorije \(j\) za ispitanika \(i\), \(n\) broj ocjenjivača, \(N\) broj ispitanika, a \(k\) broj kategorija. Fleiss kappa se koristi kad:

  • imamo tri ili više ocjenjivača (za razliku od Cohenove kappa koja je ograničena na dva ocjenjivača), Fleiss kappa omogućuje procjenu usklađenosti svih ocjenjivača.
  • su podaci kategorizirani u nominalne ili ordinalne skupine, a cilj je utvrditi u kojoj mjeri ocjenjivači dosljedno dodjeljuju iste kategorije.
  • mjerimo slaganje: Fleiss kappa računa i koreguje stupanj slučajne usklađenosti, što omogućuje da se istakne stvarni nivo slaganja među ocjenjivačima, a ne samo slučajna podudarnost.

Zbog ovih karakteristika, Fleiss kappa se često koristi u istraživanjima koja uključuju procjenu kvalitativnih varijabli, kao što su dijagnostičke klasifikacije, evaluacije obrazovnih ocjena, ili ocjenjivanje sadržaja u medijskim istraživanjima. Time se Fleiss kappa može smatrati koeficijentom korelacije jer kvantificira povezanost (tj. usklađenost) između ocjena koje ocjenjivači daju, pružajući brojčanu vrijednost koja odražava koliko su te ocjene međusobno konzistentne.

Ilustrativni primjer. Imamo 4 ispitanika (N = 4), 3 ocjenjivača (n = 3) i 3 kategorije (k = 3). Možemo zamisliti da se radi o 4 osobe koje su došle na razgovor za posao i odgovaraju na tri pitanja pred povjerenstvom od tri člana. Ocjene koje su ocjenjivači dali ispitanicima organizirane su u sljedećoj tablici, gdje \(n_{ij}\) predstavlja broj ocjena u kategoriji \(j\) za ispitanika \(i\):

Ispitanik Kategorija 1 Kategorija 2 Kategorija 3
1 2 1 0
2 3 0 0
3 0 3 0
4 0 0 3

Korak 1. Izračunavanje \(P_i\) za svakog ispitanika*

Formula za \(P_i\) je:

\[ P_i = \frac{\sum_{j=1}^{k} n_{ij}(n_{ij} - 1)}{n(n-1)} \]

gdje je \(n = 3\).

  • Ispitanik 1:

\(\sum n_{1j}(n_{1j}-1) = 2\cdot(2-1) + 1\cdot(1-1) + 0\cdot(0-1) = 2 + 0 + 0 = 2\)

\(P_1 = \frac{2}{3\cdot2} = \frac{2}{6} \approx 0.3333\)

  • Ispitanik 2:

\(\sum n_{2j}(n_{2j}-1) = 3\cdot(3-1) + 0\cdot(0-1) + 0\cdot(0-1) = 3\cdot2 = 6\)

\(P_2 = \frac{6}{6} = 1\)

  • Ispitanik 3:

Sličnim postupkom dobivamo \(P_3 = 1\)

  • Ispitanik 4:

Dobivamo \(P_4 = 1\)

Prosječna vrijednost svih \(P_i\) (označena s \(\bar{P}\)) je:

\[\bar{P} = \frac{0.3333 + 1 + 1 + 1}{4} = \frac{3.3333}{4} \approx 0.8333\]

Korak 2. Izračunavanje \(p_j\) za svaku kategoriju

\(p_j\) se računa kao:

\[p_j = \frac{1}{Nn} \sum_{i=1}^{N} n_{ij}\]

Ukupne ocjene po kategorijama:

  • Kategorija 1: \(2 + 3 + 0 + 0 = 5\)

\[p_1 = \frac{5}{4\cdot3} = \frac{5}{12} \approx 0.4167\] - Kategorija 2: \(1 + 0 + 3 + 0 = 4\)

\[p_2 = \frac{4}{12} \approx 0.3333\]

  • Kategorija 3: \(0 + 0 + 0 + 3 = 3\)

\[p_3 = \frac{3}{12} = 0.25\]

Izračunavamo očekivanu slučajnu usklađenost:

\[\bar{P_e} = p_1^2 + p_2^2 + p_3^2 \approx (0.4167^2 + 0.3333^2 + 0.25^2) \approx (0.1736 + 0.1111 + 0.0625) = 0.3472\]

Korak 3. Izračun Fleiss kappa

Fleiss kappa se računa kao:

\[\kappa = \frac{\bar{P} - \bar{P_e}}{1 - \bar{P_e}} = \frac{0.8333 - 0.3472}{1 - 0.3472} = \frac{0.4861}{0.6528} \approx 0.745\]

Ovaj rezultat (\(\kappa \approx 0.745\)) ukazuje na visoku razinu usklađenosti među ocjenjivačima.

Pritom, Fleiss kappa kvantificira stupanj slaganja između ocjenjivača, odnosno koliko su njihove ocjene konzistentne, slično kao što Pearsonov koeficijent mjeri povezanost između kontinuiranih varijabli. Daje vrijednost unutar raspona od -1 do 1, pri čemu vrijednosti bliže 1 ukazuju na veću usklađenost, a vrijednosti bliže 0 na manju te omogućuje interpretaciju jačine i smjera odnosa između varijabli ili ocjena. U slučaju Fleiss kappa, umjesto mjerne povezanosti između numeričkih vrijednosti, mjeri se usklađenost među ocjenjivačima uz korekciju za slučajnu podudarnost, čime se dobiva brojčana vrijednost koja odražava koliki je stupanj slaganja – tj. korelacije – u njihovim ocenama.




Goodman i Kruskalov γ

Goodman i Kruskalov γ (gamma) definira se kao omjer razlike između broja konkordantnih i diskordantnih parova i njihovog zbroja:


\[ \gamma = \frac{N_c - N_d}{N_c + N_d}, \]


gdje su \(N_c\) broj konkordantnih parova, a \(N_d\) broj diskordantnih parova.

Ilustrativni primjer. U anketi su zaposlenici ocijenili svoju motivaciju (od 1 – niska do 5 – visoka) te zadovoljstvo poslom (od 1 – nezadovoljan do 5 – vrlo zadovoljan). Sljedeća tablica prikazuje rezultate za 4 zaposlenika:

Zaposlenik Motivacija Zadovoljstvo poslom
A 2 3
B 4 5
C 3 4
D 1 2

Kako bismo izračunali Goodman i Kruskalov γ, uspoređujemo svaki par zaposlenika i određujemo je li redoslijed u obje varijable isti (konkordantan) ili različit (diskordantan) pomoću pomoćne tablice:

Par Motivacija (redoslijed) Zadovoljstvo (redoslijed) Klasifikacija
A – B 2 < 4 3 < 5 Konkordantan
A – C 2 < 3 3 < 4 Konkordantan
A – D 2 > 1 3 > 2 Konkordantan
B – C 4 > 3 5 > 4 Konkordantan
B – D 4 > 1 5 > 2 Konkordantan
C – D 3 > 1 4 > 2 Konkordantan

Ukupno imamo:

  • Broj konkordantnih parova (Nc) = 6
  • Broj diskordantnih parova (Nd) = 0

γ se računa prema formuli:

\[ \gamma = \frac{N_c - N_d}{N_c + N_d} \]

Uvrštavanjem vrijednosti:

\[ \gamma = \frac{6 - 0}{6 + 0} = 1 \]

Rezultat (γ = 1) ukazuje na savršenu pozitivnu povezanost između ocjena motivacije i zadovoljstva poslom.




Phi koeficijent

Phi koeficijent koristi se za 2×2 kontingencijske tablice i definira se kao:


\[ \phi = \frac{n_{11}n_{22} - n_{12}n_{21}}{\sqrt{n_{1\cdot} n_{2\cdot} n_{\cdot1} n_{\cdot2}}}, \]


gdje su \(n_{ij}\) brojevi u ćelijama tablice, \(n_1\) i \(n_2\)​ zbrojevi redaka, a \(n_{\cdot1}\) i \(n_{\cdot2}\) zbrojevi stupaca.

Ilustrativni primjer. Na raspolaganju nam je 2×2 kontingencijska tablica koja prikazuje odnos između dvije kategorijske varijable: “Dolasci na pregled” i “Postavljena dijagnoza”. U sljedećoj tablici prikazani su brojevi opažanja:

Postavljena dijagnoza: Da Postavljena dijagnoza: Ne Redak suma
Dolazi: Da 30 20 50
Dolazi: Ne 10 40 50
Stupac suma 40 60 100

Prema formuli za Phi koeficijent:

\[ \phi = \frac{n_{11}n_{22} - n_{12}n_{21}}{\sqrt{n_{1\cdot} \, n_{2\cdot} \, n_{\cdot1} \, n_{\cdot2}}}, \]

gdje su:

  • \(n_{11} = 30\),
  • \(n_{12} = 20\),
  • \(n_{21} = 10\),
  • \(n_{22} = 40\),
  • \(n_{1\cdot} = 50\) (suma prvog reda),
  • \(n_{2\cdot} = 50\) (suma drugog reda),
  • \(n_{\cdot1} = 40\) (suma prvog stupca),
  • \(n_{\cdot2} = 60\) (suma drugog stupca).

Izračun se može prikazati pomoću pomoćne tablice:

\(n_{11} \cdot n_{22}=30 \cdot 40=1200\)

\(n_{12} \cdot n_{21}=20 \cdot 10=200\)

\(\text{Brojnik}= 1200 - 200 = 1000\)

\(n_{1\cdot} \cdot n_{2\cdot} = 50 \cdot 50=2500\)

\(n_{\cdot1} \cdot n_{\cdot2} = 40 \cdot 60=2400\)

\(\text{Nazivnik} = \sqrt{2500 \cdot 2400} = \sqrt{6\,000\,000} \approx 2449.5\)

\(\phi = \frac{1000}{2449.5}= 0.408\)

Rezultat (\(\phi \approx 0.408\)) ukazuje na umjerenu pozitivnu povezanost između varijabli “Dolazi na pregled” i “Postavljena dijagnoza”. Ovaj koeficijent se može promatrati kao mjera korelacije jer kvantificira stupanj usklađenosti između dviju nominalnih varijabli, pokazujući koliko se njihove vrijednosti “povezuju” u smislu zajedničke varijabilnosti.




Szekelyjeva kovarijanca distanci

Szekelyjeva kovarijanca distanci definira se na temelju dvostruko centriranih matrica udaljenosti. Jedan od zapisa je:


\[ \text{dCov}^2(X,Y) = \frac{1}{n^2} \sum_{j,k=1}^{n} A_{jk} B_{jk}, \]

\[ A_{jk} = a_{jk} - \bar{a}_{j\cdot} - \bar{a}_{\cdot k} + \bar{a}_{\cdot\cdot}, \]


gdje je \(a_{jk}=∣x_j−x_k∣\) (slično se definira \(b_{jk}\) za Y), a centrirane vrijednosti \(\bar{a}_{j\cdot}\),\(\bar{a}_{\cdot k}\) i \(\bar{a}_{\cdot\cdot}\) su prosjeci redaka, stupaca i ukupni prosjek.

Szekelyjeva distanca kovarijanci mjeri stupanj ovisnosti između dviju slučajnih varijabli (ili vektora), pri čemu je vrijednost jednaka nuli ako i samo ako su varijable nezavisne. Drugim riječima, što je vrijednost veća, to postoji jači (moguće i nelinearni) odnos između varijabli. Za razliku od klasične kovarijance koja mjeri samo linearnu povezanost, Szekelyjeva distanca kovarijanci može otkriti i složenije, nelinearne odnose. U praksi se koristi kako bi se kvantificirala ovisnost među varijablama na standardiziran način, što omogućuje usporedbu među različitim skupovima podataka.




RV koeficijent

RV koeficijent mjeri sličnost između dva skupa varijabli i definira se kao:


\[ RV = \frac{\text{tr}(X Y^T Y X^T)}{\sqrt{\text{tr}((X X^T)^2) \cdot \text{tr}((Y Y^T)^2)}}, \]


gdje su X i Y centrirane matrice podataka, a tr(⋅) označava trag matrice. RV koeficijent mjeri sličnost između dva skupa varijabli kroz usporedbu njihove strukture varijacija. Vrijednosti RV koeficijenta kreću se od 0 do 1, pri čemu vrijednost bliža 0 ukazuje na malu sličnost (ili gotovo potpunu različitost) između varijabli, dok vrijednost bliža 1 znači da su varijable vrlo slične u smislu njihovih međusobnih odnosa i varijabilnosti. Drugim riječima, visoka vrijednost RV koeficijenta sugerira da varijable dijele slične obrasce i strukturu podataka, dok niska vrijednost implicira da varijable imaju različite ili nezavisne obrasce.




Odabir koeficijenta korelacije


Najčešće korišteni koeficijenti korelacije su, redom:

  • Pearsonov koeficijent korelacije
  • Spearmanov koeficijent korelacije ranga
  • Kendallov koeficijent korelacije

Iako je korisno znati da postoje i drugi koeficijenti, najčešće je potrebno mjeriti povezanost kvantitativnih i stupnjevitih (ordinalnih) varijabli. Stoga ćemo se u nastavku baviti samo ovim koeficijentima, s naglaskom na Pearsonov koeficijent korelacije.




Pri odabiru koeficijenta korelacije, ključno je postaviti niz pitanja koja će nas voditi prema odabiru najprikladnije mjere, ovisno o prirodi podataka i istraživačkim ciljevima. Evo tipičnog redoslijeda razmišljanja i pitanja:

  • Vrsta varijabli:

    • Jesu li varijable mjerene na intervalnoj/omjernoj, ordinalnoj ili nominalnoj razini?
    • Za intervalne i omjerne varijable, ako su zadovoljene pretpostavke (npr. normalnost reziduala, linearnost), u pravilu, preferira se Pearsonov koeficijent.
    • Za ordinalne varijable, prikladni izbor su Spearmanov ili Kendallov tau.
    • Ako radimo s nominalnim varijablama, mogu se koristiti koeficijenti poput Phi koeficijenta, Cramér’s V ili Fleiss kappa (posebno u kontekstu inter-rater pouzdanosti).
  • Raspodjela reziduala i prisutnost odstupanja:

    • Je li distribucija reziduala normalna ili postoje značajni outlieri?
    • Ako su outlieri prisutni, robusnije metode (npr. Spearmanova korelacija) mogu dati pouzdanije rezultate.
  • Priroda odnosa:

    • Očekujemo li linearnu vezu ili postoji mogućnost nelinearnog, ali monotonog odnosa? (provjeravamo dijagramom rasipanja)
    • Za linearne odnose se često koristi Pearsonov koeficijent, dok za monotone (ali potencijalno nelinearne) odnose Spearmanov ili Kendallov tau mogu bolje opisati povezanost.
  • Veličina uzorka:

    • Je li uzorak dovoljno velik da se zadovolje statističke pretpostavke odabranog koeficijenta?
    • U malim uzorcima, odabir metode može ovisiti o tome koja je najstabilnija i najmanje osjetljiva na varijacije.
    • Korelacijsku (i regresijsku) analizu je moguće, ali nije uputno koristiti za vrlo male uzorke (3 - 8 opažanja, Rousseeuw i Verboven, 2002). Također, treba imati na umu da se pri korištenju malih uzoraka može utvrditi lažno postojanje veze među varijablama pri čemu izračunati koeficijent ukazuje na veći intenzitet povezanosti od stvarnog, povećavajući tako rizik od pogreške tipa dva (Tonidandel i LeBreton, 2011). S druge strane, u malim uzorcima snažni i važni efekti često neće biti statistički značajni, povećavajući na taj način rizik od pogreške tipa jedan (Levine i dr., 2009). Prema istim autorima, u istraživanjima na malim uzorcima, moguće je postići statistički značajne rezultate samo ako su efekti izrazito naglašeni. Stabilna razina predikcije za generalizaciju zaključaka postiže približnom veličinom uzorka n=250 (Schönbrodt i Perugini, 2013).
  • Uloga dodatnih varijabli:

    • Postoje li zbunjujuće ili konfuzne varijable koje mogu utjecati na primarni odnos?
    • U takvim slučajevima može biti potrebno koristiti metode koje kontroliraju utjecaj trećih varijabli, poput parcijalne korelacije.

Ovim redoslijedom odlučivanja uočava se da preferiramo pristup koji započinje analizom osnovne prirode i raspodjele podataka (razina mjerenja i distribucija), zatim prelazi na ispitivanje oblika odnosa i specifičnih uvjeta istraživanja (npr. reziduali) te konačno, razmatra utjecaj dodatnih varijabli. Tako osiguravamo da odabrani koeficijent korelacije bude statistički ispravan i interpretativno relevantan za postavljene istraživačke ciljeve.

Hipoteza o koeficijentu korelacije


Nul hipoteza o koeficijentu korelacije tvrdi da veza ne postoji:

\[H_0 ... r=0\]

dok altenativna tvrdi suprotno:

\[H_1 ... r \neq 0\]


Drugim riječima, ako se nul hipoteza uspješno odbaci, onda se smatra da je usklađenost varijacija u varijablama više od puke slučajnosti (naravno, uz pretpostavku da postoji smislena povezanost među varijablama i teorijsko uporište za taj odnos). Tada se tumačenje vezuje uz \(H_1\) i izračunatu vrijednost koeficijenta.

Ovdje je kao koeficijent korelacije zapisan \(r\), implicirajući Pearsonov koeficijent korelacije. Za Spearmanov bismo umjesto \(r\) upisali \(\rho\), za Kendallov \(\tau\) itd. No, hipoteza o koeficijentu korelacije također znači da time prelazimo u aspekte inferencijalne statistike. Stoga se moramo još kratko pozabaviti pitanjem zadovoljavanja pretpostavki, koje su specifične za Pearsonov koeficijent korelacije (kojim ćemo se i naviše baviti u nastavku).

Pearsonov koeficijent korelacije i bivarijantna normalnost:

Da bismo ispravnije procijenili možemo li (smijemo li) koristiti Pearsonov koeficijent korelacije, provodimo Shapiro-Wilk test normalnosti. Za izračunavanje Pearsonovog koeficijenta korelacije nije nužno da cijeli skup podataka zadovoljava uvjet ravnanja prema normalnoj distribuciji. Međutim, za izvođenje statističkih testova značajnosti Pearsonovog koeficijenta korelacije pretpostavlja se bivarijantna normalnost – odnosno, da zajednička distribucija dviju varijabli (npr. X i Y) bude normalna. Ta je pretpostavka važna za ispravno izvođenje inferencijalnih procedura.


Bivarijantna normalnost:

  • zajednička distribucija dviju varijabli (npr. \(x\) i \(y\)) je normalna
  • u kontekstu korelacije, bivarijatna normalnost znači da svaki linearni oblik (npr. \(aX+bY\) za bilo koje realne brojeve \(a\) i \(b\)) treba biti normalno distribuiran
  • bivarijatna normalnost se ne odnosi na svaku varijablu zasebno, nego na njihov zajednički raspored

Osim bivarijantne, postoji multivarijatna normalnost, koja predstavlja proširenje koncepta normalne distribucije na više varijabli. Dok je za jednu varijablu normalna distribucija definirana oblikom zvonolike krivulje, multivarijatna normalnost opisuje zajedničku distribuciju više varijabli koje su međusobno povezane.

Glavne karakteristike multivarijatne normalnosti:

  • Svaka pojedinačna varijabla (npr. BMI ili PA u ovom primjeru) mora biti normalno distribuirana.
  • Svi linearni oblici kombinacija tih varijabli trebaju biti normalno distribuirani. To znači da njihova povezanost (npr. kroz kovarijancu i reziduale) mora slijediti normalnu distribuciju.

Iako se ovdje navodi samo radi šireg konteksta, multivarijantna normalnost postaje važna tek kada se analizira više varijabli istovremeno u metodama koje zahtijevaju procjenu zajedničke distribucije podataka (npr. u multivarijantnoj analizi varijance (MANOVA), diskriminantnoj analizi, faktorskoj analizi, modeliranje strukturnim jednadžbama (SEM) ili kanonskoj korelacijskoj analizi - sve su to modeli koji premašuju teme ovog teksta) gdje je pretpostavka da svaka linearna kombinacija analiziranih varijabli slijedi normalnu distribuciju.

Međutim, kod jednostavnih modela kao što su jednostavna linearna regresija ili Pearsonova korelacija, bitno je da su reziduali približno normalni ili bivarijantna normalnost ispoštovana (redom), dok multivarijantna normalnost nije nužna.


U praksi, analitičari često nailaze na podatke koji ne zadovoljavaju strogu normalnost, no to ne sprječava upotrebu linearne korelacije i regresije (odstupanja od normalnosti u maloj do umjerenoj mjeri, ako je uzorak dovoljno velik, obično neće značajno narušiti rezultate, zahvaljujući centralnom graničnom teoremu). Ako podaci odstupaju, primjenjuju se transformacije (npr. log transformacija) ili se prelazi na neparametrijske metode poput Spearmanove korelacije, koje ne zahtijevaju pretpostavku normalnosti. No, treba voditi računa o tome da Pearsonov koeficijent korelacije pretpostavlja bivarijantnu normalnost – dakle, da zajednička distribucija dviju varijabli slijedi normalnu raspodjelu.

Reziduali su “ostatci” ili razlike između stvarno opaženih vrijednosti i onoga što naš model (ili predviđanje) očekuje. Zamislite da imate liniju koja najbolje opisuje trend podataka, a svaka točka na grafu predstavlja stvarnu mjerenu vrijednost. Rezidual je vertikalna udaljenost te točke od linije modela. Ako je model savršen, sve točke bi ležale na liniji i svi reziduali bi bili jednaki nuli. U radu sa stvarnim podacima to neće biti slučaj, pa reziduali pokazuju koliko i u kojem smjeru (previše ili premalo) model “griješi” u svom predviđanju. Ovi “ostatci” pomažu nam razumjeti i procijeniti koliko je naš model dobar te ukazuju na moguće probleme poput nelinearnosti ili varijabilnosti (heteroskedastičnosti) u podacima. Reziduale ćemo spominjati i pri kreiranju modela jednostavne linearne regresije, kad će povezanost Pearsonovog koeficijenta korelacije i jednostavne linearne regresije postati jasnija.

Tumačenje koeficijenta korelacije

Izračunata vrijednost koeficijenta korelacije u pravilu se tumači temeljem Chaddockove ljestvice.


Dakle, s obzirom na apsolutnu veličinu izračunatog koeficijenta korelacije, ona može biti slaba, umjerena ili jaka. S obzirom na smjer, može imati pozitivan ili negativan smjer.

Pozitivan smjer korelacije kaže da se, kako se vrijednosti varijable x povećavaju, povećavaju se i vrijednosti varijable y. Pojednostavljeno – kako x raste i y raste. Negativan smjer korelacije naziva se i inverzna korelacija, jer kako vrijednosti x-a rastu, vrijednosti y-a se smanjuju.

Vrijednosti koeficijenta korelacije r od točno -1, 0 ili 1 izuzetno su rijetke kada radimo sa stvarnim podacima. Razlog tome je što u stvarnom svijetu varijable rijetko imaju savršenu (linearnu) povezanost ili su potpuno nepovezane. Ove ekstremne vrijednosti obično su rezultat posebnih okolnosti ili grešaka u analizi.

Koeficijent korelacije od 1 ili -1 značio bi da postoji savršena linearna povezanost između varijabli: pozitivna (1) ili negativna (-1). Takva situacija može se dogoditi samo ako se jedna varijabla deterministički izračunava iz druge, na primjer:

  • mjerenje istih podataka u različitim mjernim jedinicama,
  • volumen kugle i polumjer kugle,
  • plaća i satnica (ako se plaća izračunava kao broj radnih sati puta cijena sata rada, korelacija između satnice i plaće ili broja sati i plaće također će biti deterministička, jer jedna varijabla izravno definira drugu)
  • konstantna brzina i prijeđeni put.

Dakle, ovo su anti-primjeri, ovo nisu pravi korelacijski odnosi, nego matematička povezanost, što znači da smo pogrešno pristupili analizi i u odnos stavili varijable koje ne bi trebalo zajedno razmatrati u korelacijskoj analizi. Korelacijska analiza ima svrhu ispitivanja odnosa između dvije različite varijable. Ako varijable nisu stvarno različite (npr. jedna je izvedena iz druge), korelacija gubi smisao jer ne istražujemo prirodnu povezanost dviju varijabli. Varijable moraju biti nezavisne.

Kada prelazimo iz eksploracijske i deskriptivne analize u inferencijalnu statistiku, ulazimo u domenu donošenja zaključaka o populaciji na temelju uzorka. U slučaju korelacije, inferencijalna statistika omogućuje nam testiranje hipoteza o povezanosti dviju varijabli u populaciji. Na primjer, izračunavanje p-vrijednosti za koeficijent korelacije omogućuje nam da procijenimo vjerojatnost da uočena povezanost u uzorku (ni)je slučajna (tj. da nema povezanosti u populaciji i koeficijent korelacije nije statistički značajno različit od nule, \(H_0…r=0\) ili da koeficijent korelacije jest statistički značajno različit od nule za promatranu populaciju, \(H_1...r \neq 0\)).

Ovaj prijelaz ima ključne implikacije za tumačenje rezultata. Eksploracijska analiza može ukazati na smjer i snagu povezanosti unutar uzorka, ali tek inferencijalna statistika daje alat za procjenu tih rezultata i njihovu generalizaciju. Generalizacija također podrazumijeva uzimanje u obzir veličine uzorka i reprezentativnosti, jer mali ili nereprezentativni uzorci mogu ograničiti valjanost zaključaka o populaciji.

U tom kontekstu, korelacija postaje više od puke numeričke povezanosti; ona postaje alat za donošenje odluka, koji mora biti oprezno primijenjen kako bi se izbjegla pogrešna tumačenja ili prekomjerna ekstrapolacija rezultata. Ovo je posebno važno pri odlučivanju o daljnjim koracima u analizi, primjerice prelasku na regresiju, čime se otvara prostor za još složenije modele generalizacije i inferencije.


Primjer: tjelesna aktivnost i BMI

Postoji li veza između tjelesne aktivnosti i BMI-a?

U JASP-ovoj knjižnici (Data library), u sekciji Regression, nalazi se skup podataka Physical activity and BMI. Skup podataka preuzet je iz Moore, D. S., McCabe, G. P. i Craig, B. A. (2012) te Mestek, M. L., Plaisance, E. i Grandjean, P. (2008). Podaci u CSV formatu mogu se preuzeti i putem linka.

Ovaj podatkovni skup, pod nazivom “Tjelesna aktivnost i BMI”, sadrži podatke o Indeksu tjelesne mase (BMI) i prosječnom dnevnom broju koraka sudionika. Teorijska podloga za ispitivanje odnosa između prosječnog dnevnog broja koraka (tjelesne aktivnosti) i indeksa tjelesne mase (BMI) temelji se na biomedicinskim i zdravstvenim teorijama koje povezuju tjelesnu aktivnost s regulacijom tjelesne mase i zdravljem:

  • Energetska ravnoteža: Prema ovom konceptu, tjelesna masa se regulira ravnotežom između unosa energije (prehrana) i potrošnje energije (tjelesna aktivnost). Viša razina tjelesne aktivnosti (što se može mjeriti brojem koraka) povećava potrošnju energije, što može doprinijeti održavanju ili smanjenju tjelesne mase.
  • Metabolički utjecaj tjelesne aktivnosti: Tjelesna aktivnost doprinosi boljoj regulaciji metabolizma, uključujući kontrolu glukoze i lipida, što može smanjiti skladištenje masnog tkiva i smanjiti BMI.
  • Holistički model zdravlja: Prema ovom pristupu, tjelesna aktivnost ima pozitivan utjecaj ne samo na fizičke parametre poput BMI-a, već i na cjelokupno zdravlje, uključujući smanjenje rizika od pretilosti i povezanih bolesti poput dijabetesa i kardiovaskularnih problema.

Mehanizam povezanosti:

  • Viši broj koraka dnevno sugerira višu razinu tjelesne aktivnosti, što može pomoći u trošenju više kalorija i održavanju zdravije tjelesne mase.
  • Nedostatak tjelesne aktivnosti često je povezan s višim BMI-om, zbog čega se broj koraka koristi kao indikator fizičke aktivnosti u odnosu na BMI.

Empirijska podrška:

  • Istraživanja pokazuju da ljudi s višom razinom svakodnevne fizičke aktivnosti (mjerene brojem koraka) imaju tendenciju imati niži BMI, dok sjedilački način života doprinosi povećanom riziku od pretilosti (Mestek et al., 2008).

Varijable u ovom skupu su PA – Tjelesna aktivnost, prikazana kao prosječan dnevni broj koraka (izražen u tisućama) i BMI – Indeks tjelesne mase. Obje su varijable kvantitativne, mjerene na omjernoj razini. Temeljem ovih podataka, ispitat ćemo postoji li i u kojoj mjeri povezanost između prosječnog dnevnog broja koraka i BMI-a.

Tablica 2. Pokazatelji deskriptivne statistike

PA BMI
Valid 100 100
Missing 0 0
Modeᵃ 3.1860 21.8000
Median 8.4085 24.4500
Mean 8.6137 23.9390
Std. Deviation 2.3199 3.9408
Skewness 0.1171 -0.0208
Kurtosis -0.4618 0.0710
Shapiro-Wilk 0.9910 0.9880
P-value of Shapiro-Wilk 0.7466 0.5067
Minimum 3.1860 14.2000
Maximum 14.2090 35.1000
Q1 6.8025 21.1000
Q3 10.2737 26.7500

ᵃ More than one mode exists, only the first is reported.

Temeljem prvih uvida u pokazatelje deskriptivne statistike, možemo vidjeti da je zabilježeno 100 opažanja za svaku varijablu. Ispitanici su prosječno napravili 8613.7 koraka na dan, a koraci standardno odstupaju od prosjeka za 2319.9 koraka. Medijan, koji je manji od prosjeka te koeficijent asimetrije, upućuju na blago pozitivno asimetričnu distribuciju. Distribucija je vrhom blago spljoštenija od normalne, ali se varijabla i dalje ravna približno normalnoj distribuciji, što pokazuje rezultat Shapiro-Wilk testa.

Ispitanici imaju prosječan BMI od 23.939, uz standardno odstupanje od prosjeka za 3.94 boda. Najmanja vrijednost BMI u uzorku je 14.2, a najveća 35.1. Distribucija je približno normalno distribuirana (što vidimo temeljem Shapiro-Wilk testa).

Sljedeći korak pri ispitivanju ovog odnosa je grafički prikaz koristeći dijagram rasipanja.

Dijagram rasipanja, dijagram raspršenosti ili scatter plot prikazuje odnos između dvije varijable:

  • X-os (PA): Prosječan dnevni broj koraka (tjelesna aktivnost) izražen u tisućama.

  • Y-os (BMI): Indeks tjelesne mase sudionika.

  • Svaka točka na grafu predstavlja jednog sudionika, gdje su:

    • Vrijednosti na X-osi prosječan broj koraka sudionika dnevno.
    • Vrijednosti na Y-osi njihov BMI.

Ako su točke smještene bliže pravcu, očekujemo veću apsolutnu vrijednost koeficijenta korelacije. Ako su točke jako raštrkane u kružnom obliku, bez jasnog smjera, očekujemo mali koeficijent korelacije i korelaciju koja nije statistički značajna. Ako oblak točaka tvori liniju ili uži pravokutni oblik uz nagib, odnos će biti linearan, no ako točke tvore zakrivljeni obrazac (npr. u obliku parabole ili logaritamske funkcije), koeficijent linearne korelacije neće točno opisati povezanost među varijablama.

Kako se iščitava?

  • Crna linija prikazuje opći smjer linearnog odnosa između PA i BMI-a.
  • Točke su raspršene oko te linije, što ukazuje na negativnu (inverznu) korelaciju: kako se povećava tjelesna aktivnost (PA), BMI ima tendenciju smanjivati se.
  • Iako postoji opći trend, rasipanje točaka oko linije ukazuje na varijabilnost – tj. nije svaka osoba s visokom fizičkom aktivnošću nužno imala nizak BMI.
  • Nagib crte regresije pokazuje koliko se BMI smanjuje za povećanje broja koraka za određeni iznos. Ako je nagib blag, veza je slabija; ako je strmiji, veza je jača.
  • Točke koje su daleko od regresijske linije ukazuju na sudionike čiji BMI nije u skladu s općim trendom (npr. osoba s visokim BMI-jem i visokom razinom PA).


Ovdje se može donekle uočiti linearnost odnosa, ali se ne očekuje jaki koeficijent korelacije. To se može provjeriti izračunom koeficijenta korelacije. No, da bismo ispravnije procijenili koji koeficijent korelacije koristiti, provodimo Shapiro-Wilk test normalnosti.

Reziduali su “ostatci” ili razlike između stvarno opaženih vrijednosti i onoga što naš model (ili predviđanje) očekuje. Zamislite da imate liniju koja najbolje opisuje trend podataka, a svaka točka na grafu predstavlja stvarnu mjerenu vrijednost. Rezidual je vertikalna udaljenost te točke od linije modela. Ako je model savršen, sve točke bi ležale na liniji i svi reziduali bi bili jednaki nuli. U praksi to nije slučaj, pa reziduali pokazuju koliko i u kojem smjeru (previše ili premalo) model “pogriješi” u svom predviđanju. Ovi “ostatci” pomažu nam da razumijemo i procijenimo koliko je naš model dobar te ukazuju na moguće probleme poput nelinearnosti ili varijabilnosti (heteroskedastičnosti) u podacima.

To je najjednostavnije prikazati za Pearsonov koeficijent korelacije, čiji su izračun i pretpostavke usko vezani uz jednostavnu linearnu regresiju. Kako ne bismo skakali pred rudo i preuranjeno objašnjavali jednostavnu linearnu regresiju i metodu najmanjih kvadrata, ovdje će se samo pružiti slika, radi ilustracije ideje navedene linije i točaka oko nje, kao i reziduala. Ova slika će se ponoviti i kasnije, kad će se svi elementi detaljnije navesti, no ovdje ćemo se usredotočiti na reziduale.

Na slici je svaka narančasta točka izmjerena vrijednost (opažanje), dok je smeđa crta „najbolje“ linearno predviđanje tih vrijednosti. Rezidual je jednostavno razlika između svake točke i crte, tj. koliko se stvarno izmjerena vrijednost „odmaknula“ od vrijednosti koju predviđa linija.

Ako pogledamo okomito na liniju, vidjet ćemo koliko svaka točka „odstupa“ – to odstupanje (udaljenost po vertikali) zovemo rezidualom. Što je rezidual manji, to je linija bolja u predviđanju te konkretne točke. Kada zbrajamo (ili analiziramo) sve reziduale, možemo ocijeniti koliko je cijeli model (linija) uspješan u opisivanju odnosa među varijablama.

Ako govorimo o korelaciji (točnije o Pearsonovoj korelaciji) i želimo provjeriti njezinu statističku značajnost, tada nam je važno da se pretpostavka o normalnoj raspodjeli reziduala (odstupanja od zamišljene linearne veze) barem približno ispunjava. Zašto?

  • Testiranje značajnosti (p-vrijednost) za Pearsonovu korelaciju temelji se na pretpostavci da su podaci iz bivarijantne normalne raspodjele ili, praktično gledano, da su „reziduali“ normalno distribuirani.
  • Ako se ta pretpostavka značajno krši, p-vrijednost može biti pogrešna, što znači da nismo sigurni je li uočena korelacija doista značajna ili ne.


Dakle, normalna distribucija reziduala nam osigurava da je statistički test za Pearsonovu korelaciju pouzdan.

Tablica 3. Shapiro-Wilk Test for Multivariate Normality

Shapiro-Wilk p
0.9825 0.2075

Hipoteze Shapiro-Wilk testa:

\(H_0\) ∶ Podaci su normalno distribuirani.

\(H_1\) ∶ Podaci nisu normalno distribuirani.

p-vrijednost od 0.2075 je veća od standardne razine značajnosti (npr. α=0.05), pa ne odbacujemo nul hipotezu. Distribucija podataka je približno normalna, što omogućuje nastavak s analizama koje se oslanjaju na ovu pretpostavku (tj. koristimo Pearsonov koeficijent korelacije).

Tablica 4. Korelacijska analiza

Variable Comparison Pearson \(r\) Pearson p Spearman \(ρ\) Spearman p Kendall \(τ_B\) Kendall p
PA – BMI -0.3854 *** < .001 -0.3511 *** < .001 -0.2414 *** < .001

Pearsonov koeficijent korelacije pokazuje negativnu linearnu povezanost između broja koraka (PA) i BMI-a. To znači da, kako se prosječan broj koraka povećava, BMI ima tendenciju smanjivati se. Vrijednost od −0.3854 ukazuje na slabu do umjerenu negativnu povezanost. Pearsonov koeficijent je prikladno koristiti kad varijable imaju linearni odnos i ako su varijable približno normalno distribuirane (što je potvrđeno Shapiro-Wilk testom u ovom primjeru). Iako postoji obrazac u kretanju ovih varijabli, potrebno je imati na umu da je veza umjerena i da još puno drugih čimbenika može biti povezano s BMI-jem, a ovdje nisu uzeti u obzir. Primjerice, sudionik s visokim PA-om i relativno visokim BMI-jem može ukazivati na individualne razlike u metabolizmu, prehrani ili drugim zdravstvenim čimbenicima koji nisu mjerljivi u ovom skupu podataka.

Ako podaci nisu normalno distribuirani ili ako nisu lienarno povezani, Spearmanov ili Kendallov koeficijent korelacije bolji su izbor.

P – vrijednost se odnosi na (ne)odbacivanje hipoteze o korelaciji:

\[H_0…r=0\]

\[H_1…r≠0\]

Pri čemu nul hipoteza tvrdi da korelacije nema ili da je koeficijent korelacije jednak nuli. Alternativna hipoteza tvrdi da je koeficijent korelacije bitno različit od nule i korelacija je statistički značajna.

Malena p – vrijednost, ili p<0.05 upućuje na odbacivanje nul hipoteze i zaključak da postoji statistički značajna, umjerena povezanost negativnog smjera, između varijabli PA i BMI. Što više koraka osoba napravi dnevno, BMI je manji.

Spearmanov koeficijent korelacije koristimo ako varijable imaju monotoni odnos, ali ne nužno linearan. Primjeren je za upotrebu ako je jedna varijabla kvantitativna, a druga stupnjevita te ako su obje stupnjevite. Također, može se upotrijebiti ako podaci nisu normalno distribuirani ili kada postoji veća varijabilnost u podacima (npr. outlieri), jer je robustan na odstupanja od pretpostavki o linearnosti. Također, uobičajeno se tumači prema Chaddockovoj ljestvici.

Kendallov koeficijent korelacije koristi se za opisivanje odnosa stupnjevitih varijabli. Također, primjereno ga je upotrijebiti za manje uzorke i situacije u kojima postoji mnogo vezanih vrijednosti (engl. ties; vezane vrijednosti nastaju kada dva ili više opažanja imaju istu vrijednost za jednu od varijabli; za vezane vrijednosti, rangiranje tih opažanja postaje složenije jer varijable nisu u potpunosti rangirane od najmanje do najveće bez ponavljanja). Zbog toga, Kendall τB daje konzervativniju procjenu povezanosti (daje nižu apsolutnu vrijednost korelacije) – uklanja pristranosti uzrokovane vezanim vrijednostima. To osigurava da rezultat nije umjetno povećan ili smanjen zbog ponovljenih vrijednosti unutar skupa podataka.

Ovdje je opravdano tumačiti prema Pearsonovom koeficijentu korelacije. Ovi rezultati podržavaju hipotezu da povećanje dnevne tjelesne aktivnosti može pomoći u regulaciji BMI-a. Međutim, relativno slab koeficijent korelacije sugerira da BMI ovisi o dodatnim čimbenicima (npr. prehrani, genetici) koji nisu obuhvaćeni ovom analizom.

Primjer: Nekretnine


Postoji li veza između starosti i cijene nekretnina?


Skupom podataka o nekretninama bavili smo se već ranije, a ovdje će se izdvojiti varijable cijena i starost. Ovdje bismo očekivali utvrditi odnos da će za starije nekretnine cijena biti niža.

Možemo se pozvati na koncept fizičke amortizacije, kao teorijski koncept. Bazira se na ideji da se nekretnine s vremenom fizički troše, što smanjuje njihovu kvalitetu, funkcionalnost i estetsku privlačnost. Troškovi održavanja i obnove starijih nekretnina često su viši, što može odvratiti potencijalne kupce ili smanjiti njihovu spremnost da plate visoku cijenu. Dakle, starije nekretnine imaju manju tržišnu vrijednost zbog većeg opterećenja na kupca za buduće popravke i renovacije.

Alternativno, mogla bi se primijeniti teorija životnog ciklusa proizvoda. Tijekom životnog ciklusa nekretnine, njezina vrijednost može opadati nakon početne faze izgradnje i korištenja. Nekretnine u srednjim godinama mogu imati stabilnu vrijednost ako su dobro održavane, ali nakon određene točke, starost postaje značajan faktor deprecijacije. U ovom kontekstu, pretpostavilo bi se postojanje nelinearnog odnosa između starosti i cijene, pri čemu vrlo stare nekretnine imaju znatno niže cijene.

No, osim starosti nekretnina, jako puno drugih čimbenika može biti povezano s cijenom. Tu su, na primjer, lokacija, veličina nekretnine, preferencije potrošača, tržišni trendovi i sl. Dakle, nećemo očekivati jaku korelaciju.

Započinjemo uvidima iz dijagrama raspršenosti. Crna ravna linija sugerira inverznu korelaciju. Za niže vrijednosti starosti, točke su raspršene u višem i širem intervalu cijena. Za više vrijednosti starosti, većina cijena poprima manje vrijednosti, netom ispod linije. To sugerira mogućnost postojanja nelinearnog odnosa - iako starije nekretnine općenito imaju niže cijene, smanjenje cijene nije ravnomjerno kroz cijeli raspon starosti. Kako bismo utvrdili odgovarajući koeficijent korelacije koji može opisati ovaj odnos, provodimo još Shapiro-Wilk test. ipoteze Shapiro-Wilk testa:

\(H_0\) ∶ Podaci su normalno distribuirani.

\(H_1\) ∶ Podaci nisu normalno distribuirani.

Tablica 5. Shapiro-Wilk Test for Multivariate Normality

Shapiro-Wilk p
0.7328 <.001

S obzirom na p<0.001, odbacujemo nul hipotezu Shapiro-Wilk testa i zaključujemo da podaci nisu normalno distribuirani. Budući da podaci nisu normalno distribuirani, Pearsonov koeficijent korelacije nije prikladan za analizu ovog odnosa. Mogu se primijeniti Spearmanov ili Kendallov koeficijent korelacije, koji ne zahtijevaju pretpostavku normalnosti i mogu bolje opisati monotoni ili nelinearni odnos između varijabli.

Tablica 6. Korelacijska analiza cijena i starosti nekretnina

Variable Comparison Spearman ρ Spearman p Kendall τ B Kendall p
Age – Price -0.3176 *** < .001 -0.2152 *** < .001

Spearmanov koeficijent korelacije (\(ρ=-0.3176\)) pokazuje negativnu monotonu povezanost između starosti nekretnina (Age) i cijene (Price). To znači da, kako starost nekretnine raste, cijena ima tendenciju opadati, ali ovaj odnos ne mora biti strogo linearan. Vrijednost od −0.3176 ukazuje na slabu do umjerenu negativnu povezanost, što znači da postoji primjetna, ali ne izrazito jaka veza između ove dvije varijable. Na razini značajnosti 5%, odbacuje se nul hipoteza da ne postoji povezanosti, ukazujući na to da je malo vjerojatno da je ova povezanost rezultat sušte slučajnosti.

Kendallov koeficijent korelacije (\(\tau_B=-0.2152\)) također ukazuje na negativnu povezanost između starosti i cijene nekretnina. Ova vrijednost je nešto manja od Spearmanovog koeficijenta, što je uobičajeno jer je Kendallov koeficijent konzervativniji i bolje prilagođen za uzorke s većim brojem vezanih vrijednosti. Vrijednost −0.2152 ukazuje na slabu negativnu povezanost, pri čemu je dosljedno primjetan trend pada cijene s porastom starosti nekretnine, koji je i statistički značajan (p<0.001), ali slab.


Jednostavna linearna regresija


Jednostavna linearna regresija omogućuje nam da kvantificiramo i predvidimo odnos između dvije varijable kroz jednadžbu pravca. Pomaže nam otkriti koliko promjene u jednoj varijabli (nezavisnoj) vode do promjena u drugoj (zavisnoj), što je ključan korak u razumijevanju povezanosti pojava. Na taj način, regresijska analiza pretvara ‘sirove’ podatke u korisne spoznaje kroz koje otkrivamo skrivene obrasce ili potvrđujemo postojeće, potiče inovacije i unaprjeđuje našu sposobnost razumijevanja stvarnosti.

Pri izračunu parametara modela linearne regresije koristi se metoda najmanjih kvadrata, koja omogućuje utvrđivanje takvog regresijskog pravca za koji vrijedi da je suma kvadratnih odstupanja opažanja od pripadajućih vrijednosti predviđenih pravcem najmanja. Podsjetnik na osnovne elemente jednadžbe modela jednostavne linearne regresije i način izračuna prikazan je slikom.

Postupka izračuna možete se prisjetiti koristeći Osnove Statistike (Horvat i Mijoč, 2018.), Primijenjenu statistiku (Šošić, 2004.) ili Introductory Business Statistics (Holmes, Illowsky i Dean, 2021).

Opći zapis modela jednostavne linearne regresije je:

\[\hat{y}=β_0+β_1 \cdot x+e\] Gdje je \(\hat{y}\) – modelom procijenjena vrijednost zavisne varijable \(x\) – nezavisna varijabla \(β_0\) – konstanta \(β_1\) – koeficijent smjera, regresijski koeficijent uz nezavisnu varijablu \(e\) – reziduali (pogreške modela), odstupanje stvarnih vrijednosti od predviđenih vrijednosti. Ovo odstupanje uključuje i potencijalne razlike u varijacijama zbog svih faktora koji nisu obuhvaćeni modelom.


Izračun parametara


Ilustrativni primjer. Koristimo iste podatke temeljem kojih je prikazan izračun Pearsonovog koeficijenta korelacije - podatke o visini i težini četiri osobe. Koristit ćemo izraze za izračun:

\[\hat{y}=\beta_0 + \beta_1 \cdot x + e\]

\[\beta_0=\overline{y} - b \cdot \overline{x}\]

\[\beta_1=\frac{SS_{yy}}{SS_{xx}}=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2}\]

\[R^2=\frac{SSR}{SS_{yy}}=1 - \frac{SSE}{SST}\]

gdje su \(x_i\) i \(y_i\) vrijednosti varijabli, a \(\bar{x}\) i \(\bar{y}\) njihove aritmetičke sredine.

Podaci:

Osoba Visina (cm) Težina (kg)
1 160 50
2 165 60
3 170 70
4 175 70

Aritmetičke sredine:

  • \(\bar{x} = \frac{160+165+170+175}{4} = 167.5\) cm
  • \(\bar{y} = \frac{55+60+65+70}{4} = 62.5\) kg


Osoba \(x_i\) \(y_i\) \(x_i - \bar{x}\) \(y_i - \bar{y}\) \((x_i-\bar{x})(y_i-\bar{y})\) \((x_i-\bar{x})^2\) \((y_i-\bar{y})^2\)
1 160 50 -7.5 -12.5 93.75 56.25 156.25
2 165 60 -2.5 -2.5 6.25 6.25 6.25
3 170 70 2.5 7.5 18.75 6.25 56.25
4 175 70 7.5 7.5 56.25 56.25 56.25
Ukupno 175 125 275


Nagib (\(\beta_1\)):

\[\beta_1 = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2} = \frac{175}{125} = 1.4\]


Konstanta (\(\beta_0\)):

\[\beta_0 = \bar{y} - \beta_1 \bar{x} = 62.5 - 1.4 \times 167.5 = 62.5 - 234.5 = -172\]

Izračun predviđenih vrijednosti i reziduala:

Osoba \(x_i\) \(y_i\) \(\hat{y}_i = \beta_0 + \beta_1 x_i\) Rezidual \((y_i - \hat{y}_i)\)
1 160 50 \(-172 + 1.4 \times 160 = 52\) \(50 - 52 = -2\)
2 165 60 \(-172 + 1.4 \times 165 = 59\) \(60 - 59 = 1\)
3 170 70 \(-172 + 1.4 \times 170 = 66\) \(70 - 66 = 4\)
4 175 70 \(-172 + 1.4 \times 175 = 73\) \(70 - 73 = -3\)

Suma kvadrata reziduala (SSE):

\[SSE = (-2)^2 + 1^2 + 4^2 + (-3)^2 = 4 + 1 + 16 + 9 = 30\]

Izračun koeficijenta determinacije (R²):

  • Ukupna suma kvadrata (SST) iz tablice je 275.00.
  • Koeficijent determinacije:

\[R^2 = 1 - \frac{SSE}{SST} = 1 - \frac{30}{275} \approx 1 - 0.1091 = 0.8909\]

Regresijski model:

\[\hat{y} = -172 + 1.4x + e\]



U ovom primjeru, težina se povećava za 1.4 kg za svaki dodatni centimetar visine. Konstanta modela (\(-172\)) predstavlja vrijednost težine kada je visina 0 cm (što, naravno, nije interpretativno smisleno). Također, visoki \(R^2\) ukazuje na vrlo dobru prilagodbu modela podacima.

Koeficijent determinacije \(R^2 \approx 0.891\) znači da oko 89.1% varijacije u težini rezultira iz promjena visine.


Hipotze o modelu i koeficijentima


Ako se želi testirati tvrdnja da su svi nagibi jednaki nuli, tada će hipoteza glasiti, npr.

\[H_0 … β_0=0 \text{ i } \\ \beta_1 = 0\]

To se može još zapisati i kao:

\[H_0… β_0=β_1=0\]

Upravo su na ovaj način zadane nul hipoteze u statističkim softverima. Nul hipoteza testira tvrdnju da nezavisne varijable nemaju prediktivnu snagu. Ta se hipoteza može postaviti i na drugačiji način, na primjer u višestrukoj regresiji - testirajući prediktivnu snagu samo dviju varijabli, dok se kontrolira za treću (tj. izostavlja se).

Na primjer, ako nas zanima kvantifikacija učinaka budžeta, inflacije i otvorenosti (nezavisne varijable) na ekonomski rast države (zavisna varijabla), može se preispitati jesu li te nezavisne varijable zajedno značajne, je li kombinacija po dviju nezavisnih varijabli značajna ili je pojedina nezavisna varijabla u modelu značajna.

Ipak, imajući na umu što se testira (prisjetiti se logičkih tablica), potrebno je razumjeti što se točno nalazi u alternativnoj hipotezi, koja se može zapisati:

\[H_1…β_0≠0 \text{ i } β_1≠0\].

Navedeno se može zapisati i kao:

\[H_1… β_0≠β_1≠0\]

To znači da se koeficijenti nezavisnih varijabli (tj. konstante i nezavisne varijable u jednostavnoj linearnoj regresiji) testiraju zajedno. Prema hipotezama, dovoljno je da jedan koeficijent bude različit od nule da se nul hipoteza odbaci. Združena signifikantnost uobičajeno se testira F testom, pri čemu se testovna veličina računa temeljem kvadrata odstupanja:

\[F=\frac{(SSR_r-SSR_ur)/q}{SSR_ur/(n-(k+1))}\]


Gdje je:

\(SRR_r\) suma kvadratnih odstupanja reziduala ograničenog modela,

\(SSR_{ur}\) suma kvadratnih odstupanja reziduala neograničenog modela,

\(n\) je broj opažanja,

\(k\) je broj nezavisnih varijabli u neograničenom modelu,

\(q\) je broj ograničenja (tj. broj koeficijenata koji se zajedno testiraju).


Ograničavanje modela odnosi se na početnu pretpostavku da je nul hipoteza istinita, putem uklanjanja varijabli iz modela. Stoga razlika između SSRr i SSRur ukazuje na to koliko su veći reziduali u modelu u kojem je nul hipoteza istinita. Ako su reziduali puno veći u ograničenom modelu, tada će i testovna veličina F poprimiti veliku vrijednost. Također, ako je veličina reziduala veća, zna se da to znači da je regresija manje reprezentativna (lošije opisuje podatke). Na to ukazuje i F testna veličina, jer će većim vrijednostima biti pripisane manje vjerojatnosti (tj. empirijske razine značajnosti ili p-vrijednost). Testna F veličina ravnat će se prema F distribuciji koja je definirana stupnjevima slobode \(df_1=q\) i \(df_2=n-(k+1)\). Testnu F veličinu i pripisanu p-vrijednost koristimo pri donošenju odluke o nul hipotezi. Velike vrijednosti F testa pojavljuju se uz ograničenja pri kojima regresijska jednadžba lošije opisuje podatke, što nas dovodi do preispitivanja istinitosti nul hipoteze. Ako su pak, reziduali veliki, bit će velika i veličina F-testa i njoj pripisana p-vrijednost. Ako je pripisana p-vrijednost manja od α, donosi se odluka o odbacivanju nul hipoteze \(H_0… β_0=β_1=0\). Ako se nul hipoteza može odbaciti, tada se zaključuje o modelu pretpostavljenom u \(H_1\), tj. da su konstanta i koeficijent međusobno različiti i različiti od nule.

Problem koji se pojavljuje pri višestrukom testiranju hipoteza svodi se na to da postoji veća vjerojatnost pogrešnog odbacivanja nul hipoteze (to jest, izračunavanja pogrešne signifikantnosti). Taj problem postoji i kod F-testa.

F-test dopušta testiranje nul hipoteze da su svi koeficijenti jednaki nuli i preispituje jesu li varijable zajedno značajne. Ono što se ovim testom ne može utvrditi jest koje su pojedinačne varijable značajne. Drugim riječima, f-test služi za procjenu čitavog modela (ukazuje na združenu vjerojatnost), a ne pojedinačnih varijabli u modelu. Koristi se pri utvrđivanju reprezentativnosti modela u kombinaciji s koeficijentom determinacije (mogu se koristiti i dodatni kriteriji evaluacije modela, npr. Goodness of fit).


Pretpostavke modela jednostavne linearne regresije

Da bi se koristila linearna regresija, podaci moraju zadovoljiti sljedeće četiri temeljne pretpostavke (LINE, Gendron, 2016.):

  • Linearnost (Linearity)
  • Neovisnost (Independence)
  • Normalnost (Normality)
  • Jednake varijance (Equality of variances)


Pretpostavka linearnosti: Odnos između prediktora (nezavisne) i zavisne varijable je linearan. Prvi uvidi u linearnost dobivaju se ucrtavanjem varijabli pomoću dijagrama raspršenosti i vizualne procjene bi li ravna crta koja prolazi kroz podatke dobro opisala pravilnost ucrtanih točaka. Stvari postaju složenije kada se koristi više od jedne prediktorske varijable te se ova pretpostavka može lakše uvidjeti pri crtatanju jedne po jedne prediktorske varijable u odnosu sa zavisnom varijablom. Treba obratiti pozornost na to postoje li izdvojenice – izdvojene točke daleko od ostalih točaka i linije zamišljenog pravca. Takve točke mogu utjecati na izračun jednadžbe regresijskog pravca i poželjno ih ukloniti prije provedbe linearne regresije, ali i evidentirati ih kao izdvojenice i prokomentirati (u nekim situacijama bit će potrebno dodatno istražiti okolnosti takvih odstupanja).

Pretpostavka neovisnosti: Varijable su međusobno nezavisne. To se obično može riješiti dedukcijom, zajedno s razumijevanjem podataka i razumijevanjem načina prikupljanja podataka. Dobar primjer neovisnosti su podaci koji dolaze iz različitih izvora. Nadalje, treba voditi računa da nema ponavljanih opažanja (prije i nakon uvođenja neke nove pojave) te da jedna varijabla nije već izračunata iz druge varijable (na primjer, prihodi i profit ili visina kamatne stope i kamate). Pretpostavka neovisnosti može se testirati Hi-kvadrat testom neovisnosti, u kojem nul-hipoteza glasi da su promatrane varijable međusobno neovisne. Osim toga, treba pripaziti na logičku ili smislenu povezanost varijabli. Jako je važno ne otići u drugu krajnost. Na primjer, postoji pozitivna korelacija između prometa od turizma i kiše meteora popularno zvane Suze sv. Lovre. U toj se situaciji događa da se numeričke vrijednosti dvije varijable podjednako kreću (tj. imaju podjednaki rast/ pad), ali takve varijable nema smisla stavljati u odnos. Još jedna stvar na koju treba pripaziti jest jesu li podaci temeljeni na vremenu (kronološki uređeni), jer se u takvoj situaciji koriste vremenski nizovi – odnosno, analiza vremenskih nizova.

Pretpostavka normalnosti: Reziduali su normalno raspoređeni oko regresijskog pravca s prosjekom nula. Reziduali su odstupanja stvarnih vrijednosti opažanja od vrijednosti predviđenih regresijskim pravcem. Njihova se distribucija može provjeriti histogramom, iako se češće koristi Q-Q plot. Osim toga, reziduali se mogu spremiti kao zasebna varijabla i testirati (na primjer, Shapirovim testom).

Za provedbu linearne regresije nije nužno da su svi podaci ili varijable multivarijantno normalno distribuirani. Ključna pretpostavka za inferencijalnu statistiku u linearnoj regresiji je da su reziduali (razlike između opaženih i predviđenih vrijednosti) približno normalno distribuirani. Ovo omogućuje točno izvođenje statističkih testova, kao što su t-testovi i izračunavanje intervala pouzdanosti. S druge strane, Pearsonov koeficijent korelacije pretpostavlja bivarijantnu normalnost – dakle, da zajednička distribucija dviju varijabli slijedi normalnu raspodjelu (u praksi se ove metode često koriste i kad podaci ne zadovoljavaju stroge normalne pretpostavke, osobito kod većih uzoraka, zahvaljujući robusnosti ovih metoda i centralnom graničnom teoremu).

Pretpostavka jednake varijance (homoskedastičnost): Reziduali tvore slučajni obrazac raspoređen oko nule. To se može vidjeti na grafičkom prikazu reziduala u odnosu na predviđene vrijednosti. Kada se pregledava graf reziduala radi utvrđivanja jednakosti varijanci, traže se sljedeće dvije stvari:

  • žele se vidjeti nasumično raspoređeni reziduali (bez vidljivog uzorka/oblika)
  • ne žele se vidjeti reziduali s uzorkom koji nalikuje ventilatoru ili lijevku, ili da na bilo koji način stvara prepoznatljiv uzorak.

Homoskedastičnost varijance najtočnije se utvrđuje Breusch-Pagan testom. Taj test nije dostupan u MS Excelu i JASP-u, ali je dostupan u R-u.

Modeliranje nije komplicirano, ali zahtijeva predznanje kako bi se odabrao odgovarajući model, odnosno da podatci zadovoljavaju pretpostavke za korištenje u odabranom modelu. Potrebno je obratiti pažnju na količinu vremena koja se provodi osiguravajući da model udovoljava pretpostavkama linearne regresije. Dakle, izračunom modela ne završava se priča, nego tek počinje najvažniji dio. Neke su pretpostavke važnije od drugih:

  • sve su operacije osjetljive na umjerena odstupanja od jednakosti varijanci;
  • neke se operacije dobro nose s odstupanjima od normalnosti. Iznimka je što su intervali predviđanja prilično osjetljivi na odstupanja od normalnosti (Gendron, 2016).

U slučaju da podaci ne odgovaraju pretpostavkama, moguće je podatke preurediti (npr. isključiti izdvojenice), a osim linearnog postoje i drugi regresijski modeli. U tom slučaju, jedna varijabla može se kvadrirati, korjenovati, logaritmirati ili transformirati na drugačiji način.

U nastavku će se nastaviti dva primjera za koje se ranije računao koeficijent korelacije.


Primjer: tjelesna aktivnost i BMI


Kakva je veza između tjelesne aktivnosti i BMI-a?

Alternativno (ako je moguće zadovoljiti uvjete uzročnosti): Utjče li fizička aktivnost na BMI?


Teorijska podloga odnosa između tjelesne aktivnosti i BMI temelji se na konceptu energetske ravnoteže. Prema toj teoriji, tjelesna aktivnost povećava potrošnju energije, što u kombinaciji s kontroliranim ili nepromijenjenim unosom hrane može dovesti do smanjenja tjelesne masnoće i, posljedično, do nižeg BMI-ja. Ovo je podržano empirijskim istraživanjima koja pokazuju da redovita tjelesna aktivnost može doprinijeti smanjenju tjelesne težine i poboljšanju tjelesne kompozicije. Jedan od poznatih izvora koji podržava ove ideje je istraživanje Warburton i sur. (2006).

Prvi je korak provjera linearnosti odnosa. Za to se koristi dijagram rasipanja. U tom kontekstu, korelacijska analiza može se smatrati preliminarnom analizom koja prethodi regresijskoj analizi. U praksi je uobičajeno prvo provjeriti postoji li linearna korelacija prije razvoja modela linearne regresije.

Fizička aktivnost (npr. broj koraka dnevno) se smatra nezavisnom varijablom jer se njezina vrijednost mjeri odvojeno i nije definirana na temelju BMI-ja. BMI, koji se koristi kao zavisna varijabla, predstavlja mjeru tjelesne mase u odnosu na visinu te se promjene u BMI-ju promatraju kao potencijalni rezultat varijacija u razini tjelesne aktivnosti. Drugim riječima, pretpostavljamo da promjene u fizičkoj aktivnosti mogu utjecati na BMI, ali ne putem izravnog izračuna te da se same mjerene vrijednosti fizičke aktivnosti ne mijenjaju zbog BMI-ja.

Grafički prikazi reziduala omogućuju procjenu zadovoljenja pretpostavki linearne regresije (grafovi prikazani na sljedećoj slici).

Reziduali u odnosu na PA (prvi graf na slici)

  • Reziduali su raspršeni oko horizontalne crte na \(y=0\), što sugerira da ne postoji očigledan obrazac, čime se pretpostavka homoskedastičnosti (jednake varijance reziduala) čini zadovoljenom.
  • Međutim, postoji određena širina raspršenosti u donjem i srednjem rasponu PA, što može ukazivati na mogućnost slabije varijabilnosti kod niskih razina tjelesne aktivnosti.

Reziduali u odnosu na predviđene vrijednosti (drugi graf na slici)

  • Reziduali su također ravnomjerno raspoređeni oko crte na \(y=0\) bez jasnog obrasca ili sistematskog odstupanja.
  • Ovaj graf potvrđuje da je pretpostavka jednake varijance zadovoljena, a model pravilno opisuje podatke.

Q-Q grafikon standardiziranih reziduala (treći graf na slici)

  • Reziduali približno prate dijagonalnu crtu, što ukazuje na to da su približno normalno distribuirani. Postoji samo nekoliko izraženih odstupanja (točke koje se ne nalaze na crvenoj liniji) na rubovima distribucije. Ovo potvrđuje zadovoljenje pretpostavke približne normalnosti reziduala.

Nakon provjere pretpostavki, možemo preći na interpretaciju modela. JASP će te rezultate predstaviti kroz nekoliko tablica.

Tablica 7. Sažetak modela

Model R Adjusted R² RMSE
H₀ 0 0 0 3.9408
H₁ 0.3854 0.1485 0.1399 3.6549

Vrijednost koeficijenta determinacije (\(R^2=0.1485\)) ukazuje da je 14.85% varijacija BMI-a rezultat varijacija u PA. No, preostalih 85.15 % varijacija ukazuju na to da postoji niz drugih čimbenika koji su vezani uz varijacije BMI-a. Također, usporedba RMSE vrijednosti između \(H₀\) i \(H₁\) modela pokazuje da uvođenje varijable PA smanjuje pogrešku predviđanja (s 3.9408 na 3.6549), iako se poboljšanje ne smatra vrlo izraženim. Važno je napomenuti da je odnos između PA i BMI-ja u ovom modelu umjeren, što implicira da bi za preciznije predviđanje BMI-ja bilo potrebno uključiti i dodatne varijable. To ukazuje na mogućnost daljnjeg istraživanja i razvoja složenijih modela koji bi bolje obuhvatili sve čimbenike koji utječu na BMI.

Tablica 8. ANOVA

Model Sum of Squares df Mean Square F p
H₁ (Regression) 228.3772 1 228.3772 17.0964 < .001
Residual 1309.1007 98 13.3582
Total 1537.4779 99

Note: The intercept model is omitted, as no meaningful information can be shown.

Za odlučivanje o modelu temeljem p-vrijednosti dostupne u ANOVA tablici, prvo zapisujemo hipoteze o modelu:

\[H_0… β_0=β_1=0\] \[H_1… β_0≠β_1≠0\]

Rezultati ANOVA testa pokazuju da je pretpostavljeni regresijski model statistički značajan (p<0.001) i doprinosi „objašnjavanju“ varijacija u varijabli BMI u odnosu na nul-model (onaj zapisan u nul hipotezi, u kojem su svi koeficijenti jednaki nula). Drugim riječima, model potvrđuje da je malo vjerojatno da je uočena veza između PA i BMI-a slučajna, što opravdava korištenje regresijske analize za analizu ovog odnosa. No, ovo testiranje se nikad ne smije koristiti kao jedina osnova za odlučivanje o modelu.

Tablica 9. Koeficijenti

Model Unstandardized Standard Error Standardized t p Lower Upper
H₀ (Intercept) = 23.9390 0.3941 60.7462 < .001 23.1571 24.7209
H₁ (Intercept) = 29.5782 1.4120 20.9481 < .001 26.7762 32.3803
PA = -0.6547 0.1583 -0.3854 -4.1348 < .001 -0.9689 -0.3405

Konstanta i koeficijent uz PA u alternativnom modelu su statistički značajni. S obzirom da su pretpostavke zadovoljene i model je statistički značajan, možemo pristupiti zapisu statističkog modela te konačnom tumačenju.

\[\hat{y}=29.578-0.6547 \cdot PA+e\]

Konstanta, 29.578, govori nam koliko iznosi modelom procijenjeni BMI ako osoba prosječno hoda 0 koraka na dan (tj., za PA=0). Za svakih dodatnih 1000 koraka dnevno, procijenjeni BMI biti će manji za 0.6547. Dobiveni rezultati su načelno u skladu s teorijskim pretpostavkama.


Primjer: nekretnine


Koju promjenu u cijeni izaziva jedinična promjena u starosti nekretnina?

Alternativno (uz opravdanje uvjeta uzročnosti): Utječe li starost nekretnina na njihovu cijenu?


Teorijska podloga odnosa između starosti i cijena nekretnina može se temeljiti na fizičkoj amortizaciji nekretnine ili na hedonističkom cjenovnom modelu, prema kojem cijena (u ovom slučaju, nekretnine) ovisi o nizu karakteristika, među kojima je i starost. Prema konceptu amortizacije i životnog ciklusa nekretnina, starije nekretnine obično gube dio svoje tržišne vrijednosti zbog fizičkog trošenja i zastarjelosti, iako rjeđe u određenim slučajevima mogu imati i dodatnu vrijednost zbog povijesnog značaja ili atraktivnosti lokacije. Ovaj odnos može se povezati s ranijim istraživanjima, npr. Rosen (1974) u kojem su predstavljene osnove za korištenje hedonističkog pristupa pri modeliranju cijena nekretnina, što uključuje i varijablu starosti kao važan faktor u određivanju vrijednosti, a postoje i empirijska istraživanja odnosa starosti, prodajne cijene i cijene najma nekretnina (Xu i sur., 2018).

Prvi uvidi uz pomoć dijagrama rasipanja omogućuju uvide u linearnost odnosa. Iako je ovo komentirano ranije, kod korelacijske analize, ovdje možemo ponoviti da, iako jest moguće kroz oblak točaka povući pravac, taj pravac ne opisuje baš dobro prikazanu pojavu. Ovdje bismo očekivali slabu korelaciju negativnog smjera. Za potrebe primjera, nastavljamo na sljedeće korake.

Započinjemo s provjerom pretpostavki. Još pri korelacijskoj analizi, utvrdili smo da reziduali nisu normalno distribuirani.

Grafikon reziduala prema predviđenim vrijednostima ukazuje na heteroskedastičnost, gdje se rasipanje/ raspršenost povećava kako predviđena cijena raste (podsjeća na lijevak). Ovo krši pretpostavku jednake varijance (homoskedastičnosti), što će utjecati na pouzdanost procjena koeficijenata.

Q-Q grafikon ukazuje na bitna odstupanja od normalnosti reziduala, osobito na krajevima distribucije. Ovo upućuje na to da pretpostavka normalnosti reziduala nije zadovoljena, što će utjecati na validnost statističkih testova.

U ovom primjeru vidimo i kako grafovi temeljem kojih vršimo dijagnostiku ne trebaju izgledati, tj. što ne želimo vidjeti u takvim grafovima. Dakle, mi možemo softveru zadati naredbe da kreira model, no u taj se model ne možemo pouzdati: zbog heteroskedastičnosti ne možemo računati na točnost pri izračunu koeficijenata i njihove statističe značajnosti, a zbog narušene normalnosti reziduala, model gubi svoju prediktivnu sposobnost.

Iako bismo u ovom trenutku trebali zaključiti da model jednostavne linearne regresije nije primjeren za analizu ovog odnosa i stoga završiti s ovom analizom, svejedno će se protumačiti i ostatak, za potrebe ilustrativnog prikaza.

Tablica 10. Sažetak modela

Model R Adjusted R² RMSE
H₀ 0 0 0 98441.3910
H₁ 0.1888 0.0356 0.0351 96699.1183

Temeljem koeficijenta korelacije iz alternativnog modela (preciznije, modela iz alternativne hipoteze, u kojem nisu svi koeficijenti međusobno jednaki i jednaki nuli) ostavruje koeficijent determinacije od 0.0356. To znači da je 3.56% varijacija u cijenama nekretnina rezultat varijacija u starosti nekretnina, dok je ostalih 96.44% rezultat pogreške modela. Iako model sa starosti nekretnina malo smanjuje RMSE (root mean squared error), ona je i dalje izuzetno velika.

\[H_0… β_0=β_1=0\]

\[H_1… β_0≠β_1≠0\]

Tablica 11. ANOVA

Model Sum of Squares df Mean Square F p
H₁ Regression 5.9651×10^11 1 5.9651×10^11 63.7929 < .001
Residual 1.6139×10^13 1726 9.3507×10^9
Total 1.6736×10^13 1727

Note: The intercept model is omitted, as no meaningful information can be shown.

\(H_0… β_0=β_1=0\)

\(H_1… β_0≠β_1≠0\)

Temeljem ANOVA testa o modelu, nul hipoteza prema kojoj su svi koeficijenti međusobno jednaki i jednaki nuli može se odbaciti i model je statistički značajan. Neovisno o tome, sjetimo se heteroskedastičnosti reziduala. Zbog toga bismo zapravo trebali posve zanemariti ovu i sljedeću tablicu.

Tablica 12. Koeficijenti

Model Unstandardized Standard Error Standardized t p
H₀ (Intercept) 211966.7054 2368.1318 89.5080 < .001
H₁ (Intercept) 229728.4596 3218.1779 71.3846 < .001
Age = -636.2551 79.6609 -0.1888 -7.9870 < .001

Nagib regresijskog pravca (\(β_1=-636.2551\)) pokazuje da se cijena nekretnine smanjuje za prosječno 636.26 jedinica s povećanjem starosti za jednu godinu. Konstanta modela (\(β_0=229728.4596\)) procjenjuje prosječnu cijenu nekretnine kada je starost nula godina, što iznosi približno 229728 dolara.

Iako je ANOVA test pokazao statistički značajan model, koeficijent determinacije je vrlo nizak (samo 3.56% varijacije cijena se objašnjava starošću nekretnina). To znači da većina varijabilnosti u cijenama nekretnina dolazi iz drugih čimbenika koji nisu uključeni u model. Prema dijagramu raspršenosti može se primijetiti da odnos između starosti i cijena nekretnina nije nužno linearan. Ako je odnos nelinearan, model jednostavne linearne regresije neće biti najprikladniji, a primjena alternativnih modela (npr. polinomijalne ili kvantilne regresije, kao i transformacija varijabli) možda bi mogla pružiti bolje rezultate. Osim toga, grafikon reziduala prema predviđenim vrijednostima ukazuje na heteroskedastičnost, što narušava pretpostavku jednake varijance. To može dovesti do netočnih standardnih pogrešaka i, posljedično, nepouzdane rezultate statističkih testova (p-vrijednosti).

Nakon temeljite procjene, zaključuje se da se izračunati model odbacuje. S obzirom na narušene pretpostavke, ne možemo se pouzdati u provedene statističke testove. To znači da su zaključci o statističkoj značajnosti modela i koeficijenata nepouzdani. Ovaj primjer jasno pokazuje važnost provjere pretpostavki prije donošenja zaključaka temeljenih na regresijskoj analizi.


Primjeri tijeka analize

Akademske plaće u SAD-u


Postoji li veza između godina od doktorata i plaća? Ako da, za koliko dodatna godina od doktorata povećava plaću?


Slijedeći primjer koristi podatkovni skup Salaries dostupne u R paketu carData. Odnosi se na devetomjesečne akademske plaće za docente, izvanredne profesore i profesore na jednom koledžu u SAD-u za akademsku godinu 2008.-09. Podaci su prikupljeni kao dio stalnih nastojanja uprave koledža da prati razlike u plaćama između muških i ženskih članova fakulteta (Fox & Weisberg, 2018). Ovdje će se za prikaz postupka koristiti R (a ne JASP). Na taj način, upoznat ćemo se i s tijekom rada i različitim prikazom koje različiti softveri generiraju. Kao i uvijek, započinjemo uvidima u varijable i pokazatelje deskriptivne statistike.

Tablica 13. Pokazatelji deskriprivne statistike

vars n mean sd median trimmed mad min max range skew kurtosis se
rank* 1 397 2.501 0.767 3 2.624 0.000 1 3 2 -1.124 -0.380 0.039
discipline* 2 397 1.544 0.499 2 1.555 0.000 1 2 1 -0.176 -1.974 0.025
yrs.since.phd 3 397 22.315 12.887 21 21.834 14.826 1 56 55 0.299 -0.811 0.647
yrs.service 4 397 17.615 13.006 16 16.508 14.826 0 60 60 0.646 -0.336 0.653
sex* 5 397 1.902 0.298 2 2.000 0.000 1 2 1 -2.690 5.247 0.015
salary 6 397 113706.458 30289.039 107300 111401.605 29355.480 57800 231545 173745 0.709 0.181 1520.163

Varijabla “rank” ili rang, predstavlja akademsku poziciju, pri čemu vrijednosti 1, 2 i 3 označavaju različite razine (npr. docent, izvanredni profesor, redoviti profesor). Uzorak od 397 opažanja ima medijan 3, što sugerira da je bar 50% ispitanika na višoj razini (redoviti profesori). Varijabla “discipline” je kvalitativna opisna varijabla s vrijednostima 1 i 2. Varijabla spola (sex) je kvalitativna opisna, s vrijednostima 1 i 2.

Kvantitativna kontinuirana varijabla mjerena na omjernoj razini s prosjekom od 22.31 i medijanom 21 godine, varijabla “yrs.since.phd” (godine od doktorata) pokazuje da su u prosjeku ispitanici na polovici svoje karijere. Standardna devijacija od 12.89 godina i širok raspon (od 1 do 56 godina) ukazuju na značajnu varijabilnost, dok blaga pozitivna asimetrija (0.30) sugerira da postoji izdužen desni krak, odnosno, nekoliko ispitanika s vrlo velikim brojem godina nakon doktorata.

Prosječni radni staž (Years of Service, kvantitativna kontinuirana varijabla mjerena na omjernoj razini) iznosi 17.61 godina s medijanom od 16 godina, a standardna devijacija od 13.01 godina i raspon od 0 do 60 godina pokazuju široku varijabilnost. Pozitivna asimetrija (0.65) implicira postojanje nekoliko ispitanika s vrlo dugim radnim stažem.

Plaće imaju prosjek od 113706.46 dolara s medijanom 107300, što ukazuje na laganu pozitivnu asimetriju (0.71) – to jest, postoji nekoliko vrlo visokih plaća koje povlače prosječnu vrijednost prema gore. Standardna devijacija od 30289.04 i širok raspon (od 57800 do 231545) pokazuju znatnu varijabilnost u plaćama, što je tipično za akademsku zajednicu u kojoj se plaće mogu značajno razlikovati ovisno o rangu, iskustvu, satima rada, projektima u koje su uključeni i disciplini.

Sljedeći je korak razmotriti relevantne teorije za razmatranje odnosa u kontekstu korelacijske i regresijske analize dostupnih podataka.

Teorija ljudskog kapitala objašnjava kako obrazovanje, iskustvo i radni staž (npr. “yrs.since.phd” i “yrs.service”) doprinose razlici u plaćama. Prema ovoj teoriji, investicije u obrazovanje i profesionalni razvoj povećavaju produktivnost, što se reflektira u većim plaćama. Time se očekuje pozitivna korelacija između iskustva/staža i plaće, iako se u stvarnosti mogu pojaviti i druge varijable koje umanjuju taj odnos.

Teorija diskriminacije - s obzirom na varijablu spola, može biti relevantno je razmotriti teorije o rodnoj diskriminaciji u akademskim plaćama. Ove teorije istražuju kako, unatoč sličnim kvalifikacijama i iskustvu, žene mogu biti plaćene manje od muškaraca zbog sustavnih pristranosti ili institucionalnih prepreka (tzv. “glass ceiling”). Korelacijska i regresijska analiza može otkriti postojanje značajnih razlika u plaćama između spolova, što bi poduprlo ove teorije.

Teorija tržišta rada istražuje dinamiku ponude i potražnje radne snage. U akademskom sektoru, faktor kao što je “rank” utječe na plaće jer se viša pozicija (npr. profesor) smatra vrijednijom zbog većeg odgovornosti i doprinosa. Očekuje se da će viši akademski rang biti povezan s većim plaćama, a regresijska analiza može kvantificirati ovaj odnos.

Iako postoje i druge teorije koje mogu biti relevantne za ove odnose, nemamo sve potrebne varijable, pa ćemo se usmjeriti na one koje imamo. Štoviše, jednostavnu linearnu regresiju kreiramo za numeričke varijable, pa ćemo se usmjeriti na njih. Izdvajamo kvantitativne varijable i dobivamo uvid u prvih 10 opažanja.

Tablica 14. Uvid u prvih 10 opažanja kvantitativnih varijabli

##    yrs.since.phd yrs.service salary
## 1             19          18 139750
## 2             20          16 173200
## 3              4           3  79750
## 4             45          39 115000
## 5             40          41 141500
## 6              6           6  97000
## 7             30          23 175000
## 8             45          45 147765
## 9             21          20 119250
## 10            18          18 129000

U sljedećem koraku, želimo ispitati oblik povezanosti. To ćemo učiniti koristeći dijagrame rasipanja.

Uspoređujući svaki par varijabli, možemo vidjeti jesu li točke raspoređene na način koji ukazuje na linearan, nelinearan ili gotovo nikakav odnos. Čini se da su godine od doktorata snažno i pozitivno povezane s radnim stažom (što je logično jer što je više godina od doktorata, obično je i dulji radni staž). (Napomena: Ako želimo kasnije kreirati višestruku regresiju sa salary kao zavisnom varijablom, morat ćemo imati na umu da visoka korelacija između dvije ili više nezavisnih varijabli može dovesti do kolinearnosti/multikolinearnosti. Također, kod jednostavne linearne regresije ne postoje takvi problemi jer postoji samo jedna nezavisna varijabla.) No, godine od doktorata i radni staž čine se slabo do umjereno povezane s plaćom. Štoviše, dijagram rasipanja na kojem se prikazuje odnos radnog staža i plaća ukazuje na nelinearan odnos. No, provjerimo to još putem izračuna koeficijenta korelacija.

Tablica 15. Koeficijenti korelacija

##               yrs.since.phd yrs.service    salary
## yrs.since.phd     1.0000000   0.9096491 0.4192311
## yrs.service       0.9096491   1.0000000 0.3347447
## salary            0.4192311   0.3347447 1.0000000

Čini se da je odnos godina od doktorata i plaća prikladniji za stavljanje u odnos, jer iako točke jesu naširoko disperzirane, dijagram rasipanja ne ukazuje na očitu nelinearnost odnosa. Osim toga, koeficijent korelacije je nešto veći nego za odnos radnog staža i plaće. Stoga u sljedećem koraku, provjeravamo je li koeficijent korelacije godina od doktorata i plaća statistički značajan. Za to postavljamo hipoteze:

\[H_0 ... r=0\]

\[H_1 ... r \neq 0\] Rezultati testa su sljedeći:

## 
##  Pearson's product-moment correlation
## 
## data:  place_reg$yrs.since.phd and place_reg$salary
## t = 9.1775, df = 395, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3346160 0.4971402
## sample estimates:
##       cor 
## 0.4192311

Na razini značajnosti 5% može se odbaciti pretpostavka da ne postoji veza između ove dvije varijable. Temeljem ovog testa, može se zaključiti da uočene pravilnosti nisu rezultat slučajnosti.

Sljedeći je korak provjera pretpostavki modela. Prvo, pretpostavlja se da se plaća ne izračunava direktno temeljem godina od doktorata i da su, s obzirom na svoj izvor, dvije varijable međusobno nezavisne. Nadalje, pretpostavljamo da je odnos ovih varijabli, iako slab uz raspršena opažanja, linearan. Kako bi se provjerile pretpostavke o normalnosti reziduala i jednakosti varijaci, koristimo dijagnostičke grafove.

Na prvom grafikonu (Residuals vs Fitted) vidimo da se reziduali ne raspoređuju nasumično oko horizontalne linije y=0. Crvena LOESS krivulja pokazuje određeni „valoviti“ uzorak, što sugerira da odnos između salary i yrs.since.phd nije strogo linearan ili da u modelu nedostaju neke varijable. Također, uočavamo da reziduali postaju sve negativniji za veće predviđene vrijednosti (npr. pri visokim plaćama), što može upućivati na sistematsko podcjenjivanje vrijednosti u tom rasponu.

Drugi grafikon (Q-Q plot) prikazuje usporedbu distribucije standardiziranih reziduala s teorijskom normalnom raspodjelom. U središnjem dijelu reziduali su relativno blizu pravca, ali pri krajevima (repovima) dolazi do većih odstupanja. Oznake poput “44” i “250” (na desnoj strani) i “283” (na lijevoj) označavaju redna mjesta opažanja koja se najviše razlikuju od očekivane normalne raspodjele. Iako ovo samo po sebi ne mora nužno značiti da je model neupotrebljiv, svakako sugerira da reziduali nisu idealno normalno raspodijeljeni, što će utjecati na točnost statističkih testova (npr. p-vrijednosti, intervali pouzdanosti) i umanjiti prediktivnost modela.

Treći grafikon (Scale-Location) prikazuje standardizirane reziduale naspram predviđenih vrijednosti. Uzlazna crvena linija ukazuje da se raspon reziduala povećava s rastom predviđenih vrijednosti plaće, što je znak heteroskedastičnosti (varijanca reziduala nije konstantna). Ova pojava krši pretpostavku homoskedastičnosti u linearnom modelu i može dovesti do nepouzdanih standardnih pogrešaka i krivih zaključaka o značajnosti koeficijenata.

Četvrti grafikon (Residuals vs Leverage) pomaže u prepoznavanju opažanja s velikim utjecajem na model (influential points) ili izdvojenice. Leverage (poluga) mjeri koliko je pojedino opažanje ekstremno u smislu vrijednosti nezavisne varijable (yrs.since.phd). Crvena linija i Cook’s distance referentna krivulja pomažu u identifikaciji točaka koje bi mogle neproporcionalno utjecati na nagib i presretanje regresijskog pravca. Oznake poput “283” i “132” identificiraju opažanja koja imaju nešto višu vrijednost leveragea ili reziduala. Ako su takve točke ujedno i izvan Cook’s distance granice, to može značiti da bi uklanjanje ili dodatna analiza tih točaka mogla promijeniti regresijske koeficijente.

Na temelju svih dijagnostičkih grafikona možemo zaključiti da jednostavni linearni model \(\text{salary} = \beta_0 + \beta_1 \cdot \text{yrs.since.phd}+e\) ne zadovoljava u potpunosti ključne pretpostavke (linearnost, homoskedastičnost i normalnost reziduala). Iako postoje indikacije pozitivne korelacije, povećanje yrs.since.phd ne objašnjava dovoljno dobro varijabilnost plaća, a rastuća disperzija reziduala za više predviđene vrijednosti plaće ukazuje na heteroskedastičnost. Nekoliko opažanja ima izražen utjecaj na model i moglo bi se dodatno istražiti.

Dodatni provjeru normalnosti reziduala možemo izvršiti Shapiro-Wilk testom, koji ukazuje da se odbacuje nul hipoteza koja tvrdi da su reziduali normalno distribuirani. Nadalje, Breusch-Pagan test ukazuje na odbacivanje nul hipoteze koja sadrži tvrdnju o homoskedastičnosti, čime potvrđujemo inicijalne uvide o heteroskedastičnosti.

## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.98122, p-value = 4.978e-05
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 50.787, df = 1, p-value = 1.03e-12

Čak i ako izuzmemo opažanja na rednim mjestima 44, 126, 132, 250 i 283 iz analize, ne dolazi do poboljšanja (možete isprobati sami). Stoga, zaključujemo da model jednostavne linearne regresije nije primjeren način analize ovih podataka.

Unatoč popularnosti jednostavne linearne regresije, ovakve se situacije u praksi događaju češće nego se čini. Jedan od razloga česte prisutnosti modela jednostavne linearne regresije jest njezina jednostavnost. Uobičajeno se zbog svoje jednostavnosti uči u uvodnim kolegijima statistike. Samim time je poznata većem broju ljudi koji ju češće prepoznaju i koriste. No, u uvodnim kolegijima se često ne posvećuje pozornost provjeri pretpostavki i validaciji modela, pa se među dostupnim prikazima jednostavne linearne regresije mogu naći i oni primjeri modela u kojima pretpostavke nisu ispoštovane.


Školovanje i gospodarski rast


Postoji li veza između prosječnih godina školovanja i bruto nacionalnog dohotka po stanovniku? Ako da, kako se bruto nacionalni dohodak po stanovniku povećava za svaku dodatnu godinu prosječnog školovanja stanovništva?


Slijedeći primjer koristi podatkovni skup o ljudskom razvoju, preuzet s UNDP-ovih podataka za 2022. godinu, koji obuhvaća indekse poput HDI-ja, prosječnih godina školovanja (MYS) i bruto nacionalnog dohotka po stanovniku (GNIpc). Podaci su prikupljeni na globalnoj razini i omogućuju ispitivanje odnosa između obrazovnog postignuća stanovništva i ekonomske snage države. Analiza se provodi prema teorijskoj podlozi i postupku u članku “Jednostavna linearna regresija u R-u: Prosječno trajanje školovanja i bruto nacionalni dohodak po stanovniku” (Kostelić i Koso, 2023), u kojem možete naći detaljnija i opširnija objašnjenja. Razlika je što su se u tom članku koristili podaci iz 2021. godine, a ovdje će se prikazati analiza temeljem novijih podataka, tj. iz 2022. godine.

U ovom podatkovnom skupu podaci su organizirani tako da svaki red predstavlja jednu zemlju, a stupci sadrže različite mjere koje se koriste za procjenu ljudskog razvoja:

  • Prvi stupac označava redni broj opažanja, dok drugi stupac sadrži imena zemalja.
  • Human Development Index (HDI) je indeks ljudskog razvoja koji kombinira informacije o očekivanom trajanju života, obrazovanju i bruto nacionalnom dohotku po stanovniku. On služi kao opći pokazatelj kvalitete života i društvenog napretka.
  • Life expectancy at birth (očekivano trajanje života pri rođenju) predstavlja prosječan broj godina za koje se očekuje da će osoba u toj zemlji doživjeti.
  • Expected years of schooling (očekivano trajanje školovanja) ukazuje na broj godina obrazovanja koje se očekuje da će osoba proći, a odražava ulaganja države u obrazovni sustav.
  • Mean years of schooling (prosječne godine školovanja) je prosječan broj godina obrazovanja koje su osobe starije od 25 godina stekle, što daje uvid u postignuća obrazovnog sustava.
  • Gross national income (GNI) per capita (bruto nacionalni dohodak po stanovniku) mjeri ekonomski dohodak države podijeljen s populacijom, prilagođen prema stopi pariteta kupovne moći, što odražava ekonomsku snagu države.
  • GNI per capita rank minus HDI rank pokazuje razliku između ranga zemlje prema GNI per capita i ranga prema HDI-ju, što može ukazivati na neuobičajene nesrazmjerne odnose između ekonomske snage i socijalnog razvoja.
  • HDI rank predstavlja rangiranje zemalja prema njihovom indeksu ljudskog razvoja, gdje niži broj ukazuje na viši razvoj.

Slijedi prikaz 10 redaka iz podatkovnog okvira.

##   ...1                   ...2 Human Development Index (HDI)
## 1    1            Switzerland                         0.967
## 2    2                 Norway                         0.966
## 3    3                Iceland                         0.959
## 4    4 Hong Kong, China (SAR)                         0.956
## 5    5                Denmark                         0.952
## 6    5                 Sweden                         0.952
##   Life expectancy at birth Expected years of schooling Mean years of schooling
## 1                   84.255                    16.58373                13.90407
## 2                   83.393                    18.63846                13.06234
## 3                   82.815                    19.10673                13.76717
## 4                   84.315                    17.84959                12.34777
## 5                   81.882                    18.77403                12.96049
## 6                   83.505                    19.03677                12.67372
##   Gross national income (GNI) per capita GNI per capita rank minus HDI rank
## 1                               69432.79                                  6
## 2                               69189.76                                  6
## 3                               54688.38                                 16
## 4                               62485.51                                  6
## 5                               62018.96                                  6
## 6                               56995.85                                 10
##   HDI rank
## 1        1
## 2        2
## 3        4
## 4        3
## 5        8
## 6        5

Regresijski model se oslanja na čvrstu teorijsku podlogu, pri čemu se pretpostavlja da promjene u nezavisnoj varijabli (MYS) uzrokuju promjene u zavisnoj varijabli (GNIpc). Odnos između MYS-a i GNIpc-a potkrijepljen je radovima koji sugeriraju njegovu složenost (Soviz et al., 2019; Chowdhury, 2019; Dobrolyubova, 2020; Saha, 2023). Iako više obrazovanje može potaknuti ekonomski rast i omogućiti veća ulaganja u obrazovanje, to ulaganje ne mora nužno rezultirati rastom MYS-a (Patel i Annapoorna, 2019). Stoga je opravdana primjena modela jednostavne linearne regresije s MYS-om kao nezavisnom, a GNIpc-om kao zavisnom varijablom.

Dakle, u nastavku ćemo se baviti tim dvijema varijablama:

  • MYS, Mean years of schooling (prosječne godine školovanja)
  • DNIpc, Gross national income (GNI) per capita (bruto nacionalni dohodak po stanovniku)

##             MYS     GNIpc
## MYS   1.0000000 0.6480262
## GNIpc 0.6480262 1.0000000

Korelacijska analiza, koja se obično provodi prije regresijske analize, započinje pregledom dijagrama raspršenosti i provjerom linearnosti odnosa. Ako se primijetimo da točke, koje predstavljaju uređene parove opažanja MYS-a i GNIpc-a za svaku zemlju, ne formiraju jasnu liniju, odnosno, ne možemo zamisliti pravac koji bi dobro opisivao podatke, to je signal da odnos nije linearan. Takav uvid sugerira potrebu za transformacijom varijable. Budući da transformacija može otežati interpretaciju, najprije se transformira samo zavisna varijabla, dok se nezavisna varijabla ostavlja u izvornom obliku (transformacija nezavisne varijable se izbjegava, ako je moguće). U ovom slučaju, pregledom odnosa utvrđeno je da je logaritamska transformacija najprikladnija za postizanje linearnosti.

##              MYS     GNIpc    ln_GNI
## MYS    1.0000000 0.6480262 0.8291025
## GNIpc  0.6480262 1.0000000 0.8479092
## ln_GNI 0.8291025 0.8479092 1.0000000

Dijagrami rasipanja ukazuju na linearni odnos između MYS i ln_GNI, iako se može primijetiti nekoliko udaljenijih točaka. Daljnja analiza će uključivati sva opažanja, a izdvojenice će se ukloniti samo ako to bude nužno. U takvim slučajevima, potrebno je pažljivo objasniti izdvojenice.

## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.98565, p-value = 0.04672
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.0049247, df = 1, p-value = 0.9441

Residuals vs Fitted: Crvena LOESS krivulja je uglavnom ravna, što sugerira da nema izrazitog nelinearnog uzorka ili sistematskog odstupanja reziduala u odnosu na predviđene vrijednosti. Reziduali se raspoređuju nasumično oko horizontalne linije y=0y=0, bez uočljivih grupa ili “lijevak” oblika, što upućuje da nema jasnih naznaka heteroskedastičnosti ili potrebe za dodatnim transformacijama (barem prema ovom grafu).

Q-Q plot: Većina točaka prati dijagonalnu liniju, što znači da je raspodjela reziduala uglavnom bliska normalnoj. Ipak, postoji lagano odstupanje na krajevima (posebno na desnoj strani, npr. opažanje “49”), što može signalizirati manju asimetriju ili rijetke ekstremne vrijednosti u raspodjeli reziduala. Rezultati Shapiro-Wilk testa (p=0.04672) potvrđuju da se na razini značajnosti od 5% može detektirati odstupanje od normalnosti.

Scale-Location (Spread-Location): Crvena krivulja je blago zakrivljena, ali ne pokazuje tipičan uzorak “lijevka” koji bi naglasio rastuću ili opadajuću varijancu s predviđenim vrijednostima. Nema izraženog povećanja ili smanjenja varijance reziduala, što ukazuje na relativno ujednačenu disperziju i time ne ukazuje na heteroskedastičnost.

Residuals vs Leverage: Većina točaka nalazi se u području niske leverage (poluge; identificira utjecajne točke koje “povlače” pravac) i standardizirani reziduali su unutar ±3. Nekoliko točaka (npr. “49”, “180”, “170”) može privući pozornost, no ne prelaze Cookovu granicu. To znači da, iako imaju nešto višu vrijednost reziduala ili “poluge”, vjerojatno ne utječu značajno na koeficijente regresijskog modela.

Shapiro-Wilk normality test (p=0.04672): Statistički značajan rezultat ukazuje na odstupanje od normalnosti reziduala, što je vidljivo i na krajevima Q-Q grafa. Međutim, p-vrijednost je vrlo blizu 0.05, pa bi mnogi analitičari zaključili da je riječ o blagom kršenju pretpostavke.

studentized Breusch-Pagan test (p=0.9441): Visoka p-vrijednost jasno pokazuje da nema statistički značajne heteroskedastičnosti. Drugim riječima, nema potrebe za korekcijama poput robusnih standardnih pogrešaka ili transformacijama isključivo zbog varijance reziduala.

Iako bismo mogli nastaviti analizu, s obzirom da narušenost normalnosti reziduala nije nužno razlog za odbacivanje modela (iako bitno narušava sposobnosti predviđanja modela, pa se model ne može koristiti u te svrhe), pristupit će se identificiranju i uklanjanju izdvojenica.

## [1] "Kuwait"                             "Marshall Islands"                  
## [3] "Kyrgyzstan"                         "Congo (Democratic Republic of the)"
## [5] "South Sudan"

Svaka od ovih zemalja ima jedinstveni kontekst (npr. bogatstvo prirodnim resursima, političku nestabilnost, malu populaciju ili povijesne okolnosti) koji može stvoriti nesrazmjer između pokazatelja obrazovanja (MYS) i ekonomskog razvoja (GNIpc). Na primjer, kao zemlja bogata naftom, Kuwait može postići visoki bruto nacionalni dohodak po stanovniku neovisno o prosječnoj razini obrazovanja stanovništva. To može dovesti do odstupanja u odnosu na druge zemlje, kod kojih je veza između dohotka i obrazovanja ujednačenija. Marshall Islands je mala otočna država, a takve države često imaju specifične ekonomske strukture (turizam, ribarstvo, inozemne subvencije) koje se ne uklapaju u globalni uzorak i globalne prosjeke. Ako stanovništvo ostvaruje dohodak iz ograničenog broja izvora, odnosi između obrazovanja i dohotka mogu odstupati od uobičajenih trendova. Kyrgyzstan je postsovjetska država u razvoju s nasljeđem obrazovnog sustava iz sovjetskog razdoblja. Moguće je da postoje solidne razine obrazovanja (MYS), ali gospodarstvo još uvijek ne prati tu razinu, što stvara nesrazmjer između MYS-a i GNIpc-a. Nadalje, zbog dugotrajnih sukoba i nedovoljne infrastrukture, DR Kongo ima vrlo nisku razinu ekonomskog razvoja, dok MYS može biti neujednačen ili nepouzdano mjeren. Ta kombinacija dovodi do slabijih ekonomskih pokazatelja u usporedbi s nekim drugim državama sa sličnim stupnjem obrazovanja. Južni Sudan je jedna od najmlađih država na svijetu, suočena s velikim izazovima u izgradnji institucija i obrazovnog sustava. Sukobi, siromaštvo i ograničena infrastruktura uzrokuju iznimno niske ekonomske pokazatelje, dok formalna mjerenja obrazovanja mogu biti niska ili neujednačena, stvarajući izdvojenost od očekivanih trendova.

Ponavljamo analizu nakon izdvajanja izdvojenica. Tad dobivamo sljedeće dijagnostičke grafove.

## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.99414, p-value = 0.667
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.034387, df = 1, p-value = 0.8529

Nakon uklanjanja izdvojenica, reziduali u grafu Residuals vs Fitted ravnomjerno su raspoređeni oko nule, što ne upućuje na nelinearnost ili druge probleme. Q-Q plot pokazuje da se većina točaka dobro poklapa s dijagonalnom linijom, pa je distribucija reziduala bliža normalnoj (što potvrđuje i Shapiro-Wilk test s p=0.667). Scale-Location graf ne ukazuje na heteroskedastičnost, a Residuals vs Leverage graf nema značajnih odstupanja ili točaka s visokim utjecajem (izvan granice Cookove udaljenosti). U skladu s tim, Breusch-Pagan test (p=0.8529) ukazuje da nema statistički značajne heteroskedastičnosti. Drugim riječima, nakon uklanjanja izdvojenica, sve su pretpostavke zadovoljene, stoga možemo preći na tumačenje modela.

## 
## Call:
## lm(formula = data1$ln_GNI ~ data1$MYS, data = data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.6657 -0.3677  0.0189  0.4248  1.7506 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6.53987    0.13354   48.97   <2e-16 ***
## data1$MYS    0.31397    0.01395   22.51   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6167 on 186 degrees of freedom
## Multiple R-squared:  0.7316, Adjusted R-squared:  0.7301 
## F-statistic: 506.9 on 1 and 186 DF,  p-value: < 2.2e-16

Konstanta (6.53987) i koeficijent uz MYS (0.31397) su zasebno (t-test) i zajedno (F-test) statistički značajni na razini p < 2e-16, što znači da su i model i regresijski koeficijenti statistički značajno različiti od nule. Koeficijent determinacije (\(R^2 = 0.7316\)) ukazuje na to da oko 73% varijacija u ln⁡(GNIpc) rezultira iz varijacija u prosječnim godinama školovanja (MYS). U teoriji, bez ikakvog školovanja stanovništva, \(log(GNI_{pc})\) iznosi 6,53987, a svaka dodatna godina prosječnog školovanja stanovništva vodi k povećanju \(log(GNI_{pc})\) za 0.31397 jedinica. To se može zapisati na sljedeći način:

\[\widehat{ln(GNI_{pc})} = 6,54 + 0,31 \cdot MYS + e\]

Grafički, to izgleda ovako:

No, s obzirom da smo transformirali zavisnu varijablu, da bi smo mogli u potpunosti razumjeti što model opisuje, moramo izvršiti povratnu transformaciju (tj. antilogaritam, s bazom prirodnog logaritma, tj. Eulerovim brojem).

\[e^{ln(GNI)} = e^{6.53987+0.31397 \cdot MYS}\] \[GNI = e^{6.53987} \cdot e^{0.31397 \cdot MYS}\] \[GNI = 692.1966 \cdot e^{0.31397 \cdot MYS}\]

Može se uočiti da rast u vrijednostima GNIpc-a s obzirom na promjene u vrijednostima MYS-ja više nije linearan. U podlozi je eksponencijalna funkcija, pa svako povećanje MYS-ja višestruko povećava GNIpc. Taj je odnos prikazan sljedećim grafom.

Inače se koristi pojednostavljeni način interpretacije koeficijenata u modelima u kojima je zavisna varijabla transformirana putem logaritma. Naime, potencira se koeficijent, \(e^{0,31397} = 1.368849\), koji tad predstavlja faktor povećanja zavisne varijable za jediničnu promjenu nezavisne. Smatra se da se vrijednost zavisne varijable povećava 1.368849 puta ili za 36,885 % za jediničnu promjenu nezavisne varijable (tj. prosječne godine dana školovanja).

Dakle, vrijednost zavisne varijable uvećava se za 36,885 % sa svakim jediničnim porastom nezavisne varijable u odnosu na vrijednost zavisne varijable prije jediničnog porasta nezavisne varijable. Na primjer, procijenjena vrijednost zavisne varijable uz jednu godinu prosječnog školovanja je 947,51 te kad se ta vrijednost pomnoži s 1,368849, dobiva se 1297,001, što je procijenjena vrijednost zavisne varijable u slučaju dvije godine prosječnog trajanja školovanja. Slično, ako se 1297,001 pomnoži s tim faktorom, dobiva se 1775,398 - procijenjena vrijednost zavisne varijable u slučaju tri godine prosječnog trajanja školovanja. Ovakva je interpretacija potrebna zbog transformacije zavisne varijable.

Na primjer, u Hrvatskoj je u 2022. godini MYS iznosio 12,3287 (za cca 0,14 više nego u 2021. godini). Dakle, u prosjeku, stanovnici Hrvatske stariji od 25 godina imali su završeno četverogodišnje srednjoškolsko obrazovanje (8 godina osnovnoškolskog + 4 godine srednjoškolskog obrazovanja) i možda jedan tečaj ili su započeli studij. Za navedene prosječne godine školovanja (12,3287), procjenjuje se \(GNI_{pc}\) od 33213.7 (dok je zapravo ostvaren nešto viši \(GNIpc\) i iznosi 34323,81). Primjenjujući faktor povećanja, može se zaključiti da bi povećanje prosječnih godina školovanja u Hrvatskoj za 1, rezultiralo s \(GNI_{pc}\) od 445464.54.

Dakle, to je jedan od motivatora za poticanje stanovništva na nastavak školovanja. Ako se jasno pokaže da svaka dodatna godina prosječnog školovanja stanovništva značajno povećava ekonomski dohodak, donositelji odluka mogu koristiti te podatke za oblikovanje strategija usmjerenih na ulaganje u obrazovne sustave. Također, ovakav način interpretacije omogućuje usporedbu učinka obrazovanja između različitih zemalja ili regija, pružajući temelj za daljnje komparativne analize u području ljudskog razvoja.

Ovi rezultati imaju širi kontekst koji nadilazi samo tehničku interpretaciju modela. Naime, obrazovanje, izraženo kroz prosječne godine školovanja (MYS), ne odražava samo ekonomsku snagu države, već i kvalitetu života stanovništva. Više obrazovanje može povećati kompetencije, znanja i vještine, što rezultira ne samo većim prihodima, nego i boljim zdravstvenim pokazateljima, većom inovativnošću, većim pristupom informacijama te općenito višom razinom društvenog blagostanja.

Stoga bi vrijedilo u budućim analizama dodatno istražiti kako promjene u obrazovanju utječu na širi spektar pokazatelja. Dodatna istraživanja mogla bi razmotriti i druge vezane čimbenike, poput zdravstvenih usluga, sigurnosti, ekoloških uvjeta i socijalne inkluzije, kako bi se dobila cjelovita slika o tome što potiče ekonomski i društveni razvoj. U konačnici, detaljnija analiza ovih međusobnih veza može poslužiti kao smjernica za kreiranje ciljanih obrazovnih i ekonomskih politika, usmjerenih na poboljšanje kvalitete života u državama širom svijeta.

Osim toga, u podatkovnoj znanosti se često koristi metoda treniranja i testiranja modela. Radi se o tehnici koja se obično koristi za procjenu performansi klasifikacijskih modela, ali se može primijeniti i na modele linearne regresije ako se koristi za procjenu točnosti predviđanja numeričkih vrijednosti. U slučaju linearne regresije, može se koristiti za procjenu preciznosti predviđanja i stabilnosti regresijskog modela. To je jedan oblik validacije modela i premašuje ciljano gradivo kojim se ovdje bavimo, ali možete pogledati primjer postupka u ranije referiranom članku.


Višestruka (multivarijantna) linearna regresija


Višestruka linearna regresija je metoda multivarijantne analize koja omogućuje procjenu odnosa između zavisne varijable i više nezavisnih varijabli. Cilj višestruke regresije je kvantificirati odnos nezavisnih i zavisne varijable te utvrditi koja od njih ima najvažniji doprinos objašnjenju varijacija zavisne varijable. Ova metoda omogućuje kvantifikaciju veze između varijacija nezavisnih varijabli i varijacija zavisne varijable, procjenu njihove značajnosti i oblikovanje prediktivnih modela.

Za razliku od metoda koje analiziraju međuovisnost varijabli (npr. faktorska analiza, klaster analiza), višestruka regresija pripada tehnikama za analizu zavisnosti varijabli, gdje se jasno razlikuju zavisna i nezavisne varijable. U praksi se višestruka regresija koristi za analizu složenih odnosa između više varijabli, uključujući predviđanje vrijednosti zavisne varijable, identifikaciju ključnih prediktora i evaluaciju efekata uz kontrolu za utjecaj drugih varijabli.

U nastavku će se detaljnije razmotriti višestruka linearna regresija, uključujući teorijske osnove, korake u analizi te interpretaciju rezultata. Posebna pažnja posvetit će se ključnim pretpostavkama modela, poput linearnosti, homoskedastičnosti, normalnosti reziduala i odsutnosti kolinearnosti među nezavisnim varijablama.


Opći zapis modela višestruke linearne regresije je:

\[\hat{y}=β_0+β_1 x_1+β_2 x_2+⋯+β_n x_n+e\] Gdje je \(\hat{y}\) – modelom procijenjena vrijednost zavisne varijable \(x_1,…,x_n\) – nezavisne varijable \(β_0\) – konstanta \(β_1,…,β_n\) – regresijski koeficijenti uz nezavisne varijable \(e\) – rezidual (pogreška modela), odstupanje stvarne vrijednosti od predviđene vrijednosti. Ovo odstupanje uključuje utjecaj svih faktora koji nisu obuhvaćeni modelom.

Pri izračunu koeficijenata, ovdje se češće koristi zapis koristeći vektore i matrice. Onda model poprima sljedeći oblik:

\[y = X \beta + e\]

gdje je:

  • \(y\) vektor zavisnih varijabli (dimenzija \(n \times 1\))
  • \(X\) matrica prediktora (dimenzija \(n \times (p+1)\); obično uključuje jedan stupac za konstantu ili odsječak na osi y)
  • \(\beta\) vektor koeficijenata (dimenzija \((p+1) \times 1\))
  • \(e\) vektor pogrešaka.


Izračun parametara

Glavni cilj je pronaći vektor \(\beta\) koji minimizira sumu kvadrata pogrešaka:

\[SSE = \sum_{i=1}^n (y_i - x_i^T \cdot \beta)^2\]

što se u matricnom obliku može zapisati kao

\[SSE=(y−Xβ)^T(y−Xβ)\]

Da bismo pronašli koeficijente koji minimiziraju \(SSE\), deriviramo \(SSE\) po \(β\) i postavimo derivaciju na nulu. Time dolazimo do tzv. normalnih jednadžbi:

\[\frac{∂SSE}{∂β}=−2X^T(y−Xβ)=0\]

Prilagodbom zapisa dobijemo:

\[X^TXβ=X^Ty\]

Pod pretpostavkom da je matrica \(X^TX\) invertibilna (tj. postoji druga matrica koja, kada se pomnoži s njom (s obje strane), daje jediničnu matricu, odnosno: \(A×A^{−1}=A^{−1}×A=I\)), optimalno rješenje je:

\[\hat{β}=(X^TX)^{−1}X^Ty\]

Ovaj postupak osigurava da su koeficijenti izračunati tako da se minimizira ukupna suma kvadrata odstupanja stvarnih vrijednosti od vrijednosti koje predviđa model. Dodatno, standardne pogreške koeficijenata mogu se procijeniti iz varijance pogrešaka, što omogućuje statističko testiranje (npr. t-testove) značajnosti pojedinih koeficijenata. Ovo je osnovna formula i postupak u višestrukoj linearnoj regresiji, koja se, kao i kod jednostavne linearne regresije, temelji na metodi najmanjih kvadrata.


Pretpostavke


Pretpostavke višestruke regresije:

  • Neovisnost: Varijable su međusobno nezavisne.
  • Linearnost: Odnos svake nezavisne varijable sa zavisnom varijablom treba biti linearan. To je već vizualno provjereno.
  • Normalnost reziduala: Reziduali modela moraju biti normalno distribuirani. To možemo provjeriti tek nakon kreiranja modela
  • Homoskedastičnost: Reziduali trebaju imati jednake varijance. Ova pretpostavka može se provjeriti analizom reziduala nakon kreiranja modela
  • Multikolinearnost: Važno je osigurati da nezavisne varijable nisu previše međusobno povezane (npr. visoki koeficijenti korelacije između GDP per Capita i Life Expectancy). Multikolinearnost se provjerava samo u modelima s više nezavisnih varijabli i pritom se koristi Variance Inflation Factor (VIF).


Primjer: Sreća


Koliko BDP per capita, obitelj i očekivano doživljenje utječu na sreću?


Za potrebe ove analize koristit će se podaci iz JASP-ove knjižnice, World Happiness, koji su dostupni i za preuzimanje putem linka. Skup podataka World Happiness 2017 pruža informacije o indeksu sreće i različitim životnim čimbenicima za 155 zemalja, izvještaj iz 2017. godine.

Varijable:

  • Country (Zemlja) – Naziv zemlje.
  • Happiness Rank (Rang sreće) – Rang zemlje prema indeksu sreće.
  • Happiness Score (Indeks sreće) – Nacionalni prosjek odgovora na pitanje Cantrilove ljestve: “Zamislite ljestve s brojevima od 0 na dnu do 10 na vrhu. Vrh ljestve predstavlja najbolji mogući život za vas, a dno najgori mogući život. Na kojem biste koraku ljestve rekli da se trenutno nalazite?” (Helliwell, Layard i Sachs, 2017., str. 9).
  • Whisker high (Gornja granica) – Gornja granica 95%-tnog intervala povjerenja za indeks sreće.
  • Whisker low (Donja granica) – Donja granica 95%-tnog intervala povjerenja za indeks sreće.
  • GDP per Capita (BDP po stanovniku) – Bruto domaći proizvod po stanovniku, izražen prema paritetu kupovne moći (PPP), prilagođen konstantnim međunarodnim dolarima iz 2011. godine (preuzeto iz World Development Indicators Svjetske banke, kolovoz 2016.) (Helliwell, Layard i Sachs, 2017., str. 17).
  • Family (Obitelj) – Nacionalni prosjek binarnih odgovora (0 ili 1) na pitanje Gallupovog svjetskog istraživanja: “Ako biste bili u nevolji, imate li rodbinu ili prijatelje na koje se možete osloniti kad god vam zatreba pomoć?” (Helliwell, Layard i Sachs, 2017., str. 17).
  • Life Expectancy (Očekivani životni vijek) – Zdravstveno očekivano trajanje života pri rođenju, temeljeno na podacima Svjetske zdravstvene organizacije i World Development Indicators.
  • Freedom (Sloboda) – Nacionalni prosjek binarnih odgovora na pitanje Gallupovog svjetskog istraživanja: “Jeste li zadovoljni ili nezadovoljni svojom slobodom izbora što raditi u životu?” (Helliwell, Layard i Sachs, 2017., str. 17).
  • Generosity (Velikodušnost) – Preostala vrijednost dobivena regresijom nacionalnog prosjeka odgovora na pitanje Gallupovog svjetskog istraživanja: “Jeste li donirali novac u humanitarne svrhe prošlog mjeseca?” prema BDP-u po stanovniku (Helliwell, Layard i Sachs, 2017., str. 17).
  • Government Corruption (Korupcija vlade) – Percepcije korupcije predstavljaju prosjek binarnih odgovora na dva pitanja Gallupovog svjetskog istraživanja: “Je li korupcija raširena u vladi ili ne?” i “Je li korupcija raširena u poslovnom sektoru ili ne?” (Helliwell, Layard i Sachs, 2017., str. 17).

Izvori: Helliwell, J., Layard, R., & Sachs, J. (ur., 2017). World Happiness Report 2017. Mreža za rješenja održivog razvoja (Sustainable Development Solutions Network). Preuzeto s https://worldhappiness.report/ed/2017/. Izvješće o svjetskoj sreći (World Happiness Report) godišnje objavljuje Ujedinjeni narodi (https://worldhappiness.report/). Podaci iz drugih godina dostupni su, na primjer, na platformi Kaggle: https://www.kaggle.com/mathurinache/world-happiness-report.

Tablica 16. Pokazatelji deskriptivne statistike

Variable Valid Mode Median Mean Std. Deviation Skewness Kurtosis Shapiro-Wilk P-value of Shapiro-Wilk Min Max
Happiness Rank 155 1 78 78 44.889 <.001 -1.2 0.9546 < .001 1 155
Happiness Score 155 5.074 5.279 5.354 1.1312 0.0096 -0.7504 0.9829 0.0522 2.6930 7.537
Whisker high 155 2.865 5.37 5.4523 1.1185 0.0084 -0.7764 0.9828 0.0508 2.8649 7.622
Whisker low 155 2.521 5.193 5.256 1.1450 0.0091 -0.7233 0.9836 0.0628 2.5211 7.4796
GDP per Capita 155 0 1.065 0.985 0.421 -0.391 -0.677 0.97 0.002 0 1.871
Family 155 0 1.254 1.1889 0.2873 -1.18 1.5352 0.9115 < .001 0 1.611
Life Expectancy 155 0 0.606 0.5513 0.2371 -0.578 -0.5856 0.9460 < .001 0 0.9495
Freedom 155 0 0.438 0.4088 0.1500 -0.6158 -0.2084 0.9595 < .001 0 0.658
Generosity 155 0 0.232 0.2469 0.1348 0.8987 1.7434 0.9578 < .001 0 0.838
Government Corruption 155 0 0.0898 0.1231 0.1017 1.4764 1.6637 0.839 < .001 0 0.464

Deskriptivna statistika za skup podataka “World Happiness 2017” pruža uvid u osnovne značajke svake varijable koja se analizira. Podaci su dostupni za 155 zemalja, a sve varijable imaju valjane vrijednosti bez nedostajućih podataka.

Promatrane države ostvaruju prosječan indeks sreće od 5.354, dok je standardna devijacija 1.1312, a raspodjela je približno simetrična (skewness 0.0096). Shapiro-Wilk test (p = 0.0522) potvrđuje približno normalnu distribuciju ove varijable (na razini značajnosti 5% ne odbacuje se pretpostavka o normalnosti podataka). Ipak, većina varijabli pokazuje odstupanja od normalnosti. Varijable percepcije korupcije i velikodušnosti pokazuju posebno izražena odstupanja, što može utjecati na odabir daljnje analize.

Teorijske osnove za istraživanje odnosa između nacionalne sreće i različitih životnih čimbenika, poput BDP-a po stanovniku, očekivanog životnog vijeka, slobode i percepcije korupcije, temelje se na nekoliko ključnih teorijskih okvira iz područja ekonomije, sociologije, psihologije i javnog zdravlja:

  • Ekonomija blagostanja: Prema ovoj teoriji, sreća i dobrobit pojedinaca mogu se povezati s ekonomskim pokazateljima poput BDP-a po stanovniku. Viši prihodi omogućuju pojedincima zadovoljenje osnovnih potreba, bolji pristup obrazovanju, zdravstvenim uslugama i drugim resursima, što povećava njihovu subjektivnu dobrobit. Međutim, koncept smanjenog povrata (engl. diminishing returns) sugerira da nakon određene razine dohotka dodatni rast ima smanjen utjecaj na sreću.
  • Teorija društvenog kapitala: Društveni kapital, koji uključuje međuljudske odnose, povjerenje u druge i osjećaj podrške od obitelji i prijatelja, ključan je za subjektivnu dobrobit. Ova teorija objašnjava zašto su čimbenici poput Obitelji i Velikodušnosti važni za nacionalni indeks sreće.
  • Zdravstvena psihologija: Zdravlje, a osobito očekivani životni vijek, ima značajan utjecaj na subjektivnu dobrobit. Prema holističkim modelima zdravlja, dulji životni vijek i bolji zdravstveni ishodi stvaraju osjećaj sigurnosti i veću kvalitetu života.
  • Teorija samoodređenja: Sloboda donošenja vlastitih odluka i osjećaj kontrole nad vlastitim životom (dimenzija Sloboda) ključni su aspekti subjektivne sreće. Ova teorija naglašava važnost autonomije kao osnovne ljudske potrebe.
  • Teorija relativne deprivacije: Percepcija korupcije u vladi i poslovnom sektoru može negativno utjecati na sreću jer narušava povjerenje u institucije i stvara osjećaj nepravde i nesigurnosti. Prema ovoj teoriji, ljudi svoju dobrobit često procjenjuju ne samo na temelju apsolutnih uvjeta, već i na temelju percepcije pravde i jednakosti u društvu.

Kao i ranije, uvide započinjemo temeljem dijagrama rasipanja i provjerom korelacije. S obzirom da se radi o dvodimenzionalnom grafu, ovdje opažamo parove varijabli.

Ovi dijagrami raspršenosti ukazuju na različite jačine, smjerove i oblike povezanosti. Na primjer, GDP per Capita i Happiness Score, Family i Happiness Score te Life Expectancy i. Happiness Score ukazuju na pozitivnu korelaciju između varijabli, koja djeluje linearno, a očekivali bismo utvrđivanje umjerene do jake veze.

Nasuprot tome, Family i Generosity te Life Expectancy i Generosity prikazuju donekle kružno raspršene podatke oko vodoravne linije, sugerirajući da povezanost ne postoji ili je jako slaba. Freedom i Government Corruption prikazuje odnos koji bi se mogao opisati eksponencijalnom funkcijom. Dakle, ovdje su prikazani šaroliki odnosi.

Naravno, jedna od osnovnih pretpostavki je linearnost odnosa. Ako je Happiness Score zavisna varijabla, kao nezavisne varijable ima smisla promatrati samo one za koje vizualno možemo procijeniti da stvaraju linearni odnos:

  • GDP per Capita,
  • Family,
  • Life expectancy.

Kako bismo utvrdili koji ćemo koeficijent korelacije koristiti, ponovo, pobliže promatramo oblik povezanosti odabranih varijabli.


Tablica 18. Koeficijenti korelacije

Variable Pair Pearson r p (Pearson) Spearman ρ p (Spearman) Kendall τB p (Kendall)
GDP per Capita – Happiness Score 0.8125 < .001 0.8250 < .001 0.6288 < .001
Family – Happiness Score 0.7527 < .001 0.7736 < .001 0.5735 < .001
Life Expectancy – Happiness Score 0.7820 < .001 0.7876 < .001 0.5786 < .001

Postoji snažna pozitivna linearna povezanost između GDP-a po glavi stanovnika i razine sreće (\(r = 0.8125\), p < 0.001). Nadalje, postoji snažna pozitivna monotona (moguće i linearna?) povezanost između povezanosti s obitelji i sreće (\(ρ=0.7736\), p<0.001) te snažna pozitivna linearna povezanost između očekivanog životnog vijeka i sreće (\(r=0.782\), p<0.001).

Ovdje je jedino potencijalno upitan odnos povezanosti s obitelji i sreće, koji bi mogao biti linearan, iako postoji naznaka i da bi mogao biti nelinearan. Ukoliko odnos suviše odstupa od linearnog, očekujemo da će i pretpostavke modela biti narušene. U ovoj situaciji nedoumice, nastavljamo s uvrštavanjem varijable ‘Family’ u model višestruke linearne regresije i očekujemo uočiti indikatore narušenih pretpostavki u slučaju da upitan odnos uistinu previše odstupa od linearnog.

Na dijagramima reziduala prema nezavisnim varijablama (GDP per Capita, Family, i Life Expectancy), većina točaka raspoređena je nasumično oko horizontalne linije na razini nule. Ako točke djeluju nasumično raspršene, pretpostavka pravilno specificiranog modela je zadovoljena. Ako postoji uzorak (npr. zakrivljenost), to može ukazivati na potrebu za transformacijom prediktora ili uključivanjem nelinearnih komponenti. Kod varijable Family, može se primijetiti blagi obrazac kod viših vrijednosti (kao da postoji neka nedvidljiva granica).

Grafikon reziduala prema predviđenim vrijednostima prikazuje da su reziduali razmjerno ravnomjerno raspoređeni oko horizontalne linije. Iako postoji blago povećanje rasipanja kod većih predviđenih vrijednosti, uzorak uglavnom zadovoljava pretpostavku homoskedastičnosti.

Q-Q dijagram (teorijski kvantili reziduala) pokazuje da su standardizirani reziduali većinom raspoređeni duž dijagonalne linije, što ukazuje na to da su reziduali približno normalno distribuirani. Odstupanja na krajevima dijagrama (repovi distribucije) sugeriraju moguća manja odstupanja od normalnosti, ali ne u značajnoj mjeri i malo ih je, pa se može smatrati da su ta odstupanja u granicama tolerancije.

Dodatna dijagnostika slučajeva koristeći standardizirane reziduale (koji su veći od 3 ili manji od -3) te Cookove udaljenosti ukazuju na samo jednu izdvojenicu (državu pod rednim brojem 93: Somalija - čini se da su ljudi u toj zemlji puno sretniji no što bi se očekivalo uz dane razine promatranih nezavisnih varijabli). No, s obzirom na to da grafovi ukazuju samo na manja odstupanja, ova utjecajna točka se neće ukloniti iz analize.

Uz manje nepravilnosti u dijagramima reziduala, rezultati uglavnom podržavaju ključne pretpostavke homoskedastičnosti i normalnosti reziduala za razmatrani model. Na temelju ovih grafičkih provjera može se zaključiti da regresijski model zadovoljava osnovne preduvjete za analizu, ali dodatna pažnja može biti potrebna za specifične varijable poput Family.

Tablica 19. Sažetak modela

Model R Adjusted R² RMSE
H₀ 0.0000 0.0000 0.0000 1.1312
H₁ 0.8698 0.7566 0.7517 0.5636

Model sa zavisnom varijablom Happiness Score i tri nezavisne varijable (GDP per Capita, Family, i Life Expectancy) postiže koeficijent determinacije 0.7517 (prilagođen za veći broj varijabli), što znači da je 75.17% varijacija u sreći rezultat varijacija u nezavisnim varijablama. Prilagođeni koeficijent determinacije ukazuje na blago smanjenje zbog broja nezavisnih varijabli, što je uobičajeno. Root Mean Square Error (RMSE) ili korijen prosječnih kvadrata pogreške od 0.5636 ukazuje na prosječno odstupanje predviđanja od stvarnih vrijednosti sreće. Kod modela za koje se ispituju prediktivne sposobnosti, nastoji se postići RMSE manji od 0.5, no toleriraju se manja odstupanja.

Tablica 20. ANOVA

Model Sum of Squares df Mean Square F p
H₁ (Regression) 149.1009 3 49.7003 156.4465 < .001
Residual 47.9700 151 0.3177
Total 197.0710 154

Note. The intercept model is omitted, as no meaningful information can be shown.

\[H_0… β_0=β_1=β_2=β_3=0\]

\[H_1… β_0≠β_1≠β_2≠β_3≠0\]

Rezultati ANOVA testa pokazuju da je model statistički značajan (\(F=156.4465, p<0.001\)). Ovo znači da kombinacija nezavisnih varijabli (GDP per Capita, Family, i Life Expectancy) značajno doprinosi modeliranju varijacija u sreći. Ukupna suma kvadrata (\(SS_{Total}=197.071\)) je podijeljena između regresije (\(SS_{Regression}=149.1009\)) i reziduala (\(SS_{Residual}=47.97\)), pri čemu regresija objašnjava većinu varijacija.

Tablica 21. Koeficijenti modela

Model Unstandardized Standard Error Standardized t p Tolerance VIF
H₀ (Intercept) 5.3540 0.0909 58.9244 < .001
H₁ (Intercept) 2.0844 0.1967 10.5979 < .001
GDP per Capita 0.8641 0.2195 0.3214 3.9365 < .001 0.2418 4.1362
Family 1.3775 0.2187 0.3498 6.2991 < .001 0.5228 1.9129
Life Expectancy 1.4165 0.3574 0.2969 3.9630 < .001 0.2873 3.4807

Konstanta modela iznosi 2.0844 i statistički je značajna (p<0.001), što označava osnovnu razinu sreće kad su sve nezavisne varijable jednake nuli. Međutim, tumačenje konstante u ovom kontekstu je ograničeno zbog prirode varijabli.

Koeficijent uz GDP per Capita iznosi 0.8641, što ukazuje da povećanje GDP-a per capita za jedinicu (u PPP iznosima) rezultira prosječnim povećanjem indeksa sreće za 0.8641. Koeficijent je statistički značajan (p<0.001). VIF vrijednost od 4.1362 je viši od granične vrijednosti 3, ali unutar granica tolerancije (manji od 5) te ukazuje na blago povišenu kolinearnost, ali ne i na zabrinjavajuću razinu.

Koeficijent uz Family iznosi 1.3775, što znači da veće povjerenje u obitelj povećava indeks sreće za 1.3775. Ova varijabla ima najjači relativni utjecaj (standardizirani koeficijent = 0.3498) i statistički je značajna (p<0.001). VIF vrijednost 1.9129 pokazuje nisku kolinearnost.

Koeficijent uz Life Expectancy je 1.4165, što znači da povećanje očekivanog životnog vijeka za jednu godinu rezultira povećanjem indeksa sreće za 1.4165. Koeficijent je također statistički značajan (p<0.001), s VIF vrijednošću 3.4807, koja ne ukazuje na ozbiljan problem kolinearnosti.

Kada postoji izražena kolinearnost (uobičajeno se koristi vrijednost VIF-a od 5 kao granica za isključivanje varijabli, dok je 3 konzervativna granica), regresijski model teško razlikuje pojedinačne utjecaje nezavisnih varijabli jer su one međusobno povezane. Zbog toga se ne može jasno odrediti koji dio varijacije zavisne varijable dolazi od koje nezavisne varijable. Osim toga, kolinearnost povećava standardne pogreške koeficijenata, što dovodi do manje preciznih procjena koeficijenata u modelu. Nadalje, kolinearnost može umjetno povećati vrijednost koeficijenta determinacije, što daje dojam da model bolje objašnjava varijaciju zavisne varijable nego što to zaista čini.

Model je statistički značajan, s visokim koeficijentom determinacije koji pokazuje da odabrane varijable značajno doprinose objašnjenju sreće na nacionalnom nivou. Dakle, možemo pristupiti zapisu modela:

\[\hat{y}=2.084+0.864 \cdot G+1.3775 \cdot F+1.4165 \cdot L+e\]

Očekivana dugovječnost najviše doprinosi sreći, na način da svaka dodatna godina očekivanog doživljenja u državi povećava percipiranu sreću stanovništva te zemlje za 1.4165. Nadalje, za svaku dodatnu jedinicu percipiranih dobrih odnosa s obitelji, sreća raste za 1.3775. Iako BDP per capita ima najmanji koeficijent, nije zanemariv i statistički je značajan te za svaku dodatnu jedinicu BDP-a per capita (PPP), sreća stanovnika u zemlji raste za 0.864. Prema ovom modelu, sretniji su stanovnici država u kojima se duže živi, u kojima se njeguju obiteljski odnosi i u kojima je gospodarska situacija (BDP per capita) bolja. Ipak, koeficijent determinacije od 75.17% znači i to da postoji pogreška modela koja iznosi 24.83%. To ukazuje na postojanje drugih čimbenika koji su vezani uz varijacije sreće, što otvara dodatna pitanja o tome što čini ljude sretnima i mogućnosti daljnjeg unaprjeđenja modela svjetske sreće.


Prednosti i nedostaci korelacijske i regresijske analize

Korelacijska i regresijska analiza su osnovni alati za istraživanje odnosa među varijablama, no potrebno je razumjeti njihove prednosti i ograničenja kako bi se osigurala ispravna interpretacija rezultata. Kombiniranjem ovih metoda s teorijskim okvirom i pažljivo osmišljenim istraživačkim dizajnom možemo postići pouzdane i korisne uvide.

Prednosti

Jednostavnost primjene: Korelacijska i regresijska analiza pružaju relativno jednostavan način za kvantifikaciju odnosa između varijabli, posebno uz suvremene alate kao što su R, JASP ili MS Excel.

Jasna interpretacija: Koeficijent korelacije omogućuje brzo razumijevanje smjera i jačine povezanosti između varijabli, dok regresijski model nudi kvantitativnu procjenu promjena u zavisnoj varijabli s obzirom na promjene nezavisnih varijabli.

Raznovrsna primjena: Ove metode koriste se u različitim disciplinama, uključujući ekonomiju, biologiju, psihologiju i društvene znanosti, što ih čini univerzalnim alatima za istraživanje.

Identifikacija povezanosti: Korelacija omogućuje preliminarno razumijevanje povezanosti između varijabli, dok regresija omogućuje predviđanje vrijednosti zavisne varijable na temelju poznatih vrijednosti nezavisnih varijabli.

Razumijevanje složenih odnosa: Regresijska analiza omogućuje istraživanje složenijih odnosa, uključujući više nezavisnih varijabli (multivarijantna analiza) i interakcije među njima (ovime se nismo direktno bavili).

Praktične implikacije: Rezultati regresijskih modela često se koriste za donošenje odluka u poslovanju, medicini, javnim politikama i drugim područjima.

Nedostaci

Ograničenja uzročnosti: Korelacijska analiza ne pokazuje ni dokazuje uzročnost; povezanost između varijabli može biti posljedica djelovanja treće varijable ili slučajnosti.

Pretpostavke modela: Regresijska analiza zahtijeva poštivanje određenih pretpostavki (npr. linearna povezanost, homoskedastičnost, normalna distribucija reziduala). Kršenje ovih pretpostavki može rezultirati netočnim rezultatima.

Utjecaj zbunjujućih (engl. confounding) varijabli: Bez kontrole za zbunjujuće varijable (npr. stratifikacijom ili dodatnim varijablama u regresiji), rezultati mogu biti pogrešno interpretirani, a to je posebno izazovno kod multivarijantnih odnosa.

Osjetljivost na kvalitetu podataka: Analize su osjetljive na kvalitetu podataka, uključujući prisutnost ekstremnih vrijednosti, podatake koji nedostaju, postupak uzorkovanja i pogreške u mjerenju.

Ograničenja nelinearnih odnosa: Pearsonov koeficijent korelacije i linearna regresija prikladni su samo za linearne odnose. Za nelinearne odnose potrebni su napredniji modeli.

Preopterećenje modela: Uvođenje prevelikog broja nezavisnih varijabli u regresijski model može rezultirati problemima poput multikolinearnosti i prekomjernog prilagođavanja (engl. overfitting).

Generalizacija zaključaka: Kao i za bilo koju generalizaciju uz pomoć statističkih metoda, rezultati ovise o uzorku na kojem su analize provedene. Ako uzorak nije reprezentativan, zaključci se ne smiju generalizirati na širu populaciju.




Zanimljive, objavljene upotrebe linearne regresije mogu se naći na internetu. Za štivo se preporuča: Otkrivanje porezne utaje iz informacijskog sustava Porezne Uprave metodom otkrivanja znanja iz baza podataka (Pejić-Bach i Demonja, 2008) i Utjecaj upravljanja ljudskim potencijalima na percepciju organizacijske uspješnosti u hrvatskim građevinskim poduzećima (Šandrk Nukić i Šuvak, 2013).


Pitanja za ponavljanje

1. Koji je raspon vrijednosti koje može poprimiti Pearsonov koeficijent korelacije?

  1. [0, 1]
  2. [-1, 1]
  3. [−∞, ∞]
  4. [−0.5, 0.5]

2. Koji od sljedećih vrijednosti ukazuje na negativan smjer korelacije?

  1. r = 0,5
  2. r = 0
  3. r = -0,5
  4. r = 1

3. Koji se test najčešće koristi za provjeru normalnosti reziduala u regresijskim modelima?

  1. t-test
  2. F-test
  3. Shapiro-Wilk test
  4. Hi-kvadrat test

4. Što znači da su reziduali homoskedastični?

  1. Imaju visoku kolinearnost
  2. Imaju varijancu koja se mijenja s vrijednostima prediktora (nezavisne varijable)
  3. Nisu normalno distribuirani
  4. Imaju konstantnu varijancu koja se ne mijenja s vrijednostima prediktora (nezavisne varijable)

5. Koja pretpostavka regresijske analize osigurava da je odnos između prediktora i zavisne varijable linearan?

  1. Neovisnost
  2. Linearnost
  3. Normalnost
  4. Homoskedastičnost

6. U jednadžbi jednostavne linearne regresije, što predstavlja β₀?

  1. Nagib regresijskog pravca
  2. Vrijednost zavisne varijable kada je nezavisna varijabla jednaka nuli
  3. Rezidual
  4. Vrijednost koeficijenta korelacije

7. Koja metoda minimizira sumu kvadrata odstupanja u regresijskoj analizi?

  1. Metoda najveće vjerodostojnosti
  2. Metoda najmanjih kvadrata
  3. Metoda varijance
  4. Metoda binarne klasifikacije

8. Koji je koeficijent korelacije najprikladniji za ordinalne varijable?

  1. Pearsonov r
  2. Spearmanov ρ
  3. Kovarianca
  4. Linearna regresija

9. Što mjeri Variance Inflation Factor (VIF)?

  1. Normalnost podataka
  2. Homoskedastičnost reziduala
  3. Multikolinearnost među nezavisnim varijablama
  4. Kvalitetu modela

10. Što se događa s koeficijentima u regresiji ako postoji visoka multikolinearnost?

  1. Smanjuje se F-statistika
  2. Povećavaju se standardne pogreške koeficijenata
  3. Model postaje savršen
  4. Povećava se vrijednost p-vrijednosti Shapiro-Wilk testa

11. Koji se test koristi za provjeru heteroskedastičnosti u regresijskom modelu?

  1. t-test
  2. F-test
  3. Breusch-Pagan test
  4. Pearsonov test

12. Što predstavlja koeficijent determinacije (R²) u regresiji?

  1. Udio varijacija zavisne varijable koji rezultira iz varijacija nezavisnih varijabli
  2. Standardnu pogrešku modela
  3. Prosječnu vrijednost zavisne varijable
  4. Ukupan broj nezavisnih varijabli

13. Čemu služi Cookova udaljenost u regresijskoj analizi?

  1. Mjeri normalnosti reziduala
  2. Identificira utjecajna opažanja
  3. Mjeri postotak objašnjenosti modela
  4. Korigira vrijednost R²

14. Što znači mala p-vrijednost F-testa u regresiji?

  1. Model nije statistički značajan
  2. Model je statistički značajan
  3. Nema veze između varijabli
  4. Reziduali su savršeno normalno distribuirani

15. Na što ukazuje manja vrijednost RMSE u regresijskom modelu?

  1. Veća odstupanja predviđenih vrijednosti od stvarnih
  2. Manje prosječne pogreške u predviđanju
  3. Visoku multikolinearnost
  4. Veći broj varijabli u modelu

16. Ako je narušena pretpostavka linearne povezanosti, što je moguća posljedica?

  1. Netočne procjene koeficijenata
  2. Poboljšana normalnost reziduala
  3. Povećanje R²
  4. Smanjenje varijance nezavisnih varijabli

17. Što najbolje opisuje vezu između korelacije i uzročnosti?

  1. Korelacija dokazuje uzročnost
  2. Korelacija je nužan uvjet za uzročnost, ali sama po sebi nije dovoljna
  3. Veća korelacija znači automatski uzročni odnos
  4. Uzročnost se može zaključiti samo iz regresijskih koeficijenata

18. Što je Simpsonov paradoks?

  1. Promjena u smjeru veze kada se u obzir uzme djelovanje varijable koja prethodno nije razmatrana
  2. Tehnika za transformaciju podataka
  3. Mjera kolinearnosti kad se u model uključi varijabla koja prethodno nije razmatrana
  4. Metoda za provjeru normalnosti

19. Koja je glavna svrha scatter plot dijagrama?

  1. Provjera normalnosti podataka
  2. Prikaz odnosa između dvije varijable
  3. Izračunavanje koeficijenata
  4. Testiranje multikolinearnosti

20. Što predstavlja konstanta u regresijskom modelu?

  1. Promjenu zavisne varijable za jediničnu promjenu nezavisne varijable
  2. Odsječak na osi y
  3. Mjeru utjecaja nezavisnih varijabli
  4. Veličinu standardne pogreške

21. Na što se odnosi odstranjivanje izdvojenica u regresijskoj analizi?

  1. Uklanjanje ekstremnih opažanja koja narušavaju pretpostavke modela
  2. Uključivanje dodatnih nezavisnih varijabli u daljnju analizu
  3. Transformacija zavisne varijable za daljnju analizu
  4. Povećanje veličine uzorka

22. Što određuje da je uzorak dovoljan za pouzdanu inferenciju u regresiji?

  1. Mala standardna devijacija
  2. Veličina reprezentativnog uzorka od barem oko n=250
  3. Visok koeficijent korelacije
  4. Broj nezavisnih varijabli

23. Što znači transformacija zavisne varijable?

  1. Promjena oblika distribucije zavisne varijable radi zadovoljavanja pretpostavki modela
  2. Promjena nezavisnih varijabli
  3. Uklanjanje multikolinearnosti
  4. Dodavanje novih varijabli u model

24. Zašto je važno kombinirati teorijske osnove s korelacijskom i regresijskom analizom?

  1. Da se automatski odabere najbolji model
  2. Da se osigura ispravna interpretacija rezultata i smanji rizik od pogrešnih zaključaka
  3. Da se poveća broj varijabli u modelu
  4. Da se dobije veći koeficijent determinacije

25. Sljedeći graf prikazuje dijagnostičke grafove za odnos potrošnje automobila u miljama po galonu i konjskih snaga motora (podatkovni skup je mtcars iz R paketa datasets). Temeljem kojeg od sljedećih grafova možemo zaključivati o normalnosti distribucije reziduala (s lijeva na desno)?

  1. Temeljem prvog grafa.
  2. Temeljem drugog grafa
  3. Temeljem trećeg grafa
  4. Temeljem četvrtog grafa.

26. Sljedeći graf prikazuje dijagnostičke grafove za odnos promjera debla i visine stabala crnih trešanja (podatkovni skup je trees iz R paketa datasets). Može li se zaključivati o homoskedastičnosti i zašto?

  1. Da, zato jer se točke na Q-Q grafu poklapaju s dijagonalnom linijom.
  2. Ne, zato jer se točke na Q-Q grafu ne poklapaju s dijagonalnom linijom.
  3. Da, zato jer je crvena linija na prvom grafu valovita.
  4. Ne, zato jer crvena linija na trećem grafu ukazuje na trend povećanja za veće vrijednosti.

27. Prikazan je sažetak pokazatelja o modelu odnosa potrošnje automobila u miljama po galonu i konjskih snaga motora (podatkovni skup je mtcars iz R paketa datasets). Što se može zaključiti o modelu promatrajući samo ovaj sažetak pokazatelja?

## 
## Call:
## lm(formula = mtcars$mpg ~ mtcars$hp, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7121 -2.1122 -0.8854  1.5819  8.2360 
## 
## Coefficients:
##             Estimate Std. Error t value             Pr(>|t|)    
## (Intercept) 30.09886    1.63392  18.421 < 0.0000000000000002 ***
## mtcars$hp   -0.06823    0.01012  -6.742          0.000000179 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared:  0.6024, Adjusted R-squared:  0.5892 
## F-statistic: 45.46 on 1 and 30 DF,  p-value: 0.0000001788
  1. Koeficijenti i model nisu statistički značajni, a \(R^2\) je premaleni da bi model imao praktičnu vrijednost.
  2. Koeficijenti su zasebno i zajedno statistički značajni i može se zapisati model \(\hat{y}=-0.068+30.09886 \cdot x + e\). 60.24% varijacija zavisne varijable rezultat je varijacija nezavisne varijable, dok pogreška modela iznosi 39.76%.
  3. Koeficijenti su zasebno i zajedno statistički značajni i može se zapisati model \(\hat{y}=30.09886-0.068 \cdot x + e\). 60.24% varijacija zavisne varijable rezultat je varijacija nezavisne varijable, dok pogreška modela iznosi 39.76%.
  4. Koeficijenti su zasebno i zajedno statistički značajni i može se zapisati model \(\hat{y}=-0.068+30.09886 \cdot x + e\). 60.24% varijacija zavisne varijable rezultat je varijacija nezavisne varijable, a prosječna pogreška modela iznosi 3.863.

28. Prikazan je sažetak pokazatelja o modelu odnosa promjera debla i visine stabala crnih trešanja (podatkovni skup je trees iz R paketa datasets). Što se može zaključiti o modelu promatrajući samo ovaj sažetak pokazatelja?

## 
## Call:
## lm(formula = trees$Girth ~ trees$Height, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.2386 -1.9205 -0.0714  2.7450  4.5384 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  -6.18839    5.96020  -1.038  0.30772   
## trees$Height  0.25575    0.07816   3.272  0.00276 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.728 on 29 degrees of freedom
## Multiple R-squared:  0.2697, Adjusted R-squared:  0.2445 
## F-statistic: 10.71 on 1 and 29 DF,  p-value: 0.002758
  1. Koeficijenti su zasebno i zajedno statistički značajni i može se zapisati model \(\hat{y}=0.25575-6.18839 \cdot x + e\). Tumačenje je ograničeno, jer stablo koje nema promjer, visoko je 0.256 inča, a onda raste za 6.188 inča u visinu za svaki dodatni inč širine (promjera).
  2. Koeficijenti su zajedno statistički značajni i koeficijent uz visinu je značajan, pa se može zapisati model \(\hat{y}=-6.188+0.25575 \cdot x + e\). Za svaki dodatni inč visine, stablu se povećava promjer za 0.25575 inča.
  3. Koeficijenti su zajedno statistički značajni i koeficijent uz promjer je značajan, pa se može zapisati model \(\hat{y}=-6.188+0.25575 \cdot x + e\). Za svaki dodatni inč promjera, stablu se povećava visina za 0.25575 inča.
  4. Koeficijenti i model nisu statistički značajni, a \(R^2\) je premaleni da bi model imao praktičnu vrijednost.

29. Prikazan je sažetak pokazatelja o modelu odnosa potrošnje automobila u miljama po galonu i konjskih snaga motora (podatkovni skup je mtcars iz R paketa datasets). Što se može zaključiti o korelaciji promatrajući samo ovaj sažetak pokazatelja?

## 
## Call:
## lm(formula = mtcars$mpg ~ mtcars$hp, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7121 -2.1122 -0.8854  1.5819  8.2360 
## 
## Coefficients:
##             Estimate Std. Error t value             Pr(>|t|)    
## (Intercept) 30.09886    1.63392  18.421 < 0.0000000000000002 ***
## mtcars$hp   -0.06823    0.01012  -6.742          0.000000179 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared:  0.6024, Adjusted R-squared:  0.5892 
## F-statistic: 45.46 on 1 and 30 DF,  p-value: 0.0000001788
  1. S obzirom da koeficijent determinacije iznosi 0.6024, onda će Pearsonov koeficijent korelacije iznositi 0.7761, što upućuje na snažnu pozitivnu korelaciju. Što više konjskih snaga motora auto ima, ostvarit će više milja po galonu.
  2. S obzirom da koeficijent determinacije iznosi 0.6024, onda će Pearsonov koeficijent korelacije iznositi -0.7761, što upućuje na snažnu negativnu korelaciju. Što više konjskih snaga motora auto ima, ostvarit će manje milja po galonu.
  3. S obzirom da koeficijent determinacije iznosi 0.6024, onda će Pearsonov koeficijent korelacije iznositi 0.3629, što upućuje na snažnu pozitivnu korelaciju. Što više konjskih snaga motora auto ima, ostvarit će više milja po galonu.
  4. S obzirom da koeficijent determinacije iznosi 0.6024, onda će Pearsonov koeficijent korelacije iznositi -0.3629, što upućuje na snažnu negativnu korelaciju. Što više konjskih snaga motora auto ima, ostvarit će manje milja po galonu.

30. Prikazan je sažetak pokazatelja o modelu odnosa promjera debla i visine stabala crnih trešanja (podatkovni skup je trees iz R paketa datasets). Odaberite odgovor koji sadrži sve točne tvrdnje.

## 
## Call:
## lm(formula = trees$Girth ~ trees$Height, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.2386 -1.9205 -0.0714  2.7450  4.5384 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  -6.18839    5.96020  -1.038  0.30772   
## trees$Height  0.25575    0.07816   3.272  0.00276 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.728 on 29 degrees of freedom
## Multiple R-squared:  0.2697, Adjusted R-squared:  0.2445 
## F-statistic: 10.71 on 1 and 29 DF,  p-value: 0.002758
  1. Konstanta je statistički značajna. Koeficijent uz nezavisnu varijablu je statistički značajan. Približno 27% varijacija u zavisnoj varijabli rezultira iz varijacija u nezavisnim varijablama. Postoji umjerena veza pozitivnog smjera između promjera i visine stabla (r=0.519). Model je statistički značajan.
  2. Konstanta nije statistički značajna. Koeficijent uz nezavisnu varijablu je statistički značajan. Približno 27% varijacija u zavisnoj varijabli rezultira iz varijacija u nezavisnim varijablama. Postoji umjerena veza pozitivnog smjera između promjera i visine stabla (r=0.519). Model je statistički značajan.
  3. Konstanta je statistički značajna. Koeficijent uz nezavisnu varijablu nije statistički značajan. Približno 27% varijacija u zavisnoj varijabli rezultira iz varijacija u nezavisnim varijablama. Postoji umjerena veza negativnog smjera između promjera i visine stabla (r=0.519). Model nije statistički značajan.
  4. Konstanta je statistički značajna. Koeficijent uz nezavisnu varijablu nije statistički značajan. Približno 27% varijacija u zavisnoj varijabli rezultira iz varijacija u nezavisnim varijablama. Postoji umjerena veza negativnog smjera između promjera i visine stabla (r=0.519). Model je statistički značajan.


Repliciranje analize koristeći različite alate


Provedba postupka koristeći JASP


Primjer korelacijske analize na skupu podataka Physical activity and BMI, odnosno, tjelesna aktivnost i BMI. Započinjemo učitavanjem podataka.



Sljedeći je korak deskriptivna analiza putem koje dobivamo prve uvide u varijable i njihove distribucije. Kliknemo na Descriptives i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji ‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’ odaberemo ‘Distribution plots’ za prikaz histograma.



Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’.



Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.



Primjer jednostavne linearne regresije na skupu podataka Physical activity and BMI, odnosno, tjelesna aktivnost i BMI.

Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.



Primjer korelacijske analize na skupu podataka Real_estate, odnosno, nekretnine. Započinjemo učitavanjem podataka. Sljedeći je korak deskriptivna analiza putem koje dobivamo prve uvide u varijable i njihove distribucije. Kliknemo na Descriptives i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji ‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’ odaberemo ‘Distribution plots’ za prikaz histograma.



Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’. Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.



Primjer jednostavne linearne regresije na skupu podataka Real_estate, odnosno, nekretnine.

Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.



Primjer korelacijske i regresijske analize na skupu podataka Salaries iz paketa carData.

Započinjemo učitavanjem podataka. Sljedeći je korak deskriptivna analiza putem koje dobivamo prve uvide u varijable i njihove distribucije. Kliknemo na Descriptives i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji ‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’ odaberemo ‘Distribution plots’ za prikaz histograma.



Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’. Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.



Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.



Primjer korelacijske i regresijske analize na skupu podataka o ljudskom razvoju, dostupnim na https://hdr.undp.org/data-center/human-development-index#/indicies/HDI.

Ovdje se prikazuje samo finalni dio analize, s transformiranom varijablom GNIpc i bez izdvojenica.

Kliknemo na Descriptives i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji ‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’ odaberemo ‘Distribution plots’ za prikaz histograma.



Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’. Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.

Na posljednjem dijagramu rasipanja može se uočiti deterministički nelinearni odnos između GNIpc i logaritamske transformacije te varijable.



Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.



Primjer korelacijske i regresijske analize na skupu podataka World Happiness.

Započinjemo učitavanjem podataka. Sljedeći je korak deskriptivna analiza putem koje dobivamo prve uvide u varijable i njihove distribucije. Kliknemo na Descriptives i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji ‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’ odaberemo ‘Distribution plots’ za prikaz histograma.



Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’. Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.



Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.



Provedba postupka koristeći R

Započinjemo s prikazom analize odnosa tjelesne aktivnosti i BMI. Prvi korak je učitavanje podataka.

> bmi <- read.csv("https://raw.githubusercontent.com/jasp-stats/jasp-data-library/refs/heads/main/Physical%20Activity%20and%20BMI/Physical%20Activity%20and%20BMI.csv")
> 
> head(bmi,10)
##    SUBJECT     PA  BMI
## 1        1 10.992 15.0
## 2        2  6.753 21.0
## 3        3 12.423 28.1
## 4        4  6.249 27.3
## 5        5 11.595 21.1
## 6        6 14.209 20.6
## 7        7  7.516 27.9
## 8        8  6.666 18.3
## 9        9  8.379 24.3
## 10      10  9.597 21.1

U sljedećem koraku želimo utvrditi pokazatelje deskriptivne statistike za promatrane varijable.

> library(psych)
> describe(bmi)
##         vars   n  mean    sd median trimmed   mad   min    max range  skew
## SUBJECT    1 100 50.50 29.01  50.50   50.50 37.06  1.00 100.00 99.00  0.00
## PA         2 100  8.61  2.32   8.41    8.58  2.43  3.19  14.21 11.02  0.11
## BMI        3 100 23.94  3.94  24.45   23.97  4.00 14.20  35.10 20.90 -0.02
##         kurtosis   se
## SUBJECT    -1.24 2.90
## PA         -0.55 0.23
## BMI        -0.05 0.39

Nakon toga, pristupamo kreiranju dijagrama rasipanja (raspršenosti) kako bismo dobili prve uvide u oblik, jačinu i smjer veze. Sljedeći kod generira dijagram raspršenosti između dviju promatranih varijabli, pri čemu svaka točka predstavlja jedno opažanje. Nakon toga, funkcija lowess računa lokalno ponderiranu regresijsku liniju koja se dodaje na graf, omogućavajući vizualizaciju općeg trenda u podacima i eventualnu nelinearnost odnosa između varijabli.

lowess() (locally weighted scatterplot smoothing) je nelinearna metoda za glatko prilagođavanje podataka koja se koristi za vizualizaciju općeg trenda u skupovima podataka. Metoda radi tako što, umjesto da se primijeni jedan globalni model na sve podatke, za svaku točku na x-osi lokalno pristupa podacima u njenoj okolini te na temelju njih primjenjuje ponderiranu (vaganu) linearnu regresiju. Težine se određuju tako da bliže točke imaju veći utjecaj na izračun lokalnog modela. Rezultat je ‘glatka’ linija koja bolje odražava lokalne promjene i eventualne nelinearnosti u odnosu između varijabli, što omogućuje detaljnije uvide u strukturu podataka. U kombinaciji s dijagramom raspršenosti, lowess linija pruža vizualni pregled općeg trenda, bez potrebe za pretpostavkom da je veza između varijabli striktno linearna.

> plot(bmi$PA, bmi$BMI, type = "p")
> lines(lowess(bmi$PA, bmi$BMI), col = 2)

Potom, naredba cor() izračunava vrijednost koeficijenta korelacije.

> cor(bmi$PA, bmi$BMI, method = "pearson")
## [1] -0.3854091
> cor(bmi$PA, bmi$BMI, method = "spearman")
## [1] -0.3510899

Naredba cor.test() omogućuje izračun koeficijenta korelacije uz utvrđivanje statističke značajnosti za Pearsonov koeficijent korelacije.

> cor.test(bmi$PA, bmi$BMI)
## 
##  Pearson's product-moment correlation
## 
## data:  bmi$PA and bmi$BMI
## t = -4.1348, df = 98, p-value = 0.00007503
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.5408817 -0.2044696
## sample estimates:
##        cor 
## -0.3854091

Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se kreiranju modela, koristeći naredbu lm(), u koju je potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa koji se evaluira u obliku zavisna_varijabla ~ nezavisna_varijabla. Sljedeći nužan argument je data, tj. naziv podatkovnog skupa u kojem se nalaze unesene varijable.

Prije ispisa sažetih pokazatelja modela, provjeravaju se pretpostavke, počevši od dijagnostičkih grafova s naredbom plot(model). Osobito su korisni Shapito-Wilk (shapiro.test(model$residuals)) i Breusch-Pagan (bptest(model), iz paketa lmtest) testovi, od kojih prvi može testirati normalnost reziduala, a drugi homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s obzirom na rezultate ovih testova.

> model <- lm(bmi$BMI~bmi$PA, data=bmi)
> par(mfrow=c(2,2))
> plot(model)

> shapiro.test(model$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.98449, p-value = 0.2915
> library(lmtest)
> bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 1.8233, df = 1, p-value = 0.1769

Ako su pretpostavke modela ispoštovane, ima smisla ispisati model i protumačiti ga. To se čini pomoću naredbe summary(model).

> summary(model)
## 
## Call:
## lm(formula = bmi$BMI ~ bmi$PA, data = bmi)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.3819 -2.5636  0.2062  1.9820  8.5078 
## 
## Coefficients:
##             Estimate Std. Error t value             Pr(>|t|)    
## (Intercept)  29.5782     1.4120  20.948 < 0.0000000000000002 ***
## bmi$PA       -0.6547     0.1583  -4.135             0.000075 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.655 on 98 degrees of freedom
## Multiple R-squared:  0.1485, Adjusted R-squared:  0.1399 
## F-statistic:  17.1 on 1 and 98 DF,  p-value: 0.00007503


Sljedeći je primjer analize odnosa cijena i starosti nekretnina. Prvi korak je učitavanje podataka.

> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 10)
##     Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1  132500     0.09          0  42      50000             0           0
## 2  181115     0.92          0   0      22300             0           0
## 3  109000     0.19          0 133       7300             0           0
## 4  155000     0.41          0  13      18700             0           0
## 5   86060     0.11          0   0      15000             1           1
## 6  120000     0.68          0  31      14000             0           0
## 7  153000     0.40          0  33      23300             0           0
## 8  170000     1.21          0  23      14600             0           0
## 9   90000     0.83          0  36      22200             0           0
## 10 122900     1.94          0   4      21200             0           0
##    Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1          3         4          2         906          35        2          1
## 2          2         3          2        1953          51        3          0
## 3          2         3          3        1944          51        4          1
## 4          2         2          2        1944          51        3          1
## 5          2         2          3         840          51        2          0
## 6          2         2          2        1152          22        4          1
## 7          4         3          2        2752          51        4          1
## 8          4         2          2        1662          35        4          1
## 9          3         4          2        1632          51        3          0
## 10         2         2          1        1416          44        3          0
##    Bathrooms Rooms
## 1        1.0     5
## 2        2.5     6
## 3        1.0     8
## 4        1.5     5
## 5        1.0     3
## 6        1.0     8
## 7        1.5     8
## 8        1.5     9
## 9        1.5     8
## 10       1.5     6

U sljedećem koraku želimo utvrditi pokazatelje deskriptivne statistike za promatrane varijable.

> library(psych)
> describe(nekretnine[, c(1,4)])
##       vars    n      mean       sd median   trimmed      mad  min    max  range
## Price    1 1728 211966.71 98441.39 189900 200230.92 78726.06 5000 775000 770000
## Age      2 1728     27.92    29.21     19     22.18    14.83    0    225    225
##       skew kurtosis      se
## Price 1.57     4.17 2368.13
## Age   2.49     7.38    0.70

Nakon toga, pristupamo kreiranju dijagrama rasipanja kako bismo dobili prve uvide u oblik, jačinu i smjer veze. Sljedeći kod generira dijagram raspršenosti između dviju promatranih varijabli, pri čemu svaka točka predstavlja jedno opažanje. Nakon toga, funkcija lowess računa lokalno ponderiranu regresijsku liniju koja se dodaje na graf, omogućavajući vizualizaciju općeg trenda u podacima i eventualnu nelinearnost odnosa između varijabli.

> plot(nekretnine$Age, nekretnine$Price, type = "p")
> lines(lowess(nekretnine$Age, nekretnine$Price), col = 2)

Potom, naredba cor() izračunava vrijednost koeficijenta korelacije.

> cor(nekretnine$Age, nekretnine$Price, method = "pearson")
## [1] -0.1887926
> cor(nekretnine$Age, nekretnine$Price, method = "spearman")
## [1] -0.3176256

Naredba cor.test() omogućuje izračun koeficijenta korelacije uz utvrđivanje statističke značajnosti za Pearsonov koeficijent korelacije.

> cor.test(nekretnine$Age, nekretnine$Price)
## 
##  Pearson's product-moment correlation
## 
## data:  nekretnine$Age and nekretnine$Price
## t = -7.987, df = 1726, p-value = 0.000000000000002502
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2338660 -0.1429095
## sample estimates:
##        cor 
## -0.1887926

Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se kreiranju modela, koristeći naredbu lm(), u koju je potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa koji se evaluira u obliku zavisna_varijabla ~ nezavisna_varijabla. Sljedeći nužan argument je data, tj. naziv podatkovnog skupa u kojem se nalaze unesene varijable.

Prije ispisa sažetih pokazatelja modela, provjeravaju se pretpostavke, počevši od dijagnostičkih grafova s naredbom plot(model). Osobito su korisni Shapito-Wilk (shapiro.test(model$residuals)) i Breusch-Pagan (bptest(model), iz paketa lmtest) testovi, od kojih prvi može testirati normalnost reziduala, a drugi homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s obzirom na rezultate ovih testova.

> model <- lm(nekretnine$Price~nekretnine$Age, data=nekretnine)
> par(mfrow=c(2,2))
> plot(model)

> shapiro.test(model$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.88909, p-value < 0.00000000000000022
> library(lmtest)
> bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.00058229, df = 1, p-value = 0.9807

Ako su pretpostavke modela ispoštovane, ima smisla ispisati model i protumačiti ga. To se čini pomoću naredbe summary(model).

> summary(model)
## 
## Call:
## lm(formula = nekretnine$Price ~ nekretnine$Age, data = nekretnine)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -222183  -66299  -22232   43147  564995 
## 
## Coefficients:
##                 Estimate Std. Error t value             Pr(>|t|)    
## (Intercept)    229728.46    3218.18  71.385 < 0.0000000000000002 ***
## nekretnine$Age   -636.26      79.66  -7.987   0.0000000000000025 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 96700 on 1726 degrees of freedom
## Multiple R-squared:  0.03564,    Adjusted R-squared:  0.03508 
## F-statistic: 63.79 on 1 and 1726 DF,  p-value: 0.000000000000002502

Započinjemo s prikazom analize odnosa varijabli u podatkovnom skupu Salaries. Prvi korak je učitavanje podataka.

vars n mean sd median trimmed mad min max range skew kurtosis se
rank* 1 397 2.501 0.767 3 2.624 0.000 1 3 2 -1.124 -0.380 0.039
discipline* 2 397 1.544 0.499 2 1.555 0.000 1 2 1 -0.176 -1.974 0.025
yrs.since.phd 3 397 22.315 12.887 21 21.834 14.826 1 56 55 0.299 -0.811 0.647
yrs.service 4 397 17.615 13.006 16 16.508 14.826 0 60 60 0.646 -0.336 0.653
sex* 5 397 1.902 0.298 2 2.000 0.000 1 2 1 -2.690 5.247 0.015
salary 6 397 113706.458 30289.039 107300 111401.605 29355.480 57800 231545 173745 0.709 0.181 1520.163

U sljedećem koraku želimo utvrditi pokazatelje deskriptivne statistike za promatrane varijable.

##    yrs.since.phd yrs.service salary
## 1             19          18 139750
## 2             20          16 173200
## 3              4           3  79750
## 4             45          39 115000
## 5             40          41 141500
## 6              6           6  97000
## 7             30          23 175000
## 8             45          45 147765
## 9             21          20 119250
## 10            18          18 129000

Nakon toga, pristupamo kreiranju dijagrama rasipanja kako bismo dobili prve uvide u oblik, jačinu i smjer veze. Sljedeći kod generira dijagram raspršenosti između dviju promatranih varijabli, pri čemu svaka točka predstavlja jedno opažanje. Nakon toga, funkcija lowess računa lokalno ponderiranu regresijsku liniju koja se dodaje na graf, omogućavajući vizualizaciju općeg trenda u podacima i eventualnu nelinearnost odnosa između varijabli.

Potom, naredba cor() izračunava vrijednost koeficijenta korelacije.

##               yrs.since.phd yrs.service    salary
## yrs.since.phd     1.0000000   0.9096491 0.4192311
## yrs.service       0.9096491   1.0000000 0.3347447
## salary            0.4192311   0.3347447 1.0000000

Naredba cor.test() omogućuje izračun koeficijenta korelacije uz utvrđivanje statističke značajnosti za Pearsonov koeficijent korelacije.

## 
##  Pearson's product-moment correlation
## 
## data:  place_reg$yrs.since.phd and place_reg$salary
## t = 9.1775, df = 395, p-value < 0.00000000000000022
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3346160 0.4971402
## sample estimates:
##       cor 
## 0.4192311

Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se kreiranju modela, koristeći naredbu lm(), u koju je potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa koji se evaluira u obliku zavisna_varijabla ~ nezavisna_varijabla. Sljedeći nužan argument je data, tj. naziv podatkovnog skupa u kojem se nalaze unesene varijable.

Prije ispisa sažetih pokazatelja modela, provjeravaju se pretpostavke, počevši od dijagnostičkih grafova s naredbom plot(model).

Osobito su korisni Shapito-Wilk (shapiro.test(model$residuals)) i Breusch-Pagan (bptest(model), iz paketa lmtest) testovi, od kojih prvi može testirati normalnost reziduala, a drugi homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s obzirom na rezultate ovih testova.

## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.98122, p-value = 0.00004978
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 50.787, df = 1, p-value = 0.00000000000103

Započinjemo s prikazom analize odnosa prosječnih godina školovanja i bruto nacionalnog dohotka per capita. Prvi korak je učitavanje podataka. Prije učitavanja tablice preuzete s linka (mogućnost preuzimanja tablice nudi se ispod grafičkog prikaza na mrežnoj stranici), obrisani su reci i stupci viška, na način da je inicijalni tablični prikaz prilagođen uobičajenom strukturiranom prikazu podatkovnog okvira.

(Podsjetnik: Uobičajena struktura podatkovnog okvira (data frame) predstavlja dvodimenzionalnu tablicu u kojoj svaki redak odgovara jednom opažanju (u ovom slučaju, državi), a svaki stupac jednoj varijabli. Svi stupci imaju istu duljinu, ali mogu sadržavati različite tipove podataka (npr. numeričke, tekstualne, logičke ili faktorske vrijednosti). Podaci su organizirani tako da im se lako može pristupiti putem naziva stupaca, a redovi ponekad imaju i vlastite oznake. Ova struktura omogućava fleksibilnu manipulaciju, analizu i vizualizaciju podataka, te je stoga jedan od najčešće korištenih objekata u R-u.)

##   ...1                   ...2 Human Development Index (HDI)
## 1    1            Switzerland                         0.967
## 2    2                 Norway                         0.966
## 3    3                Iceland                         0.959
## 4    4 Hong Kong, China (SAR)                         0.956
## 5    5                Denmark                         0.952
## 6    5                 Sweden                         0.952
##   Life expectancy at birth Expected years of schooling Mean years of schooling
## 1                   84.255                    16.58373                13.90407
## 2                   83.393                    18.63846                13.06234
## 3                   82.815                    19.10673                13.76717
## 4                   84.315                    17.84959                12.34777
## 5                   81.882                    18.77403                12.96049
## 6                   83.505                    19.03677                12.67372
##   Gross national income (GNI) per capita GNI per capita rank minus HDI rank
## 1                               69432.79                                  6
## 2                               69189.76                                  6
## 3                               54688.38                                 16
## 4                               62485.51                                  6
## 5                               62018.96                                  6
## 6                               56995.85                                 10
##   HDI rank
## 1        1
## 2        2
## 3        4
## 4        3
## 5        8
## 6        5

Pristupamo kreiranju dijagrama rasipanja kako bismo dobili prve uvide u oblik, jačinu i smjer veze. pairs() generira dijagrame raspršenosti između parova promatranih varijabli (može biti više od dvije), pri čemu svaka točka u pojedinom grafu predstavlja jedno opažanje. Potom, naredba cor() izračunava vrijednost koeficijenta korelacije.

##             MYS     GNIpc
## MYS   1.0000000 0.6480262
## GNIpc 0.6480262 1.0000000

S obzirom na uočen nelinearni odnos, pristupa se transformaciji podataka. U ovom slučaju, primijenjen je prirodni logaritam na varijablu GNI per capita, čime se stvara nova varijabla ln_GNI. Dodavanjem ove varijable u podatkovni okvir(cbind()) omogućujemo daljnju analizu, jer logaritamska transformacija često pomaže pri postizanju linearnog odnosa, što olakšava primjenu linearnih modela. Nakon transformacije, koriste se dijagrami raspršenosti (funkcija pairs()) za vizualnu provjeru odnosa među varijablama te se računa koeficijent korelacije (funkcija cor()) kako bi se kvantificirala povezanost među njima. Ovo pomaže u ocjeni da li transformacija zadovoljava pretpostavke linearne regresije i daje bolje uvide u podatke.

##              MYS     GNIpc    ln_GNI
## MYS    1.0000000 0.6480262 0.8291025
## GNIpc  0.6480262 1.0000000 0.8479092
## ln_GNI 0.8291025 0.8479092 1.0000000

Naredba cor.test() omogućuje izračun koeficijenta korelacije uz utvrđivanje statističke značajnosti za Pearsonov koeficijent korelacije.

> cor.test(data$MYS, data$ln_GNI)
## 
##  Pearson's product-moment correlation
## 
## data:  data$MYS and data$ln_GNI
## t = 20.495, df = 191, p-value < 0.00000000000000022
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7790966 0.8686245
## sample estimates:
##       cor 
## 0.8291025

Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se kreiranju modela, koristeći naredbu lm(), u koju je potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa koji se evaluira u obliku zavisna_varijabla ~ nezavisna_varijabla. Sljedeći nužan argument je data, tj. naziv podatkovnog skupa u kojem se nalaze unesene varijable.

Prije ispisa sažetih pokazatelja modela, provjeravaju se pretpostavke, počevši od dijagnostičkih grafova s naredbom plot(model). Osobito su korisni Shapito-Wilk (shapiro.test(model$residuals)) i Breusch-Pagan (bptest(model), iz paketa lmtest) testovi, od kojih prvi može testirati normalnost reziduala, a drugi homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s obzirom na rezultate ovih testova.

## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.98565, p-value = 0.04672
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.0049247, df = 1, p-value = 0.9441

Sljedeći kod uklanja izdvojenice iz podatkovnog okvira. Prvo, naredba data[c(49,102,117,180,192),1] prikazuje podatke iz prve kolone za redove s indeksom 49, 102, 117, 180 i 192 – to su izdvojenice koje želimo ukloniti. Zatim, naredba data1 <- data[-c(49,102,117,180,192),] kreira novi podatkovni okvir data1 tako što iz originalnog okvira data izostavlja navedene redove. Na taj način, data1 sadrži sve opažanja osim onih identificiranih kao izdvojenice.

## [1] "Kuwait"                             "Marshall Islands"                  
## [3] "Kyrgyzstan"                         "Congo (Democratic Republic of the)"
## [5] "South Sudan"

Ponavljamo kreiranje modela i provjeru pretpostavki.

## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.99414, p-value = 0.667
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 0.034387, df = 1, p-value = 0.8529

Tek kad su pretpostavke modela ispoštovane, ima smisla ispisati model i protumačiti ga. To se čini pomoću naredbe summary(model).

## 
## Call:
## lm(formula = data1$ln_GNI ~ data1$MYS, data = data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.6657 -0.3677  0.0189  0.4248  1.7506 
## 
## Coefficients:
##             Estimate Std. Error t value            Pr(>|t|)    
## (Intercept)  6.53987    0.13354   48.97 <0.0000000000000002 ***
## data1$MYS    0.31397    0.01395   22.51 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6167 on 186 degrees of freedom
## Multiple R-squared:  0.7316, Adjusted R-squared:  0.7301 
## F-statistic: 506.9 on 1 and 186 DF,  p-value: < 0.00000000000000022

Dodatni grafički prikaz modela (tj. regresijskog pravca, obojano plavo). Kod kreira scatter plot u kojem se na X-osi nalaze prosječne godine školovanja (MYS) iz podatkovnog okvira data1, dok se na Y-osi prikazuje logaritmirani bruto nacionalni dohodak (ln(GNIpc)). Argumenti xlab i ylab postavljaju nazive osi, dok xlim i ylim definiraju raspon vrijednosti koje će biti prikazane (od 0 do 15). Funkcija pch = 19 osigurava iscrtavanje punih krugova za točke, a frame = FALSE uklanja okvir oko grafa. Opcija panel.first omogućava dodavanje linije preko scatter plota; u ovom slučaju, linija koja se iscrtava predstavlja model (dobiven kroz model$fitted.values) i pokazuje trend u podacima, s debljinom linije postavljenom na 2 (lwd = 2) i plavom bojom (col = "blue"). Argument cex = 0.9 malo smanjuje veličinu točaka.

U sljedećem kodu najprije se izračunavaju predviđene vrijednosti GNIpc-a na temelju eksponencijalne transformacije modela. Za vrijednosti MYS od 0 do 15, svaka vrijednost se računa kao umnožak konstante 692.1966 i eksponencijalne funkcije \(e^{0.31397 \times \text{MYS}}\). Izračunati rezultati (varijable a do p) se spajaju u vektor pGNI pomoću funkcije rbind(). Zatim se koristi options(scipen = 999) kako bi se spriječilo automatsko prebacivanje rezultata u znanstvenu notaciju. Vektor x definira vrijednosti od 0 do 15, a funkcija cbind() spaja taj vektor s matricom pGNI u novu matricu sa stupcima “x” i “y”. Konačno, naredba plot() iscrtava scatter plot originalnih podataka (MYS nasuprot GNIpc-u), a preko njega se dodaje plava linija (debljine 3) koja predstavlja eksponencijalni trend izračunat temeljem modela.

Započinjemo s prikazom analize odnosa varijabli iz podatkovnog okvira World Happiness. Prvi korak je učitavanje podataka.

> Happiness <- read.csv("https://raw.githubusercontent.com/jasp-stats/jasp-data-library/refs/heads/main/World%20Happiness/World%20Happiness.csv")
> 
> head(Happiness,10)
##        Country Happiness.Rank Happiness.Score Whisker.high Whisker.low
## 1       Norway              1           7.537     7.594445    7.479556
## 2      Denmark              2           7.522     7.581728    7.462272
## 3      Iceland              3           7.504     7.622030    7.385970
## 4  Switzerland              4           7.494     7.561772    7.426227
## 5      Finland              5           7.469     7.527542    7.410458
## 6  Netherlands              6           7.377     7.427426    7.326574
## 7       Canada              7           7.316     7.384403    7.247597
## 8  New Zealand              8           7.314     7.379510    7.248490
## 9       Sweden              9           7.284     7.344095    7.223905
## 10   Australia             10           7.284     7.356651    7.211349
##    GDP.per.Capita   Family Life.Expectancy   Freedom Generosity
## 1        1.616463 1.533524       0.7966665 0.6354226  0.3620122
## 2        1.482383 1.551122       0.7925655 0.6260067  0.3552805
## 3        1.480633 1.610574       0.8335521 0.6271626  0.4755402
## 4        1.564980 1.516912       0.8581313 0.6200706  0.2905493
## 5        1.443572 1.540247       0.8091577 0.6179509  0.2454828
## 6        1.503945 1.428939       0.8106961 0.5853845  0.4704898
## 7        1.479204 1.481349       0.8345577 0.6111009  0.4355397
## 8        1.405706 1.548195       0.8167597 0.6140621  0.5000051
## 9        1.494387 1.478162       0.8308752 0.6129241  0.3853993
## 10       1.484415 1.510042       0.8438868 0.6016074  0.4776992
##    Government.Corruption
## 1              0.3159638
## 2              0.4007701
## 3              0.1535266
## 4              0.3670073
## 5              0.3826115
## 6              0.2826618
## 7              0.2873715
## 8              0.3828167
## 9              0.3843987
## 10             0.3011837

U sljedećem koraku želimo utvrditi pokazatelje deskriptivne statistike za promatrane varijable.

> library(psych)
> describe(Happiness)
##                       vars   n  mean    sd median trimmed   mad  min    max
## Country*                 1 155 78.00 44.89  78.00   78.00 57.82 1.00 155.00
## Happiness.Rank           2 155 78.00 44.89  78.00   78.00 57.82 1.00 155.00
## Happiness.Score          3 155  5.35  1.13   5.28    5.35  1.21 2.69   7.54
## Whisker.high             4 155  5.45  1.12   5.37    5.45  1.21 2.86   7.62
## Whisker.low              5 155  5.26  1.15   5.19    5.25  1.22 2.52   7.48
## GDP.per.Capita           6 155  0.98  0.42   1.06    1.00  0.43 0.00   1.87
## Family                   7 155  1.19  0.29   1.25    1.22  0.26 0.00   1.61
## Life.Expectancy          8 155  0.55  0.24   0.61    0.57  0.25 0.00   0.95
## Freedom                  9 155  0.41  0.15   0.44    0.42  0.17 0.00   0.66
## Generosity              10 155  0.25  0.13   0.23    0.24  0.12 0.00   0.84
## Government.Corruption   11 155  0.12  0.10   0.09    0.11  0.06 0.00   0.46
##                        range  skew kurtosis   se
## Country*              154.00  0.00    -1.22 3.61
## Happiness.Rank        154.00  0.00    -1.22 3.61
## Happiness.Score         4.84  0.01    -0.79 0.09
## Whisker.high            4.76  0.01    -0.82 0.09
## Whisker.low             4.96  0.01    -0.77 0.09
## GDP.per.Capita          1.87 -0.38    -0.72 0.03
## Family                  1.61 -1.16     1.39 0.02
## Life.Expectancy         0.95 -0.57    -0.64 0.02
## Freedom                 0.66 -0.60    -0.28 0.01
## Generosity              0.84  0.88     1.59 0.01
## Government.Corruption   0.46  1.45     1.51 0.01

Pristupamo kreiranju dijagrama rasipanja za kvantitativne varijable kako bismo dobili prve uvide u oblik, jačinu i smjer veze. pairs() generira dijagrame raspršenosti između parova promatranih varijabli (može biti više od dvije), pri čemu svaka točka u pojedinom grafu predstavlja jedno opažanje.

> pairs(Happiness[,c(3,6:11)])

Nakon toga, pristupamo kreiranju dijagrama rasipanja samo za kombinacije varijabli za koje je temeljem prethodnog grafa vizualno uočen linearan odnos, kako bi dobili detaljnije uvide u oblik, jačinu i smjer veze. Sljedeći kod generira dijagram raspršenosti između dviju promatranih varijabli, pri čemu svaka točka predstavlja jedno opažanje. Nakon toga, funkcija lowess računa lokalno ponderiranu regresijsku liniju koja se dodaje na graf, omogućavajući vizualizaciju općeg trenda u podacima i eventualnu nelinearnost odnosa između varijabli.

> plot(Happiness$GDP.per.Capita, Happiness$Happiness.Score, type = "p")
> lines(lowess(Happiness$GDP.per.Capita, Happiness$Happiness.Score), col = 2)

> plot(Happiness$Family, Happiness$Happiness.Score, type = "p")
> lines(lowess(Happiness$Family, Happiness$Happiness.Score), col = 2)

> plot(Happiness$Life.Expectancy, Happiness$Happiness.Score, type = "p")
> lines(lowess(Happiness$Life.Expectancy, Happiness$Happiness.Score), col = 2)

Potom, naredba cor() izračunava vrijednost koeficijenta korelacije.

> cor(Happiness$GDP.per.Capita, Happiness$Happiness.Score, method = "pearson")
## [1] 0.8124688
> cor(Happiness$Family, Happiness$Happiness.Score, method = "pearson")
## [1] 0.7527367
> cor(Happiness$Life.Expectancy, Happiness$Happiness.Score, method = "pearson")
## [1] 0.7819506

Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se kreiranju modela, koristeći naredbu lm(), u koju je potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa koji se evaluira u obliku zavisna_varijabla ~ nezavisna_varijabla. Sljedeći nužan argument je data, tj. naziv podatkovnog skupa u kojem se nalaze unesene varijable.

Prije ispisa sažetih pokazatelja modela, provjeravaju se pretpostavke, počevši od dijagnostičkih grafova s naredbom plot(model). Osobito su korisni Shapito-Wilk (shapiro.test(model$residuals)) i Breusch-Pagan (bptest(model), iz paketa lmtest) testovi, od kojih prvi može testirati normalnost reziduala, a drugi homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s obzirom na rezultate ovih testova.

> model <- lm(Happiness$Happiness.Score~Happiness$GDP.per.Capita+Happiness$Family+Happiness$Life.Expectancy, data=Happiness)
> par(mfrow=c(2,2))
> plot(model)

> shapiro.test(model$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.98992, p-value = 0.3355
> library(lmtest)
> bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 1.1601, df = 3, p-value = 0.7626

Ako su pretpostavke modela ispoštovane, ima smisla ispisati model i protumačiti ga. To se čini pomoću naredbe summary(model).

> summary(model)
## 
## Call:
## lm(formula = Happiness$Happiness.Score ~ Happiness$GDP.per.Capita + 
##     Happiness$Family + Happiness$Life.Expectancy, data = Happiness)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.49825 -0.35335 -0.04934  0.38729  1.89215 
## 
## Coefficients:
##                           Estimate Std. Error t value             Pr(>|t|)    
## (Intercept)                 2.0844     0.1967  10.598 < 0.0000000000000002 ***
## Happiness$GDP.per.Capita    0.8641     0.2195   3.936             0.000126 ***
## Happiness$Family            1.3775     0.2187   6.299        0.00000000311 ***
## Happiness$Life.Expectancy   1.4165     0.3574   3.963             0.000114 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5636 on 151 degrees of freedom
## Multiple R-squared:  0.7566, Adjusted R-squared:  0.7517 
## F-statistic: 156.4 on 3 and 151 DF,  p-value: < 0.00000000000000022


Provedba postupka koristeći MS Excel

Po uzoru na primjere u prošlim štivima, podatkovni skupovi iz JASPove knjižnice moguće je preuzeti putem linka u CSV formatu i onda prilagoditi podatkovni okvir za daljnje korištenje. U ovom štivu, to su Physical activity and BMI te World Happiness. Također, putem linka se mogu preuzeti podaci ‘Human Development Index (HDI)’. Skup podataka ‘Nekretnine’ smo već ranije koristili, tako da to već imate spremljeno na računalu.


Po otvaranju podatkovnog skupa Physical activity and BMI vidimo da prikaz nije prilagođen MS Excelu te moramo izvršiti prilagodbu.



Za to ćemo koristiti tablice. S obzirom na postupak kojim se koristeći tablice vrši razdvajanje stupaca, prvo provjerite jesu li brojevi napisani u formatu sukladnom postavkama MS Excela. Na primjer, kod mene je podešen decimalni zarez (umjesto decimalne točke), pa bi razdvajanje stupaca rezultiralo neželjenim vrijednostima. Na sljedećoj slici je prikazana zamjena: svi graničnici su postavljeni na ;, a sve decimalne točke na ,.



U sljedećem koraku odabiru se podaci, a potom se iz trake izbornika odabiru Podaci (ili Data) te Iz tablice/raspona (ili From table/Range).



Potom se otvara preglednik tablica, u kojem je potrebno odabrati Podijeli stupac i inačicu pomoću graničnika. U novootvorenom prozoru treba zadati odgovarajući graničnik (možda imate zarez, možda je točka zarez), označiti svako pojavljivanje, a pod znak navodnika odabrati “Ništa”.



Razdijeljeni stupci izgledat će otprilike ovako:



Kliknite na Zatvori i učitaj (ili Close and Load), nakon čega će se u izvornom dokumentu pojaviti novi list s prikazom nalik sljedećoj slici.



S obzirom da tablice mogu ometati provedbu formula/funkcija na neočekivane načine, podatke kopiramo i lijepimo tako da zadržavamo samo vrijednosti na drugi list.



Potom nastavljamo s uobičajenim postupkom i uvidom u deskriptivnu statistiku. U traci izbornika odabiremo Podaci (ili Data), potom Analiza podataka (ili Data analysis) te ispunimo polja u novootvorenom prozoru.



Pokazatelji deskriptivne statistike bit će prikazani na novom listu (ako ste tako odabrali).



Sljedeći korak je grafički prikaz uz pomoć dijagrama raspršenosti. Označimo podatke (redoslijed varijabli treba biti takav da je u prvom stupcu nezavisna varijabla koja će biti prikazana na apscisi, a u drugom stupcu zavisna varijabla koja će biti prikazana na ordinati). Klinemo na “Umetni” (ili Insert) te odaberemo preporučene grafikone, među kojima vizualno prepoznajemo dijagram raspršenosti.



Po odabiru tog tipa grafiona, bit će potrebno još dodati nazive osi te liniju trenda, što je moguće napraviti klikom na plus u gornjem desnom uglu i odabirom navedenih opcija.



Za izračun koeficijenta korelacije, može se koristiti ugrađena funkcija =CORREL().



Sljedeći je korak kreiranje modela jednostavne linearne regresije. Iz trake izbornika odabiru se Podaci (ili Data), a potom Analiza podataka (ili Data analysis). U prozoru koji se potom otvori, treba odabrati Regression.



U dijaloški prozor za definiranje elemenata regresijskog modela, treba redom unijeti elemente (kao što je prikazano slikom), a potom kliknuti OK.



Rezultati, nalik onima na sljedećoj slici, prikazat će se na novom listu.



Prelazimo na podatkovni okvir Nekretnine.



Radi preglednosti, možemo varijable kojima ćemo se baviti kopirati i zalijepiti na novi list. Tad započinjemo s prvim uvidima pomoću pokazatelja deskriptivne statistike.




Sljedeći je korak kreiranje dijagrama raspršenosti. Potrebno je odabrati podatke, kliknuti na “Umetanje” (ili Insert), odabrati preporučene grafikone i prepoznati te odabrati dijagram raspršenosti.



Kao i u prethodnom primjeru, grafikon prilagođavamo dodavanjem naziva osi te crtom trenda (koja nam olakšava procjenu linearnosti).


Koeficijent korelacije može se izračunati koristeći ugrađenu funkciju =CORREL().



U slučaju da su provjere neovisnosti i linearnosti potvrdile te pretpostavke, sljedeći je korak kreiranje modela jednostavne linearne regresije.Iz trake izbornika odabiru se Podaci (ili Data), a potom Analiza podataka (ili Data analysis). U prozoru koji se potom otvori, treba odabrati Regression. U dijaloški prozor za definiranje elemenata regresijskog modela, treba redom unijeti elemente (kao što je prikazano slikom), a potom kliknuti OK.



Nakon širenja stupaca i promjene rasporeda slika, rezultati će izgledati otprilike ovako:



Prelazimo na podatkovni skup o plaćama (Salaries, izvorno iz R-ovog paketa carData).



Započinjemo uvidima temeljem pokazatelja deskriptivne statistike (postupak je opisan ranije i u prethodnim štivima).





Slijedi kreiranje dijagrama rasipanja. S obzirom da ovdje imamo dvije potencijalne nezavisne varijable, ispitujemo jednu po jednu. Označavamo prvi stupac, zadržimo prst na Ctrl (Control) i onda odaberemo stupac zavisne varijable. Nakon što su podaci odabrani, kliknemo na Umetanje, pa iz prigodnih grafikona odabiremo dijagram rasipanja. Postupak ponavljamo i za drugu potencijalnu nezavisnu varijablu u kombinaciji sa zavisnom varijablom.





U slučaju da su provjere neovisnosti i linearnosti potvrdile te pretpostavke, sljedeći je korak kreiranje modela jednostavne linearne regresije.Iz trake izbornika odabiru se Podaci (ili Data), a potom Analiza podataka (ili Data analysis). U prozoru koji se potom otvori, treba odabrati Regression. U dijaloški prozor za definiranje elemenata regresijskog modela, treba redom unijeti elemente (kao što je prikazano slikom), a potom kliknuti OK.



Nakon širenja stupaca i promjene rasporeda slika, rezultati će izgledati otprilike ovako:



Prelazimo na podatkovni skup Human Development Indicator (HDI). Ovdje je nakon preuzimanja tablice prvo potrebno ukloniti višak redaka i stupaca, da bi se kreirala klasična struktura podatkovnog okvira.



Nakon uređivanja, podaci bi trebali izgledati optilike ovako.



Započinjemo uvidima temeljem pokazatelja deskriptivne statistike (postupak je opisan ranije i u prethodnim štivima).





Sljedeći je korak izdvajanje varijabli koje ćemo dalje analizirati. Ovdje je odmah prikazana i log transformacija zavisne varijable. Slijedi kreiranje dijagrama rasipanja za obje kombinacije.





U slučaju da su provjere neovisnosti i linearnosti potvrdile te pretpostavke, sljedeći je korak kreiranje modela jednostavne linearne regresije.Iz trake izbornika odabiru se Podaci (ili Data), a potom Analiza podataka (ili Data analysis). U prozoru koji se potom otvori, treba odabrati Regression. U dijaloški prozor za definiranje elemenata regresijskog modela, treba redom unijeti elemente (kao što je prikazano slikom), a potom kliknuti OK.



Nakon širenja stupaca i promjene rasporeda slika, rezultati će izgledati otprilike ovako:



Posljednji je podatkovni skup World Happiness, dostupan u CSV formatu. Stoga započinjemo s pripremom podataka, kako bismo dobili strukturu tupičnu za podatkovni okvir. Pritom slijedimo ranije opisani postupak.









Izdvajamo kavntitativne varijable koje ćemo dalje analizirati i kreiramo dijagrame raspršenosti za svaku kombinaciju nezavisne varijable sa zavisnom varijablom.





U slučaju da su provjere neovisnosti i linearnosti potvrdile te pretpostavke, sljedeći je korak kreiranje modela jednostavne linearne regresije.Iz trake izbornika odabiru se Podaci (ili Data), a potom Analiza podataka (ili Data analysis). U prozoru koji se potom otvori, treba odabrati Regression. U dijaloški prozor za definiranje elemenata regresijskog modela, treba redom unijeti elemente (kao što je prikazano slikom), a potom kliknuti OK.



Nakon širenja stupaca i promjene rasporeda slika, rezultati će izgledati otprilike ovako:



Provjera odgovora

  1. b; 2. c; 3. c; 4. d; 5. b; 6. b; 7. b; 8. b; 9. c; 10. b; 11. c; 12. a; 13. b; 14. b; 15. b; 16. a; 17. b; 18. a; 19. b; 20. b; 21. a; 22. b; 23. a; 24. b; 25. b; 26. d; 27. c; 28. b; 29. b; 30. b;


Literatura

Abend, G. (2008). The meaning of ‘theory’. Sociological theory, 26(2), 173-199.

Aiken, L. H., Clarke, S. P., Cheung, R. B., Sloane, D. M., & Silber, J. H. (2003). Educational levels of hospital nurses and surgical patient mortality. Jama, 290(12), 1617-1623.

Aiken, L. H., Clarke, S. P., Sloane, D. M., Sochalski, J., & Silber, J. H. (2002). Hospital nurse staffing and patient mortality, nurse burnout, and job dissatisfaction. Jama, 288(16), 1987-1993.

Anderson, E. W., Fornell, C., & Lehmann, D. R. (1994). Customer satisfaction, market share, and profitability: Findings from Sweden. Journal of marketing, 58(3), 53-66.

Appleton, D. R., French, J. M., & Vanderpump, M. P. (1996). Ignoring a covariate: An example of Simpson’s paradox. The American Statistician, 50(4), 340-341.

Arasa, R., & Obonyo, P. K. (2012). The relationship between strategic planning and firm performance.

Arthur Jr, W., Bennett Jr, W., Edens, P. S., & Bell, S. T. (2003). Effectiveness of training in organizations: a meta-analysis of design and evaluation features. Journal of Applied psychology, 88(2), 234-245.

Ashley, C., & Tuten, T. (2015). Creative strategies in social media marketing: An exploratory study of branded social content and consumer engagement. Psychology & marketing, 32(1), 15-27.

Bickel, P. J., Hammel, E. A., & O’Connell, J. W. (1975). Sex Bias in Graduate Admissions: Data from Berkeley: Measuring bias is harder than is usually assumed, and the evidence is sometimes contrary to expectation. Science, 187(4175), 398-404.

Chowdhury, Muktasha Deena. “Impact of School Dropout on Human Development in Bangladesh.” ABC Research Alert 7, no. 3 (2019): 159-167.

Davis, F. D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS quarterly, 319-340.

De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Dobrolyubova, Еlena. “In Refernce To The Correlation Between Governance Quality And Human Development.” Public administration issues 4 (2020): 31-58.

Eisenberger, R., Huntington, R., Hutchison, S., & Sowa, D. (1986). Perceived organizational support. Journal of Applied psychology, 71(3), 500.

Elster, J. (1989). Nuts and bolts for the social sciences. Cambridge University Press.

Elster, J. (2000). Uvod u društvene znanosti: Matice i vijci za objašnjenje složenih društvenih pojava. Naklada Jesenski i Turk, Hrvatsko sociološko društvo, Zagreb.

Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.

Fox, J., & Weisberg, S. (2018). An R companion to applied regression. Sage publications.

Fox, J., Weisberg, S., Price, B., & Fox, M. J. (2018). Package ‘carData’.

Gendron, J. (2016). Introduction to R for Business Intelligence. Packt Publishing Ltd.

Harter, J. K., Schmidt, F. L., & Hayes, T. L. (2002). Business-unit-level relationship between employee satisfaction, employee engagement, and business outcomes: a meta-analysis. Journal of applied psychology, 87(2), 268.

Helliwell, J., Layard, R., & Sachs, J. (ur., 2017). World Happiness Report 2017. Mreža za rješenja održivog razvoja (Sustainable Development Solutions Network). Preuzeto s https://worldhappiness.report/ed/2017/.

Holmes, A., Illowsky, B., & Dean, S. (2017). Introductory Business Statistics 2e. OpenStax. https://openstax.org/books/introductory-business-statistics/pages/preface

Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.

Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.

Hothorn, T., Zeileis, A., Farebrother, R. W., Cummins, C., Millo, G., Mitchell, D., & Zeileis, M. A. (2015). Package ‘lmtest’. Testing linear regression models, 6.

Illowsky, B., & Dean, S. (2018). Introductory statistics. https://openstax.org/books/introductory-statistics-2e/pages/preface

Izvješće o svjetskoj sreći (World Happiness Report) godišnje objavljuje Ujedinjeni narodi (https://worldhappiness.report/).

Jan, S. (2018). Investigating the Relationship between Students Digital Literacy and Their Attitude towards Using ICT. International Journal of Educational Technology, 5(2), 26-34.

JASP Team (2024). JASP (Version 0.19.3)[Computer software].

Kane, R. L., Shamliyan, T. A., Mueller, C., Duval, S., & Wilt, T. J. (2007). The association of registered nurse staffing levels and patient outcomes: systematic review and meta-analysis. Medical care, 45(12), 1195-1204. Keller, K. L. (1993). Conceptualizing, measuring, and managing customer-based brand equity. Journal of marketing, 57(1), 1-22.

Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/ Kostelić, K., & Koso, A. N. (2023). Jednostavna linearna regresija u Ru: Prosječno trajanje školovanja i bruto nacionalni dohodak po stanovniku. Zbornik studentskih radova (Pula), 2(1), 253-287.

Kostelić, K., & Koso, A. N. (2023). Jednostavna linearna regresija u Ru: Prosječno trajanje školovanja i bruto nacionalni dohodak po stanovniku. Zbornik studentskih radova (Pula), 2(1), 253-287.

Kutney-Lee, A., Wu, E. S., Sloane, D. M., & Aiken, L. H. (2013). Changes in hospital nurse work environments and nurse job outcomes: an analysis of panel data. International journal of nursing studies, 50(2), 195-201.

Levine, T. R., Asada, K. J., & Carpenter, C. (2009). Sample sizes and effect sizes are negatively correlated in meta-analyses: Evidence and implications of a publication bias against nonsignificant findings. Communication Monographs, 76(3), 286-302

Luca, M. (2016). Reviews, reputation, and revenue: The case of Yelp. com. Com (March 15, 2016). Harvard Business School NOM Unit Working Paper, (12-016).

Mestek, M. L., Plaisance, E. i Grandjean, P. (2008)

Moore, D. S., McCabe, G. P., & Craig, B. A. (2012). Exploring the Practice of Statistics. Macmillan Higher Education.

Morgan, M. S., & Knuuttila, T. (2012). Models and modelling in economics. Philosophy of economics, 13, 49-87.

Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.

Nielsen, J. (1994). Usability engineering. Morgan Kaufmann.

Norman, D. A. (1988). The psychology of everyday things. Basic books.

Parasuraman, A., Zeithaml, V. A., & Malhotra, A. (2005). ES-QUAL: A multiple-item scale for assessing electronic service quality. Journal of service research, 7(3), 213-233.

Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf

Rosen, S. (1974). Hedonic prices and implicit markets: product differentiation in pure competition. Journal of political economy, 82(1), 34-55.

Rousseeuw, P. J., & Verboven, S. (2002). Robust estimation in very small samples. Computational Statistics & Data Analysis, 40(4), 741-758.

Samad, S. (2012). The influence of innovation and transformational leadership on organizational performance. Procedia-Social and behavioral sciences, 57, 486-493.

Schönbrodt, F. D., & Perugini, M. (2013). At what sample size do correlations stabilize?. Journal of Research in Personality, 47(5), 609-612.

Shah, Smit. “Determinants of human development index: A cross-country empirical analysis.” (2016).

Signorell, A. (2025) DescTools: Tools for Descriptive Statistics. CRAN. https://CRAN.R-project.org/package=DescTools

Soviz, Yazdan Ebrahimi, and Zahra Chavooshi. “The impact of higher education on human development.” In Proceedings of SOCIOINT 2019-6th International Conference on Education, Social Science and Humanities 24-26 June 2019.

Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.

Taşar, I., Demirel, G., & Kalayci, I. (2014). Correlation of-previous advertisement expenses-and-total sales-of firms during the big recession. Procedia Economics and Finance, 15, 1677-1688.

Tonidandel, S., & LeBreton, J. M. (2011). Relative importance analysis: A useful supplement to regression analysis. Journal of Business and Psychology, 26(1), 1-9

Tyler Vigen, Spurious Correlations

UNDP. “Human Development Index (HDI).” (2024) Available at: https://hdr.undp.org/data-center/human-development-index#/indicies/HDI.

Vahey, D. C., Aiken, L. H., Sloane, D. M., Clarke, S. P., & Vargas, D. (2004). Nurse burnout and patient satisfaction. Medical care, 42(2), II57-66. Warburton, D. E., Nicol, C. W., & Bredin, S. S. (2006). Health benefits of physical activity: the evidence. Cmaj, 174(6), 801-809.

Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.

Xu, Y., Zhang, Q., Zheng, S., & Zhu, G. (2018). House age, price and rent: Implications from land-structure decomposition. The Journal of Real Estate Finance and Economics, 56, 303-324.

Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.