U ovom tekstu, bavimo se korelacijskom i regresijskom analizom, kao uvodom u modeliranje. Pritom je naglasak stavljen na linearnu povezanost, a pojmovi su razloženi kroz primjere.
Simbolična ilustracija
U ovom štivu pozabavit ćemo se korelacijskom i regresijskom analizom. Razumijevanje odnosa između varijabli ključan je korak u istraživačkom procesu, ali bez šireg konteksta i teorijskog okvira, postoji rizik pogrešnih zaključaka. Korelacija, primjerice, ukazuje na povezanost između pojava, ali sama po sebi ne nudi odgovore na pitanje uzročnosti. Bez preciznog razmatranja uzročnih mehanizama, lako se može dogoditi da se povezanost pogrešno protumači kao uzročno-posljedična veza.
Korelacijska i regresijska analiza ujedno predstavljaju i uvod u modeliranje, jer služe za otkrivanje i kvantificiranje odnosa među varijablama. Kao takve, one zahtijevaju čvrstu teorijsku podlogu i jasno razumijevanje mehanizama povezanosti kako bi se osigurala ispravna interpretacija rezultata i daljnja primjena u složenijim modelima. Zbog toga ćemo započeti s dubljim povezivanjem modeliranja s teorijskim osnovama istraživanja, kako bismo osigurali da naši modeli budu temeljeni na jasnim pretpostavkama i razumijevanju složenih međusobnih odnosa između varijabli. Takav pristup omogućava ispravnu interpretaciju rezultata i postavlja čvrste temelje za daljnje istraživanje i naprednije modeliranje.
Modeli mogu opisivati, objašnjavati i/ili predviđati ishode ili slijed ishoda, a kreiraju se povezivanjem poznatih ili uočenih pravilnosti i zakonitosti te vezanih čimbenika. Modeli se razlikuju prema svojim svojstvima i biraju se s obzirom na obilježja odluke koju je potrebno donijeti ili problema kojeg je potrebno riješiti. Na primjer, modeli koji dobro predviđaju budućih stanja pojave neće nužno biti korisni pri objašnjavanju pojave. Dakle, modeli i metode promatraju se u kontekstu njihove svrhe – odluke koju je potrebno donijeti ili problema koji treba riješiti. Nadalje, odabir modela (i kvaliteta rješenja) često će ovisiti i o dostupnim podacima, ali i o kvaliteti tih podataka. Zato je pri kreiranju modela ili primjene metode nužno obratiti pozornost na relevantne čimbenike koji će se uzeti u obzir pri modeliranju, kao i načine njihovog mjerenja.
Treba imati na umu da modele obilježavaju idealizacija, karikatura i apstrakcija (Morgan i Knuuttila, 2012):
S druge strane, upravo te karakteristike omogućuju izdvajanje i analizu elemenata u složenim odnosima. Dakle, može se reći da svi modeli imaju svoje prednosti i nedostatke. Na koji će način prednosti biti iskorištene, uz vođenje računa o nedostacima, ovisi upravo o osobi koja se upušta u modeliranje. Očito je da ni upotrebom formalnih modela nije u potpunosti isključen ljudski faktor. Nedostacima je moguće doskočiti pravilnim odabirom modela i metoda, pravilnim odabirom čimbenika uključenih u modeliranje te pažljivom interpretacijom i zaključivanjem temeljem rezultata. Zbog toga je nužno osnovno teorijsko znanje o promatranoj pojavi i vezanim zakonitostima te razumijevanje svojstva modela i metoda. Jedan od mogućih pristupa koji se u današnjici koristi jest primjena metodološkog individualizma (Elster, 2000), pri čemu se promatrani problem ili situacija raščlanjuje na dijelove i na svaki se dio promatranog problema primjenjuje adekvatna metodologija.
Prvo, važno je steći temeljito razumijevanje razlika između korelacije i kauzacije. Također, važno je razumjeti da ne bismo smjeli proizvoljno stavljati varijable u odnos. Slično kao kod testiranja hipoteza, odabir varijabli mora biti temeljen na dobro osmišljenim teorijskim pretpostavkama i jasnim istraživačkim ciljevima kako bismo izbjegli površne ili pogrešne zaključke. Stoga je nužno ne samo istražiti odnose među varijablama, već i razumjeti dublje teorijske i empirijske aspekte koji oblikuju te odnose.
Kad kažemo teorijske osnove, misli se na skup temeljnih principa, pretpostavki i koncepata koji čine okvir za razumijevanje, istraživanje i objašnjavanje određenog fenomena. Ove osnove uključuju:
Relevantne teorije: Postojeće teorije koje su razvijene u određenom području istraživanja i koje pružaju objašnjenja o tome kako i zašto određeni fenomeni djeluju. Na primjer, u ekonomiji to može biti teorija ponude i potražnje, dok u sociologiji može biti teorija društvenog identiteta. U sestrinstvu, teorije poput teorije ljudske brige Jean Watson ili teorije samopomoći Dorothee Orem pružaju osnove za razumijevanje kako sestrinska skrb utječe na zdravlje pacijenata. Na primjer, Watsonina teorija naglašava važnost empatije, brige i holističkog pristupa, dok Oremina teorija govori o važnosti potpore pacijentima u njihovim naporima za samostalnu brigu. Nadalje, na primjer, teorija ponude i potražnje objašnjava kako se tržišne cijene formiraju kroz interakciju između proizvođača i potrošača, a teorija planiranog ponašanja (Theory of Planned Behavior, TPB) može se primijeniti za razumijevanje koje efekte očekivanja i stavovi potrošača imaju na njihovu potrošačku odluku. Teorije vođenja, poput transformacijskog vođenja, nude objašnjenja kako lideri mogu inspirirati i motivirati zaposlenike te utjecati na organizacijsku kulturu. Teorija prihvaćanja tehnologije (Technology Acceptance Model, TAM) istražuje čimbenike koji određuju hoće li korisnici prihvatiti i koristiti novu tehnologiju. Model AIDA (Attention, Interest, Desire, Action) služi za razumijevanje procesa kojim se potrošači privlače i motiviraju prema kupnji proizvoda ili usluge. Ovo su samo neke češće korištene teorijske osnove.
Pretpostavke: Izjave koje su prihvaćene kao istinite unutar okvira određene teorije, čak i ako se možda ne mogu izravno empirijski provjeriti. Na primjer, pretpostavka da su ljudi racionalni donositelji odluka u određenim ekonomskim modelima; ili pretpostavka da su emocije pacijenata i njihovih obitelji ključne za proces ozdravljenja. Nadalje, pretpostavka hijerarhijske strukture organizacije, gdje se vjeruje da jasna podjela odgovornosti povećava učinkovitost. U informatici, često postoji pretpostavka da korisnici imaju određenu razinu digitalne pismenosti te razumiju osnovne funkcionalnosti tehnologije. U marketinškim istraživanjima, pretpostavlja se da su potrošači pod utjecajem marketinških poruka i da im komunikacijske kampanje mogu značajno promijeniti ponašanje.
Koncepti i definicije: Ključni pojmovi i njihova značenja koji se koriste za opisivanje i analiziranje fenomena. Na primjer, koncept „korelacije“ u statistici ili „kulture“ u antropologiji. U sestrinstvu, koncept „okruženja“ može uključivati ne samo fizičko okruženje, već i emocionalnu podršku i komunikaciju koju pruža sestrinsko osoblje. Također, pojmovi poput elastičnosti potražnje i ravnoteže na tržištu definiraju kako promjene u cijeni utječu na količinu tražene robe. Nadalje, koncept organizacijske kulture objašnjava skup vrijednosti i normi koji utječu na ponašanje unutar organizacije. Definicije algoritama i struktura podataka ključne su za razumijevanje načina na koji se podaci obrađuju i organiziraju u računalnim sustavima. Ili pak, pojmovi poput segmentacije tržišta i brand equity (vrijednost brenda) koriste se za analizu tržišta i upravljanje brendom.
Uzročni mehanizmi: Ideje o tome kako i zašto određeni fenomeni utječu jedan na drugi, uključujući procese ili veze koji povezuju uzroke i posljedice. Teorijske osnove u sestrinstvu uključuju mehanizme koji objašnjavaju kako sestrinska intervencija dovodi do poboljšanja zdravlja. Primjerice, teorijski okvir može objašnjavati kako osiguranje emocionalne podrške smanjuje stres pacijenata, što zauzvrat može poboljšati imunološki odgovor i ubrzati oporavak. Nadalje, mehanizam određivanja cijena – kako promjene u ponudi ili potražnji uzrokuju pomake u tržišnoj ravnoteži. Ili, kako stil vođenja (npr. transformacijsko vođenje) može voditi k promjenama u motivaciji i angažmanu zaposlenika, što posljedično vodi do boljih poslovnih rezultata. Mehanizmi korisničkog sučelja – kako poboljšanja u dizajnu mogu uzrokovati veći angažman i učinkovitost rada u informacijskim sustavima. Uzročni lanci u oglašavanju – primjerice, kako kreativna kampanja može povećati svijest o brendu, što posljedično dovodi do rasta prodaje.
Empirijska podrška: Dokazi iz prethodnih istraživanja koji potvrđuju ili dovode u pitanje teorijske tvrdnje i pružaju temelje za postavljanje novih istraživačkih pitanja. U sestrinskim istraživanjima često se koriste empirijski podaci kako bi se potvrdili teorijski koncepti. Na primjer, istraživanja mogu pokazati kako učestalost edukacije pacijenata o samostalnom upravljanju kroničnim bolestima poboljšava njihovu kvalitetu života. Nadalje, empirijska istraživanja pokazuju povezanost između promjena kamatnih stopa i investicijskih odluka poduzeća, što potvrđuje teorijske modele tržišnih kretanja. Studije o utjecaju edukacije i treninga na produktivnost zaposlenika pružaju dokaz da ulaganja u ljudski kapital mogu poboljšati performanse organizacije. Istraživanja o upotrebljivosti (usability) informacijskih sustava pokazuju da bolje dizajnirana sučelja rezultiraju većom učinkovitošću i zadovoljstvom korisnika. Empirijski dokazi o učinkovitosti digitalnog marketinga – kao što su A/B testiranja i analize konverzija – potvrđuju važnost personaliziranih kampanja u povećanju prodaje.
Normativni okvir: Vrednovanja ili smjernice koje određuju što je poželjno istražiti ili kako bi određeni fenomen trebao funkcionirati u idealnim uvjetima (ako se primjenjuje). Na primjer, Svjetska zdravstvena organizacija (WHO) naglašava potrebu za dostupnošću kvalitetne zdravstvene skrbi za sve pacijente, što se reflektira u teorijama koje zagovaraju ravnopravnost i uključenost u sestrinskoj skrbi. U ekonomiji, primjena antimonopolskih zakona i regulacija tržišta osigurava fer konkurenciju i zaštitu potrošača, što je u skladu s teorijskim principima tržišne ravnoteže. Etnički kodeksi i standardi korporativnog upravljanja definiraju idealne prakse u vođenju i poslovnom ponašanju unutar organizacija. Propisi o zaštiti podataka, poput Opće uredbe o zaštiti podataka (GDPR), osiguravaju da se razvoj i primjena informacijskih sustava provode u skladu s etičkim i pravnim standardima. Normativni okviri kao što su smjernice za oglašavanje i zaštitu potrošača reguliraju način na koji marketinške aktivnosti smiju utjecati na javnost, osiguravajući istinitost i etičnost reklamnih poruka.
Ideje vodilje:
Teorijske osnove su ključne jer pružaju kontekst i smjer istraživanju, pomažu u formuliranju hipoteza, izboru metodologije i tumačenju rezultata. Ako vam je ovaj TL;DR dovoljan, možete preći na poglavlje Primjeri korelacija, a tekst u narednim potpoglavljima detaljnije se bavi ovim osnovama i prilagođen je iz Abend (2008) i Neuman (2014) te mjestimično nadopunjen dodatnim primjerima i pojašnjenjima.
„Veza između glazbenog ukusa osobe i njezinog pušačkog ponašanja može biti neočekivana, ali ilustrira kako teorijske pretpostavke mogu usmjeravati istraživanje. Teorija nam pomaže razumjeti složenosti društvenog života na način da objašnjava zašto ljudi rade ono što rade, ali i da pruži uvide i sugerira smjerove daljnjih istraživanja. Kao što je, na primjer, teorija kulturnog ukusa potaknula Pampela da postavi nova pitanja i ponovno razmotri obrasce ponašanja u vezi s glazbenim ukusom i pušenjem, teorija može pružiti koncepte kojima možemo istraživati i razmišljati o društvenom svijetu na nov način. Također pokazuje kako različite teorije pružaju različite načine objašnjavanja događaja.
Mnogi istraživači početnici se boje teorije ili ju smatraju nepotrebnom. Djeluje im kao labirint nejasnog žargona i apstrakcija koje su irelevantne za svakodnevni život. Nadam se da ćete shvatiti da teorija nije samo korisna već i ključna za razumijevanje društvenog svijeta oko vas. Teorija radi mnogo stvari: pojašnjava razmišljanje, produbljuje razumijevanje, produbljuje raspravu i obogaćuje analizu. Ima ključnu ulogu u napredovanju znanja i u organizaciji načina na koji provodimo istraživanje.
Moji studenti dijele svoje tjeskobe i zbunjenost oko teorije u društvenim znanostima sa mnom. Jedan izvor zbunjenosti je taj što malo ljudi razumije što teorija zaista uključuje. Ne pomaže ni to što teorija ima višestruka značenja i ima nekoliko oblika. Čak i profesionalci raspravljaju o značenju teorije i dali su joj nekoliko značenja.
1. Teorija je logički povezan skup općih propozicija koje uspostavljaju vezu između dvije ili više varijabli.
2. Teorija je objašnjenje određenog društvenog fenomena koje identificira skup uzročno relevantnih faktora ili uvjeta.
3. Teorija pruža uvide u stvarno značenje društvenog fenomena nudeći osvjetljujuću interpretaciju i govoreći nam “o čemu se radi”.
4. Teorija je ono što je poznati društveni mislilac stvarno mislio.
5. Teorija je cjelokupan svjetonazor, ili način gledanja, tumačenja i razumijevanja događaja u svijetu.
6. Teorija je kritika utemeljena na političko-moralnom gledištu; predstavlja i zastupa skup vjerovanja-vrijednosti iz kojih kritizira stav i argumente protivnika.
7. Teorija je filozofski komentar na ključna pitanja ili probleme o temeljnim pitanjima o tome kako razvijamo znanje o društvenom svijetu (npr. kako doista konstruiramo osjećaj društvene stvarnosti).“
Izvor: Abend, G. (2008). The meaning of ‘theory’. Sociological theory, 26(2), 173-199.
Jedan izvor zbunjenosti u vezi s teorijom je taj što se većina nas svakodnevno susreće i koristi sličnim, ali neznanstvenim objašnjenjima. Teorije su objašnjenja, ali nisu jedini izvor objašnjenja. Objašnjenja nude ideje za razumijevanje stvari i govore nam što je važno, zašto ljudi rade ono što rade i kako se događaji u svijetu uklapaju u ta zbivanja. Objašnjenja možemo čuti u razgovorima s prijateljima, na televizijskim emisijama, od političara i poslovnih lidera, u novinskim izvješćima pa čak i putem filmova. To su objašnjenja, ali ne dosežu razine onih koje nudi znanstvena teorija.
Mnogi se ljudi zabrinu, uplaše ili reagiraju odustajanjem kada se susretnu s nepoznatim apstraktnim idejama. Svi prepoznajemo da svijet ima i konkretnih događaja i fizičkih objekata koje možemo dodirnuti i vidjeti (npr. držati knjigu u rukama) kao i apstraktnih ideja koje postoje u našim umovima (npr. značenje slobode i pravde). Kad se susretnemo s mnogim nepoznatim apstraktnim idejama, a ideje su slabo definirane, bilo namjerno ili ne, brzo doživljavamo anksioznost i frustraciju.
Socijalna teorija sastoji se od međusobno povezanih apstraktnih ideja. Neke od tih ideja labavo su povezane s opažajnim svijetom ili poznatim idejama. Dok ne naučimo ideje određene teorije i vidimo njihove veze, nije iznenađujuće da nam razgovor o apstraktnim idejama može izazvati nelagodu.
Posljednji izvor zbunjenosti izravno se odnosi na istraživanje. Neki od nas, kao istraživači, ne čine teoriju eksplicitnom i lako vidljivom. Iako to zahtijeva malo više vremena i truda, kada je teorija istraživanja jasna i vidljiva, svi je možemo lakše procijeniti te razumjeti snage i slabosti istraživanja. Gubitak jasne i jake teorije istraživanja jedan je od pokazatelja slabe studije - ako teorija ostaje nejasna, nepotpuna ili slabo oblikovana, onda se niti ne može od čitatelja očekivati da ju razumije ili prihvati.
Izvor (prilagođeno iz): Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Sve teorije sadrže ugrađene pretpostavke, koje su izjave o prirodi stvari koje (ne)možemo promatrati ili empirijski ocijeniti. One su potrebne početne točke. U društvenim znanostima kreiramo pretpostavke o prirodi ljudi (npr. ljudi su suštinski natjecateljski nastrojeni ili ljubazni i suradljivi), društvenoj stvarnosti (npr. lako je vidljiva ili sadrži skrivene elemente) ili određenom fenomenu ili pitanju.
Jedna vrsta pretpostavke je „pozadinska pretpostavka“: ona mora postojati kako bismo nastavili istraživanje. Teorije o složenim društvenim pitanjima, poput npr. rasnih predrasuda, oslanjaju se na nekoliko implicitnih pozadinskih pretpostavki. Neke od njih povezane s rasnom predrasudom su sljedeće: ljudi u društvu prepoznaju rasne kategorije ili rasne razlike; vide razlike među pojedincima na temelju članstva osobe u rasnoj grupi; temeljem članstva u rasnoj grupi pripisuju osobine, motivacije i karakteristike; i vrednuju dobrotu osobina, motivacija i karakteristika članova. To su pozadinske pretpostavke – jer, ako ljudi ne bi razlikovali “rase” (tj. određene fizičke karakteristike povezane s podrijetlom), nikada ne bi pridružili karakteristike članovima rasne grupe itd. i tada koncept rasne predrasude prestaje biti koristan. Dakle, koncept i teorija koja ga objašnjava grade se na pozadinskim pretpostavkama.
Pozadinska pretpostavka nekih ekonomskih modela temelji se na pretpostavci da pojedinci imaju stabilne preference i da donose odluke s ciljem maksimizacije svoje koristi. Bez pretpostavke da potrošači razumiju i vrednuju razliku između proizvoda (npr. kvaliteta, cijene ili dodatnih usluga), koncept potrošačkog viška i teorija tržišne ravnoteže gubi smisao. Primjerice, ako kupci ne bi imali jasne preference, ne bi bilo moguće definirati što je „vrijednost“ nekog proizvoda.
U menadžmentu, teorije upravljanja i organizacijskog ponašanja oslanjaju se na pretpostavku da zaposlenici percipiraju radno okruženje i organizacijsku kulturu na sličan način te da imaju očekivanja u pogledu motivacije i nagrađivanja. Ako se ne pretpostavi da zaposlenici prepoznaju hijerarhijske strukture i da na temelju njih donose odluke i stavove (npr. o angažmanu ili zadovoljstvu poslom), modeli učinkovitog vođenja ili implementacije strategija postaju nelogični. Bez te zajedničke pozadine, koncepti poput motivacijskih teorija gube svoju primjenjivost.
U području informatike, osobito u području razvoja korisničkog sučelja, pretpostavlja se da korisnici mogu prepoznati i razlikovati vizualne i funkcionalne elemente te da se njihova kognitivna obrada informacija može sustavno modelirati. Ako se ne pretpostavi da korisnici mogu razlikovati tipične elemente (npr. gumbe, izbornike ili ikone), koncepti dizajna usmjerenog na korisnika, kao i evaluacijski kriteriji upotrebljivosti, postaju besmisleni. Ta zajednička pretpostavka omogućava da se standardiziraju metode testiranja i analize sučelja.
Osim pozadinskih pretpostavki, možemo imati „stipulirane pretpostavke“ (pretpostavka postavljena radi argumentacije ili dogovorena pretpostavka; tj. one pretpostavke koje omogućuju napredovanje argumenta [vidi Abbott 2004:152]). Takva pretpostavka može ili ne mora biti točna. Ako bismo željeli proučavati rasnu predrasudu, mogli bismo pretpostaviti da je ljudi imaju u različitim mjerama, a neki ljudi je uopće nemaju. Mogli bismo pretpostaviti da se rasna predrasuda osobe odnosi na ljude u drugim rasnim grupama, ali ne i na vlastitu rasnu grupu. Mogli bismo pretpostaviti da se rasna predrasuda održava tijekom vremena u osobi i ne pojavljuje se ili nestaje trenutačno.
Pri analizi tržišne konkurencije može se stipulirati da svaki kupac uspoređuje proizvode isključivo na temelju cijene i kvalitete, čime se pojednostavljuje model tržišne ravnoteže. Ova pretpostavka omogućuje daljnju argumentaciju i razvoj teorije, premda u stvarnosti kupci mogu donositi odluke pod utjecajem emocionalnih i društvenih čimbenika.
Svi menadžeri djeluju etički i transparentno, a njihove se odluke temelje isključivo na podacima i analizi situacije. Takva pretpostavka omogućava razvoj modela učinkovitog vođenja i implementacije promjena, iako se u praksi mogu pojaviti odstupanja zbog subjektivnih procjena, emocija ili osobnih interesa.
Korisnici će se ponašati dosljedno pri interakciji s računalnim sustavom, tj. određeni dizajnerski elementi će uvijek izazvati predvidljive reakcije (npr. povećati angažman ili smanjiti greške). Ova stipulirana pretpostavka omogućuje razvoj standardiziranih metoda testiranja, iako stvarno ponašanje korisnika može varirati ovisno o kontekstu i individualnim razlikama.
Potrošači će reagirati na promotivne kampanje na unaprijed definirani način, primjerice, povećanjem svijesti o brendu i namjerom kupovine. Time se omogućuje razvoj marketinških strategija i mjerenje učinkovitosti kampanja, premda u praksi postoji širok raspon reakcija koje nisu uvijek predvidljive.
U svakom od ovih primjera, stipulirana pretpostavka služi kao polazišna točka za teoretsku argumentaciju i modeliranje, omogućujući istraživačima da dalje razvijaju i testiraju svoje hipoteze, unatoč mogućim odstupanjima u stvarnosti. Kao i kod teorije rasne predrasude, takve pretpostavke nisu nužno empirijski dokazane, ali su ključne za napredovanje argumenta i analitičkog pristupa u datoj disciplini.
Karakteristike teorija i pretpostavki:
Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Konstruiramo, razrađujemo i testiramo ili provjeravamo dva tipa teorije, substantive i formalne.
Substantivna teorija usredotočuje se na sadržaj specifičnih fenomena ili tematskih područja. Ona objašnjava konkretne aspekte društvene stvarnosti i usmjerena je na detaljno proučavanje određenih sadržaja.
Na primjer, obiteljski odnosi, delinkventno ponašanje ili rasno-etnički odnosi. Možemo imati teoriju koja se usredotočuje na ekonomski razvoj, kao u Mahoneyjevom (2003) proučavanju Španjolske Amerike. Takva teorija analizira kako se strukture proizvodnje, institucionalni aranžmani i kulturne vrijednosti međusobno isprepliću u procesu ekonomskog razvoja određene regije. Ili teoriju koja se usredotočuje na to kako se socijalne nejednakosti reproduciraju u svakodnevnim međuljudskim interakcijama, kao u Williamsovom (2006) proučavanju trgovine igračkama. Substantivna teorija u menadžmentu može se usredotočiti na obiteljske odnose unutar organizacija (npr. obiteljski poduzetnici) ili na specifične oblike delinkventnog ponašanja u radnom okruženju. Studije o tome kako obiteljska kultura utječe na donošenje odluka u malim i srednjim poduzećima mogu pružiti dubinsko razumijevanje tih specifičnih fenomena. U informatici, substantivna teorija može se usredotočiti na određene aspekte digitalne transformacije, poput analize digitalne nejednakosti ili pristupa informacijama. Primjer može biti teorija o digitalnoj pismenosti koja istražuje kako različite skupine korisnika pristupaju i koriste informacijske tehnologije, čime se osvjetljavaju specifični obrasci uporabe i prepreke. U marketingu se substantivna teorija može posvetiti proučavanju specifičnih tržišnih segmenata ili ponašanja potrošača, primjerice, teorija o formiranju lojalnosti brendu. Primjer može biti istraživanje koje analizira kako interakcije potrošača s brendom u specifičnom kontekstu (npr. premium proizvodi) utječu na dugoročnu lojalnost i identitet potrošača.
Formalna teorija se usredotočuje na opće procese ili strukture koje djeluju na više tematskih područja. Ona nudi apstraktne modele i konceptualne okvire koji se mogu primijeniti na različite sadržaje i kontekste.
Formalna teorija o pristupu resursima i održavanju pozicije moći i autoriteta može se primijeniti na nekoliko područja. Ona može objasniti kako vlasnici poduzeća koriste svoj pristup vrijednim resursima u razvijenim kapitalističkim društvima kako bi održali ekonomsku i društvenu moć; kako su vladini elitisti koristili kontrolu nad resursima kako bi pokušali zadržati vlast tijekom prijelaza iz komunizma u postkomunistički svijet; i kako su kolonijalne elite u čvrstom sustavu kontrole resursa zadržavale lokalnu moć u devetnaestom stoljeću na način koji je zaustavio kasniji nacionalni razvoj. U menadžmentu, formalna teorija može se koristiti za objašnjavanje kako organizacijske strukture i procesi omogućuju održavanje moći unutar poduzeća. Na primjer, model koji analizira kako vrhovno vodstvo koristi kontrolu nad informacijama, resursima i strateškim odlukama da bi osiguralo svoju poziciju, može se primijeniti u različitim kontekstima – od tradicionalnih velikih poduzeća do startupova. U informatici se koncepti poput mrežnih efekata i centralizacije podataka mogu interpretirati kroz formalne modele. Primjer je analiza kako velike digitalne platforme koriste algoritme i kontrolu nad podacima da bi stvorile barijere ulasku za konkurente te time održavale svoju tržišnu poziciju. U svim tim situacijama djelovala je slična socijalno-ekonomska dinamika: entiteti na poziciji moći koriste svoje vlasništvo i kontrolu nad vrijednim resursima kako bi održale svoj položaj moći i odolijevale izazovima svog autoriteta.
Ova dva tipa teorije međusobno se prožimaju. Substantivna teorija o određenoj temi često se oslanja na formalne teorije ili kombinira formalne teorije, a formalna teorija može imati primjene u nekoliko substantivnih područja. Kako je Layder (1993:44) primijetio, „kumulativni proces teorije poboljšava se poticanjem višestrukih substantivnih i formalnih teorija“.
Svaki teorijski fokus ima svoje prednosti i ograničenja. Substantivna teorija nudi moćna objašnjenja za određeno tematsko područje. Uključuje detalje iz određenih postavki, procesa ili događaja. Ipak, može ju biti teško generalizirati preko različitih tematskih područja. U usporedbi s formalnom teorijom, koncepti u substantivnoj teoriji obično su na nižim razinama apstrakcije i uže u opsegu. U usporedbi s formalnom teorijom, lakše možemo vidjeti relevantnost substantivne teorije za trenutne događaje. Snaga formalne teorije leži u njezinoj sposobnosti da premosti više tematskih područja i unaprijedi opće znanje. Njezina slabost je što, budući da se manje temelji na specifičnim pitanjima i socijalnim okruženjima, moramo ju prilagoditi kako bismo vidjeli kako se odnosi prema određenom pitanju ili temi. Formalne teorije pomažu nam prepoznati i objasniti slične karakteristike na više tematskih područja. One su apstraktnije, što ih čini složenijima i lakšima za izražavanje u potpuno logičkom, analitičkom obliku.
Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Osnovna svrha teorije je objasniti. Međutim, objašnjenje ima dva značenja: teorijsko i svakodnevno.
Istraživači se usredotočuju na teorijsko objašnjenje, logički argument koji objašnjava zašto nešto poprima određeni oblik ili zašto se događa. Obično kad to radimo, pozivamo se na opće pravilo ili načelo, i povezujemo ga s teorijskim argumentom s mnogo veza među konceptima.
Svakodnevno objašnjenje čini nešto jasnim ili opisuje nešto na način koji ga ilustrira i čini razumljivim drugima. Na primjer, dobar učitelj „objašnjava“ u svakodnevnom smislu. Ta dva oblika objašnjenja mogu se prožimati kad objašnjavamo (tj. činimo razumljivim) objašnjenje (tj. logički argument koji uključuje teoriju).
Prije nego što proučimo oblike teorijskog objašnjenja, napravit ćemo kratku digresiju jer mnogi ljudi miješaju predviđanje s objašnjenjem. Predviđanje je izjava da će se nešto dogoditi. Objašnjenje logički povezuje što se događa u određenoj situaciji s apstraktnijim ili osnovnijim principom o “kako stvari funkcioniraju” kako bi odgovorilo na pitanje zašto. Konkretna situacija pokazuje se kao primjer ili specifičan slučaj općeg principa.
Lakše je predviđati nego objasniti, a objašnjenje ima više logičke snage od predviđanja jer dobra objašnjenja također predviđaju. Konkretno objašnjenje rijetko predviđa više od jednog ishoda, ali konkurentska objašnjenja mogu predvidjeti isti ishod. Iako je manje snažno od objašnjenja, mnoge ljude očarava dramatičnost predviđanja.
Primjer kockanja ilustrira razliku između objašnjenja i predviđanja. Ako uđem u kasino i dosljedno i precizno predviđam sljedeću kartu ili sljedeći broj na ruletu, to će biti senzacija. Mogu osvojiti puno novca, barem dok voditelji kasina ne shvate da uvijek pobjeđujem i izbace me. Ipak, način na koji vršim predviđanja je zanimljiviji od činjenice da to mogu učiniti.
Evo još jednog primjera. Znate da sunce „izlazi“ svako jutro. Možete predvidjeti da će svakog jutra, bez obzira na oblake, sunce „izaći“. Ali zašto je to tako? Jedno objašnjenje je da Velika kornjača nosi sunce preko neba na svojoj leđima. Drugo objašnjenje je da bog pali svoju strijelu, koja se nama čini kao sunce, i puca je preko neba. Ipak, malo ljudi danas vjeruje u ta drevna objašnjenja.
Fizičar i nobelovac Steven Weinberg (2001:47) dao je „tvrdi znanstveni“ pogled na objašnjenje:
Znanstvenici koji se bave čistim istraživanjima umjesto primijenjenim često govore javnosti i agencijama za financiranje da je njihova misija objašnjenje nečega ili nečega sličnog… U okvirima fizike, mislim da se može… [razlikovati] objašnjenje od pukog opisa, što je ono što fizičari misle kad kažu da su objasnili neku pravilnost… Objasnimo fizički princip kada pokažemo da se može deducirati iz temeljnijeg fizičkog principa.
Teorijska objašnjenja dolaze u tri oblika: uzročna, strukturalna i interpretativna. Svako od njih objašnjava, ili odgovara na pitanje zašto se događaji događaju te povezuje određeni specifični slučaj s nekom vrstom općeg principa.
Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Kauzalno objašnjenje ukazuje na uzročno-posljedični odnos između koncepata/ varijabli. Koristimo ovakvu vrstu objašnjenja u svakodnevnom jeziku, iako svakodnevni jezik često zna biti prilično neprecizan i dvosmislen.
Evo kauzalnog objašnjenja: Recimo da tvrdite da siromaštvo uzrokuje kriminal ili da slabljenje društvenih moralnih vrijednosti uzrokuje povećanje razvoda. Ovo su elementarna kauzalna objašnjenja. Ipak, znanstvenici nastoje biti precizniji i točniji kada razgovaraju o uzročnim odnosima. Također pokušavaju utvrditi kako ili zašto uzročni proces funkcionira (npr. kako i zašto siromaštvo uzrokuje kriminal).
Barem od vremena škotskog filozofa Davida Humea iz osamnaestog stoljeća (1711.-1776.), filozofi raspravljaju o pojmu uzroka. Neki ljudi tvrde da uzročnost postoji u empirijskom svijetu. Iako je ne možemo lako vidjeti, ona je „tamo negdje“ u objektivnoj stvarnosti, i možemo pronaći neizravne dokaze o njoj. Drugi tvrde da uzročnost ne postoji u objektivnoj stvarnosti. To je mentalna konstrukcija „u našim glavama“. Mi smo subjektivno stvorili ideju uzročnosti kako bismo si pomogli razmišljati o događajima u objektivnoj stvarnosti. Bez ulaska u filozofsku raspravu, mnogi društveni znanstvenici teoretiziraju i provode istraživanja o uzročnim odnosima.
Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Potrebne su minimalno tri stvari da bi se uspostavila uzročnost: vremenski red, empirijska povezanost i isključivanje vjerojatnih alternativa. Implicitan četvrti uvjet je da uzročni odnos ima smisla ili se uklapa u šire pretpostavke ili teorijski okvir. Razmotrimo tri osnovna uvjeta. Osim ovih triju, potrebno je i precizirati uzročni mehanizam i nacrtati uzročni lanac.
Tekst u potpoglavljima preuzet je i preveden te djelomično prilagođen (nadopunjen) iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Vremenski redoslijed znači da uzrok mora doći prije posljedice. Ova je pretpostavka zdravorazumska i uspostavlja smjer uzročnosti: od uzroka prema posljedici. Možete se pitati kako uzrok može doći nakon onog što treba utjecati. Ne može, ali vremenski red je samo jedan od uvjeta potrebnih za uzročnost. Vremenski red je nužan, ali ne i dovoljan za zaključivanje o uzročnosti. Ponekad ljudi griješe kad govore o „uzroku“ samo na temelju vremenskog reda.
Promjena kamatnih stopa u središnjoj banci može se dogoditi prije nego što se promijeni razina investicija u gospodarstvu. Iako je vremenski redoslijed zadovoljen – prvo promjena kamatnih stopa, zatim promjena investicija – to ne dokazuje nužno da je promjena kamatnih stopa jedini ili primarni uzrok investicijskih odluka. Drugi čimbenici poput poslovne klime, političkih odluka ili očekivanja tržišta također mogu imati ulogu.
Uvođenje novog programa obuke zaposlenika događa se prije nego što se primijeti poboljšanje radne učinkovitosti. Ovdje je vremenski redoslijed jasan – prvo obuka, zatim poboljšanje performansi. Međutim, iako je obuka nužno povezana s poboljšanjem, ona sama po sebi nije dovoljna da bi se zaključilo da je upravo ona izazvala povećanje učinkovitosti, jer mogu postojati i drugi čimbenici, poput promjena u menadžerskim stilovima, načinima nagrađivanja zaposlenika ili tržišnim uvjetima.
Nakon implementacije novog dizajna korisničkog sučelja, broj korisničkih pogrešaka opada. Vremenski redoslijed – redizajn prije smanjenja pogrešaka – je zadovoljen, ali smanjenje pogrešaka može biti rezultat i drugih promjena, kao što su dodatna edukacija korisnika ili promjene u radnom okruženju. Dakle, samo redoslijed događaja nije dovoljan dokaz da je redizajn izravno uzrokovao pad pogrešaka.
Lansiranje marketinške kampanje dolazi prije povećanja prodaje. Iako je kampanja pokrenuta prije rasta prodaje, vremenski redoslijed je samo jedan element uzročnosti. Povećanje prodaje može biti potaknuto i drugim faktorima – sezonskim trendovima, promjenama u konkurentskom okruženju ili ekonomskim uvjetima – te stoga nije moguće zaključiti da je kampanja jedini uzrok bez dodatne analize.
Na primjer, rasni nemiri dogodili su se u dvanaest američkih gradova 1968. godine dan nakon intenzivnog vala sunčevih pjega. No, vremenski poredak ne uspostavlja uzročnu vezu između sunčevih pjega i rasnih nemira. Na kraju krajeva, sva ljudska povijest dogodila se nakon nekog određenog događaja. Uvjet vremenskog reda jednostavno isključuje iz razmatranja potencijalne uzroke koji su se dogodili kasnije u vremenu.
Uspostavljanje vremenskog reda može biti komplicirano u presječnim istraživanjima (engl. cross-sectional). Na primjer, istraživač može otkriti da ljudi koji imaju značajno formalno obrazovanje izražavaju manje predrasuda od drugih. Uzrokuje li obrazovanje smanjenje predrasuda ili se ljudi koji imaju puno predrasuda suzdržavaju od školovanja? Na primjer, u ekonomiji presječno istraživanje može otkriti da osobe s višim primanjima pokazuju manju financijsku nesigurnost. U ovom slučaju se postavlja pitanje: uzrokuje li visoka razina prihoda smanjenje financijske nesigurnosti ili se, pak, osobe koje se osjećaju financijski sigurno uspješnije samoostvaruju (samoaktualizacija) i time postižu veće prihode?
Sličan problem pojavljuje se i u području menadžmenta, gdje se u presječnom istraživanju poduzeća može utvrditi da organizacije s visokom razinom angažmana zaposlenika izvještavaju o većoj razini inovacija. U takvom slučaju postavlja se pitanje: potiče li visoki angažman zaposlenika inovativnost, ili inovativna radna okruženja privlače angažiranije zaposlenike? Bez praćenja promjena tijekom vremena, teško je razlučiti koji od faktora inicijalno pokreće ostale.
Na primjer, presječno istraživanje korisnika društvenih mreža može pokazati da oni koji češće koriste platformu također iskazuju veće zadovoljstvo životom. Međutim, postavlja se pitanje: je li intenzivna upotreba društvenih mreža uzrok povećanog zadovoljstva životom, ili su korisnici koji su već zadovoljniji skloniji većoj aktivnosti na mreži? S obzirom na to da se sve varijable mjere u isto vrijeme, teško je sa sigurnošću odrediti redoslijed događaja.
U marketingu, presječna istraživanja među potrošačima mogu otkriti da oni koji iskazuju visoku lojalnost brendu također navode veću razinu zadovoljstva kupljenim proizvodima. Ovdje se također postavlja pitanje uzročnosti: potiče li lojalnost brendu veće zadovoljstvo, ili zadovoljstvo proizvodom potiče potrošače da postanu lojalniji? Možemo pretpostavljato, no bez longitudinalnog praćenja nije moguće sa sigurnošću utvrditi koji je faktor inicijalni uzrok.
Ovi primjeri ilustriraju da, iako je vremenski redoslijed nužan (uzrok mora doći prije posljedice) za uspostavljanje uzročnosti, on sam po sebi nije dovoljan dokaz. Presječna istraživanja često ne mogu razotkriti pravi smjer uzročnosti.
To je problem kokoš ili jaje. Da bi se riješio, istraživač treba prikupiti dodatne informacije ili provesti longitudinalno istraživanje kako bi testirao vremenski red. Jednostavni uzročni odnosi su jednosmjerni, djelujući u jednom smjeru od uzroka prema posljedici. Složenije teorije specificiraju uzajamno-učinke uzročnih odnosa - to jest, međusobni uzročni odnos ili simultanu uzročnost. Na primjer, mnogo učenja može uzrokovati da student dobije dobre ocjene, ali dobivanje dobrih ocjena također motivira studenta da nastavi učiti. Teorije često imaju uzajamne ili povratne odnose, ali neke od njih je teško testirati. Neki istraživači nazivaju jednosmjerni odnos nerekurzivnim, a uzajamne uzročne odnose rekurzivnim.
Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Povezanost je druga pretpostavka i znači da se dvije pojave pojavljuju zajedno na smisleni način ili se čini da djeluju zajedno. Ljudi često zamjenjuju riječ korelacija sa povezanošću.
Korelacija ima određeno tehničko značenje i postoje određeni statistički zahtjevi za nju. Povezanost je opća ideja. Korelacijski koeficijent je statistička mjera koja ukazuje na snagu povezanosti, ali postoje i drugi načini mjerenja povezanosti. Ponekad istraživači nazivaju povezanost istodobnom varijacijom jer se dvije varijable mijenjaju zajedno (istu ideju prenosti kovarijanca). U svakom slučaju, u kontekstu korelacije, prikladnije je koristiti pojam povezanost ili veza, nego uzročnost, uzrokuje i sl.
No, neki ljudi zamjenjuju povezanost sa stvarnom uzročnošću. “Na primjer, kad sam bio na fakultetu, dobivao sam visoke ocjene na ispitima koje sam polagao petkom, ali niske ocjene na onima koje sam polagao ponedjeljkom. Dakle, postojala je povezanost između dana u tjednu i ocjene na ispitima. Ova povezanost ne znači da je sam dan u tjednu uzrokovao ocjenu na ispitima. Umjesto toga, razlog za povezanost bio je taj što sam svaki vikend radio 20 sati i bio jako umoran ponedjeljkom.”
Ako ne možete pronaći povezanost, uzročni odnos je vrlo malo vjerojatan. Zato želite pronaći korelacije i druge mjere povezanosti. Ipak, samo zato što pronađete korelaciju ne znači da imate uzročnost, a ponekad čak ni smislenu povezanost. Korelacija je nužan, ali ne i dovoljan uvjet za uzročnost. Drugim riječima, potrebno vam je za uzročnost, ali to samo po sebi nije dovoljno da bi se utvrdila uzročnost.
“Da biste pokazali uzročnost, povezanost ne mora biti savršena. U primjeru koji se odnosi na ocjene na ispitima i dane u tjednu, postoji povezanost ako sam na deset petaka dobio sedam ocjena A, dvije B i jednu C, dok su ocjene na deset ponedjeljaka bile šest D, dvije C i dvije B. Povezanost postoji, ali dani u tjednu i ocjene na ispitima nisu savršeno povezani.”
Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Isključivanje alternativa znači da moramo pokazati da je učinak uzrokovan uzročnom varijablom, a ne nečim drugim.
To se također naziva i spornost jer se prividni uzročni odnos koji je zapravo posljedica druge, ali neprepoznate uzročne varijable zove spornim odnosom. Iako možemo promatrati vremenski red i povezanosti, ne možemo empirijski isključiti sve logičke alternative. Isključivanje mogućih alternativa je idealno. To znači da to možemo pokazati samo neizravno ili isključiti očitije alternativne objašnjenja. U eksperimentu ugrađujemo kontrole u sam dizajn istraživanja kako bismo isključili alternativne uzroke i izolirali eksperimentalnu situaciju od utjecaja svih varijabli osim glavne uzročne varijable.
Ne-eksperimentalna istraživanja isključuju alternative tako da identificiraju moguće alternativne uzroke i mjere ih. To je uobičajeno u istraživanjima provedenim putem anketa. Nakon što izmjerimo potencijalne alternative, koristimo statističke tehnike kako bismo saznali radi li uzročna varijabla ili nešto drugo na zavisnoj varijabli.
Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
U kontekstu spornih odnosa, korisno je razmotriti Simpsonov paradoks o kojem se govori detaljnije u jednom od narednih poglavlja.
Specifikacija mehanizama u uzročnom odnosu znači da kad stvorimo uzročno objašnjenje, moramo imati više od dvije varijable koje su povezane, što „zahtijeva dostatno objašnjenje i preciziranje društvenih ‘zupčanika i kotača’“ (Hedstrom i Swedberg, 1998:7). Idemo dalje od toga da nezavisna i zavisna varijabla budu povezane (kao da je to veza kroz “crnu kutiju” nepoznatih procesa). Potpuno uzročno objašnjenje identificira uzročni odnos i precizira uzročni mehanizam.
Recimo da pronađemo snažnu povezanost između društvenog statusa osobe i njezinog zdravlja. Možemo iznijeti svoju “teoriju” kao da ljudi iz višeg društvenog razreda žive dulje i manje obolijevaju od ljudi iz nižeg društvenog razreda. Međutim, nije dovoljno reći da društveni razred uzrokuje zdravstvene ishode. Moramo također objasniti zašto i kako društveni razred to čini. Ukratko, trebali bismo opisati točno što je to u društvenom razredu što uzrokuje da se događaju zdravstveni ishodi. Možda vjerujemo da viši društveni razred pruža ljudima više društvenih resursa (znanje, društvene veze, slobodno vrijeme, fleksibilno radno vrijeme) koji im omogućuju da jedu zdravu hranu, doživljavaju manji stres, bave se tjelesnom aktivnošću i tako dalje, što rezultira boljim zdravljem. Društveni resursi su mehanizam koji povezuje društveni status i ishode (resursi uključuju „biti u tijeku“, „poznati prave ljude“ i imati pristup prilikama).
U ekonomiji, jedan specifičan mehanizam koji povezuje ulagačke odluke s ekonomskim rastom jest utjecaj infrastrukturnih investicija na smanjenje logističkih troškova. Na primjer, izgradnja novih cesta i željezničkih linija omogućuje bržu distribuciju roba i usluga, što poboljšava povezanost između regija, povećava učinkovitost tržišta i potiče gospodarsku aktivnost. Ovaj lanac uzročnosti ilustrira kako konkretna ulaganja u infrastrukturu mogu posredno utjecati na ulaganja i rast produktivnosti i ekonomski razvoj.
U menadžmentu, transformacijski stil vođenja predstavlja specifičan mehanizam kojim se poboljšava angažman i motivacija zaposlenika. Vođe koji uspostavljaju jasnu viziju, prepoznaju individualne doprinose i potiču inovativnost čime stvaraju radno okruženje u kojem se zaposlenici osjećaju cijenjeno i motivirano. Ovaj pristup ne samo da povećava produktivnost, već i potiče suradnju te smanjuje fluktuaciju kadrova, čime se dugoročno poboljšavaju performanse organizacije.
U području informacijskih znanosti, mehanizam difuzije inovacija unutar digitalnih i društvenih mreža objašnjava kako se nove tehnologije šire među korisnicima. Rani usvojitelji, koji putem svojih digitalnih platformi dijele pozitivna iskustva, potiču prijatelje, sljedbenike i širu zajednicu da prihvate novu tehnologiju. Ovaj proces, poznat i kao efekt mreže, ubrzava usvajanje inovacija i doprinosi bržem tehnološkom napretku unutar organizacija i društva u cjelini.
U marketingu, emocionalno oglašavanje djeluje kao specifičan mehanizam koji utječe na ponašanje potrošača. Kampanje koje koriste snažne emotivne priče, simboliku i emotivne poruke uspostavljaju dublju povezanost između potrošača i brenda. Ova emocionalna angažiranost ne samo da potiče trenutnu kupovinu, nego i gradi dugoročnu lojalnost, čime se osigurava kontinuirani pozitivan utjecaj na percepciju brenda, a posljedično i njegovu tržišnu konkurentnost.
Ovi primjeri ilustriraju kako specifični mehanizmi unutar pojedinih područja — ekonomije, menadžmenta, informacijskih znanosti i marketinga — pomažu objasniti uzročno-posljedične odnose kroz konkretne mehanizme i lanac djelovanja, čime se omogućava dublje razumijevanje i preciznija analiza promatranih fenomena.
Mehanizme možemo koristiti u modelima procesa za koje vjerujemo da povezuju ulazne podatke s ishodima kako bismo razjasnili mehanizme. U ekonomiji, tržište je uobičajeni mehanizam; to je proces obavljanja razmjena između neovisnih kupaca i prodavatelja, svaki s vlastitim željama i resursima. Tržište objašnjava kako funkcionira odnos ponude i potražnje.
U sociologiji, često korišteni mehanizam je „Mertonovo samoispunjavajuće proročanstvo“. Samoispunjavajuće proročanstvo događa se kada definicija situacije potiče ponašanje koje čini lažnu definiciju stvarnom. „Negativni povratni“ mehanizam u proročanstvu povezuje vjerovanja i ponašanja ljudi u jednom trenutku s kasnijim ishodima. Razmotrimo primjer s razgovorom za posao. Osoba koja je uvjerena da će intervju proći loše može razviti intenzivan osjećaj nervoze. Ova anksioznost može se manifestirati kroz nesigurno držanje, brzi govor i poteškoće u koncentraciji tijekom razgovora. Zbog tih znakova, poslodavac doživljava kandidata kao manje kompetentnog, što potvrđuje prvotno negativno očekivanje osobe. Time se stvara lanac: negativna očekivanja potiču ponašanje koje ih i ostvaruje, odnosno, intervju zaista ne prolazi dobro. Ovaj primjer ilustrira Mertonovo samoispunjavajuće proročanstvo jer subjektivno vjerovanje o neuspjehu aktivno utječe na ponašanje koje vodi do negativnog ishoda.
Klasični primjer samoispunjavajućeg proročanstva je bankovna kriza. Banka može biti vrlo financijski stabilna, ali krene glasina kako će propasti. Ova nova definicija situacije, iako netočna, vodi do toga da mnogi ljudi brzo povuku svoj novac. Kako ljudi povlače velike iznose novca, banka oslabljuje (smanjuje se likvidnost). Slabljenje banke potiče još glasina o njenom bankrotu. Nove glasine, pak, potiču još povlačenja. Na kraju, pojava straha (zbog lažne definicije situacije) i povlačenja (ponašanje na temelju definicije) uzrokuju bankrot banke (lažna definicija postaje istinita). Sličan mehanizam može se primijeniti na šire financijsko tržište. Ako veliki broj investitora počne vjerovati da će tržište krahirati, ta uvjerenja mogu ih potaknuti da naglo povuku svoja ulaganja. Ovaj masovni izlaz iz tržišta može, pak, dovesti do pada cijena dionica i potaknuti lančanu reakciju, što rezultira stvarnim kolapsom tržišta. Iako bi se moglo reći da uzrok kraha leži u samom pogledu investitora, u ovom slučaju uvjerenja su sama po sebi inicirala promjene u ponašanju koje su dovele do kraha. U oba primjera, negativni povratni mehanizam veže vjerovanja i ponašanja s kasnijim ishodima, čime se potvrđuje da su samoispunjavajuća proročanstva vrlo primjenjiva i u svakodnevnim situacijama, bilo u osobnom ili ekonomskom kontekstu.
Ponekad iznosimo teorije kao zakonite generalizacije: Kad se dogodi X, dogodit će se i Y. Međutim, takve „teorije“ nisu potpuno objašnjenje (Elster 1998). Potrebno im je uzročno objašnjenje. Mehanizam je često specifičniji od opće zakonite tvrdnje, ali općenitiji od određenog slučaja.
U potpunom objašnjenju, mehanizam može biti raspored mogućnosti ili želja pojedinaca, koje su općenitije od određene prilike ili jedne želje, ali manje općenite od zakonite tvrdnje. Mehanizmi dodaju složenost. Umjesto jednostavnog zakona (ako B onda R), u konkretnim situacijama nalazimo da ako B ponekad R, ali ponekad P ili D. Mehanizam objašnjava zašto B ne uzrokuje uvijek R, već može stvoriti druge ishode. Možda vjerujemo da kada su ekonomske prilike loše (B), ljudi se bune (R). Međutim, kako proučavamo mnoge konkretne situacije, otkrivamo da to nije uvijek istina. Ponekad se ljudi bune, ali drugi puta postaju pasivni i prihvaćaju svoju sudbinu (P), a u trećim slučajevima bore se jedni protiv drugih i postaju destruktivni (D). Za potpuno objašnjenje moramo uključiti mehanizam koji nam govori kada koji uvjeti stvaraju svaki od tih ishoda.
Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Dijagram uzročnog lanca je proces u kojem se procjenjuje svaki dio lanca. Evo povezanosti u uzročnoj teoriji: Porast nezaposlenosti uzrokuje povećanje zlostavljanja djece. Želimo objasniti ove promjene. Objasnimo ih kao posljedicu porasta nezaposlenosti. Da bismo „objasnili“ povećano zlostavljanje djece, moramo identificirati njegov glavni uzrok, ali potpuno objašnjenje također zahtijeva preciziranje kako se to događa (tj. identificirati uzročni mehanizam i staviti ga u uzročni lanac). Mehanički element u ovoj teoriji je situacija u kojoj ljudi gube poslove. Nakon što izgube poslove, osjećaju gubitak samopouzdanja i povećani stres. Kako gube samopouzdanje i doživljavaju visok stres, lakše postaju frustrirani i brže postaju ljuti. Unutarnja društvena kontrola slabi, a obrasci života se remete. Visoko frustrirani ljudi s nižom unutarnjom kontrolom mogu izraziti svoj bijes usmjeravajući nasilne radnje prema onima s kojima imaju bliski osobni kontakt (npr. prijatelji, supružnici, djeca). To je posebno istinito ako ne mogu usmjeriti svoj bijes prema izvoru (npr. poslodavcu, vladinoj politici ili ekonomskim silama). Mehanički element je dio je većeg procesa ili uzročnog lanca i događa se nakon početnog uzroka (nezaposlenost) i prije posljedice (zlostavljanje djece).
Možemo testirati svaki dio uzročnog lanca. Osim što određujemo pojavljuju li se stope nezaposlenosti i zlostavljanje djece zajedno, moramo razmotriti i povećava li nezaposlenost frustraciju te postaju li frustrirane osobe nasilne prema članovima obitelji. Tipična istraživačka strategija je podijeliti uzročni lanac na njegove dijelove, a zatim procijeniti svaki dio lanca na temelju podataka.
Preuzeto, prevedeno i prilagođeno iz: Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Primjer 1. Pretpostavimo da istražujete učinak
sestrinskih intervencija na smanjenje stope hospitalizacije kod
pacijenata s dijabetesom tipa 2.
Teorijske osnove mogu uključivati:
Temeljem ovakvog teorijskog okvira, može se osmisliti istraživanje kako bi se testirala veza između sestrinskih intervencija i smanjenja stope hospitalizacija pacijenata s dijabetesom tipa 2. Dizajn istraživanja uključuje jasno definiranje nezavisnih i zavisnih varijabli, mjerila i metoda za prikupljanje podataka. Na primjer:
Nezavisna varijabla:
Zavisna varijabla:
Kontrolne varijable:
Metode prikupljanja podataka:
Mjere:
Istraživačka hipoteza
Za presječno istraživanje, mogli bi se usporediti rezultati na DSMQ testu s razinom šećera u krvi. Na taj način, može se utvrditi koeficijent korelacije za danu skupinu, temeljem čega se može tvrditi o povezanosti samostalne regulacije dijabetesa i razine šećera u krvi. No, takav pristup nam ne bi omogućio zaključke o rezultatima intervencije. Ovaj pristup je brži i jeftiniji za provedbu te omogućuje identifikaciju povezanosti između varijabli, ali ne omogućuje utvrđivanje uzročno-posljedičnih odnosa niti učinaka intervencija. Alternativno, mogli bismo provesti testiranje hipoteza kako bi se utvrdila razlika prije i nakon tretmana. No, također treba imati na umu da time možemo dokazati kratkoročne učinke, a ne trajne promjene u ponašanju. Za dokazivanje uzročno-posljedičnih odnosa s obzirom na intervenciju, potrebno je longitudinalno istraživanje, koje iziskuje više resursa (vrijeme, financije) i može biti osjetljivo na gubitak ispitanika tijekom vremena.
Mala digresija, za slučaj da niste upoznati s presječnim i longitudinalnim istraživanjem. Presječno istraživanje fokusira se na prikupljanje podataka u jednom trenutku, omogućujući istraživačima da istovremeno procijene stanje varijabli i njihove međusobne odnose. Ova vrsta istraživanja idealna je za usporedbu grupa, procjenu prevalencije određenih pojava ili testiranje povezanosti među varijablama. Prednosti presječnog istraživanja uključuju brzinu provedbe, niže troškove i jednostavnost dizajna. Međutim, glavna ograničenja su nemogućnost praćenja promjena tijekom vremena i utvrđivanja uzročno-posljedičnih odnosa, budući da su podaci prikupljeni samo u jednoj vremenskoj točki. Na primjer, ako je anketa provedena jednom među ispitanicima, u pitanju je presječno istraživanje. Longitudinalno istraživanje prati iste sudionike tijekom određenog vremenskog razdoblja, u pravilu, kroz više vremenskih točaka. Ovaj pristup omogućuje istraživačima da analiziraju promjene i procijene uzročno-posljedične odnose između varijabli. Na primjer, može se pratiti kako intervencija utječe na ishode tijekom vremena. Iako pruža bogatije uvide i jače dokaze o kauzalnosti, longitudinalno istraživanje zahtijeva više resursa, vremena i pažljivo osmišljen dizajn. Također je osjetljivije na probleme poput odustajanja sudionika, što može utjecati na valjanost rezultata. Naime, u ovakvom istraživanju, ne postoji strogo definiran vremenski period koji se mora pokriti da bi se istraživanje smatralo longitudinalnim, nego se podaci prikupljaju od istih sudionika u više vremenskih točaka. To iziskuje povećan angažman ispitanika, pa je teže osigurati njihovo sudjelovanje.
Kad analiziramo odnose među varijablama, često koristimo korelaciju i regresiju kako bismo razumjeli povezanost između njih. Na primjer, možemo primijetiti da postoji povezanost između visoke razine samopomoći (samoregulacije) kod pacijenata i bolje kontrole šećera u krvi. No, vrlo je važno razumjeti da povezanost (korelacija) ne znači uzročnost (kauzaciju).
Što bi korelacija pokazala?
Korelacija pokazuje da dvije varijable variraju zajedno, tj. da postoji povezanost među njima. Na primjer:
Što korelacija ne pokazuje?
Zašto je to važno?
Primjer 2. Pretpostavimo sad da istražujemo kako društveno odgovorno poslovanje poduzeća (CSR, corporate social responsibility) utječe na lojalnost kupaca prema maloprodajnom lancu. Teorijske osnove mogu uključivati:
Kako bi se testirao utjecaj CSR inicijativa na lojalnost kupaca, istraživanje bi uključivalo jasno definiranje varijabli, mjera i metoda prikupljanja podataka.
Nezavisna varijabla (intervencija):
CSR inicijative koje uključuju:
Zavisna varijabla (ishod):
Kontrolne varijable:
Metode prikupljanja podataka:
Mjere:
Istraživačka hipoteza:
Presječno istraživanje bi se moglo koristiti za procjenu povezanosti između percepcije CSR-a i lojalnosti kupaca. Na temelju podataka prikupljenih kroz anketu, uspoređuju se percepcije CSR-a s razinom lojalnosti kupaca. Koeficijent korelacije mogao bi pokazati povezanost između dviju varijabli, na način da što je percipirana viša razina CSR-a, veća je lojalnost. Presječno istraživanje pruža uvid u povezanost, ali ne omogućuje donošenje zaključaka o uzročno-posljedičnim odnosima između CSR-a i lojalnosti. Dodatno se mogu ispitati razlike s obzirom na demografske karakteristike i ostale kontrolne varijable.
CSR inicijative mogu značajno utjecati na lojalnost kupaca, ali interpretacija njihovog utjecaja zahtijeva pažljiv pristup. Korelacija između percepcije CSR-a i lojalnosti ne smije se tumačiti kao dokaz uzročno-posljedične veze. Za precizne zaključke potrebno je koristiti dugoročno praćenje i kombinirati različite istraživačke metode.
Primjer 3. Recimo da nas zanima prihvaćanje metaverse učionica u odnosu na tradicionalnu online nastavu među studentima. Teorijske osnove:
Sljedeće, u lancu uzročnosti, pretpostavlja se da povećani angažman i percepcija korisnosti ovih učionica dovode do većeg prihvaćanja u usporedbi s tradicionalnom online nastavom.
Kako bi se testirao utjecaj metaverse učionica na prihvaćanje digitalne nastave, istraživanje mora imati jasno definirane varijable, mjere i metode prikupljanja podataka.
Nezavisna varijabla (intervencija):
Vrsta digitalne nastave:
Zavisna varijabla (ishod):
Kontrolne varijable:
Metode prikupljanja podataka:
Mjere:
Istraživačka hipoteza:
Ako je cilj procijeniti razlike u percepciji korisnosti, jednostavnosti korištenja i angažmana između studenata koji koriste metaverse učionice i onih koji koriste tradicionalnu online nastavu, takve razlike mogu se pokazati testiranjem hipoteza, pa korelacija nije potrebna. Ipak, razina prihvaćanja tehnologije (prema TAM modelu) može korelirati s akademskim uspjehom ostvarenim putem metaverse učionica, pa to može poslužiti kao dodatni dokaz ili opažanje pravilnosti u ispitivanju karakteristika učenja u metaverse učionicama.
Metaverse učionice možda nude mogućnost povećanja angažmana i poboljšanja korisničkog iskustva u nastavi u digitalnom obliku, ali pažljivo istraživanje potrebno je za razumijevanje uzročno-posljedičnih odnosa. Iako presječno istraživanje može otkriti povezanosti, za konačne zaključke bilo bi potrebno dugoročno praćenje, kako bi se izbjeglo zaključivanje samo temeljem početne fascinacije.
Kroz ove primjere vidljivo je da su osnovni principi istraživačkog procesa prilagodljivi različitim kontekstima, bilo da se radi o zdravstvenoj skrbi, poslovanju ili ICT-u. Ključni elementi – teorijske osnove (koje pružaju okvir za razumijevanje problema), pretpostavke (koje usmjeravaju istraživačka pitanja) te dizajn istraživanja (koji osigurava strukturirani pristup prikupljanju i analizi podataka) – univerzalni su i primjenjivi na svaki znanstveni ili praktični problem.
Ovi primjeri također naglašavaju važnost pravilne interpretacije rezultata. Bez obzira na kontekst, nužno je razlučiti razlike, povezanosti i uzročno-posljedične odnose te rezultate uvijek tumačiti u širem teorijskom i praktičnom okviru. Na taj način istraživanje ne samo da doprinosi razumijevanju pojedinačnih problema, već osigurava temelje za donošenje informiranih odluka i daljnji razvoj znanja. Vjerujem da sad možete uočiti bitnu razliku u svim aktivnostima koje je potrebno poduzeti kako bi se dokazala kauzacija, pa korelaciju nećete ni slučajno tumačiti kao kauzaciju.
– Više sestrinskog osoblja po pacijentu korelira s nižom stopom smrtnosti pacijenata. Izvor: Aiken, C. S., Clarke, S. P., Sloane, D. M., Sochalski, J., & Silber, J. H. (2002). Hospital nurse staffing and patient mortality, nurse burnout, and job dissatisfaction. JAMA, 288(16), 1987-1993.
– Veći radni teret za medicinske sestre povezan je s nižim ocjenama zadovoljstva pacijenata. Izvor: Kutney-Lee, A. et al. (2009). Changes in hospital nurse work environments and nurse job outcomes. Medical Care, 47(6), 594-600.
– Viša razina burnouta kod sestara korelira s većim brojem medicinskih pogrešaka. Izvor: Vahey, D. E., et al. (2004). Nurse burnout and patient satisfaction. Medical Care, 42(2 Suppl), II57-II66.
– Viša razina obrazovanja medicinskih sestara korelira s boljim ishodima za pacijente, uključujući nižu stopu smrtnosti.Izvor: Aiken, C. S., et al. (2003). Educational levels of hospital nurses and surgical patient mortality. JAMA, 290(12), 1617-1623.
– Bolje radno okruženje povezano je s većom zadržanošću medicinskog osoblja. Izvor: Kane, R. L., et al. (2007). The association of registered nurse staffing levels and patient outcomes. Medical Care, 45(12), 1195-1204.
– Viša kvaliteta dizajna korisničkog sučelja korelira s većim zadovoljstvom korisnika.Izvor: Nielsen, J. (1994). Usability engineering. Morgan Kaufmann.
– Brži odgovor sustava povezan je s većim zadovoljstvom korisnika.Izvor: Parasuraman, A., Zeithaml, V. A., & Malhotra, A. (2005). ES-QUAL: A multiple-item scale for assessing electronic service quality. Journal of service research, 7(3), 213-233.
– Bolji dizajn sučelja korelira s višim stopama uspješnog završetka zadataka. Izvor: Norman, D. A. (1988). The Psychology of Everyday Things. Basic Books.
– Percepcija jednostavnosti korištenja povećava stopu usvajanja novog softvera. Izvor: Davis, F. D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS quarterly, 319-340.
– Postoji li veza između digitalne pismenosti i stavova prema ICT-u? Izvor: Jan, S. (2018). Investigating the Relationship between Students’ Digital Literacy and Their Attitude towards Using ICT. International Journal of Educational Technology, 5(2), 26-34.
– Veza između inovacija, transformacijskog vodstva i organizacijskog učinka. Izvor: Samad, S. (2012). The influence of innovation and transformational leadership on organizational performance. Procedia-Social and behavioral sciences, 57, 486-493.
– Korelacija zadovoljstva i angažmana zaposlenika s učinkom poslovne jedinice. Izvor: Harter, J. K., Schmidt, F. L., & Hayes, T. L. (2002). Business-unit-level relationship between employee satisfaction, employee engagement, and business outcomes: a meta-analysis. Journal of applied psychology, 87(2), 268.
– Više mogućnosti za obuku povezuje se s boljim radnim rezultatima. Izvor: Arthur, J. B., et al. (2003). Effectiveness of training in organizations. Journal of Applied Psychology, 88(2), 234-245.
– Osjećaj podrške od strane menadžera korelira s nižom stopom fluktuacije zaposlenika. Izvor: Eisenberger, R., Huntington, R., Hutchison, S., & Sowa, D. (1986). Perceived organizational support. Journal of Applied psychology, 71(3), 500.
– Bolja strateška planiranja povezana je s boljim financijskim rezultatima. Izvor: Arasa, R., & Obonyo, P. K. (2012). The relationship between strategic planning and firm performance.
– Izdaci za oglašavanje prije velike recesije koreliraju s prihodima od prodaje. Izvor: Taşar, I., Demirel, G., & Kalayci, I. (2014). Correlation of-previous advertisement expenses-and-total sales-of firms during the big recession. Procedia Economics and Finance, 15, 1677-1688.
– Veće zadovoljstvo kupaca povezano je s većom lojalnošću brendu. Izvor: Anderson, E. W., Fornell, C., & Lehmann, D. R. (1994). Customer satisfaction, market share, and profitability: Findings from Sweden. Journal of marketing, 58(3), 53-66.
– Viša vrijednost brenda korelira s većim udjelom na tržištu. Izvor: Keller, K. L. (1993). Conceptualizing, measuring, and managing customer-based brand equity. Journal of marketing, 57(1), 1-22.
– Pozitivne online recenzije povezane su s većom prodajom proizvoda. Izvor: Luca, M. (2016). Reviews, reputation, and revenue: The case of Yelp. com. Com (March 15, 2016). Harvard Business School NOM Unit Working Paper, (12-016).
– Korelacije između korištenja kanala i kreativne strategije i mjera o angažmanu na društvenim medijima. Izvor: Ashley, C., & Tuten, T. (2015). Creative strategies in social media marketing: An exploratory study of branded social content and consumer engagement. Psychology & marketing, 32(1), 15-27.
Ovi primjeri pokazuju raznoliku primjenu korelacijskih analiza u različitim disciplinama – od jednostavnijih do kompleksnijih odnosa i pojava. Svaki primjer nudi uvid u način na koji se varijable mogu međusobno povezati, a povezani članci daju dodatne uvide na koji način teorijska podloga i empirijski dokazi podržavaju analize u tim područjima.
Iako neki od ovih članaka ne prikazuju korelacije izravno, već se oslanjaju na regresijske modele ili konceptualne okvire, svi govore o vezama među varijablama i pružaju temeljitu teorijsku podlogu za očekivane veze među varijablama navodeći prethodna empirijska istraživanja, pomoću kojih grade argumente za svoje tvrdnje. Takvi radovi ističu složenost odnosa, pokazujući da su veze među varijablama višedimenzionalne i ponekad pod utjecajem dodatnih čimbenika te uspostavljaju metodološki okvir i smjernice za dizajn studija. Na taj način, čak i kada se rezultati ne prezentiraju eksplicitno kao koeficijenti korelacije, oni obogaćuju naše razumijevanje i interpretaciju povezanosti.
Osmislite sami 10 primjera korelacije iz svakodnevice.
Anti-primjeri korelacije su osobito popularni zbog toga što djeluju smiješno kad se pokušaju objasniti u uzročno-posljedičnom kontekstu. Na takav način možemo lako naučiti kako prepoznati varijable za koje ne bismo trebali ispitivati korelaciju.
Na stranici spurious correlations možete naći brojne zanimljive primjere u kojima je moguće naći numeričku povezanost između varijabli, ali ta povezanost nema smisla (zbog toga su to anti-primjeri). Ovdje su izdvojeni neki simpatični primjeri, nadam se da će vas nasmijati.
Postoji li veza između stečenih diploma u području edukacijskih znanosti i pretraživanja „Gangam style“ na google-u?
Izvor: Tyler Vigen, Spurious
Correlations
Postoji li veza između postotka posađenog pamuka u Teksasu i broja piratskih napada globalno?
Izvor: Tyler Vigen, Spurious
Correlations
Postoji li veza između globalne potrošnje riže i pretraživanja „imam glavobolju“ putem google-a?
Izvor: Tyler Vigen, Spurious
Correlations
Postoji li veza između potrošnje margarina po glavi stanovnika u SAD-u i stope razvoda u državi Maine?
Izvor: Tyler Vigen, Spurious
Correlations
Postoji li veza između prosječne godišnje potrošnje kućanstva na sredstva za pranje rublja i pretraživanja na googlu „letovi na Antartiku“
Izvor: Tyler Vigen, Spurious
Correlations
Postoji li veza između stope dostave pisama pošte u SAD-u i količine (u postotku) google pretraživanja „vrti mi se“?
Izvor: Tyler Vigen, Spurious
Correlations
Postoji li veza između prosječne udaljenosti između Merkura i Venere i broja njegovatelja u Indiani?
Izvor: Tyler Vigen, Spurious
Correlations
Više anti-primjera korelacija ili lažnih korelacija možete naći na stranici: https://www.tylervigen.com/spurious-correlations
Važno je naglasiti da statistička povezanost, čak i kada je jaka, ne implicira da jedna varijabla uzrokuje drugu. Poželjno je uvijek kombinirati statističke podatke s teorijskim i empirijskim argumentima kako bi se utvrdio pravi uzročno-posljedični odnos. Prikazani anti-primjeri upravo ilustriraju zašto je to potrebno.
Također, u velikim skupovima podataka ili pri testiranju velikog broja varijabli, korelacije mogu nastati i slučajno. Ovaj fenomen dodatno ilustrira potrebu za kritičkim pristupom prilikom interpretacije statističkih rezultata. U istraživanjima se ne smijemo oslanjati isključivo na statističke vrijednosti bez uzimanja u obzir teorijske osnove i logike koja bi povezivala varijable.
No, osim što se može napraviti pogreška i tražiti veza među nepovezanim pojavama, postoje i druge poteškoće, o kojima govori sljedeće poglavlje.
Appleton et al. (1996) proveli su studiju u Whickhamu u Engleskoj na 1314 ispitanice temeljem dva promatranja u razmaku od 10 godina. U prvom promatranju prikupili su podatke o ispitanicama na temu pušenja cigareta, tj. puše li ispitanice ili ne. U drugom ispitivanju, kontaktirali su iste ispitanice kako bi saznali jesu li još žive.
Tablica 1. Sažeti rezultati istraživanja o pušenju i doživljenju
Pušači | Živi | Mrtvi |
---|---|---|
Ne | 502 (68.6 %) | 230 (31.4 %) |
Da | 443 (76.1 %) | 139 (23.9 %) |
Promatranjem ovako prikazanih podataka u tablici moglo bi se doći do pogrešnog zaključka da postoji veza između nepušenja i veće stope smrtnosti. Ako se pak, u obzir uzme dob ispitanika te detaljniji uvid u udjele, situacija se razjašnjava.
Nakon što su rezultati kontrolirani za varijablu dobi, vidi se da je rizik smrtnosti veći za pušačice, u obje dobne skupine. To je, u ovom primjeru, učinjeno metodom stratifikacije.
U ovom slučaju, temeljem prvog prikaza rezultata, činilo se da je pušenje „zaštitni” faktor i vodi do nižeg mortaliteta. Ipak, nakon podjele ispitanica prema godinama (kontrolirano za godine), jasno se može uočiti da je rizik umiranja veći za pušače u obje dobne skupine. Nadalje, promatranjem odnosa dobi i smrtnosti, uočavaju se veće stope smrtnosti za starije ispitanike. Također, promatranjem udjela pušača u uzorku prema dobi, može se uočiti da je više pušača mlađe dobi. U ovoj situaciji, dob moderira odnos između pušenja i smrtnosti.
Dakle, pri promatranju odnosa dviju varijabli, važno je imati na umu kompleksnost stvarnog svijeta, pri čemu na taj odnos može djelovati (ili ga moderirati) dodatna varijabla. Ovo je primjer Simpsonovog paradoksa, u kojem rezultati mogu dovesti do pogrešnih zaključaka ako se isti ne analiziraju dublje i ako se ne utvrdi postojanje drugih relevantnih varijabli koje mogu utjecati na odnose. Radi se o tzv. zbunjujućim ili konfuznim varijablama (engl. confounding variable). Zbunjujuće ili konfuzne varijable su one koje ometaju donošenje zaključka o odnosu dviju varijabli. Simpsonov paradoks češće se pojavljuje u multivarijantnoj analizi.
Još jedan od poznatijih primjera Simpsonovog paradoksa odnosi se na analizu pristupa sveučilišnom obrazovanju, a posebno na studiju o prijemnim ispitima u Kaliforniji (University of California, Berkeley) tijekom 1970-ih (Bickel i sur. 1975).
U tom slučaju, analizirani su podaci o prijemnim ispitima pokazivali su da muškarci imaju nešto veću stopu prihvaćanja u odnosu na žene, što bi na prvi pogled sugeriralo postojanje spolne diskriminacije u korist muškaraca. Međutim, kada su se podaci stratificirali prema pojedinim fakultetima ili odjelima, ispostavilo se da unutar svake skupine žene imaju jednako ili čak veću stopu prihvaćanja u odnosu na muškarce. Sukladno tome, ukupna, agregirana statistika zavarala je jer je bilo razlika u izboru fakulteta – žene su se češće prijavljivale na fakultete s nižim stopama prihvaćanja, dok su muškarci birali odjele s većim postotkom prijema.
Ovaj primjer ilustrira kako se, kada se uzmu u obzir dodatne varijable (u ovom slučaju, specifični fakulteti ili odjeli), može promijeniti interpretacija odnosa između varijabli. Bez stratifikacije, zaključak bi bio pogrešan – da postoji diskriminacija u korist muškaraca – dok detaljnijom analizom postaje jasno da rezultati zapravo odražavaju strukturalne razlike u izboru fakulteta među spolovima, a ne inherentnu pristranost u procesu prijema.
Ovaj je paradoks važno imati na umu pri odabiru varijabli za model, kao i pri tumačenju modela. U nekim će situacijama čak i konstanta u modelu imati ulogu konfuzne varijable. U svakom slučaju, ako rezultati regresijske ili korelacijske analize vode do suprotnih zaključaka postojećim teorijskim spoznajama, potrebno je preispitati ulogu drugih varijabli s obzirom na djelovanje nezavisne na zavisnu varijablu.
Korelacijska analiza je statistička tehnika koja omogućuje mjerenje intenziteta i smjera veze između dviju ili više varijabli. Ona je često među prvim koracima u istraživačkom procesu jer otkriva skrivene obrasce u podacima koji mogu biti ključni za daljnje modeliranje. U suštini, korelacija nam pomaže pretvoriti ‘sirove’ podatke u vrijedne uvide, dajući nam temelj za donošenje informiranih odluka i postavljanje dodatnih pitanja koja usmjeravaju daljnje analize.
Koeficijent korelacije opisuje smjer i jakost povezanosti dviju varijabli. Izračunate vrijednosti koeficijenta korelacije kreću se u intervalu [-1, 1]. Ovdje će se prikazati još neki oblici mjerenja povezanosti, kao na primjer, kovarijanca, koja mjeri povezanost, ali nije koeficijent korelacije i može poprimati vrijednosti izvan tog intervala.
Pearsonov koeficijent korelacije (koji se najčešće izračunava) moguće je računati samo za linearnu povezanost kvantitativnih varijabli. Naravno, koeficijent korelacije moguće je izračunavati i za druge vrste i kombinacije vrsta varijabli, ali u tom slučaju treba obratiti pozornost na odabir odgovarajućeg koeficijenta korelacije (većina nije ponuđena u standardnim alatima za obradu podataka i treba ih postepeno izračunati).
Dijagram raspršenosti (eng. scatter plot) je vrsta grafikona koji prikazuje odnos između dvije numeričke varijable. Svaka točka na dijagramu predstavlja jedno opažanje s vrijednostima za obje varijable.
Kako se iščitava dijagram raspršenosti:
Na što treba obratiti pozornost:
Dijagram raspršenosti je koristan alat za početnu analizu podataka jer omogućuje brzu vizualnu procjenu odnosa između varijabli prije detaljnije statističke analize. Uobičajeno je crtanje dijagrama raspršenosti prvi korak u korelacijskoj analizi.
Najčešće se koristi Pearsonov koeficijent korelacije i njegova je upotreba prikladna za kontinuirano numeričko obilježje. Pearsonov koeficijent korelacije može se izračunati na sljedeće načine:
\[ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}} \]
Ista formula, zapisana putem oznaka suma kvadratnih odstupanja (\(SS\)):
\[r = \frac{SS_{xy}}{\sqrt{SS_{xx} \cdot SS_{yy}}}\]
Dvije verzije “raspisane formule” (koje su korisne ako imamo neke od ovih vrijednosti već izračunate kao pomoćne radnje):
\[r = \frac{n\sum xy - \sum x \sum y}{\sqrt{(n\sum x^2 - (\sum x)^2) \cdot (n\sum y^2 - (\sum y)^2)}}\]
\[r = \frac{\sum xy - n\bar{x} \bar{y}}{\sqrt{(\sum x^2 - n\bar{x}^2) (\sum y^2 - n\bar{y}^2)}}\]
Izračunavanje iz koeficijenta determinacije (ako su nam poznati rezultati modela jednostavne linearne regresije, ali nije naveden koeficijent korelacije, može se izračunati putem ovog izraza):
\[r = \pm \sqrt{R^2}\]
Ilustrativni primjer. Na raspolaganju imamo podatke o visini i težini četiri osobe. Koristit ćemo izraz za izračun:
\[ r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}} \]
gdje su \(x_i\) i \(y_i\) vrijednosti varijabli, a \(\bar{x}\) i \(\bar{y}\) njihove aritmetičke sredine.
Podaci:
Osoba | Visina (cm) | Težina (kg) |
---|---|---|
1 | 160 | 50 |
2 | 165 | 60 |
3 | 170 | 70 |
4 | 175 | 70 |
Aritmetičke sredine:
Pomoćni izračuni:
Osoba | \(x_i\) | \(y_i\) | \(x_i - \bar{x}\) | \(y_i - \bar{y}\) | \((x_i - \bar{x})(y_i - \bar{y})\) | \((x_i - \bar{x})^2\) | \((y_i - \bar{y})^2\) |
---|---|---|---|---|---|---|---|
1 | 160 | 50 | -7.5 | -12.5 | 93.75 | 56.25 | 156.25 |
2 | 165 | 60 | -2.5 | -2.5 | 6.25 | 6.25 | 6.25 |
3 | 170 | 70 | 2.5 | 7.5 | 18.75 | 6.25 | 56.25 |
4 | 175 | 70 | 7.5 | 7.5 | 56.25 | 56.25 | 56.25 |
Ukupno | 175.00 | 125.00 | 275.00 |
Stoga, Pearsonov koeficijent korelacije je:
\[r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}} = \frac{175.00}{\sqrt{125.00 \times 275.00}}\]
\[r \approx \frac{175.00}{185.41} \approx 0.944\]
Rezultat \(r = 0.944\) ukazuje na vrlo jaku pozitivnu linearnu korelaciju između visine i težine u ovom skupu podataka.
Uz Pearsonov koeficijent korelacije, za opisivanje odnosa dviju kontinuiranih numeričkih varijabli često se koristi kovarijanca. Kovarijanca pokazuje koliko se dvije varijable mijenjaju zajedno. Kovarijanca je mjera udružene varijabilnosti dviju varijabli (prisjetimo se - varijanca, \(σ^2\), pokazuje koliko se jedna varijabla mijenja, varira). Kovarijanca postaje više pozitivnom za svaki par vrijednosti koji se razlikuje od njihovih srednjih vrijednosti u istom smjeru te postaje više negativna za svaki par vrijednosti koji se razlikuje od njih ovih srednjih vrijednosti u suprotnim smjerovima
\[\sigma_{xy}^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{N}\]
Kovarijanca nije normalizirana/ standardizirana mjera, pa njezina interpretacija ovisi o vrijednostima koje poprimaju promatrane varijable.
Pokušajte sami izračunati za prethodni primjer. (Hint: usporedite brojnike)
Za utvrđivanje odnosa između dviju varijabli od kojih je barem jedna mjerena na ordinalnoj ljestvici (a druga može biti kvantitativna), koristi se Spearmanov koeficijent korelacije. Iako je to primarna namjena ovog koeficijenta, on se koristi i za kvantifikaciju nelinearnih monotonih odnosa između dviju kvantitativnih (ili ordinalne i kvantitativne, ili dvije ordinalne) varijable. Izračunava se prema izrazu:
\[r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)}\]
gdje je d je razlika rangova varijabla, n je broj opažanja (broj članova niza).
Ilustrativni primjer. Prikazana je tablica s četiri opažanja, gdje “Sati treninga” predstavlja kontinuiranu varijablu, a “Zadovoljstvo” je ordinalna varijabla (s interpretiranim numeričkim rangom).
Opažanje | Sati treninga | Zadovoljstvo (ordinalno) | Rang sati treninga | Rang zadovoljstva | d | d² |
---|---|---|---|---|---|---|
1 | 2 | Srednji (2) | 1 | 2 | -1 | 1 |
2 | 4 | Visok (3) | 3 | 3 | 0 | 0 |
3 | 3 | Nizak (1) | 2 | 1 | 1 | 1 |
4 | 5 | Vrlo visok (4) | 4 | 4 | 0 | 0 |
Koraci izračuna:
Rangiramo “Sate treninga”: vrijednosti 2, 3, 4 i 5 dobivaju rangove 1, 2, 3 i 4. “Zadovoljstvo” već ima pripisane rangove prema svojim ordinalnim vrijednostima (Nizak = 1, Srednji = 2, Visok = 3, Vrlo visok = 4).
Za svako opažanje izračunavamo razliku između ranga sati treninga i ranga zadovoljstva (d), te kvadriramo tu razliku u sljedećem pomoćnom stupcu (d²). U ovom primjeru, zbroj kvadrata razlika je 1 + 0 + 1 + 0 = 2.
Primjenjujemo Spearmanovu formulu:
\[r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)}\]
gdje je \(n = 4\). Tako dobivamo:
\[r_s = 1 - \frac{6 \cdot 2}{4(16-1)} = 1 - \frac{12}{4 \cdot 15} = 1 - \frac{12}{60} = 1 - 0.2 = 0.8\]
Spearmanov koeficijent korelacije iznosi 0.8, što ukazuje na umjerenu do jaku pozitivnu monotonu povezanost između sati treninga i zadovoljstva.
Kendallov τ (tau) bez uvažavanja veza je:
\[ \tau = \frac{N_c - N_d}{\frac{1}{2}n(n-1)}, \]
gdje su \(N_c\) i \(N_d\) brojevi konkordantnih i diskordantnih parova, a n ukupan broj promatranja. Postoje i varijante koje uvažavaju veze.
Ilustrativni primjer. U našem primjeru, istražujemo povezanost između rangova zadovoljstva zaposlenika i rangova ocjene radnog okruženja. Obje varijable su ordinalne, što znači da se vrijednosti ne mogu precizno mjeriti u količinama, nego samo rangirati. Za procjenu njihove povezanosti prikladno je koristiti Kendallov koeficijent korelacije. Ako su parovi u oba skupa rangova usklađeni (tj. oba se povećavaju ili smanjuju zajedno), par se smatra konkordantnim, dok su oni koji se razlikuju diskordantni.
Zaposlenik | Rang zadovoljstva | Rang radnog okruženja |
---|---|---|
A | 1 | 2 |
B | 2 | 1 |
C | 3 | 4 |
D | 4 | 3 |
U ovom primjeru, nakon identifikacije konkordantnih i diskordantnih parova, izračunata vrijednost Kendallovog \(τ\) (ili \(τ_B\) ako su prisutne vezane vrijednosti) daje mjeru povezanosti koja se kreće između -1 i 1, gdje negativna vrijednost ukazuje na inverznu, a pozitivna na direktnu povezanost. Ova mjera je posebno korisna kod ordinalnih podataka jer ne zahtijeva pretpostavku o normalnoj distribuciji i robustnija je na prisutnost izdvojenica.
Par | Rang zadovoljstva (razlika) | Rang okruženja (razlika) | Tip |
---|---|---|---|
A, B | 1 – 2 = –1 | 2 – 1 = 1 | Diskordantno |
A, C | 1 – 3 = –2 | 2 – 4 = –2 | Konkordantno |
A, D | 1 – 4 = –3 | 2 – 3 = –1 | Konkordantno |
B, C | 2 – 3 = –1 | 1 – 4 = –3 | Konkordantno |
B, D | 2 – 4 = –2 | 1 – 3 = –2 | Konkordantno |
C, D | 3 – 4 = –1 | 4 – 3 = 1 | Diskordantno |
Iz tablice vidimo da su: - Broj konkordantnih parova, \(N_c = 4\) - Broj diskordantnih parova, \(N_d = 2\) - Ukupan broj parova je \(\frac{1}{2} \times 4 \times (4-1) = 6\)
Stoga se Kendallov τ računa kao:
\[ \tau = \frac{N_c - N_d}{\frac{1}{2}n(n-1)} = \frac{4 - 2}{6} = 0.3333 \]
Dakle, postoji umjerena povezanost pozitivnog smjera između zadovoljstva zaposlenika i ocjene radnog okruženja.
Goodman i Kruskalov λ (lambda) mjeri proporcionalno smanjenje pogreške kada se uzme u obzir kategorijska varijabla. Jedan od oblika zapisa je:
\[ \lambda = \frac{\sum_{i=1}^{I} n_{i\cdot} - \sum_{i=1}^{I} \max_j(n_{ij})}{N - \max_i(n_{i\cdot})} \]
gdje je \(n_{ij}\) broj
promatranja u ćeliji \((i,j)\), \(n_i\) zbroj redaka, a \(N\) ukupni broj promatranja.
Ilustrativni primjer. Ovaj primjer ilustrira izračun Goodman i Kruskalovog λ, mjere koja pokazuje koliko se pogreška u predviđanju smanjuje kada se uzme u obzir dodatna kategorizacijska varijabla. U ovom slučaju, ispitujemo koliko informacija o tipu prebivališta (Urbano, Prigradsko, Ruralno) doprinosi boljoj predikciji preferencije restorana (Brza hrana, Srednji, Luksuzni).
Prebivalište | Brza hrana | Srednji | Luksuzni | Ukupno |
---|---|---|---|---|
Urbano | 30 | 50 | 20 | 100 |
Prigradsko | 10 | 60 | 30 | 100 |
Ruralno | 50 | 30 | 20 | 100 |
Ukupno | 90 | 140 | 70 | 300 |
Koraci izračuna:
Bez dodatnih informacija, najbolja predikcija za sve slučajeve je odabrati najčešću kategoriju u cijelom uzorku. U ovom primjeru, to je „Srednji“ jer se pojavljuje 140 puta. Greška predviđanja bez stratifikacije iznosi 300 − 140 = 160.
Kada se podaci stratificiraju prema tipu prebivališta:
Goodman i Kruskalov λ izračunava se kao:
\[ \lambda = \frac{(160 - 140)}{160} = \frac{20}{160} = 0.125 \]
Goodman i Kruskalov λ se može promatrati kao mjera korelacije jer kvantificira koliko se preciznije može predvidjeti kategorijska zavisna varijabla kada se uključi informacija o nekoj drugoj varijabli. Na taj način λ mjeri jačinu povezanosti između varijabli na način sličan tradicionalnim korelacijskim mjerama, gdje veća vrijednost λ (bliža 1) ukazuje na jaču povezanost i značajnije smanjenje pogreške predviđanja. Veća vrijednost λ znači da ‘znanje’ o jednoj varijabli značajno poboljšava predviđanje vrijednosti druge varijable, čime se pokazuje da su varijable povezane, iako se radi o mjeri prilagođenoj za kategorijske podatke.
Fleiss Kappa standardno mjeri inter-rater pouzdanost kod više ocjenjivača. Jedan standardni zapis je:
\[\kappa = \frac{\bar{P} - \bar{P_e}}{1 - \bar{P_e}},\]
\[\bar{P} = \frac{1}{N}\sum_{i=1}^{N} \frac{1}{n(n-1)} \sum_{j=1}^{k} n_{ij}(n_{ij} - 1),\]
\[\bar{P_e} = \sum_{j=1}^{k} p_j^2,\quad \text{gdje je } p_j = \frac{1}{Nn}\sum_{i=1}^{N} n_{ij}.\]
Ovdje \(n_{ij}\) označava broj ocjena kategorije \(j\) za ispitanika \(i\), \(n\) broj ocjenjivača, \(N\) broj ispitanika, a \(k\) broj kategorija. Fleiss kappa se koristi kad:
Zbog ovih karakteristika, Fleiss kappa se često koristi u istraživanjima koja uključuju procjenu kvalitativnih varijabli, kao što su dijagnostičke klasifikacije, evaluacije obrazovnih ocjena, ili ocjenjivanje sadržaja u medijskim istraživanjima. Time se Fleiss kappa može smatrati koeficijentom korelacije jer kvantificira povezanost (tj. usklađenost) između ocjena koje ocjenjivači daju, pružajući brojčanu vrijednost koja odražava koliko su te ocjene međusobno konzistentne.
Ilustrativni primjer. Imamo 4 ispitanika (N = 4), 3 ocjenjivača (n = 3) i 3 kategorije (k = 3). Možemo zamisliti da se radi o 4 osobe koje su došle na razgovor za posao i odgovaraju na tri pitanja pred povjerenstvom od tri člana. Ocjene koje su ocjenjivači dali ispitanicima organizirane su u sljedećoj tablici, gdje \(n_{ij}\) predstavlja broj ocjena u kategoriji \(j\) za ispitanika \(i\):
Ispitanik | Kategorija 1 | Kategorija 2 | Kategorija 3 |
---|---|---|---|
1 | 2 | 1 | 0 |
2 | 3 | 0 | 0 |
3 | 0 | 3 | 0 |
4 | 0 | 0 | 3 |
Korak 1. Izračunavanje \(P_i\) za svakog ispitanika*
Formula za \(P_i\) je:
\[ P_i = \frac{\sum_{j=1}^{k} n_{ij}(n_{ij} - 1)}{n(n-1)} \]
gdje je \(n = 3\).
\(\sum n_{1j}(n_{1j}-1) = 2\cdot(2-1) + 1\cdot(1-1) + 0\cdot(0-1) = 2 + 0 + 0 = 2\)
\(P_1 = \frac{2}{3\cdot2} = \frac{2}{6} \approx 0.3333\)
\(\sum n_{2j}(n_{2j}-1) = 3\cdot(3-1) + 0\cdot(0-1) + 0\cdot(0-1) = 3\cdot2 = 6\)
\(P_2 = \frac{6}{6} = 1\)
Sličnim postupkom dobivamo \(P_3 = 1\)
Dobivamo \(P_4 = 1\)
Prosječna vrijednost svih \(P_i\) (označena s \(\bar{P}\)) je:
\[\bar{P} = \frac{0.3333 + 1 + 1 + 1}{4} = \frac{3.3333}{4} \approx 0.8333\]
Korak 2. Izračunavanje \(p_j\) za svaku kategoriju
\(p_j\) se računa kao:
\[p_j = \frac{1}{Nn} \sum_{i=1}^{N} n_{ij}\]
Ukupne ocjene po kategorijama:
\[p_1 = \frac{5}{4\cdot3} = \frac{5}{12} \approx 0.4167\] - Kategorija 2: \(1 + 0 + 3 + 0 = 4\)
\[p_2 = \frac{4}{12} \approx 0.3333\]
\[p_3 = \frac{3}{12} = 0.25\]
Izračunavamo očekivanu slučajnu usklađenost:
\[\bar{P_e} = p_1^2 + p_2^2 + p_3^2 \approx (0.4167^2 + 0.3333^2 + 0.25^2) \approx (0.1736 + 0.1111 + 0.0625) = 0.3472\]
Korak 3. Izračun Fleiss kappa
Fleiss kappa se računa kao:
\[\kappa = \frac{\bar{P} - \bar{P_e}}{1 - \bar{P_e}} = \frac{0.8333 - 0.3472}{1 - 0.3472} = \frac{0.4861}{0.6528} \approx 0.745\]
Ovaj rezultat (\(\kappa \approx 0.745\)) ukazuje na visoku razinu usklađenosti među ocjenjivačima.
Pritom, Fleiss kappa kvantificira stupanj slaganja između ocjenjivača, odnosno koliko su njihove ocjene konzistentne, slično kao što Pearsonov koeficijent mjeri povezanost između kontinuiranih varijabli. Daje vrijednost unutar raspona od -1 do 1, pri čemu vrijednosti bliže 1 ukazuju na veću usklađenost, a vrijednosti bliže 0 na manju te omogućuje interpretaciju jačine i smjera odnosa između varijabli ili ocjena. U slučaju Fleiss kappa, umjesto mjerne povezanosti između numeričkih vrijednosti, mjeri se usklađenost među ocjenjivačima uz korekciju za slučajnu podudarnost, čime se dobiva brojčana vrijednost koja odražava koliki je stupanj slaganja – tj. korelacije – u njihovim ocenama.
Goodman i Kruskalov γ (gamma) definira se kao omjer razlike između broja konkordantnih i diskordantnih parova i njihovog zbroja:
\[ \gamma = \frac{N_c - N_d}{N_c + N_d}, \]
gdje su \(N_c\) broj konkordantnih parova, a \(N_d\) broj diskordantnih parova.
Ilustrativni primjer. U anketi su zaposlenici ocijenili svoju motivaciju (od 1 – niska do 5 – visoka) te zadovoljstvo poslom (od 1 – nezadovoljan do 5 – vrlo zadovoljan). Sljedeća tablica prikazuje rezultate za 4 zaposlenika:
Zaposlenik | Motivacija | Zadovoljstvo poslom |
---|---|---|
A | 2 | 3 |
B | 4 | 5 |
C | 3 | 4 |
D | 1 | 2 |
Kako bismo izračunali Goodman i Kruskalov γ, uspoređujemo svaki par zaposlenika i određujemo je li redoslijed u obje varijable isti (konkordantan) ili različit (diskordantan) pomoću pomoćne tablice:
Par | Motivacija (redoslijed) | Zadovoljstvo (redoslijed) | Klasifikacija |
---|---|---|---|
A – B | 2 < 4 | 3 < 5 | Konkordantan |
A – C | 2 < 3 | 3 < 4 | Konkordantan |
A – D | 2 > 1 | 3 > 2 | Konkordantan |
B – C | 4 > 3 | 5 > 4 | Konkordantan |
B – D | 4 > 1 | 5 > 2 | Konkordantan |
C – D | 3 > 1 | 4 > 2 | Konkordantan |
Ukupno imamo:
γ se računa prema formuli:
\[ \gamma = \frac{N_c - N_d}{N_c + N_d} \]
Uvrštavanjem vrijednosti:
\[ \gamma = \frac{6 - 0}{6 + 0} = 1 \]
Rezultat (γ = 1) ukazuje na savršenu pozitivnu povezanost između ocjena motivacije i zadovoljstva poslom.
Phi koeficijent koristi se za 2×2 kontingencijske tablice i definira se kao:
\[ \phi = \frac{n_{11}n_{22} - n_{12}n_{21}}{\sqrt{n_{1\cdot} n_{2\cdot} n_{\cdot1} n_{\cdot2}}}, \]
gdje su \(n_{ij}\) brojevi u ćelijama tablice, \(n_1\) i \(n_2\) zbrojevi redaka, a \(n_{\cdot1}\) i \(n_{\cdot2}\) zbrojevi stupaca.
Ilustrativni primjer. Na raspolaganju nam je 2×2 kontingencijska tablica koja prikazuje odnos između dvije kategorijske varijable: “Dolasci na pregled” i “Postavljena dijagnoza”. U sljedećoj tablici prikazani su brojevi opažanja:
Postavljena dijagnoza: Da | Postavljena dijagnoza: Ne | Redak suma | |
---|---|---|---|
Dolazi: Da | 30 | 20 | 50 |
Dolazi: Ne | 10 | 40 | 50 |
Stupac suma | 40 | 60 | 100 |
Prema formuli za Phi koeficijent:
\[ \phi = \frac{n_{11}n_{22} - n_{12}n_{21}}{\sqrt{n_{1\cdot} \, n_{2\cdot} \, n_{\cdot1} \, n_{\cdot2}}}, \]
gdje su:
Izračun se može prikazati pomoću pomoćne tablice:
\(n_{11} \cdot n_{22}=30 \cdot 40=1200\)
\(n_{12} \cdot n_{21}=20 \cdot 10=200\)
\(\text{Brojnik}= 1200 - 200 = 1000\)
\(n_{1\cdot} \cdot n_{2\cdot} = 50 \cdot 50=2500\)
\(n_{\cdot1} \cdot n_{\cdot2} = 40 \cdot 60=2400\)
\(\text{Nazivnik} = \sqrt{2500 \cdot 2400} = \sqrt{6\,000\,000} \approx 2449.5\)
\(\phi = \frac{1000}{2449.5}= 0.408\)
Rezultat (\(\phi \approx 0.408\)) ukazuje na umjerenu pozitivnu povezanost između varijabli “Dolazi na pregled” i “Postavljena dijagnoza”. Ovaj koeficijent se može promatrati kao mjera korelacije jer kvantificira stupanj usklađenosti između dviju nominalnih varijabli, pokazujući koliko se njihove vrijednosti “povezuju” u smislu zajedničke varijabilnosti.
Szekelyjeva kovarijanca distanci definira se na temelju dvostruko centriranih matrica udaljenosti. Jedan od zapisa je:
\[ \text{dCov}^2(X,Y) = \frac{1}{n^2} \sum_{j,k=1}^{n} A_{jk} B_{jk}, \]
\[ A_{jk} = a_{jk} - \bar{a}_{j\cdot} - \bar{a}_{\cdot k} + \bar{a}_{\cdot\cdot}, \]
gdje je \(a_{jk}=∣x_j−x_k∣\) (slično se definira \(b_{jk}\) za Y), a centrirane vrijednosti \(\bar{a}_{j\cdot}\),\(\bar{a}_{\cdot k}\) i \(\bar{a}_{\cdot\cdot}\) su prosjeci redaka, stupaca i ukupni prosjek.
Szekelyjeva distanca kovarijanci mjeri stupanj ovisnosti između dviju slučajnih varijabli (ili vektora), pri čemu je vrijednost jednaka nuli ako i samo ako su varijable nezavisne. Drugim riječima, što je vrijednost veća, to postoji jači (moguće i nelinearni) odnos između varijabli. Za razliku od klasične kovarijance koja mjeri samo linearnu povezanost, Szekelyjeva distanca kovarijanci može otkriti i složenije, nelinearne odnose. U praksi se koristi kako bi se kvantificirala ovisnost među varijablama na standardiziran način, što omogućuje usporedbu među različitim skupovima podataka.
RV koeficijent mjeri sličnost između dva skupa varijabli i definira se kao:
\[ RV = \frac{\text{tr}(X Y^T Y X^T)}{\sqrt{\text{tr}((X X^T)^2) \cdot \text{tr}((Y Y^T)^2)}}, \]
gdje su X i Y centrirane matrice podataka, a tr(⋅) označava trag matrice. RV koeficijent mjeri sličnost između dva skupa varijabli kroz usporedbu njihove strukture varijacija. Vrijednosti RV koeficijenta kreću se od 0 do 1, pri čemu vrijednost bliža 0 ukazuje na malu sličnost (ili gotovo potpunu različitost) između varijabli, dok vrijednost bliža 1 znači da su varijable vrlo slične u smislu njihovih međusobnih odnosa i varijabilnosti. Drugim riječima, visoka vrijednost RV koeficijenta sugerira da varijable dijele slične obrasce i strukturu podataka, dok niska vrijednost implicira da varijable imaju različite ili nezavisne obrasce.
Najčešće korišteni koeficijenti korelacije su, redom:
Iako je korisno znati da postoje i drugi koeficijenti, najčešće je potrebno mjeriti povezanost kvantitativnih i stupnjevitih (ordinalnih) varijabli. Stoga ćemo se u nastavku baviti samo ovim koeficijentima, s naglaskom na Pearsonov koeficijent korelacije.
Pri odabiru koeficijenta korelacije, ključno je postaviti niz pitanja koja će nas voditi prema odabiru najprikladnije mjere, ovisno o prirodi podataka i istraživačkim ciljevima. Evo tipičnog redoslijeda razmišljanja i pitanja:
Vrsta varijabli:
Raspodjela reziduala i prisutnost odstupanja:
Priroda odnosa:
Veličina uzorka:
Uloga dodatnih varijabli:
Ovim redoslijedom odlučivanja uočava se da preferiramo pristup koji započinje analizom osnovne prirode i raspodjele podataka (razina mjerenja i distribucija), zatim prelazi na ispitivanje oblika odnosa i specifičnih uvjeta istraživanja (npr. reziduali) te konačno, razmatra utjecaj dodatnih varijabli. Tako osiguravamo da odabrani koeficijent korelacije bude statistički ispravan i interpretativno relevantan za postavljene istraživačke ciljeve.
Nul hipoteza o koeficijentu korelacije tvrdi da veza ne postoji:
\[H_0 ... r=0\]
dok altenativna tvrdi suprotno:
\[H_1 ... r \neq 0\]
Drugim riječima, ako se nul hipoteza uspješno odbaci, onda se smatra da je usklađenost varijacija u varijablama više od puke slučajnosti (naravno, uz pretpostavku da postoji smislena povezanost među varijablama i teorijsko uporište za taj odnos). Tada se tumačenje vezuje uz \(H_1\) i izračunatu vrijednost koeficijenta.
Ovdje je kao koeficijent korelacije zapisan \(r\), implicirajući Pearsonov koeficijent korelacije. Za Spearmanov bismo umjesto \(r\) upisali \(\rho\), za Kendallov \(\tau\) itd. No, hipoteza o koeficijentu korelacije također znači da time prelazimo u aspekte inferencijalne statistike. Stoga se moramo još kratko pozabaviti pitanjem zadovoljavanja pretpostavki, koje su specifične za Pearsonov koeficijent korelacije (kojim ćemo se i naviše baviti u nastavku).
Pearsonov koeficijent korelacije i bivarijantna normalnost:
Da bismo ispravnije procijenili možemo li (smijemo li) koristiti Pearsonov koeficijent korelacije, provodimo Shapiro-Wilk test normalnosti. Za izračunavanje Pearsonovog koeficijenta korelacije nije nužno da cijeli skup podataka zadovoljava uvjet ravnanja prema normalnoj distribuciji. Međutim, za izvođenje statističkih testova značajnosti Pearsonovog koeficijenta korelacije pretpostavlja se bivarijantna normalnost – odnosno, da zajednička distribucija dviju varijabli (npr. X i Y) bude normalna. Ta je pretpostavka važna za ispravno izvođenje inferencijalnih procedura.
Bivarijantna normalnost:
Osim bivarijantne, postoji multivarijatna normalnost, koja predstavlja proširenje koncepta normalne distribucije na više varijabli. Dok je za jednu varijablu normalna distribucija definirana oblikom zvonolike krivulje, multivarijatna normalnost opisuje zajedničku distribuciju više varijabli koje su međusobno povezane.
Glavne karakteristike multivarijatne normalnosti:
Iako se ovdje navodi samo radi šireg konteksta, multivarijantna normalnost postaje važna tek kada se analizira više varijabli istovremeno u metodama koje zahtijevaju procjenu zajedničke distribucije podataka (npr. u multivarijantnoj analizi varijance (MANOVA), diskriminantnoj analizi, faktorskoj analizi, modeliranje strukturnim jednadžbama (SEM) ili kanonskoj korelacijskoj analizi - sve su to modeli koji premašuju teme ovog teksta) gdje je pretpostavka da svaka linearna kombinacija analiziranih varijabli slijedi normalnu distribuciju.
Međutim, kod jednostavnih modela kao što su jednostavna linearna regresija ili Pearsonova korelacija, bitno je da su reziduali približno normalni ili bivarijantna normalnost ispoštovana (redom), dok multivarijantna normalnost nije nužna.
U praksi, analitičari često nailaze na podatke koji ne zadovoljavaju strogu normalnost, no to ne sprječava upotrebu linearne korelacije i regresije (odstupanja od normalnosti u maloj do umjerenoj mjeri, ako je uzorak dovoljno velik, obično neće značajno narušiti rezultate, zahvaljujući centralnom graničnom teoremu). Ako podaci odstupaju, primjenjuju se transformacije (npr. log transformacija) ili se prelazi na neparametrijske metode poput Spearmanove korelacije, koje ne zahtijevaju pretpostavku normalnosti. No, treba voditi računa o tome da Pearsonov koeficijent korelacije pretpostavlja bivarijantnu normalnost – dakle, da zajednička distribucija dviju varijabli slijedi normalnu raspodjelu.
Reziduali su “ostatci” ili razlike između stvarno opaženih vrijednosti i onoga što naš model (ili predviđanje) očekuje. Zamislite da imate liniju koja najbolje opisuje trend podataka, a svaka točka na grafu predstavlja stvarnu mjerenu vrijednost. Rezidual je vertikalna udaljenost te točke od linije modela. Ako je model savršen, sve točke bi ležale na liniji i svi reziduali bi bili jednaki nuli. U radu sa stvarnim podacima to neće biti slučaj, pa reziduali pokazuju koliko i u kojem smjeru (previše ili premalo) model “griješi” u svom predviđanju. Ovi “ostatci” pomažu nam razumjeti i procijeniti koliko je naš model dobar te ukazuju na moguće probleme poput nelinearnosti ili varijabilnosti (heteroskedastičnosti) u podacima. Reziduale ćemo spominjati i pri kreiranju modela jednostavne linearne regresije, kad će povezanost Pearsonovog koeficijenta korelacije i jednostavne linearne regresije postati jasnija.
Izračunata vrijednost koeficijenta korelacije u pravilu se tumači temeljem Chaddockove ljestvice.
Dakle, s obzirom na apsolutnu veličinu izračunatog koeficijenta korelacije, ona može biti slaba, umjerena ili jaka. S obzirom na smjer, može imati pozitivan ili negativan smjer.
Pozitivan smjer korelacije kaže da se, kako se vrijednosti varijable x povećavaju, povećavaju se i vrijednosti varijable y. Pojednostavljeno – kako x raste i y raste. Negativan smjer korelacije naziva se i inverzna korelacija, jer kako vrijednosti x-a rastu, vrijednosti y-a se smanjuju.
Vrijednosti koeficijenta korelacije r od točno -1, 0 ili 1 izuzetno su rijetke kada radimo sa stvarnim podacima. Razlog tome je što u stvarnom svijetu varijable rijetko imaju savršenu (linearnu) povezanost ili su potpuno nepovezane. Ove ekstremne vrijednosti obično su rezultat posebnih okolnosti ili grešaka u analizi.
Koeficijent korelacije od 1 ili -1 značio bi da postoji savršena linearna povezanost između varijabli: pozitivna (1) ili negativna (-1). Takva situacija može se dogoditi samo ako se jedna varijabla deterministički izračunava iz druge, na primjer:
Dakle, ovo su anti-primjeri, ovo nisu pravi korelacijski odnosi, nego matematička povezanost, što znači da smo pogrešno pristupili analizi i u odnos stavili varijable koje ne bi trebalo zajedno razmatrati u korelacijskoj analizi. Korelacijska analiza ima svrhu ispitivanja odnosa između dvije različite varijable. Ako varijable nisu stvarno različite (npr. jedna je izvedena iz druge), korelacija gubi smisao jer ne istražujemo prirodnu povezanost dviju varijabli. Varijable moraju biti nezavisne.
Kada prelazimo iz eksploracijske i deskriptivne analize u inferencijalnu statistiku, ulazimo u domenu donošenja zaključaka o populaciji na temelju uzorka. U slučaju korelacije, inferencijalna statistika omogućuje nam testiranje hipoteza o povezanosti dviju varijabli u populaciji. Na primjer, izračunavanje p-vrijednosti za koeficijent korelacije omogućuje nam da procijenimo vjerojatnost da uočena povezanost u uzorku (ni)je slučajna (tj. da nema povezanosti u populaciji i koeficijent korelacije nije statistički značajno različit od nule, \(H_0…r=0\) ili da koeficijent korelacije jest statistički značajno različit od nule za promatranu populaciju, \(H_1...r \neq 0\)).
Ovaj prijelaz ima ključne implikacije za tumačenje rezultata. Eksploracijska analiza može ukazati na smjer i snagu povezanosti unutar uzorka, ali tek inferencijalna statistika daje alat za procjenu tih rezultata i njihovu generalizaciju. Generalizacija također podrazumijeva uzimanje u obzir veličine uzorka i reprezentativnosti, jer mali ili nereprezentativni uzorci mogu ograničiti valjanost zaključaka o populaciji.
U tom kontekstu, korelacija postaje više od puke numeričke povezanosti; ona postaje alat za donošenje odluka, koji mora biti oprezno primijenjen kako bi se izbjegla pogrešna tumačenja ili prekomjerna ekstrapolacija rezultata. Ovo je posebno važno pri odlučivanju o daljnjim koracima u analizi, primjerice prelasku na regresiju, čime se otvara prostor za još složenije modele generalizacije i inferencije.
Postoji li veza između tjelesne aktivnosti i BMI-a?
U JASP-ovoj knjižnici (Data library), u sekciji Regression, nalazi se skup podataka Physical activity and BMI. Skup podataka preuzet je iz Moore, D. S., McCabe, G. P. i Craig, B. A. (2012) te Mestek, M. L., Plaisance, E. i Grandjean, P. (2008). Podaci u CSV formatu mogu se preuzeti i putem linka.
Ovaj podatkovni skup, pod nazivom “Tjelesna aktivnost i BMI”, sadrži podatke o Indeksu tjelesne mase (BMI) i prosječnom dnevnom broju koraka sudionika. Teorijska podloga za ispitivanje odnosa između prosječnog dnevnog broja koraka (tjelesne aktivnosti) i indeksa tjelesne mase (BMI) temelji se na biomedicinskim i zdravstvenim teorijama koje povezuju tjelesnu aktivnost s regulacijom tjelesne mase i zdravljem:
Mehanizam povezanosti:
Empirijska podrška:
Varijable u ovom skupu su PA – Tjelesna aktivnost, prikazana kao prosječan dnevni broj koraka (izražen u tisućama) i BMI – Indeks tjelesne mase. Obje su varijable kvantitativne, mjerene na omjernoj razini. Temeljem ovih podataka, ispitat ćemo postoji li i u kojoj mjeri povezanost između prosječnog dnevnog broja koraka i BMI-a.
Tablica 2. Pokazatelji deskriptivne statistike
PA | BMI | |
---|---|---|
Valid | 100 | 100 |
Missing | 0 | 0 |
Modeᵃ | 3.1860 | 21.8000 |
Median | 8.4085 | 24.4500 |
Mean | 8.6137 | 23.9390 |
Std. Deviation | 2.3199 | 3.9408 |
Skewness | 0.1171 | -0.0208 |
Kurtosis | -0.4618 | 0.0710 |
Shapiro-Wilk | 0.9910 | 0.9880 |
P-value of Shapiro-Wilk | 0.7466 | 0.5067 |
Minimum | 3.1860 | 14.2000 |
Maximum | 14.2090 | 35.1000 |
Q1 | 6.8025 | 21.1000 |
Q3 | 10.2737 | 26.7500 |
ᵃ More than one mode exists, only the first is reported.
Temeljem prvih uvida u pokazatelje deskriptivne statistike, možemo vidjeti da je zabilježeno 100 opažanja za svaku varijablu. Ispitanici su prosječno napravili 8613.7 koraka na dan, a koraci standardno odstupaju od prosjeka za 2319.9 koraka. Medijan, koji je manji od prosjeka te koeficijent asimetrije, upućuju na blago pozitivno asimetričnu distribuciju. Distribucija je vrhom blago spljoštenija od normalne, ali se varijabla i dalje ravna približno normalnoj distribuciji, što pokazuje rezultat Shapiro-Wilk testa.
Ispitanici imaju prosječan BMI od 23.939, uz standardno odstupanje od prosjeka za 3.94 boda. Najmanja vrijednost BMI u uzorku je 14.2, a najveća 35.1. Distribucija je približno normalno distribuirana (što vidimo temeljem Shapiro-Wilk testa).
Sljedeći korak pri ispitivanju ovog odnosa je grafički prikaz koristeći dijagram rasipanja.
Dijagram rasipanja, dijagram raspršenosti ili scatter plot prikazuje odnos između dvije varijable:
X-os (PA): Prosječan dnevni broj koraka (tjelesna aktivnost) izražen u tisućama.
Y-os (BMI): Indeks tjelesne mase sudionika.
Svaka točka na grafu predstavlja jednog sudionika, gdje su:
Ako su točke smještene bliže pravcu, očekujemo veću apsolutnu vrijednost koeficijenta korelacije. Ako su točke jako raštrkane u kružnom obliku, bez jasnog smjera, očekujemo mali koeficijent korelacije i korelaciju koja nije statistički značajna. Ako oblak točaka tvori liniju ili uži pravokutni oblik uz nagib, odnos će biti linearan, no ako točke tvore zakrivljeni obrazac (npr. u obliku parabole ili logaritamske funkcije), koeficijent linearne korelacije neće točno opisati povezanost među varijablama.
Kako se iščitava?
Ovdje se može donekle uočiti linearnost odnosa, ali se ne očekuje jaki koeficijent korelacije. To se može provjeriti izračunom koeficijenta korelacije. No, da bismo ispravnije procijenili koji koeficijent korelacije koristiti, provodimo Shapiro-Wilk test normalnosti.
Reziduali su “ostatci” ili razlike između stvarno opaženih vrijednosti i onoga što naš model (ili predviđanje) očekuje. Zamislite da imate liniju koja najbolje opisuje trend podataka, a svaka točka na grafu predstavlja stvarnu mjerenu vrijednost. Rezidual je vertikalna udaljenost te točke od linije modela. Ako je model savršen, sve točke bi ležale na liniji i svi reziduali bi bili jednaki nuli. U praksi to nije slučaj, pa reziduali pokazuju koliko i u kojem smjeru (previše ili premalo) model “pogriješi” u svom predviđanju. Ovi “ostatci” pomažu nam da razumijemo i procijenimo koliko je naš model dobar te ukazuju na moguće probleme poput nelinearnosti ili varijabilnosti (heteroskedastičnosti) u podacima.
To je najjednostavnije prikazati za Pearsonov koeficijent korelacije, čiji su izračun i pretpostavke usko vezani uz jednostavnu linearnu regresiju. Kako ne bismo skakali pred rudo i preuranjeno objašnjavali jednostavnu linearnu regresiju i metodu najmanjih kvadrata, ovdje će se samo pružiti slika, radi ilustracije ideje navedene linije i točaka oko nje, kao i reziduala. Ova slika će se ponoviti i kasnije, kad će se svi elementi detaljnije navesti, no ovdje ćemo se usredotočiti na reziduale.
Na slici je svaka narančasta točka izmjerena vrijednost (opažanje), dok je smeđa crta „najbolje“ linearno predviđanje tih vrijednosti. Rezidual je jednostavno razlika između svake točke i crte, tj. koliko se stvarno izmjerena vrijednost „odmaknula“ od vrijednosti koju predviđa linija.
Ako pogledamo okomito na liniju, vidjet ćemo koliko svaka točka „odstupa“ – to odstupanje (udaljenost po vertikali) zovemo rezidualom. Što je rezidual manji, to je linija bolja u predviđanju te konkretne točke. Kada zbrajamo (ili analiziramo) sve reziduale, možemo ocijeniti koliko je cijeli model (linija) uspješan u opisivanju odnosa među varijablama.
Ako govorimo o korelaciji (točnije o Pearsonovoj korelaciji) i želimo provjeriti njezinu statističku značajnost, tada nam je važno da se pretpostavka o normalnoj raspodjeli reziduala (odstupanja od zamišljene linearne veze) barem približno ispunjava. Zašto?
Dakle, normalna distribucija reziduala nam osigurava da je statistički test za Pearsonovu korelaciju pouzdan.
Tablica 3. Shapiro-Wilk Test for Multivariate Normality
Shapiro-Wilk | p |
---|---|
0.9825 | 0.2075 |
Hipoteze Shapiro-Wilk testa:
\(H_0\) ∶ Podaci su normalno distribuirani.
\(H_1\) ∶ Podaci nisu normalno distribuirani.
p-vrijednost od 0.2075 je veća od standardne razine značajnosti (npr. α=0.05), pa ne odbacujemo nul hipotezu. Distribucija podataka je približno normalna, što omogućuje nastavak s analizama koje se oslanjaju na ovu pretpostavku (tj. koristimo Pearsonov koeficijent korelacije).
Tablica 4. Korelacijska analiza
Variable Comparison | Pearson \(r\) | Pearson p | Spearman \(ρ\) | Spearman p | Kendall \(τ_B\) | Kendall p |
---|---|---|---|---|---|---|
PA – BMI | -0.3854 | *** < .001 | -0.3511 | *** < .001 | -0.2414 | *** < .001 |
Pearsonov koeficijent korelacije pokazuje negativnu linearnu povezanost između broja koraka (PA) i BMI-a. To znači da, kako se prosječan broj koraka povećava, BMI ima tendenciju smanjivati se. Vrijednost od −0.3854 ukazuje na slabu do umjerenu negativnu povezanost. Pearsonov koeficijent je prikladno koristiti kad varijable imaju linearni odnos i ako su varijable približno normalno distribuirane (što je potvrđeno Shapiro-Wilk testom u ovom primjeru). Iako postoji obrazac u kretanju ovih varijabli, potrebno je imati na umu da je veza umjerena i da još puno drugih čimbenika može biti povezano s BMI-jem, a ovdje nisu uzeti u obzir. Primjerice, sudionik s visokim PA-om i relativno visokim BMI-jem može ukazivati na individualne razlike u metabolizmu, prehrani ili drugim zdravstvenim čimbenicima koji nisu mjerljivi u ovom skupu podataka.
Ako podaci nisu normalno distribuirani ili ako nisu lienarno povezani, Spearmanov ili Kendallov koeficijent korelacije bolji su izbor.
P – vrijednost se odnosi na (ne)odbacivanje hipoteze o korelaciji:
\[H_0…r=0\]
\[H_1…r≠0\]
Pri čemu nul hipoteza tvrdi da korelacije nema ili da je koeficijent korelacije jednak nuli. Alternativna hipoteza tvrdi da je koeficijent korelacije bitno različit od nule i korelacija je statistički značajna.
Malena p – vrijednost, ili p<0.05 upućuje na odbacivanje nul hipoteze i zaključak da postoji statistički značajna, umjerena povezanost negativnog smjera, između varijabli PA i BMI. Što više koraka osoba napravi dnevno, BMI je manji.
Spearmanov koeficijent korelacije koristimo ako varijable imaju monotoni odnos, ali ne nužno linearan. Primjeren je za upotrebu ako je jedna varijabla kvantitativna, a druga stupnjevita te ako su obje stupnjevite. Također, može se upotrijebiti ako podaci nisu normalno distribuirani ili kada postoji veća varijabilnost u podacima (npr. outlieri), jer je robustan na odstupanja od pretpostavki o linearnosti. Također, uobičajeno se tumači prema Chaddockovoj ljestvici.
Kendallov koeficijent korelacije koristi se za opisivanje odnosa stupnjevitih varijabli. Također, primjereno ga je upotrijebiti za manje uzorke i situacije u kojima postoji mnogo vezanih vrijednosti (engl. ties; vezane vrijednosti nastaju kada dva ili više opažanja imaju istu vrijednost za jednu od varijabli; za vezane vrijednosti, rangiranje tih opažanja postaje složenije jer varijable nisu u potpunosti rangirane od najmanje do najveće bez ponavljanja). Zbog toga, Kendall τB daje konzervativniju procjenu povezanosti (daje nižu apsolutnu vrijednost korelacije) – uklanja pristranosti uzrokovane vezanim vrijednostima. To osigurava da rezultat nije umjetno povećan ili smanjen zbog ponovljenih vrijednosti unutar skupa podataka.
Ovdje je opravdano tumačiti prema Pearsonovom koeficijentu korelacije. Ovi rezultati podržavaju hipotezu da povećanje dnevne tjelesne aktivnosti može pomoći u regulaciji BMI-a. Međutim, relativno slab koeficijent korelacije sugerira da BMI ovisi o dodatnim čimbenicima (npr. prehrani, genetici) koji nisu obuhvaćeni ovom analizom.
Postoji li veza između starosti i cijene nekretnina?
Skupom podataka o nekretninama bavili smo se već ranije, a ovdje će se izdvojiti varijable cijena i starost. Ovdje bismo očekivali utvrditi odnos da će za starije nekretnine cijena biti niža.
Možemo se pozvati na koncept fizičke amortizacije, kao teorijski koncept. Bazira se na ideji da se nekretnine s vremenom fizički troše, što smanjuje njihovu kvalitetu, funkcionalnost i estetsku privlačnost. Troškovi održavanja i obnove starijih nekretnina često su viši, što može odvratiti potencijalne kupce ili smanjiti njihovu spremnost da plate visoku cijenu. Dakle, starije nekretnine imaju manju tržišnu vrijednost zbog većeg opterećenja na kupca za buduće popravke i renovacije.
Alternativno, mogla bi se primijeniti teorija životnog ciklusa proizvoda. Tijekom životnog ciklusa nekretnine, njezina vrijednost može opadati nakon početne faze izgradnje i korištenja. Nekretnine u srednjim godinama mogu imati stabilnu vrijednost ako su dobro održavane, ali nakon određene točke, starost postaje značajan faktor deprecijacije. U ovom kontekstu, pretpostavilo bi se postojanje nelinearnog odnosa između starosti i cijene, pri čemu vrlo stare nekretnine imaju znatno niže cijene.
No, osim starosti nekretnina, jako puno drugih čimbenika može biti povezano s cijenom. Tu su, na primjer, lokacija, veličina nekretnine, preferencije potrošača, tržišni trendovi i sl. Dakle, nećemo očekivati jaku korelaciju.
Započinjemo uvidima iz dijagrama raspršenosti. Crna ravna linija sugerira inverznu korelaciju. Za niže vrijednosti starosti, točke su raspršene u višem i širem intervalu cijena. Za više vrijednosti starosti, većina cijena poprima manje vrijednosti, netom ispod linije. To sugerira mogućnost postojanja nelinearnog odnosa - iako starije nekretnine općenito imaju niže cijene, smanjenje cijene nije ravnomjerno kroz cijeli raspon starosti. Kako bismo utvrdili odgovarajući koeficijent korelacije koji može opisati ovaj odnos, provodimo još Shapiro-Wilk test. ipoteze Shapiro-Wilk testa:
\(H_0\) ∶ Podaci su normalno distribuirani.
\(H_1\) ∶ Podaci nisu normalno distribuirani.
Tablica 5. Shapiro-Wilk Test for Multivariate Normality
Shapiro-Wilk | p |
---|---|
0.7328 | <.001 |
S obzirom na p<0.001, odbacujemo nul hipotezu Shapiro-Wilk testa i zaključujemo da podaci nisu normalno distribuirani. Budući da podaci nisu normalno distribuirani, Pearsonov koeficijent korelacije nije prikladan za analizu ovog odnosa. Mogu se primijeniti Spearmanov ili Kendallov koeficijent korelacije, koji ne zahtijevaju pretpostavku normalnosti i mogu bolje opisati monotoni ili nelinearni odnos između varijabli.
Tablica 6. Korelacijska analiza cijena i starosti nekretnina
Variable Comparison | Spearman ρ | Spearman p | Kendall τ B | Kendall p |
---|---|---|---|---|
Age – Price | -0.3176 | *** < .001 | -0.2152 | *** < .001 |
Spearmanov koeficijent korelacije (\(ρ=-0.3176\)) pokazuje negativnu monotonu povezanost između starosti nekretnina (Age) i cijene (Price). To znači da, kako starost nekretnine raste, cijena ima tendenciju opadati, ali ovaj odnos ne mora biti strogo linearan. Vrijednost od −0.3176 ukazuje na slabu do umjerenu negativnu povezanost, što znači da postoji primjetna, ali ne izrazito jaka veza između ove dvije varijable. Na razini značajnosti 5%, odbacuje se nul hipoteza da ne postoji povezanosti, ukazujući na to da je malo vjerojatno da je ova povezanost rezultat sušte slučajnosti.
Kendallov koeficijent korelacije (\(\tau_B=-0.2152\)) također ukazuje na negativnu povezanost između starosti i cijene nekretnina. Ova vrijednost je nešto manja od Spearmanovog koeficijenta, što je uobičajeno jer je Kendallov koeficijent konzervativniji i bolje prilagođen za uzorke s većim brojem vezanih vrijednosti. Vrijednost −0.2152 ukazuje na slabu negativnu povezanost, pri čemu je dosljedno primjetan trend pada cijene s porastom starosti nekretnine, koji je i statistički značajan (p<0.001), ali slab.
Jednostavna linearna regresija omogućuje nam da kvantificiramo i predvidimo odnos između dvije varijable kroz jednadžbu pravca. Pomaže nam otkriti koliko promjene u jednoj varijabli (nezavisnoj) vode do promjena u drugoj (zavisnoj), što je ključan korak u razumijevanju povezanosti pojava. Na taj način, regresijska analiza pretvara ‘sirove’ podatke u korisne spoznaje kroz koje otkrivamo skrivene obrasce ili potvrđujemo postojeće, potiče inovacije i unaprjeđuje našu sposobnost razumijevanja stvarnosti.
Pri izračunu parametara modela linearne regresije koristi se metoda najmanjih kvadrata, koja omogućuje utvrđivanje takvog regresijskog pravca za koji vrijedi da je suma kvadratnih odstupanja opažanja od pripadajućih vrijednosti predviđenih pravcem najmanja. Podsjetnik na osnovne elemente jednadžbe modela jednostavne linearne regresije i način izračuna prikazan je slikom.
Postupka izračuna možete se prisjetiti koristeći Osnove Statistike (Horvat i Mijoč, 2018.), Primijenjenu statistiku (Šošić, 2004.) ili Introductory Business Statistics (Holmes, Illowsky i Dean, 2021).
Opći zapis modela jednostavne linearne regresije je:
\[\hat{y}=β_0+β_1 \cdot x+e\] Gdje je \(\hat{y}\) – modelom procijenjena vrijednost zavisne varijable \(x\) – nezavisna varijabla \(β_0\) – konstanta \(β_1\) – koeficijent smjera, regresijski koeficijent uz nezavisnu varijablu \(e\) – reziduali (pogreške modela), odstupanje stvarnih vrijednosti od predviđenih vrijednosti. Ovo odstupanje uključuje i potencijalne razlike u varijacijama zbog svih faktora koji nisu obuhvaćeni modelom.
Ilustrativni primjer. Koristimo iste podatke temeljem kojih je prikazan izračun Pearsonovog koeficijenta korelacije - podatke o visini i težini četiri osobe. Koristit ćemo izraze za izračun:
\[\hat{y}=\beta_0 + \beta_1 \cdot x + e\]
\[\beta_0=\overline{y} - b \cdot \overline{x}\]
\[\beta_1=\frac{SS_{yy}}{SS_{xx}}=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2}\]
\[R^2=\frac{SSR}{SS_{yy}}=1 - \frac{SSE}{SST}\]
gdje su \(x_i\) i \(y_i\) vrijednosti varijabli, a \(\bar{x}\) i \(\bar{y}\) njihove aritmetičke sredine.
Podaci:
Osoba | Visina (cm) | Težina (kg) |
---|---|---|
1 | 160 | 50 |
2 | 165 | 60 |
3 | 170 | 70 |
4 | 175 | 70 |
Aritmetičke sredine:
Osoba | \(x_i\) | \(y_i\) | \(x_i - \bar{x}\) | \(y_i - \bar{y}\) | \((x_i-\bar{x})(y_i-\bar{y})\) | \((x_i-\bar{x})^2\) | \((y_i-\bar{y})^2\) |
---|---|---|---|---|---|---|---|
1 | 160 | 50 | -7.5 | -12.5 | 93.75 | 56.25 | 156.25 |
2 | 165 | 60 | -2.5 | -2.5 | 6.25 | 6.25 | 6.25 |
3 | 170 | 70 | 2.5 | 7.5 | 18.75 | 6.25 | 56.25 |
4 | 175 | 70 | 7.5 | 7.5 | 56.25 | 56.25 | 56.25 |
Ukupno | 175 | 125 | 275 |
Nagib (\(\beta_1\)):
\[\beta_1 = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2} = \frac{175}{125} = 1.4\]
Konstanta (\(\beta_0\)):
\[\beta_0 = \bar{y} - \beta_1 \bar{x} = 62.5 - 1.4 \times 167.5 = 62.5 - 234.5 = -172\]
Izračun predviđenih vrijednosti i reziduala:
Osoba | \(x_i\) | \(y_i\) | \(\hat{y}_i = \beta_0 + \beta_1 x_i\) | Rezidual \((y_i - \hat{y}_i)\) |
---|---|---|---|---|
1 | 160 | 50 | \(-172 + 1.4 \times 160 = 52\) | \(50 - 52 = -2\) |
2 | 165 | 60 | \(-172 + 1.4 \times 165 = 59\) | \(60 - 59 = 1\) |
3 | 170 | 70 | \(-172 + 1.4 \times 170 = 66\) | \(70 - 66 = 4\) |
4 | 175 | 70 | \(-172 + 1.4 \times 175 = 73\) | \(70 - 73 = -3\) |
Suma kvadrata reziduala (SSE):
\[SSE = (-2)^2 + 1^2 + 4^2 + (-3)^2 = 4 + 1 + 16 + 9 = 30\]
Izračun koeficijenta determinacije (R²):
\[R^2 = 1 - \frac{SSE}{SST} = 1 - \frac{30}{275} \approx 1 - 0.1091 = 0.8909\]
Regresijski model:
\[\hat{y} = -172 + 1.4x + e\]
U ovom primjeru, težina se povećava za 1.4 kg za svaki dodatni centimetar visine. Konstanta modela (\(-172\)) predstavlja vrijednost težine kada je visina 0 cm (što, naravno, nije interpretativno smisleno). Također, visoki \(R^2\) ukazuje na vrlo dobru prilagodbu modela podacima.
Koeficijent determinacije \(R^2 \approx 0.891\) znači da oko 89.1% varijacije u težini rezultira iz promjena visine.
Ako se želi testirati tvrdnja da su svi nagibi jednaki nuli, tada će hipoteza glasiti, npr.
\[H_0 … β_0=0 \text{ i } \\ \beta_1 = 0\]
To se može još zapisati i kao:
\[H_0… β_0=β_1=0\]
Upravo su na ovaj način zadane nul hipoteze u statističkim softverima. Nul hipoteza testira tvrdnju da nezavisne varijable nemaju prediktivnu snagu. Ta se hipoteza može postaviti i na drugačiji način, na primjer u višestrukoj regresiji - testirajući prediktivnu snagu samo dviju varijabli, dok se kontrolira za treću (tj. izostavlja se).
Na primjer, ako nas zanima kvantifikacija učinaka budžeta, inflacije i otvorenosti (nezavisne varijable) na ekonomski rast države (zavisna varijabla), može se preispitati jesu li te nezavisne varijable zajedno značajne, je li kombinacija po dviju nezavisnih varijabli značajna ili je pojedina nezavisna varijabla u modelu značajna.
Ipak, imajući na umu što se testira (prisjetiti se logičkih tablica), potrebno je razumjeti što se točno nalazi u alternativnoj hipotezi, koja se može zapisati:
\[H_1…β_0≠0 \text{ i } β_1≠0\].
Navedeno se može zapisati i kao:
\[H_1… β_0≠β_1≠0\]
To znači da se koeficijenti nezavisnih varijabli (tj. konstante i nezavisne varijable u jednostavnoj linearnoj regresiji) testiraju zajedno. Prema hipotezama, dovoljno je da jedan koeficijent bude različit od nule da se nul hipoteza odbaci. Združena signifikantnost uobičajeno se testira F testom, pri čemu se testovna veličina računa temeljem kvadrata odstupanja:
\[F=\frac{(SSR_r-SSR_ur)/q}{SSR_ur/(n-(k+1))}\]
Gdje je:
\(SRR_r\) suma kvadratnih odstupanja reziduala ograničenog modela,
\(SSR_{ur}\) suma kvadratnih odstupanja reziduala neograničenog modela,
\(n\) je broj opažanja,
\(k\) je broj nezavisnih varijabli u neograničenom modelu,
\(q\) je broj ograničenja (tj. broj koeficijenata koji se zajedno testiraju).
Ograničavanje modela odnosi se na početnu pretpostavku da je nul hipoteza istinita, putem uklanjanja varijabli iz modela. Stoga razlika između SSRr i SSRur ukazuje na to koliko su veći reziduali u modelu u kojem je nul hipoteza istinita. Ako su reziduali puno veći u ograničenom modelu, tada će i testovna veličina F poprimiti veliku vrijednost. Također, ako je veličina reziduala veća, zna se da to znači da je regresija manje reprezentativna (lošije opisuje podatke). Na to ukazuje i F testna veličina, jer će većim vrijednostima biti pripisane manje vjerojatnosti (tj. empirijske razine značajnosti ili p-vrijednost). Testna F veličina ravnat će se prema F distribuciji koja je definirana stupnjevima slobode \(df_1=q\) i \(df_2=n-(k+1)\). Testnu F veličinu i pripisanu p-vrijednost koristimo pri donošenju odluke o nul hipotezi. Velike vrijednosti F testa pojavljuju se uz ograničenja pri kojima regresijska jednadžba lošije opisuje podatke, što nas dovodi do preispitivanja istinitosti nul hipoteze. Ako su pak, reziduali veliki, bit će velika i veličina F-testa i njoj pripisana p-vrijednost. Ako je pripisana p-vrijednost manja od α, donosi se odluka o odbacivanju nul hipoteze \(H_0… β_0=β_1=0\). Ako se nul hipoteza može odbaciti, tada se zaključuje o modelu pretpostavljenom u \(H_1\), tj. da su konstanta i koeficijent međusobno različiti i različiti od nule.
Problem koji se pojavljuje pri višestrukom testiranju hipoteza svodi se na to da postoji veća vjerojatnost pogrešnog odbacivanja nul hipoteze (to jest, izračunavanja pogrešne signifikantnosti). Taj problem postoji i kod F-testa.
F-test dopušta testiranje nul hipoteze da su svi koeficijenti jednaki nuli i preispituje jesu li varijable zajedno značajne. Ono što se ovim testom ne može utvrditi jest koje su pojedinačne varijable značajne. Drugim riječima, f-test služi za procjenu čitavog modela (ukazuje na združenu vjerojatnost), a ne pojedinačnih varijabli u modelu. Koristi se pri utvrđivanju reprezentativnosti modela u kombinaciji s koeficijentom determinacije (mogu se koristiti i dodatni kriteriji evaluacije modela, npr. Goodness of fit).
Da bi se koristila linearna regresija, podaci moraju zadovoljiti sljedeće četiri temeljne pretpostavke (LINE, Gendron, 2016.):
Pretpostavka linearnosti: Odnos između prediktora (nezavisne) i zavisne varijable je linearan. Prvi uvidi u linearnost dobivaju se ucrtavanjem varijabli pomoću dijagrama raspršenosti i vizualne procjene bi li ravna crta koja prolazi kroz podatke dobro opisala pravilnost ucrtanih točaka. Stvari postaju složenije kada se koristi više od jedne prediktorske varijable te se ova pretpostavka može lakše uvidjeti pri crtatanju jedne po jedne prediktorske varijable u odnosu sa zavisnom varijablom. Treba obratiti pozornost na to postoje li izdvojenice – izdvojene točke daleko od ostalih točaka i linije zamišljenog pravca. Takve točke mogu utjecati na izračun jednadžbe regresijskog pravca i poželjno ih ukloniti prije provedbe linearne regresije, ali i evidentirati ih kao izdvojenice i prokomentirati (u nekim situacijama bit će potrebno dodatno istražiti okolnosti takvih odstupanja).
Pretpostavka neovisnosti: Varijable su međusobno nezavisne. To se obično može riješiti dedukcijom, zajedno s razumijevanjem podataka i razumijevanjem načina prikupljanja podataka. Dobar primjer neovisnosti su podaci koji dolaze iz različitih izvora. Nadalje, treba voditi računa da nema ponavljanih opažanja (prije i nakon uvođenja neke nove pojave) te da jedna varijabla nije već izračunata iz druge varijable (na primjer, prihodi i profit ili visina kamatne stope i kamate). Pretpostavka neovisnosti može se testirati Hi-kvadrat testom neovisnosti, u kojem nul-hipoteza glasi da su promatrane varijable međusobno neovisne. Osim toga, treba pripaziti na logičku ili smislenu povezanost varijabli. Jako je važno ne otići u drugu krajnost. Na primjer, postoji pozitivna korelacija između prometa od turizma i kiše meteora popularno zvane Suze sv. Lovre. U toj se situaciji događa da se numeričke vrijednosti dvije varijable podjednako kreću (tj. imaju podjednaki rast/ pad), ali takve varijable nema smisla stavljati u odnos. Još jedna stvar na koju treba pripaziti jest jesu li podaci temeljeni na vremenu (kronološki uređeni), jer se u takvoj situaciji koriste vremenski nizovi – odnosno, analiza vremenskih nizova.
Pretpostavka normalnosti: Reziduali su normalno raspoređeni oko regresijskog pravca s prosjekom nula. Reziduali su odstupanja stvarnih vrijednosti opažanja od vrijednosti predviđenih regresijskim pravcem. Njihova se distribucija može provjeriti histogramom, iako se češće koristi Q-Q plot. Osim toga, reziduali se mogu spremiti kao zasebna varijabla i testirati (na primjer, Shapirovim testom).
Za provedbu linearne regresije nije nužno da su svi podaci ili varijable multivarijantno normalno distribuirani. Ključna pretpostavka za inferencijalnu statistiku u linearnoj regresiji je da su reziduali (razlike između opaženih i predviđenih vrijednosti) približno normalno distribuirani. Ovo omogućuje točno izvođenje statističkih testova, kao što su t-testovi i izračunavanje intervala pouzdanosti. S druge strane, Pearsonov koeficijent korelacije pretpostavlja bivarijantnu normalnost – dakle, da zajednička distribucija dviju varijabli slijedi normalnu raspodjelu (u praksi se ove metode često koriste i kad podaci ne zadovoljavaju stroge normalne pretpostavke, osobito kod većih uzoraka, zahvaljujući robusnosti ovih metoda i centralnom graničnom teoremu).
Pretpostavka jednake varijance (homoskedastičnost): Reziduali tvore slučajni obrazac raspoređen oko nule. To se može vidjeti na grafičkom prikazu reziduala u odnosu na predviđene vrijednosti. Kada se pregledava graf reziduala radi utvrđivanja jednakosti varijanci, traže se sljedeće dvije stvari:
Homoskedastičnost varijance najtočnije se utvrđuje Breusch-Pagan testom. Taj test nije dostupan u MS Excelu i JASP-u, ali je dostupan u R-u.
Modeliranje nije komplicirano, ali zahtijeva predznanje kako bi se odabrao odgovarajući model, odnosno da podatci zadovoljavaju pretpostavke za korištenje u odabranom modelu. Potrebno je obratiti pažnju na količinu vremena koja se provodi osiguravajući da model udovoljava pretpostavkama linearne regresije. Dakle, izračunom modela ne završava se priča, nego tek počinje najvažniji dio. Neke su pretpostavke važnije od drugih:
U slučaju da podaci ne odgovaraju pretpostavkama, moguće je podatke preurediti (npr. isključiti izdvojenice), a osim linearnog postoje i drugi regresijski modeli. U tom slučaju, jedna varijabla može se kvadrirati, korjenovati, logaritmirati ili transformirati na drugačiji način.
U nastavku će se nastaviti dva primjera za koje se ranije računao koeficijent korelacije.
Kakva je veza između tjelesne aktivnosti i BMI-a?
Alternativno (ako je moguće zadovoljiti uvjete uzročnosti): Utjče li fizička aktivnost na BMI?
Teorijska podloga odnosa između tjelesne aktivnosti i BMI temelji se na konceptu energetske ravnoteže. Prema toj teoriji, tjelesna aktivnost povećava potrošnju energije, što u kombinaciji s kontroliranim ili nepromijenjenim unosom hrane može dovesti do smanjenja tjelesne masnoće i, posljedično, do nižeg BMI-ja. Ovo je podržano empirijskim istraživanjima koja pokazuju da redovita tjelesna aktivnost može doprinijeti smanjenju tjelesne težine i poboljšanju tjelesne kompozicije. Jedan od poznatih izvora koji podržava ove ideje je istraživanje Warburton i sur. (2006).
Prvi je korak provjera linearnosti odnosa. Za to se koristi dijagram rasipanja. U tom kontekstu, korelacijska analiza može se smatrati preliminarnom analizom koja prethodi regresijskoj analizi. U praksi je uobičajeno prvo provjeriti postoji li linearna korelacija prije razvoja modela linearne regresije.
Fizička aktivnost (npr. broj koraka dnevno) se smatra nezavisnom varijablom jer se njezina vrijednost mjeri odvojeno i nije definirana na temelju BMI-ja. BMI, koji se koristi kao zavisna varijabla, predstavlja mjeru tjelesne mase u odnosu na visinu te se promjene u BMI-ju promatraju kao potencijalni rezultat varijacija u razini tjelesne aktivnosti. Drugim riječima, pretpostavljamo da promjene u fizičkoj aktivnosti mogu utjecati na BMI, ali ne putem izravnog izračuna te da se same mjerene vrijednosti fizičke aktivnosti ne mijenjaju zbog BMI-ja.
Grafički prikazi reziduala omogućuju procjenu zadovoljenja pretpostavki linearne regresije (grafovi prikazani na sljedećoj slici).
Reziduali u odnosu na PA (prvi graf na slici)
Reziduali u odnosu na predviđene vrijednosti (drugi graf na slici)
Q-Q grafikon standardiziranih reziduala (treći graf na slici)
Nakon provjere pretpostavki, možemo preći na interpretaciju modela. JASP će te rezultate predstaviti kroz nekoliko tablica.
Tablica 7. Sažetak modela
Model | R | R² | Adjusted R² | RMSE |
---|---|---|---|---|
H₀ | 0 | 0 | 0 | 3.9408 |
H₁ | 0.3854 | 0.1485 | 0.1399 | 3.6549 |
Vrijednost koeficijenta determinacije (\(R^2=0.1485\)) ukazuje da je 14.85% varijacija BMI-a rezultat varijacija u PA. No, preostalih 85.15 % varijacija ukazuju na to da postoji niz drugih čimbenika koji su vezani uz varijacije BMI-a. Također, usporedba RMSE vrijednosti između \(H₀\) i \(H₁\) modela pokazuje da uvođenje varijable PA smanjuje pogrešku predviđanja (s 3.9408 na 3.6549), iako se poboljšanje ne smatra vrlo izraženim. Važno je napomenuti da je odnos između PA i BMI-ja u ovom modelu umjeren, što implicira da bi za preciznije predviđanje BMI-ja bilo potrebno uključiti i dodatne varijable. To ukazuje na mogućnost daljnjeg istraživanja i razvoja složenijih modela koji bi bolje obuhvatili sve čimbenike koji utječu na BMI.
Tablica 8. ANOVA
Model | Sum of Squares | df | Mean Square | F | p |
---|---|---|---|---|---|
H₁ (Regression) | 228.3772 | 1 | 228.3772 | 17.0964 | < .001 |
Residual | 1309.1007 | 98 | 13.3582 | ||
Total | 1537.4779 | 99 |
Note: The intercept model is omitted, as no meaningful information can be shown.
Za odlučivanje o modelu temeljem p-vrijednosti dostupne u ANOVA tablici, prvo zapisujemo hipoteze o modelu:
\[H_0… β_0=β_1=0\] \[H_1… β_0≠β_1≠0\]
Rezultati ANOVA testa pokazuju da je pretpostavljeni regresijski model statistički značajan (p<0.001) i doprinosi „objašnjavanju“ varijacija u varijabli BMI u odnosu na nul-model (onaj zapisan u nul hipotezi, u kojem su svi koeficijenti jednaki nula). Drugim riječima, model potvrđuje da je malo vjerojatno da je uočena veza između PA i BMI-a slučajna, što opravdava korištenje regresijske analize za analizu ovog odnosa. No, ovo testiranje se nikad ne smije koristiti kao jedina osnova za odlučivanje o modelu.
Tablica 9. Koeficijenti
Model | Unstandardized | Standard Error | Standardized | t | p | Lower | Upper |
---|---|---|---|---|---|---|---|
H₀ | (Intercept) = 23.9390 | 0.3941 | – | 60.7462 | < .001 | 23.1571 | 24.7209 |
H₁ | (Intercept) = 29.5782 | 1.4120 | – | 20.9481 | < .001 | 26.7762 | 32.3803 |
PA = -0.6547 | 0.1583 | -0.3854 | -4.1348 | < .001 | -0.9689 | -0.3405 |
Konstanta i koeficijent uz PA u alternativnom modelu su statistički značajni. S obzirom da su pretpostavke zadovoljene i model je statistički značajan, možemo pristupiti zapisu statističkog modela te konačnom tumačenju.
\[\hat{y}=29.578-0.6547 \cdot PA+e\]
Konstanta, 29.578, govori nam koliko iznosi modelom procijenjeni BMI ako osoba prosječno hoda 0 koraka na dan (tj., za PA=0). Za svakih dodatnih 1000 koraka dnevno, procijenjeni BMI biti će manji za 0.6547. Dobiveni rezultati su načelno u skladu s teorijskim pretpostavkama.
Koju promjenu u cijeni izaziva jedinična promjena u starosti nekretnina?
Alternativno (uz opravdanje uvjeta uzročnosti): Utječe li starost nekretnina na njihovu cijenu?
Teorijska podloga odnosa između starosti i cijena nekretnina može se temeljiti na fizičkoj amortizaciji nekretnine ili na hedonističkom cjenovnom modelu, prema kojem cijena (u ovom slučaju, nekretnine) ovisi o nizu karakteristika, među kojima je i starost. Prema konceptu amortizacije i životnog ciklusa nekretnina, starije nekretnine obično gube dio svoje tržišne vrijednosti zbog fizičkog trošenja i zastarjelosti, iako rjeđe u određenim slučajevima mogu imati i dodatnu vrijednost zbog povijesnog značaja ili atraktivnosti lokacije. Ovaj odnos može se povezati s ranijim istraživanjima, npr. Rosen (1974) u kojem su predstavljene osnove za korištenje hedonističkog pristupa pri modeliranju cijena nekretnina, što uključuje i varijablu starosti kao važan faktor u određivanju vrijednosti, a postoje i empirijska istraživanja odnosa starosti, prodajne cijene i cijene najma nekretnina (Xu i sur., 2018).
Prvi uvidi uz pomoć dijagrama rasipanja omogućuju uvide u linearnost odnosa. Iako je ovo komentirano ranije, kod korelacijske analize, ovdje možemo ponoviti da, iako jest moguće kroz oblak točaka povući pravac, taj pravac ne opisuje baš dobro prikazanu pojavu. Ovdje bismo očekivali slabu korelaciju negativnog smjera. Za potrebe primjera, nastavljamo na sljedeće korake.
Započinjemo s provjerom pretpostavki. Još pri korelacijskoj analizi, utvrdili smo da reziduali nisu normalno distribuirani.
Grafikon reziduala prema predviđenim vrijednostima ukazuje na heteroskedastičnost, gdje se rasipanje/ raspršenost povećava kako predviđena cijena raste (podsjeća na lijevak). Ovo krši pretpostavku jednake varijance (homoskedastičnosti), što će utjecati na pouzdanost procjena koeficijenata.
Q-Q grafikon ukazuje na bitna odstupanja od normalnosti reziduala, osobito na krajevima distribucije. Ovo upućuje na to da pretpostavka normalnosti reziduala nije zadovoljena, što će utjecati na validnost statističkih testova.
U ovom primjeru vidimo i kako grafovi temeljem kojih vršimo dijagnostiku ne trebaju izgledati, tj. što ne želimo vidjeti u takvim grafovima. Dakle, mi možemo softveru zadati naredbe da kreira model, no u taj se model ne možemo pouzdati: zbog heteroskedastičnosti ne možemo računati na točnost pri izračunu koeficijenata i njihove statističe značajnosti, a zbog narušene normalnosti reziduala, model gubi svoju prediktivnu sposobnost.
Iako bismo u ovom trenutku trebali zaključiti da model jednostavne linearne regresije nije primjeren za analizu ovog odnosa i stoga završiti s ovom analizom, svejedno će se protumačiti i ostatak, za potrebe ilustrativnog prikaza.
Tablica 10. Sažetak modela
Model | R | R² | Adjusted R² | RMSE |
---|---|---|---|---|
H₀ | 0 | 0 | 0 | 98441.3910 |
H₁ | 0.1888 | 0.0356 | 0.0351 | 96699.1183 |
Temeljem koeficijenta korelacije iz alternativnog modela (preciznije, modela iz alternativne hipoteze, u kojem nisu svi koeficijenti međusobno jednaki i jednaki nuli) ostavruje koeficijent determinacije od 0.0356. To znači da je 3.56% varijacija u cijenama nekretnina rezultat varijacija u starosti nekretnina, dok je ostalih 96.44% rezultat pogreške modela. Iako model sa starosti nekretnina malo smanjuje RMSE (root mean squared error), ona je i dalje izuzetno velika.
\[H_0… β_0=β_1=0\]
\[H_1… β_0≠β_1≠0\]
Tablica 11. ANOVA
Model | Sum of Squares | df | Mean Square | F | p |
---|---|---|---|---|---|
H₁ Regression | 5.9651×10^11 | 1 | 5.9651×10^11 | 63.7929 | < .001 |
Residual | 1.6139×10^13 | 1726 | 9.3507×10^9 | ||
Total | 1.6736×10^13 | 1727 |
Note: The intercept model is omitted, as no meaningful information can be shown.
\(H_0… β_0=β_1=0\)
\(H_1… β_0≠β_1≠0\)
Temeljem ANOVA testa o modelu, nul hipoteza prema kojoj su svi koeficijenti međusobno jednaki i jednaki nuli može se odbaciti i model je statistički značajan. Neovisno o tome, sjetimo se heteroskedastičnosti reziduala. Zbog toga bismo zapravo trebali posve zanemariti ovu i sljedeću tablicu.
Tablica 12. Koeficijenti
Model | Unstandardized | Standard Error | Standardized | t | p |
---|---|---|---|---|---|
H₀ (Intercept) | 211966.7054 | 2368.1318 | – | 89.5080 | < .001 |
H₁ (Intercept) | 229728.4596 | 3218.1779 | – | 71.3846 | < .001 |
Age = -636.2551 | 79.6609 | -0.1888 | -7.9870 | < .001 |
Nagib regresijskog pravca (\(β_1=-636.2551\)) pokazuje da se cijena nekretnine smanjuje za prosječno 636.26 jedinica s povećanjem starosti za jednu godinu. Konstanta modela (\(β_0=229728.4596\)) procjenjuje prosječnu cijenu nekretnine kada je starost nula godina, što iznosi približno 229728 dolara.
Iako je ANOVA test pokazao statistički značajan model, koeficijent determinacije je vrlo nizak (samo 3.56% varijacije cijena se objašnjava starošću nekretnina). To znači da većina varijabilnosti u cijenama nekretnina dolazi iz drugih čimbenika koji nisu uključeni u model. Prema dijagramu raspršenosti može se primijetiti da odnos između starosti i cijena nekretnina nije nužno linearan. Ako je odnos nelinearan, model jednostavne linearne regresije neće biti najprikladniji, a primjena alternativnih modela (npr. polinomijalne ili kvantilne regresije, kao i transformacija varijabli) možda bi mogla pružiti bolje rezultate. Osim toga, grafikon reziduala prema predviđenim vrijednostima ukazuje na heteroskedastičnost, što narušava pretpostavku jednake varijance. To može dovesti do netočnih standardnih pogrešaka i, posljedično, nepouzdane rezultate statističkih testova (p-vrijednosti).
Nakon temeljite procjene, zaključuje se da se izračunati model odbacuje. S obzirom na narušene pretpostavke, ne možemo se pouzdati u provedene statističke testove. To znači da su zaključci o statističkoj značajnosti modela i koeficijenata nepouzdani. Ovaj primjer jasno pokazuje važnost provjere pretpostavki prije donošenja zaključaka temeljenih na regresijskoj analizi.
Postoji li veza između godina od doktorata i plaća? Ako da, za koliko dodatna godina od doktorata povećava plaću?
Slijedeći primjer koristi podatkovni skup Salaries dostupne
u R paketu carData
. Odnosi se na devetomjesečne akademske
plaće za docente, izvanredne profesore i profesore na jednom koledžu u
SAD-u za akademsku godinu 2008.-09. Podaci su prikupljeni kao dio
stalnih nastojanja uprave koledža da prati razlike u plaćama između
muških i ženskih članova fakulteta (Fox & Weisberg, 2018). Ovdje će
se za prikaz postupka koristiti R (a ne JASP). Na taj način, upoznat
ćemo se i s tijekom rada i različitim prikazom koje različiti softveri
generiraju. Kao i uvijek, započinjemo uvidima u varijable i pokazatelje
deskriptivne statistike.
Tablica 13. Pokazatelji deskriprivne statistike
vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
rank* | 1 | 397 | 2.501 | 0.767 | 3 | 2.624 | 0.000 | 1 | 3 | 2 | -1.124 | -0.380 | 0.039 |
discipline* | 2 | 397 | 1.544 | 0.499 | 2 | 1.555 | 0.000 | 1 | 2 | 1 | -0.176 | -1.974 | 0.025 |
yrs.since.phd | 3 | 397 | 22.315 | 12.887 | 21 | 21.834 | 14.826 | 1 | 56 | 55 | 0.299 | -0.811 | 0.647 |
yrs.service | 4 | 397 | 17.615 | 13.006 | 16 | 16.508 | 14.826 | 0 | 60 | 60 | 0.646 | -0.336 | 0.653 |
sex* | 5 | 397 | 1.902 | 0.298 | 2 | 2.000 | 0.000 | 1 | 2 | 1 | -2.690 | 5.247 | 0.015 |
salary | 6 | 397 | 113706.458 | 30289.039 | 107300 | 111401.605 | 29355.480 | 57800 | 231545 | 173745 | 0.709 | 0.181 | 1520.163 |
Varijabla “rank” ili rang, predstavlja akademsku poziciju, pri čemu vrijednosti 1, 2 i 3 označavaju različite razine (npr. docent, izvanredni profesor, redoviti profesor). Uzorak od 397 opažanja ima medijan 3, što sugerira da je bar 50% ispitanika na višoj razini (redoviti profesori). Varijabla “discipline” je kvalitativna opisna varijabla s vrijednostima 1 i 2. Varijabla spola (sex) je kvalitativna opisna, s vrijednostima 1 i 2.
Kvantitativna kontinuirana varijabla mjerena na omjernoj razini s prosjekom od 22.31 i medijanom 21 godine, varijabla “yrs.since.phd” (godine od doktorata) pokazuje da su u prosjeku ispitanici na polovici svoje karijere. Standardna devijacija od 12.89 godina i širok raspon (od 1 do 56 godina) ukazuju na značajnu varijabilnost, dok blaga pozitivna asimetrija (0.30) sugerira da postoji izdužen desni krak, odnosno, nekoliko ispitanika s vrlo velikim brojem godina nakon doktorata.
Prosječni radni staž (Years of Service, kvantitativna kontinuirana varijabla mjerena na omjernoj razini) iznosi 17.61 godina s medijanom od 16 godina, a standardna devijacija od 13.01 godina i raspon od 0 do 60 godina pokazuju široku varijabilnost. Pozitivna asimetrija (0.65) implicira postojanje nekoliko ispitanika s vrlo dugim radnim stažem.
Plaće imaju prosjek od 113706.46 dolara s medijanom 107300, što ukazuje na laganu pozitivnu asimetriju (0.71) – to jest, postoji nekoliko vrlo visokih plaća koje povlače prosječnu vrijednost prema gore. Standardna devijacija od 30289.04 i širok raspon (od 57800 do 231545) pokazuju znatnu varijabilnost u plaćama, što je tipično za akademsku zajednicu u kojoj se plaće mogu značajno razlikovati ovisno o rangu, iskustvu, satima rada, projektima u koje su uključeni i disciplini.
Sljedeći je korak razmotriti relevantne teorije za razmatranje odnosa u kontekstu korelacijske i regresijske analize dostupnih podataka.
Teorija ljudskog kapitala objašnjava kako obrazovanje, iskustvo i radni staž (npr. “yrs.since.phd” i “yrs.service”) doprinose razlici u plaćama. Prema ovoj teoriji, investicije u obrazovanje i profesionalni razvoj povećavaju produktivnost, što se reflektira u većim plaćama. Time se očekuje pozitivna korelacija između iskustva/staža i plaće, iako se u stvarnosti mogu pojaviti i druge varijable koje umanjuju taj odnos.
Teorija diskriminacije - s obzirom na varijablu spola, može biti relevantno je razmotriti teorije o rodnoj diskriminaciji u akademskim plaćama. Ove teorije istražuju kako, unatoč sličnim kvalifikacijama i iskustvu, žene mogu biti plaćene manje od muškaraca zbog sustavnih pristranosti ili institucionalnih prepreka (tzv. “glass ceiling”). Korelacijska i regresijska analiza može otkriti postojanje značajnih razlika u plaćama između spolova, što bi poduprlo ove teorije.
Teorija tržišta rada istražuje dinamiku ponude i potražnje radne snage. U akademskom sektoru, faktor kao što je “rank” utječe na plaće jer se viša pozicija (npr. profesor) smatra vrijednijom zbog većeg odgovornosti i doprinosa. Očekuje se da će viši akademski rang biti povezan s većim plaćama, a regresijska analiza može kvantificirati ovaj odnos.
Iako postoje i druge teorije koje mogu biti relevantne za ove odnose, nemamo sve potrebne varijable, pa ćemo se usmjeriti na one koje imamo. Štoviše, jednostavnu linearnu regresiju kreiramo za numeričke varijable, pa ćemo se usmjeriti na njih. Izdvajamo kvantitativne varijable i dobivamo uvid u prvih 10 opažanja.
Tablica 14. Uvid u prvih 10 opažanja kvantitativnih varijabli
## yrs.since.phd yrs.service salary
## 1 19 18 139750
## 2 20 16 173200
## 3 4 3 79750
## 4 45 39 115000
## 5 40 41 141500
## 6 6 6 97000
## 7 30 23 175000
## 8 45 45 147765
## 9 21 20 119250
## 10 18 18 129000
U sljedećem koraku, želimo ispitati oblik povezanosti. To ćemo učiniti koristeći dijagrame rasipanja.
Uspoređujući svaki par varijabli, možemo vidjeti jesu li točke raspoređene na način koji ukazuje na linearan, nelinearan ili gotovo nikakav odnos. Čini se da su godine od doktorata snažno i pozitivno povezane s radnim stažom (što je logično jer što je više godina od doktorata, obično je i dulji radni staž). (Napomena: Ako želimo kasnije kreirati višestruku regresiju sa salary kao zavisnom varijablom, morat ćemo imati na umu da visoka korelacija između dvije ili više nezavisnih varijabli može dovesti do kolinearnosti/multikolinearnosti. Također, kod jednostavne linearne regresije ne postoje takvi problemi jer postoji samo jedna nezavisna varijabla.) No, godine od doktorata i radni staž čine se slabo do umjereno povezane s plaćom. Štoviše, dijagram rasipanja na kojem se prikazuje odnos radnog staža i plaća ukazuje na nelinearan odnos. No, provjerimo to još putem izračuna koeficijenta korelacija.
Tablica 15. Koeficijenti korelacija
## yrs.since.phd yrs.service salary
## yrs.since.phd 1.0000000 0.9096491 0.4192311
## yrs.service 0.9096491 1.0000000 0.3347447
## salary 0.4192311 0.3347447 1.0000000
Čini se da je odnos godina od doktorata i plaća prikladniji za stavljanje u odnos, jer iako točke jesu naširoko disperzirane, dijagram rasipanja ne ukazuje na očitu nelinearnost odnosa. Osim toga, koeficijent korelacije je nešto veći nego za odnos radnog staža i plaće. Stoga u sljedećem koraku, provjeravamo je li koeficijent korelacije godina od doktorata i plaća statistički značajan. Za to postavljamo hipoteze:
\[H_0 ... r=0\]
\[H_1 ... r \neq 0\] Rezultati testa su sljedeći:
##
## Pearson's product-moment correlation
##
## data: place_reg$yrs.since.phd and place_reg$salary
## t = 9.1775, df = 395, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.3346160 0.4971402
## sample estimates:
## cor
## 0.4192311
Na razini značajnosti 5% može se odbaciti pretpostavka da ne postoji veza između ove dvije varijable. Temeljem ovog testa, može se zaključiti da uočene pravilnosti nisu rezultat slučajnosti.
Sljedeći je korak provjera pretpostavki modela. Prvo, pretpostavlja se da se plaća ne izračunava direktno temeljem godina od doktorata i da su, s obzirom na svoj izvor, dvije varijable međusobno nezavisne. Nadalje, pretpostavljamo da je odnos ovih varijabli, iako slab uz raspršena opažanja, linearan. Kako bi se provjerile pretpostavke o normalnosti reziduala i jednakosti varijaci, koristimo dijagnostičke grafove.
Na prvom grafikonu (Residuals vs Fitted) vidimo da se reziduali ne raspoređuju nasumično oko horizontalne linije y=0. Crvena LOESS krivulja pokazuje određeni „valoviti“ uzorak, što sugerira da odnos između salary i yrs.since.phd nije strogo linearan ili da u modelu nedostaju neke varijable. Također, uočavamo da reziduali postaju sve negativniji za veće predviđene vrijednosti (npr. pri visokim plaćama), što može upućivati na sistematsko podcjenjivanje vrijednosti u tom rasponu.
Drugi grafikon (Q-Q plot) prikazuje usporedbu distribucije standardiziranih reziduala s teorijskom normalnom raspodjelom. U središnjem dijelu reziduali su relativno blizu pravca, ali pri krajevima (repovima) dolazi do većih odstupanja. Oznake poput “44” i “250” (na desnoj strani) i “283” (na lijevoj) označavaju redna mjesta opažanja koja se najviše razlikuju od očekivane normalne raspodjele. Iako ovo samo po sebi ne mora nužno značiti da je model neupotrebljiv, svakako sugerira da reziduali nisu idealno normalno raspodijeljeni, što će utjecati na točnost statističkih testova (npr. p-vrijednosti, intervali pouzdanosti) i umanjiti prediktivnost modela.
Treći grafikon (Scale-Location) prikazuje standardizirane reziduale naspram predviđenih vrijednosti. Uzlazna crvena linija ukazuje da se raspon reziduala povećava s rastom predviđenih vrijednosti plaće, što je znak heteroskedastičnosti (varijanca reziduala nije konstantna). Ova pojava krši pretpostavku homoskedastičnosti u linearnom modelu i može dovesti do nepouzdanih standardnih pogrešaka i krivih zaključaka o značajnosti koeficijenata.
Četvrti grafikon (Residuals vs Leverage) pomaže u prepoznavanju opažanja s velikim utjecajem na model (influential points) ili izdvojenice. Leverage (poluga) mjeri koliko je pojedino opažanje ekstremno u smislu vrijednosti nezavisne varijable (yrs.since.phd). Crvena linija i Cook’s distance referentna krivulja pomažu u identifikaciji točaka koje bi mogle neproporcionalno utjecati na nagib i presretanje regresijskog pravca. Oznake poput “283” i “132” identificiraju opažanja koja imaju nešto višu vrijednost leveragea ili reziduala. Ako su takve točke ujedno i izvan Cook’s distance granice, to može značiti da bi uklanjanje ili dodatna analiza tih točaka mogla promijeniti regresijske koeficijente.
Na temelju svih dijagnostičkih grafikona možemo zaključiti da jednostavni linearni model \(\text{salary} = \beta_0 + \beta_1 \cdot \text{yrs.since.phd}+e\) ne zadovoljava u potpunosti ključne pretpostavke (linearnost, homoskedastičnost i normalnost reziduala). Iako postoje indikacije pozitivne korelacije, povećanje yrs.since.phd ne objašnjava dovoljno dobro varijabilnost plaća, a rastuća disperzija reziduala za više predviđene vrijednosti plaće ukazuje na heteroskedastičnost. Nekoliko opažanja ima izražen utjecaj na model i moglo bi se dodatno istražiti.
Dodatni provjeru normalnosti reziduala možemo izvršiti Shapiro-Wilk testom, koji ukazuje da se odbacuje nul hipoteza koja tvrdi da su reziduali normalno distribuirani. Nadalje, Breusch-Pagan test ukazuje na odbacivanje nul hipoteze koja sadrži tvrdnju o homoskedastičnosti, čime potvrđujemo inicijalne uvide o heteroskedastičnosti.
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.98122, p-value = 4.978e-05
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 50.787, df = 1, p-value = 1.03e-12
Čak i ako izuzmemo opažanja na rednim mjestima 44, 126, 132, 250 i 283 iz analize, ne dolazi do poboljšanja (možete isprobati sami). Stoga, zaključujemo da model jednostavne linearne regresije nije primjeren način analize ovih podataka.
Unatoč popularnosti jednostavne linearne regresije, ovakve se situacije u praksi događaju češće nego se čini. Jedan od razloga česte prisutnosti modela jednostavne linearne regresije jest njezina jednostavnost. Uobičajeno se zbog svoje jednostavnosti uči u uvodnim kolegijima statistike. Samim time je poznata većem broju ljudi koji ju češće prepoznaju i koriste. No, u uvodnim kolegijima se često ne posvećuje pozornost provjeri pretpostavki i validaciji modela, pa se među dostupnim prikazima jednostavne linearne regresije mogu naći i oni primjeri modela u kojima pretpostavke nisu ispoštovane.
Postoji li veza između prosječnih godina školovanja i bruto nacionalnog dohotka po stanovniku? Ako da, kako se bruto nacionalni dohodak po stanovniku povećava za svaku dodatnu godinu prosječnog školovanja stanovništva?
Slijedeći primjer koristi podatkovni skup o ljudskom razvoju, preuzet s UNDP-ovih podataka za 2022. godinu, koji obuhvaća indekse poput HDI-ja, prosječnih godina školovanja (MYS) i bruto nacionalnog dohotka po stanovniku (GNIpc). Podaci su prikupljeni na globalnoj razini i omogućuju ispitivanje odnosa između obrazovnog postignuća stanovništva i ekonomske snage države. Analiza se provodi prema teorijskoj podlozi i postupku u članku “Jednostavna linearna regresija u R-u: Prosječno trajanje školovanja i bruto nacionalni dohodak po stanovniku” (Kostelić i Koso, 2023), u kojem možete naći detaljnija i opširnija objašnjenja. Razlika je što su se u tom članku koristili podaci iz 2021. godine, a ovdje će se prikazati analiza temeljem novijih podataka, tj. iz 2022. godine.
U ovom podatkovnom skupu podaci su organizirani tako da svaki red predstavlja jednu zemlju, a stupci sadrže različite mjere koje se koriste za procjenu ljudskog razvoja:
Slijedi prikaz 10 redaka iz podatkovnog okvira.
## ...1 ...2 Human Development Index (HDI)
## 1 1 Switzerland 0.967
## 2 2 Norway 0.966
## 3 3 Iceland 0.959
## 4 4 Hong Kong, China (SAR) 0.956
## 5 5 Denmark 0.952
## 6 5 Sweden 0.952
## Life expectancy at birth Expected years of schooling Mean years of schooling
## 1 84.255 16.58373 13.90407
## 2 83.393 18.63846 13.06234
## 3 82.815 19.10673 13.76717
## 4 84.315 17.84959 12.34777
## 5 81.882 18.77403 12.96049
## 6 83.505 19.03677 12.67372
## Gross national income (GNI) per capita GNI per capita rank minus HDI rank
## 1 69432.79 6
## 2 69189.76 6
## 3 54688.38 16
## 4 62485.51 6
## 5 62018.96 6
## 6 56995.85 10
## HDI rank
## 1 1
## 2 2
## 3 4
## 4 3
## 5 8
## 6 5
Regresijski model se oslanja na čvrstu teorijsku podlogu, pri čemu se pretpostavlja da promjene u nezavisnoj varijabli (MYS) uzrokuju promjene u zavisnoj varijabli (GNIpc). Odnos između MYS-a i GNIpc-a potkrijepljen je radovima koji sugeriraju njegovu složenost (Soviz et al., 2019; Chowdhury, 2019; Dobrolyubova, 2020; Saha, 2023). Iako više obrazovanje može potaknuti ekonomski rast i omogućiti veća ulaganja u obrazovanje, to ulaganje ne mora nužno rezultirati rastom MYS-a (Patel i Annapoorna, 2019). Stoga je opravdana primjena modela jednostavne linearne regresije s MYS-om kao nezavisnom, a GNIpc-om kao zavisnom varijablom.
Dakle, u nastavku ćemo se baviti tim dvijema varijablama:
## MYS GNIpc
## MYS 1.0000000 0.6480262
## GNIpc 0.6480262 1.0000000
Korelacijska analiza, koja se obično provodi prije regresijske analize, započinje pregledom dijagrama raspršenosti i provjerom linearnosti odnosa. Ako se primijetimo da točke, koje predstavljaju uređene parove opažanja MYS-a i GNIpc-a za svaku zemlju, ne formiraju jasnu liniju, odnosno, ne možemo zamisliti pravac koji bi dobro opisivao podatke, to je signal da odnos nije linearan. Takav uvid sugerira potrebu za transformacijom varijable. Budući da transformacija može otežati interpretaciju, najprije se transformira samo zavisna varijabla, dok se nezavisna varijabla ostavlja u izvornom obliku (transformacija nezavisne varijable se izbjegava, ako je moguće). U ovom slučaju, pregledom odnosa utvrđeno je da je logaritamska transformacija najprikladnija za postizanje linearnosti.
## MYS GNIpc ln_GNI
## MYS 1.0000000 0.6480262 0.8291025
## GNIpc 0.6480262 1.0000000 0.8479092
## ln_GNI 0.8291025 0.8479092 1.0000000
Dijagrami rasipanja ukazuju na linearni odnos između MYS i ln_GNI, iako se može primijetiti nekoliko udaljenijih točaka. Daljnja analiza će uključivati sva opažanja, a izdvojenice će se ukloniti samo ako to bude nužno. U takvim slučajevima, potrebno je pažljivo objasniti izdvojenice.
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.98565, p-value = 0.04672
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.0049247, df = 1, p-value = 0.9441
Residuals vs Fitted: Crvena LOESS krivulja je uglavnom ravna, što sugerira da nema izrazitog nelinearnog uzorka ili sistematskog odstupanja reziduala u odnosu na predviđene vrijednosti. Reziduali se raspoređuju nasumično oko horizontalne linije y=0y=0, bez uočljivih grupa ili “lijevak” oblika, što upućuje da nema jasnih naznaka heteroskedastičnosti ili potrebe za dodatnim transformacijama (barem prema ovom grafu).
Q-Q plot: Većina točaka prati dijagonalnu liniju, što znači da je raspodjela reziduala uglavnom bliska normalnoj. Ipak, postoji lagano odstupanje na krajevima (posebno na desnoj strani, npr. opažanje “49”), što može signalizirati manju asimetriju ili rijetke ekstremne vrijednosti u raspodjeli reziduala. Rezultati Shapiro-Wilk testa (p=0.04672) potvrđuju da se na razini značajnosti od 5% može detektirati odstupanje od normalnosti.
Scale-Location (Spread-Location): Crvena krivulja je blago zakrivljena, ali ne pokazuje tipičan uzorak “lijevka” koji bi naglasio rastuću ili opadajuću varijancu s predviđenim vrijednostima. Nema izraženog povećanja ili smanjenja varijance reziduala, što ukazuje na relativno ujednačenu disperziju i time ne ukazuje na heteroskedastičnost.
Residuals vs Leverage: Većina točaka nalazi se u području niske leverage (poluge; identificira utjecajne točke koje “povlače” pravac) i standardizirani reziduali su unutar ±3. Nekoliko točaka (npr. “49”, “180”, “170”) može privući pozornost, no ne prelaze Cookovu granicu. To znači da, iako imaju nešto višu vrijednost reziduala ili “poluge”, vjerojatno ne utječu značajno na koeficijente regresijskog modela.
Shapiro-Wilk normality test (p=0.04672): Statistički značajan rezultat ukazuje na odstupanje od normalnosti reziduala, što je vidljivo i na krajevima Q-Q grafa. Međutim, p-vrijednost je vrlo blizu 0.05, pa bi mnogi analitičari zaključili da je riječ o blagom kršenju pretpostavke.
studentized Breusch-Pagan test (p=0.9441): Visoka p-vrijednost jasno pokazuje da nema statistički značajne heteroskedastičnosti. Drugim riječima, nema potrebe za korekcijama poput robusnih standardnih pogrešaka ili transformacijama isključivo zbog varijance reziduala.
Iako bismo mogli nastaviti analizu, s obzirom da narušenost normalnosti reziduala nije nužno razlog za odbacivanje modela (iako bitno narušava sposobnosti predviđanja modela, pa se model ne može koristiti u te svrhe), pristupit će se identificiranju i uklanjanju izdvojenica.
## [1] "Kuwait" "Marshall Islands"
## [3] "Kyrgyzstan" "Congo (Democratic Republic of the)"
## [5] "South Sudan"
Svaka od ovih zemalja ima jedinstveni kontekst (npr. bogatstvo prirodnim resursima, političku nestabilnost, malu populaciju ili povijesne okolnosti) koji može stvoriti nesrazmjer između pokazatelja obrazovanja (MYS) i ekonomskog razvoja (GNIpc). Na primjer, kao zemlja bogata naftom, Kuwait može postići visoki bruto nacionalni dohodak po stanovniku neovisno o prosječnoj razini obrazovanja stanovništva. To može dovesti do odstupanja u odnosu na druge zemlje, kod kojih je veza između dohotka i obrazovanja ujednačenija. Marshall Islands je mala otočna država, a takve države često imaju specifične ekonomske strukture (turizam, ribarstvo, inozemne subvencije) koje se ne uklapaju u globalni uzorak i globalne prosjeke. Ako stanovništvo ostvaruje dohodak iz ograničenog broja izvora, odnosi između obrazovanja i dohotka mogu odstupati od uobičajenih trendova. Kyrgyzstan je postsovjetska država u razvoju s nasljeđem obrazovnog sustava iz sovjetskog razdoblja. Moguće je da postoje solidne razine obrazovanja (MYS), ali gospodarstvo još uvijek ne prati tu razinu, što stvara nesrazmjer između MYS-a i GNIpc-a. Nadalje, zbog dugotrajnih sukoba i nedovoljne infrastrukture, DR Kongo ima vrlo nisku razinu ekonomskog razvoja, dok MYS može biti neujednačen ili nepouzdano mjeren. Ta kombinacija dovodi do slabijih ekonomskih pokazatelja u usporedbi s nekim drugim državama sa sličnim stupnjem obrazovanja. Južni Sudan je jedna od najmlađih država na svijetu, suočena s velikim izazovima u izgradnji institucija i obrazovnog sustava. Sukobi, siromaštvo i ograničena infrastruktura uzrokuju iznimno niske ekonomske pokazatelje, dok formalna mjerenja obrazovanja mogu biti niska ili neujednačena, stvarajući izdvojenost od očekivanih trendova.
Ponavljamo analizu nakon izdvajanja izdvojenica. Tad dobivamo sljedeće dijagnostičke grafove.
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.99414, p-value = 0.667
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.034387, df = 1, p-value = 0.8529
Nakon uklanjanja izdvojenica, reziduali u grafu Residuals vs Fitted ravnomjerno su raspoređeni oko nule, što ne upućuje na nelinearnost ili druge probleme. Q-Q plot pokazuje da se većina točaka dobro poklapa s dijagonalnom linijom, pa je distribucija reziduala bliža normalnoj (što potvrđuje i Shapiro-Wilk test s p=0.667). Scale-Location graf ne ukazuje na heteroskedastičnost, a Residuals vs Leverage graf nema značajnih odstupanja ili točaka s visokim utjecajem (izvan granice Cookove udaljenosti). U skladu s tim, Breusch-Pagan test (p=0.8529) ukazuje da nema statistički značajne heteroskedastičnosti. Drugim riječima, nakon uklanjanja izdvojenica, sve su pretpostavke zadovoljene, stoga možemo preći na tumačenje modela.
##
## Call:
## lm(formula = data1$ln_GNI ~ data1$MYS, data = data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.6657 -0.3677 0.0189 0.4248 1.7506
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.53987 0.13354 48.97 <2e-16 ***
## data1$MYS 0.31397 0.01395 22.51 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6167 on 186 degrees of freedom
## Multiple R-squared: 0.7316, Adjusted R-squared: 0.7301
## F-statistic: 506.9 on 1 and 186 DF, p-value: < 2.2e-16
Konstanta (6.53987) i koeficijent uz MYS (0.31397) su zasebno (t-test) i zajedno (F-test) statistički značajni na razini p < 2e-16, što znači da su i model i regresijski koeficijenti statistički značajno različiti od nule. Koeficijent determinacije (\(R^2 = 0.7316\)) ukazuje na to da oko 73% varijacija u ln(GNIpc) rezultira iz varijacija u prosječnim godinama školovanja (MYS). U teoriji, bez ikakvog školovanja stanovništva, \(log(GNI_{pc})\) iznosi 6,53987, a svaka dodatna godina prosječnog školovanja stanovništva vodi k povećanju \(log(GNI_{pc})\) za 0.31397 jedinica. To se može zapisati na sljedeći način:
\[\widehat{ln(GNI_{pc})} = 6,54 + 0,31 \cdot MYS + e\]
Grafički, to izgleda ovako:
No, s obzirom da smo transformirali zavisnu varijablu, da bi smo mogli u potpunosti razumjeti što model opisuje, moramo izvršiti povratnu transformaciju (tj. antilogaritam, s bazom prirodnog logaritma, tj. Eulerovim brojem).
\[e^{ln(GNI)} = e^{6.53987+0.31397 \cdot MYS}\] \[GNI = e^{6.53987} \cdot e^{0.31397 \cdot MYS}\] \[GNI = 692.1966 \cdot e^{0.31397 \cdot MYS}\]
Može se uočiti da rast u vrijednostima GNIpc-a s obzirom na promjene u vrijednostima MYS-ja više nije linearan. U podlozi je eksponencijalna funkcija, pa svako povećanje MYS-ja višestruko povećava GNIpc. Taj je odnos prikazan sljedećim grafom.
Inače se koristi pojednostavljeni način interpretacije koeficijenata u modelima u kojima je zavisna varijabla transformirana putem logaritma. Naime, potencira se koeficijent, \(e^{0,31397} = 1.368849\), koji tad predstavlja faktor povećanja zavisne varijable za jediničnu promjenu nezavisne. Smatra se da se vrijednost zavisne varijable povećava 1.368849 puta ili za 36,885 % za jediničnu promjenu nezavisne varijable (tj. prosječne godine dana školovanja).
Dakle, vrijednost zavisne varijable uvećava se za 36,885 % sa svakim jediničnim porastom nezavisne varijable u odnosu na vrijednost zavisne varijable prije jediničnog porasta nezavisne varijable. Na primjer, procijenjena vrijednost zavisne varijable uz jednu godinu prosječnog školovanja je 947,51 te kad se ta vrijednost pomnoži s 1,368849, dobiva se 1297,001, što je procijenjena vrijednost zavisne varijable u slučaju dvije godine prosječnog trajanja školovanja. Slično, ako se 1297,001 pomnoži s tim faktorom, dobiva se 1775,398 - procijenjena vrijednost zavisne varijable u slučaju tri godine prosječnog trajanja školovanja. Ovakva je interpretacija potrebna zbog transformacije zavisne varijable.
Na primjer, u Hrvatskoj je u 2022. godini MYS iznosio 12,3287 (za cca 0,14 više nego u 2021. godini). Dakle, u prosjeku, stanovnici Hrvatske stariji od 25 godina imali su završeno četverogodišnje srednjoškolsko obrazovanje (8 godina osnovnoškolskog + 4 godine srednjoškolskog obrazovanja) i možda jedan tečaj ili su započeli studij. Za navedene prosječne godine školovanja (12,3287), procjenjuje se \(GNI_{pc}\) od 33213.7 (dok je zapravo ostvaren nešto viši \(GNIpc\) i iznosi 34323,81). Primjenjujući faktor povećanja, može se zaključiti da bi povećanje prosječnih godina školovanja u Hrvatskoj za 1, rezultiralo s \(GNI_{pc}\) od 445464.54.
Dakle, to je jedan od motivatora za poticanje stanovništva na nastavak školovanja. Ako se jasno pokaže da svaka dodatna godina prosječnog školovanja stanovništva značajno povećava ekonomski dohodak, donositelji odluka mogu koristiti te podatke za oblikovanje strategija usmjerenih na ulaganje u obrazovne sustave. Također, ovakav način interpretacije omogućuje usporedbu učinka obrazovanja između različitih zemalja ili regija, pružajući temelj za daljnje komparativne analize u području ljudskog razvoja.
Ovi rezultati imaju širi kontekst koji nadilazi samo tehničku interpretaciju modela. Naime, obrazovanje, izraženo kroz prosječne godine školovanja (MYS), ne odražava samo ekonomsku snagu države, već i kvalitetu života stanovništva. Više obrazovanje može povećati kompetencije, znanja i vještine, što rezultira ne samo većim prihodima, nego i boljim zdravstvenim pokazateljima, većom inovativnošću, većim pristupom informacijama te općenito višom razinom društvenog blagostanja.
Stoga bi vrijedilo u budućim analizama dodatno istražiti kako promjene u obrazovanju utječu na širi spektar pokazatelja. Dodatna istraživanja mogla bi razmotriti i druge vezane čimbenike, poput zdravstvenih usluga, sigurnosti, ekoloških uvjeta i socijalne inkluzije, kako bi se dobila cjelovita slika o tome što potiče ekonomski i društveni razvoj. U konačnici, detaljnija analiza ovih međusobnih veza može poslužiti kao smjernica za kreiranje ciljanih obrazovnih i ekonomskih politika, usmjerenih na poboljšanje kvalitete života u državama širom svijeta.
Osim toga, u podatkovnoj znanosti se često koristi metoda treniranja i testiranja modela. Radi se o tehnici koja se obično koristi za procjenu performansi klasifikacijskih modela, ali se može primijeniti i na modele linearne regresije ako se koristi za procjenu točnosti predviđanja numeričkih vrijednosti. U slučaju linearne regresije, može se koristiti za procjenu preciznosti predviđanja i stabilnosti regresijskog modela. To je jedan oblik validacije modela i premašuje ciljano gradivo kojim se ovdje bavimo, ali možete pogledati primjer postupka u ranije referiranom članku.
Višestruka linearna regresija je metoda multivarijantne analize koja omogućuje procjenu odnosa između zavisne varijable i više nezavisnih varijabli. Cilj višestruke regresije je kvantificirati odnos nezavisnih i zavisne varijable te utvrditi koja od njih ima najvažniji doprinos objašnjenju varijacija zavisne varijable. Ova metoda omogućuje kvantifikaciju veze između varijacija nezavisnih varijabli i varijacija zavisne varijable, procjenu njihove značajnosti i oblikovanje prediktivnih modela.
Za razliku od metoda koje analiziraju međuovisnost varijabli (npr. faktorska analiza, klaster analiza), višestruka regresija pripada tehnikama za analizu zavisnosti varijabli, gdje se jasno razlikuju zavisna i nezavisne varijable. U praksi se višestruka regresija koristi za analizu složenih odnosa između više varijabli, uključujući predviđanje vrijednosti zavisne varijable, identifikaciju ključnih prediktora i evaluaciju efekata uz kontrolu za utjecaj drugih varijabli.
U nastavku će se detaljnije razmotriti višestruka linearna regresija, uključujući teorijske osnove, korake u analizi te interpretaciju rezultata. Posebna pažnja posvetit će se ključnim pretpostavkama modela, poput linearnosti, homoskedastičnosti, normalnosti reziduala i odsutnosti kolinearnosti među nezavisnim varijablama.
Opći zapis modela višestruke linearne regresije je:
\[\hat{y}=β_0+β_1 x_1+β_2 x_2+⋯+β_n x_n+e\] Gdje je \(\hat{y}\) – modelom procijenjena vrijednost zavisne varijable \(x_1,…,x_n\) – nezavisne varijable \(β_0\) – konstanta \(β_1,…,β_n\) – regresijski koeficijenti uz nezavisne varijable \(e\) – rezidual (pogreška modela), odstupanje stvarne vrijednosti od predviđene vrijednosti. Ovo odstupanje uključuje utjecaj svih faktora koji nisu obuhvaćeni modelom.
Pri izračunu koeficijenata, ovdje se češće koristi zapis koristeći vektore i matrice. Onda model poprima sljedeći oblik:
\[y = X \beta + e\]
gdje je:
Glavni cilj je pronaći vektor \(\beta\) koji minimizira sumu kvadrata pogrešaka:
\[SSE = \sum_{i=1}^n (y_i - x_i^T \cdot \beta)^2\]
što se u matricnom obliku može zapisati kao
\[SSE=(y−Xβ)^T(y−Xβ)\]
Da bismo pronašli koeficijente koji minimiziraju \(SSE\), deriviramo \(SSE\) po \(β\) i postavimo derivaciju na nulu. Time dolazimo do tzv. normalnih jednadžbi:
\[\frac{∂SSE}{∂β}=−2X^T(y−Xβ)=0\]
Prilagodbom zapisa dobijemo:
\[X^TXβ=X^Ty\]
Pod pretpostavkom da je matrica \(X^TX\) invertibilna (tj. postoji druga matrica koja, kada se pomnoži s njom (s obje strane), daje jediničnu matricu, odnosno: \(A×A^{−1}=A^{−1}×A=I\)), optimalno rješenje je:
\[\hat{β}=(X^TX)^{−1}X^Ty\]
Ovaj postupak osigurava da su koeficijenti izračunati tako da se minimizira ukupna suma kvadrata odstupanja stvarnih vrijednosti od vrijednosti koje predviđa model. Dodatno, standardne pogreške koeficijenata mogu se procijeniti iz varijance pogrešaka, što omogućuje statističko testiranje (npr. t-testove) značajnosti pojedinih koeficijenata. Ovo je osnovna formula i postupak u višestrukoj linearnoj regresiji, koja se, kao i kod jednostavne linearne regresije, temelji na metodi najmanjih kvadrata.
Pretpostavke višestruke regresije:
Koliko BDP per capita, obitelj i očekivano doživljenje utječu na sreću?
Za potrebe ove analize koristit će se podaci iz JASP-ove knjižnice, World Happiness, koji su dostupni i za preuzimanje putem linka. Skup podataka World Happiness 2017 pruža informacije o indeksu sreće i različitim životnim čimbenicima za 155 zemalja, izvještaj iz 2017. godine.
Varijable:
Izvori: Helliwell, J., Layard, R., & Sachs, J. (ur., 2017). World Happiness Report 2017. Mreža za rješenja održivog razvoja (Sustainable Development Solutions Network). Preuzeto s https://worldhappiness.report/ed/2017/. Izvješće o svjetskoj sreći (World Happiness Report) godišnje objavljuje Ujedinjeni narodi (https://worldhappiness.report/). Podaci iz drugih godina dostupni su, na primjer, na platformi Kaggle: https://www.kaggle.com/mathurinache/world-happiness-report.
Tablica 16. Pokazatelji deskriptivne statistike
Variable | Valid | Mode | Median | Mean | Std. Deviation | Skewness | Kurtosis | Shapiro-Wilk | P-value of Shapiro-Wilk | Min | Max |
---|---|---|---|---|---|---|---|---|---|---|---|
Happiness Rank | 155 | 1 | 78 | 78 | 44.889 | <.001 | -1.2 | 0.9546 | < .001 | 1 | 155 |
Happiness Score | 155 | 5.074 | 5.279 | 5.354 | 1.1312 | 0.0096 | -0.7504 | 0.9829 | 0.0522 | 2.6930 | 7.537 |
Whisker high | 155 | 2.865 | 5.37 | 5.4523 | 1.1185 | 0.0084 | -0.7764 | 0.9828 | 0.0508 | 2.8649 | 7.622 |
Whisker low | 155 | 2.521 | 5.193 | 5.256 | 1.1450 | 0.0091 | -0.7233 | 0.9836 | 0.0628 | 2.5211 | 7.4796 |
GDP per Capita | 155 | 0 | 1.065 | 0.985 | 0.421 | -0.391 | -0.677 | 0.97 | 0.002 | 0 | 1.871 |
Family | 155 | 0 | 1.254 | 1.1889 | 0.2873 | -1.18 | 1.5352 | 0.9115 | < .001 | 0 | 1.611 |
Life Expectancy | 155 | 0 | 0.606 | 0.5513 | 0.2371 | -0.578 | -0.5856 | 0.9460 | < .001 | 0 | 0.9495 |
Freedom | 155 | 0 | 0.438 | 0.4088 | 0.1500 | -0.6158 | -0.2084 | 0.9595 | < .001 | 0 | 0.658 |
Generosity | 155 | 0 | 0.232 | 0.2469 | 0.1348 | 0.8987 | 1.7434 | 0.9578 | < .001 | 0 | 0.838 |
Government Corruption | 155 | 0 | 0.0898 | 0.1231 | 0.1017 | 1.4764 | 1.6637 | 0.839 | < .001 | 0 | 0.464 |
Deskriptivna statistika za skup podataka “World Happiness 2017” pruža uvid u osnovne značajke svake varijable koja se analizira. Podaci su dostupni za 155 zemalja, a sve varijable imaju valjane vrijednosti bez nedostajućih podataka.
Promatrane države ostvaruju prosječan indeks sreće od 5.354, dok je standardna devijacija 1.1312, a raspodjela je približno simetrična (skewness 0.0096). Shapiro-Wilk test (p = 0.0522) potvrđuje približno normalnu distribuciju ove varijable (na razini značajnosti 5% ne odbacuje se pretpostavka o normalnosti podataka). Ipak, većina varijabli pokazuje odstupanja od normalnosti. Varijable percepcije korupcije i velikodušnosti pokazuju posebno izražena odstupanja, što može utjecati na odabir daljnje analize.
Teorijske osnove za istraživanje odnosa između nacionalne sreće i različitih životnih čimbenika, poput BDP-a po stanovniku, očekivanog životnog vijeka, slobode i percepcije korupcije, temelje se na nekoliko ključnih teorijskih okvira iz područja ekonomije, sociologije, psihologije i javnog zdravlja:
Kao i ranije, uvide započinjemo temeljem dijagrama rasipanja i provjerom korelacije. S obzirom da se radi o dvodimenzionalnom grafu, ovdje opažamo parove varijabli.
Ovi dijagrami raspršenosti ukazuju na različite jačine, smjerove i oblike povezanosti. Na primjer, GDP per Capita i Happiness Score, Family i Happiness Score te Life Expectancy i. Happiness Score ukazuju na pozitivnu korelaciju između varijabli, koja djeluje linearno, a očekivali bismo utvrđivanje umjerene do jake veze.
Nasuprot tome, Family i Generosity te Life Expectancy i Generosity prikazuju donekle kružno raspršene podatke oko vodoravne linije, sugerirajući da povezanost ne postoji ili je jako slaba. Freedom i Government Corruption prikazuje odnos koji bi se mogao opisati eksponencijalnom funkcijom. Dakle, ovdje su prikazani šaroliki odnosi.
Naravno, jedna od osnovnih pretpostavki je linearnost odnosa. Ako je Happiness Score zavisna varijabla, kao nezavisne varijable ima smisla promatrati samo one za koje vizualno možemo procijeniti da stvaraju linearni odnos:
Kako bismo utvrdili koji ćemo koeficijent korelacije koristiti, ponovo, pobliže promatramo oblik povezanosti odabranih varijabli.
Tablica 18. Koeficijenti korelacije
Variable Pair | Pearson r | p (Pearson) | Spearman ρ | p (Spearman) | Kendall τB | p (Kendall) |
---|---|---|---|---|---|---|
GDP per Capita – Happiness Score | 0.8125 | < .001 | 0.8250 | < .001 | 0.6288 | < .001 |
Family – Happiness Score | 0.7527 | < .001 | 0.7736 | < .001 | 0.5735 | < .001 |
Life Expectancy – Happiness Score | 0.7820 | < .001 | 0.7876 | < .001 | 0.5786 | < .001 |
Postoji snažna pozitivna linearna povezanost između GDP-a po glavi stanovnika i razine sreće (\(r = 0.8125\), p < 0.001). Nadalje, postoji snažna pozitivna monotona (moguće i linearna?) povezanost između povezanosti s obitelji i sreće (\(ρ=0.7736\), p<0.001) te snažna pozitivna linearna povezanost između očekivanog životnog vijeka i sreće (\(r=0.782\), p<0.001).
Ovdje je jedino potencijalno upitan odnos povezanosti s obitelji i sreće, koji bi mogao biti linearan, iako postoji naznaka i da bi mogao biti nelinearan. Ukoliko odnos suviše odstupa od linearnog, očekujemo da će i pretpostavke modela biti narušene. U ovoj situaciji nedoumice, nastavljamo s uvrštavanjem varijable ‘Family’ u model višestruke linearne regresije i očekujemo uočiti indikatore narušenih pretpostavki u slučaju da upitan odnos uistinu previše odstupa od linearnog.
Na dijagramima reziduala prema nezavisnim varijablama (GDP per Capita, Family, i Life Expectancy), većina točaka raspoređena je nasumično oko horizontalne linije na razini nule. Ako točke djeluju nasumično raspršene, pretpostavka pravilno specificiranog modela je zadovoljena. Ako postoji uzorak (npr. zakrivljenost), to može ukazivati na potrebu za transformacijom prediktora ili uključivanjem nelinearnih komponenti. Kod varijable Family, može se primijetiti blagi obrazac kod viših vrijednosti (kao da postoji neka nedvidljiva granica).
Grafikon reziduala prema predviđenim vrijednostima prikazuje da su reziduali razmjerno ravnomjerno raspoređeni oko horizontalne linije. Iako postoji blago povećanje rasipanja kod većih predviđenih vrijednosti, uzorak uglavnom zadovoljava pretpostavku homoskedastičnosti.
Q-Q dijagram (teorijski kvantili reziduala) pokazuje da su standardizirani reziduali većinom raspoređeni duž dijagonalne linije, što ukazuje na to da su reziduali približno normalno distribuirani. Odstupanja na krajevima dijagrama (repovi distribucije) sugeriraju moguća manja odstupanja od normalnosti, ali ne u značajnoj mjeri i malo ih je, pa se može smatrati da su ta odstupanja u granicama tolerancije.
Dodatna dijagnostika slučajeva koristeći standardizirane reziduale (koji su veći od 3 ili manji od -3) te Cookove udaljenosti ukazuju na samo jednu izdvojenicu (državu pod rednim brojem 93: Somalija - čini se da su ljudi u toj zemlji puno sretniji no što bi se očekivalo uz dane razine promatranih nezavisnih varijabli). No, s obzirom na to da grafovi ukazuju samo na manja odstupanja, ova utjecajna točka se neće ukloniti iz analize.
Uz manje nepravilnosti u dijagramima reziduala, rezultati uglavnom podržavaju ključne pretpostavke homoskedastičnosti i normalnosti reziduala za razmatrani model. Na temelju ovih grafičkih provjera može se zaključiti da regresijski model zadovoljava osnovne preduvjete za analizu, ali dodatna pažnja može biti potrebna za specifične varijable poput Family.
Tablica 19. Sažetak modela
Model | R | R² | Adjusted R² | RMSE |
---|---|---|---|---|
H₀ | 0.0000 | 0.0000 | 0.0000 | 1.1312 |
H₁ | 0.8698 | 0.7566 | 0.7517 | 0.5636 |
Model sa zavisnom varijablom Happiness Score i tri nezavisne varijable (GDP per Capita, Family, i Life Expectancy) postiže koeficijent determinacije 0.7517 (prilagođen za veći broj varijabli), što znači da je 75.17% varijacija u sreći rezultat varijacija u nezavisnim varijablama. Prilagođeni koeficijent determinacije ukazuje na blago smanjenje zbog broja nezavisnih varijabli, što je uobičajeno. Root Mean Square Error (RMSE) ili korijen prosječnih kvadrata pogreške od 0.5636 ukazuje na prosječno odstupanje predviđanja od stvarnih vrijednosti sreće. Kod modela za koje se ispituju prediktivne sposobnosti, nastoji se postići RMSE manji od 0.5, no toleriraju se manja odstupanja.
Tablica 20. ANOVA
Model | Sum of Squares | df | Mean Square | F | p |
---|---|---|---|---|---|
H₁ (Regression) | 149.1009 | 3 | 49.7003 | 156.4465 | < .001 |
Residual | 47.9700 | 151 | 0.3177 | ||
Total | 197.0710 | 154 |
Note. The intercept model is omitted, as no meaningful information can be shown.
\[H_0… β_0=β_1=β_2=β_3=0\]
\[H_1… β_0≠β_1≠β_2≠β_3≠0\]
Rezultati ANOVA testa pokazuju da je model statistički značajan (\(F=156.4465, p<0.001\)). Ovo znači da kombinacija nezavisnih varijabli (GDP per Capita, Family, i Life Expectancy) značajno doprinosi modeliranju varijacija u sreći. Ukupna suma kvadrata (\(SS_{Total}=197.071\)) je podijeljena između regresije (\(SS_{Regression}=149.1009\)) i reziduala (\(SS_{Residual}=47.97\)), pri čemu regresija objašnjava većinu varijacija.
Tablica 21. Koeficijenti modela
Model | Unstandardized | Standard Error | Standardized | t | p | Tolerance | VIF |
---|---|---|---|---|---|---|---|
H₀ (Intercept) | 5.3540 | 0.0909 | – | 58.9244 | < .001 | – | – |
H₁ (Intercept) | 2.0844 | 0.1967 | – | 10.5979 | < .001 | – | – |
GDP per Capita | 0.8641 | 0.2195 | 0.3214 | 3.9365 | < .001 | 0.2418 | 4.1362 |
Family | 1.3775 | 0.2187 | 0.3498 | 6.2991 | < .001 | 0.5228 | 1.9129 |
Life Expectancy | 1.4165 | 0.3574 | 0.2969 | 3.9630 | < .001 | 0.2873 | 3.4807 |
Konstanta modela iznosi 2.0844 i statistički je značajna (p<0.001), što označava osnovnu razinu sreće kad su sve nezavisne varijable jednake nuli. Međutim, tumačenje konstante u ovom kontekstu je ograničeno zbog prirode varijabli.
Koeficijent uz GDP per Capita iznosi 0.8641, što ukazuje da povećanje GDP-a per capita za jedinicu (u PPP iznosima) rezultira prosječnim povećanjem indeksa sreće za 0.8641. Koeficijent je statistički značajan (p<0.001). VIF vrijednost od 4.1362 je viši od granične vrijednosti 3, ali unutar granica tolerancije (manji od 5) te ukazuje na blago povišenu kolinearnost, ali ne i na zabrinjavajuću razinu.
Koeficijent uz Family iznosi 1.3775, što znači da veće povjerenje u obitelj povećava indeks sreće za 1.3775. Ova varijabla ima najjači relativni utjecaj (standardizirani koeficijent = 0.3498) i statistički je značajna (p<0.001). VIF vrijednost 1.9129 pokazuje nisku kolinearnost.
Koeficijent uz Life Expectancy je 1.4165, što znači da povećanje očekivanog životnog vijeka za jednu godinu rezultira povećanjem indeksa sreće za 1.4165. Koeficijent je također statistički značajan (p<0.001), s VIF vrijednošću 3.4807, koja ne ukazuje na ozbiljan problem kolinearnosti.
Kada postoji izražena kolinearnost (uobičajeno se koristi vrijednost VIF-a od 5 kao granica za isključivanje varijabli, dok je 3 konzervativna granica), regresijski model teško razlikuje pojedinačne utjecaje nezavisnih varijabli jer su one međusobno povezane. Zbog toga se ne može jasno odrediti koji dio varijacije zavisne varijable dolazi od koje nezavisne varijable. Osim toga, kolinearnost povećava standardne pogreške koeficijenata, što dovodi do manje preciznih procjena koeficijenata u modelu. Nadalje, kolinearnost može umjetno povećati vrijednost koeficijenta determinacije, što daje dojam da model bolje objašnjava varijaciju zavisne varijable nego što to zaista čini.
Model je statistički značajan, s visokim koeficijentom determinacije koji pokazuje da odabrane varijable značajno doprinose objašnjenju sreće na nacionalnom nivou. Dakle, možemo pristupiti zapisu modela:
\[\hat{y}=2.084+0.864 \cdot G+1.3775 \cdot F+1.4165 \cdot L+e\]
Očekivana dugovječnost najviše doprinosi sreći, na način da svaka dodatna godina očekivanog doživljenja u državi povećava percipiranu sreću stanovništva te zemlje za 1.4165. Nadalje, za svaku dodatnu jedinicu percipiranih dobrih odnosa s obitelji, sreća raste za 1.3775. Iako BDP per capita ima najmanji koeficijent, nije zanemariv i statistički je značajan te za svaku dodatnu jedinicu BDP-a per capita (PPP), sreća stanovnika u zemlji raste za 0.864. Prema ovom modelu, sretniji su stanovnici država u kojima se duže živi, u kojima se njeguju obiteljski odnosi i u kojima je gospodarska situacija (BDP per capita) bolja. Ipak, koeficijent determinacije od 75.17% znači i to da postoji pogreška modela koja iznosi 24.83%. To ukazuje na postojanje drugih čimbenika koji su vezani uz varijacije sreće, što otvara dodatna pitanja o tome što čini ljude sretnima i mogućnosti daljnjeg unaprjeđenja modela svjetske sreće.
Korelacijska i regresijska analiza su osnovni alati za istraživanje odnosa među varijablama, no potrebno je razumjeti njihove prednosti i ograničenja kako bi se osigurala ispravna interpretacija rezultata. Kombiniranjem ovih metoda s teorijskim okvirom i pažljivo osmišljenim istraživačkim dizajnom možemo postići pouzdane i korisne uvide.
Jednostavnost primjene: Korelacijska i regresijska analiza pružaju relativno jednostavan način za kvantifikaciju odnosa između varijabli, posebno uz suvremene alate kao što su R, JASP ili MS Excel.
Jasna interpretacija: Koeficijent korelacije omogućuje brzo razumijevanje smjera i jačine povezanosti između varijabli, dok regresijski model nudi kvantitativnu procjenu promjena u zavisnoj varijabli s obzirom na promjene nezavisnih varijabli.
Raznovrsna primjena: Ove metode koriste se u različitim disciplinama, uključujući ekonomiju, biologiju, psihologiju i društvene znanosti, što ih čini univerzalnim alatima za istraživanje.
Identifikacija povezanosti: Korelacija omogućuje preliminarno razumijevanje povezanosti između varijabli, dok regresija omogućuje predviđanje vrijednosti zavisne varijable na temelju poznatih vrijednosti nezavisnih varijabli.
Razumijevanje složenih odnosa: Regresijska analiza omogućuje istraživanje složenijih odnosa, uključujući više nezavisnih varijabli (multivarijantna analiza) i interakcije među njima (ovime se nismo direktno bavili).
Praktične implikacije: Rezultati regresijskih modela često se koriste za donošenje odluka u poslovanju, medicini, javnim politikama i drugim područjima.
Ograničenja uzročnosti: Korelacijska analiza ne pokazuje ni dokazuje uzročnost; povezanost između varijabli može biti posljedica djelovanja treće varijable ili slučajnosti.
Pretpostavke modela: Regresijska analiza zahtijeva poštivanje određenih pretpostavki (npr. linearna povezanost, homoskedastičnost, normalna distribucija reziduala). Kršenje ovih pretpostavki može rezultirati netočnim rezultatima.
Utjecaj zbunjujućih (engl. confounding) varijabli: Bez kontrole za zbunjujuće varijable (npr. stratifikacijom ili dodatnim varijablama u regresiji), rezultati mogu biti pogrešno interpretirani, a to je posebno izazovno kod multivarijantnih odnosa.
Osjetljivost na kvalitetu podataka: Analize su osjetljive na kvalitetu podataka, uključujući prisutnost ekstremnih vrijednosti, podatake koji nedostaju, postupak uzorkovanja i pogreške u mjerenju.
Ograničenja nelinearnih odnosa: Pearsonov koeficijent korelacije i linearna regresija prikladni su samo za linearne odnose. Za nelinearne odnose potrebni su napredniji modeli.
Preopterećenje modela: Uvođenje prevelikog broja nezavisnih varijabli u regresijski model može rezultirati problemima poput multikolinearnosti i prekomjernog prilagođavanja (engl. overfitting).
Generalizacija zaključaka: Kao i za bilo koju generalizaciju uz pomoć statističkih metoda, rezultati ovise o uzorku na kojem su analize provedene. Ako uzorak nije reprezentativan, zaključci se ne smiju generalizirati na širu populaciju.
Zanimljive, objavljene upotrebe linearne regresije mogu se naći na internetu. Za štivo se preporuča: Otkrivanje porezne utaje iz informacijskog sustava Porezne Uprave metodom otkrivanja znanja iz baza podataka (Pejić-Bach i Demonja, 2008) i Utjecaj upravljanja ljudskim potencijalima na percepciju organizacijske uspješnosti u hrvatskim građevinskim poduzećima (Šandrk Nukić i Šuvak, 2013).
Primjer korelacijske analize na skupu podataka
Physical activity and BMI
, odnosno, tjelesna aktivnost i
BMI. Započinjemo učitavanjem podataka.
Sljedeći je korak deskriptivna analiza putem koje dobivamo prve uvide u varijable i njihove distribucije. Kliknemo na Descriptives i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji ‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’ odaberemo ‘Distribution plots’ za prikaz histograma.
Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’.
Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.
Primjer jednostavne linearne regresije na skupu podataka
Physical activity and BMI
, odnosno, tjelesna aktivnost i
BMI.
Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.
Primjer korelacijske analize na skupu podataka
Real_estate
, odnosno, nekretnine. Započinjemo učitavanjem
podataka. Sljedeći je korak deskriptivna analiza putem koje dobivamo
prve uvide u varijable i njihove distribucije. Kliknemo na Descriptives
i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji
‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’
odaberemo ‘Distribution plots’ za prikaz histograma.
Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’. Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.
Primjer jednostavne linearne regresije na skupu podataka
Real_estate
, odnosno, nekretnine.
Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.
Primjer korelacijske i regresijske analize na skupu podataka
Salaries
iz paketa carData
.
Započinjemo učitavanjem podataka. Sljedeći je korak deskriptivna analiza putem koje dobivamo prve uvide u varijable i njihove distribucije. Kliknemo na Descriptives i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji ‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’ odaberemo ‘Distribution plots’ za prikaz histograma.
Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’. Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.
Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.
Primjer korelacijske i regresijske analize na skupu podataka o ljudskom razvoju, dostupnim na https://hdr.undp.org/data-center/human-development-index#/indicies/HDI.
Ovdje se prikazuje samo finalni dio analize, s transformiranom varijablom GNIpc i bez izdvojenica.
Kliknemo na Descriptives i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji ‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’ odaberemo ‘Distribution plots’ za prikaz histograma.
Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’. Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.
Na posljednjem dijagramu rasipanja može se uočiti deterministički nelinearni odnos između GNIpc i logaritamske transformacije te varijable.
Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.
Primjer korelacijske i regresijske analize na skupu podataka World Happiness.
Započinjemo učitavanjem podataka. Sljedeći je korak deskriptivna analiza putem koje dobivamo prve uvide u varijable i njihove distribucije. Kliknemo na Descriptives i pod ‘Variables’ uvrstimo varijable koje želimo analizirati. U sekciji ‘Statistics’ odaberemo pokazatelje za izračun, a u sekciji ‘Basic plots’ odaberemo ‘Distribution plots’ za prikaz histograma.
Iz trake izbornika kliknemo na ‘Regression’ i odaberemo ‘Correlation’. Premjestimo odabrane varijable za analizu u prozorčić ‘Variables’. Radi čitkijeg prikaza rezultata (koeficijenata korelacije i grafikona) odabiremo ‘Display pairwise’. Potom, za grafički prikaz, kliknemo na ‘Scatter plots’. S obzirom na izgled veze, tj. oblik oblaka točaka na grafu, uz izračun Pearsonovog koeficijenta korelacije, možemo odabrati i izračun Spearmanovog ili Kendallovog koeficijenta korelacije.
Nakon početnih uvida u linearnost odnosa tijekom korelacijske analize, u traci izbornika odabiremo ‘Regression’, a potom ‘Linear Regression’. Zavisna varijabla uvrštava se u prozorčić ispod naslova ‘Dependent Variable’, a nezavisna varijabla u prozorčić pod nazivom ‘Covariates’. Minimallna dijagnostika koju treba provesti za provjeru pretpostavki modela odnosi se na odabir grafikona ‘Residuals vs. Predicted’ i ‘Q-Q plot standardized residuals’ iz sekcije ‘Plots’.
Započinjemo s prikazom analize odnosa tjelesne aktivnosti i BMI. Prvi korak je učitavanje podataka.
> bmi <- read.csv("https://raw.githubusercontent.com/jasp-stats/jasp-data-library/refs/heads/main/Physical%20Activity%20and%20BMI/Physical%20Activity%20and%20BMI.csv")
>
> head(bmi,10)
## SUBJECT PA BMI
## 1 1 10.992 15.0
## 2 2 6.753 21.0
## 3 3 12.423 28.1
## 4 4 6.249 27.3
## 5 5 11.595 21.1
## 6 6 14.209 20.6
## 7 7 7.516 27.9
## 8 8 6.666 18.3
## 9 9 8.379 24.3
## 10 10 9.597 21.1
U sljedećem koraku želimo utvrditi pokazatelje deskriptivne statistike za promatrane varijable.
> library(psych)
> describe(bmi)
## vars n mean sd median trimmed mad min max range skew
## SUBJECT 1 100 50.50 29.01 50.50 50.50 37.06 1.00 100.00 99.00 0.00
## PA 2 100 8.61 2.32 8.41 8.58 2.43 3.19 14.21 11.02 0.11
## BMI 3 100 23.94 3.94 24.45 23.97 4.00 14.20 35.10 20.90 -0.02
## kurtosis se
## SUBJECT -1.24 2.90
## PA -0.55 0.23
## BMI -0.05 0.39
Nakon toga, pristupamo kreiranju dijagrama rasipanja (raspršenosti) kako bismo dobili prve uvide u oblik, jačinu i smjer veze. Sljedeći kod generira dijagram raspršenosti između dviju promatranih varijabli, pri čemu svaka točka predstavlja jedno opažanje. Nakon toga, funkcija lowess računa lokalno ponderiranu regresijsku liniju koja se dodaje na graf, omogućavajući vizualizaciju općeg trenda u podacima i eventualnu nelinearnost odnosa između varijabli.
lowess()
(locally weighted scatterplot
smoothing) je nelinearna metoda za glatko prilagođavanje podataka
koja se koristi za vizualizaciju općeg trenda u skupovima podataka.
Metoda radi tako što, umjesto da se primijeni jedan globalni model na
sve podatke, za svaku točku na x-osi lokalno pristupa podacima u njenoj
okolini te na temelju njih primjenjuje ponderiranu (vaganu) linearnu
regresiju. Težine se određuju tako da bliže točke imaju veći utjecaj na
izračun lokalnog modela. Rezultat je ‘glatka’ linija koja bolje odražava
lokalne promjene i eventualne nelinearnosti u odnosu između varijabli,
što omogućuje detaljnije uvide u strukturu podataka. U kombinaciji s
dijagramom raspršenosti, lowess linija pruža vizualni pregled općeg
trenda, bez potrebe za pretpostavkom da je veza između varijabli
striktno linearna.
> plot(bmi$PA, bmi$BMI, type = "p")
> lines(lowess(bmi$PA, bmi$BMI), col = 2)
Potom, naredba cor()
izračunava vrijednost koeficijenta
korelacije.
> cor(bmi$PA, bmi$BMI, method = "pearson")
## [1] -0.3854091
> cor(bmi$PA, bmi$BMI, method = "spearman")
## [1] -0.3510899
Naredba cor.test()
omogućuje izračun koeficijenta
korelacije uz utvrđivanje statističke značajnosti za Pearsonov
koeficijent korelacije.
> cor.test(bmi$PA, bmi$BMI)
##
## Pearson's product-moment correlation
##
## data: bmi$PA and bmi$BMI
## t = -4.1348, df = 98, p-value = 0.00007503
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.5408817 -0.2044696
## sample estimates:
## cor
## -0.3854091
Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se
kreiranju modela, koristeći naredbu lm()
, u koju je
potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa
koji se evaluira u obliku
zavisna_varijabla ~ nezavisna_varijabla
. Sljedeći nužan
argument je data
, tj. naziv podatkovnog skupa u kojem se
nalaze unesene varijable.
Prije ispisa sažetih pokazatelja modela, provjeravaju se
pretpostavke, počevši od dijagnostičkih grafova s naredbom
plot(model)
. Osobito su korisni Shapito-Wilk
(shapiro.test(model$residuals)
) i Breusch-Pagan
(bptest(model)
, iz paketa lmtest
) testovi, od
kojih prvi može testirati normalnost reziduala, a drugi
homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem
vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s
obzirom na rezultate ovih testova.
> model <- lm(bmi$BMI~bmi$PA, data=bmi)
> par(mfrow=c(2,2))
> plot(model)
> shapiro.test(model$residuals)
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.98449, p-value = 0.2915
> library(lmtest)
> bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 1.8233, df = 1, p-value = 0.1769
Ako su pretpostavke modela ispoštovane, ima smisla ispisati model i
protumačiti ga. To se čini pomoću naredbe
summary(model)
.
> summary(model)
##
## Call:
## lm(formula = bmi$BMI ~ bmi$PA, data = bmi)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.3819 -2.5636 0.2062 1.9820 8.5078
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.5782 1.4120 20.948 < 0.0000000000000002 ***
## bmi$PA -0.6547 0.1583 -4.135 0.000075 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.655 on 98 degrees of freedom
## Multiple R-squared: 0.1485, Adjusted R-squared: 0.1399
## F-statistic: 17.1 on 1 and 98 DF, p-value: 0.00007503
Sljedeći je primjer analize odnosa cijena i starosti nekretnina. Prvi korak je učitavanje podataka.
> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 10)
## Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1 132500 0.09 0 42 50000 0 0
## 2 181115 0.92 0 0 22300 0 0
## 3 109000 0.19 0 133 7300 0 0
## 4 155000 0.41 0 13 18700 0 0
## 5 86060 0.11 0 0 15000 1 1
## 6 120000 0.68 0 31 14000 0 0
## 7 153000 0.40 0 33 23300 0 0
## 8 170000 1.21 0 23 14600 0 0
## 9 90000 0.83 0 36 22200 0 0
## 10 122900 1.94 0 4 21200 0 0
## Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1 3 4 2 906 35 2 1
## 2 2 3 2 1953 51 3 0
## 3 2 3 3 1944 51 4 1
## 4 2 2 2 1944 51 3 1
## 5 2 2 3 840 51 2 0
## 6 2 2 2 1152 22 4 1
## 7 4 3 2 2752 51 4 1
## 8 4 2 2 1662 35 4 1
## 9 3 4 2 1632 51 3 0
## 10 2 2 1 1416 44 3 0
## Bathrooms Rooms
## 1 1.0 5
## 2 2.5 6
## 3 1.0 8
## 4 1.5 5
## 5 1.0 3
## 6 1.0 8
## 7 1.5 8
## 8 1.5 9
## 9 1.5 8
## 10 1.5 6
U sljedećem koraku želimo utvrditi pokazatelje deskriptivne statistike za promatrane varijable.
> library(psych)
> describe(nekretnine[, c(1,4)])
## vars n mean sd median trimmed mad min max range
## Price 1 1728 211966.71 98441.39 189900 200230.92 78726.06 5000 775000 770000
## Age 2 1728 27.92 29.21 19 22.18 14.83 0 225 225
## skew kurtosis se
## Price 1.57 4.17 2368.13
## Age 2.49 7.38 0.70
Nakon toga, pristupamo kreiranju dijagrama rasipanja kako bismo dobili prve uvide u oblik, jačinu i smjer veze. Sljedeći kod generira dijagram raspršenosti između dviju promatranih varijabli, pri čemu svaka točka predstavlja jedno opažanje. Nakon toga, funkcija lowess računa lokalno ponderiranu regresijsku liniju koja se dodaje na graf, omogućavajući vizualizaciju općeg trenda u podacima i eventualnu nelinearnost odnosa između varijabli.
> plot(nekretnine$Age, nekretnine$Price, type = "p")
> lines(lowess(nekretnine$Age, nekretnine$Price), col = 2)
Potom, naredba cor()
izračunava vrijednost koeficijenta
korelacije.
> cor(nekretnine$Age, nekretnine$Price, method = "pearson")
## [1] -0.1887926
> cor(nekretnine$Age, nekretnine$Price, method = "spearman")
## [1] -0.3176256
Naredba cor.test()
omogućuje izračun koeficijenta
korelacije uz utvrđivanje statističke značajnosti za Pearsonov
koeficijent korelacije.
> cor.test(nekretnine$Age, nekretnine$Price)
##
## Pearson's product-moment correlation
##
## data: nekretnine$Age and nekretnine$Price
## t = -7.987, df = 1726, p-value = 0.000000000000002502
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2338660 -0.1429095
## sample estimates:
## cor
## -0.1887926
Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se
kreiranju modela, koristeći naredbu lm()
, u koju je
potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa
koji se evaluira u obliku
zavisna_varijabla ~ nezavisna_varijabla
. Sljedeći nužan
argument je data
, tj. naziv podatkovnog skupa u kojem se
nalaze unesene varijable.
Prije ispisa sažetih pokazatelja modela, provjeravaju se
pretpostavke, počevši od dijagnostičkih grafova s naredbom
plot(model)
. Osobito su korisni Shapito-Wilk
(shapiro.test(model$residuals)
) i Breusch-Pagan
(bptest(model)
, iz paketa lmtest
) testovi, od
kojih prvi može testirati normalnost reziduala, a drugi
homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem
vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s
obzirom na rezultate ovih testova.
> model <- lm(nekretnine$Price~nekretnine$Age, data=nekretnine)
> par(mfrow=c(2,2))
> plot(model)
> shapiro.test(model$residuals)
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.88909, p-value < 0.00000000000000022
> library(lmtest)
> bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.00058229, df = 1, p-value = 0.9807
Ako su pretpostavke modela ispoštovane, ima smisla ispisati model i
protumačiti ga. To se čini pomoću naredbe
summary(model)
.
> summary(model)
##
## Call:
## lm(formula = nekretnine$Price ~ nekretnine$Age, data = nekretnine)
##
## Residuals:
## Min 1Q Median 3Q Max
## -222183 -66299 -22232 43147 564995
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 229728.46 3218.18 71.385 < 0.0000000000000002 ***
## nekretnine$Age -636.26 79.66 -7.987 0.0000000000000025 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 96700 on 1726 degrees of freedom
## Multiple R-squared: 0.03564, Adjusted R-squared: 0.03508
## F-statistic: 63.79 on 1 and 1726 DF, p-value: 0.000000000000002502
Započinjemo s prikazom analize odnosa varijabli u podatkovnom skupu Salaries. Prvi korak je učitavanje podataka.
vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
rank* | 1 | 397 | 2.501 | 0.767 | 3 | 2.624 | 0.000 | 1 | 3 | 2 | -1.124 | -0.380 | 0.039 |
discipline* | 2 | 397 | 1.544 | 0.499 | 2 | 1.555 | 0.000 | 1 | 2 | 1 | -0.176 | -1.974 | 0.025 |
yrs.since.phd | 3 | 397 | 22.315 | 12.887 | 21 | 21.834 | 14.826 | 1 | 56 | 55 | 0.299 | -0.811 | 0.647 |
yrs.service | 4 | 397 | 17.615 | 13.006 | 16 | 16.508 | 14.826 | 0 | 60 | 60 | 0.646 | -0.336 | 0.653 |
sex* | 5 | 397 | 1.902 | 0.298 | 2 | 2.000 | 0.000 | 1 | 2 | 1 | -2.690 | 5.247 | 0.015 |
salary | 6 | 397 | 113706.458 | 30289.039 | 107300 | 111401.605 | 29355.480 | 57800 | 231545 | 173745 | 0.709 | 0.181 | 1520.163 |
U sljedećem koraku želimo utvrditi pokazatelje deskriptivne statistike za promatrane varijable.
## yrs.since.phd yrs.service salary
## 1 19 18 139750
## 2 20 16 173200
## 3 4 3 79750
## 4 45 39 115000
## 5 40 41 141500
## 6 6 6 97000
## 7 30 23 175000
## 8 45 45 147765
## 9 21 20 119250
## 10 18 18 129000
Nakon toga, pristupamo kreiranju dijagrama rasipanja kako bismo dobili prve uvide u oblik, jačinu i smjer veze. Sljedeći kod generira dijagram raspršenosti između dviju promatranih varijabli, pri čemu svaka točka predstavlja jedno opažanje. Nakon toga, funkcija lowess računa lokalno ponderiranu regresijsku liniju koja se dodaje na graf, omogućavajući vizualizaciju općeg trenda u podacima i eventualnu nelinearnost odnosa između varijabli.
Potom, naredba cor()
izračunava vrijednost koeficijenta
korelacije.
## yrs.since.phd yrs.service salary
## yrs.since.phd 1.0000000 0.9096491 0.4192311
## yrs.service 0.9096491 1.0000000 0.3347447
## salary 0.4192311 0.3347447 1.0000000
Naredba cor.test()
omogućuje izračun koeficijenta
korelacije uz utvrđivanje statističke značajnosti za Pearsonov
koeficijent korelacije.
##
## Pearson's product-moment correlation
##
## data: place_reg$yrs.since.phd and place_reg$salary
## t = 9.1775, df = 395, p-value < 0.00000000000000022
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.3346160 0.4971402
## sample estimates:
## cor
## 0.4192311
Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se
kreiranju modela, koristeći naredbu lm()
, u koju je
potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa
koji se evaluira u obliku
zavisna_varijabla ~ nezavisna_varijabla
. Sljedeći nužan
argument je data
, tj. naziv podatkovnog skupa u kojem se
nalaze unesene varijable.
Prije ispisa sažetih pokazatelja modela, provjeravaju se
pretpostavke, počevši od dijagnostičkih grafova s naredbom
plot(model)
.
Osobito su korisni Shapito-Wilk
(shapiro.test(model$residuals)
) i Breusch-Pagan
(bptest(model)
, iz paketa lmtest
) testovi, od
kojih prvi može testirati normalnost reziduala, a drugi
homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem
vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s
obzirom na rezultate ovih testova.
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.98122, p-value = 0.00004978
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 50.787, df = 1, p-value = 0.00000000000103
Započinjemo s prikazom analize odnosa prosječnih godina školovanja i bruto nacionalnog dohotka per capita. Prvi korak je učitavanje podataka. Prije učitavanja tablice preuzete s linka (mogućnost preuzimanja tablice nudi se ispod grafičkog prikaza na mrežnoj stranici), obrisani su reci i stupci viška, na način da je inicijalni tablični prikaz prilagođen uobičajenom strukturiranom prikazu podatkovnog okvira.
(Podsjetnik: Uobičajena struktura podatkovnog okvira (data frame) predstavlja dvodimenzionalnu tablicu u kojoj svaki redak odgovara jednom opažanju (u ovom slučaju, državi), a svaki stupac jednoj varijabli. Svi stupci imaju istu duljinu, ali mogu sadržavati različite tipove podataka (npr. numeričke, tekstualne, logičke ili faktorske vrijednosti). Podaci su organizirani tako da im se lako može pristupiti putem naziva stupaca, a redovi ponekad imaju i vlastite oznake. Ova struktura omogućava fleksibilnu manipulaciju, analizu i vizualizaciju podataka, te je stoga jedan od najčešće korištenih objekata u R-u.)
## ...1 ...2 Human Development Index (HDI)
## 1 1 Switzerland 0.967
## 2 2 Norway 0.966
## 3 3 Iceland 0.959
## 4 4 Hong Kong, China (SAR) 0.956
## 5 5 Denmark 0.952
## 6 5 Sweden 0.952
## Life expectancy at birth Expected years of schooling Mean years of schooling
## 1 84.255 16.58373 13.90407
## 2 83.393 18.63846 13.06234
## 3 82.815 19.10673 13.76717
## 4 84.315 17.84959 12.34777
## 5 81.882 18.77403 12.96049
## 6 83.505 19.03677 12.67372
## Gross national income (GNI) per capita GNI per capita rank minus HDI rank
## 1 69432.79 6
## 2 69189.76 6
## 3 54688.38 16
## 4 62485.51 6
## 5 62018.96 6
## 6 56995.85 10
## HDI rank
## 1 1
## 2 2
## 3 4
## 4 3
## 5 8
## 6 5
Pristupamo kreiranju dijagrama rasipanja kako bismo dobili prve uvide
u oblik, jačinu i smjer veze. pairs()
generira dijagrame
raspršenosti između parova promatranih varijabli (može biti više od
dvije), pri čemu svaka točka u pojedinom grafu predstavlja jedno
opažanje. Potom, naredba cor()
izračunava vrijednost
koeficijenta korelacije.
## MYS GNIpc
## MYS 1.0000000 0.6480262
## GNIpc 0.6480262 1.0000000
S obzirom na uočen nelinearni odnos, pristupa se transformaciji
podataka. U ovom slučaju, primijenjen je prirodni logaritam na varijablu
GNI per capita, čime se stvara nova varijabla ln_GNI
.
Dodavanjem ove varijable u podatkovni okvir(cbind()
)
omogućujemo daljnju analizu, jer logaritamska transformacija često
pomaže pri postizanju linearnog odnosa, što olakšava primjenu linearnih
modela. Nakon transformacije, koriste se dijagrami raspršenosti
(funkcija pairs()
) za vizualnu provjeru odnosa među
varijablama te se računa koeficijent korelacije (funkcija
cor()
) kako bi se kvantificirala povezanost među njima. Ovo
pomaže u ocjeni da li transformacija zadovoljava pretpostavke linearne
regresije i daje bolje uvide u podatke.
## MYS GNIpc ln_GNI
## MYS 1.0000000 0.6480262 0.8291025
## GNIpc 0.6480262 1.0000000 0.8479092
## ln_GNI 0.8291025 0.8479092 1.0000000
Naredba cor.test()
omogućuje izračun koeficijenta
korelacije uz utvrđivanje statističke značajnosti za Pearsonov
koeficijent korelacije.
> cor.test(data$MYS, data$ln_GNI)
##
## Pearson's product-moment correlation
##
## data: data$MYS and data$ln_GNI
## t = 20.495, df = 191, p-value < 0.00000000000000022
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7790966 0.8686245
## sample estimates:
## cor
## 0.8291025
Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se
kreiranju modela, koristeći naredbu lm()
, u koju je
potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa
koji se evaluira u obliku
zavisna_varijabla ~ nezavisna_varijabla
. Sljedeći nužan
argument je data
, tj. naziv podatkovnog skupa u kojem se
nalaze unesene varijable.
Prije ispisa sažetih pokazatelja modela, provjeravaju se
pretpostavke, počevši od dijagnostičkih grafova s naredbom
plot(model)
. Osobito su korisni Shapito-Wilk
(shapiro.test(model$residuals)
) i Breusch-Pagan
(bptest(model)
, iz paketa lmtest
) testovi, od
kojih prvi može testirati normalnost reziduala, a drugi
homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem
vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s
obzirom na rezultate ovih testova.
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.98565, p-value = 0.04672
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.0049247, df = 1, p-value = 0.9441
Sljedeći kod uklanja izdvojenice iz podatkovnog okvira. Prvo, naredba
data[c(49,102,117,180,192),1]
prikazuje podatke iz prve
kolone za redove s indeksom 49, 102, 117, 180 i 192 – to su izdvojenice
koje želimo ukloniti. Zatim, naredba
data1 <- data[-c(49,102,117,180,192),]
kreira novi
podatkovni okvir data1
tako što iz originalnog okvira
data
izostavlja navedene redove. Na taj način,
data1
sadrži sve opažanja osim onih identificiranih kao
izdvojenice.
## [1] "Kuwait" "Marshall Islands"
## [3] "Kyrgyzstan" "Congo (Democratic Republic of the)"
## [5] "South Sudan"
Ponavljamo kreiranje modela i provjeru pretpostavki.
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.99414, p-value = 0.667
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.034387, df = 1, p-value = 0.8529
Tek kad su pretpostavke modela ispoštovane, ima smisla ispisati model
i protumačiti ga. To se čini pomoću naredbe
summary(model)
.
##
## Call:
## lm(formula = data1$ln_GNI ~ data1$MYS, data = data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.6657 -0.3677 0.0189 0.4248 1.7506
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.53987 0.13354 48.97 <0.0000000000000002 ***
## data1$MYS 0.31397 0.01395 22.51 <0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6167 on 186 degrees of freedom
## Multiple R-squared: 0.7316, Adjusted R-squared: 0.7301
## F-statistic: 506.9 on 1 and 186 DF, p-value: < 0.00000000000000022
Dodatni grafički prikaz modela (tj. regresijskog pravca, obojano
plavo). Kod kreira scatter plot u kojem se na X-osi nalaze prosječne
godine školovanja (MYS) iz podatkovnog okvira data1
, dok se
na Y-osi prikazuje logaritmirani bruto nacionalni dohodak (ln(GNIpc)).
Argumenti xlab
i ylab
postavljaju nazive osi,
dok xlim
i ylim
definiraju raspon vrijednosti
koje će biti prikazane (od 0 do 15). Funkcija pch = 19
osigurava iscrtavanje punih krugova za točke, a
frame = FALSE
uklanja okvir oko grafa. Opcija
panel.first
omogućava dodavanje linije preko scatter plota;
u ovom slučaju, linija koja se iscrtava predstavlja model (dobiven kroz
model$fitted.values
) i pokazuje trend u podacima, s
debljinom linije postavljenom na 2 (lwd = 2
) i plavom bojom
(col = "blue"
). Argument cex = 0.9
malo
smanjuje veličinu točaka.
U sljedećem kodu najprije se izračunavaju predviđene vrijednosti
GNIpc-a na temelju eksponencijalne transformacije modela. Za vrijednosti
MYS od 0 do 15, svaka vrijednost se računa kao umnožak konstante
692.1966 i eksponencijalne funkcije \(e^{0.31397 \times \text{MYS}}\). Izračunati
rezultati (varijable a
do p
) se spajaju u
vektor pGNI
pomoću funkcije rbind()
. Zatim se
koristi options(scipen = 999)
kako bi se spriječilo
automatsko prebacivanje rezultata u znanstvenu notaciju. Vektor
x
definira vrijednosti od 0 do 15, a funkcija
cbind()
spaja taj vektor s matricom pGNI
u
novu matricu sa stupcima “x” i “y”. Konačno, naredba plot()
iscrtava scatter plot originalnih podataka (MYS nasuprot GNIpc-u), a
preko njega se dodaje plava linija (debljine 3) koja predstavlja
eksponencijalni trend izračunat temeljem modela.
Započinjemo s prikazom analize odnosa varijabli iz podatkovnog okvira World Happiness. Prvi korak je učitavanje podataka.
> Happiness <- read.csv("https://raw.githubusercontent.com/jasp-stats/jasp-data-library/refs/heads/main/World%20Happiness/World%20Happiness.csv")
>
> head(Happiness,10)
## Country Happiness.Rank Happiness.Score Whisker.high Whisker.low
## 1 Norway 1 7.537 7.594445 7.479556
## 2 Denmark 2 7.522 7.581728 7.462272
## 3 Iceland 3 7.504 7.622030 7.385970
## 4 Switzerland 4 7.494 7.561772 7.426227
## 5 Finland 5 7.469 7.527542 7.410458
## 6 Netherlands 6 7.377 7.427426 7.326574
## 7 Canada 7 7.316 7.384403 7.247597
## 8 New Zealand 8 7.314 7.379510 7.248490
## 9 Sweden 9 7.284 7.344095 7.223905
## 10 Australia 10 7.284 7.356651 7.211349
## GDP.per.Capita Family Life.Expectancy Freedom Generosity
## 1 1.616463 1.533524 0.7966665 0.6354226 0.3620122
## 2 1.482383 1.551122 0.7925655 0.6260067 0.3552805
## 3 1.480633 1.610574 0.8335521 0.6271626 0.4755402
## 4 1.564980 1.516912 0.8581313 0.6200706 0.2905493
## 5 1.443572 1.540247 0.8091577 0.6179509 0.2454828
## 6 1.503945 1.428939 0.8106961 0.5853845 0.4704898
## 7 1.479204 1.481349 0.8345577 0.6111009 0.4355397
## 8 1.405706 1.548195 0.8167597 0.6140621 0.5000051
## 9 1.494387 1.478162 0.8308752 0.6129241 0.3853993
## 10 1.484415 1.510042 0.8438868 0.6016074 0.4776992
## Government.Corruption
## 1 0.3159638
## 2 0.4007701
## 3 0.1535266
## 4 0.3670073
## 5 0.3826115
## 6 0.2826618
## 7 0.2873715
## 8 0.3828167
## 9 0.3843987
## 10 0.3011837
U sljedećem koraku želimo utvrditi pokazatelje deskriptivne statistike za promatrane varijable.
> library(psych)
> describe(Happiness)
## vars n mean sd median trimmed mad min max
## Country* 1 155 78.00 44.89 78.00 78.00 57.82 1.00 155.00
## Happiness.Rank 2 155 78.00 44.89 78.00 78.00 57.82 1.00 155.00
## Happiness.Score 3 155 5.35 1.13 5.28 5.35 1.21 2.69 7.54
## Whisker.high 4 155 5.45 1.12 5.37 5.45 1.21 2.86 7.62
## Whisker.low 5 155 5.26 1.15 5.19 5.25 1.22 2.52 7.48
## GDP.per.Capita 6 155 0.98 0.42 1.06 1.00 0.43 0.00 1.87
## Family 7 155 1.19 0.29 1.25 1.22 0.26 0.00 1.61
## Life.Expectancy 8 155 0.55 0.24 0.61 0.57 0.25 0.00 0.95
## Freedom 9 155 0.41 0.15 0.44 0.42 0.17 0.00 0.66
## Generosity 10 155 0.25 0.13 0.23 0.24 0.12 0.00 0.84
## Government.Corruption 11 155 0.12 0.10 0.09 0.11 0.06 0.00 0.46
## range skew kurtosis se
## Country* 154.00 0.00 -1.22 3.61
## Happiness.Rank 154.00 0.00 -1.22 3.61
## Happiness.Score 4.84 0.01 -0.79 0.09
## Whisker.high 4.76 0.01 -0.82 0.09
## Whisker.low 4.96 0.01 -0.77 0.09
## GDP.per.Capita 1.87 -0.38 -0.72 0.03
## Family 1.61 -1.16 1.39 0.02
## Life.Expectancy 0.95 -0.57 -0.64 0.02
## Freedom 0.66 -0.60 -0.28 0.01
## Generosity 0.84 0.88 1.59 0.01
## Government.Corruption 0.46 1.45 1.51 0.01
Pristupamo kreiranju dijagrama rasipanja za kvantitativne varijable
kako bismo dobili prve uvide u oblik, jačinu i smjer veze.
pairs()
generira dijagrame raspršenosti između parova
promatranih varijabli (može biti više od dvije), pri čemu svaka točka u
pojedinom grafu predstavlja jedno opažanje.
> pairs(Happiness[,c(3,6:11)])
Nakon toga, pristupamo kreiranju dijagrama rasipanja samo za kombinacije varijabli za koje je temeljem prethodnog grafa vizualno uočen linearan odnos, kako bi dobili detaljnije uvide u oblik, jačinu i smjer veze. Sljedeći kod generira dijagram raspršenosti između dviju promatranih varijabli, pri čemu svaka točka predstavlja jedno opažanje. Nakon toga, funkcija lowess računa lokalno ponderiranu regresijsku liniju koja se dodaje na graf, omogućavajući vizualizaciju općeg trenda u podacima i eventualnu nelinearnost odnosa između varijabli.
> plot(Happiness$GDP.per.Capita, Happiness$Happiness.Score, type = "p")
> lines(lowess(Happiness$GDP.per.Capita, Happiness$Happiness.Score), col = 2)
> plot(Happiness$Family, Happiness$Happiness.Score, type = "p")
> lines(lowess(Happiness$Family, Happiness$Happiness.Score), col = 2)
> plot(Happiness$Life.Expectancy, Happiness$Happiness.Score, type = "p")
> lines(lowess(Happiness$Life.Expectancy, Happiness$Happiness.Score), col = 2)
Potom, naredba cor()
izračunava vrijednost koeficijenta
korelacije.
> cor(Happiness$GDP.per.Capita, Happiness$Happiness.Score, method = "pearson")
## [1] 0.8124688
> cor(Happiness$Family, Happiness$Happiness.Score, method = "pearson")
## [1] 0.7527367
> cor(Happiness$Life.Expectancy, Happiness$Happiness.Score, method = "pearson")
## [1] 0.7819506
Uz zadovoljene pretpostavke neovisnosti i linearnosti, pristupa se
kreiranju modela, koristeći naredbu lm()
, u koju je
potrebno kao prvi argument upisati formulu, tj. oblik jednadžbe odnosa
koji se evaluira u obliku
zavisna_varijabla ~ nezavisna_varijabla
. Sljedeći nužan
argument je data
, tj. naziv podatkovnog skupa u kojem se
nalaze unesene varijable.
Prije ispisa sažetih pokazatelja modela, provjeravaju se
pretpostavke, počevši od dijagnostičkih grafova s naredbom
plot(model)
. Osobito su korisni Shapito-Wilk
(shapiro.test(model$residuals)
) i Breusch-Pagan
(bptest(model)
, iz paketa lmtest
) testovi, od
kojih prvi može testirati normalnost reziduala, a drugi
homoskedastičnost. Na taj način, svoje prvotne zaključke temeljem
vizualnih pregleda grafova, možemo dodatno potvrditi (ili prilagoditi) s
obzirom na rezultate ovih testova.
> model <- lm(Happiness$Happiness.Score~Happiness$GDP.per.Capita+Happiness$Family+Happiness$Life.Expectancy, data=Happiness)
> par(mfrow=c(2,2))
> plot(model)
> shapiro.test(model$residuals)
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.98992, p-value = 0.3355
> library(lmtest)
> bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 1.1601, df = 3, p-value = 0.7626
Ako su pretpostavke modela ispoštovane, ima smisla ispisati model i
protumačiti ga. To se čini pomoću naredbe
summary(model)
.
> summary(model)
##
## Call:
## lm(formula = Happiness$Happiness.Score ~ Happiness$GDP.per.Capita +
## Happiness$Family + Happiness$Life.Expectancy, data = Happiness)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.49825 -0.35335 -0.04934 0.38729 1.89215
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.0844 0.1967 10.598 < 0.0000000000000002 ***
## Happiness$GDP.per.Capita 0.8641 0.2195 3.936 0.000126 ***
## Happiness$Family 1.3775 0.2187 6.299 0.00000000311 ***
## Happiness$Life.Expectancy 1.4165 0.3574 3.963 0.000114 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5636 on 151 degrees of freedom
## Multiple R-squared: 0.7566, Adjusted R-squared: 0.7517
## F-statistic: 156.4 on 3 and 151 DF, p-value: < 0.00000000000000022
Po uzoru na primjere u prošlim štivima, podatkovni skupovi iz JASPove
knjižnice moguće je preuzeti putem linka u CSV formatu i onda
prilagoditi podatkovni okvir za daljnje korištenje. U ovom štivu, to su
Physical activity and BMI
te World Happiness
.
Također, putem linka se mogu preuzeti podaci ‘Human
Development Index (HDI)’. Skup podataka ‘Nekretnine’ smo već ranije
koristili, tako da to već imate spremljeno na računalu.
Po otvaranju podatkovnog skupa Physical activity and BMI
vidimo da prikaz nije prilagođen MS Excelu te moramo izvršiti
prilagodbu.
Za to ćemo koristiti tablice. S obzirom na postupak kojim se
koristeći tablice vrši razdvajanje stupaca, prvo provjerite jesu li
brojevi napisani u formatu sukladnom postavkama MS Excela. Na primjer,
kod mene je podešen decimalni zarez (umjesto decimalne točke), pa bi
razdvajanje stupaca rezultiralo neželjenim vrijednostima. Na sljedećoj
slici je prikazana zamjena: svi graničnici su postavljeni na
;
, a sve decimalne točke na ,
.
U sljedećem koraku odabiru se podaci, a potom se iz trake izbornika
odabiru Podaci (ili Data) te Iz tablice/raspona
(ili From table/Range).
Potom se otvara preglednik tablica, u kojem je potrebno odabrati
Podijeli stupac
i inačicu pomoću graničnika. U
novootvorenom prozoru treba zadati odgovarajući graničnik (možda imate
zarez, možda je točka zarez), označiti svako pojavljivanje, a pod znak
navodnika odabrati “Ništa”.
Razdijeljeni stupci izgledat će otprilike ovako:
Kliknite na Zatvori i učitaj
(ili Close and
Load), nakon čega će se u izvornom dokumentu pojaviti novi list s
prikazom nalik sljedećoj slici.
S obzirom da tablice mogu ometati provedbu formula/funkcija na neočekivane načine, podatke kopiramo i lijepimo tako da zadržavamo samo vrijednosti na drugi list.
Potom nastavljamo s uobičajenim postupkom i uvidom u deskriptivnu statistiku. U traci izbornika odabiremo Podaci (ili Data), potom Analiza podataka (ili Data analysis) te ispunimo polja u novootvorenom prozoru.
Pokazatelji deskriptivne statistike bit će prikazani na novom listu (ako ste tako odabrali).
Sljedeći korak je grafički prikaz uz pomoć dijagrama raspršenosti. Označimo podatke (redoslijed varijabli treba biti takav da je u prvom stupcu nezavisna varijabla koja će biti prikazana na apscisi, a u drugom stupcu zavisna varijabla koja će biti prikazana na ordinati). Klinemo na “Umetni” (ili Insert) te odaberemo preporučene grafikone, među kojima vizualno prepoznajemo dijagram raspršenosti.
Po odabiru tog tipa grafiona, bit će potrebno još dodati nazive osi te liniju trenda, što je moguće napraviti klikom na plus u gornjem desnom uglu i odabirom navedenih opcija.
Za izračun koeficijenta korelacije, može se koristiti ugrađena
funkcija =CORREL()
.
Sljedeći je korak kreiranje modela jednostavne linearne regresije. Iz
trake izbornika odabiru se Podaci (ili Data), a potom Analiza
podataka (ili Data analysis). U prozoru koji se potom otvori,
treba odabrati Regression
.
U dijaloški prozor za definiranje elemenata regresijskog modela, treba redom unijeti elemente (kao što je prikazano slikom), a potom kliknuti OK.
Rezultati, nalik onima na sljedećoj slici, prikazat će se na novom listu.
Prelazimo na podatkovni okvir Nekretnine.
Radi preglednosti, možemo varijable kojima ćemo se baviti kopirati i zalijepiti na novi list. Tad započinjemo s prvim uvidima pomoću pokazatelja deskriptivne statistike.
Sljedeći je korak kreiranje dijagrama raspršenosti. Potrebno je odabrati podatke, kliknuti na “Umetanje” (ili Insert), odabrati preporučene grafikone i prepoznati te odabrati dijagram raspršenosti.
Kao i u prethodnom primjeru, grafikon prilagođavamo dodavanjem naziva
osi te crtom trenda (koja nam olakšava procjenu linearnosti).
Koeficijent korelacije može se izračunati koristeći ugrađenu funkciju
=CORREL()
.
U slučaju da su provjere neovisnosti i linearnosti potvrdile te
pretpostavke, sljedeći je korak kreiranje modela jednostavne linearne
regresije.Iz trake izbornika odabiru se Podaci (ili Data), a
potom Analiza podataka (ili Data analysis). U prozoru koji se
potom otvori, treba odabrati Regression
. U dijaloški prozor
za definiranje elemenata regresijskog modela, treba redom unijeti
elemente (kao što je prikazano slikom), a potom kliknuti OK.
Nakon širenja stupaca i promjene rasporeda slika, rezultati će izgledati otprilike ovako:
Prelazimo na podatkovni skup o plaćama (Salaries, izvorno iz
R-ovog paketa carData
).
Započinjemo uvidima temeljem pokazatelja deskriptivne statistike (postupak je opisan ranije i u prethodnim štivima).
Slijedi kreiranje dijagrama rasipanja. S obzirom da ovdje imamo dvije
potencijalne nezavisne varijable, ispitujemo jednu po jednu. Označavamo
prvi stupac, zadržimo prst na Ctrl
(Control) i onda
odaberemo stupac zavisne varijable. Nakon što su podaci odabrani,
kliknemo na Umetanje, pa iz prigodnih grafikona odabiremo dijagram
rasipanja. Postupak ponavljamo i za drugu potencijalnu nezavisnu
varijablu u kombinaciji sa zavisnom varijablom.
U slučaju da su provjere neovisnosti i linearnosti potvrdile te
pretpostavke, sljedeći je korak kreiranje modela jednostavne linearne
regresije.Iz trake izbornika odabiru se Podaci (ili Data), a
potom Analiza podataka (ili Data analysis). U prozoru koji se
potom otvori, treba odabrati Regression
. U dijaloški prozor
za definiranje elemenata regresijskog modela, treba redom unijeti
elemente (kao što je prikazano slikom), a potom kliknuti OK.
Nakon širenja stupaca i promjene rasporeda slika, rezultati će izgledati otprilike ovako:
Prelazimo na podatkovni skup
Human Development Indicator (HDI)
. Ovdje je nakon
preuzimanja tablice prvo potrebno ukloniti višak redaka i stupaca, da bi
se kreirala klasična struktura podatkovnog okvira.
Nakon uređivanja, podaci bi trebali izgledati optilike ovako.
Započinjemo uvidima temeljem pokazatelja deskriptivne statistike (postupak je opisan ranije i u prethodnim štivima).
Sljedeći je korak izdvajanje varijabli koje ćemo dalje analizirati. Ovdje je odmah prikazana i log transformacija zavisne varijable. Slijedi kreiranje dijagrama rasipanja za obje kombinacije.
U slučaju da su provjere neovisnosti i linearnosti potvrdile te
pretpostavke, sljedeći je korak kreiranje modela jednostavne linearne
regresije.Iz trake izbornika odabiru se Podaci (ili Data), a
potom Analiza podataka (ili Data analysis). U prozoru koji se
potom otvori, treba odabrati Regression
. U dijaloški prozor
za definiranje elemenata regresijskog modela, treba redom unijeti
elemente (kao što je prikazano slikom), a potom kliknuti OK.
Nakon širenja stupaca i promjene rasporeda slika, rezultati će izgledati otprilike ovako:
Posljednji je podatkovni skup World Happiness
, dostupan
u CSV formatu. Stoga započinjemo s pripremom podataka, kako bismo dobili
strukturu tupičnu za podatkovni okvir. Pritom slijedimo ranije opisani
postupak.
Izdvajamo kavntitativne varijable koje ćemo dalje analizirati i kreiramo dijagrame raspršenosti za svaku kombinaciju nezavisne varijable sa zavisnom varijablom.
U slučaju da su provjere neovisnosti i linearnosti potvrdile te
pretpostavke, sljedeći je korak kreiranje modela jednostavne linearne
regresije.Iz trake izbornika odabiru se Podaci (ili Data), a
potom Analiza podataka (ili Data analysis). U prozoru koji se
potom otvori, treba odabrati Regression
. U dijaloški prozor
za definiranje elemenata regresijskog modela, treba redom unijeti
elemente (kao što je prikazano slikom), a potom kliknuti OK.
Nakon širenja stupaca i promjene rasporeda slika, rezultati će izgledati otprilike ovako:
Abend, G. (2008). The meaning of ‘theory’. Sociological theory, 26(2), 173-199.
Aiken, L. H., Clarke, S. P., Cheung, R. B., Sloane, D. M., & Silber, J. H. (2003). Educational levels of hospital nurses and surgical patient mortality. Jama, 290(12), 1617-1623.
Aiken, L. H., Clarke, S. P., Sloane, D. M., Sochalski, J., & Silber, J. H. (2002). Hospital nurse staffing and patient mortality, nurse burnout, and job dissatisfaction. Jama, 288(16), 1987-1993.
Anderson, E. W., Fornell, C., & Lehmann, D. R. (1994). Customer satisfaction, market share, and profitability: Findings from Sweden. Journal of marketing, 58(3), 53-66.
Appleton, D. R., French, J. M., & Vanderpump, M. P. (1996). Ignoring a covariate: An example of Simpson’s paradox. The American Statistician, 50(4), 340-341.
Arasa, R., & Obonyo, P. K. (2012). The relationship between strategic planning and firm performance.
Arthur Jr, W., Bennett Jr, W., Edens, P. S., & Bell, S. T. (2003). Effectiveness of training in organizations: a meta-analysis of design and evaluation features. Journal of Applied psychology, 88(2), 234-245.
Ashley, C., & Tuten, T. (2015). Creative strategies in social media marketing: An exploratory study of branded social content and consumer engagement. Psychology & marketing, 32(1), 15-27.
Bickel, P. J., Hammel, E. A., & O’Connell, J. W. (1975). Sex Bias in Graduate Admissions: Data from Berkeley: Measuring bias is harder than is usually assumed, and the evidence is sometimes contrary to expectation. Science, 187(4175), 398-404.
Chowdhury, Muktasha Deena. “Impact of School Dropout on Human Development in Bangladesh.” ABC Research Alert 7, no. 3 (2019): 159-167.
Davis, F. D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS quarterly, 319-340.
De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Dobrolyubova, Еlena. “In Refernce To The Correlation Between Governance Quality And Human Development.” Public administration issues 4 (2020): 31-58.
Eisenberger, R., Huntington, R., Hutchison, S., & Sowa, D. (1986). Perceived organizational support. Journal of Applied psychology, 71(3), 500.
Elster, J. (1989). Nuts and bolts for the social sciences. Cambridge University Press.
Elster, J. (2000). Uvod u društvene znanosti: Matice i vijci za objašnjenje složenih društvenih pojava. Naklada Jesenski i Turk, Hrvatsko sociološko društvo, Zagreb.
Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.
Fox, J., & Weisberg, S. (2018). An R companion to applied regression. Sage publications.
Fox, J., Weisberg, S., Price, B., & Fox, M. J. (2018). Package ‘carData’.
Gendron, J. (2016). Introduction to R for Business Intelligence. Packt Publishing Ltd.
Harter, J. K., Schmidt, F. L., & Hayes, T. L. (2002). Business-unit-level relationship between employee satisfaction, employee engagement, and business outcomes: a meta-analysis. Journal of applied psychology, 87(2), 268.
Helliwell, J., Layard, R., & Sachs, J. (ur., 2017). World Happiness Report 2017. Mreža za rješenja održivog razvoja (Sustainable Development Solutions Network). Preuzeto s https://worldhappiness.report/ed/2017/.
Holmes, A., Illowsky, B., & Dean, S. (2017). Introductory Business Statistics 2e. OpenStax. https://openstax.org/books/introductory-business-statistics/pages/preface
Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.
Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.
Hothorn, T., Zeileis, A., Farebrother, R. W., Cummins, C., Millo, G., Mitchell, D., & Zeileis, M. A. (2015). Package ‘lmtest’. Testing linear regression models, 6.
Illowsky, B., & Dean, S. (2018). Introductory statistics. https://openstax.org/books/introductory-statistics-2e/pages/preface
Izvješće o svjetskoj sreći (World Happiness Report) godišnje objavljuje Ujedinjeni narodi (https://worldhappiness.report/).
Jan, S. (2018). Investigating the Relationship between Students Digital Literacy and Their Attitude towards Using ICT. International Journal of Educational Technology, 5(2), 26-34.
JASP Team (2024). JASP (Version 0.19.3)[Computer software].
Kane, R. L., Shamliyan, T. A., Mueller, C., Duval, S., & Wilt, T. J. (2007). The association of registered nurse staffing levels and patient outcomes: systematic review and meta-analysis. Medical care, 45(12), 1195-1204. Keller, K. L. (1993). Conceptualizing, measuring, and managing customer-based brand equity. Journal of marketing, 57(1), 1-22.
Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/ Kostelić, K., & Koso, A. N. (2023). Jednostavna linearna regresija u Ru: Prosječno trajanje školovanja i bruto nacionalni dohodak po stanovniku. Zbornik studentskih radova (Pula), 2(1), 253-287.
Kostelić, K., & Koso, A. N. (2023). Jednostavna linearna regresija u Ru: Prosječno trajanje školovanja i bruto nacionalni dohodak po stanovniku. Zbornik studentskih radova (Pula), 2(1), 253-287.
Kutney-Lee, A., Wu, E. S., Sloane, D. M., & Aiken, L. H. (2013). Changes in hospital nurse work environments and nurse job outcomes: an analysis of panel data. International journal of nursing studies, 50(2), 195-201.
Levine, T. R., Asada, K. J., & Carpenter, C. (2009). Sample sizes and effect sizes are negatively correlated in meta-analyses: Evidence and implications of a publication bias against nonsignificant findings. Communication Monographs, 76(3), 286-302
Luca, M. (2016). Reviews, reputation, and revenue: The case of Yelp. com. Com (March 15, 2016). Harvard Business School NOM Unit Working Paper, (12-016).
Mestek, M. L., Plaisance, E. i Grandjean, P. (2008)
Moore, D. S., McCabe, G. P., & Craig, B. A. (2012). Exploring the Practice of Statistics. Macmillan Higher Education.
Morgan, M. S., & Knuuttila, T. (2012). Models and modelling in economics. Philosophy of economics, 13, 49-87.
Neuman, L. W. (2014). Social Research Methods: Qualitative and Quantitative Approaches, 7/E. Pearson Education Limited.
Nielsen, J. (1994). Usability engineering. Morgan Kaufmann.
Norman, D. A. (1988). The psychology of everyday things. Basic books.
Parasuraman, A., Zeithaml, V. A., & Malhotra, A. (2005). ES-QUAL: A multiple-item scale for assessing electronic service quality. Journal of service research, 7(3), 213-233.
Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf
Rosen, S. (1974). Hedonic prices and implicit markets: product differentiation in pure competition. Journal of political economy, 82(1), 34-55.
Rousseeuw, P. J., & Verboven, S. (2002). Robust estimation in very small samples. Computational Statistics & Data Analysis, 40(4), 741-758.
Samad, S. (2012). The influence of innovation and transformational leadership on organizational performance. Procedia-Social and behavioral sciences, 57, 486-493.
Schönbrodt, F. D., & Perugini, M. (2013). At what sample size do correlations stabilize?. Journal of Research in Personality, 47(5), 609-612.
Shah, Smit. “Determinants of human development index: A cross-country empirical analysis.” (2016).
Signorell, A. (2025) DescTools: Tools for Descriptive Statistics. CRAN. https://CRAN.R-project.org/package=DescTools
Soviz, Yazdan Ebrahimi, and Zahra Chavooshi. “The impact of higher education on human development.” In Proceedings of SOCIOINT 2019-6th International Conference on Education, Social Science and Humanities 24-26 June 2019.
Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.
Taşar, I., Demirel, G., & Kalayci, I. (2014). Correlation of-previous advertisement expenses-and-total sales-of firms during the big recession. Procedia Economics and Finance, 15, 1677-1688.
Tonidandel, S., & LeBreton, J. M. (2011). Relative importance analysis: A useful supplement to regression analysis. Journal of Business and Psychology, 26(1), 1-9
Tyler Vigen, Spurious Correlations
UNDP. “Human Development Index (HDI).” (2024) Available at: https://hdr.undp.org/data-center/human-development-index#/indicies/HDI.
Vahey, D. C., Aiken, L. H., Sloane, D. M., Clarke, S. P., & Vargas, D. (2004). Nurse burnout and patient satisfaction. Medical care, 42(2), II57-66. Warburton, D. E., Nicol, C. W., & Bredin, S. S. (2006). Health benefits of physical activity: the evidence. Cmaj, 174(6), 801-809.
Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.
Xu, Y., Zhang, Q., Zheng, S., & Zhu, G. (2018). House age, price and rent: Implications from land-structure decomposition. The Journal of Real Estate Finance and Economics, 56, 303-324.
Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.