Zadanie 1

Úvod a cieľ analýzy

Cieľom reportu je pomôcť potravinárskej spoločnosti lepšie zacieliť ďalšiu marketingovú kampaň. Zameriame sa na to, čím sa odlišujú zákazníci, ktorí prijali poslednú ponuku, od zákazníkov, ktorí ju neprijali.

Analýza bude sledovať najmä príjem, vek, rodinnú situáciu, nákupné správanie, celkové výdavky a predchádzajúce reakcie na kampane. Na základe týchto informácií následne vytvoríme zákaznícke segmenty a odporučíme cieľovú skupinu pre budúcu kampaň.

Predspracovanie dát

Pred samotnou analýzou sme dáta pripravili tak, aby lepšie podporovali rozhodovanie o budúcej kampani. Okrem kontroly chýbajúcich a extrémnych hodnôt sme vytvorili súhrnné ukazovatele, ktoré zachytávajú celkové výdavky zákazníka, jeho nákupnú aktivitu, rodinnú situáciu a ochotu reagovať na predchádzajúce kampane.

Kontrola chýbajúcich hodnôt

Najprv sme overili, či dataset obsahuje chýbajúce hodnoty. Táto kontrola je potrebná ešte pred porovnávaním zákazníkov, aby bolo jasné, či sú dáta dostatočne úplné alebo ich treba pred ďalšou analýzou upraviť.

Rozsah chýbajúcich hodnôt podľa premenných
Premenná	Počet chýbajúcich hodnôt	Podiel v %
Age	27	1.38
Income	26	1.33
NumStorePurchases	23	1.18
MntGoldProds	21	1.07
MntWines	20	1.02
MntMeatProducts	18	0.92
MntSweetProducts	18	0.92
NumCatalogPurchases	17	0.87
Recency	15	0.77
MntFishProducts	15	0.77
NumDealsPurchases	15	0.77
NumWebPurchases	14	0.72
MntFruits	13	0.66
Marital_Status	12	0.61
Education	9	0.46
Kidhome	5	0.26
NumWebVisitsMonth	3	0.15
Teenhome	1	0.05

Chýbajúce údaje sa objavili vo viacerých premenných, ale pri každej z nich ide len o malú časť zákazníkov. Najviac chýbajúcich hodnôt je pri premennej Age, kde chýba údaj pri 27 zákazníkoch. V tejto fáze preto nejde o rozsiahly problém, ale pred ďalšou analýzou je potrebné rozhodnúť, ako s týmito hodnotami naložíme.

Ďalej sme sa pozreli na to, koľko zákazníkov by zostalo v datasete, ak by sme odstránili všetky riadky s aspoň jednou chýbajúcou hodnotou.

Dopad chýbajúcich hodnôt na veľkosť datasetu
Metrika	Hodnota
Počet zákazníkov v pôvodných dátach	1956
Celkový počet chýbajúcich hodnôt	272
Počet zákazníkov po odstránení neúplných riadkov	1795
Podiel zachovaných zákazníkov pri odstránení riadkov	91.8 %

Po odstránení neúplných riadkov by v dátach zostalo 1 795 zákazníkov z pôvodných 1 956. Znamená to, že by sme prišli o 161 zákazníkov. Keďže cieľom reportu je pripraviť zákazníkov na porovnávanie a segmentáciu, nechceme zbytočne zmenšovať zákaznícku základňu. Vhodnejšie je preto chýbajúce hodnoty doplniť a pracovať so všetkými zákazníkmi.

Okrem počtu chýbajúcich hodnôt sme skontrolovali aj ich rozloženie. Graf ukazuje, či chýbajúce údaje vznikajú skôr jednotlivo, alebo sa pri niektorých zákazníkoch objavuje viac chýbajúcich údajov naraz.

Graf ukazuje, že chýbajúce hodnoty sa netýkajú iba jednej premennej. Pri niektorých zákazníkoch chýba viac údajov naraz, preto by jednoduché odstránenie neúplných riadkov znamenalo stratu časti zákazníkov. Keďže rozsah chýbajúcich hodnôt nie je veľký, budeme ich riešiť doplnením.

Na doplnenie vizuálnej kontroly sme overili, či chýbajúce hodnoty pôsobia náhodne. Táto kontrola pomáha rozhodnúť, či môžeme chýbajúce hodnoty doplniť jednoduchým spôsobom, alebo či treba byť pri interpretácii opatrnejší.

Kontrola náhodnosti chýbajúcich hodnôt
statistic	df	p.value	missing.patterns
941.9781	764	1.03e-05	38

Kontrola ukázala, že chýbajúce údaje sa v dátach neobjavujú úplne náhodne. To znamená, že pri ich dopĺňaní musíme byť opatrní. Keďže ich rozsah je malý, premenné ponecháme v reporte a chýbajúce hodnoty doplníme tak, aby sme zachovali čo najviac informácií o zákazníkoch.

Pri číselných premenných sme použili medián, aby doplnené hodnoty neboli príliš ovplyvnené extrémnymi hodnotami. Pri textových premenných sme použili najčastejšiu kategóriu.

Výsledok doplnenia chýbajúcich hodnôt
Stav dát	Počet chýbajúcich hodnôt	Počet zákazníkov
Pred doplnením	272	1956
Po doplnení	0	1956

Po doplnení už v dátach nezostali žiadne chýbajúce hodnoty. V ďalších častiach reportu preto pracujeme s kompletným datasetom, ktorý obsahuje všetkých zákazníkov z pôvodnej vzorky.

Odľahlé hodnoty

Následne sme skontrolovali výrazne odľahlé hodnoty, ktoré by mohli skresliť ďalšie výsledky analýzy. Do tejto kontroly sme zahrnuli len numerické premenné, kategorické a binárne premenné sme vynechali, pretože pri nich hodnotenie odľahlých hodnôt nedáva praktický zmysel.

Vyššie hodnoty sa objavujú najmä pri premenných, ktoré opisujú výdavky a nákupnú aktivitu zákazníkov. Tieto hodnoty ponechávame v dátach, pretože môžu predstavovať reálne správanie aktívnych a hodnotných zákazníkov.

Ako problémová sa ukázala premenná Income. Hodnota 666 666 výrazne prevyšuje aj 99. percentil, preto ju nepovažujeme za reprezentatívny príjem domácnosti v tejto vzorke. Keďže ide iba o jeden extrémny záznam, odstránime ho z ďalšej analýzy.

Kontrola príjmu po odstránení extrémnej hodnoty
Ukazovateľ	Hodnota
Počet zákazníkov po odstránení extrémneho príjmu	1955
Medián príjmu	51369
Priemerný príjem	51876
Najvyšší príjem po úprave	162397

Po odstránení jedného extrémneho záznamu už príjem lepšie zodpovedá zvyšku zákazníckej vzorky. V ďalšej analýze pracujeme s dátami bez hodnoty, ktorá by mohla neprimerane skresľovať výsledky.

Súhrnné premenné

Aby sme ďalej nepracovali s príliš detailným zoznamom pôvodných premenných, vytvorili sme niekoľko súhrnných ukazovateľov. Zamerali sme sa na oblasti, ktoré sú dôležité pri hodnotení zákazníkov pre marketingovú kampaň: výdavky, nákupnú aktivitu, rodinnú situáciu a predchádzajúce reakcie na ponuky.

Súhrnné ukazovatele vytvorené pre ďalšiu analýzu
Ukazovateľ	Význam	Využitie v reporte
TotalSpending	celkové výdavky zákazníka na sledované produkty	hodnota zákazníka pre firmu
TotalPurchases	celkový počet nákupov cez zľavy, web, katalóg a obchod	nákupná aktivita zákazníka
TotalChildren	celkový počet detí a tínedžerov v domácnosti	počet detí v domácnosti
AcceptedPreviousCmp	počet prijatých predchádzajúcich kampaní	predchádzajúca ochota reagovať na ponuky

V ďalších častiach reportu budeme tieto ukazovatele používať pri porovnávaní zákazníkov. Vďaka nim bude jednoduchšie sledovať, či sa zákazníci líšia najmä v celkových výdavkoch, nákupnej aktivite, počte detí alebo v predchádzajúcej reakcii na kampane.

Faktorová analýza

V tejto časti sa pozrieme na to, či sa výdavky zákazníkov a ich nákupná aktivita dajú zhrnúť do niekoľkých jednoduchších oblastí správania.

Do faktorovej analýzy vyberáme numerické premenné, ktoré opisujú, na čo zákazníci míňajú a akým spôsobom nakupujú. Konkrétne ide o výdavky na víno, ovocie, mäso, ryby, sladkosti a špeciálne produkty, ďalej o počet nákupov so zľavou, cez web, katalóg, kamennú predajňu a počet návštev webu za posledný mesiac.

Vek, príjem, rodinnú situáciu, posledný nákup, počet detí, sťažnosti, odpovede a prijatie kampaní do tejto analýzy nezaradíme, pretože nejde priamo o výdavky ani spôsob nákupu. Ich zahrnutie by sťažilo jasné pomenovanie výsledných faktorov a taktiež nie je vhodné vo faktorovej analýze používať binárne alebo kategorické premenné.

Vhodnosť dát pre faktorovú analýzu

Pred výpočtom faktorov sme overili, či máme dostatočný počet pozorovaní vzhľadom na počet vybraných premenných. V analýze pracujeme s 1 947 zákazníkmi a 11 premennými, takže veľkosť datasetu je pre tento krok dostatočná.

Následne sa pozrieme na vzťahy medzi premennými. Ak spolu výdavky a spôsob nákupu aspoň čiastočne súvisia, faktorová analýza môže pomôcť zhrnúť ich do menšieho počtu prehľadnejších oblastí správania.

Súhrn korelácií medzi premennými
Ukazovateľ	Hodnota
Počet testovaných dvojíc premenných	55
Počet štatisticky významných korelácií	53
Podiel významných korelácií	96.4 %

Súhrn korelácií ukazuje, že medzi viacerými vybranými premennými existujú štatisticky významné vzťahy. To znamená, že premenné nie sú úplne nezávislé a má zmysel overiť, či sa dajú zhrnúť do spoločných faktorov.

Kontrola vhodnosti dát pre faktorovú analýzu
Kontrola	Výsledok
Celkové KMO	0.87
Bartlettov test - p-hodnota	<0.001

Výsledky kontroly ukazujú, že vybrané premenné môžeme použiť vo faktorovej analýze. Celkové KMO má hodnotu 0,87, čo je dobrý výsledok, a Bartlettov test potvrdil, že medzi premennými sú dostatočné vzťahy. Skontrolovali sme aj jednotlivé KMO hodnoty premenných; žiadna z nich nebola natoľko problematická, aby sme ju museli z analýzy vyradiť.

Výber počtu faktorov

Ďalej sme určovali, koľko faktorov dáva pri vybraných premenných najväčší zmysel. Cieľom nie je vytvoriť čo najviac faktorov, ale nájsť menší počet skupín, ktoré sa dajú zrozumiteľne pomenovať.

Vlastné čísla faktorov
F1	F2	F3	F4	F5	F6	F7	F8	F9	F10	F11
5.103	1.561	0.821	0.694	0.616	0.529	0.444	0.39	0.356	0.256	0.23

Z vlastných čísel vyplýva, že hodnotu vyššiu ako 1 majú prvé dva faktory. Tie zachytávajú najväčšiu časť informácie z pôvodných premenných a majú zmysel pre ďalšiu interpretáciu. Ostatné faktory už majú vlastné čísla nižšie ako 1, preto ich nebudeme samostatne interpretovať.

Na základe vlastných čísel sme si overili, koľko faktorov má zmysel ďalej používať. Lakťový graf ukazuje, pri ktorých faktoroch ešte zostáva dostatok informácie a kde už prínos ďalších faktorov výrazne klesá.

Najsilnejší prínos majú prvé dva faktory. Ďalšie faktory už neprinášajú dostatočne výraznú informáciu, preto budeme pokračovať s dvojfaktorovým riešením.

Pre dvojfaktorové riešenie sme následne vypočítali faktorové zaťaženia. Tie ukazujú, ktoré premenné sa najviac viažu na jednotlivé faktory.

Významné faktorové zaťaženia
Premenná	Faktor 1	Faktor 2
MntWines	0.71
MntFruits	0.691
MntMeatProducts	0.791
MntFishProducts	0.721
MntSweetProducts	0.691
MntGoldProds	0.543
NumDealsPurchases		0.52
NumWebPurchases	0.532	0.596
NumCatalogPurchases	0.783
NumStorePurchases	0.705
NumWebVisitsMonth	-0.596	0.419

Výsledky ukazujú, že prvý faktor sa najviac spája s výdavkami na produkty. Silné väzby má najmä na výdavky na mäso, ryby, ovocie, sladkosti a tiež na nákupy cez katalóg. Zároveň má zápornú väzbu s návštevami webu, čo naznačuje, že zákazníci s vyššími výdavkami nemusia patriť medzi tých, ktorí najčastejšie navštevujú web.

Druhý faktor sa najviac spája so spôsobom nákupu. Najsilnejšiu väzbu má na počet nákupov cez web, nákupy so zľavou a čiastočne aj na nákupy v predajni. Tento faktor preto zachytáva skôr nákupnú aktivitu a využívanie nákupných kanálov.

Na záver sme zobrazili zákazníkov podľa dvoch vytvorených faktorov.

Diagram zobrazuje finálne dvojfaktorové riešenie faktorovej analýzy. Väčšina premenných sa viaže na prvý faktor, najmä výdavky na mäso, ryby, víno, ovocie, sladkosti a špeciálne produkty. K tomuto faktoru sa zároveň viažu aj nákupy cez katalóg a v kamennej predajni. Tento faktor preto pomenujeme ako výdavkové správanie zákazníka, pretože zachytáva zákazníkov, ktorí celkovo viac míňajú na produkty a sú aktívnejší v tradičných nákupných kanáloch.

Druhý faktor je užší a najviac sa spája s nákupmi cez web a nákupmi so zľavou. Tento faktor preto pomenujeme ako online a zľavová nákupná aktivita. Zachytáva skôr spôsob nákupu než celkovú výšku výdavkov.

PCA

V tejto časti použijeme analýzu hlavných komponentov na tie isté oblasti zákazníckeho správania ako pri faktorovej analýze. Cieľom je zistiť, či vieme väčší počet premenných o výdavkoch a nákupoch zobraziť v menšom počte komponentov.

Do PCA zahrnieme premenné opisujúce výdavky na víno, ovocie, mäso, ryby, sladkosti a špeciálne produkty, ďalej počet nákupov so zľavou, cez web, katalóg, kamennú predajňu a počet návštev webu za posledný mesiac.

Dôležitosť hlavných komponentov

Najprv sa pozrieme na to, koľko informácie zachytávajú jednotlivé komponenty. Táto časť nám pomôže rozhodnúť, koľko komponentov má zmysel ďalej interpretovať.

Dôležitosť hlavných komponentov
	PC 1	PC 2	PC 3	PC 4	PC 5	PC 6	PC 7	PC 8	PC 9	PC 10	PC 11
Smerodajná odchýlka	2.259	1.250	0.906	0.833	0.785	0.728	0.667	0.625	0.596	0.506	0.479
Podiel vysvetlenej variability	0.464	0.142	0.075	0.063	0.056	0.048	0.040	0.035	0.032	0.023	0.021
Kumulatívny podiel variability	0.464	0.606	0.681	0.744	0.800	0.848	0.888	0.924	0.956	0.979	1.000

Prvý komponent vysvetľuje najväčšiu časť rozdielov medzi zákazníkmi, konkrétne 46,4 %. Po pridaní druhého komponentu vysvetľujeme spolu 60,6 % variability a po treťom 68,1 %. Ďalšie komponenty už pridávajú menší prírastok, preto sa pri interpretácii zameriame najmä na prvé dva až tri komponenty.

Na vizuálne overenie počtu komponentov použijeme lakťový graf. Sledujeme, pri ktorých komponentoch ešte prírastok vysvetlenej variability dáva praktický zmysel.

Prvé dva komponenty vysvetľujú 60,6 % variability, pričom tretí komponent zvyšuje vysvetlenú variabilitu na 68,1 %. Keďže tretí komponent ešte prináša dodatočnú informáciu o rozdieloch medzi zákazníkmi, ponecháme v ďalšej interpretácii tri komponenty. Hlavný dôraz však bude na prvých dvoch komponentoch, ktoré zachytávajú najväčšiu časť nákupného správania.

Zákazníkov zobrazíme podľa prvých dvoch hlavných komponentov a zároveň ich rozdelíme podľa reakcie na poslednú kampaň. Chceme zistiť, či sa prijatie kampane spája s odlišným nákupným správaním.

Graf ukazuje, že zákazníci, ktorí prijali poslednú kampaň, sa výrazne prekrývajú so zákazníkmi, ktorí ju neprijali. To znamená, že samotné hlavné oblasti nákupného správania nestačia na jasné oddelenie úspešných a neúspešných reakcií na kampaň.

Pre ďalšie odporúčanie preto nebudeme vychádzať iba z PCA. Výdavky a nákupná aktivita nám pomáhajú pochopiť správanie zákazníkov, ale cieľovú skupinu bude potrebné určiť aj pomocou ďalších charakteristík a následnej segmentácie.

Zhluková analýza

Cieľom zhlukovej analýzy je rozdeliť zákazníkov do skupín, ktoré sa od seba líšia z pohľadu marketingového potenciálu. Pri výbere premenných sme sa zamerali na charakteristiky, ktoré sú pre zacielenie kampane prakticky použiteľné: Recency, TotalSpending a AcceptedPreviousCmp.

Do klastrovania nezaraďujeme kategóriové premenné ani samostatné binárne premenné AcceptedCmp1 až AcceptedCmp5. Reakciu na predchádzajúce kampane zachytávame súhrnne pomocou premennej AcceptedPreviousCmp, ktorá vyjadruje počet kampaní prijatých v minulosti.

Pri určovaní optimálneho počtu zhlukov boli použité tri metódy: lakťová metóda , silhouette a gap statistic.

Výsledky metód naznačujú, že najlepšie riešenie by predstavovali tri až štyri zhluky. Silhouette metóda má najvyššiu hodnotu práve pri piatich zhlukoch a lakťová metóda ukazuje výrazný pokles variability najmä medzi prvým až tretím zhlukom.

Cieľom segmentácie je nájsť konkrétnejšie cieľové skupiny pre budúcu kampaň, preto sme ako praktickejšie riešenie zvolili tri zhluky. Tri zhluky zachovávajú jednoduchú interpretáciu, ale zároveň umožňujú lepšie rozlíšiť zákazníkov podľa hodnoty, nákupnej aktivity, aktuálnosti nákupu a predchádzajúcej reakcie na kampane.

K-Means

Veľkosti zhlukov K-means
Zhluk	Počet zákazníkov
1	882
2	221
3	852

Zákazníci sa rozdelili do troch zhlukov rôznej veľkosti. Najväčší je zhluk 1 s 882 zákazníkmi, druhý zhluk obsahuje 221 zákazníkov a zhluk 3 má 852 zákazníkov. Menší druhý zhluk môže byť z marketingového pohľadu zaujímavý, ak sa ukáže, že má špecifický profil alebo vyšší potenciál pre kampaň.

Na vizualizáciu výsledkov analýzy K-Means bol použitý graf, ktorý zobrazuje rozdelenie pozorovaní do troch klastrov v priestore hlavných komponentov.

Graf ukazuje, že zákazníkov vieme rozdeliť do troch pomerne odlišných segmentov. Rozdelenie vychádza z hodnoty zákazníka, aktuálnosti nákupu a predchádzajúcej reakcie na kampane.

Na lepšie pochopenie charakteristík jednotlivých segmentov boli pre každý klaster vypočítané priemerné hodnoty sledovaných premenných.

Profily zákazníckych zhlukov (K-Means
cluster	Recency	TotalSpending	AcceptedPreviousCmp
1	73.73469	518.3571	0.0986395
2	49.23982	1553.8688	1.8190045
3	24.07160	432.6620	0.1044601

Zhluk 2 má najvyšší marketingový potenciál, pretože dosahuje najvyššie celkové výdavky a najvyšší počet prijatých predchádzajúcich kampaní. Zhluk 1 je menej atraktívny, keďže má nižšie výdavky, nízku reakciu na kampane a zákazníci v ňom nakupovali dávnejšie. Zhluk 3 je aktuálnejší z pohľadu posledného nákupu, ale má nízke výdavky aj nízku predchádzajúcu reakciu na kampane.

PAM

Ako druhú metódu použijeme PAM. Táto metóda je vhodná ako doplnok ku k-means, pretože pracuje s reprezentatívnymi zákazníkmi v zhlukoch a je menej citlivá na extrémne hodnoty.

Veľkosti zhlukov metódou PAM
Zhluk	Počet zákazníkov
1	411
2	777
3	767

Metóda PAM rozdelila zákazníkov do troch zhlukov pomerne rovnomerne. Najväčší je zhluk 2 so 777 zákazníkmi, veľmi podobne veľký je zhluk 3 so 767 zákazníkmi a menší zhluk 1 obsahuje 411 zákazníkov. Takéto rozdelenie je z pohľadu marketingu použiteľné, pretože nevznikol extrémne malý segment, ktorý by bolo ťažké samostatne interpretovať.

Graf ukazuje, že metóda PAM rozdelila zákazníkov do troch pomerne dobre odlíšiteľných segmentov. Najvýraznejšie sa od ostatných oddeľuje zhluk 1, zatiaľ čo zhluky 2 a 3 sú si bližšie, ale stále tvoria samostatné skupiny.

Profily zákazníckych zhlukov (PAM)
cluster	Recency	TotalSpending	AcceptedPreviousCmp
1	52.06083	1500.6715	1.0754258
2	23.71042	352.4041	0.0978121
3	73.80052	363.2725	0.0782269

Pri metóde PAM má najvyšší marketingový potenciál zhluk 1, pretože má najvyššie celkové výdavky aj najvyšší priemer prijatých predchádzajúcich kampaní. Zhluky 2 a 3 majú nižšie výdavky a veľmi nízku reakciu na predchádzajúce kampane. Najslabšie pôsobí zhluk 3, keďže zákazníci v ňom nakupovali najdávnejšie.

Hierarchické zhlukovanie

Ako tretiu metódu použijeme hierarchické zhlukovanie. Táto metóda pomáha overiť, či sa podobná štruktúra segmentov objaví aj pri inom prístupe.

Kophenetická korelácia hierarchických metód
Metóda	Kophenetická korelácia
complete	0.752
average	0.798
single	0.576
ward.D2	0.658

Pri hierarchickom zhlukovaní sme porovnali viacero metód podľa kophenetickej korelácie. Najvyššiu hodnotu dosiahla metóda average s hodnotou 0,798, čo znamená, že najlepšie zachováva pôvodné vzťahy medzi zákazníkmi.

Dendrogram ukazuje hierarchické rozdelenie zákazníkov do troch skupín. Slúži ako doplnková kontrola k predchádzajúcim metódam zhlukovania a potvrdzuje, že v dátach existuje určitá segmentačná štruktúra.

Veľkosti zhlukov pri hierarchickom zhlukovaní
Zhluk	Počet zákazníkov
1	1049
2	677
3	229

Hierarchické zhlukovanie rozdelilo zákazníkov do troch segmentov s rozdielnou veľkosťou. Najväčší je zhluk 1 s 1 049 zákazníkmi, druhý zhluk má 677 zákazníkov a najmenší zhluk 3 obsahuje 229 zákazníkov.

Profily zákazníckych zhlukov
cluster	Recency	TotalSpending	AcceptedPreviousCmp
1	67.80839	480.4986	0.0514776
2	18.90103	458.3575	0.1890694
3	54.57642	1549.6638	1.7292576

Pri hierarchickom zhlukovaní je najzaujímavejší zhluk 3. Má najvyššie celkové výdavky aj najvyšší priemer prijatých predchádzajúcich kampaní, preto má najväčší potenciál pre budúcu kampaň.

Zhluky 1 a 2 majú nižšie výdavky aj slabšiu predchádzajúcu reakciu na kampane, preto sú z marketingového pohľadu menej atraktívne.

Porovnanie metód zhlukovej analýzy

Ako finálne riešenie sme vybrali metódu PAM s tromi zhlukmi. Zhluky sa odlišujú najmä podľa celkových výdavkov, aktuálnosti posledného nákupu a predchádzajúcej reakcie na kampane.

Najsilnejší segment predstavuje zhluk 1. Zákazníci v ňom majú najvyššie výdavky a najvyšší priemer prijatých predchádzajúcich kampaní. Sú si podobní tým, že majú vysokú hodnotu pre firmu a už v minulosti reagovali na marketingové ponuky. Práve tento zhluk preto určíme ako hlavnú cieľovú skupinu pre ďalšiu kampaň.

Zhluk 2 zahŕňa zákazníkov s nižšími výdavkami a slabšou reakciou na kampane, ale s relatívne nedávnym nákupom. Ide teda o aktuálnych, no menej hodnotných zákazníkov. Tento segment môže byť vhodný skôr na udržiavaciu alebo aktivačnú komunikáciu.

Zhluk 3 je najmenej perspektívny segment. Má nízke výdavky, nízku reakciu na kampane a zákazníci v ňom nakupovali najdávnejšie.

Pre budúcu marketingovú kampaň preto odporúčame prioritne zacieliť na zhluk 1, pretože spája vysokú hodnotu zákazníka s najlepšou históriou reakcií na kampane. Tento segment má najväčší potenciál priniesť vyššiu účinnosť kampane.

Zadanie 2

Lineárna regresia

V tejto časti sa pozrieme na to, ktoré charakteristiky zákazníkov súvisia s ich celkovými výdavkami. Ako cieľovú premennú použijeme TotalSpending, teda celkové výdavky zákazníka na sledované produkty.

Do finálneho modelu zaradíme premenné Income a Age. Tieto premenné zachytávajú kúpnu silu zákazníka a jeho vek. Cieľom je zistiť, či tieto charakteristiky pomáhajú vysvetliť rozdiely v celkovej hodnote zákazníkov pre firmu. Analyzovali sme aj iné kombinácie alebo transformácie premenných, no tieto sa ukázali ako najvhodnejšie.

Hypotéza

Predpokladáme, že celkové výdavky zákazníkov súvisia s ich príjmom a vekom..

H0: Príjem a vek nemajú štatisticky významný vplyv na celkové výdavky zákazníka.

H1: Aspoň jedna z týchto premenných má štatisticky významný vplyv na celkové výdavky zákazníka.

Overenie podmienok lineárnej regresie

Linearita

Najprv overíme, či vzťah medzi celkovými výdavkami a vybranými premennými pôsobí približne lineárne. Ak by boli vzťahy výrazne zakrivené, lineárny model by nebol vhodný na interpretáciu.

Najvýraznejší lineárny vzťah vidíme medzi Income a TotalSpending, zákazníci s vyšším príjmom majú tendenciu míňať viac. Pri Age je vzťah slabší a menej jednoznačný, ale vidno lineárny tvar.

Nezávislosť reziduí

Kontrola nezávislosti rezíduí
Ukazovateľ	Hodnota
Durbin-Watson štatistika	2.0010
p-hodnota	0.5095

Durbin-Watsonova štatistika má hodnotu 2,001, čo je veľmi blízko hodnote 2. To naznačuje, že rezíduá nie sú medzi sebou systematicky previazané. P-hodnota 0,5095 zároveň nepotvrdzuje problém so závislosťou rezíduí. Predpoklad nezávislosti rezíduí preto považujeme za splnený.

Normalita reziduí

Ďalej overíme, či sú rezíduá približne normálne rozdelené. Túto kontrolu použijeme najmä na posúdenie stability výsledkov modelu.

Kontrola normality rezíduí
Ukazovateľ	Hodnota
Shapiro-Wilk štatistika	0.9317
p-hodnota	<0.001

Shapiro-Wilkov test ukazuje, že normalita rezíduí nie je splnená ideálne. Keďže však pracujeme s väčším počtom zákazníkov, test môže byť citlivý aj na menšie odchýlky. Výsledok preto posudzujeme spolu s histogramom a Q-Q grafom, kde väčšina rezíduí zostáva sústredená okolo nuly, no na krajoch rozdelenia vidno menšie odchýlky.

Homoscedasticita

Následne skontrolujeme, či je rozptyl rezíduí približne rovnaký pri rôznych predikovaných hodnotách. Táto kontrola je dôležitá, aby model nebol ovplyvnený tým, že pri niektorých skupinách zákazníkov robí výrazne väčšie chyby než pri iných.

Kontrola homoscedasticity
Ukazovateľ	Hodnota
Chi-square	1196.929
Stupne voľnosti	1
p-hodnota	<0.001

Test ukazuje, že rozptyl rezíduí nie je úplne rovnomerný, keďže p-hodnota je nižšia ako 0,001. Pri zákazníckych výdavkoch je to očakávateľné, pretože zákazníci s vyššou hodnotou sa správajú rôznorodejšie než zákazníci s nízkymi výdavkami.

Výsledky regresie preto budeme interpretovať ako hlavný trend vo výdavkoch zákazníkov, nie ako presnú predikciu pre každého jednotlivca.

Multikolinearita

Kontrola multikolinearity
Premenná	VIF
Income	1.0235
Age	1.0235

Hodnoty VIF sú pri všetkých premenných veľmi nízke a pohybujú sa približne okolo hodnoty 1. To znamená, že premenné Incomea Age sa medzi sebou výrazne neprekrývajú. Predpoklad neprítomnosti multikolinearity je teda splnený a obe premenné môžeme ponechať v regresnom modeli.

Výsledky lineárnej regresie
Premenná	Koeficient	Smerodajná chyba	t-hodnota	p-hodnota
(Intercept)	-384.8616	45.0069	-8.551	<0.001
Income	0.0223	0.0004	55.999	<0.001
Age	-3.2050	0.7748	-4.136	<0.001

Celkové hodnotenie regresného modelu
Ukazovateľ	Hodnota
R Square	0.6178
Adjusted R Square	0.6174
F-štatistika	1577.578
p-hodnota celého modelu	<0.001

Regresný model ukazuje, že celkové výdavky zákazníkov vieme dobre vysvetliť pomocou príjmu a veku. Model ako celok je štatisticky významný a vysvetľuje približne 61,8 % variability v celkových výdavkoch zákazníkov, čo je z pohľadu marketingového reportu silný výsledok.

Najdôležitejším faktorom je príjem. Jeho koeficient je kladný a štatisticky významný, takže zákazníci s vyšším príjmom majú tendenciu míňať viac na sledované produkty. Pre marketing to znamená, že príjem je jeden z najlepších ukazovateľov hodnoty zákazníka.

Vek je tiež štatisticky významný, ale jeho vplyv je negatívny. Pri rovnakej úrovni príjmu majú starší zákazníci v priemere o niečo nižšie celkové výdavky. Tento efekt je slabší ako pri príjme, ale pomáha lepšie doplniť profil zákazníkov s vyššou nákupnou hodnotou.

Na základe výsledkov zamietame nulovú hypotézu. Príjem a vek majú významný vplyv na celkové výdavky zákazníkov. Pre ďalšie marketingové rozhodovanie je preto dôležité zamerať sa najmä na zákazníkov s vyšším príjmom a nižším vekom, ktorí predstavujú skupinu s vyšším nákupným potenciálom.

MANOVA

V tejto časti overíme, či sa výdavky zákazníkov líšia podľa toho, či majú alebo nemajú deti v domácnosti. Vytvoríme premennú Deti, kde hodnota 0 znamená domácnosť bez detí a hodnota 1 znamená domácnosť s aspoň jedným dieťaťom.

Ako závislé premenné použijeme výdavky na vybrané produktové kategórie: MntWines, MntFishProducts, MntSweetProducts, MntMeatProducts a MntFruits. Cieľom je zistiť, či deti zákazníka súvisia s rozdielnym nákupným správaním v týchto kategóriách.

Počet zákazníkov podľa prítomnosti detí v domácnosti
Skupina	Počet zákazníkov
Bez detí	511
S deťmi	1444

Tabuľka ukazuje veľkosť oboch porovnávaných skupín. Pri interpretácii MANOVA budeme sledovať, či sa tieto skupiny líšia vo výdavkoch na jednotlivé produktové kategórie.

Hypotéza

H0: Domácnosti s deťmi a bez detí sa nelíšia vo výdavkoch na vybrané produktové kategórie.

H1: Domácnosti s deťmi a bez detí sa líšia aspoň v jednej zo sledovaných produktových kategórií.

Testovanie predpokladov MANOVA

Pred samotnou MANOVA analýzou sme najprv overili predpoklady na pôvodných výdavkových premenných MntWines, MntFishProducts, MntSweetProducts, MntMeatProducts a MntFruits.

Závislé premenné sú číselné, preto sú z hľadiska typu vhodné pre MANOVA analýzu. Premenná Deti je faktorová premenná s dvomi skupinami – domácnosti bez detí a domácnosti s deťmi. Veľkosť vzorky je dostatočná, keďže v oboch skupinách máme dostatočný počet zákazníkov.

Multivariačná normalita

Kontrola multivariátnej normality – Mardia test
Test	Štatistika	p.hodnota	Výsledok
Mardia – šikmosť	11299.855	<0.001	Nie je normálne rozdelenie
Mardia – špicatosť	185.303	<0.001	Nie je normálne rozdelenie

Kontrola normality ukázala, že pôvodné výdavkové premenné nemajú normálne rozdelenie. Pri všetkých sledovaných kategóriách vyšla p-hodnota nižšia ako 0,001. Tento výsledok je pri zákazníckych výdavkoch očakávateľný, pretože veľa zákazníkov míňa nízke sumy a menšia časť zákazníkov míňa výrazne viac.

Odľahlé hodnoty

Kontrola viacrozmerných odľahlých hodnôt
Ukazovateľ	Hodnota
Počet pozorovaní	1955
Hraničná hodnota	20.515
Počet odľahlých pozorovaní	109
Podiel odľahlých pozorovaní	5.58 %

Pomocou Mahalanobisovej vzdialenosti sme skontrolovali viacrozmerné odľahlé hodnoty medzi sledovanými výdavkovými premennými. Výsledok ukázal 109 odľahlých pozorovaní. Keďže ide o zákaznícke výdavky, tieto hodnoty neodstraňujeme automaticky. Môžu predstavovať reálnych zákazníkov s vyššími nákupmi, ktorí sú z marketingového pohľadu dôležití.

Homogenita rozptylov a kovariančných matíc

Kontrola homogenity rozptylov – Leveneho test
Premenná	F-hodnota	p-hodnota
MntWines	72.637	<0.001
MntFishProducts	324.424	<0.001
MntSweetProducts	234.592	<0.001
MntMeatProducts	644.746	<0.001
MntFruits	269.517	<0.001

Leveneho test vyšiel pri všetkých výdavkových kategóriách významný, p < 0,001. To znamená, že domácnosti s deťmi a bez detí nemajú rovnakú variabilitu výdavkov. Tento výsledok potvrdzuje, že pôvodné dáta nie sú pre MANOVA ideálne a bude potrebné ich pred finálnou analýzou upraviť.

Kontrola homogenity variančno-kovariančných matíc – Boxov M test
Ukazovateľ	Hodnota
Chi-square	2324.007
Stupne voľnosti	15
p-hodnota	<0.001

Boxov M test vyšiel štatisticky významný, p < 0,001. To znamená, že variančno-kovariančné matice sa medzi domácnosťami bez detí a s deťmi líšia. Predpoklad homogenity variančno-kovariančných matíc teda pri pôvodných dátach nie je splnený.

Korelácie medzi závislými premennými

Korelácie medzi výdavkovými kategóriami sú prevažne stredne silné a pozitívne. Najvyššie vzťahy vidíme medzi ovocím a rybami , mäsom a rybami a sladkosťami a rybami. Žiadna korelácia však nie je extrémne vysoká, preto premenné nepovažujeme za duplicitné a môžeme ich ponechať v MANOVA analýze.

Korelácie medzi závislými premennými
	MntWines	MntFishProducts	MntSweetProducts	MntMeatProducts	MntFruits
MntWines	1.000	0.405	0.393	0.560	0.398
MntFishProducts	0.405	1.000	0.581	0.583	0.600
MntSweetProducts	0.393	0.581	1.000	0.549	0.564
MntMeatProducts	0.560	0.583	0.549	1.000	0.563
MntFruits	0.398	0.600	0.564	0.563	1.000

Keďže pôvodné dáta nespĺňali predpoklady MANOVA ideálne, rozhodli sme sa nepokračovať priamo s pôvodnými výdavkami. Namiesto odstraňovania odľahlých hodnôt sme použili logaritmickú transformáciu výdavkových premenných.

Tento postup je vhodnejší pre marketingové dáta, pretože vysoké výdavky môžu predstavovať reálnych a hodnotných zákazníkov. Logaritmická transformácia znižuje vplyv extrémne vysokých hodnôt, ale zároveň ponecháva všetkých zákazníkov v analýze.

Marketingový report

Miroslava Medvecká a Miriama Škulcová

Zadanie 1

Úvod a cieľ analýzy

Predspracovanie dát

Kontrola chýbajúcich hodnôt

Odľahlé hodnoty

Súhrnné premenné

Faktorová analýza

Vhodnosť dát pre faktorovú analýzu

Výber počtu faktorov

PCA

Dôležitosť hlavných komponentov

Zhluková analýza

K-Means

PAM

Hierarchické zhlukovanie

Porovnanie metód zhlukovej analýzy

Zadanie 2

Lineárna regresia

Hypotéza

Overenie podmienok lineárnej regresie

Linearita

Nezávislosť reziduí

Normalita reziduí

Homoscedasticita

Multikolinearita

MANOVA

Hypotéza

Testovanie predpokladov MANOVA

Multivariačná normalita

Odľahlé hodnoty

Homogenita rozptylov a kovariančných matíc

Korelácie medzi závislými premennými