Cieľom reportu je pomôcť potravinárskej spoločnosti lepšie zacieliť ďalšiu marketingovú kampaň. Zameriame sa na to, čím sa odlišujú zákazníci, ktorí prijali poslednú ponuku, od zákazníkov, ktorí ju neprijali.
Analýza bude sledovať najmä príjem, vek, rodinnú situáciu, nákupné správanie, celkové výdavky a predchádzajúce reakcie na kampane. Na základe týchto informácií následne vytvoríme zákaznícke segmenty a odporučíme cieľovú skupinu pre budúcu kampaň.
Pred samotnou analýzou sme dáta pripravili tak, aby lepšie podporovali rozhodovanie o budúcej kampani. Okrem kontroly chýbajúcich a extrémnych hodnôt sme vytvorili súhrnné ukazovatele, ktoré zachytávajú celkové výdavky zákazníka, jeho nákupnú aktivitu, rodinnú situáciu a ochotu reagovať na predchádzajúce kampane.
Najprv sme overili, či dataset obsahuje chýbajúce hodnoty. Táto kontrola je potrebná ešte pred porovnávaním zákazníkov, aby bolo jasné, či sú dáta dostatočne úplné alebo ich treba pred ďalšou analýzou upraviť.
| Premenná | Počet chýbajúcich hodnôt | Podiel v % |
|---|---|---|
| Age | 27 | 1.38 |
| Income | 26 | 1.33 |
| NumStorePurchases | 23 | 1.18 |
| MntGoldProds | 21 | 1.07 |
| MntWines | 20 | 1.02 |
| MntMeatProducts | 18 | 0.92 |
| MntSweetProducts | 18 | 0.92 |
| NumCatalogPurchases | 17 | 0.87 |
| Recency | 15 | 0.77 |
| MntFishProducts | 15 | 0.77 |
| NumDealsPurchases | 15 | 0.77 |
| NumWebPurchases | 14 | 0.72 |
| MntFruits | 13 | 0.66 |
| Marital_Status | 12 | 0.61 |
| Education | 9 | 0.46 |
| Kidhome | 5 | 0.26 |
| NumWebVisitsMonth | 3 | 0.15 |
| Teenhome | 1 | 0.05 |
Chýbajúce údaje sa objavili vo viacerých premenných, ale pri každej z
nich ide len o malú časť zákazníkov. Najviac chýbajúcich hodnôt je pri
premennej Age, kde chýba údaj pri 27 zákazníkoch. V tejto
fáze preto nejde o rozsiahly problém, ale pred ďalšou analýzou je
potrebné rozhodnúť, ako s týmito hodnotami naložíme.
Ďalej sme sa pozreli na to, koľko zákazníkov by zostalo v datasete, ak by sme odstránili všetky riadky s aspoň jednou chýbajúcou hodnotou.
| Metrika | Hodnota |
|---|---|
| Počet zákazníkov v pôvodných dátach | 1956 |
| Celkový počet chýbajúcich hodnôt | 272 |
| Počet zákazníkov po odstránení neúplných riadkov | 1795 |
| Podiel zachovaných zákazníkov pri odstránení riadkov | 91.8 % |
Po odstránení neúplných riadkov by v dátach zostalo 1 795 zákazníkov z pôvodných 1 956. Znamená to, že by sme prišli o 161 zákazníkov. Keďže cieľom reportu je pripraviť zákazníkov na porovnávanie a segmentáciu, nechceme zbytočne zmenšovať zákaznícku základňu. Vhodnejšie je preto chýbajúce hodnoty doplniť a pracovať so všetkými zákazníkmi.
Okrem počtu chýbajúcich hodnôt sme skontrolovali aj ich rozloženie. Graf ukazuje, či chýbajúce údaje vznikajú skôr jednotlivo, alebo sa pri niektorých zákazníkoch objavuje viac chýbajúcich údajov naraz.
Graf ukazuje, že chýbajúce hodnoty sa netýkajú iba jednej premennej. Pri niektorých zákazníkoch chýba viac údajov naraz, preto by jednoduché odstránenie neúplných riadkov znamenalo stratu časti zákazníkov. Keďže rozsah chýbajúcich hodnôt nie je veľký, budeme ich riešiť doplnením.
Na doplnenie vizuálnej kontroly sme overili, či chýbajúce hodnoty pôsobia náhodne. Táto kontrola pomáha rozhodnúť, či môžeme chýbajúce hodnoty doplniť jednoduchým spôsobom, alebo či treba byť pri interpretácii opatrnejší.
| statistic | df | p.value | missing.patterns |
|---|---|---|---|
| 941.9781 | 764 | 1.03e-05 | 38 |
Kontrola ukázala, že chýbajúce údaje sa v dátach neobjavujú úplne náhodne. To znamená, že pri ich dopĺňaní musíme byť opatrní. Keďže ich rozsah je malý, premenné ponecháme v reporte a chýbajúce hodnoty doplníme tak, aby sme zachovali čo najviac informácií o zákazníkoch.
Pri číselných premenných sme použili medián, aby doplnené hodnoty neboli príliš ovplyvnené extrémnymi hodnotami. Pri textových premenných sme použili najčastejšiu kategóriu.
| Stav dát | Počet chýbajúcich hodnôt | Počet zákazníkov |
|---|---|---|
| Pred doplnením | 272 | 1956 |
| Po doplnení | 0 | 1956 |
Po doplnení už v dátach nezostali žiadne chýbajúce hodnoty. V ďalších častiach reportu preto pracujeme s kompletným datasetom, ktorý obsahuje všetkých zákazníkov z pôvodnej vzorky.
Následne sme skontrolovali výrazne odľahlé hodnoty, ktoré by mohli skresliť ďalšie výsledky analýzy. Do tejto kontroly sme zahrnuli len numerické premenné, kategorické a binárne premenné sme vynechali, pretože pri nich hodnotenie odľahlých hodnôt nedáva praktický zmysel.
Vyššie hodnoty sa objavujú najmä pri premenných, ktoré opisujú výdavky a nákupnú aktivitu zákazníkov. Tieto hodnoty ponechávame v dátach, pretože môžu predstavovať reálne správanie aktívnych a hodnotných zákazníkov.
Ako problémová sa ukázala premenná Income. Hodnota 666
666 výrazne prevyšuje aj 99. percentil, preto ju nepovažujeme za
reprezentatívny príjem domácnosti v tejto vzorke. Keďže ide iba o jeden
extrémny záznam, odstránime ho z ďalšej analýzy.
| Ukazovateľ | Hodnota |
|---|---|
| Počet zákazníkov po odstránení extrémneho príjmu | 1955 |
| Medián príjmu | 51369 |
| Priemerný príjem | 51876 |
| Najvyšší príjem po úprave | 162397 |
Po odstránení jedného extrémneho záznamu už príjem lepšie zodpovedá zvyšku zákazníckej vzorky. V ďalšej analýze pracujeme s dátami bez hodnoty, ktorá by mohla neprimerane skresľovať výsledky.
Aby sme ďalej nepracovali s príliš detailným zoznamom pôvodných premenných, vytvorili sme niekoľko súhrnných ukazovateľov. Zamerali sme sa na oblasti, ktoré sú dôležité pri hodnotení zákazníkov pre marketingovú kampaň: výdavky, nákupnú aktivitu, rodinnú situáciu a predchádzajúce reakcie na ponuky.
| Ukazovateľ | Význam | Využitie v reporte |
|---|---|---|
| TotalSpending | celkové výdavky zákazníka na sledované produkty | hodnota zákazníka pre firmu |
| TotalPurchases | celkový počet nákupov cez zľavy, web, katalóg a obchod | nákupná aktivita zákazníka |
| TotalChildren | celkový počet detí a tínedžerov v domácnosti | počet detí v domácnosti |
| AcceptedPreviousCmp | počet prijatých predchádzajúcich kampaní | predchádzajúca ochota reagovať na ponuky |
V ďalších častiach reportu budeme tieto ukazovatele používať pri porovnávaní zákazníkov. Vďaka nim bude jednoduchšie sledovať, či sa zákazníci líšia najmä v celkových výdavkoch, nákupnej aktivite, počte detí alebo v predchádzajúcej reakcii na kampane.
V tejto časti sa pozrieme na to, či sa výdavky zákazníkov a ich nákupná aktivita dajú zhrnúť do niekoľkých jednoduchších oblastí správania.
Do faktorovej analýzy vyberáme numerické premenné, ktoré opisujú, na čo zákazníci míňajú a akým spôsobom nakupujú. Konkrétne ide o výdavky na víno, ovocie, mäso, ryby, sladkosti a špeciálne produkty, ďalej o počet nákupov so zľavou, cez web, katalóg, kamennú predajňu a počet návštev webu za posledný mesiac.
Vek, príjem, rodinnú situáciu, posledný nákup, počet detí, sťažnosti, odpovede a prijatie kampaní do tejto analýzy nezaradíme, pretože nejde priamo o výdavky ani spôsob nákupu. Ich zahrnutie by sťažilo jasné pomenovanie výsledných faktorov a taktiež nie je vhodné vo faktorovej analýze používať binárne alebo kategorické premenné.
Pred výpočtom faktorov sme overili, či máme dostatočný počet pozorovaní vzhľadom na počet vybraných premenných. V analýze pracujeme s 1 947 zákazníkmi a 11 premennými, takže veľkosť datasetu je pre tento krok dostatočná.
Následne sa pozrieme na vzťahy medzi premennými. Ak spolu výdavky a spôsob nákupu aspoň čiastočne súvisia, faktorová analýza môže pomôcť zhrnúť ich do menšieho počtu prehľadnejších oblastí správania.
| Ukazovateľ | Hodnota |
|---|---|
| Počet testovaných dvojíc premenných | 55 |
| Počet štatisticky významných korelácií | 53 |
| Podiel významných korelácií | 96.4 % |
Súhrn korelácií ukazuje, že medzi viacerými vybranými premennými existujú štatisticky významné vzťahy. To znamená, že premenné nie sú úplne nezávislé a má zmysel overiť, či sa dajú zhrnúť do spoločných faktorov.
| Kontrola | Výsledok |
|---|---|
| Celkové KMO | 0.87 |
| Bartlettov test - p-hodnota | <0.001 |
Výsledky kontroly ukazujú, že vybrané premenné môžeme použiť vo faktorovej analýze. Celkové KMO má hodnotu 0,87, čo je dobrý výsledok, a Bartlettov test potvrdil, že medzi premennými sú dostatočné vzťahy. Skontrolovali sme aj jednotlivé KMO hodnoty premenných; žiadna z nich nebola natoľko problematická, aby sme ju museli z analýzy vyradiť.
Ďalej sme určovali, koľko faktorov dáva pri vybraných premenných najväčší zmysel. Cieľom nie je vytvoriť čo najviac faktorov, ale nájsť menší počet skupín, ktoré sa dajú zrozumiteľne pomenovať.
| F1 | F2 | F3 | F4 | F5 | F6 | F7 | F8 | F9 | F10 | F11 |
|---|---|---|---|---|---|---|---|---|---|---|
| 5.103 | 1.561 | 0.821 | 0.694 | 0.616 | 0.529 | 0.444 | 0.39 | 0.356 | 0.256 | 0.23 |
Z vlastných čísel vyplýva, že hodnotu vyššiu ako 1 majú prvé dva faktory. Tie zachytávajú najväčšiu časť informácie z pôvodných premenných a majú zmysel pre ďalšiu interpretáciu. Ostatné faktory už majú vlastné čísla nižšie ako 1, preto ich nebudeme samostatne interpretovať.
Na základe vlastných čísel sme si overili, koľko faktorov má zmysel ďalej používať. Lakťový graf ukazuje, pri ktorých faktoroch ešte zostáva dostatok informácie a kde už prínos ďalších faktorov výrazne klesá.
Najsilnejší prínos majú prvé dva faktory. Ďalšie faktory už neprinášajú dostatočne výraznú informáciu, preto budeme pokračovať s dvojfaktorovým riešením.
Pre dvojfaktorové riešenie sme následne vypočítali faktorové zaťaženia. Tie ukazujú, ktoré premenné sa najviac viažu na jednotlivé faktory.
| Premenná | Faktor 1 | Faktor 2 |
|---|---|---|
| MntWines | 0.71 | |
| MntFruits | 0.691 | |
| MntMeatProducts | 0.791 | |
| MntFishProducts | 0.721 | |
| MntSweetProducts | 0.691 | |
| MntGoldProds | 0.543 | |
| NumDealsPurchases | 0.52 | |
| NumWebPurchases | 0.532 | 0.596 |
| NumCatalogPurchases | 0.783 | |
| NumStorePurchases | 0.705 | |
| NumWebVisitsMonth | -0.596 | 0.419 |
Výsledky ukazujú, že prvý faktor sa najviac spája s výdavkami na produkty. Silné väzby má najmä na výdavky na mäso, ryby, ovocie, sladkosti a tiež na nákupy cez katalóg. Zároveň má zápornú väzbu s návštevami webu, čo naznačuje, že zákazníci s vyššími výdavkami nemusia patriť medzi tých, ktorí najčastejšie navštevujú web.
Druhý faktor sa najviac spája so spôsobom nákupu. Najsilnejšiu väzbu má na počet nákupov cez web, nákupy so zľavou a čiastočne aj na nákupy v predajni. Tento faktor preto zachytáva skôr nákupnú aktivitu a využívanie nákupných kanálov.
Na záver sme zobrazili zákazníkov podľa dvoch vytvorených faktorov.
Diagram zobrazuje finálne dvojfaktorové riešenie faktorovej analýzy. Väčšina premenných sa viaže na prvý faktor, najmä výdavky na mäso, ryby, víno, ovocie, sladkosti a špeciálne produkty. K tomuto faktoru sa zároveň viažu aj nákupy cez katalóg a v kamennej predajni. Tento faktor preto pomenujeme ako výdavkové správanie zákazníka, pretože zachytáva zákazníkov, ktorí celkovo viac míňajú na produkty a sú aktívnejší v tradičných nákupných kanáloch.
Druhý faktor je užší a najviac sa spája s nákupmi cez web a nákupmi so zľavou. Tento faktor preto pomenujeme ako online a zľavová nákupná aktivita. Zachytáva skôr spôsob nákupu než celkovú výšku výdavkov.
V tejto časti použijeme analýzu hlavných komponentov na tie isté oblasti zákazníckeho správania ako pri faktorovej analýze. Cieľom je zistiť, či vieme väčší počet premenných o výdavkoch a nákupoch zobraziť v menšom počte komponentov.
Do PCA zahrnieme premenné opisujúce výdavky na víno, ovocie, mäso, ryby, sladkosti a špeciálne produkty, ďalej počet nákupov so zľavou, cez web, katalóg, kamennú predajňu a počet návštev webu za posledný mesiac.
Najprv sa pozrieme na to, koľko informácie zachytávajú jednotlivé komponenty. Táto časť nám pomôže rozhodnúť, koľko komponentov má zmysel ďalej interpretovať.
| PC 1 | PC 2 | PC 3 | PC 4 | PC 5 | PC 6 | PC 7 | PC 8 | PC 9 | PC 10 | PC 11 | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Smerodajná odchýlka | 2.259 | 1.250 | 0.906 | 0.833 | 0.785 | 0.728 | 0.667 | 0.625 | 0.596 | 0.506 | 0.479 |
| Podiel vysvetlenej variability | 0.464 | 0.142 | 0.075 | 0.063 | 0.056 | 0.048 | 0.040 | 0.035 | 0.032 | 0.023 | 0.021 |
| Kumulatívny podiel variability | 0.464 | 0.606 | 0.681 | 0.744 | 0.800 | 0.848 | 0.888 | 0.924 | 0.956 | 0.979 | 1.000 |
Prvý komponent vysvetľuje najväčšiu časť rozdielov medzi zákazníkmi, konkrétne 46,4 %. Po pridaní druhého komponentu vysvetľujeme spolu 60,6 % variability a po treťom 68,1 %. Ďalšie komponenty už pridávajú menší prírastok, preto sa pri interpretácii zameriame najmä na prvé dva až tri komponenty.
Na vizuálne overenie počtu komponentov použijeme lakťový graf. Sledujeme, pri ktorých komponentoch ešte prírastok vysvetlenej variability dáva praktický zmysel.
Prvé dva komponenty vysvetľujú 60,6 % variability, pričom tretí komponent zvyšuje vysvetlenú variabilitu na 68,1 %. Keďže tretí komponent ešte prináša dodatočnú informáciu o rozdieloch medzi zákazníkmi, ponecháme v ďalšej interpretácii tri komponenty. Hlavný dôraz však bude na prvých dvoch komponentoch, ktoré zachytávajú najväčšiu časť nákupného správania.
Zákazníkov zobrazíme podľa prvých dvoch hlavných komponentov a zároveň ich rozdelíme podľa reakcie na poslednú kampaň. Chceme zistiť, či sa prijatie kampane spája s odlišným nákupným správaním.
Graf ukazuje, že zákazníci, ktorí prijali poslednú kampaň, sa výrazne prekrývajú so zákazníkmi, ktorí ju neprijali. To znamená, že samotné hlavné oblasti nákupného správania nestačia na jasné oddelenie úspešných a neúspešných reakcií na kampaň.
Pre ďalšie odporúčanie preto nebudeme vychádzať iba z PCA. Výdavky a nákupná aktivita nám pomáhajú pochopiť správanie zákazníkov, ale cieľovú skupinu bude potrebné určiť aj pomocou ďalších charakteristík a následnej segmentácie.
Cieľom zhlukovej analýzy je rozdeliť zákazníkov do skupín, ktoré sa
od seba líšia z pohľadu marketingového potenciálu. Pri výbere premenných
sme sa zamerali na charakteristiky, ktoré sú pre zacielenie kampane
prakticky použiteľné: Recency, TotalSpending a
AcceptedPreviousCmp.
Do klastrovania nezaraďujeme kategóriové premenné ani samostatné
binárne premenné AcceptedCmp1 až AcceptedCmp5.
Reakciu na predchádzajúce kampane zachytávame súhrnne pomocou premennej
AcceptedPreviousCmp, ktorá vyjadruje počet kampaní
prijatých v minulosti.
Pri určovaní optimálneho počtu zhlukov boli použité tri metódy: lakťová metóda , silhouette a gap statistic.
Výsledky metód naznačujú, že najlepšie riešenie by predstavovali tri až štyri zhluky. Silhouette metóda má najvyššiu hodnotu práve pri piatich zhlukoch a lakťová metóda ukazuje výrazný pokles variability najmä medzi prvým až tretím zhlukom.
Cieľom segmentácie je nájsť konkrétnejšie cieľové skupiny pre budúcu kampaň, preto sme ako praktickejšie riešenie zvolili tri zhluky. Tri zhluky zachovávajú jednoduchú interpretáciu, ale zároveň umožňujú lepšie rozlíšiť zákazníkov podľa hodnoty, nákupnej aktivity, aktuálnosti nákupu a predchádzajúcej reakcie na kampane.
| Zhluk | Počet zákazníkov |
|---|---|
| 1 | 882 |
| 2 | 221 |
| 3 | 852 |
Zákazníci sa rozdelili do troch zhlukov rôznej veľkosti. Najväčší je zhluk 1 s 882 zákazníkmi, druhý zhluk obsahuje 221 zákazníkov a zhluk 3 má 852 zákazníkov. Menší druhý zhluk môže byť z marketingového pohľadu zaujímavý, ak sa ukáže, že má špecifický profil alebo vyšší potenciál pre kampaň.
Na vizualizáciu výsledkov analýzy K-Means bol použitý graf, ktorý zobrazuje rozdelenie pozorovaní do troch klastrov v priestore hlavných komponentov.
Graf ukazuje, že zákazníkov vieme rozdeliť do troch pomerne odlišných segmentov. Rozdelenie vychádza z hodnoty zákazníka, aktuálnosti nákupu a predchádzajúcej reakcie na kampane.
Na lepšie pochopenie charakteristík jednotlivých segmentov boli pre každý klaster vypočítané priemerné hodnoty sledovaných premenných.
| cluster | Recency | TotalSpending | AcceptedPreviousCmp |
|---|---|---|---|
| 1 | 73.73469 | 518.3571 | 0.0986395 |
| 2 | 49.23982 | 1553.8688 | 1.8190045 |
| 3 | 24.07160 | 432.6620 | 0.1044601 |
Zhluk 2 má najvyšší marketingový potenciál, pretože dosahuje najvyššie celkové výdavky a najvyšší počet prijatých predchádzajúcich kampaní. Zhluk 1 je menej atraktívny, keďže má nižšie výdavky, nízku reakciu na kampane a zákazníci v ňom nakupovali dávnejšie. Zhluk 3 je aktuálnejší z pohľadu posledného nákupu, ale má nízke výdavky aj nízku predchádzajúcu reakciu na kampane.
Ako druhú metódu použijeme PAM. Táto metóda je vhodná ako doplnok ku k-means, pretože pracuje s reprezentatívnymi zákazníkmi v zhlukoch a je menej citlivá na extrémne hodnoty.
| Zhluk | Počet zákazníkov |
|---|---|
| 1 | 411 |
| 2 | 777 |
| 3 | 767 |
Metóda PAM rozdelila zákazníkov do troch zhlukov pomerne rovnomerne. Najväčší je zhluk 2 so 777 zákazníkmi, veľmi podobne veľký je zhluk 3 so 767 zákazníkmi a menší zhluk 1 obsahuje 411 zákazníkov. Takéto rozdelenie je z pohľadu marketingu použiteľné, pretože nevznikol extrémne malý segment, ktorý by bolo ťažké samostatne interpretovať.
Graf ukazuje, že metóda PAM rozdelila zákazníkov do troch pomerne dobre odlíšiteľných segmentov. Najvýraznejšie sa od ostatných oddeľuje zhluk 1, zatiaľ čo zhluky 2 a 3 sú si bližšie, ale stále tvoria samostatné skupiny.
| cluster | Recency | TotalSpending | AcceptedPreviousCmp |
|---|---|---|---|
| 1 | 52.06083 | 1500.6715 | 1.0754258 |
| 2 | 23.71042 | 352.4041 | 0.0978121 |
| 3 | 73.80052 | 363.2725 | 0.0782269 |
Pri metóde PAM má najvyšší marketingový potenciál zhluk 1, pretože má najvyššie celkové výdavky aj najvyšší priemer prijatých predchádzajúcich kampaní. Zhluky 2 a 3 majú nižšie výdavky a veľmi nízku reakciu na predchádzajúce kampane. Najslabšie pôsobí zhluk 3, keďže zákazníci v ňom nakupovali najdávnejšie.
Ako tretiu metódu použijeme hierarchické zhlukovanie. Táto metóda pomáha overiť, či sa podobná štruktúra segmentov objaví aj pri inom prístupe.
| Metóda | Kophenetická korelácia |
|---|---|
| complete | 0.752 |
| average | 0.798 |
| single | 0.576 |
| ward.D2 | 0.658 |
Pri hierarchickom zhlukovaní sme porovnali viacero metód podľa
kophenetickej korelácie. Najvyššiu hodnotu dosiahla metóda
average s hodnotou 0,798, čo znamená, že najlepšie
zachováva pôvodné vzťahy medzi zákazníkmi.
Dendrogram ukazuje hierarchické rozdelenie zákazníkov do troch skupín. Slúži ako doplnková kontrola k predchádzajúcim metódam zhlukovania a potvrdzuje, že v dátach existuje určitá segmentačná štruktúra.
| Zhluk | Počet zákazníkov |
|---|---|
| 1 | 1049 |
| 2 | 677 |
| 3 | 229 |
Hierarchické zhlukovanie rozdelilo zákazníkov do troch segmentov s rozdielnou veľkosťou. Najväčší je zhluk 1 s 1 049 zákazníkmi, druhý zhluk má 677 zákazníkov a najmenší zhluk 3 obsahuje 229 zákazníkov.
| cluster | Recency | TotalSpending | AcceptedPreviousCmp |
|---|---|---|---|
| 1 | 67.80839 | 480.4986 | 0.0514776 |
| 2 | 18.90103 | 458.3575 | 0.1890694 |
| 3 | 54.57642 | 1549.6638 | 1.7292576 |
Pri hierarchickom zhlukovaní je najzaujímavejší zhluk 3. Má najvyššie celkové výdavky aj najvyšší priemer prijatých predchádzajúcich kampaní, preto má najväčší potenciál pre budúcu kampaň.
Zhluky 1 a 2 majú nižšie výdavky aj slabšiu predchádzajúcu reakciu na kampane, preto sú z marketingového pohľadu menej atraktívne.
Ako finálne riešenie sme vybrali metódu PAM s tromi zhlukmi. Zhluky sa odlišujú najmä podľa celkových výdavkov, aktuálnosti posledného nákupu a predchádzajúcej reakcie na kampane.
Najsilnejší segment predstavuje zhluk 1. Zákazníci v ňom majú najvyššie výdavky a najvyšší priemer prijatých predchádzajúcich kampaní. Sú si podobní tým, že majú vysokú hodnotu pre firmu a už v minulosti reagovali na marketingové ponuky. Práve tento zhluk preto určíme ako hlavnú cieľovú skupinu pre ďalšiu kampaň.
Zhluk 2 zahŕňa zákazníkov s nižšími výdavkami a slabšou reakciou na kampane, ale s relatívne nedávnym nákupom. Ide teda o aktuálnych, no menej hodnotných zákazníkov. Tento segment môže byť vhodný skôr na udržiavaciu alebo aktivačnú komunikáciu.
Zhluk 3 je najmenej perspektívny segment. Má nízke výdavky, nízku reakciu na kampane a zákazníci v ňom nakupovali najdávnejšie.
Pre budúcu marketingovú kampaň preto odporúčame prioritne zacieliť na zhluk 1, pretože spája vysokú hodnotu zákazníka s najlepšou históriou reakcií na kampane. Tento segment má najväčší potenciál priniesť vyššiu účinnosť kampane.
V tejto časti sa pozrieme na to, ktoré charakteristiky zákazníkov
súvisia s ich celkovými výdavkami. Ako cieľovú premennú použijeme
TotalSpending, teda celkové výdavky zákazníka na sledované
produkty.
Do finálneho modelu zaradíme premenné Income a
Age. Tieto premenné zachytávajú kúpnu silu zákazníka a jeho
vek. Cieľom je zistiť, či tieto charakteristiky pomáhajú vysvetliť
rozdiely v celkovej hodnote zákazníkov pre firmu. Analyzovali sme aj iné
kombinácie alebo transformácie premenných, no tieto sa ukázali ako
najvhodnejšie.
Predpokladáme, že celkové výdavky zákazníkov súvisia s ich príjmom a vekom..
H0: Príjem a vek nemajú štatisticky významný vplyv na celkové výdavky zákazníka.
H1: Aspoň jedna z týchto premenných má štatisticky významný vplyv na celkové výdavky zákazníka.
Najprv overíme, či vzťah medzi celkovými výdavkami a vybranými premennými pôsobí približne lineárne. Ak by boli vzťahy výrazne zakrivené, lineárny model by nebol vhodný na interpretáciu.
Najvýraznejší lineárny vzťah vidíme medzi Income a
TotalSpending, zákazníci s vyšším príjmom majú tendenciu
míňať viac. Pri Age je vzťah slabší a menej jednoznačný,
ale vidno lineárny tvar.
| Ukazovateľ | Hodnota |
|---|---|
| Durbin-Watson štatistika | 2.0010 |
| p-hodnota | 0.5095 |
Durbin-Watsonova štatistika má hodnotu 2,001, čo je veľmi blízko hodnote 2. To naznačuje, že rezíduá nie sú medzi sebou systematicky previazané. P-hodnota 0,5095 zároveň nepotvrdzuje problém so závislosťou rezíduí. Predpoklad nezávislosti rezíduí preto považujeme za splnený.
Ďalej overíme, či sú rezíduá približne normálne rozdelené. Túto kontrolu použijeme najmä na posúdenie stability výsledkov modelu.
| Ukazovateľ | Hodnota |
|---|---|
| Shapiro-Wilk štatistika | 0.9317 |
| p-hodnota | <0.001 |
Shapiro-Wilkov test ukazuje, že normalita rezíduí nie je splnená ideálne. Keďže však pracujeme s väčším počtom zákazníkov, test môže byť citlivý aj na menšie odchýlky. Výsledok preto posudzujeme spolu s histogramom a Q-Q grafom, kde väčšina rezíduí zostáva sústredená okolo nuly, no na krajoch rozdelenia vidno menšie odchýlky.
Následne skontrolujeme, či je rozptyl rezíduí približne rovnaký pri rôznych predikovaných hodnotách. Táto kontrola je dôležitá, aby model nebol ovplyvnený tým, že pri niektorých skupinách zákazníkov robí výrazne väčšie chyby než pri iných.
| Ukazovateľ | Hodnota |
|---|---|
| Chi-square | 1196.929 |
| Stupne voľnosti | 1 |
| p-hodnota | <0.001 |
Test ukazuje, že rozptyl rezíduí nie je úplne rovnomerný, keďže p-hodnota je nižšia ako 0,001. Pri zákazníckych výdavkoch je to očakávateľné, pretože zákazníci s vyššou hodnotou sa správajú rôznorodejšie než zákazníci s nízkymi výdavkami.
Výsledky regresie preto budeme interpretovať ako hlavný trend vo výdavkoch zákazníkov, nie ako presnú predikciu pre každého jednotlivca.
| Premenná | VIF |
|---|---|
| Income | 1.0235 |
| Age | 1.0235 |
Hodnoty VIF sú pri všetkých premenných veľmi nízke a pohybujú sa
približne okolo hodnoty 1. To znamená, že premenné Incomea
Age sa medzi sebou výrazne neprekrývajú. Predpoklad
neprítomnosti multikolinearity je teda splnený a obe premenné môžeme
ponechať v regresnom modeli.
| Premenná | Koeficient | Smerodajná chyba | t-hodnota | p-hodnota |
|---|---|---|---|---|
| (Intercept) | -384.8616 | 45.0069 | -8.551 | <0.001 |
| Income | 0.0223 | 0.0004 | 55.999 | <0.001 |
| Age | -3.2050 | 0.7748 | -4.136 | <0.001 |
| Ukazovateľ | Hodnota |
|---|---|
| R Square | 0.6178 |
| Adjusted R Square | 0.6174 |
| F-štatistika | 1577.578 |
| p-hodnota celého modelu | <0.001 |
Regresný model ukazuje, že celkové výdavky zákazníkov vieme dobre vysvetliť pomocou príjmu a veku. Model ako celok je štatisticky významný a vysvetľuje približne 61,8 % variability v celkových výdavkoch zákazníkov, čo je z pohľadu marketingového reportu silný výsledok.
Najdôležitejším faktorom je príjem. Jeho koeficient je kladný a štatisticky významný, takže zákazníci s vyšším príjmom majú tendenciu míňať viac na sledované produkty. Pre marketing to znamená, že príjem je jeden z najlepších ukazovateľov hodnoty zákazníka.
Vek je tiež štatisticky významný, ale jeho vplyv je negatívny. Pri rovnakej úrovni príjmu majú starší zákazníci v priemere o niečo nižšie celkové výdavky. Tento efekt je slabší ako pri príjme, ale pomáha lepšie doplniť profil zákazníkov s vyššou nákupnou hodnotou.
Na základe výsledkov zamietame nulovú hypotézu. Príjem a vek majú významný vplyv na celkové výdavky zákazníkov. Pre ďalšie marketingové rozhodovanie je preto dôležité zamerať sa najmä na zákazníkov s vyšším príjmom a nižším vekom, ktorí predstavujú skupinu s vyšším nákupným potenciálom.
V tejto časti overíme, či sa výdavky zákazníkov líšia podľa toho, či
majú alebo nemajú deti v domácnosti. Vytvoríme premennú
Deti, kde hodnota 0 znamená domácnosť bez detí a hodnota 1
znamená domácnosť s aspoň jedným dieťaťom.
Ako závislé premenné použijeme výdavky na vybrané produktové
kategórie: MntWines, MntFishProducts,
MntSweetProducts, MntMeatProducts a
MntFruits. Cieľom je zistiť, či deti zákazníka súvisia s
rozdielnym nákupným správaním v týchto kategóriách.
| Skupina | Počet zákazníkov |
|---|---|
| Bez detí | 511 |
| S deťmi | 1444 |
Tabuľka ukazuje veľkosť oboch porovnávaných skupín. Pri interpretácii MANOVA budeme sledovať, či sa tieto skupiny líšia vo výdavkoch na jednotlivé produktové kategórie.
H0: Domácnosti s deťmi a bez detí sa nelíšia vo výdavkoch na vybrané produktové kategórie.
H1: Domácnosti s deťmi a bez detí sa líšia aspoň v jednej zo sledovaných produktových kategórií.
Pred samotnou MANOVA analýzou sme najprv overili predpoklady na
pôvodných výdavkových premenných MntWines,
MntFishProducts, MntSweetProducts,
MntMeatProducts a MntFruits.
Závislé premenné sú číselné, preto sú z hľadiska typu vhodné pre
MANOVA analýzu. Premenná Deti je faktorová premenná s dvomi
skupinami – domácnosti bez detí a domácnosti s deťmi. Veľkosť vzorky je
dostatočná, keďže v oboch skupinách máme dostatočný počet
zákazníkov.
| Test | Štatistika | p.hodnota | Výsledok |
|---|---|---|---|
| Mardia – šikmosť | 11299.855 | <0.001 | Nie je normálne rozdelenie |
| Mardia – špicatosť | 185.303 | <0.001 | Nie je normálne rozdelenie |
Kontrola normality ukázala, že pôvodné výdavkové premenné nemajú normálne rozdelenie. Pri všetkých sledovaných kategóriách vyšla p-hodnota nižšia ako 0,001. Tento výsledok je pri zákazníckych výdavkoch očakávateľný, pretože veľa zákazníkov míňa nízke sumy a menšia časť zákazníkov míňa výrazne viac.
| Ukazovateľ | Hodnota |
|---|---|
| Počet pozorovaní | 1955 |
| Hraničná hodnota | 20.515 |
| Počet odľahlých pozorovaní | 109 |
| Podiel odľahlých pozorovaní | 5.58 % |
Pomocou Mahalanobisovej vzdialenosti sme skontrolovali viacrozmerné odľahlé hodnoty medzi sledovanými výdavkovými premennými. Výsledok ukázal 109 odľahlých pozorovaní. Keďže ide o zákaznícke výdavky, tieto hodnoty neodstraňujeme automaticky. Môžu predstavovať reálnych zákazníkov s vyššími nákupmi, ktorí sú z marketingového pohľadu dôležití.
| Premenná | F-hodnota | p-hodnota |
|---|---|---|
| MntWines | 72.637 | <0.001 |
| MntFishProducts | 324.424 | <0.001 |
| MntSweetProducts | 234.592 | <0.001 |
| MntMeatProducts | 644.746 | <0.001 |
| MntFruits | 269.517 | <0.001 |
Leveneho test vyšiel pri všetkých výdavkových kategóriách významný, p < 0,001. To znamená, že domácnosti s deťmi a bez detí nemajú rovnakú variabilitu výdavkov. Tento výsledok potvrdzuje, že pôvodné dáta nie sú pre MANOVA ideálne a bude potrebné ich pred finálnou analýzou upraviť.
| Ukazovateľ | Hodnota |
|---|---|
| Chi-square | 2324.007 |
| Stupne voľnosti | 15 |
| p-hodnota | <0.001 |
Boxov M test vyšiel štatisticky významný, p < 0,001. To znamená, že variančno-kovariančné matice sa medzi domácnosťami bez detí a s deťmi líšia. Predpoklad homogenity variančno-kovariančných matíc teda pri pôvodných dátach nie je splnený.
Korelácie medzi výdavkovými kategóriami sú prevažne stredne silné a pozitívne. Najvyššie vzťahy vidíme medzi ovocím a rybami , mäsom a rybami a sladkosťami a rybami. Žiadna korelácia však nie je extrémne vysoká, preto premenné nepovažujeme za duplicitné a môžeme ich ponechať v MANOVA analýze.
| MntWines | MntFishProducts | MntSweetProducts | MntMeatProducts | MntFruits | |
|---|---|---|---|---|---|
| MntWines | 1.000 | 0.405 | 0.393 | 0.560 | 0.398 |
| MntFishProducts | 0.405 | 1.000 | 0.581 | 0.583 | 0.600 |
| MntSweetProducts | 0.393 | 0.581 | 1.000 | 0.549 | 0.564 |
| MntMeatProducts | 0.560 | 0.583 | 0.549 | 1.000 | 0.563 |
| MntFruits | 0.398 | 0.600 | 0.564 | 0.563 | 1.000 |
Keďže pôvodné dáta nespĺňali predpoklady MANOVA ideálne, rozhodli sme sa nepokračovať priamo s pôvodnými výdavkami. Namiesto odstraňovania odľahlých hodnôt sme použili logaritmickú transformáciu výdavkových premenných.
Tento postup je vhodnejší pre marketingové dáta, pretože vysoké výdavky môžu predstavovať reálnych a hodnotných zákazníkov. Logaritmická transformácia znižuje vplyv extrémne vysokých hodnôt, ale zároveň ponecháva všetkých zákazníkov v analýze.