Mapowanie podobieństwa barw

1. Wstęp i Metodologia

Efektywne zarządzanie asortymentem w branży retail wymaga wyjścia poza prostą analizę tabelaryczną. W przypadku produktów, których głównym wyróżnikiem jest kolor, tradycyjne raporty sprzedażowe nie oddają relacji wizualnych między produktami, co utrudnia podejmowanie decyzji o wprowadzeniu nowych odcieni czy wycofaniu duplikatów.

Cele Projektu

Analiza realizuje dwa równoległe cele:

Cel Metodologiczny: Sprawdzenie, czy techniki redukcji wymiarów (PCA) potrafią wiernie odwzorować ludzką percepcję kolorów (zazwyczaj opisywanych w 3 wymiarach) na płaszczyźnie ułatwiającej interpretację wizualizacji, czy też prowadzą do istotnej utraty informacji.
Cel Biznesowy: Wykorzystanie utworzonej mapy barw do optymalizacji asortymentu:
- Mapa Bestsellerów: Określenie, w jakich rejonach barw koncentruje się sprzedaż.
- Wykrywanie kanibalizacji: Identyfikacja produktów o wysokim stopniu podobieństwa wizualnego, które mogą rywalizować o tę samą grupę docelową.
- Analiza Luk: Znalezienie niewykorzystanych nisz kolorystycznych.

Plan projektu i metodologia

Aby zrealizować postawione cele, proces analityczny został podzielony na cztery etapy:

Transformacja Przestrzeni Barw (HEX -> CIE Lab): Standardowe kody HEX (model RGB) są przeznaczone do emisji światła przez ekrany i nie odzwierciedlają nieliniowej percepcji barw przez ludzkie oko. Dlatego w pierwszym kroku przeprowadzono konwersję danych do przestrzeni CIE Lab, gdzie odległości między kolorami odpowiadają rzeczywistej różnicy postrzeganej przez ludzkie oko.
Redukcja Wymiarów (Metoda PCA): Przestrzeń kolorystyczna Lab jest trójwymiarowa (\(L, a, b\)). Aby stworzyć czytelną mapę podobieństwa barw, trzeba zredukować ją do 2 wymiarów. Jako wiodącą metodę wybrano PCA (Principal Component Analysis).
- Uzasadnienie: PCA koncentruje się na maksymalizacji wariancji. Pozwala to na ekstrakcję cech (np. jasności, temperatury barwowej), które w największym stopniu różnicują analizowany zbiór, tworząc naturalny układ odniesienia dla decyzji biznesowych.
Wizualizacja (Mapa podobieństwa barw): W tym etapie zaprezentowano wyniki redukcji wymiarów, dokonano oceny jakości wizualizacji oraz przeprowadzona została strategiczna analiza barw w asortymencie sklepu.
Weryfikacja Przestrzenna (3D): Każda redukcja wymiarów wiąże się z utratą części informacji. Wiarygodność mapy 2D została w tym kroku zwalidowana poprzez interaktywną wizualizację w pełnej przestrzeni 3D, weryfikując, czy barwy znajdujące się blisko siebie na mapie 2D rzeczywiście są do siebie podobne.

Zbiór Danych i Przygotowanie Środowiska

Analiza opiera się na zbiorze danych transakcyjnych ze sklepu internetowego Pakker Trousers zajmującego się sprzedażą spodni. Dane zostały zagregowane w środowisku Python, gdzie obliczono średnią sprzedaż miesięczną w okresie dostępności dla każdego wariantu kolorystycznego. Następnie do nazw handlowych kolorów ręcznie zostały przypisane odpowiednie kody kolorów w formacie HEX.

Kluczowe zmienne wykorzystane w analizie:

color_name: Nazwa handlowa koloru (np. “Deep Green”, “Beige”).
hex_code: Kod reprezentujący kolor w świecie cyfrowym.
L, a, b: Współrzędne w przestrzeni barwnej CIELab (wyliczone z kodów HEX):
- L: Jasność.
- a: Oś Zieleń - Czerwień.
- b: Oś Niebieski - Żółty.
avg_sales: Średnia miesięczna liczba sprzedanych sztuk produktu w okresie jego dostępności - wskaźnik popularności wariantu kolorystycznego.
- Uzasadnienie: Zastosowanie średniej zamiast sumy całkowitej umożliwia obiektywne porównanie nowości (krótki staż) z produktami historycznymi, eliminując wpływ czasu dostępności produktu na wynik.

Projekt został zrealizowany w środowisku R z wykorzystaniem następujących pakietów:

library(tidyverse)   # Manipulacja danymi i wykresy (ggplot2)
library(readxl)      # Wczytywanie danych
library(ggrepel)     # Czytelne etykiety na wykresach
library(FactoMineR)  # Obliczenia PCA
library(factoextra)  # Wizualizacja PCA
library(plotly)      # Wykresy interaktywne i 3D

# Wczytanie przygotowanych danych
df <- read_excel("colors_sales_data.xlsx")

# Szybki podgląd danych
glimpse(df)

## Rows: 18
## Columns: 5
## $ color_name    <chr> "Emerald", "Blue Jeans", "Brown", "Deep Green", "Black",…
## $ total_sold    <dbl> 459, 6711, 494, 826, 6100, 5313, 1036, 3155, 4240, 3852,…
## $ months_active <dbl> 3, 52, 9, 8, 60, 60, 12, 43, 59, 60, 57, 51, 60, 59, 34,…
## $ avg_sales     <dbl> 153.00000, 129.05769, 54.88889, 103.25000, 101.66667, 88…
## $ hex_code      <chr> "#062b2a", "#3b6594", "#4c3a33", "#0f421c", "#000000", "…

2. Konwersja Kolorów: Hex -> CIE Lab

Dane wejściowe to kody HEX, będące cyfrowym zapisem modelu RGB. Model ten powstał z myślą o reprezentacji kolorów na ekranach - różnice między kodami nie zawsze pokrywają się z różnicami widocznymi dla ludzkiego oka.

Z tego względu kluczowym krokiem jest transformacja danych do przestrzeni CIE Lab. Została ona zaprojektowana tak, aby odległości odpowiadały temu, jak ludzkie oko postrzega różnice barw. Dzięki temu bliskość punktów będzie faktycznie oznaczać podobieństwo wizualne barw.

L : Jasność (0 = czerń, 100 = biel).
a : Oś od Zieleni (-) do Czerwieni (+).
b : Oś od Niebieskiego (-) do Żółtego (+).

# Konwersja HEX -> Macierz RGB
# col2rgb zamienia hex na liczby 0-255. Dzielimy przez 255, aby dostać zakres 0-1 (wymagany przez funkcję konwersji).
rgb_matrix <- t(col2rgb(df$hex_code)) / 255

# Konwersja RGB -> CIE Lab
lab_matrix <- convertColor(rgb_matrix, from = "sRGB", to = "Lab", scale.in = 1)

# Łączenie z danymi - dodanie nowych kolumnnL, a, b do głównej ramki danych
df <- cbind(df, lab_matrix) %>%
  as.data.frame()

# Sprawdzenie wyniku - czy kolumny zostały dodane?
df %>%
  select(color_name, hex_code, avg_sales, L, a, b) %>%
  head()

##   color_name hex_code avg_sales        L           a          b
## 1    Emerald  #062b2a 153.00000 15.10734 -13.0027714  -3.144360
## 2 Blue Jeans  #3b6594 129.05769 41.76802   0.1088842 -30.208916
## 3      Brown  #4c3a33  54.88889 26.18307   6.7857453   7.421683
## 4 Deep Green  #0f421c 103.25000 23.90631 -26.4760201  18.215093
## 5      Black  #000000 101.66667  0.00000   0.0000000   0.000000
## 6     Aperol  #ce7346  88.55000 57.97254  32.0283456  40.184974

3. Redukcja Wymiarów (PCA)

Celem tego etapu jest stworzenie dwuwymiarowej mapy kolorystycznej asortymentu. Wykorzystano algorytm PCA, aby znaleźć optymalny rzut przestrzeni 3D (\(L, a, b\)) na płaszczyznę, minimalizując utratę informacji o różnicach w wariantach barw.

Budowa Modelu

Model PCA został zbudowany na standaryzowanych zmiennych \(L, a, b\). Kluczowym pytaniem jest: Ile informacji tracimy, spłaszczając przedstawienie kolorów do 2 wymiarów?

# Wybór kolumn do redukcji wymiarów
pca_input <- df %>% select(L, a, b)

# Obliczenie modelu PCA - wartości skalowane wewnątrz funkcji
pca_model <- prcomp(pca_input, center = TRUE, scale. = TRUE)

# Scree Plot
fviz_eig(pca_model, choice = 'variance', addlabels = TRUE, ylim = c(0, 100)) +
  labs(title = "Scree Plot: Ile informacji zachowaliśmy?", y = "Procent wyjaśnionej wariancji", x = "Wymiary")

Interpretacja: Wyjaśniona Wariancja

Analiza Scree Plot wskazuje, że redukcja przestrzeni barwnej z 3 do 2 wymiarów pozwala zachować 82,3% pierwotnej informacji (53,5% dla Wymiaru 1 oraz 28,8% dla Wymiaru 2).

Dla porównania: w przestrzeni trójwymiarowej prosty wybór dwóch z trzech zmiennych dałby teoretyczne pokrycie na poziomie 66.7%. Wynik PCA (82,3%) jest wyższy, co dowodzi skuteczności algorytmu – PCA nie odrzuca danych, lecz kompresuje informacje, tworząc mapę wierniej oddającą różnice między kolorami niż jakakolwiek prosta kombinacja cech.

Zastrzeżenie Metodologiczne: Należy jednak podkreślić, że model wciąż traci 17,6% informacji o zmienności kolorów. Istnieje ryzyko, że pewne niuanse zostały “spłaszczone” i są niewidoczne na mapie 2D. Dlatego w dalszej części analizy konieczna będzie weryfikacja przestrzenna, aby potwierdzić, czy dwuwymiarowa wizualizacja jest wystarczająca do poprawnej interpretacji biznesowej, czy też wymaga wsparcia widokiem 3D.

# Wykres zmiennych (Circle of Correlation)
fviz_pca_var(pca_model, col.var = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE) +
  labs(title = "Mapa Zmiennych (Co oznaczają osie?)",
       subtitle = "Strzałki pokazują, jak cechy L, a, b wpływają na mapę")

# Wkład zmiennych w wymiary (Contribution)
p1 <- fviz_contrib(pca_model, choice = "var", axes = 1, title = "Wkład w PC1") + labs(y = "Wkład (%)")
p2 <- fviz_contrib(pca_model, choice = "var", axes = 2, title = "Wkład w PC2") + labs(y = "Wkład (%)")

gridExtra::grid.arrange(p1, p2, ncol = 2)

Interpretacja: Wkład zmiennych w wymiary PCA

W analizowanym modelu osie stanowią kompozycję wielu cech fizycznych. PCA definiuje tutaj “synergię zmiennych” – czyli łączy te parametry kolorów, które w asortymencie naturalnie występują razem, tworząc nowe wskaźniki strategiczne.

Analiza Koła Korelacji oraz Wkładu Zmiennych pozwala zdefiniować znaczenie wymiarów w następujący sposób:

Wymiar 1: Oś “Siły Wizualnej” (Jasność + Ciepło)

Odpowiada za 53.5% informacji.

To główna oś porządkująca kolekcję. Łączy ona informacje z wszystkich 3 wymiarów, głownie skupiając się na zmiennej \(b\). Na wykresie Koła Korelacji widzimy, że wektory \(L\) (Jasność) oraz \(b\) (Niebieski-Żółty) są ze sobą pozytywnie skorelowane i skierowane w prawą stronę. Także wektor odpowiadający zmiennej \(a\) (Zielony- Czerowny) skierowany jest w prawo.

Co to oznacza? Model odkrył, że w ofercie produkty jaśniejsze są zazwyczaj jednocześnie cieplejsze.
Jak czytać mapę (Lewo vs Prawo):
- Lewa strona (Ujemne PC1): Produkty Ciemne i Chłodne. Tu znajduje się “ciężka” baza: czernie, granaty, butelkowe zielenie.
- Prawa strona (Dodatnie PC1): Produkty Jasne i Ciepłe. Tu lądują beże, złota, pomarańcz i ciepłe neutralki.

Wymiar 2: Oś “Tonacji” (Czerwień vs Zieleń)

Odpowiada za 28.8% informacji.

W tym wymiarze dominuje zmienna \(a\) (Zielony-Czerwony), której wektor celuje wyraźnie w dół. Ta oś służy do rozróżniania produktów, które mają podobną jasność, ale inny charakter barwny.

Jak czytać mapę (Góra vs Dół):
- Góra (Dodatnie PC2): Obszar zdominowany przez odcienie Ziemiste i Neutralne. Wektor \(a\) ma tu wartości niskie, co w przestrzeni Lab oznacza przesunięcie w stronę zieleni.
- Dół (Ujemne PC2): Obszar Czerwieni i Brązów. Wektor \(a\) ciągnie tę strefę w dół, wskazując na wyższe nasycenie składową czerwoną.

Wnioski o Jakości Modelu

Długość strzałek na Kole Korelacji sięga niemal krawędzi okręgu, co jest doskonałym sygnałem technicznym, świadczącym, że zmienne te są dobrze odwzorowane na płaszczyźnie:

Wektor \(b\) leży niemal idealnie na osi poziomej – parametr “Niebieski-Żółty” jest objaśniany wyłącznie przez pierwszy wymiar.
Wektory \(L\) i \(a\) są do siebie prostopadłe, co potwierdza, że model skutecznie oddziela jasne i ciemne odcienie zieleni i czerwieni.

# Wyniki dla poszczególnych kolorów
ind_res <- get_pca_ind(pca_model)

# Dodanie statystyk do głównej ramki danych
df <- df %>%
  mutate(
    PC1 = ind_res$coord[, 1],
    PC2 = ind_res$coord[, 2],
    Cos2 = ind_res$cos2[, 1] + ind_res$cos2[, 2],
    Contribution = ind_res$contrib[, 1] + ind_res$contrib[, 2]
  )

# Histogram jakości odwzorowania
ggplot(df, aes(x = reorder(color_name, Cos2), y = Cos2)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  coord_flip() +
  geom_hline(yintercept = 0.6, linetype = "dashed", color = "red") +
  labs(title = "Jakość odwzorowania kolorów (Cos2)",
       subtitle = "Słupki poniżej czerwonej linii mogą być lekko przekłamane na mapie 2D",
       x = "Kolor", y = "Jakość (Cos2)") +
  theme_minimal()

Interpretacja: Histogram odwzorowania

Po ustaleniu, ile ogólnej informacji zachowuje model, należy sprawdzić, jak ta jakość rozkłada się na poszczególne produkty. Służy do tego parametr Cos2 (Squared Cosine), który określa, jak dobrze odwzorowany został dany punkt na płaszczyźnie.

Interpretacja jakości punktów:

Wysoka jakość (Cos2 bliskie 1,0): Punkty o wysokim wskaźniku Cos2 są odwzorowane niemal idealnie. Ich położenie w nowych wymiarach jest wiarygodne. Większość kolorów jest w tej dobrze odwzorowanej grupie.
Niska jakość (Cos2 < 0,5): Punkty z niskim wskaźnikiem są słabo odwzorowane na płaszczyźnie. Oznacza to, że “prawdziwa” natura koloru leży w trzecim wymiarze, który został odrzucony Na mapie 2D może on wydawać się bliski innym, ale w rzeczywistości może być od nich oddalony.
Ostrzeżenie - słabo odwzorowane kolory: Większość słabo odwzrowanych kolorów to kolory chłodne, odcienie zieleni i błękitu. Najgorzej wypadają Khaki i Blue Jeans - jest to na pewno cenna wskazówka na czym się skupić w późniejszej weryfikacji modelu.

4. Mapa Podobieństwa Barw

Poniższa wizualizacja stanowi finalny wynik procesu redukcji wymiarów. Jest to rzut asortymentu na płaszczyznę, który wyjaśnia ponad 82% różnic między barwami produktów, co czyni mapę precyzyjnym narzędziem analitycznym.

Instrukcja nawigacji po mapie:

Oś Pozioma (Siła Wizualna): Porządkuje produkty od “Ciemnych i Chłodnych” (lewa strona, np. Black, Deep Blue) do “Jasnych i Ciepłych” (prawa strona, np. Gold, Aperol). Przesuwanie się w prawo oznacza wzrost jasności i temperatury barwowej.
Oś Pionowa (Tonacja): Dzieli asortyment według charakteru barwy. U góry leżą odcienie Ziemiste/Neutralne (zielenie, oliwki, szarości), natomiast dolna część to Czerwienie i głębokie Brązy.

Klucz do interpretacji:

Bliskość (Ryzyko Kanibalizacji): Punkty leżące obok siebie to produkty o zbliżonej charakterystyce wizualnej (substytuty). Duże zagęszczenie bąbli w jednym obszarze sygnalizuje ryzyko, że klienci mogą nie odróżniać tych wariantów.
Wielkość punktu: Reprezentuje średnią sprzedaż. Pozwala natychmiast ocenić, czy bestsellery są bezpiecznie rozproszone, czy też tłoczą się w jednym segmencie.
Kolor wypełnienia: Odpowiada rzeczywistemu kodowi produktu, co ułatwia intuicyjną identyfikację.

Mapa jest interaktywna – najechanie kursorem na punkt wyświetli jego nazwę, średnią sprzedaż oraz precyzję odwzorowania (Cos2).

Weryfikacja wizualna i wykryte odstępstwa

Rozmieszczenie punktów na mapie w większości potwierdza założenia wynikające z konstrukcji wymiarów PCA, jednak ujawnia istotne zniekształcenia dla kilku wariantów kolorystycznych.

Potwierdzenie struktury (Co się zgadza?):

Podział Lewo-Prawo: Kolory podzieliły się zgodnie z przewidywaniami. Lewa połowa mapy została całkowicie zdominowana przez odcienie ciemne i niebieskie, podczas gdy prawa strona to domena kolorów jasnych, odcieni żółtego.
Podział Góra-Dół: Oś pionowa skutecznie odseparowała tonację. Wszystkie odcienie zieleni znalazły się w górnej części mapy, natomiast czerwienie zgrupowały się w dolnej sekcji.

Wykryte odstępstwa (Co się nie zgadza?):

Problem błękitów (Blue Jeans): To największe zaburzenie na mapie. Jest to jasny odcień niebieskiego, a mimo to został “przyciągnięty” do klastra ciemnych kolorów po lewej stronie razem z innymi odcieniami niebieskiego.
- Diagnoza: Słaba jakość odwzorowania dla tego punktu (Cos2 = 0.46) sugeruje, że jasność tego koloru została zagubiona w procesie rzutowania na 2D.
Paradoks Khaki: Choć Khaki leży w logicznym miejscu, jego niska jakość odwzorowania (Cos2 = 0.37) sugeruje, że mapa 2D “spłaszcza” ten kolor - podobnie kolory Deep Green i Green Corduroy.
- Diagnoza: Kolory te położone są w logicznym miejscu, w strefie zieleni, pomiędzy kolorami ciemnymi a jaśniejszymi naturalnymi. Może to oznaczać, że w tym przypadku nie położenie punktów jest zniekształcone, ale odległości między nimi.

Interpretacja Strategiczna: Wnioski Biznesowe

Nakładając dane sprzedażowe (wielkość punktów) na mapę, zindentyfikowane zostały kluczowe strefy zarządzania kolorystyką asortymentu.

“Ciemny Fundament” (Lewa Strona Mapy)

Obserwacja: W strefie ujemnego PC1 zaobserwowano największe zagęszczenie produktów o wysokiej sprzedaży.Ta grupa kolorów jest fundamentem sprzedaży.
Ryzyko: Punkty takie jak Black, Black Sea czy Deep Blue tworzą zwartą masę. Z perspektywy klienta różnice mogą być zatarte.
- Uwaga: Przez niski Cos2, Blue Jeans wydaję się być częścią tego tłoku, choć w rzeczywistości może się od niego odróżniać.

“Złoty Środek” (Centrum i Góra)

Obserwacja: Grupa kolorów naturalnych (Olive, Green Corduroy, Beech) jest najlepiej zorganizowaną częścią asortymentu.
Ocena: Produkty są wyraźnie odseparowane – nie wchodzą sobie w drogę. Liderami w tej sekcji są kolory Green Corduroy i Beech, które stanowią pomost między ciemną bazą a jaśniejszmi akcentami.

“Eye-Catchers” (Akcenty) – Prawa Strona

Obserwacja: Dwa osamotnione punkty o wysokim nasyceniu i jasności: Gold oraz Aperol.
Ocena: Ich izolacja na mapie to ogromna zaleta biznesowa. Produkty te pełnią funkcję “magnesów” - przyciągają wzrok, budując ekspozycję marki. Ze względu na dystans od innych punktów, nie rywalizują z innymi kolorami.

“Samotna Wyspa” – Red Wine

Charakterystyka: Produkt na samym dole mapy, całkowicie odizolowany od reszty.
Ocena: Unikalny kolor w niszy kolorów bordowych. Brak sąsiadów oznacza całkowitą wyłączność na klienta szukającego tej barwy.

Analiza Luk (Gap Analysis)

Zestawienie mapy z parametrami fizycznymi barw ujawnia uderzającą asymetrię w portfolio. Prawa połowa mapy jest niemal pusta, obsługiwana jedynie przez dwa kolory. Definiuje to jasne kierunki rozwoju kolekcji:

Brak jaskrawych barw: Fakt, że prawię połowę przestrzeni barwnej (jasnej i ciepłej) obsługują tylko dwie barwy (Gold/Aperol), to największa luka asortymentowa.
Brak barw niebiesko-czerwonych: Występują silne połączenia czerwieni z żółtym (Aperol), ale brakuje połączeń czerwieni z niebieskim. Luka w obszarze fioletów to szansa na odważniejsze barwy.
Luka neutralna w centrum - brak szarości: W samym geometrycznym centrum układu, gdzie kolory są najbardziej zbalansowane jest pustka. Brakuje klasycznego, średniego szarego, który stanowiłby naturalny, bezpieczny pomost między ciemną bazą a jasnymi akcentami.
Deficyt jasnych odcieni: W sprzedaży jest kilka wariantów ciemnych odcieni niebieskich i zielonych, brakuje jednak jasnych wersji tych kolorów. Wprowadzenie ich nie zagrozi “Ciemnemu Fundamentowi”, a pozwoli zagospodarować nową grupę klientów.

5. Weryfikacja w Przestrzeni Trójwymiarowej (3D)

Ostatnim etapem analizy jest interaktywna weryfikacja modelu w pełnej przestrzeni trójwymiarowej. Dodanie trzeciego wymiaru pozwala odzyskać 17.7% informacji, które zostały utracone na płaskiej mapie.

Analiza modelu 3D pozwoliła wyjaśnić przyczyny niskiej jakości odwzorowania (niskie Cos2) niektórych kolorów. Okazuje się, że “błędy” na mapie 2D wynikają bezpośrednio ze specyficznej struktury asortymentu - a konkretnie z braku równowagi między kolorami.

Blue Jeans: Ofiara samotności

Weryfikacja potwierdziła, że niska jakość odwzorowania dla koloru Blue Jeans wynika z jego unikalności w rodzinie kolorystycznej.

Obserwacja: Jest to jedyny jasny odcień niebieskiego w całej ofercie.
Mechanizm błędu: Ponieważ model PCA dąży do grupowania podobnych cech, a w bazie dominują “ciężkie” ciemne granaty, algorytm “wrzucił” jasny Blue Jeans do jednego worka z resztą rodziny niebieskiej, bo jest do nich najbardziej zbliżony.
Wniosek: Na mapie 2D Blue Jeans wygląda na produkt zbliżony do granatu, co jest przekłamaniem. W rzeczywistości jest to produkt odrębny i bezpieczny, a jego bliskość do “Ciemnej Bazy” jest jedynie artefaktem statystycznym.

Khaki i Zielenie: Kompresja Przestrzeni

Analiza 3D rzuciła nowe światło na zagadkę niskiej jakości odwzorowania (niskie Cos2) dla produktów z grupy zielonej (Khaki, Green Corduroy, Deep Green).

Obserwacja: Weryfikacja w 3D potwierdza, że zielenie znajdują się w logicznym miejscu – zajmują one strefę przejściową pomiędzy “Ciemną Bazą” (granaty) a “Jasnym Środkiem” (neutralki).
Mechanizm błędu (Kompresja dystansu): Niska jakość odwzorowania na mapie 2D wynika z efektu ściśnięcia perspektywy. Przestrzeń, która w rzeczywistości (w 3D) oddziela grupę ciemno-niebieską od jasnych neutrali, została podczas rzutowania na płaszczyznę drastycznie pomniejszona. W rezultacie zielenie, które leżą w tym “buforze”, na płaszczyźnie są bardziej zbliżone do obu tych grup niż w rzeczywistości.
Wniosek: W tym przypadku słaba jakość odwzorowania nie stanowi problemu, odległości są zniekształcone, ale zachowana została odrębność oraz poprawne położenie tej grupy.

6. Podsumowanie

Celem niniejszego projektu była weryfikacja, czy techniki uczenia maszynowego (redukcja wymiarów PCA) mogą zostać skutecznie wykorzystane do analizy struktury kolorystycznej asortymentu. Projekt miał odpowiedzieć na pytanie, czy płaska mapa 2D jest wystarczającym narzędziem do oceny wizualnego podobieństwa kolorów. Model PCA zachował 82.3% pierwotnej informacji - oznacza to, że spłaszczenie danych do 2D nie spowodowało krytycznej utraty sensu. Główne relacje między kolorami zostały zachowane, a uproszczona wizualizacja okazała się wartościowym narzędziem analitycznym, pozwalającym na szybką ocenę struktury kolorystycznej kolekcji i wyciągnięcie cennych biznesowo wniosków.