1 .GIỚI THIỆU

Báo cáo này thực hiện phân tích khám phá (Exploratory Data Analysis - EDA) trên một bộ dữ liệu mẫu về giá cổ phiếu của một số công ty vào ngày 03 tháng 7 năm 2025. Bộ dữ liệu ban đầu bao gồm 310122 quan sát (mẫu khảo sát) và có 13 biến.

2 .DỮ LIỆU

2.1 .Đọc dữ liệu

library(readr) 
a <- read.csv("C:/Users/DELL/Downloads/NN_LT_THAY_TUONG/World-Stock-Prices-Dataset.csv")

2.2 .Kiểm tra số dòng và cột cùng với kiểu dữ liệu của các biến

str(a)     #Lệnh này cung cấp đầy đủ cấu trúc dữ  liệu
## 'data.frame':    310122 obs. of  13 variables:
##  $ Date         : chr  "2025-07-03 00:00:00-04:00" "2025-07-03 00:00:00-04:00" "2025-07-03 00:00:00-04:00" "2025-07-03 00:00:00-04:00" ...
##  $ Open         : num  6.63 106.75 122.63 221.71 212.15 ...
##  $ High         : num  6.74 108.37 123.05 224.01 214.65 ...
##  $ Low          : num  6.61 106.33 121.55 221.36 211.81 ...
##  $ Close        : num  6.64 107.34 121.93 223.41 213.55 ...
##  $ Volume       : num  4209664 560190 36600 29295154 34697317 ...
##  $ Brand_Name   : chr  "peloton" "crocs" "adidas" "amazon" ...
##  $ Ticker       : chr  "PTON" "CROX" "ADDYY" "AMZN" ...
##  $ Industry_Tag : chr  "fitness" "footwear" "apparel" "e-commerce" ...
##  $ Country      : chr  "usa" "usa" "germany" "usa" ...
##  $ Dividends    : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ Stock.Splits : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ Capital.Gains: num  NA NA NA NA NA NA NA NA NA NA ...
cat("Ý nghĩa các biến**:
    *   `Date`: Ngày giao dịch.
    *   `Open`: Giá mở cửa của cổ phiếu trong ngày.
    *   `High`: Giá cao nhất của cổ phiếu trong ngày.
    *   `Low`: Giá thấp nhất của cổ phiếu trong ngày.
    *   `Close`: Giá đóng cửa của cổ phiếu trong ngày.
    *   `Volume`: Khối lượng cổ phiếu được giao dịch.
    *   `Brand_Name`: Tên thương hiệu của công ty.
    *   `Ticker`: Mã cổ phiếu trên sàn giao dịch.
    *   `Industry_Tag`: Lĩnh vực kinh doanh của công ty.
    *   `Country`: Quốc gia của công ty.
    *   `Dividends`: Cổ tức được chia (trên mỗi cổ phiếu).
    *   `Stock.Splits`: Tỷ lệ tách cổ phiếu (0 nghĩa là không có).
  
")  #Lệnh dùng để nối và in 
## Ý nghĩa các biến**:
##     *   `Date`: Ngày giao dịch.
##     *   `Open`: Giá mở cửa của cổ phiếu trong ngày.
##     *   `High`: Giá cao nhất của cổ phiếu trong ngày.
##     *   `Low`: Giá thấp nhất của cổ phiếu trong ngày.
##     *   `Close`: Giá đóng cửa của cổ phiếu trong ngày.
##     *   `Volume`: Khối lượng cổ phiếu được giao dịch.
##     *   `Brand_Name`: Tên thương hiệu của công ty.
##     *   `Ticker`: Mã cổ phiếu trên sàn giao dịch.
##     *   `Industry_Tag`: Lĩnh vực kinh doanh của công ty.
##     *   `Country`: Quốc gia của công ty.
##     *   `Dividends`: Cổ tức được chia (trên mỗi cổ phiếu).
##     *   `Stock.Splits`: Tỷ lệ tách cổ phiếu (0 nghĩa là không có).
## 

2.3 .Kiểm tra dữ liệu bị thiếu

missing_values <- sapply(a, function(x) sum(is.na(x)))
show(missing_values)
##          Date          Open          High           Low         Close 
##             0             0             0             0             0 
##        Volume    Brand_Name        Ticker  Industry_Tag       Country 
##             0             0             0             0             0 
##     Dividends  Stock.Splits Capital.Gains 
##             0             0        310120
cat("Các cột như `Date`, `Open`, `Close`, `Volume`, 'Brand_Name' đều có giá trị là **0**. Điều này có nghĩa là các cột này **hoàn toàn đầy đủ**, không có bất kỳ giá trị nào bị thiếu. Đây là một tin tốt.
    *   Riêng cột `Capital.Gains` có giá trị là **310120**. Điều này cho thấy cột này có **310,120 giá trị bị thiếu**.")
## Các cột như `Date`, `Open`, `Close`, `Volume`, 'Brand_Name' đều có giá trị là **0**. Điều này có nghĩa là các cột này **hoàn toàn đầy đủ**, không có bất kỳ giá trị nào bị thiếu. Đây là một tin tốt.
##     *   Riêng cột `Capital.Gains` có giá trị là **310120**. Điều này cho thấy cột này có **310,120 giá trị bị thiếu**.

2.4 .Kiểm tra số lượng trùng lặp

so_quan_sat_trung_Ticker <- sum(duplicated(a$Ticker))  #Lệnh dùng để đếm chính xác quan sát trùng và gán kết quả
cat("Số quan sát bị trùng lặp_Ticker:", so_quan_sat_trung_Ticker, "\n")
## Số quan sát bị trùng lặp_Ticker: 310060
so_quan_sat_trung_Industry_tag <- sum(duplicated(a$Industry_Tag))  #Lệnh dùng để đếm chính xác quan sát trùng và gán kết quả
cat("Số quan sát bị trùng lặp biến Industruy_Tag:", so_quan_sat_trung_Industry_tag, "\n")
## Số quan sát bị trùng lặp biến Industruy_Tag: 310099
so_quan_sat_trung_Country <- sum(duplicated(a$Country))  #Lệnh dùng để đếm chính xác quan sát trùng và gán kết quả
cat("Số quan sát bị trùng lặp biến Country:", so_quan_sat_trung_Country, "\n")
## Số quan sát bị trùng lặp biến Country: 310115

2.5 .Lập bảng thống kê mô tả theo năm của biến Volume

library(tidyverse)  # Gói công cụ mạnh mẽ cho việc xử lý dữ liệu (bao gồm dplyr, ggplot2, lubridate.
library(rugarch,"\n\n")    # Gói cho mô hình tài chính (không được sử dụng trong đoạn code này)

thong_ke_mo_ta <- a  %>%  # 1. Bắt đầu với dataframe 'a' và gán kết quả cuối cùng cho biến 
  mutate(             # 2. Thêm một cột mới
    Year = year(Date)   #    - Tạo cột tên là 'Year' bằng cách trích xuất năm từ cột 'Date'
  ) %>%         #    (Điều này yêu cầu cột 'Date' phải có định dạng ngày tháng)
  group_by(Year) %>%   # 3. Nhóm tất cả các dòng có cùng giá trị 'Year' lại với nhau
  summarise(       # 4. Tính toán các giá trị tóm tắt cho mỗi nhóm (mỗi năm)
    so_giao_dich = n(),  #    - Đếm số lượng quan sát (dòng) trong mỗi năm
    gia_tri_trung_binh = mean(Volume, na.rm = TRUE),  
    gia_tri_trung_vi = median(Close, na.rm = TRUE),  
    do_lech_chuan = sd(Volume, na.rm = TRUE),         
    gia_tri_nho_nhat = min(Volume, na.rm = TRUE),    
    gia_tri_lon_nhat = max(Volume, na.rm = TRUE),   
    tong_gia_tri = sum(Volume, na.rm = TRUE)        
  ) %>%
  arrange(Year)   # 5. Sắp xếp bảng kết quả theo thứ tự tăng dần của năm
head(thong_ke_mo_ta)  #  # Hiển thị 6 dòng đầu tiên của bảng kết quả
## # A tibble: 6 × 8
##    Year so_giao_dich gia_tri_trung_binh gia_tri_trung_vi do_lech_chuan
##   <dbl>        <int>              <dbl>            <dbl>         <dbl>
## 1  2000         8568          28494724.             16.9    126215433.
## 2  2001         8432          28244856.             16.3     83959083.
## 3  2002         8722          26286129.             13.9     69990779.
## 4  2003         8820          24042548.             13.8     67879972.
## 5  2004         9048          31682475.             16.0    111626643.
## 6  2005         9324          44233250.             17.4    160463882.
## # ℹ 3 more variables: gia_tri_nho_nhat <dbl>, gia_tri_lon_nhat <dbl>,
## #   tong_gia_tri <dbl>
#print(thong_ke_mo_ta)
cat("  **Year**: `2000` -> Dữ liệu của năm 2000.
*   **so_giao_dich**: `8568` -> Trong năm 2000, có 8,568 bản ghi (quan sát/giao dịch) trong bộ dữ liệu của bạn.
*   **gia_tri_trung_binh**: `18.54788` -> Giá đóng cửa trung bình trong cả năm 2000 là khoảng 18.55.
*   **gia_tri_trung_vi**: `16.85673` -> 50% số ngày giao dịch trong năm 2000 có giá đóng cửa thấp hơn 16.86, và 50% còn lại có giá cao hơn.
*   **do_lech_chuan**: `14.05390` -> Độ lệch chuẩn là 14.05, cho thấy mức độ biến động của giá cổ phiếu trong năm đó.
*   **gia_tri_nho_nhat**: `0.2121991` -> Giá đóng cửa thấp nhất trong cả năm 2000 là 0.212.")
##   **Year**: `2000` -> Dữ liệu của năm 2000.
## *   **so_giao_dich**: `8568` -> Trong năm 2000, có 8,568 bản ghi (quan sát/giao dịch) trong bộ dữ liệu của bạn.
## *   **gia_tri_trung_binh**: `18.54788` -> Giá đóng cửa trung bình trong cả năm 2000 là khoảng 18.55.
## *   **gia_tri_trung_vi**: `16.85673` -> 50% số ngày giao dịch trong năm 2000 có giá đóng cửa thấp hơn 16.86, và 50% còn lại có giá cao hơn.
## *   **do_lech_chuan**: `14.05390` -> Độ lệch chuẩn là 14.05, cho thấy mức độ biến động của giá cổ phiếu trong năm đó.
## *   **gia_tri_nho_nhat**: `0.2121991` -> Giá đóng cửa thấp nhất trong cả năm 2000 là 0.212.

2.6 .Phân mức giá

df_filtered <- a %>%
  select(Ticker, Industry_Tag, Country, Close, Volume) #Lệnh chọn giữ lại biến đến phân tích

# Tạo cột phân loại ---
df_filtered <- a %>%
  mutate(      #Hàm để tạo ra 2 cột mới 
    Price_Tier = case_when( # phân loại  3 nhớm từ Close
      Close < 100 ~ "Giá thấp (<$100)",
      Close < 1000 ~ "Giá trung bình ($100–$1000)",
      TRUE ~ "Giá cao (>$1000)"
    ),
    Liquidity_Tier = case_when(    # phân loại 3 nhóm từ khối lượng giao dịch
      Volume < 100000000 ~ "Thanh khoản thấp (<100M)",
      Volume < 1000000000 ~ "Thanh khoản trung bình (100M–1B)",
      TRUE ~ "Thanh khoản cao (>1B)"
    )
  )

#  Sắp xếp lại thứ tự cột ---
df_filtered <- df_filtered %>%
  select(Ticker, Industry_Tag, Country,
         Close, Price_Tier,
         Volume, Liquidity_Tier)
head(df_filtered)
##   Ticker Industry_Tag Country  Close                  Price_Tier   Volume
## 1   PTON      fitness     usa   6.64            Giá thấp (<$100)  4209664
## 2   CROX     footwear     usa 107.34 Giá trung bình ($100–$1000)   560190
## 3  ADDYY      apparel germany 121.93 Giá trung bình ($100–$1000)    36600
## 4   AMZN   e-commerce     usa 223.41 Giá trung bình ($100–$1000) 29295154
## 5   AAPL   technology     usa 213.55 Giá trung bình ($100–$1000) 34697317
## 6    NKE      apparel     usa  76.39            Giá thấp (<$100) 11545304
##             Liquidity_Tier
## 1 Thanh khoản thấp (<100M)
## 2 Thanh khoản thấp (<100M)
## 3 Thanh khoản thấp (<100M)
## 4 Thanh khoản thấp (<100M)
## 5 Thanh khoản thấp (<100M)
## 6 Thanh khoản thấp (<100M)
#show(df_filtered)
cat("*   **PTON (Peloton):** Là một công ty `fitness` của Mỹ, có giá cổ phiếu rất thấp (`$6.640`). Điều này có thể cho thấy công ty đang gặp khó khăn hoặc bị thị trường định giá thấp.
    *   **AAPL (Apple) & GOOGL (Google):** Hai gã khổng lồ `technology` của Mỹ. Cả hai đều nằm trong phân khúc Giá trung bình với khối lượng giao dịch cực kỳ lớn (hàng chục triệu cổ phiếu mỗi ngày). Điều này phản ánh quy mô và sự quan tâm của nhà đầu tư toàn cầu đối với họ.
    *   **ADDYY (Adidas):** Là một công ty `apparel` (may mặc) của Đức. Việc có mã `ADDYY` cho thấy đây có thể là một chứng chỉ lưu ký của Mỹ (ADR), cho phép nhà đầu tư Mỹ giao dịch cổ phiếu nước ngoài. Khối lượng giao dịch của nó (36,600) thấp hơn nhiều so với các công ty lớn của Mỹ, điều này khá phổ biến với các ADR.
    *   **SPOT (Spotify):** Một công ty `music` (âm nhạc) của Mỹ với mức giá khá cao trong mẫu này (`$725.050`), nhưng khối lượng giao dịch chỉ khoảng 1 triệu, thấp hơn nhiều so với Apple hay Google.

*   **Phân tích theo Ngành:**
    *   **Công nghệ (technology):** Ngành này có sự hiện diện mạnh mẽ với các công ty lớn như `AAPL`, `GOOGL`, `ZM`. Điều này cho thấy tầm quan trọng của ngành công nghệ trong danh mục đầu tư.
    *   **Bán lẻ & Tiêu dùng:** Các công ty như `CROX` (giày dép), `NKE` (may mặc), `TGT` (bán lẻ) cho thấy sự đa dạng của thị trường. So sánh `NKE` ($76.39) và `ADDYY` ($121.93) có thể là bước đầu cho việc phân tích hai đối thủ cạnh tranh trực tiếp.")
## *   **PTON (Peloton):** Là một công ty `fitness` của Mỹ, có giá cổ phiếu rất thấp (`$6.640`). Điều này có thể cho thấy công ty đang gặp khó khăn hoặc bị thị trường định giá thấp.
##     *   **AAPL (Apple) & GOOGL (Google):** Hai gã khổng lồ `technology` của Mỹ. Cả hai đều nằm trong phân khúc Giá trung bình với khối lượng giao dịch cực kỳ lớn (hàng chục triệu cổ phiếu mỗi ngày). Điều này phản ánh quy mô và sự quan tâm của nhà đầu tư toàn cầu đối với họ.
##     *   **ADDYY (Adidas):** Là một công ty `apparel` (may mặc) của Đức. Việc có mã `ADDYY` cho thấy đây có thể là một chứng chỉ lưu ký của Mỹ (ADR), cho phép nhà đầu tư Mỹ giao dịch cổ phiếu nước ngoài. Khối lượng giao dịch của nó (36,600) thấp hơn nhiều so với các công ty lớn của Mỹ, điều này khá phổ biến với các ADR.
##     *   **SPOT (Spotify):** Một công ty `music` (âm nhạc) của Mỹ với mức giá khá cao trong mẫu này (`$725.050`), nhưng khối lượng giao dịch chỉ khoảng 1 triệu, thấp hơn nhiều so với Apple hay Google.
## 
## *   **Phân tích theo Ngành:**
##     *   **Công nghệ (technology):** Ngành này có sự hiện diện mạnh mẽ với các công ty lớn như `AAPL`, `GOOGL`, `ZM`. Điều này cho thấy tầm quan trọng của ngành công nghệ trong danh mục đầu tư.
##     *   **Bán lẻ & Tiêu dùng:** Các công ty như `CROX` (giày dép), `NKE` (may mặc), `TGT` (bán lẻ) cho thấy sự đa dạng của thị trường. So sánh `NKE` ($76.39) và `ADDYY` ($121.93) có thể là bước đầu cho việc phân tích hai đối thủ cạnh tranh trực tiếp.

2.7 .Lọc theo ngành, Quốc gia, theo tháng

library(dplyr)
library(lubridate)

dl1 <- a %>% #Bắt đầu với dataframe gốc 'a', và sử dụng toán tử pipe (%>%) để truyền kết quả qua các bước sau
  mutate(
    Date = as.Date(Date),    # Đảm bảo cột 'Date' có định dạng là Date (ngày tháng)
    Month = month(Date, label = TRUE, abbr = FALSE)  # Từ cột 'Date', tạo cột 'Month' mới chứa tên tháng đầy đủ (vd: "January")
  ) %>%
  group_by(Month, Industry_Tag, Country) %>%
  summarise(
    gia_tri = mean(Close, na.rm = TRUE),    
    khoi_luong = mean(Volume, na.rm = TRUE),  
    .groups = "drop"
  ) %>%
  arrange(Month, Industry_Tag) 

df1_filtered <- dl1 %>%
  mutate(
    Price_Tier = case_when(
      gia_tri < 100 ~ "Giá thấp",
      gia_tri >= 100 & gia_tri < 1000 ~ "Giá trung",
      gia_tri >= 1000 ~ "Giá cao",
      TRUE ~ NA_character_
    ),
    
    Liquidity_Tier = case_when(
      khoi_luong < 100000000 ~ "Thanh khoản thấp",
      khoi_luong >= 100000000 & khoi_luong < 1000000000 ~ "Thanh khoản trung",
      khoi_luong >= 1000000000 ~ "Thanh khoản cao",
      TRUE ~ NA_character_
    )
  ) %>%
  select(Month, Industry_Tag, Country,
         gia_tri, Price_Tier,
         khoi_luong, Liquidity_Tier)
head(df1_filtered)
## # A tibble: 6 × 7
##   Month   Industry_Tag Country gia_tri Price_Tier khoi_luong Liquidity_Tier  
##   <ord>   <chr>        <chr>     <dbl> <chr>           <dbl> <chr>           
## 1 January apparel      germany    63.0 Giá thấp       32950. Thanh khoản thấp
## 2 January apparel      usa        28.3 Giá thấp     7577394. Thanh khoản thấp
## 3 January automotive   germany    37.6 Giá thấp       93028. Thanh khoản thấp
## 4 January automotive   japan      63.7 Giá thấp      539808. Thanh khoản thấp
## 5 January automotive   usa       105.  Giá trung   99645814. Thanh khoản thấp
## 6 January aviation     usa        29.1 Giá thấp     9020861. Thanh khoản thấp
#show(df1_filtered)
cat("*   **Dòng 1 & 2: So sánh ngành May mặc (apparel) giữa Đức và Mỹ**
    *   **Đức (germany):** Giá trung bình khá cao (`63.01`), nhưng khối lượng giao dịch trung bình rất thấp (`32,950`). Điều này cho thấy các cổ phiếu ngành may mặc ở Đức có thể có giá trị nhưng không được giao dịch nhiều, ít được nhà đầu tư quan tâm.
    *   **Mỹ (usa):** Giá trung bình thấp hơn nhiều (`28.27`), nhưng khối lượng giao dịch lại **cực kỳ cao** (hơn 7.5 triệu). Điều này cho thấy thị trường may mặc ở Mỹ rất sôi động, được mua bán liên tục, có tính thanh khoản cao hơn nhiều so với ở Đức.

*   **Dòng 3, 4 & 5: So sánh ngành Ô tô (automotive) giữa các quốc gia**
    *   **Mỹ (usa):** Nổi bật nhất với giá trung bình cao nhất (`105.17`), được xếp vào `Giá trung`, và khối lượng giao dịch trung bình khổng lồ (gần 100 triệu). Điều này phản ánh sự thống trị và mức độ quan tâm của nhà đầu tư đối với các ông lớn ngành ô tô Mỹ (như Tesla, Ford, GM).
    *   **Nhật Bản (japan):** Có giá trung bình khá tốt (`63.73`) nhưng khối lượng giao dịch chỉ ở mức vừa phải (`539,808`).
    *   **Đức (germany):** Có cả giá (`37.64`) và khối lượng (`93,028`) trung bình thấp nhất trong nhóm này.

*   **Dòng 6: Ngành Hàng không (aviation) ở Mỹ**
    *   Ngành này có giá trung bình thấp (`29.13`) nhưng khối lượng giao dịch rất cao (hơn 9 triệu). Điều này có thể cho thấy các cổ phiếu hàng không có mệnh giá thấp nhưng được giao dịch rất tích cực, có thể do sự biến động cao hoặc sự quan tâm lớn từ các nhà đầu tư nhỏ lẻ.
")
## *   **Dòng 1 & 2: So sánh ngành May mặc (apparel) giữa Đức và Mỹ**
##     *   **Đức (germany):** Giá trung bình khá cao (`63.01`), nhưng khối lượng giao dịch trung bình rất thấp (`32,950`). Điều này cho thấy các cổ phiếu ngành may mặc ở Đức có thể có giá trị nhưng không được giao dịch nhiều, ít được nhà đầu tư quan tâm.
##     *   **Mỹ (usa):** Giá trung bình thấp hơn nhiều (`28.27`), nhưng khối lượng giao dịch lại **cực kỳ cao** (hơn 7.5 triệu). Điều này cho thấy thị trường may mặc ở Mỹ rất sôi động, được mua bán liên tục, có tính thanh khoản cao hơn nhiều so với ở Đức.
## 
## *   **Dòng 3, 4 & 5: So sánh ngành Ô tô (automotive) giữa các quốc gia**
##     *   **Mỹ (usa):** Nổi bật nhất với giá trung bình cao nhất (`105.17`), được xếp vào `Giá trung`, và khối lượng giao dịch trung bình khổng lồ (gần 100 triệu). Điều này phản ánh sự thống trị và mức độ quan tâm của nhà đầu tư đối với các ông lớn ngành ô tô Mỹ (như Tesla, Ford, GM).
##     *   **Nhật Bản (japan):** Có giá trung bình khá tốt (`63.73`) nhưng khối lượng giao dịch chỉ ở mức vừa phải (`539,808`).
##     *   **Đức (germany):** Có cả giá (`37.64`) và khối lượng (`93,028`) trung bình thấp nhất trong nhóm này.
## 
## *   **Dòng 6: Ngành Hàng không (aviation) ở Mỹ**
##     *   Ngành này có giá trung bình thấp (`29.13`) nhưng khối lượng giao dịch rất cao (hơn 9 triệu). Điều này có thể cho thấy các cổ phiếu hàng không có mệnh giá thấp nhưng được giao dịch rất tích cực, có thể do sự biến động cao hoặc sự quan tâm lớn từ các nhà đầu tư nhỏ lẻ.

2.8 .Số lượng giá trị biến

table(a$Industry_Tag)
## 
##            apparel         automotive           aviation     consumer goods 
##              21069              24867              11098              19407 
##     cryptocurrency         e-commerce      entertainment            finance 
##               1117               9072              12342              22210 
## financial services            fitness               food    food & beverage 
##               2380               1506              11415              19409 
##           footwear             gaming         healthcare        hospitality 
##              11407              11546               6470              10633 
##          logistics       luxury goods      manufacturing              music 
##               6469               4939               6470               1879 
##             retail       social media         technology 
##              25842               1618              66957
cat("1.  **Sự Thống Trị của Ngành Công Nghệ (Technology):**
    *   Với **66,957 công ty**, lĩnh vực công nghệ có quy mô **lớn áp đảo**, nhiều hơn gấp đôi so với bất kỳ ngành nào khác. Điều này khẳng định đây là lĩnh vực tập trung nhiều doanh nghiệp nhất một cách rõ rệt.

2.  **Nhóm các Ngành Lớn Tiếp Theo:**
    *   Xếp sau công nghệ là một nhóm các ngành kinh tế trọng điểm với số lượng công ty rất lớn (trên 20,000), bao gồm:
        *   **Bán lẻ (Retail):** 25,842 công ty
        *   **Ô tô (Automotive):** 24,867 công ty
        *   **Tài chính (Finance):** 22,210 công ty
        *   **May mặc (Apparel):** 21,069 công ty
    *   Đây là những trụ cột quan trọng, có quy mô lớn trong nền kinh tế.

3.  **Nhóm các Ngành có Quy Mô Trung Bình:**
    *   Nhiều ngành có số lượng công ty dao động trong khoảng 10,000 - 20,000, chủ yếu liên quan đến tiêu dùng và dịch vụ như **Thực phẩm & Đồ uống (Food & beverage)**, **Giải trí (Entertainment)**, **Hàng không (Aviation)**.

4.  **Các Ngành có Quy Mô Nhỏ (Thị trường ngách):**
    *   Ở phía cuối của danh sách là các ngành có số lượng công ty ít nhất (dưới 2,000), cho thấy đây có thể là các thị trường ngách hoặc mới nổi:
        *   **Tiền điện tử (Cryptocurrency):** 1,117 công ty
        *   **Thể hình (Fitness):** 1,506 công ty
        *   **Mạng xã hội (Social Media):** 1,618 công ty
        *   **Âm nhạc (Music):** 1,879 công ty")
## 1.  **Sự Thống Trị của Ngành Công Nghệ (Technology):**
##     *   Với **66,957 công ty**, lĩnh vực công nghệ có quy mô **lớn áp đảo**, nhiều hơn gấp đôi so với bất kỳ ngành nào khác. Điều này khẳng định đây là lĩnh vực tập trung nhiều doanh nghiệp nhất một cách rõ rệt.
## 
## 2.  **Nhóm các Ngành Lớn Tiếp Theo:**
##     *   Xếp sau công nghệ là một nhóm các ngành kinh tế trọng điểm với số lượng công ty rất lớn (trên 20,000), bao gồm:
##         *   **Bán lẻ (Retail):** 25,842 công ty
##         *   **Ô tô (Automotive):** 24,867 công ty
##         *   **Tài chính (Finance):** 22,210 công ty
##         *   **May mặc (Apparel):** 21,069 công ty
##     *   Đây là những trụ cột quan trọng, có quy mô lớn trong nền kinh tế.
## 
## 3.  **Nhóm các Ngành có Quy Mô Trung Bình:**
##     *   Nhiều ngành có số lượng công ty dao động trong khoảng 10,000 - 20,000, chủ yếu liên quan đến tiêu dùng và dịch vụ như **Thực phẩm & Đồ uống (Food & beverage)**, **Giải trí (Entertainment)**, **Hàng không (Aviation)**.
## 
## 4.  **Các Ngành có Quy Mô Nhỏ (Thị trường ngách):**
##     *   Ở phía cuối của danh sách là các ngành có số lượng công ty ít nhất (dưới 2,000), cho thấy đây có thể là các thị trường ngách hoặc mới nổi:
##         *   **Tiền điện tử (Cryptocurrency):** 1,117 công ty
##         *   **Thể hình (Fitness):** 1,506 công ty
##         *   **Mạng xã hội (Social Media):** 1,618 công ty
##         *   **Âm nhạc (Music):** 1,879 công ty

3 .TRỰC QUAN

3.1 .Đếm số lượng công ty trong mỗi lĩnh vực

library(knitr)
industry_counts <- a %>%
  count(Industry_Tag, sort = TRUE, name = "So_Luong")

kable(industry_counts, caption = "Số lượng công ty theo từng lĩnh vực")
Số lượng công ty theo từng lĩnh vực
Industry_Tag So_Luong
technology 66957
retail 25842
automotive 24867
finance 22210
apparel 21069
food & beverage 19409
consumer goods 19407
entertainment 12342
gaming 11546
food 11415
footwear 11407
aviation 11098
hospitality 10633
e-commerce 9072
healthcare 6470
manufacturing 6470
logistics 6469
luxury goods 4939
financial services 2380
music 1879
social media 1618
fitness 1506
cryptocurrency 1117
# Trực quan hóa bằng biểu đồ cột
ggplot(industry_counts, aes(x = reorder(Industry_Tag, So_Luong), y = So_Luong)) +
  geom_col(fill = "steelblue") +
  coord_flip() + # Lật trục để dễ đọc tên
  labs(
    title = "Phân bổ các công ty theo Lĩnh vực kinh doanh",
    x = "Lĩnh vực",
    y = "Số lượng công ty"
  ) +
  theme_minimal()

cat(" **1. Sự Thống Trị Tuyệt Đối Của Ngành Công Nghệ:**
Với gần 67.000 công ty, lĩnh vực **Công nghệ (technology)** không chỉ đứng đầu mà còn lớn hơn tổng số của ba lĩnh vực xếp sau cộng lại (Bán lẻ + Ô tô + Tài chính). Điều này cho thấy đây là một siêu ngành, có sức hút và quy mô vượt trội hoàn toàn.

**1.2 Phân Nhóm Các Lĩnh Vực Rõ Rệt:**

*   **Nhóm Dẫn đầu (Trên 20.000 công ty):** Gồm **Bán lẻ (retail)**, **Ô tô (automotive)**, **Tài chính (finance)**, và **May mặc (apparel)**. Đây là các ngành kinh tế trọng điểm, truyền thống nhưng vẫn có quy mô rất lớn.
*   **Nhóm Tầm trung (10.000 - 20.000 công ty):** Tập trung vào các ngành hàng tiêu dùng và dịch vụ như **Thực phẩm & Đồ uống (food & beverage)**, **Hàng tiêu dùng (consumer goods)**, **Giải trí (entertainment)**, **Gaming**, và **Lữ hành/Khách sạn (hospitality)**.
*   **Nhóm Dưới (Dưới 10.000 công ty):** Bao gồm các ngành sản xuất, dịch vụ chuyên biệt và thị trường ngách như **Chăm sóc sức khỏe (healthcare)**, **Sản xuất (manufacturing)**, và đặc biệt là các lĩnh vực mới nổi như **Tiền điện tử (cryptocurrency)** có số lượng ít nhất.

**1.3 Quan Sát Đáng Chú Ý:**
Có sự phân tách giữa các lĩnh vực tương tự, ví dụ:
*   Food & beverage (19.409) và food (11.415).
*   Finance (22.210) và financial services (2.380),
Điều này cho thấy finance và food & beverage là các danh mục rất rộng, trong khi financial services và food có thể là các phân khúc nhỏ và chuyên biệt hơn.

    2.Biểu đồ cho thấy sự phân bổ các công ty theo lĩnh vực kinh doanh, trong đó có sự chênh lệch rất lớn giữa các ngành.

    *   **Lĩnh vực chiếm ưu thế tuyệt đối:** **Công nghệ (Technology)** là lĩnh vực có số lượng công ty lớn vượt trội, bỏ xa tất cả các lĩnh vực còn lại (ước tính trên 65.000 công ty).
*   **Các lĩnh vực hàng đầu tiếp theo:** Sau Công nghệ, các lĩnh vực có số lượng công ty đáng kể là **Bán lẻ (Retail)**, **Ô tô (Automotive)**, và **Tài chính (Finance)**.
*   **Các lĩnh vực ở nhóm cuối:** Nhiều lĩnh vực khác có số lượng công ty rất nhỏ, đặc biệt là **Fitness (Thể hình)**, **Social Media (Mạng xã hội)** và **Cryptocurrency (Tiền điện tử)**.")
##  **1. Sự Thống Trị Tuyệt Đối Của Ngành Công Nghệ:**
## Với gần 67.000 công ty, lĩnh vực **Công nghệ (technology)** không chỉ đứng đầu mà còn lớn hơn tổng số của ba lĩnh vực xếp sau cộng lại (Bán lẻ + Ô tô + Tài chính). Điều này cho thấy đây là một siêu ngành, có sức hút và quy mô vượt trội hoàn toàn.
## 
## **1.2 Phân Nhóm Các Lĩnh Vực Rõ Rệt:**
## 
## *   **Nhóm Dẫn đầu (Trên 20.000 công ty):** Gồm **Bán lẻ (retail)**, **Ô tô (automotive)**, **Tài chính (finance)**, và **May mặc (apparel)**. Đây là các ngành kinh tế trọng điểm, truyền thống nhưng vẫn có quy mô rất lớn.
## *   **Nhóm Tầm trung (10.000 - 20.000 công ty):** Tập trung vào các ngành hàng tiêu dùng và dịch vụ như **Thực phẩm & Đồ uống (food & beverage)**, **Hàng tiêu dùng (consumer goods)**, **Giải trí (entertainment)**, **Gaming**, và **Lữ hành/Khách sạn (hospitality)**.
## *   **Nhóm Dưới (Dưới 10.000 công ty):** Bao gồm các ngành sản xuất, dịch vụ chuyên biệt và thị trường ngách như **Chăm sóc sức khỏe (healthcare)**, **Sản xuất (manufacturing)**, và đặc biệt là các lĩnh vực mới nổi như **Tiền điện tử (cryptocurrency)** có số lượng ít nhất.
## 
## **1.3 Quan Sát Đáng Chú Ý:**
## Có sự phân tách giữa các lĩnh vực tương tự, ví dụ:
## *   Food & beverage (19.409) và food (11.415).
## *   Finance (22.210) và financial services (2.380),
## Điều này cho thấy finance và food & beverage là các danh mục rất rộng, trong khi financial services và food có thể là các phân khúc nhỏ và chuyên biệt hơn.
## 
##     2.Biểu đồ cho thấy sự phân bổ các công ty theo lĩnh vực kinh doanh, trong đó có sự chênh lệch rất lớn giữa các ngành.
## 
##     *   **Lĩnh vực chiếm ưu thế tuyệt đối:** **Công nghệ (Technology)** là lĩnh vực có số lượng công ty lớn vượt trội, bỏ xa tất cả các lĩnh vực còn lại (ước tính trên 65.000 công ty).
## *   **Các lĩnh vực hàng đầu tiếp theo:** Sau Công nghệ, các lĩnh vực có số lượng công ty đáng kể là **Bán lẻ (Retail)**, **Ô tô (Automotive)**, và **Tài chính (Finance)**.
## *   **Các lĩnh vực ở nhóm cuối:** Nhiều lĩnh vực khác có số lượng công ty rất nhỏ, đặc biệt là **Fitness (Thể hình)**, **Social Media (Mạng xã hội)** và **Cryptocurrency (Tiền điện tử)**.

3.2 .Số lượng giao dịch lớn nhỏ của mỗi ngành

volume_sum  <- a %>%
  group_by(Industry_Tag) %>%
  summarise(
    Volume_Min = min(Volume, na.rm = TRUE),
    Volume_Max = max(Volume, na.rm = TRUE),
    Mean_Volume = mean(Volume, na.rm = TRUE),
    Median_Volume = median(Volume, na.rm = TRUE),
    SD_Volume = sd(Volume, na.rm = TRUE),
    CV_Volume = sd(Volume, na.rm = TRUE) / mean(Volume, na.rm = TRUE)
  ) %>%
  arrange(Industry_Tag)

print(volume_sum )
## # A tibble: 23 × 7
##    Industry_Tag       Volume_Min Volume_Max Mean_Volume Median_Volume SD_Volume
##    <chr>                   <dbl>      <dbl>       <dbl>         <dbl>     <dbl>
##  1 apparel                     0  129690800    4818717.      3619000   6284280.
##  2 automotive                  0  914082000   15260902.       296400  46023973.
##  3 aviation               610200  206372300    8802610.      7366950   7488398.
##  4 consumer goods          67320  137287200    4862383.      3868000   4775487.
##  5 cryptocurrency        1574700   81065700   11019766.      9113258   8370395.
##  6 e-commerce                  0 2086584000   87708539.     66960450  93996242.
##  7 entertainment          285600  323414000   12282503.      8579060. 13618156.
##  8 finance                641100  708486000   12481963.      7797200  16214275.
##  9 financial services     318500  140313900   10403552.      8778300   7637528.
## 10 fitness               1185400  246529100   13338567.     10384650  13360624.
## # ℹ 13 more rows
## # ℹ 1 more variable: CV_Volume <dbl>
cat("**1. Sự Thống Trị của các Gã Khổng Lồ (Outliers):**
Trong hầu hết các ngành, **Giá trị trung bình (Mean) cao hơn rất nhiều so với giá trị trung vị (Median)**. Điều này thể hiện rõ nhất ở ngành **Ô tô (Automotive)**, nơi trung bình là 15,2 triệu nhưng trung vị chỉ có 296 nghìn. Điều này cho thấy mỗi ngành đều có một vài công ty khổng lồ với doanh số cực lớn, kéo giá trị trung bình lên cao, trong khi phần lớn các công ty còn lại có quy mô nhỏ hơn nhiều.

**2. E-commerce Dẫn Đầu về Quy Mô Trung Bình:**
**Thương mại điện tử (E-commerce)** có quy mô trung bình (Mean Volume) lớn nhất một cách vượt trội (87,7 triệu), cho thấy đây là ngành có giá trị giao dịch trung bình trên mỗi công ty cao nhất trong danh sách.

**3. Mức Độ Biến Động (Volatility) Khác Biệt:**
*   **Biến động nhất:** Ngành **Ô tô (Automotive)** có chỉ số **CV (Hệ số biến thiên) cao nhất (3.0)**, chứng tỏ sự chênh lệch về quy mô giữa các công ty trong ngành này là cực kỳ lớn.
*   **Ổn định nhất:** Các ngành **Dịch vụ tài chính (Financial services)**, **Tiền điện tử (Cryptocurrency)**, và **Hàng không (Aviation)** có chỉ số CV thấp nhất (dưới 1.0). Điều này cho thấy quy mô của các công ty trong các ngành này có xu hướng đồng đều và dễ dự đoán hơn.
")
## **1. Sự Thống Trị của các Gã Khổng Lồ (Outliers):**
## Trong hầu hết các ngành, **Giá trị trung bình (Mean) cao hơn rất nhiều so với giá trị trung vị (Median)**. Điều này thể hiện rõ nhất ở ngành **Ô tô (Automotive)**, nơi trung bình là 15,2 triệu nhưng trung vị chỉ có 296 nghìn. Điều này cho thấy mỗi ngành đều có một vài công ty khổng lồ với doanh số cực lớn, kéo giá trị trung bình lên cao, trong khi phần lớn các công ty còn lại có quy mô nhỏ hơn nhiều.
## 
## **2. E-commerce Dẫn Đầu về Quy Mô Trung Bình:**
## **Thương mại điện tử (E-commerce)** có quy mô trung bình (Mean Volume) lớn nhất một cách vượt trội (87,7 triệu), cho thấy đây là ngành có giá trị giao dịch trung bình trên mỗi công ty cao nhất trong danh sách.
## 
## **3. Mức Độ Biến Động (Volatility) Khác Biệt:**
## *   **Biến động nhất:** Ngành **Ô tô (Automotive)** có chỉ số **CV (Hệ số biến thiên) cao nhất (3.0)**, chứng tỏ sự chênh lệch về quy mô giữa các công ty trong ngành này là cực kỳ lớn.
## *   **Ổn định nhất:** Các ngành **Dịch vụ tài chính (Financial services)**, **Tiền điện tử (Cryptocurrency)**, và **Hàng không (Aviation)** có chỉ số CV thấp nhất (dưới 1.0). Điều này cho thấy quy mô của các công ty trong các ngành này có xu hướng đồng đều và dễ dự đoán hơn.

3.3 .Phân nhóm ngành theo khối lượng

library(cluster)
df_cluster <- a %>%
  group_by(Industry_Tag) %>%
  summarise(avg_vol = mean(Volume, na.rm = TRUE)) %>%
  na.omit()

# Chuẩn hóa & phân cụm
set.seed(123)
cl <- kmeans(scale(df_cluster$avg_vol), centers = 3)
df_cluster$Cluster <- as.factor(cl$cluster)

ggplot(df_cluster, aes(x = Industry_Tag, y = avg_vol, fill = Cluster)) +
  geom_col() +
  coord_flip() +
  labs(title = "Phân nhóm ngành theo thanh khoản trung bình")

cat("Biểu đồ này đã tự động phân các ngành vào 3 nhóm (cluster) dựa trên mức độ sôi động (thanh khoản) của chúng.

*   **Nhóm 1 (Màu đỏ) - Nhóm Thanh Khoản Cực Cao:**
    *   Chỉ có 2 thành viên: **Thương mại điện tử (e-commerce)** và **Công nghệ (technology)**.
    *   Hai ngành này có khối lượng giao dịch trung bình **vượt trội tuyệt đối**, bỏ xa phần còn lại.

*   **Nhóm 2 (Màu xanh lá) - Nhóm Thanh Khoản Tốt:**
    *   Bao gồm các ngành có hoạt động giao dịch khá sôi động như: **Tài chính (finance)**, **Ô tô (automotive)**, **Mạng xã hội (social media)**, **Fitness**, v.v.
    *   Đây là nhóm tầm trung, có thanh khoản tốt nhưng không thể so sánh với Nhóm 1.

*   **Nhóm 3 (Màu xanh dương) - Nhóm Thanh Khoản Thấp:**
    *   Bao gồm các ngành có khối lượng giao dịch trung bình thấp nhất như: **Bán lẻ (retail)**, **Hàng xa xỉ (luxury goods)**, **Âm nhạc (music)**, **Logistics**,")
## Biểu đồ này đã tự động phân các ngành vào 3 nhóm (cluster) dựa trên mức độ sôi động (thanh khoản) của chúng.
## 
## *   **Nhóm 1 (Màu đỏ) - Nhóm Thanh Khoản Cực Cao:**
##     *   Chỉ có 2 thành viên: **Thương mại điện tử (e-commerce)** và **Công nghệ (technology)**.
##     *   Hai ngành này có khối lượng giao dịch trung bình **vượt trội tuyệt đối**, bỏ xa phần còn lại.
## 
## *   **Nhóm 2 (Màu xanh lá) - Nhóm Thanh Khoản Tốt:**
##     *   Bao gồm các ngành có hoạt động giao dịch khá sôi động như: **Tài chính (finance)**, **Ô tô (automotive)**, **Mạng xã hội (social media)**, **Fitness**, v.v.
##     *   Đây là nhóm tầm trung, có thanh khoản tốt nhưng không thể so sánh với Nhóm 1.
## 
## *   **Nhóm 3 (Màu xanh dương) - Nhóm Thanh Khoản Thấp:**
##     *   Bao gồm các ngành có khối lượng giao dịch trung bình thấp nhất như: **Bán lẻ (retail)**, **Hàng xa xỉ (luxury goods)**, **Âm nhạc (music)**, **Logistics**,

3.4 .Trực quan hóa khối lượng giao dịch trung bình theo ngành

ggplot(volume_sum , aes(x = reorder(Industry_Tag, -Mean_Volume), y = Mean_Volume, fill = Industry_Tag)) +
  geom_col() +
  coord_flip() +  # Xoay ngang cho dễ đọc tên ngành
  labs(
    title = "Khối lượng giao dịch trung bình theo ngành (Industry_Tag)",
    x = "Ngành",
    y = "Khối lượng trung bình (Volume)"
  ) +
  theme_minimal() +
  theme(legend.position = "none")

cat("Biểu đồ này cho thấy sự chênh lệch rất lớn về quy mô giao dịch trung bình giữa các ngành.

1.  **Hai ngành thống trị tuyệt đối:**
    *   **Thương mại điện tử (e-commerce)** đứng đầu với khối lượng giao dịch trung bình cao vượt trội, bỏ xa tất cả các ngành còn lại.
    *   **Công nghệ (technology)** đứng ở vị trí thứ hai, cũng với quy mô rất lớn nhưng vẫn thấp hơn đáng kể so với e-commerce.

2.  **Nhóm các ngành có quy mô trung bình:**
    *   Một nhóm lớn các ngành như **Ô tô (automotive)**, **Thể hình (fitness)**, **Tài chính (finance)**, **Giải trí (entertainment)**... có khối lượng giao dịch trung bình khá tương đồng với nhau, nhưng chỉ bằng một phần nhỏ so với hai ngành dẫn đầu.

3.  **Nhóm các ngành có quy mô nhỏ nhất:**
    *   Các ngành như **Hàng xa xỉ (luxury goods)**, **Âm nhạc (music)**, **Gaming** có khối lượng giao dịch trung bình thấp nhất trong biểu đồ.")
## Biểu đồ này cho thấy sự chênh lệch rất lớn về quy mô giao dịch trung bình giữa các ngành.
## 
## 1.  **Hai ngành thống trị tuyệt đối:**
##     *   **Thương mại điện tử (e-commerce)** đứng đầu với khối lượng giao dịch trung bình cao vượt trội, bỏ xa tất cả các ngành còn lại.
##     *   **Công nghệ (technology)** đứng ở vị trí thứ hai, cũng với quy mô rất lớn nhưng vẫn thấp hơn đáng kể so với e-commerce.
## 
## 2.  **Nhóm các ngành có quy mô trung bình:**
##     *   Một nhóm lớn các ngành như **Ô tô (automotive)**, **Thể hình (fitness)**, **Tài chính (finance)**, **Giải trí (entertainment)**... có khối lượng giao dịch trung bình khá tương đồng với nhau, nhưng chỉ bằng một phần nhỏ so với hai ngành dẫn đầu.
## 
## 3.  **Nhóm các ngành có quy mô nhỏ nhất:**
##     *   Các ngành như **Hàng xa xỉ (luxury goods)**, **Âm nhạc (music)**, **Gaming** có khối lượng giao dịch trung bình thấp nhất trong biểu đồ.

3.5 .Phân tích xu hướng của dòng tiền

ggplot(a, aes(x = Date, y = Volume, color = Industry_Tag)) +
  geom_line() +
  labs(title = "Xu hướng khối lượng giao dịch theo thời gian",
       x = "Thời gian", y = "Khối lượng")

cat("1.  **Có một ngành thống trị tuyệt đối (màu hồng):**
    Một ngành duy nhất (màu hồng) có khối lượng giao dịch **lớn vượt trội** so với tất cả các ngành còn lại. Sự chênh lệch này lớn đến mức làm cho các ngành khác gần như biến thành một đường thẳng ở phía dưới biểu đồ.

2.  **Xu hướng chung của thị trường:**
    *   Nhìn vào ngành thống trị (màu hồng), ta thấy khối lượng giao dịch **biến động rất mạnh và đạt đỉnh** ở giai đoạn đầu của khoảng thời gian được theo dõi.
    *   Sau đó, khối lượng giao dịch có xu hướng **giảm dần** về cuối giai đoạn.

3.  **Các ngành còn lại:**
    Các ngành khác có khối lượng giao dịch rất thấp và tương đối ổn định trong suốt thời gian quan sát.")
## 1.  **Có một ngành thống trị tuyệt đối (màu hồng):**
##     Một ngành duy nhất (màu hồng) có khối lượng giao dịch **lớn vượt trội** so với tất cả các ngành còn lại. Sự chênh lệch này lớn đến mức làm cho các ngành khác gần như biến thành một đường thẳng ở phía dưới biểu đồ.
## 
## 2.  **Xu hướng chung của thị trường:**
##     *   Nhìn vào ngành thống trị (màu hồng), ta thấy khối lượng giao dịch **biến động rất mạnh và đạt đỉnh** ở giai đoạn đầu của khoảng thời gian được theo dõi.
##     *   Sau đó, khối lượng giao dịch có xu hướng **giảm dần** về cuối giai đoạn.
## 
## 3.  **Các ngành còn lại:**
##     Các ngành khác có khối lượng giao dịch rất thấp và tương đối ổn định trong suốt thời gian quan sát.

3.6 .Kiểm tra tính tương quan giữa Volume và Close

ggplot(a, aes(x = Close, y = Volume)) +
  geom_point(alpha = 0.5, color = "steelblue") +
  geom_smooth(method = "lm", color = "darkred") +
  scale_y_log10() +
  labs(title = "Giá vs Khối lượng (log-scale)",
       x = "Close", y = "Volume (log10)") +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

cat("1.  **Mối quan hệ nghịch đảo:**
    Điểm quan trọng nhất là **đường xu hướng màu đỏ đi xuống**. Điều này có nghĩa là: **Khi giá tăng lên, khối lượng giao dịch có xu hướng giảm đi.**

2.  **Cụ thể**
    *   **Ở mức giá thấp (phía bên trái biểu đồ):** Các chấm xanh tập trung rất đông và trải dài lên rất cao, cho thấy khối lượng giao dịch cực kỳ lớn và sôi động.
    *   **Khi giá tăng dần (dịch sang phải):** Các chấm xanh ngày càng tụt xuống thấp hơn. Điều này cho thấy khi một tài sản trở nên đắt đỏ hơn, số lượng giao dịch mua bán có xu hướng ít lại.")
## 1.  **Mối quan hệ nghịch đảo:**
##     Điểm quan trọng nhất là **đường xu hướng màu đỏ đi xuống**. Điều này có nghĩa là: **Khi giá tăng lên, khối lượng giao dịch có xu hướng giảm đi.**
## 
## 2.  **Cụ thể**
##     *   **Ở mức giá thấp (phía bên trái biểu đồ):** Các chấm xanh tập trung rất đông và trải dài lên rất cao, cho thấy khối lượng giao dịch cực kỳ lớn và sôi động.
##     *   **Khi giá tăng dần (dịch sang phải):** Các chấm xanh ngày càng tụt xuống thấp hơn. Điều này cho thấy khi một tài sản trở nên đắt đỏ hơn, số lượng giao dịch mua bán có xu hướng ít lại.

3.7 .So sánh chéo giữa các ngành

library(ggplot2)
#install.packages("ggrepel")
library(ggrepel)

a %>%
  group_by(Industry_Tag) %>%
  summarise(
    avg_volume = mean(Volume, na.rm = TRUE),
    avg_close = mean(Close, na.rm = TRUE)
  ) %>%
  ggplot(aes(x = avg_close, y = avg_volume, label = Industry_Tag)) +
  geom_point(color = "#1f77b4", size = 3, alpha = 0.8) +
  geom_text_repel(size = 3.5, color = "black") +  # tránh trùng nhãn
  scale_y_log10(labels = scales::comma) +  # log-scale giúp dễ nhìn thanh khoản
  labs(
    title = "So sánh giá và thanh khoản trung bình giữa các ngành",
    subtitle = "Trục tung dùng thang log để giảm ảnh hưởng của outlier",
    x = "Giá trung bình (avg_close)",
    y = "Khối lượng trung bình (avg_volume, log scale)"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(face = "bold", size = 15),
    panel.grid.minor = element_blank()
  )

cat("Biểu đồ này phân loại các ngành dựa trên 2 yếu tố: **Giá trung bình** (trục ngang) và **Khối lượng giao dịch trung bình** (trục đứng).

1.  **Nhóm Sôi Động Nhất (Thanh Khoản Cao, Giá Vừa Phải):**
    *   Nằm ở góc **trên bên trái** của biểu đồ.
    *   **Thương mại điện tử (e-commerce)** và **Công nghệ (technology)** là hai ngành dẫn đầu tuyệt đối về khối lượng giao dịch. Điều này có nghĩa là các hoạt động mua bán diễn ra rất thường xuyên, nhưng giá trị trung bình cho mỗi giao dịch không phải là cao nhất.

2.  **Nhóm Hàng Hiếm (Giá Cao, Thanh Khoản Thấp/Trung Bình):**
    *   Nằm ở phía **bên phải** của biểu đồ.
    *   **Thực phẩm (food)** là ngành đặc biệt nhất, có **giá trung bình cao vượt trội** nhưng khối lượng giao dịch chỉ ở mức trung bình.
    *   **Tiền điện tử (cryptocurrency)** và **Âm nhạc (music)** cũng thuộc nhóm này: giá cao nhưng thanh khoản không lớn.

3.  **Nhóm Thị Trường Ngách (Thanh Khoản Thấp Nhất):**
    *   Nằm ở **phía dưới** của biểu đồ.
    *   **Hàng xa xỉ (luxury goods)** có cả giá và khối lượng giao dịch trung bình đều thấp. Đây có thể là thị trường rất kén người mua bán.
    *   **Gaming** cũng có khối lượng giao dịch tương đối thấp.
")
## Biểu đồ này phân loại các ngành dựa trên 2 yếu tố: **Giá trung bình** (trục ngang) và **Khối lượng giao dịch trung bình** (trục đứng).
## 
## 1.  **Nhóm Sôi Động Nhất (Thanh Khoản Cao, Giá Vừa Phải):**
##     *   Nằm ở góc **trên bên trái** của biểu đồ.
##     *   **Thương mại điện tử (e-commerce)** và **Công nghệ (technology)** là hai ngành dẫn đầu tuyệt đối về khối lượng giao dịch. Điều này có nghĩa là các hoạt động mua bán diễn ra rất thường xuyên, nhưng giá trị trung bình cho mỗi giao dịch không phải là cao nhất.
## 
## 2.  **Nhóm Hàng Hiếm (Giá Cao, Thanh Khoản Thấp/Trung Bình):**
##     *   Nằm ở phía **bên phải** của biểu đồ.
##     *   **Thực phẩm (food)** là ngành đặc biệt nhất, có **giá trung bình cao vượt trội** nhưng khối lượng giao dịch chỉ ở mức trung bình.
##     *   **Tiền điện tử (cryptocurrency)** và **Âm nhạc (music)** cũng thuộc nhóm này: giá cao nhưng thanh khoản không lớn.
## 
## 3.  **Nhóm Thị Trường Ngách (Thanh Khoản Thấp Nhất):**
##     *   Nằm ở **phía dưới** của biểu đồ.
##     *   **Hàng xa xỉ (luxury goods)** có cả giá và khối lượng giao dịch trung bình đều thấp. Đây có thể là thị trường rất kén người mua bán.
##     *   **Gaming** cũng có khối lượng giao dịch tương đối thấp.