Chủ đề 2: Quy Trình ETL Trong DATAWAREHOUSE

1. Giới thiệu về quy trình ETL

ETL là từ viết tắt ngắn gọn cho Extract - Transform - Load với nghĩa tạm hiểu đó là việc trích xuất - chuyển đổi - tải. Đây là quá trình tích hợp dữ liệu, nhằm chuyển đổi dữ liệu chưa qua xử lý từ một nguồn trong hệ thống đến một hệ thống dữ liệu khác (data warehouse hoặc data lake) nằm trong một server xác định. Và sau đó chuyển đổi các dữ liệu này thành thông tin để sử dụng tùy theo mục đích của tổ chức.

2. Giới thiệu về Data Warehouse

Kho dữ liệu (Data Warehouse) là nơi lưu trữ và quản lý dữ liệu từ nhiều nguồn khác nhau để cung cấp thông tin chi tiết có ý nghĩa về doanh nghiệp. Kho dữ liệu thường được sử dụng để kết nối và phân tích dữ liệu kinh doanh từ các nguồn không đồng nhất. Kho dữ liệu là cốt lõi của hệ thống BI, được xây dựng để phân tích và báo cáo dữ liệu. Kho dữ liệu tập trung và tổng hợp một lượng lớn dữ liệu từ nhiều nguồn và là sự kết hợp của các công nghệ và thành phần hỗ trợ việc sử dụng dữ liệu một cách chiến lược

3. Quy trình ETL trong Data Warehouse

Trong thế giới Data, Chúng ta biết rằng Data Warehouse là cơ sở của Business Intelligence và ETL là cơ sở của Data Warehouse. Và ETL là một quá trình trong đó công cụ ETL trích xuất dữ liệu từ các hệ thống nguồn dữ liệu khác nhau, chuyển đổi dữ liệu đó trong khu vực tổ chức, và cuối cùng, tải nó vào hệ thống Data Warehouse.

  • Extraction (Trích xuất) Dữ liệu nguồn từ các hệ thống nguồn khác nhau được trích xuất có thể ở nhiều định dạng khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ file thô. Điều quan trọng là phải trích xuất dữ liệu từ các hệ thống nguồn khác nhau và lưu trữ nó vào khu vực dàn dựng trước tiên chứ không phải trực tiếp vào kho dữ liệu vì dữ liệu được trích xuất có nhiều định dạng khác nhau và cũng có thể bị hỏng.

  • Transformation (Chuyển đổi) Tại đây dữ liệu thô trải qua quá trình xử lý dữ liệu. Dữ liệu được chuyển đổi và hợp nhất cho những trường hợp phân tích sau này. Ở bước này nó sẽ phải sử dụng các phép chuyển đổi như:

    • Chọn các cột dữ liệu phù hợp và cần thiết.
    • Chuyển đổi dữ liệu. Ví dụ: Chuyển giá trị 1 thành Nam hay ngược lại.
    • Tạo ra các cột tính toán mới. Ví dụ: Cột điểm trung bình
    • Lọc dữ liệu và sắp xếp dữ liệu.
    • Thực hiện các phép tổng hợp. Ví dụ: Tính tổng các cột, đếm số dòng
    • Tạo ra các giá trị mới. Ví dụ: Tạo khóa tự tăng
    • Tìm kiếm hay so sánh dữ liệu
  • Loading (Tải dữ liệu) Đây là quá trình đẩy dữ liệu sau khi được chuyển đổi cuối cùng vào kho dữ liệu. Việc tải dữ liệu vào một nơi lưu trữ tập trung cho phép các nhà phát triển có thể xây dựng ứng dụng và người dùng cuối có thể ra quyết định dựa trên dữ liệu và ứng dụng đó.

Bibliography

[1] [ITB CLUB || CHUỖI BÀI HỌC THUẬT VỀ BUSINESS INTELLIGENCE]