Buổi 2 — Khái niệm & Thống kê mô tả dữ liệu định tính | Lộ trình Tự học

BUỔI 2: KHÁI NIỆM & THỐNG KÊ MÔ TẢ DỮ LIỆU ĐỊNH TÍNH

📖 Lộ trình Tự học của Sinh viên

Nguyên tắc: Bạn không học “định nghĩa”, bạn học “cách phân biệt” và “cách dùng”. AI là trợ lý, nhưng điểm số là của bạn. Hãy chắc chắn bạn hiểu tại sao AI trả lời như vậy.

🎯 Phần 1 — Đọc trước tiên: Bạn sẽ bị kiểm tra gì?

Hình thức kiểm tra buổi này: Phỏng vấn lưu động tại chỗ và Quiz nhanh cuối buổi.

Bạn sẽ được yêu cầu:

Phân biệt nhanh các loại dữ liệu Nominal, Ordinal, Discrete, Continuous.
Giải thích tại sao phải mã hóa dữ liệu (Encoding) trước khi đưa vào mô hình.
Đọc hiểu biểu đồ Pareto và giải thích quy luật 80/20.

🗺️ Phần 2 — Bản đồ kiến thức cần nắm

Dữ liệu định tính
├── Phân loại thang đo (Measurement Scales)
│   ├── Nominal (Định danh - ví dụ: Giới tính, Ngành học) ⭐⭐⭐
│   └── Ordinal (Thứ bậc - ví dụ: Mức độ hài lòng, Học vấn) ⭐⭐⭐
├── Mã hóa dữ liệu (Data Encoding)
│   ├── Label Encoding ⭐⭐
│   └── One-hot Encoding (Biến giả - Dummy variables) ⭐⭐⭐
└── Thống kê mô tả (Descriptive Statistics)
    ├── Bảng tần số & Tỷ lệ ⭐⭐
    └── Trực quan hóa: Bar chart, Pie chart, Pareto chart ⭐⭐⭐

🔍 Phần 3 — Gợi ý tài nguyên tự học

Video

Types of Data: Nominal, Ordinal, Interval/Ratio · Statistics Learning Center · ~5 phút → Nắm được: Cách phân biệt 4 loại thang đo cơ bản.
Pareto Analysis & 80/20 Rule · DecisionSkills · ~6 phút → Nắm được: Cách vẽ và ý nghĩa của biểu đồ Pareto.

Tìm thêm trên YouTube: Categorical Data Descriptive Statistics, One hot encoding vs Label encoding.

Học liệu mở (miễn phí)

Introduction to Categorical Data Analysis — [Alan Agresti]
Handling Categorical Data in R — [DataCamp Community]

🤖 Phần 4 — Học cùng AI: Prompt mẫu

4.1 Phân biệt loại dữ liệu

"Tôi có danh sách các biến sau: Giới tính, Nhiệt độ, Thứ hạng hoa hậu, Số điện thoại, Thu nhập. Hãy phân loại chúng vào các nhóm: Nominal, Ordinal, Discrete, Continuous và giải thích tại sao."

4.2 Học về Encoding

"Giải thích cho tôi sự khác biệt giữa One-hot encoding và Label encoding. Khi nào dùng loại nào thì tốt hơn? Cho ví dụ minh họa bằng ngôn ngữ R."

4.3 Phân tích Pareto

"Giả sử tôi là quản lý một cửa hàng quần áo. Tôi có dữ liệu về lý do khách hàng trả hàng: Sai kích cỡ (50), Lỗi vải (30), Không thích màu (10), Giao chậm (5), Khác (5). Hãy hướng dẫn tôi cách thực hiện phân tích Pareto với dữ liệu này và rút ra kết luận quản trị."

✅ Phần 5 — Bộ câu hỏi tự kiểm tra

Số chứng minh nhân dân/CCCD là dữ liệu định lượng hay định tính? Tại sao không được tính trung bình cho biến này?
Tại sao khi dùng One-hot encoding cho một biến có 3 nhóm (A, B, C) chúng ta thường chỉ cần 2 biến giả? (Gợi ý: bẫy đa cộng tuyến).
Sự khác biệt lớn nhất giữa Bar chart và Histogram là gì?
Câu hỏi chốt: Nếu một khảo sát có biến “Mức độ đồng ý” từ 1 đến 5, AI nói đây là dữ liệu định lượng, bạn có phản biện được không?

📊 Phần 6 — Rubric tự đánh giá

Tiêu chí	Tôi chưa làm được	Tôi làm được ở mức cơ bản	Tôi tự tin
Phân biệt Nominal và Ordinal	☐	☐	☐
Giải thích ý nghĩa One-hot encoding	☐	☐	☐
Vẽ phác thảo biểu đồ Pareto từ số liệu	☐	☐	☐

📤 Phần 7 — Bài nộp trước buổi học

Nộp qua: Hệ thống LMS Deadline: Trước 22:00 ngày hôm trước

Yêu cầu bắt buộc (Sắp xếp theo thứ tự sau):

Bảng tóm tắt tự học (Đặt lên đầu bài nộp): | Chỉ số | Kết quả | |—|—| | Tổng số prompt đã dùng | (Ví dụ: 65) | | Các chủ đề đã thảo luận | (Ví dụ: Nominal, Ordinal, Encoding, Pareto) | | Tự đánh giá mức độ hiểu (%) | (Ví dụ: 85%) |
Tóm tắt nội dung tự học: (tối đa 300 từ) > Bạn đã học gì? Học từ nguồn nào? Điều gì bạn chắc chắn hiểu và điều gì còn mơ hồ?
Toàn bộ nội dung trao đổi với AI: > Copy-paste toàn bộ lịch sử chat (không được cắt xén). > Lưu ý: Đánh dấu (highlight) 2-3 đoạn hội thoại bạn thấy giá trị nhất và giải thích ngắn gọn lý do tại sao.
Câu hỏi còn bỏ ngỏ: > Liệt kê 1–3 câu hỏi bạn tự học nhưng chưa tìm được câu trả lời thỏa đáng.

⏰ Ước tính thời gian tự học

Xem video + đọc tài liệu: 45 phút.
Thực hành với AI: 30 phút.
Viết bài nộp: 15 phút.
Tổng cộng: ~90 phút.