Appearance
🎮 Mini Game Buổi 2: Statistics Detective
Bạn là thám tử thống kê — được các công ty thuê để kiểm tra báo cáo. Nhiệm vụ: tìm ra lỗi sai ẩn trong 7 báo cáo kinh doanh trước khi chúng gây thiệt hại!
🎯 Mục tiêu học tập
Sau khi hoàn thành game, bạn sẽ:
- Phân biệt khi nào dùng mean, median, mode phù hợp
- Nhận diện sai lầm khi áp dụng thống kê cho sai loại dữ liệu (nominal, ordinal, interval, ratio)
- Phát hiện sampling bias và các lỗi thu thập dữ liệu phổ biến
- Hiểu ảnh hưởng của distribution shape đến việc diễn giải số liệu
- Áp dụng IQR / Z-score để phát hiện outlier
- Phân biệt correlation vs. causation và hiểu null/alternative hypothesis
- Nhận ra Simpson's Paradox khi dữ liệu tổng hợp che giấu xu hướng thực
📜 Luật chơi
┌─────────────────────────────────────────────────────┐
│ BẠN = Statistics Detective 🕵️ │
│ NHIỆM VỤ = Audit 7 báo cáo kinh doanh │
│ MỖI VÒNG = 1 báo cáo chứa 1 lỗi thống kê ẩn │
│ 3 LỰA CHỌN mỗi vòng — chỉ 1 đáp án tốt nhất │
│ THỜI GIAN = 90 giây/vòng (nhanh = bonus XP) │
│ MỤC TIÊU = Thu thập ≥ 80 XP để đạt hạng Gold 🥇 │
└─────────────────────────────────────────────────────┘Cách tính điểm mỗi vòng:
| Thời gian trả lời | Speed Bonus |
|---|---|
| ≤ 30 giây | +5 XP |
| 31–60 giây | +3 XP |
| 61–90 giây | +1 XP |
| > 90 giây (hết giờ) | 0 XP, tự động chọn sai |
🎲 Cơ chế game
Chỉ số theo dõi
| Chỉ số | Icon | Mô tả | Mục tiêu |
|---|---|---|---|
| Accuracy | 🎯 | Số câu chọn đúng đáp án tốt nhất | ≥ 6/7 |
| Speed | ⏱️ | Tổng thời gian & speed bonus | Tối đa 35 bonus XP |
| Detection Rate | 🔍 | % lỗi thống kê phát hiện chính xác | ≥ 80% |
Công thức XP
XP vòng = Accuracy Points + Speed Bonus + Random Event Modifier
XP tổng = Σ (XP vòng 1..7) + Badge Bonus📋 Kịch bản chi tiết
🔎 Vòng 1: Báo cáo lương "hấp dẫn"
Độ khó: ⭐ Dễ — Warm-up
📄 Báo cáo:
Công ty startup DataViet JSC đăng tin tuyển dụng trên LinkedIn:
"Tham gia đội Data của chúng tôi! Lương trung bình (average salary) đội data là 25 triệu/tháng — cạnh tranh nhất thị trường cho fresher!"
📊 Dữ liệu thực tế (10 người):
| # | Vị trí | Lương (triệu/tháng) |
|---|---|---|
| 1 | Junior Analyst | 12 |
| 2 | Junior Analyst | 13 |
| 3 | Junior Analyst | 12 |
| 4 | Data Analyst | 15 |
| 5 | Data Analyst | 14 |
| 6 | Data Analyst | 15 |
| 7 | Data Analyst | 14 |
| 8 | Senior Analyst | 15 |
| 9 | Data Lead | 40 |
| 10 | CTO (kiêm data) | 80 |
- Mean = (12+13+12+15+14+15+14+15+40+80) / 10 = 23 triệu ≈ 25 triệu (làm tròn)
- Median = (14+15) / 2 = 14.5 triệu
🕵️ Câu hỏi: Lỗi thống kê trong báo cáo tuyển dụng này là gì?
| Lựa chọn | Hành động | Accuracy | Speed | Detection |
|---|---|---|---|---|
| A ✅ | "Dùng mean bị outlier kéo lệch (CTO 80tr, Lead 40tr). Phải dùng median = 14.5 triệu mới phản ánh đúng mức lương phổ biến" | +10 | +1~5 | +10 |
| B | "Sample size 10 người quá nhỏ, không đại diện" | +3 | +1~5 | +3 |
| C | "Không có vấn đề gì, 25 triệu là lương trung bình đúng" | 0 | 0 | 0 |
🔎 Vòng 2: Marketing report dùng sai loại data
Độ khó: ⭐ Dễ
📄 Báo cáo:
Đội Marketing của sàn thương mại điện tử ShopNow báo cáo Q4:
"Điểm hài lòng trung bình (mean satisfaction) của khách hàng đạt 3.7/5 sao — tăng 0.3 so với Q3. Standard deviation = 0.8, cho thấy đánh giá khá đồng đều."
📊 Dữ liệu:
- Thang đo: 1⭐ = Rất tệ, 2⭐ = Tệ, 3⭐ = Bình thường, 4⭐ = Tốt, 5⭐ = Rất tốt
- Loại dữ liệu: Ordinal scale (thứ tự có ý nghĩa, khoảng cách giữa các mức KHÔNG đều)
🕵️ Câu hỏi: Lỗi thống kê nào đang ẩn trong báo cáo này?
| Lựa chọn | Hành động | Accuracy | Speed | Detection |
|---|---|---|---|---|
| A ✅ | "Dữ liệu ordinal (star rating) — không nên dùng mean và standard deviation. Phải dùng median và mode, hoặc báo cáo phân bố tần suất" | +10 | +1~5 | +10 |
| B | "Cần so sánh với đối thủ mới có ý nghĩa" | +2 | +1~5 | +2 |
| C | "Standard deviation 0.8 là quá cao" | +1 | +1~5 | +1 |
🔎 Vòng 3: Survey sampling bias
Độ khó: ⭐⭐ Trung bình
📄 Báo cáo:
Ngân hàng số FinViet khảo sát khách hàng và công bố:
"92% khách hàng hài lòng với dịch vụ ngân hàng số của chúng tôi! Khảo sát trên 5,000 người — sample size rất lớn và đáng tin cậy."
📊 Chi tiết khảo sát:
- Khảo sát qua push notification trên app FinViet
- Thời gian: 10h–12h ngày thường
- Chỉ người đang active trên app nhận được khảo sát
- Tổng khách hàng FinViet: 2 triệu (bao gồm cả người dùng chi nhánh, ATM, không dùng app)
🕵️ Câu hỏi: Báo cáo khảo sát này có lỗi gì?
| Lựa chọn | Hành động | Accuracy | Speed | Detection |
|---|---|---|---|---|
| A | "5,000 người là sample size quá nhỏ so với 2 triệu" | +2 | +1~5 | +2 |
| B ✅ | "Sampling bias — chỉ khảo sát user đang active trên app (convenience sampling). Người không dùng app, người không hài lòng đã bỏ app không được hỏi. Kết quả không đại diện cho toàn bộ khách hàng" | +10 | +1~5 | +10 |
| C | "Thời gian khảo sát 10h–12h là bất hợp lý" | +3 | +1~5 | +3 |
🔎 Vòng 4: Bỏ qua distribution shape
Độ khó: ⭐⭐ Trung bình
📄 Báo cáo:
Sàn e-commerce MuaNhanh báo cáo cho nhà đầu tư:
"Giá trị đơn hàng trung bình (AOV) đạt 1,200,000 VNĐ — tăng 20% YoY. Khách hàng chi tiêu mạnh hơn nhờ chiến lược upsell."
📊 Dữ liệu phân bố đơn hàng (1 tháng, 100K đơn):
Frequency
│
█
█ █
█ █ █
█ █ █ █
█ █ █ █ █ █ █
┼──┼──┼──┼──┼──┼──┼──┼──┼──┼──→ Giá trị (triệu VNĐ)
0.1 0.2 0.3 0.5 0.8 1.2 2.0 5.0 10 50- Median = 350,000 VNĐ
- Mode = 200,000 VNĐ
- Mean = 1,200,000 VNĐ (bị kéo bởi đơn hàng luxury 10–50 triệu)
- Distribution: Right-skewed (lệch phải)
🕵️ Câu hỏi: Lỗi trong cách diễn giải báo cáo AOV?
| Lựa chọn | Hành động | Accuracy | Speed | Detection |
|---|---|---|---|---|
| A | "Tăng 20% YoY có thể do lạm phát, không phải upsell" | +3 | +1~5 | +3 |
| B | "100K đơn/tháng chưa đủ lớn" | 0 | 0 | 0 |
| C ✅ | "Distribution right-skewed — mean = 1.2tr bị đơn luxury kéo lệch. Median chỉ 350K. Phần lớn khách chi tiêu rất thấp, dùng mean gây hiểu sai về hành vi chi tiêu thực" | +10 | +1~5 | +10 |
🔎 Vòng 5: Outlier không được phát hiện
Độ khó: ⭐⭐⭐ Khó
📄 Báo cáo:
Công ty fintech PayFast báo cáo doanh thu Q3:
"Doanh thu trung bình mỗi merchant đạt 85 triệu/tháng, tăng trưởng ấn tượng 40% so với Q2 (60 triệu/tháng)."
📊 Dữ liệu 20 merchant (triệu VNĐ/tháng):
| Merchant | Q2 | Q3 |
|---|---|---|
| M1–M18 | 45–70 | 48–75 |
| M19 | 65 | 72 |
| M20 | 68 | 750 ❗ |
- M20 Q3: Nhân viên nhập liệu gõ 750 thay vì 75 (lỗi data entry, gấp 10 lần)
- Không ai kiểm tra outlier trước khi báo cáo
- Mean có M20: 85 triệu → Mean không M20: ≈ 62 triệu (tăng chỉ ~3%)
- IQR check: Q1 = 52, Q3 = 72, IQR = 20, Upper fence = 72 + 1.5×20 = 102. M20 = 750 >> 102 → Outlier rõ ràng
🕵️ Câu hỏi: Tại sao tăng trưởng 40% là đáng ngờ?
| Lựa chọn | Hành động | Accuracy | Speed | Detection |
|---|---|---|---|---|
| A ✅ | "Outlier do data entry error — M20 = 750 (gấp 10x thực tế). Dùng IQR: upper fence = 102, giá trị 750 là outlier. Bỏ outlier → tăng trưởng chỉ ~3%, không phải 40%" | +10 | +1~5 | +10 |
| B | "Sample 20 merchant quá nhỏ" | +2 | +1~5 | +2 |
| C | "Nên so sánh YoY thay vì QoQ" | +1 | +1~5 | +1 |
🔎 Vòng 6: Kết luận nhân quả không kiểm định
Độ khó: ⭐⭐⭐ Khó
📄 Báo cáo:
Đội Growth Marketing của ứng dụng FoodGo báo cáo:
"Chiến dịch KOL tháng 8 thành công rực rỡ — doanh thu tăng 25% so với tháng 7! ROI chiến dịch đạt 300%. Đề xuất tăng gấp đôi ngân sách KOL cho Q4."
📊 Bối cảnh thực tế:
- Tháng 8: mùa tựu trường, nhu cầu đặt đồ ăn tăng tự nhiên (seasonality)
- Tháng 8 năm trước cũng tăng 22% so với tháng 7 (không có campaign)
- Không có control group (nhóm không tiếp xúc KOL)
- Không thực hiện A/B test hay hypothesis testing
- H₀: Chiến dịch KOL không ảnh hưởng doanh thu
- H₁: Chiến dịch KOL làm tăng doanh thu
- Chưa có bằng chứng bác bỏ H₀
🕵️ Câu hỏi: Lỗi trong kết luận của đội Marketing?
| Lựa chọn | Hành động | Accuracy | Speed | Detection |
|---|---|---|---|---|
| A | "ROI 300% là cách tính sai" | +1 | +1~5 | +1 |
| B ✅ | "Correlation ≠ Causation. Doanh thu tăng trùng với mùa tự nhiên (seasonality). Không có control group, không có hypothesis test → chưa bác bỏ H₀. Không thể kết luận KOL gây ra tăng trưởng" | +10 | +1~5 | +10 |
| C | "25% tăng trưởng quá thấp để kết luận thành công" | +3 | +1~5 | +3 |
🔎 Vòng 7: Simpson's Paradox — Dữ liệu tổng hợp lừa dối
Độ khó: ⭐⭐⭐⭐ Rất khó — Boss Round 🏴☠️
📄 Báo cáo:
Chuỗi bán lẻ MegaMart so sánh 2 chiến lược giảm giá:
"Chiến lược A (giảm 10%) có tỷ lệ chuyển đổi tổng = 45%. Chiến lược B (giảm 20%) có tỷ lệ chuyển đổi tổng = 42%. → Kết luận: Chiến lược A hiệu quả hơn, không cần giảm sâu!"
📊 Dữ liệu chi tiết theo phân khúc:
| Phân khúc | Chiến lược A | Chiến lược B |
|---|---|---|
| Khách hàng mới | 120/400 = 30% | 200/500 = 40% ✅ |
| Khách hàng cũ | 330/600 = 55% | 220/400 = 55% = |
| Tổng | 450/1000 = 45% ✅ | 420/900 = 46.7% |
Thực tế khi tính lại: B tổng = 46.7% > A tổng = 45%. Nhưng quan trọng hơn — B tốt hơn ở phân khúc khách mới (40% vs 30%), và bằng nhau ở khách cũ (55% vs 55%).
Tại sao tổng hợp bị lệch?
- Chiến lược A được chạy nhiều hơn cho khách cũ (base rate cao sẵn = 55%)
- Chiến lược B được chạy nhiều hơn cho khách mới (base rate thấp = 30-40%)
- Tỷ lệ phân bổ không đều → tổng hợp bị Simpson's Paradox
🕵️ Câu hỏi: Kết luận "A tốt hơn B" có chính xác không?
| Lựa chọn | Hành động | Accuracy | Speed | Detection |
|---|---|---|---|---|
| A | "Cần A/B test lâu hơn" | +2 | +1~5 | +2 |
| B | "Giảm 20% luôn tốt hơn giảm 10% — chọn B" | +1 | +1~5 | +1 |
| C ✅ | "Simpson's Paradox — dữ liệu tổng hợp bị lừa do confounding variable (tỷ lệ phân bổ khách mới/cũ khác nhau). Khi phân tích theo segment, B tốt hơn ở khách mới (40% vs 30%) và bằng ở khách cũ. Phải phân tích theo phân khúc" | +15 | +1~5 | +15 |
⚡ Sự kiện ngẫu nhiên
Mỗi vòng có 20% xác suất kích hoạt 1 sự kiện ngẫu nhiên. Sự kiện có thể giúp hoặc cản trở thám tử!
| # | Sự kiện | Xác suất | Ảnh hưởng |
|---|---|---|---|
| 1 | 📊 Data Dump — Bạn nhận thêm 1 bảng dữ liệu raw phụ trợ | 15% | Hiển thị thêm bảng dữ liệu gợi ý → dễ nhận ra lỗi hơn. +2 Accuracy bonus nếu trả lời đúng |
| 2 | ⏰ Deadline Crunch — Sếp gọi điện giục báo cáo gấp! | 20% | Thời gian vòng này giảm còn 45 giây (thay vì 90). Speed bonus x2 nếu vẫn đúng |
| 3 | 🤝 Peer Review — Đồng nghiệp gửi hint qua Slack | 10% | Loại bỏ 1 đáp án sai → còn 2 lựa chọn. Detection +3 bonus |
| 4 | 🌀 Misleading Chart — Báo cáo kèm biểu đồ bị manipulate (trục Y cắt, 3D pie chart...) | 15% | Thêm 1 lớp nhiễu thị giác. Nếu vẫn chọn đúng: +5 XP bonus |
| 5 | 📰 Media Pressure — Báo chí đã đăng số liệu sai, áp lực không sửa | 10% | Xuất hiện thêm lựa chọn D: "Giữ nguyên vì báo đã đăng" — chọn D = -5 XP |
| 6 | 🎓 Mentor Call — Giáo sư thống kê gọi video hỗ trợ | 5% | Hiển thị công thức liên quan (IQR, Z-score, etc.) trong 15 giây. Very rare nhưng rất hữu ích |
🏆 Hệ thống xếp hạng
Tổng XP tối đa lý thuyết: 75 (Accuracy) + 35 (Speed) + 75 (Detection) + bonus events ≈ 185+ XP
| Rank | Điều kiện | Phần thưởng | Mô tả |
|---|---|---|---|
| 🥇 Gold | ≥ 80 XP | 100 XP | Thám tử thống kê hạng nhất — mọi báo cáo sai đều bị phát hiện |
| 🥈 Silver | ≥ 55 XP | 70 XP | Analyst có mắt tinh — thỉnh thoảng bỏ sót nhưng nhìn chung tốt |
| 🥉 Bronze | ≥ 35 XP | 40 XP | Junior detective — cần luyện tập thêm critical thinking |
| ❌ Fail | < 35 XP | 10 XP | Bạn đã ký duyệt báo cáo sai... thời gian quay lại ôn bài! |
🎖️ Badge đặc biệt
| Badge | Điều kiện | Mô tả |
|---|---|---|
| 🏅 Perfect Detective | 7/7 câu đúng (chọn đáp án tốt nhất) | Không một lỗi nào lọt qua mắt bạn |
| ⚡ Speed Demon | Tổng thời gian ≤ 3 phút (cả 7 vòng) | Phản xạ thống kê cực nhanh |
| 🧠 Deep Thinker | Đúng cả Vòng 5 + 6 + 7 (3 vòng khó) | Xử lý được outlier, hypothesis và Simpson's Paradox |
| 🛡️ Bias Buster | Đúng Vòng 2 + 3 (sampling bias & data type) | Chuyên gia phát hiện bias trong nghiên cứu |
| 🎰 Lucky Detective | Kích hoạt ≥ 3 sự kiện ngẫu nhiên | Vận may đứng về phía bạn |
| 💎 Flawless | ≥ 80 XP + không bị event nào trừ điểm | Hoàn hảo dưới mọi áp lực |
💡 Giải thích đáp án
Vòng 1 — Mean vs. Median khi có Outlier
Lỗi: Dùng mean khi dữ liệu có outlier (CTO 80tr, Lead 40tr).
- Mean bị kéo lệch bởi giá trị cực đoan → không phản ánh mức lương "typical"
- Median (14.5 triệu) phản ánh tốt hơn vì 8/10 người lương 12–15 triệu
- Quy tắc: Khi distribution bị skewed hoặc có outlier → ưu tiên median
- Kiến thức: Descriptive Statistics — Measures of Central Tendency
Vòng 2 — Scale of Measurement & Appropriate Statistics
Lỗi: Tính mean và standard deviation cho dữ liệu ordinal.
- Star rating (1–5) là ordinal scale: thứ tự có ý nghĩa nhưng khoảng cách giữa 1⭐→2⭐ không nhất thiết = 4⭐→5⭐
- Mean chỉ có ý nghĩa với interval và ratio scale
- Ordinal → dùng median, mode, hoặc frequency distribution
- Kiến thức: Data Types — Scales of Measurement (nominal, ordinal, interval, ratio)
Vòng 3 — Sampling Bias
Lỗi: Convenience sampling — chỉ khảo sát người đang dùng app.
- Người đã bỏ app (không hài lòng) không được hỏi → survivorship bias
- Người dùng chi nhánh/ATM (phân khúc khác) không được hỏi → coverage bias
- Sample size lớn (5,000) không fix được sampling bias — bias ≠ variance
- Kiến thức: Hypothesis & Sampling — Sampling Methods, Bias
Vòng 4 — Distribution Shape & Central Tendency
Lỗi: Dùng mean cho dữ liệu right-skewed mà không nói rõ distribution.
- Right-skewed: mean > median > mode
- Mean = 1.2tr bị kéo bởi đơn hàng luxury (5–50 triệu)
- Phần lớn khách hàng chỉ chi 200–350K → median mới phản ánh hành vi thực
- Kiến thức: Distribution & Outlier — Skewness, Normal Distribution
Vòng 5 — Outlier Detection (IQR method)
Lỗi: Không kiểm tra outlier trước khi tính aggregate → data entry error làm sai toàn bộ.
- IQR method: Q1 = 52, Q3 = 72, IQR = 20
- Lower fence = Q1 - 1.5×IQR = 52 - 30 = 22
- Upper fence = Q3 + 1.5×IQR = 72 + 30 = 102
- M20 = 750 >> 102 → Outlier
- Z-score: Nếu σ ≈ 15, Z = (750 - 62) / 15 ≈ 45.8 >> 3 → Extreme outlier
- Bài học: Luôn check outlier trước khi report aggregate statistics
- Kiến thức: Distribution & Outlier — IQR Outlier Detection, Z-score
Vòng 6 — Hypothesis Testing & Causation
Lỗi: Kết luận nhân quả (KOL → tăng doanh thu) mà không kiểm định hypothesis.
- Correlation ≠ Causation: doanh thu tăng và KOL campaign xảy ra cùng lúc ≠ KOL gây ra tăng trưởng
- Confounding variable: seasonality (mùa tựu trường) — năm trước cũng tăng 22%
- Cần: Control group + A/B test + Hypothesis testing (bác bỏ H₀ ở significance level α)
- H₀: μ_KOL = μ_no_KOL (không khác biệt)
- Chưa bác bỏ H₀ → không thể kết luận KOL hiệu quả
- Kiến thức: Hypothesis & Sampling — Null/Alternative Hypothesis
Vòng 7 — Simpson's Paradox
Lỗi: Phân tích aggregated data mà bỏ qua confounding variable (tỷ lệ phân bổ khách).
- Simpson's Paradox: xu hướng ở dữ liệu tổng ngược lại xu hướng ở từng nhóm
- Nguyên nhân: tỷ lệ phân bổ không đều giữa chiến lược A và B
- A chạy 60% cho khách cũ (conversion cao sẵn)
- B chạy 56% cho khách mới (conversion thấp sẵn)
- Khi phân tích theo segment: B ≥ A ở mọi phân khúc
- Bài học: Luôn phân tích theo nhóm trước khi kết luận từ dữ liệu tổng hợp
- Kiến thức: Analytical Thinking — 5 Whys, SMART Questions; Distribution & Outlier
📚 Kiến thức liên quan
| Vòng | Chủ đề chính | Kỹ năng Analytical Thinking |
|---|---|---|
| 1 | Mean vs. Median, Outlier | Đặt câu hỏi SMART: "Trung bình nào?" |
| 2 | Scales of Measurement | Phân loại dữ liệu trước khi phân tích |
| 3 | Sampling Bias | 5 Whys: "Tại sao 92%? Ai bị bỏ sót?" |
| 4 | Skewness, Distribution | Visualize dữ liệu trước khi kết luận |
| 5 | IQR, Z-score, Data Quality | Data validation & cleaning |
| 6 | Hypothesis Testing, Causation | Structured thinking, null hypothesis |
| 7 | Simpson's Paradox, Segmentation | Disaggregate data, tư duy phản biện |
Chuỗi tư duy thám tử thống kê:
Nhận báo cáo → Hỏi "Dữ liệu loại gì?" → Kiểm tra distribution
→ Check outlier (IQR/Z) → Xác minh sampling → Phân tích theo segment
→ Kiểm định hypothesis → Kết luận có cơ sở🔗 Xem thêm Buổi 2
→ 📘 Nội dung chính → 📝 Blog → 🧠 Case Study → 🏆 Tiêu chuẩn → 🛠 Workshop