🎮 Mini Game Buổi 2: Statistics Detective

Bạn là thám tử thống kê — được các công ty thuê để kiểm tra báo cáo. Nhiệm vụ: tìm ra lỗi sai ẩn trong 7 báo cáo kinh doanh trước khi chúng gây thiệt hại!

🎯 Mục tiêu học tập

Sau khi hoàn thành game, bạn sẽ:

Phân biệt khi nào dùng mean, median, mode phù hợp
Nhận diện sai lầm khi áp dụng thống kê cho sai loại dữ liệu (nominal, ordinal, interval, ratio)
Phát hiện sampling bias và các lỗi thu thập dữ liệu phổ biến
Hiểu ảnh hưởng của distribution shape đến việc diễn giải số liệu
Áp dụng IQR / Z-score để phát hiện outlier
Phân biệt correlation vs. causation và hiểu null/alternative hypothesis
Nhận ra Simpson's Paradox khi dữ liệu tổng hợp che giấu xu hướng thực

📜 Luật chơi

┌─────────────────────────────────────────────────────┐
│  BẠN = Statistics Detective 🕵️                      │
│  NHIỆM VỤ = Audit 7 báo cáo kinh doanh            │
│  MỖI VÒNG = 1 báo cáo chứa 1 lỗi thống kê ẩn     │
│  3 LỰA CHỌN mỗi vòng — chỉ 1 đáp án tốt nhất     │
│  THỜI GIAN = 90 giây/vòng (nhanh = bonus XP)       │
│  MỤC TIÊU = Thu thập ≥ 80 XP để đạt hạng Gold 🥇  │
└─────────────────────────────────────────────────────┘

Cách tính điểm mỗi vòng:

Thời gian trả lời	Speed Bonus
≤ 30 giây	+5 XP
31–60 giây	+3 XP
61–90 giây	+1 XP
> 90 giây (hết giờ)	0 XP, tự động chọn sai

🎲 Cơ chế game

Chỉ số theo dõi

Chỉ số	Icon	Mô tả	Mục tiêu
Accuracy	🎯	Số câu chọn đúng đáp án tốt nhất	≥ 6/7
Speed	⏱️	Tổng thời gian & speed bonus	Tối đa 35 bonus XP
Detection Rate	🔍	% lỗi thống kê phát hiện chính xác	≥ 80%

Công thức XP

XP vòng = Accuracy Points + Speed Bonus + Random Event Modifier
XP tổng = Σ (XP vòng 1..7) + Badge Bonus

📋 Kịch bản chi tiết

🔎 Vòng 1: Báo cáo lương "hấp dẫn"

Độ khó: ⭐ Dễ — Warm-up

📄 Báo cáo:

Công ty startup DataViet JSC đăng tin tuyển dụng trên LinkedIn:

"Tham gia đội Data của chúng tôi! Lương trung bình (average salary) đội data là 25 triệu/tháng — cạnh tranh nhất thị trường cho fresher!"

📊 Dữ liệu thực tế (10 người):

#	Vị trí	Lương (triệu/tháng)
1	Junior Analyst	12
2	Junior Analyst	13
3	Junior Analyst	12
4	Data Analyst	15
5	Data Analyst	14
6	Data Analyst	15
7	Data Analyst	14
8	Senior Analyst	15
9	Data Lead	40
10	CTO (kiêm data)	80

Mean = (12+13+12+15+14+15+14+15+40+80) / 10 = 23 triệu ≈ 25 triệu (làm tròn)
Median = (14+15) / 2 = 14.5 triệu

🕵️ Câu hỏi: Lỗi thống kê trong báo cáo tuyển dụng này là gì?

Lựa chọn	Hành động	Accuracy	Speed	Detection
A ✅	"Dùng mean bị outlier kéo lệch (CTO 80tr, Lead 40tr). Phải dùng median = 14.5 triệu mới phản ánh đúng mức lương phổ biến"	+10	+1~5	+10
B	"Sample size 10 người quá nhỏ, không đại diện"	+3	+1~5	+3
C	"Không có vấn đề gì, 25 triệu là lương trung bình đúng"	0	0	0

🔎 Vòng 2: Marketing report dùng sai loại data

Độ khó: ⭐ Dễ

📄 Báo cáo:

Đội Marketing của sàn thương mại điện tử ShopNow báo cáo Q4:

"Điểm hài lòng trung bình (mean satisfaction) của khách hàng đạt 3.7/5 sao — tăng 0.3 so với Q3. Standard deviation = 0.8, cho thấy đánh giá khá đồng đều."

📊 Dữ liệu:

Thang đo: 1⭐ = Rất tệ, 2⭐ = Tệ, 3⭐ = Bình thường, 4⭐ = Tốt, 5⭐ = Rất tốt
Loại dữ liệu: Ordinal scale (thứ tự có ý nghĩa, khoảng cách giữa các mức KHÔNG đều)

🕵️ Câu hỏi: Lỗi thống kê nào đang ẩn trong báo cáo này?

Lựa chọn	Hành động	Accuracy	Speed	Detection
A ✅	"Dữ liệu ordinal (star rating) — không nên dùng mean và standard deviation. Phải dùng median và mode, hoặc báo cáo phân bố tần suất"	+10	+1~5	+10
B	"Cần so sánh với đối thủ mới có ý nghĩa"	+2	+1~5	+2
C	"Standard deviation 0.8 là quá cao"	+1	+1~5	+1

🔎 Vòng 3: Survey sampling bias

Độ khó: ⭐⭐ Trung bình

📄 Báo cáo:

Ngân hàng số FinViet khảo sát khách hàng và công bố:

"92% khách hàng hài lòng với dịch vụ ngân hàng số của chúng tôi! Khảo sát trên 5,000 người — sample size rất lớn và đáng tin cậy."

📊 Chi tiết khảo sát:

Khảo sát qua push notification trên app FinViet
Thời gian: 10h–12h ngày thường
Chỉ người đang active trên app nhận được khảo sát
Tổng khách hàng FinViet: 2 triệu (bao gồm cả người dùng chi nhánh, ATM, không dùng app)

🕵️ Câu hỏi: Báo cáo khảo sát này có lỗi gì?

Lựa chọn	Hành động	Accuracy	Speed	Detection
A	"5,000 người là sample size quá nhỏ so với 2 triệu"	+2	+1~5	+2
B ✅	"Sampling bias — chỉ khảo sát user đang active trên app (convenience sampling). Người không dùng app, người không hài lòng đã bỏ app không được hỏi. Kết quả không đại diện cho toàn bộ khách hàng"	+10	+1~5	+10
C	"Thời gian khảo sát 10h–12h là bất hợp lý"	+3	+1~5	+3

🔎 Vòng 4: Bỏ qua distribution shape

Độ khó: ⭐⭐ Trung bình

📄 Báo cáo:

Sàn e-commerce MuaNhanh báo cáo cho nhà đầu tư:

"Giá trị đơn hàng trung bình (AOV) đạt 1,200,000 VNĐ — tăng 20% YoY. Khách hàng chi tiêu mạnh hơn nhờ chiến lược upsell."

📊 Dữ liệu phân bố đơn hàng (1 tháng, 100K đơn):

 Frequency
 │
 █
 █ █
 █ █ █
 █ █ █ █
 █ █ █ █ █             █     █
 ┼──┼──┼──┼──┼──┼──┼──┼──┼──┼──→ Giá trị (triệu VNĐ)
 0.1 0.2 0.3 0.5 0.8 1.2 2.0 5.0 10  50

Median = 350,000 VNĐ
Mode = 200,000 VNĐ
Mean = 1,200,000 VNĐ (bị kéo bởi đơn hàng luxury 10–50 triệu)
Distribution: Right-skewed (lệch phải)

🕵️ Câu hỏi: Lỗi trong cách diễn giải báo cáo AOV?

Lựa chọn	Hành động	Accuracy	Speed	Detection
A	"Tăng 20% YoY có thể do lạm phát, không phải upsell"	+3	+1~5	+3
B	"100K đơn/tháng chưa đủ lớn"	0	0	0
C ✅	"Distribution right-skewed — mean = 1.2tr bị đơn luxury kéo lệch. Median chỉ 350K. Phần lớn khách chi tiêu rất thấp, dùng mean gây hiểu sai về hành vi chi tiêu thực"	+10	+1~5	+10

🔎 Vòng 5: Outlier không được phát hiện

Độ khó: ⭐⭐⭐ Khó

📄 Báo cáo:

Công ty fintech PayFast báo cáo doanh thu Q3:

"Doanh thu trung bình mỗi merchant đạt 85 triệu/tháng, tăng trưởng ấn tượng 40% so với Q2 (60 triệu/tháng)."

📊 Dữ liệu 20 merchant (triệu VNĐ/tháng):

Merchant	Q2	Q3
M1–M18	45–70	48–75
M19	65	72
M20	68	750 ❗

M20 Q3: Nhân viên nhập liệu gõ 750 thay vì 75 (lỗi data entry, gấp 10 lần)
Không ai kiểm tra outlier trước khi báo cáo
Mean có M20: 85 triệu → Mean không M20: ≈ 62 triệu (tăng chỉ ~3%)
IQR check: Q1 = 52, Q3 = 72, IQR = 20, Upper fence = 72 + 1.5×20 = 102. M20 = 750 >> 102 → Outlier rõ ràng

🕵️ Câu hỏi: Tại sao tăng trưởng 40% là đáng ngờ?

Lựa chọn	Hành động	Accuracy	Speed	Detection
A ✅	"Outlier do data entry error — M20 = 750 (gấp 10x thực tế). Dùng IQR: upper fence = 102, giá trị 750 là outlier. Bỏ outlier → tăng trưởng chỉ ~3%, không phải 40%"	+10	+1~5	+10
B	"Sample 20 merchant quá nhỏ"	+2	+1~5	+2
C	"Nên so sánh YoY thay vì QoQ"	+1	+1~5	+1

🔎 Vòng 6: Kết luận nhân quả không kiểm định

Độ khó: ⭐⭐⭐ Khó

📄 Báo cáo:

Đội Growth Marketing của ứng dụng FoodGo báo cáo:

"Chiến dịch KOL tháng 8 thành công rực rỡ — doanh thu tăng 25% so với tháng 7! ROI chiến dịch đạt 300%. Đề xuất tăng gấp đôi ngân sách KOL cho Q4."

📊 Bối cảnh thực tế:

Tháng 8: mùa tựu trường, nhu cầu đặt đồ ăn tăng tự nhiên (seasonality)
Tháng 8 năm trước cũng tăng 22% so với tháng 7 (không có campaign)
Không có control group (nhóm không tiếp xúc KOL)
Không thực hiện A/B test hay hypothesis testing
H₀: Chiến dịch KOL không ảnh hưởng doanh thu
H₁: Chiến dịch KOL làm tăng doanh thu
Chưa có bằng chứng bác bỏ H₀

🕵️ Câu hỏi: Lỗi trong kết luận của đội Marketing?

Lựa chọn	Hành động	Accuracy	Speed	Detection
A	"ROI 300% là cách tính sai"	+1	+1~5	+1
B ✅	"Correlation ≠ Causation. Doanh thu tăng trùng với mùa tự nhiên (seasonality). Không có control group, không có hypothesis test → chưa bác bỏ H₀. Không thể kết luận KOL gây ra tăng trưởng"	+10	+1~5	+10
C	"25% tăng trưởng quá thấp để kết luận thành công"	+3	+1~5	+3

🔎 Vòng 7: Simpson's Paradox — Dữ liệu tổng hợp lừa dối

Độ khó: ⭐⭐⭐⭐ Rất khó — Boss Round 🏴‍☠️

📄 Báo cáo:

Chuỗi bán lẻ MegaMart so sánh 2 chiến lược giảm giá:

"Chiến lược A (giảm 10%) có tỷ lệ chuyển đổi tổng = 45%. Chiến lược B (giảm 20%) có tỷ lệ chuyển đổi tổng = 42%. → Kết luận: Chiến lược A hiệu quả hơn, không cần giảm sâu!"

📊 Dữ liệu chi tiết theo phân khúc:

Phân khúc	Chiến lược A	Chiến lược B
Khách hàng mới	120/400 = 30%	200/500 = 40% ✅
Khách hàng cũ	330/600 = 55%	220/400 = 55% =
Tổng	450/1000 = 45% ✅	420/900 = 46.7%

Thực tế khi tính lại: B tổng = 46.7% > A tổng = 45%. Nhưng quan trọng hơn — B tốt hơn ở phân khúc khách mới (40% vs 30%), và bằng nhau ở khách cũ (55% vs 55%).

Tại sao tổng hợp bị lệch?

Chiến lược A được chạy nhiều hơn cho khách cũ (base rate cao sẵn = 55%)
Chiến lược B được chạy nhiều hơn cho khách mới (base rate thấp = 30-40%)
Tỷ lệ phân bổ không đều → tổng hợp bị Simpson's Paradox

🕵️ Câu hỏi: Kết luận "A tốt hơn B" có chính xác không?

Lựa chọn	Hành động	Accuracy	Speed	Detection
A	"Cần A/B test lâu hơn"	+2	+1~5	+2
B	"Giảm 20% luôn tốt hơn giảm 10% — chọn B"	+1	+1~5	+1
C ✅	"Simpson's Paradox — dữ liệu tổng hợp bị lừa do confounding variable (tỷ lệ phân bổ khách mới/cũ khác nhau). Khi phân tích theo segment, B tốt hơn ở khách mới (40% vs 30%) và bằng ở khách cũ. Phải phân tích theo phân khúc"	+15	+1~5	+15

⚡ Sự kiện ngẫu nhiên

Mỗi vòng có 20% xác suất kích hoạt 1 sự kiện ngẫu nhiên. Sự kiện có thể giúp hoặc cản trở thám tử!

#	Sự kiện	Xác suất	Ảnh hưởng
1	📊 Data Dump — Bạn nhận thêm 1 bảng dữ liệu raw phụ trợ	15%	Hiển thị thêm bảng dữ liệu gợi ý → dễ nhận ra lỗi hơn. +2 Accuracy bonus nếu trả lời đúng
2	⏰ Deadline Crunch — Sếp gọi điện giục báo cáo gấp!	20%	Thời gian vòng này giảm còn 45 giây (thay vì 90). Speed bonus x2 nếu vẫn đúng
3	🤝 Peer Review — Đồng nghiệp gửi hint qua Slack	10%	Loại bỏ 1 đáp án sai → còn 2 lựa chọn. Detection +3 bonus
4	🌀 Misleading Chart — Báo cáo kèm biểu đồ bị manipulate (trục Y cắt, 3D pie chart...)	15%	Thêm 1 lớp nhiễu thị giác. Nếu vẫn chọn đúng: +5 XP bonus
5	📰 Media Pressure — Báo chí đã đăng số liệu sai, áp lực không sửa	10%	Xuất hiện thêm lựa chọn D: "Giữ nguyên vì báo đã đăng" — chọn D = -5 XP
6	🎓 Mentor Call — Giáo sư thống kê gọi video hỗ trợ	5%	Hiển thị công thức liên quan (IQR, Z-score, etc.) trong 15 giây. Very rare nhưng rất hữu ích

🏆 Hệ thống xếp hạng

Tổng XP tối đa lý thuyết: 75 (Accuracy) + 35 (Speed) + 75 (Detection) + bonus events ≈ 185+ XP

Rank	Điều kiện	Phần thưởng	Mô tả
🥇 Gold	≥ 80 XP	100 XP	Thám tử thống kê hạng nhất — mọi báo cáo sai đều bị phát hiện
🥈 Silver	≥ 55 XP	70 XP	Analyst có mắt tinh — thỉnh thoảng bỏ sót nhưng nhìn chung tốt
🥉 Bronze	≥ 35 XP	40 XP	Junior detective — cần luyện tập thêm critical thinking
❌ Fail	< 35 XP	10 XP	Bạn đã ký duyệt báo cáo sai... thời gian quay lại ôn bài!

🎖️ Badge đặc biệt

Badge	Điều kiện	Mô tả
🏅 Perfect Detective	7/7 câu đúng (chọn đáp án tốt nhất)	Không một lỗi nào lọt qua mắt bạn
⚡ Speed Demon	Tổng thời gian ≤ 3 phút (cả 7 vòng)	Phản xạ thống kê cực nhanh
🧠 Deep Thinker	Đúng cả Vòng 5 + 6 + 7 (3 vòng khó)	Xử lý được outlier, hypothesis và Simpson's Paradox
🛡️ Bias Buster	Đúng Vòng 2 + 3 (sampling bias & data type)	Chuyên gia phát hiện bias trong nghiên cứu
🎰 Lucky Detective	Kích hoạt ≥ 3 sự kiện ngẫu nhiên	Vận may đứng về phía bạn
💎 Flawless	≥ 80 XP + không bị event nào trừ điểm	Hoàn hảo dưới mọi áp lực

💡 Giải thích đáp án

Vòng 1 — Mean vs. Median khi có Outlier

Lỗi: Dùng mean khi dữ liệu có outlier (CTO 80tr, Lead 40tr).

Mean bị kéo lệch bởi giá trị cực đoan → không phản ánh mức lương "typical"
Median (14.5 triệu) phản ánh tốt hơn vì 8/10 người lương 12–15 triệu
Quy tắc: Khi distribution bị skewed hoặc có outlier → ưu tiên median
Kiến thức: Descriptive Statistics — Measures of Central Tendency

Vòng 2 — Scale of Measurement & Appropriate Statistics

Lỗi: Tính mean và standard deviation cho dữ liệu ordinal.

Star rating (1–5) là ordinal scale: thứ tự có ý nghĩa nhưng khoảng cách giữa 1⭐→2⭐ không nhất thiết = 4⭐→5⭐
Mean chỉ có ý nghĩa với interval và ratio scale
Ordinal → dùng median, mode, hoặc frequency distribution
Kiến thức: Data Types — Scales of Measurement (nominal, ordinal, interval, ratio)

Vòng 3 — Sampling Bias

Lỗi: Convenience sampling — chỉ khảo sát người đang dùng app.

Người đã bỏ app (không hài lòng) không được hỏi → survivorship bias
Người dùng chi nhánh/ATM (phân khúc khác) không được hỏi → coverage bias
Sample size lớn (5,000) không fix được sampling bias — bias ≠ variance
Kiến thức: Hypothesis & Sampling — Sampling Methods, Bias

Vòng 4 — Distribution Shape & Central Tendency

Lỗi: Dùng mean cho dữ liệu right-skewed mà không nói rõ distribution.

Right-skewed: mean > median > mode
Mean = 1.2tr bị kéo bởi đơn hàng luxury (5–50 triệu)
Phần lớn khách hàng chỉ chi 200–350K → median mới phản ánh hành vi thực
Kiến thức: Distribution & Outlier — Skewness, Normal Distribution

Vòng 5 — Outlier Detection (IQR method)

Lỗi: Không kiểm tra outlier trước khi tính aggregate → data entry error làm sai toàn bộ.

IQR method: Q1 = 52, Q3 = 72, IQR = 20
- Lower fence = Q1 - 1.5×IQR = 52 - 30 = 22
- Upper fence = Q3 + 1.5×IQR = 72 + 30 = 102
- M20 = 750 >> 102 → Outlier
Z-score: Nếu σ ≈ 15, Z = (750 - 62) / 15 ≈ 45.8 >> 3 → Extreme outlier
Bài học: Luôn check outlier trước khi report aggregate statistics
Kiến thức: Distribution & Outlier — IQR Outlier Detection, Z-score

Vòng 6 — Hypothesis Testing & Causation

Lỗi: Kết luận nhân quả (KOL → tăng doanh thu) mà không kiểm định hypothesis.

Correlation ≠ Causation: doanh thu tăng và KOL campaign xảy ra cùng lúc ≠ KOL gây ra tăng trưởng
Confounding variable: seasonality (mùa tựu trường) — năm trước cũng tăng 22%
Cần: Control group + A/B test + Hypothesis testing (bác bỏ H₀ ở significance level α)
H₀: μ_KOL = μ_no_KOL (không khác biệt)
Chưa bác bỏ H₀ → không thể kết luận KOL hiệu quả
Kiến thức: Hypothesis & Sampling — Null/Alternative Hypothesis

Vòng 7 — Simpson's Paradox

Lỗi: Phân tích aggregated data mà bỏ qua confounding variable (tỷ lệ phân bổ khách).

Simpson's Paradox: xu hướng ở dữ liệu tổng ngược lại xu hướng ở từng nhóm
Nguyên nhân: tỷ lệ phân bổ không đều giữa chiến lược A và B
- A chạy 60% cho khách cũ (conversion cao sẵn)
- B chạy 56% cho khách mới (conversion thấp sẵn)
Khi phân tích theo segment: B ≥ A ở mọi phân khúc
Bài học: Luôn phân tích theo nhóm trước khi kết luận từ dữ liệu tổng hợp
Kiến thức: Analytical Thinking — 5 Whys, SMART Questions; Distribution & Outlier

📚 Kiến thức liên quan

Vòng	Chủ đề chính	Kỹ năng Analytical Thinking
1	Mean vs. Median, Outlier	Đặt câu hỏi SMART: "Trung bình nào?"
2	Scales of Measurement	Phân loại dữ liệu trước khi phân tích
3	Sampling Bias	5 Whys: "Tại sao 92%? Ai bị bỏ sót?"
4	Skewness, Distribution	Visualize dữ liệu trước khi kết luận
5	IQR, Z-score, Data Quality	Data validation & cleaning
6	Hypothesis Testing, Causation	Structured thinking, null hypothesis
7	Simpson's Paradox, Segmentation	Disaggregate data, tư duy phản biện

Chuỗi tư duy thám tử thống kê:

Nhận báo cáo → Hỏi "Dữ liệu loại gì?" → Kiểm tra distribution
    → Check outlier (IQR/Z) → Xác minh sampling → Phân tích theo segment
    → Kiểm định hypothesis → Kết luận có cơ sở

🔗 Xem thêm Buổi 2

→ 📘 Nội dung chính → 📝 Blog → 🧠 Case Study → 🏆 Tiêu chuẩn → 🛠 Workshop

🎮 Mini Game Buổi 2: Statistics Detective ​

🎯 Mục tiêu học tập ​

📜 Luật chơi ​

🎲 Cơ chế game ​

Chỉ số theo dõi ​

Công thức XP ​

📋 Kịch bản chi tiết ​

🔎 Vòng 1: Báo cáo lương "hấp dẫn" ​

🔎 Vòng 2: Marketing report dùng sai loại data ​

🔎 Vòng 3: Survey sampling bias ​

🔎 Vòng 4: Bỏ qua distribution shape ​

🔎 Vòng 5: Outlier không được phát hiện ​

🔎 Vòng 6: Kết luận nhân quả không kiểm định ​

🔎 Vòng 7: Simpson's Paradox — Dữ liệu tổng hợp lừa dối ​

⚡ Sự kiện ngẫu nhiên ​

🏆 Hệ thống xếp hạng ​

🎖️ Badge đặc biệt ​

💡 Giải thích đáp án ​

Vòng 1 — Mean vs. Median khi có Outlier ​

Vòng 2 — Scale of Measurement & Appropriate Statistics ​

Vòng 3 — Sampling Bias ​

Vòng 4 — Distribution Shape & Central Tendency ​

Vòng 5 — Outlier Detection (IQR method) ​

Vòng 6 — Hypothesis Testing & Causation ​

Vòng 7 — Simpson's Paradox ​

📚 Kiến thức liên quan ​

🔗 Xem thêm Buổi 2 ​

🎮 Mini Game Buổi 2: Statistics Detective

🎯 Mục tiêu học tập

📜 Luật chơi

🎲 Cơ chế game

Chỉ số theo dõi

Công thức XP

📋 Kịch bản chi tiết

🔎 Vòng 1: Báo cáo lương "hấp dẫn"

🔎 Vòng 2: Marketing report dùng sai loại data

🔎 Vòng 3: Survey sampling bias

🔎 Vòng 4: Bỏ qua distribution shape

🔎 Vòng 5: Outlier không được phát hiện

🔎 Vòng 6: Kết luận nhân quả không kiểm định

🔎 Vòng 7: Simpson's Paradox — Dữ liệu tổng hợp lừa dối

⚡ Sự kiện ngẫu nhiên

🏆 Hệ thống xếp hạng

🎖️ Badge đặc biệt

💡 Giải thích đáp án

Vòng 1 — Mean vs. Median khi có Outlier

Vòng 2 — Scale of Measurement & Appropriate Statistics

Vòng 3 — Sampling Bias

Vòng 4 — Distribution Shape & Central Tendency

Vòng 5 — Outlier Detection (IQR method)

Vòng 6 — Hypothesis Testing & Causation

Vòng 7 — Simpson's Paradox

📚 Kiến thức liên quan

🔗 Xem thêm Buổi 2