Appearance
🎮 Project Kickoff — Chọn Đúng Scope, Tool & Timeline!
Bạn vừa hoàn thành khóa Data Analytics 17 buổi, giờ đến lúc kickoff capstone project 🚀. Nhưng bắt đầu project ĐÚNG CÁCH là bước quan trọng nhất — chọn sai đề tài = 2 tuần lãng phí. Chọn sai dataset = phân tích sai. Lập timeline sai = deadline miss. 5 vòng, mỗi vòng: 1 quyết định critical. Chọn đúng = XP. Chọn sai = project fail trước khi bắt đầu! 🚨
🎯 Mục tiêu học tập
Sau khi hoàn thành game, bạn sẽ:
- Chọn đề tài phù hợp — đánh giá tiêu chí DRBST
- Đánh giá dataset — phát hiện red flags trước khi commit
- Viết business questions tốt — cụ thể, measurable, actionable
- Chọn tools phù hợp — đúng tool cho đúng task
- Lập timeline thực tế — không quá tham, không quá ít
📜 Luật chơi
┌──────────────────────────────────────────────────────────┐
│ BẠN = Fresh Grad DA 🎓, kickoff capstone project │
│ MỖI VÒNG = 1 quyết định project → 4 lựa chọn │
│ CHỌN đúng quyết định = XP │
│ MỤC TIÊU = Thu thập ≥ 80 XP để đạt hạng Gold 🥇 │
└──────────────────────────────────────────────────────────┘Cách tính điểm mỗi vòng:
| Thành phần | XP |
|---|---|
| Trả lời đúng | +18 XP (Vòng 1–2), +20 XP (Vòng 3–4), +22 XP (Vòng 5) |
| Trả lời sai | +0 XP |
| Không dùng hint | +2 XP bonus ⚡ |
| Giải thích đúng lý do | +3 XP bonus 🧠 |
Tổng XP tối đa: 18+18+20+20+22 = 98 XP (chưa tính bonus)
Nguyên tắc quan trọng:
- 🎯 Project decisions > technical skills — chọn đề tài sai thì code hay cũng vô ích
- 📊 Practical > Perfect — project xong 80% tốt hơn project ambitious 30%
- 🕐 Timeline realistic — 2 tuần = 2 tuần, không phải 2 tháng compressed
🏆 Bảng xếp hạng & Huy hiệu
Ranks
| Hạng | XP | Mô tả |
|---|---|---|
| 🥇 Gold — Project Strategist | ≥ 80 XP | Bạn kickoff project như senior DA — scope đúng, timeline hợp lý! |
| 🥈 Silver — Good Planner | ≥ 55 XP | Tốt! Đôi chỗ cần suy nghĩ thêm — đọc lại Phần 1 & 3 Buổi 18. |
| 🥉 Bronze — Beginner Planner | ≥ 30 XP | Hiểu cơ bản nhưng dễ chọn sai scope/timeline. Ôn lại toàn bộ. |
| 💀 Game Over | < 30 XP | Project chưa bắt đầu đã fail — quay lại Buổi 18 từ đầu! |
Huy hiệu đặc biệt
| Badge | Điều kiện | Mô tả |
|---|---|---|
| 🎯 Scope Master | Đúng Vòng 1 + Vòng 2 | Chọn đề tài và dataset chuẩn! |
| 📋 Question Crafter | Đúng Vòng 3 | Viết business questions level pro! |
| 🛠️ Tool Picker | Đúng Vòng 4 | Chọn đúng tool cho đúng task! |
| 🕐 Timeline Realist | Đúng Vòng 5 | Lập timeline thực tế — rare skill! |
| 🔥 Full Streak | 5/5 vòng đúng | Perfect project planning! |
| 💡 No Hints Hero | Không dùng hint cả game | Pure project management intuition! |
🎲 Chỉ số theo dõi
┌──────────────────────────────────────────────────────┐
│ XP hiện tại: [___] / 98 │
│ Vòng: [___] / 5 │
│ Streak: [___] │
│ Hints đã dùng: [___] │
│ Hạng dự kiến: [___] │
│ Badges: [___] │
└──────────────────────────────────────────────────────┘🎲 Vòng 1: Chọn Đề Tài Capstone — DRBST Test (18 XP)
📋 Tình huống
Bạn là fresh grad DA, vừa hoàn thành khóa học 17 buổi. Deadline nộp capstone: 2 tuần. Bạn cần chọn 1 đề tài portfolio project. 4 bạn cùng lớp đề xuất 4 ideas khác nhau:
| Option | Đề tài | Dataset | Mô tả |
|---|---|---|---|
| A | 🚢 Titanic Survival Prediction | Kaggle Titanic (891 rows) | Classic ML prediction — ai sống, ai chết trên Titanic |
| B | 📊 E-commerce Customer Segmentation | Olist Brazil (100K orders, 8 tables) | Segment khách hàng, analyze delivery impact, forecast revenue |
| C | 🌍 Climate Change Global Analysis | NASA + NOAA (50 years, terabytes) | Phân tích biến đổi khí hậu toàn cầu, dự báo nhiệt độ 2050 |
| D | 📱 TikTok Trending Video Analysis | Tự scrape TikTok API (need auth) | Phân tích trend videos, predict viral content |
💡 Hint (−2 XP)
Nhớ tiêu chí DRBST: Data Available, Real Business Context, Business Impact, Scope 2 tuần, Tell-able Story. Đánh giá mỗi option theo 5 tiêu chí.
✅ Đáp án đúng: B — E-commerce Customer Segmentation
Giải thích chi tiết:
| Tiêu chí | A (Titanic) | B (E-commerce) ✅ | C (Climate) | D (TikTok) |
|---|---|---|---|---|
| D — Data Available | ✅ Có nhưng nhỏ (891 rows) | ✅ 100K rows, 8 tables | ⚠️ Quá lớn, phức tạp | ❌ Cần scrape, auth issues |
| R — Real Business | ❌ Historical, overused | ✅ E-commerce marketplace | ⚠️ Research, không DA job | ⚠️ Entertainment domain |
| B — Business Impact | ❌ No actionable insight | ✅ Segmentation → marketing | ⚠️ Policy, not business | ⚠️ Vague impact |
| S — Scope 2 tuần | ✅ Quá nhỏ (2 giờ xong) | ✅ Vừa vặn | ❌ Quá lớn (2 tháng+) | ❌ Data collection = 1 tuần |
| T — Tell-able | ❌ Ai cũng biết story | ✅ "100K orders — segment nào?" | ⚠️ Khó kể 5 phút | ⚠️ Trendy nhưng shallow |
| Score | 2/5 | 5/5 | 1.5/5 | 1.5/5 |
Tại sao B thắng:
- Data có sẵn, đủ lớn, đa dạng (8 tables = showcase SQL JOIN skills)
- Business context relevant cho e-commerce companies (Shopee, Tiki, Lazada)
- 100K orders = đủ scope cho 2 tuần: clean + EDA + segmentation + dashboard
- Tell-able: "Marketplace 100K orders — segment nào giá trị nhất?"
🎲 Vòng 2: Đánh giá Dataset — Red Flags (18 XP)
📋 Tình huống
Bạn đã chọn đề tài. Bây giờ cần chọn dataset. Bạn tìm thấy 4 datasets trên Kaggle cho customer churn analysis:
| Option | Dataset | Size | Missing | Last Updated | Details |
|---|---|---|---|---|---|
| A | Telecom Churn v1 | 3,333 rows × 20 cols | 0% | 2019 | Clean, nhưng nhỏ và cũ |
| B | Telecom Churn v2 | 7,043 rows × 21 cols | 0.7% | 2023 | Well-documented, balanced classes |
| C | Mega Churn Dataset | 500K rows × 5 cols | 42% | 2024 | Rất lớn nhưng ít features, missing cao |
| D | Custom Churn (synthetic) | 50K rows × 30 cols | 0% | 2025 | Tự generate bằng Faker, perfect data |
💡 Hint (−2 XP)
Nhớ Dataset Evaluation Checklist. Xem xét: size đủ lớn? missing values hợp lý? Đủ features? Data thật hay synthetic? Documentation có không?
✅ Đáp án đúng: B — Telecom Churn v2 (7,043 rows × 21 cols)
Giải thích chi tiết:
| Tiêu chí | A | B ✅ | C | D |
|---|---|---|---|---|
| Size ≥ 1,000 | ✅ 3,333 (vừa đủ) | ✅ 7,043 (tốt) | ✅ 500K (quá lớn cho scope) | ✅ 50K |
| ≥ 8 columns | ✅ 20 cols | ✅ 21 cols | ❌ 5 cols (quá ít!) | ✅ 30 cols |
| Missing ≤ 30% | ✅ 0% | ✅ 0.7% | ❌ 42% (quá cao!) | ✅ 0% |
| Documentation | ⚠️ Basic | ✅ Well-documented | ⚠️ Minimal | ⚠️ Self-documented |
| Data thật | ✅ | ✅ | ✅ | ❌ Synthetic! |
| Không quá cũ | ❌ 2019 (6 năm) | ✅ 2023 (2 năm) | ✅ 2024 | ✅ 2025 |
| Score | 4/6 | 6/6 | 2/6 | 4/6 |
Red flags cần nhận ra:
- A: Size vừa đủ nhưng từ 2019 — cũ, patterns có thể outdated
- C: 42% missing = data quality nightmare. 5 features = phân tích shallow
- D: Synthetic data = instant red flag cho portfolio! Hiring managers biết ngay data fake → mất credibility
- B: Sweet spot — 7K rows đủ cho analysis + ML, 21 features đa dạng, well-documented, data thật
🎲 Vòng 3: Viết Business Questions — Quality Check (20 XP)
📋 Tình huống
Bạn có dataset E-commerce (Olist, 100K orders). Cần viết business questions cho capstone. 4 sinh viên viết 4 bộ questions khác nhau. Bộ nào TỐT NHẤT?
Option A — "The Statistician":
- Mean, median, mode của order_value?
- Standard deviation của delivery_time?
- Correlation coefficient giữa price và review_score?
- Distribution chi-square test cho payment_type?
Option B — "The Business Thinker":
- Customer segments nào (RFM) có highest LTV, và marketing strategy nào cho mỗi segment?
- Delivery time ảnh hưởng thế nào đến review rating? Threshold nào gây negative experience?
- Revenue trend 12 tháng — seasonal patterns nào? Forecast Q+1?
- Top 10% sellers contribute bao nhiêu % revenue? Bottom sellers có quality concern?
- Category nào growing fastest? Product mix optimization opportunity?
Option C — "The Ambitious":
- Xây real-time recommendation engine cho 100K customers
- Predict exact revenue cho Q1 2026 down to the dollar
- Build NPS prediction model with 99% accuracy
- Create automated pricing algorithm
Option D — "The Vague":
- Data có gì thú vị?
- Customers thế nào?
- Revenue có đều không?
- Products bán ra sao?
💡 Hint (−2 XP)
Business questions tốt = cụ thể metric + so sánh được + dẫn đến action. Không quá technical (A), không quá ambitious (C), không quá vague (D).
✅ Đáp án đúng: B — "The Business Thinker"
Giải thích chi tiết:
| Tiêu chí | A | B ✅ | C | D |
|---|---|---|---|---|
| Cụ thể metric | ✅ Quá technical | ✅ LTV, revenue, RFM, % | ⚠️ Metrics nhưng unrealistic | ❌ Vague hoàn toàn |
| So sánh được | ❌ Chỉ mô tả, không so sánh | ✅ Segments, categories, sellers | ❌ No comparison points | ❌ Không rõ so sánh gì |
| Dẫn đến action | ❌ "So what?" | ✅ Marketing strategy, optimization | ❌ Không actionable cho DA | ❌ Không biết action gì |
| Feasible trong 2 tuần | ✅ Quá đơn giản | ✅ Vừa vặn | ❌ Cần ML team + months | ✅ Quá đơn giản |
| Showcase skills | ❌ Chỉ statistics API | ✅ EDA + segmentation + forecast + BI | ❌ Over-engineering | ❌ Không show gì |
Tại sao B thắng:
- Mỗi question = metric rõ (LTV, review rating, revenue%, delivery threshold)
- Mỗi question dẫn đến recommendation (marketing strategy, product mix, seller management)
- Questions escalate complexity: descriptive → diagnostic → predictive
- Showcase skills đa dạng: SQL, Python, BI, Statistics, possible ML
- 5 questions, 2 tuần = vừa vặn workload
🎲 Vòng 4: Chọn Tools — Right Tool for Right Task (20 XP)
📋 Tình huống
Capstone project: E-commerce Customer Segmentation. Bạn cần chọn tool stack phù hợp. 4 classmates đề xuất 4 stack khác nhau:
| Option | Stack | Mô tả |
|---|---|---|
| A | Excel only | Pivot tables, charts, VLOOKUP. "Đơn giản nhất, ai cũng dùng" |
| B | Python (pandas, matplotlib, seaborn) + SQL + Tableau/Power BI | "Full stack DA — clean, analyze, visualize, present" |
| C | Python + R + Julia + Spark + Airflow + Docker + Kubernetes | "Full ML Engineering stack — impressive CV!" |
| D | Tableau only | "Drag and drop, no code needed. Dashboard beautiful!" |
💡 Hint (−2 XP)
Tool phù hợp = đủ mạnh cho task + bạn đã biết dùng + showcase được skills nhà tuyển dụng cần. Không quá đơn giản (A), không quá complex (C).
✅ Đáp án đúng: B — Python + SQL + Tableau/Power BI
Giải thích chi tiết:
| Tiêu chí | A (Excel) | B (Python+SQL+BI) ✅ | C (Everything) | D (Tableau only) |
|---|---|---|---|---|
| Đủ mạnh cho task | ⚠️ Limited cho 100K rows | ✅ Handle tất cả | ✅ Overkill | ⚠️ Limited analysis |
| Đã biết dùng (17 buổi) | ✅ | ✅ | ❌ Julia, Spark, K8s = mới | ✅ |
| Showcase DA skills | ❌ Basic quá | ✅ SQL + Python + BI = trifecta | ❌ Looks like ML engineer, not DA | ⚠️ Chỉ viz, thiếu code |
| Thời gian setup | ✅ 0 | ✅ 30 phút | ❌ 3+ ngày setup | ✅ 15 phút |
| Hiring manager expect | ❌ | ✅ Top 3 skills DA | ❌ Different role | ⚠️ Missing SQL/Python |
Tại sao B thắng:
Python + SQL + Tableau/Power BI = DA Trifecta — đây là 3 skills mà 95% JD Junior DA yêu cầu:
📋 JD Junior DA (typical):
Required Skills:
✅ SQL — queries, joins, aggregations → Showcase bằng data extraction
✅ Python — pandas, visualization → Showcase bằng EDA + analysis
✅ BI Tool — Tableau hoặc Power BI → Showcase bằng interactive dashboard
Nice to have:
⚠️ Excel — pivot tables → Appendix/supplementary
⚠️ ML — basic classification/regression → Bonus project sectionA sai vì: Excel limit 1M rows, không reproducible, không show code skill C sai vì: 70% thời gian = setup tools mới, không phải analysis. Over-engineering = red flag (bạn không biết right-size tools) D sai vì: Hiring manager hỏi "show me your SQL/Python" = game over
🎲 Vòng 5: Lập Timeline — Reality Check (22 XP)
📋 Tình huống
Bạn có 14 ngày cho capstone. 4 classmates lập 4 timeline khác nhau:
Option A — "The Perfectionist":
| Day | Task |
|---|---|
| 1-5 | Data cleaning (perfect every column) |
| 6-10 | EDA (50+ charts, analyze everything) |
| 11-13 | Dashboard + Presentation |
| 14 | Push to GitHub |
Option B — "The Balanced":
| Day | Task |
|---|---|
| 1 | Dataset audit + Project brief |
| 2 | Data cleaning + wrangling |
| 3-4 | EDA (distributions, correlations, key patterns) |
| 5 | Analysis Q1-Q2 (segmentation, metrics) |
| 6-7 | Analysis Q3-Q5 (deeper analysis, optional ML) |
| 8-9 | Dashboard design + build |
| 10 | Key insights + Recommendations |
| 11-12 | Presentation slides |
| 13 | Polish GitHub repo + README |
| 14 | Review + practice present |
Option C — "The Procrastinator":
| Day | Task |
|---|---|
| 1-10 | "Research" + browse Kaggle notebooks |
| 11-13 | Frantically code everything |
| 14 | Push everything, write README, pray |
Option D — "The Sprinter":
| Day | Task |
|---|---|
| 1 | Everything: clean, EDA, analysis, dashboard, slides, README |
| 2-14 | "Polish" (aka procrastinate differently) |
💡 Hint (−2 XP)
Timeline tốt = phân bổ thời gian theo phase (clean → EDA → analysis → viz → present), có buffer, không front-load hay back-load quá mức.
✅ Đáp án đúng: B — "The Balanced"
Giải thích chi tiết:
| Tiêu chí | A | B ✅ | C | D |
|---|---|---|---|---|
| Time allocation hợp lý | ❌ 5 ngày clean (quá nhiều) | ✅ Balanced across phases | ❌ 10 ngày research | ❌ 1 ngày everything |
| Có milestone rõ | ⚠️ 3 milestones | ✅ Daily milestones, trackable | ❌ No milestones | ❌ 1 milestone |
| Buffer cho issues | ❌ | ✅ Day 14 = review + buffer | ❌ | ❌ |
| README/Portfolio time | ❌ 1 ngày cuối | ✅ Day 13 dedicated | ❌ Day 14 (rush) | ❌ Mixed with everything |
| Realistic workload/day | ⚠️ | ✅ 4-6 hours/day | ❌ Day 11-13: 16h/day | ❌ Day 1: impossible |
Phân tích chi tiết timeline B:
Week 1 (Day 1-7): DATA → ANALYSIS
├── Day 1: Setup + Audit → OUTPUT: Data audit report ✅
├── Day 2: Clean + Wrangle → OUTPUT: Clean dataset ✅
├── Day 3-4: EDA → OUTPUT: EDA notebook + patterns ✅
├── Day 5: Analysis Q1-Q2 → OUTPUT: Segmentation results ✅
├── Day 6-7: Analysis Q3-Q5 → OUTPUT: Deep analysis ✅
│
Week 2 (Day 8-14): PRESENT → POLISH
├── Day 8-9: Dashboard → OUTPUT: Interactive BI dashboard ✅
├── Day 10: Insights + Recs → OUTPUT: Insight document ✅
├── Day 11-12: Presentation → OUTPUT: Slide deck ✅
├── Day 13: GitHub + README → OUTPUT: Portfolio-ready repo ✅
└── Day 14: Review + Buffer → OUTPUT: Final check ✅Tại sao B thắng:
- Progressive milestones — mỗi ngày có output đo được
- Week 1 = substance (data + analysis), Week 2 = presentation (dashboard + slides + repo)
- Day 13 = README — dedicated time cho documentation, not afterthought
- Day 14 = buffer — unexpected bugs, feedback, practice presentation
📊 Bảng tổng kết
╔═══════════════════════════════════════════════════════════════╗
║ 🏆 KẾT QUẢ GAME ║
╠═══════════════════════════════════════════════════════════════╣
║ Vòng 1: Chọn đề tài (DRBST) [__] / 18 XP ║
║ Vòng 2: Đánh giá dataset [__] / 18 XP ║
║ Vòng 3: Business questions [__] / 20 XP ║
║ Vòng 4: Chọn tool stack [__] / 20 XP ║
║ Vòng 5: Lập timeline [__] / 22 XP ║
║ Bonus (no hints + giải thích) [__] / 25 XP ║
║ ───────────────────────────────────────────── ║
║ TỔNG: [__] / 123 XP ║
║ HẠNG: [____________] ║
║ BADGES: [____________] ║
╚═══════════════════════════════════════════════════════════════╝🎓 Bài học từ Game
| Vòng | Bài học | Áp dụng ngay |
|---|---|---|
| 1 | DRBST framework chọn đề tài | Đánh giá mỗi idea theo 5 tiêu chí trước khi commit |
| 2 | Red flags dataset: synthetic, quá nhiều missing, ít features | Chạy data audit TRƯỚC khi bắt đầu phân tích |
| 3 | Good questions = specific + measurable + actionable | Mỗi question kèm metric, so sánh, và action |
| 4 | DA Trifecta: Python + SQL + BI tool | Đừng over-engineer (C) hay under-tool (A/D) |
| 5 | Balanced timeline với daily milestones | Plan theo phase, có buffer, README không phải afterthought |
🎯 Tiếp theo
Áp dụng tất cả quyết định từ game vào Workshop Buổi 18 — hands-on chọn đề tài, data audit, Git setup! → Workshop Buổi 18