Skip to content

🎮 Project Kickoff — Chọn Đúng Scope, Tool & Timeline!

Bạn vừa hoàn thành khóa Data Analytics 17 buổi, giờ đến lúc kickoff capstone project 🚀. Nhưng bắt đầu project ĐÚNG CÁCH là bước quan trọng nhất — chọn sai đề tài = 2 tuần lãng phí. Chọn sai dataset = phân tích sai. Lập timeline sai = deadline miss. 5 vòng, mỗi vòng: 1 quyết định critical. Chọn đúng = XP. Chọn sai = project fail trước khi bắt đầu! 🚨


🎯 Mục tiêu học tập

Sau khi hoàn thành game, bạn sẽ:

  1. Chọn đề tài phù hợp — đánh giá tiêu chí DRBST
  2. Đánh giá dataset — phát hiện red flags trước khi commit
  3. Viết business questions tốt — cụ thể, measurable, actionable
  4. Chọn tools phù hợp — đúng tool cho đúng task
  5. Lập timeline thực tế — không quá tham, không quá ít

📜 Luật chơi

┌──────────────────────────────────────────────────────────┐
│  BẠN = Fresh Grad DA 🎓, kickoff capstone project        │
│  MỖI VÒNG = 1 quyết định project → 4 lựa chọn           │
│  CHỌN đúng quyết định = XP                                │
│  MỤC TIÊU = Thu thập ≥ 80 XP để đạt hạng Gold 🥇        │
└──────────────────────────────────────────────────────────┘

Cách tính điểm mỗi vòng:

Thành phầnXP
Trả lời đúng+18 XP (Vòng 1–2), +20 XP (Vòng 3–4), +22 XP (Vòng 5)
Trả lời sai+0 XP
Không dùng hint+2 XP bonus ⚡
Giải thích đúng lý do+3 XP bonus 🧠

Tổng XP tối đa: 18+18+20+20+22 = 98 XP (chưa tính bonus)

Nguyên tắc quan trọng:

  • 🎯 Project decisions > technical skills — chọn đề tài sai thì code hay cũng vô ích
  • 📊 Practical > Perfect — project xong 80% tốt hơn project ambitious 30%
  • 🕐 Timeline realistic — 2 tuần = 2 tuần, không phải 2 tháng compressed

🏆 Bảng xếp hạng & Huy hiệu

Ranks

HạngXPMô tả
🥇 Gold — Project Strategist≥ 80 XPBạn kickoff project như senior DA — scope đúng, timeline hợp lý!
🥈 Silver — Good Planner≥ 55 XPTốt! Đôi chỗ cần suy nghĩ thêm — đọc lại Phần 1 & 3 Buổi 18.
🥉 Bronze — Beginner Planner≥ 30 XPHiểu cơ bản nhưng dễ chọn sai scope/timeline. Ôn lại toàn bộ.
💀 Game Over< 30 XPProject chưa bắt đầu đã fail — quay lại Buổi 18 từ đầu!

Huy hiệu đặc biệt

BadgeĐiều kiệnMô tả
🎯 Scope MasterĐúng Vòng 1 + Vòng 2Chọn đề tài và dataset chuẩn!
📋 Question CrafterĐúng Vòng 3Viết business questions level pro!
🛠️ Tool PickerĐúng Vòng 4Chọn đúng tool cho đúng task!
🕐 Timeline RealistĐúng Vòng 5Lập timeline thực tế — rare skill!
🔥 Full Streak5/5 vòng đúngPerfect project planning!
💡 No Hints HeroKhông dùng hint cả gamePure project management intuition!

🎲 Chỉ số theo dõi

┌──────────────────────────────────────────────────────┐
│  XP hiện tại:     [___] / 98                          │
│  Vòng:            [___] / 5                           │
│  Streak:          [___]                               │
│  Hints đã dùng:   [___]                               │
│  Hạng dự kiến:    [___]                               │
│  Badges:          [___]                               │
└──────────────────────────────────────────────────────┘

🎲 Vòng 1: Chọn Đề Tài Capstone — DRBST Test (18 XP)

📋 Tình huống

Bạn là fresh grad DA, vừa hoàn thành khóa học 17 buổi. Deadline nộp capstone: 2 tuần. Bạn cần chọn 1 đề tài portfolio project. 4 bạn cùng lớp đề xuất 4 ideas khác nhau:

OptionĐề tàiDatasetMô tả
A🚢 Titanic Survival PredictionKaggle Titanic (891 rows)Classic ML prediction — ai sống, ai chết trên Titanic
B📊 E-commerce Customer SegmentationOlist Brazil (100K orders, 8 tables)Segment khách hàng, analyze delivery impact, forecast revenue
C🌍 Climate Change Global AnalysisNASA + NOAA (50 years, terabytes)Phân tích biến đổi khí hậu toàn cầu, dự báo nhiệt độ 2050
D📱 TikTok Trending Video AnalysisTự scrape TikTok API (need auth)Phân tích trend videos, predict viral content
💡 Hint (−2 XP)

Nhớ tiêu chí DRBST: Data Available, Real Business Context, Business Impact, Scope 2 tuần, Tell-able Story. Đánh giá mỗi option theo 5 tiêu chí.

✅ Đáp án đúng: B — E-commerce Customer Segmentation

Giải thích chi tiết:

Tiêu chíA (Titanic)B (E-commerce) ✅C (Climate)D (TikTok)
D — Data Available✅ Có nhưng nhỏ (891 rows)✅ 100K rows, 8 tables⚠️ Quá lớn, phức tạp❌ Cần scrape, auth issues
R — Real Business❌ Historical, overused✅ E-commerce marketplace⚠️ Research, không DA job⚠️ Entertainment domain
B — Business Impact❌ No actionable insight✅ Segmentation → marketing⚠️ Policy, not business⚠️ Vague impact
S — Scope 2 tuần✅ Quá nhỏ (2 giờ xong)✅ Vừa vặn❌ Quá lớn (2 tháng+)❌ Data collection = 1 tuần
T — Tell-able❌ Ai cũng biết story✅ "100K orders — segment nào?"⚠️ Khó kể 5 phút⚠️ Trendy nhưng shallow
Score2/55/51.5/51.5/5

Tại sao B thắng:

  • Data có sẵn, đủ lớn, đa dạng (8 tables = showcase SQL JOIN skills)
  • Business context relevant cho e-commerce companies (Shopee, Tiki, Lazada)
  • 100K orders = đủ scope cho 2 tuần: clean + EDA + segmentation + dashboard
  • Tell-able: "Marketplace 100K orders — segment nào giá trị nhất?"

🎲 Vòng 2: Đánh giá Dataset — Red Flags (18 XP)

📋 Tình huống

Bạn đã chọn đề tài. Bây giờ cần chọn dataset. Bạn tìm thấy 4 datasets trên Kaggle cho customer churn analysis:

OptionDatasetSizeMissingLast UpdatedDetails
ATelecom Churn v13,333 rows × 20 cols0%2019Clean, nhưng nhỏ và cũ
BTelecom Churn v27,043 rows × 21 cols0.7%2023Well-documented, balanced classes
CMega Churn Dataset500K rows × 5 cols42%2024Rất lớn nhưng ít features, missing cao
DCustom Churn (synthetic)50K rows × 30 cols0%2025Tự generate bằng Faker, perfect data
💡 Hint (−2 XP)

Nhớ Dataset Evaluation Checklist. Xem xét: size đủ lớn? missing values hợp lý? Đủ features? Data thật hay synthetic? Documentation có không?

✅ Đáp án đúng: B — Telecom Churn v2 (7,043 rows × 21 cols)

Giải thích chi tiết:

Tiêu chíAB ✅CD
Size ≥ 1,000✅ 3,333 (vừa đủ)✅ 7,043 (tốt)✅ 500K (quá lớn cho scope)✅ 50K
≥ 8 columns✅ 20 cols✅ 21 cols❌ 5 cols (quá ít!)✅ 30 cols
Missing ≤ 30%✅ 0%✅ 0.7%❌ 42% (quá cao!)✅ 0%
Documentation⚠️ Basic✅ Well-documented⚠️ Minimal⚠️ Self-documented
Data thật❌ Synthetic!
Không quá cũ❌ 2019 (6 năm)✅ 2023 (2 năm)✅ 2024✅ 2025
Score4/66/62/64/6

Red flags cần nhận ra:

  • A: Size vừa đủ nhưng từ 2019 — cũ, patterns có thể outdated
  • C: 42% missing = data quality nightmare. 5 features = phân tích shallow
  • D: Synthetic data = instant red flag cho portfolio! Hiring managers biết ngay data fake → mất credibility
  • B: Sweet spot — 7K rows đủ cho analysis + ML, 21 features đa dạng, well-documented, data thật

🎲 Vòng 3: Viết Business Questions — Quality Check (20 XP)

📋 Tình huống

Bạn có dataset E-commerce (Olist, 100K orders). Cần viết business questions cho capstone. 4 sinh viên viết 4 bộ questions khác nhau. Bộ nào TỐT NHẤT?

Option A — "The Statistician":

  1. Mean, median, mode của order_value?
  2. Standard deviation của delivery_time?
  3. Correlation coefficient giữa price và review_score?
  4. Distribution chi-square test cho payment_type?

Option B — "The Business Thinker":

  1. Customer segments nào (RFM) có highest LTV, và marketing strategy nào cho mỗi segment?
  2. Delivery time ảnh hưởng thế nào đến review rating? Threshold nào gây negative experience?
  3. Revenue trend 12 tháng — seasonal patterns nào? Forecast Q+1?
  4. Top 10% sellers contribute bao nhiêu % revenue? Bottom sellers có quality concern?
  5. Category nào growing fastest? Product mix optimization opportunity?

Option C — "The Ambitious":

  1. Xây real-time recommendation engine cho 100K customers
  2. Predict exact revenue cho Q1 2026 down to the dollar
  3. Build NPS prediction model with 99% accuracy
  4. Create automated pricing algorithm

Option D — "The Vague":

  1. Data có gì thú vị?
  2. Customers thế nào?
  3. Revenue có đều không?
  4. Products bán ra sao?
💡 Hint (−2 XP)

Business questions tốt = cụ thể metric + so sánh được + dẫn đến action. Không quá technical (A), không quá ambitious (C), không quá vague (D).

✅ Đáp án đúng: B — "The Business Thinker"

Giải thích chi tiết:

Tiêu chíAB ✅CD
Cụ thể metric✅ Quá technical✅ LTV, revenue, RFM, %⚠️ Metrics nhưng unrealistic❌ Vague hoàn toàn
So sánh được❌ Chỉ mô tả, không so sánh✅ Segments, categories, sellers❌ No comparison points❌ Không rõ so sánh gì
Dẫn đến action❌ "So what?"✅ Marketing strategy, optimization❌ Không actionable cho DA❌ Không biết action gì
Feasible trong 2 tuần✅ Quá đơn giản✅ Vừa vặn❌ Cần ML team + months✅ Quá đơn giản
Showcase skills❌ Chỉ statistics API✅ EDA + segmentation + forecast + BI❌ Over-engineering❌ Không show gì

Tại sao B thắng:

  • Mỗi question = metric rõ (LTV, review rating, revenue%, delivery threshold)
  • Mỗi question dẫn đến recommendation (marketing strategy, product mix, seller management)
  • Questions escalate complexity: descriptive → diagnostic → predictive
  • Showcase skills đa dạng: SQL, Python, BI, Statistics, possible ML
  • 5 questions, 2 tuần = vừa vặn workload

🎲 Vòng 4: Chọn Tools — Right Tool for Right Task (20 XP)

📋 Tình huống

Capstone project: E-commerce Customer Segmentation. Bạn cần chọn tool stack phù hợp. 4 classmates đề xuất 4 stack khác nhau:

OptionStackMô tả
AExcel onlyPivot tables, charts, VLOOKUP. "Đơn giản nhất, ai cũng dùng"
BPython (pandas, matplotlib, seaborn) + SQL + Tableau/Power BI"Full stack DA — clean, analyze, visualize, present"
CPython + R + Julia + Spark + Airflow + Docker + Kubernetes"Full ML Engineering stack — impressive CV!"
DTableau only"Drag and drop, no code needed. Dashboard beautiful!"
💡 Hint (−2 XP)

Tool phù hợp = đủ mạnh cho task + bạn đã biết dùng + showcase được skills nhà tuyển dụng cần. Không quá đơn giản (A), không quá complex (C).

✅ Đáp án đúng: B — Python + SQL + Tableau/Power BI

Giải thích chi tiết:

Tiêu chíA (Excel)B (Python+SQL+BI) ✅C (Everything)D (Tableau only)
Đủ mạnh cho task⚠️ Limited cho 100K rows✅ Handle tất cả✅ Overkill⚠️ Limited analysis
Đã biết dùng (17 buổi)❌ Julia, Spark, K8s = mới
Showcase DA skills❌ Basic quá✅ SQL + Python + BI = trifecta❌ Looks like ML engineer, not DA⚠️ Chỉ viz, thiếu code
Thời gian setup✅ 0✅ 30 phút❌ 3+ ngày setup✅ 15 phút
Hiring manager expect✅ Top 3 skills DA❌ Different role⚠️ Missing SQL/Python

Tại sao B thắng:

Python + SQL + Tableau/Power BI = DA Trifecta — đây là 3 skills mà 95% JD Junior DA yêu cầu:

📋 JD Junior DA (typical):
Required Skills:
✅ SQL — queries, joins, aggregations        → Showcase bằng data extraction
✅ Python — pandas, visualization            → Showcase bằng EDA + analysis
✅ BI Tool — Tableau hoặc Power BI           → Showcase bằng interactive dashboard
Nice to have:
⚠️ Excel — pivot tables                     → Appendix/supplementary
⚠️ ML — basic classification/regression     → Bonus project section

A sai vì: Excel limit 1M rows, không reproducible, không show code skill C sai vì: 70% thời gian = setup tools mới, không phải analysis. Over-engineering = red flag (bạn không biết right-size tools) D sai vì: Hiring manager hỏi "show me your SQL/Python" = game over


🎲 Vòng 5: Lập Timeline — Reality Check (22 XP)

📋 Tình huống

Bạn có 14 ngày cho capstone. 4 classmates lập 4 timeline khác nhau:

Option A — "The Perfectionist":

DayTask
1-5Data cleaning (perfect every column)
6-10EDA (50+ charts, analyze everything)
11-13Dashboard + Presentation
14Push to GitHub

Option B — "The Balanced":

DayTask
1Dataset audit + Project brief
2Data cleaning + wrangling
3-4EDA (distributions, correlations, key patterns)
5Analysis Q1-Q2 (segmentation, metrics)
6-7Analysis Q3-Q5 (deeper analysis, optional ML)
8-9Dashboard design + build
10Key insights + Recommendations
11-12Presentation slides
13Polish GitHub repo + README
14Review + practice present

Option C — "The Procrastinator":

DayTask
1-10"Research" + browse Kaggle notebooks
11-13Frantically code everything
14Push everything, write README, pray

Option D — "The Sprinter":

DayTask
1Everything: clean, EDA, analysis, dashboard, slides, README
2-14"Polish" (aka procrastinate differently)
💡 Hint (−2 XP)

Timeline tốt = phân bổ thời gian theo phase (clean → EDA → analysis → viz → present), có buffer, không front-load hay back-load quá mức.

✅ Đáp án đúng: B — "The Balanced"

Giải thích chi tiết:

Tiêu chíAB ✅CD
Time allocation hợp lý❌ 5 ngày clean (quá nhiều)✅ Balanced across phases❌ 10 ngày research❌ 1 ngày everything
Có milestone rõ⚠️ 3 milestones✅ Daily milestones, trackable❌ No milestones❌ 1 milestone
Buffer cho issues✅ Day 14 = review + buffer
README/Portfolio time❌ 1 ngày cuối✅ Day 13 dedicated❌ Day 14 (rush)❌ Mixed with everything
Realistic workload/day⚠️✅ 4-6 hours/day❌ Day 11-13: 16h/day❌ Day 1: impossible

Phân tích chi tiết timeline B:

Week 1 (Day 1-7): DATA → ANALYSIS
├── Day 1: Setup + Audit        → OUTPUT: Data audit report ✅
├── Day 2: Clean + Wrangle      → OUTPUT: Clean dataset ✅
├── Day 3-4: EDA                → OUTPUT: EDA notebook + patterns ✅
├── Day 5: Analysis Q1-Q2       → OUTPUT: Segmentation results ✅
├── Day 6-7: Analysis Q3-Q5     → OUTPUT: Deep analysis ✅

Week 2 (Day 8-14): PRESENT → POLISH
├── Day 8-9: Dashboard          → OUTPUT: Interactive BI dashboard ✅
├── Day 10: Insights + Recs     → OUTPUT: Insight document ✅
├── Day 11-12: Presentation     → OUTPUT: Slide deck ✅
├── Day 13: GitHub + README     → OUTPUT: Portfolio-ready repo ✅
└── Day 14: Review + Buffer     → OUTPUT: Final check ✅

Tại sao B thắng:

  • Progressive milestones — mỗi ngày có output đo được
  • Week 1 = substance (data + analysis), Week 2 = presentation (dashboard + slides + repo)
  • Day 13 = README — dedicated time cho documentation, not afterthought
  • Day 14 = buffer — unexpected bugs, feedback, practice presentation

📊 Bảng tổng kết

╔═══════════════════════════════════════════════════════════════╗
║                    🏆 KẾT QUẢ GAME                            ║
╠═══════════════════════════════════════════════════════════════╣
║  Vòng 1: Chọn đề tài (DRBST)        [__] / 18 XP            ║
║  Vòng 2: Đánh giá dataset            [__] / 18 XP            ║
║  Vòng 3: Business questions           [__] / 20 XP            ║
║  Vòng 4: Chọn tool stack             [__] / 20 XP            ║
║  Vòng 5: Lập timeline                [__] / 22 XP            ║
║  Bonus (no hints + giải thích)        [__] / 25 XP            ║
║  ─────────────────────────────────────────────                ║
║  TỔNG:                                [__] / 123 XP           ║
║  HẠNG:                                [____________]          ║
║  BADGES:                              [____________]          ║
╚═══════════════════════════════════════════════════════════════╝

🎓 Bài học từ Game

VòngBài họcÁp dụng ngay
1DRBST framework chọn đề tàiĐánh giá mỗi idea theo 5 tiêu chí trước khi commit
2Red flags dataset: synthetic, quá nhiều missing, ít featuresChạy data audit TRƯỚC khi bắt đầu phân tích
3Good questions = specific + measurable + actionableMỗi question kèm metric, so sánh, và action
4DA Trifecta: Python + SQL + BI toolĐừng over-engineer (C) hay under-tool (A/D)
5Balanced timeline với daily milestonesPlan theo phase, có buffer, README không phải afterthought

🎯 Tiếp theo

Áp dụng tất cả quyết định từ game vào Workshop Buổi 18 — hands-on chọn đề tài, data audit, Git setup! → Workshop Buổi 18