Skip to content

🧠 Case Study Buổi 2: Tư duy phân tích & Thống kê cơ bản

Bài học thực tế từ các công ty hàng đầu thế giới và Việt Nam

Tổng quan

Thống kê không chỉ là lý thuyết trong sách giáo khoa — nó đang được áp dụng hàng ngày tại những công ty công nghệ lớn nhất thế giới để ra quyết định ảnh hưởng đến hàng trăm triệu người dùng. Trong buổi học này, chúng ta sẽ khám phá ba case study thực tế:

#Công tyVấn đềCông cụ thống kê chính
1NetflixChọn thumbnail tối ưu cho phimA/B Testing, Hypothesis Testing, Mean, Statistical Significance
2SpotifyTạo báo cáo Wrapped cuối nămDistribution Analysis, Percentile, Mean vs Median, Data Types
3Shopee VNPhát hiện đơn hàng giả / botOutlier Detection, IQR Method, Z-score, Standard Deviation

Ba case study này minh họa cách Analytical Thinking kết hợp với Descriptive Statistics để giải quyết bài toán kinh doanh thực tế — từ tăng engagement, cá nhân hóa trải nghiệm, đến chống gian lận.


Case Study 1: Netflix — A/B Testing Thumbnail với 200 triệu users

🏷️ Thông tin

Tiêu chíChi tiết
Công tyNetflix, Inc.
NgànhStreaming / Giải trí
Quy mô~260 triệu subscribers toàn cầu (2025)
Thời điểmHệ thống Artwork Personalization triển khai từ 2015, liên tục cải tiến đến nay
Dữ liệuStructured data — Quantitative (completion rate, click-through rate, view duration)

📋 Bối cảnh

Mỗi ngày, một user trung bình dành khoảng 90 giây để quyết định xem gì trên Netflix. Nếu không tìm thấy nội dung hấp dẫn trong khoảng thời gian đó, họ rời đi. Thumbnail (hình ảnh đại diện) của phim/series là yếu tố quan trọng nhất ảnh hưởng đến quyết định click.

Netflix đặt câu hỏi theo framework SMART:

  • Specific: Thumbnail nào tạo ra tỷ lệ click cao nhất cho từng bộ phim?
  • Measurable: Đo bằng Click-Through Rate (CTR) và Completion Rate
  • Action-oriented: Thay đổi thumbnail hiển thị dựa trên kết quả
  • Relevant: Tăng engagement trực tiếp ảnh hưởng đến retention
  • Time-bound: Mỗi A/B test chạy trong 2–4 tuần

Áp dụng 5 Whys:

  1. Tại sao user rời đi? → Không tìm được nội dung hấp dẫn.
  2. Tại sao không tìm được? → Catalogue quá lớn (~17.000 titles), user bị overwhelmed.
  3. Tại sao bị overwhelmed? → Thumbnail không truyền tải đúng nội dung phù hợp với sở thích user.
  4. Tại sao thumbnail chưa phù hợp? → Mỗi phim chỉ có 1 thumbnail cố định cho tất cả user.
  5. Tại sao không cá nhân hóa? → Chưa có hệ thống test và chọn thumbnail theo dữ liệu.

⚡ Thách thức

  • Sample size khổng lồ: 260 triệu users chia thành nhiều nhóm test — cần đảm bảo mỗi nhóm đủ lớn để kết quả có statistical significance (p-value < 0.05).
  • Multiple comparisons: Mỗi title có thể test 10–20 thumbnail khác nhau → risk của false positive tăng (cần điều chỉnh bằng Bonferroni correction).
  • Confounding variables: Thời điểm xem (cuối tuần vs ngày thường), device (TV vs mobile), quốc gia — tất cả đều ảnh hưởng đến CTR.
  • Data types phức tạp: Cần phân biệt quantitative continuous (view duration) và quantitative discrete (số lần click), qualitative nominal (thể loại phim, quốc gia).

🛠️ Giải pháp

Netflix áp dụng Hypothesis Testing cho mỗi bộ thumbnail:

Bước 1: Thiết lập giả thuyết

  • Null Hypothesis (H₀): Không có sự khác biệt về mean completion rate giữa thumbnail A và thumbnail B.
  • Alternative Hypothesis (H₁): Thumbnail B có mean completion rate cao hơn thumbnail A.

Bước 2: Thiết kế thí nghiệm

  • Chia users thành nhóm ngẫu nhiên (Random Sampling) — mỗi nhóm ~500.000 users.
  • Phương pháp: Stratified Sampling theo quốc gia, device, và lịch sử xem để đảm bảo tính đại diện.
  • Thời gian test: 14–28 ngày.

Bước 3: Thu thập và phân tích

  • Đo mean completion rate (quantitative continuous, ratio scale) cho mỗi nhóm.
  • Tính standard deviation để đánh giá mức độ phân tán.
  • Kiểm tra normal distribution của dữ liệu (Central Limit Theorem áp dụng do sample size lớn).

Bước 4: Ra quyết định

  • Nếu p-value < 0.05 → Reject H₀ → Chọn thumbnail có mean completion rate cao hơn.
  • Nếu p-value ≥ 0.05 → Fail to reject H₀ → Giữ thumbnail hiện tại.

Ví dụ cụ thể — Series "Stranger Things":

MetricThumbnail A (nhân vật chính)Thumbnail B (cảnh hành động)
Sample size600.000 users600.000 users
Mean CTR3.2%4.7%
Standard Deviation1.1%1.3%
Mean Completion Rate68%72%
p-value0.003

→ p-value = 0.003 < 0.05 → Reject H₀ → Thumbnail B (cảnh hành động) được chọn.

📊 Kết quả

  • +20–30% tăng engagement trên các title được tối ưu thumbnail.
  • Giảm churn rate (tỷ lệ hủy subscription) đáng kể — Netflix ước tính mỗi 1% tăng retention tiết kiệm ~$100 triệu/năm.
  • Hệ thống hiện chạy hàng nghìn A/B tests đồng thời trên toàn bộ catalogue.
  • Netflix xây dựng cả hệ thống Artwork Personalization — hiển thị thumbnail khác nhau cho từng user dựa trên lịch sử xem.

💡 Bài học cho Data Analyst Việt Nam

  1. Hypothesis Testing không chỉ cho nghiên cứu học thuật — nó là công cụ ra quyết định hàng ngày tại các công ty top thế giới. Khi sếp hỏi "Nên dùng banner nào cho campaign?", bạn biết cách trả lời bằng dữ liệu.
  2. Sample size quyết định chất lượng kết luận — đừng bao giờ kết luận từ 100 observations khi cần 10.000. Tại Việt Nam, nhiều công ty chạy A/B test với sample quá nhỏ → kết quả không đáng tin.
  3. SMART questions là bước đầu tiên — trước khi phân tích, hãy đặt câu hỏi đúng. "Làm sao tăng doanh thu?" quá mơ hồ. "Banner nào tăng CTR trong 2 tuần tới cho segment users 18-25 ở HCM?" mới là SMART.
  4. Hiểu data types — biết dữ liệu của mình thuộc loại nào (continuous vs discrete, nominal vs ordinal) quyết định phương pháp phân tích phù hợp.

Case Study 2: Spotify — Wrapped và phân tích phân phối dữ liệu

🏷️ Thông tin

Tiêu chíChi tiết
Công tySpotify AB
NgànhMusic Streaming
Quy mô~640 triệu users, ~250 triệu premium subscribers (2025)
Thời điểmSpotify Wrapped ra mắt hàng năm từ 2016, phiên bản gần nhất: tháng 12/2025
Dữ liệuStructured data — cả Quantitative (play count, listening hours) và Qualitative (genre, mood tags)

📋 Bối cảnh

Mỗi năm vào tháng 12, Spotify phát hành Spotify Wrapped — báo cáo cá nhân hóa cho từng user về thói quen nghe nhạc trong năm. Wrapped 2025 tạo ra hơn 200 triệu lượt share trên social media, biến mỗi user thành "đại sứ thương hiệu" miễn phí.

Để tạo Wrapped, Spotify cần phân tích hàng tỷ data points từ 640 triệu users — mỗi lần nhấn play, skip, thêm vào playlist đều được ghi nhận.

Câu hỏi phân tích (Analytical Thinking):

  • User này nghe nhạc nhiều hơn hay ít hơn trung bình? → Cần meanmedian.
  • User thuộc top bao nhiêu phần trăm? → Cần percentile.
  • Dữ liệu listening hours phân bố như thế nào? → Cần distribution analysis.
  • Genre nào phổ biến nhất? → Cần mode cho qualitative data.

⚡ Thách thức

  • Phân phối không chuẩn (Skewed Distribution): Listening hours không tuân theo normal distribution — đa số users nghe 30–60 phút/ngày, nhưng một nhóm nhỏ nghe 8–10 giờ/ngày → Right-skewed distribution.
  • Mean vs Median mâu thuẫn: Mean listening hours bị kéo cao bởi power users → nếu nói "users trung bình nghe 148 phút/ngày" thì không phản ánh đúng thực tế (median chỉ ~67 phút/ngày).
  • Outlier detection: Cần phân biệt power users thực sự vs bots/fake streams.
  • Data types đa dạng:
    • Quantitative Continuous (Ratio scale): listening hours, skip rate
    • Quantitative Discrete (Ratio scale): play count, number of unique artists
    • Qualitative Nominal: genre, artist name, country
    • Qualitative Ordinal: mood categories (chill → energetic)

🛠️ Giải pháp

Spotify kết hợp nhiều kỹ thuật Descriptive Statistics để xây dựng Wrapped:

1. Phân tích phân phối (Distribution Analysis)

Dữ liệu listening hours cho thấy phân phối right-skewed (positive skewness):

MetricGiá trị (ước tính từ dữ liệu công bố)
Mean listening hours/ngày148 phút (~2.5 giờ)
Median listening hours/ngày67 phút (~1.1 giờ)
Mode45 phút
Standard Deviation112 phút
Skewness+2.1 (right-skewed)

→ Vì Mean > Median > Mode → xác nhận right-skewed distribution. Spotify chọn dùng median thay vì mean khi báo cáo "trung bình" cho users.

2. Percentile Ranking

Spotify tính percentile cho từng user để tạo câu "Bạn thuộc top X% thính giả của nghệ sĩ Y":

  • Nếu user nghe Taylor Swift 200 giờ trong năm và 95th percentile = 180 giờ → user thuộc top 5%.
  • Tính toán dựa trên empirical percentile: sắp xếp tất cả users theo listening hours, tìm vị trí tương đối.

3. Outlier Detection cho chống fake streams

Spotify dùng IQR Method để phát hiện fake streams:

  • Q1 (25th percentile) cho một bài hát = 500 lượt/ngày
  • Q3 (75th percentile) = 2.000 lượt/ngày
  • IQR = Q3 - Q1 = 1.500
  • Upper bound = Q3 + 1.5 × IQR = 2.000 + 2.250 = 4.250 lượt/ngày
  • Nếu một bài hát đột ngột nhận 15.000 lượt/ngày → Outlier → flag để điều tra.

4. Data Types trong Wrapped

Feature trong WrappedData TypeMeasurement ScaleMetric dùng
Total minutes listenedQuantitative ContinuousRatioSum, Mean
Top 5 artistsQualitative NominalNominalMode, Frequency
Number of genresQuantitative DiscreteRatioCount
Listening mood (Chill → Hype)Qualitative OrdinalOrdinalMedian
Top song play countQuantitative DiscreteRatioMax, Percentile

📊 Kết quả

  • Wrapped 2025: 200+ triệu lượt share trên social media → free marketing trị giá hàng trăm triệu USD.
  • +30% tăng tải ứng dụng trong tuần đầu tháng 12 mỗi năm.
  • Fake stream detection: Spotify đã gỡ hàng triệu bài hát vi phạm, bảo vệ hơn $9 tỷ tiền bản quyền/năm trả cho artists.
  • Wrapped trở thành cultural phenomenon — users chờ đợi mỗi năm, tạo FOMO cho non-users.

💡 Bài học cho Data Analyst Việt Nam

  1. Mean vs Median không phải chọn một — mà phải hiểu khi nào dùng cái nào. Khi báo cáo thu nhập trung bình ở Việt Nam, median (6–7 triệu VNĐ) phản ánh thực tế hơn mean (10+ triệu VNĐ) vì dữ liệu right-skewed.
  2. Percentile là công cụ segmentation mạnh mẽ — thay vì chia users thành "VIP / thường", hãy dùng percentile: top 10% chi tiêu, top 25% hoạt động... Ứng dụng được ngay tại các app thương mại điện tử Việt Nam.
  3. Skewness quyết định cách bạn kể câu chuyện dữ liệu — nếu báo cáo nói "trung bình đơn hàng 500K" nhưng median là 150K, bạn đang mislead stakeholders.
  4. IQR method đơn giản nhưng hiệu quả — không cần machine learning phức tạp để phát hiện bất thường. Một bảng tính Excel với Q1, Q3, IQR là đủ cho nhiều bài toán fraud detection cơ bản.

Case Study 3: Shopee Vietnam — Phát hiện đơn hàng giả bằng Outlier Detection

🏷️ Thông tin

Tiêu chíChi tiết
Công tyShopee Vietnam (thuộc Sea Group)
NgànhE-commerce
Quy mô~50 triệu users tại Việt Nam, hàng triệu đơn hàng/ngày
Thời điểmHệ thống fraud detection liên tục cải tiến, đặc biệt trước mỗi chiến dịch lớn (9.9, 11.11, 12.12)
Dữ liệuStructured data — Quantitative (order value, frequency) + Qualitative (seller category, payment method)

📋 Bối cảnh

Shopee Vietnam là sàn thương mại điện tử lớn nhất Việt Nam với hàng triệu đơn hàng mỗi ngày. Trong các chiến dịch sale lớn như 11.11 hay 12.12, lượng đơn hàng tăng gấp 3–5 lần ngày thường. Tuy nhiên, không phải tất cả đơn hàng đều thật.

Các loại đơn hàng giả (fake orders):

  • Brush orders: Seller tự mua hàng của mình (hoặc thuê bot) để tăng số lượng đã bán → tăng ranking trên search.
  • Coupon abuse: Tạo nhiều tài khoản giả để lấy voucher → mua hàng giá thấp.
  • Bot orders: Dùng script tự động đặt hàng hàng loạt trong flash sale.

Áp dụng 5 Whys:

  1. Tại sao sellers có lượt bán cao bất thường? → Có đơn hàng giả.
  2. Tại sao có đơn hàng giả? → Sellers muốn tăng ranking/trust score.
  3. Tại sao ranking quan trọng vậy? → Shopee algorithm ưu tiên hiển thị sellers có nhiều đơn + đánh giá tốt.
  4. Tại sao khó phát hiện? → Đơn giả trông giống đơn thật nếu nhìn từng cái riêng lẻ.
  5. Vậy làm sao phát hiện? → Nhìn pattern thống kê — tần suất, giá trị, thời gian đặt hàng bất thường so với phân phối chung.

⚡ Thách thức

  • Volume cực lớn: Hàng triệu đơn/ngày — không thể kiểm tra thủ công.
  • False positive tốn kém: Block nhầm seller thật → mất doanh thu + uy tín nền tảng.
  • Pattern liên tục thay đổi: Bot ngày càng tinh vi, bắt chước hành vi người thật.
  • Multiple data types:
    • Quantitative Continuous (Ratio): order value (VNĐ), time between orders
    • Quantitative Discrete (Ratio): order count/day, items per order
    • Qualitative Nominal: seller category, payment method, shipping address
    • Qualitative Ordinal: seller tier (Standard → Preferred → Mall)

🛠️ Giải pháp

Shopee xây dựng hệ thống phát hiện outlier đa tầng, bắt đầu từ Descriptive Statistics cơ bản:

Tầng 1: IQR Method — Phát hiện tần suất đặt hàng bất thường

Phân tích số đơn hàng/ngày cho mỗi buyer account:

MetricGiá trị (ước tính)
Q1 (25th percentile)0.5 đơn/ngày
Median (Q2)1 đơn/ngày
Q3 (75th percentile)2 đơn/ngày
IQRQ3 - Q1 = 1.5
Lower boundQ1 - 1.5 × IQR = -1.75 → 0 (không âm)
Upper boundQ3 + 1.5 × IQR = 4.25 đơn/ngày

→ Nếu một account đặt 15 đơn/ngày liên tục → Outlier → Flag để điều tra.

Tầng 2: Z-score — Phát hiện giá trị đơn hàng bất thường

Phân tích giá trị đơn hàng cho một category cụ thể (ví dụ: Thời trang nữ):

MetricGiá trị
Mean order value180.000 VNĐ
Standard Deviation95.000 VNĐ

Công thức Z-score: Z=Xμσ

  • Đơn hàng 180.000 VNĐ → Z = 0 (bình thường)
  • Đơn hàng 350.000 VNĐ → Z = (350K - 180K) / 95K = +1.79 (bình thường)
  • Đơn hàng 15.000 VNĐ → Z = (15K - 180K) / 95K = -1.74 (bình thường, nhưng đáng chú ý nếu lặp lại)
  • Đơn hàng 500.000 VNĐ → Z = (500K - 180K) / 95K = +3.37|Z| > 3Outlier
  • Hàng loạt đơn đúng 10.000 VNĐ (giá trị coupon) → Z = -1.79 nhưng frequency bất thường → kết hợp Tầng 1

Tầng 3: Phân tích phân phối thời gian đặt hàng

  • Người mua bình thường: thời gian giữa các đơn hàng phân bố right-skewed (đôi khi mua liên tiếp, thường thì cách vài ngày).
  • Bot: thời gian giữa các đơn hàng uniform distribution hoặc có pattern lặp lại đều đặn (ví dụ: cứ đúng 3 phút đặt 1 đơn).
PatternNgười thậtBot/Fake
Phân phối thời gianRight-skewed, randomUniform, đều đặn
Std Dev thời gian giữa các đơnCao (>60 phút)Rất thấp (<5 phút)
Giá trị đơn hàngĐa dạngTập trung quanh 1 mức
Thời điểm đặt hàngGiờ hành chính + tối24/7, kể cả 2–5 giờ sáng

Ví dụ Hypothesis Testing cho chiến dịch 11.11:

  • H₀: Tỷ lệ đơn hàng giả trong 11.11 không khác ngày thường.
  • H₁: Tỷ lệ đơn hàng giả trong 11.11 cao hơn ngày thường.

Dữ liệu mẫu:

  • Ngày thường: 2% đơn bị flag → mean = 0.02
  • 11.11: 8% đơn bị flag → mean = 0.08
  • p-value < 0.001 → Reject H₀ → tăng cường hệ thống giám sát trong các chiến dịch lớn.

📊 Kết quả

  • Giảm ~60% fake orders trong chiến dịch 12.12 so với khi chưa có hệ thống.
  • Tiết kiệm hàng trăm tỷ VNĐ/năm từ coupon abuse và phí vận chuyển ảo.
  • Bảo vệ sellers chân chính: Ranking search chính xác hơn → sellers chất lượng được ưu tiên → trải nghiệm mua sắm tốt hơn cho users.
  • False positive rate < 2%: Nhờ hệ thống đa tầng, rất ít sellers thật bị flag nhầm.
  • Shopee áp dụng kết quả phân tích để điều chỉnh sampling strategy cho audit thủ công — stratified sampling theo seller tier và category thay vì random sampling, tăng hiệu quả gấp 3 lần.

💡 Bài học cho Data Analyst Việt Nam

  1. IQR và Z-score là "vũ khí đầu tiên" chống fraud — trước khi nghĩ đến AI/ML phức tạp, hãy bắt đầu với thống kê cơ bản. Nhiều bài toán fraud detection tại các startup Việt Nam có thể giải quyết 80% vấn đề chỉ với hai phương pháp này.
  2. Hiểu business context quan trọng hơn thuật toán — biết rằng "brush orders thường có giá trị thấp + tần suất cao" là domain knowledge giúp bạn chọn đúng metric để phân tích.
  3. Đừng chỉ nhìn individual data points — hãy nhìn distribution — một đơn hàng 15.000 VNĐ là bình thường, nhưng 200 đơn 15.000 VNĐ từ cùng 1 IP trong 1 giờ là bất thường. Phân phối kể câu chuyện mà từng data point không bao giờ kể được.
  4. Sampling method ảnh hưởng trực tiếp đến kết quả điều tra — dùng random sampling khi audit fraud sẽ lãng phí thời gian. Stratified sampling (chia theo risk level) hiệu quả hơn nhiều.
  5. 5 Whys giúp đi từ triệu chứng đến gốc rễ — thay vì chỉ "block account bất thường", 5 Whys dẫn đến giải pháp hệ thống: thay đổi thuật toán ranking để giảm incentive cho fake orders.

📝 So sánh & tổng hợp

Tiêu chíNetflixSpotifyShopee VN
Bài toánTối ưu thumbnailCá nhân hóa báo cáo nghe nhạcPhát hiện đơn hàng giả
Dữ liệu chínhCTR, completion rateListening hours, play countOrder value, order frequency
Data typesQuantitative ContinuousQuantitative + QualitativeQuantitative + Qualitative
Measurement scaleRatioRatio + Nominal + OrdinalRatio + Nominal
Descriptive Stats dùngMean, Std DevMean, Median, Mode, PercentileMean, Std Dev, Q1, Q3, IQR
DistributionNormal (CLT)Right-skewedMixed (skewed + uniform)
Outlier methodStatistical significanceIQR cho fake streamsIQR + Z-score
Hypothesis TestingA/B test cho thumbnailsKhông trực tiếpSo sánh tỷ lệ fraud
Analytical ThinkingSMART questions5 skills phân tích5 Whys
SamplingStratified by country/deviceCensus (toàn bộ users)Stratified by risk level
Impact+20-30% engagement200M+ shares-60% fake orders
Bài học lớn nhấtTest, đừng đoánMean ≠ MedianThống kê cơ bản giải quyết 80% fraud

Điểm chung của cả 3 case study:

  • Đều bắt đầu từ câu hỏi kinh doanh rõ ràng, không phải từ dữ liệu.
  • Đều dùng Descriptive Statistics cơ bản (mean, median, std dev) trước khi đến phương pháp phức tạp.
  • Đều cần hiểu data types để chọn đúng phương pháp phân tích.
  • Đều cho thấy kết quả đo lường được (measurable impact) — đây là điều mà mọi Data Analyst cần hướng tới.

🤔 Câu hỏi thảo luận

  1. Netflix dùng mean completion rate để so sánh thumbnail. Nếu dữ liệu completion rate bị right-skewed (nhiều người xem 5 phút rồi tắt, ít người xem hết), bạn có nên dùng median thay cho mean không? Tại sao?

  2. Spotify nói "Bạn thuộc top 1% thính giả của BTS". Nếu tổng số thính giả BTS trên Spotify là 50 triệu, top 1% nghĩa là bạn nghe nhiều hơn bao nhiêu người? Percentile này thuộc loại measurement scale nào?

  3. Một seller trên Shopee bán áo thun có mean giá trị đơn hàng = 120.000 VNĐ, Std Dev = 30.000 VNĐ. Một đơn hàng trị giá 250.000 VNĐ có phải outlier không? Tính Z-score và giải thích.

  4. Trong cả 3 case study, bạn nhận thấy sampling method nào được sử dụng? Tại sao random sampling đơn giản lại không phù hợp cho tất cả các trường hợp?

  5. Nếu bạn là Data Analyst tại một ứng dụng giao đồ ăn ở Việt Nam (GrabFood, ShopeeFood), bạn sẽ áp dụng kỹ thuật nào từ 3 case study trên để (a) tối ưu giao diện app, (b) tạo báo cáo cuối năm cho users, và (c) phát hiện đánh giá giả? Hãy áp dụng framework SMART để đặt câu hỏi phân tích.


📚 Nguồn tham khảo

  1. Netflix Technology Blog — "Artwork Personalization at Netflix" (2017). Giải thích chi tiết cách Netflix dùng A/B testing cho artwork.
  2. Spotify Engineering Blog — "How Spotify Wrapped Works" (2023). Kỹ thuật phân tích dữ liệu đằng sau Wrapped.
  3. Sea Group Annual Report (2024). Dữ liệu về quy mô hoạt động của Shopee tại Đông Nam Á.
  4. "Naked Statistics" — Charles Wheelan (2013). Sách giải thích Descriptive Statistics và Distribution một cách dễ hiểu.
  5. "Storytelling with Data" — Cole Nussbaumer Knaflic (2015). Cách trình bày kết quả thống kê hiệu quả cho stakeholders.

🔗 Xem thêm Buổi 2

📘 Nội dung chính📝 Blog🏆 Tiêu chuẩn🛠 Workshop🎮 Mini Game