Skip to content

📘 Buổi 2: Tư duy phân tích & Thống kê cơ bản

Biết đặt câu hỏi đúng và dùng thống kê để trả lời — kỹ năng #1 của Data Analyst.

🎯 Mục tiêu buổi học

  1. Phân biệt các loại dữ liệu: quantitative vs qualitative, discrete vs continuous
  2. Tính và diễn giải thống kê mô tả: mean, median, mode, standard deviation
  3. Hiểu phân phối dữ liệu, outlier, và tại sao chúng quan trọng
  4. Đặt giả thuyết kinh doanh (hypothesis) và biết cách kiểm chứng cơ bản

📋 Tổng quan

Ở Buổi 1, chúng ta đã tìm hiểu tổng quan về Data Analytics qua Google Data Analytics Framework và 4 loại phân tích (Descriptive, Diagnostic, Predictive, Prescriptive). Bạn đã biết rằng Data Analyst là người biến dữ liệu thành insight để hỗ trợ ra quyết định. Nhưng để làm được điều đó, bạn cần hai nền tảng quan trọng: tư duy phân tích (analytical thinking) và thống kê cơ bản (basic statistics). Đây chính là nội dung cốt lõi của Buổi 2.

Tư duy phân tích giúp bạn đặt đúng câu hỏi — biết hỏi "tại sao doanh thu giảm?" thay vì chỉ nhìn con số và hoang mang. Thống kê cơ bản giúp bạn trả lời câu hỏi đó bằng dữ liệu — mean, median cho bạn biết xu hướng trung tâm, standard deviation cho bạn biết dữ liệu phân tán ra sao, và outlier detection giúp bạn phát hiện những điểm "bất thường" cần chú ý. Hai kỹ năng này bổ trợ cho nhau và là nền tảng bắt buộc trước khi bạn học bất kỳ tool nào (Excel, SQL, Python hay Power BI).

Trong buổi học này, bạn sẽ đi từ tư duy (cách suy nghĩ có hệ thống) → dữ liệu (hiểu các loại dữ liệu) → thống kê (đo lường và mô tả dữ liệu) → phân phối & outlier (nhận diện pattern và bất thường) → hypothesis & sampling (kiểm chứng giả thuyết). Đây là hành trình logic mà mọi Data Analyst đều phải đi qua, dù bạn đang làm trong lĩnh vực tài chính, e-commerce, hay marketing.


📌 Phần 1: Tư duy phân tích (Analytical Thinking)

Khái niệm

Analytical thinking (tư duy phân tích) là khả năng xác định và định nghĩa vấn đề, sau đó giải quyết nó bằng dữ liệu một cách có hệ thống. Google Data Analytics Certificate xác định 5 kỹ năng cốt lõi của tư duy phân tích:

#Kỹ năngMô tảVí dụ thực tế
1Visualization (Trực quan hoá)Khả năng hình dung dữ liệu dưới dạng biểu đồ, đồ thị để phát hiện patternNhìn biểu đồ doanh thu 12 tháng → thấy ngay tháng nào sụt giảm
2Strategy (Chiến lược)Biết lên kế hoạch, xác định mục tiêu và các bước cần làmXây dựng dashboard theo thứ tự: thu thập → làm sạch → phân tích → trình bày
3Problem-solving (Giải quyết vấn đề)Tìm giải pháp dựa trên dữ liệu thay vì cảm tínhDoanh thu giảm → phân tích theo kênh → phát hiện kênh online giảm 40% → điều chỉnh ngân sách quảng cáo
4Pattern recognition (Nhận diện mẫu)Phát hiện xu hướng, sự lặp lại, hoặc điểm bất thường trong dữ liệuNhận ra đơn hàng luôn tăng vào thứ 6 cuối tháng → lên kế hoạch nhân sự kho hàng
5Big-picture thinking (Tư duy tổng thể)Nhìn vấn đề trong bối cảnh rộng hơn, không bị mắc kẹt vào chi tiếtConversion rate giảm → không chỉ nhìn landing page, mà xét cả giá cả, đối thủ, mùa vụ

Tại sao quan trọng cho Data Analyst?

Một Data Analyst giỏi không chỉ biết dùng tool — mà phải biết nghĩ đúng. Trong thực tế, hơn 70% thời gian làm việc của DA là hiểu vấn đề và đặt câu hỏi, chứ không phải viết SQL hay tạo biểu đồ.

Nếu bạn hỏi sai câu hỏi, dù phân tích kỹ đến đâu, kết quả cũng vô nghĩa. Ví dụ: stakeholder nói "doanh thu tháng này thấp quá" — nếu bạn chỉ báo cáo "doanh thu giảm 15%" thì chưa đủ. Analytical thinking giúp bạn đào sâu: giảm ở kênh nào? sản phẩm nào? khu vực nào? so với cùng kỳ năm trước thì sao?

Nhớ lại Buổi 1: trong bước Ask của Google Data Analytics Framework, bạn cần đặt đúng câu hỏi trước khi bắt tay vào phân tích. Tư duy phân tích chính là kỹ năng giúp bạn thực hiện bước đó hiệu quả.

Áp dụng thực tế

SMART Questions Framework

Khi đặt câu hỏi cho stakeholder hoặc cho chính mình, hãy đảm bảo câu hỏi đó là SMART:

Tiêu chíÝ nghĩa❌ Câu hỏi kém✅ Câu hỏi SMART
SpecificCụ thể, rõ ràng"Bán hàng thế nào?""Doanh thu Q4/2025 so với Q4/2024 thay đổi bao nhiêu %?"
MeasurableĐo lường được"Khách hàng có hài lòng không?""NPS score tháng 1/2026 là bao nhiêu?"
Action-orientedHướng đến hành động"Website có vấn đề gì?""Trang nào có bounce rate > 70% cần tối ưu?"
RelevantLiên quan đến mục tiêu"Có bao nhiêu user?""Bao nhiêu user đã mua hàng trong 30 ngày qua?"
Time-boundCó mốc thời gian"Doanh thu tăng chưa?""Doanh thu tháng 1/2026 có đạt target 5 tỷ không?"

5 Whys — Root Cause Analysis

Kỹ thuật 5 Whys (5 lần hỏi "Tại sao?") giúp bạn đào sâu từ triệu chứng bề mặt đến nguyên nhân gốc rễ:

Ví dụ: Doanh thu tháng 1/2026 giảm 20%

Lần hỏiCâu hỏiTrả lời
Why #1Tại sao doanh thu giảm 20%?Số đơn hàng giảm mạnh
Why #2Tại sao số đơn hàng giảm?Traffic website giảm 35%
Why #3Tại sao traffic giảm?Chiến dịch Google Ads bị tạm dừng
Why #4Tại sao Ads bị tạm dừng?Ngân sách quảng cáo bị cắt vì hết budget quý
Why #5Tại sao hết budget sớm?Không có kế hoạch phân bổ ngân sách theo tháng

Root cause: Thiếu kế hoạch phân bổ ngân sách quảng cáo theo tháng. → Action: Xây dựng monthly budget allocation plan cho Q2/2026.

Nếu chỉ dừng ở Why #1, bạn sẽ chỉ kết luận "đơn hàng giảm" — một insight vô ích. Hỏi đến tận gốc mới tìm ra giải pháp thực sự.


📌 Phần 2: Các loại dữ liệu

Khái niệm

Trước khi phân tích dữ liệu, bạn phải hiểu mình đang làm việc với loại dữ liệu nào, vì mỗi loại dữ liệu yêu cầu phương pháp phân tích và biểu đồ khác nhau.

Structured vs Unstructured Data

Tiêu chíStructured DataUnstructured Data
Định nghĩaDữ liệu có cấu trúc rõ ràng, tổ chức theo hàng và cộtDữ liệu không có cấu trúc cố định
Ví dụBảng Excel, database SQL, file CSVEmail, hình ảnh, video, review text, social media post
Lưu trữDatabase quan hệ (MySQL, PostgreSQL)Data lake, NoSQL (MongoDB)
Phân tíchSQL, Excel, thống kê truyền thốngNLP, computer vision, AI/ML
Tỷ lệ~20% dữ liệu doanh nghiệp~80% dữ liệu doanh nghiệp

Quantitative vs Qualitative Data

Tiêu chíQuantitative (Định lượng)Qualitative (Định tính)
Bản chấtSố — đo lường, đếm đượcMô tả — đặc tính, thuộc tính
Ví dụDoanh thu: 500 triệu, Tuổi: 28, Số đơn: 1.250Giới tính: Nam/Nữ, Màu sắc: Đỏ/Xanh, Feedback: "Tốt"
Phân tíchMean, median, standard deviation, regressionFrequency count, mode, chi-square test

Discrete vs Continuous Data

Tiêu chíDiscrete (Rời rạc)Continuous (Liên tục)
Bản chấtGiá trị đếm được, nguyênGiá trị đo được, có thể chia nhỏ vô hạn
Ví dụSố đơn hàng: 5, 10, 15Chiều cao: 1.72m, Nhiệt độ: 36.5°C
Biểu đồBar chart, pie chartHistogram, line chart

Các mức đo lường (Levels of Measurement)

Mức đoĐặc điểmVí dụPhép tính cho phép
Nominal (Danh nghĩa)Phân loại, không có thứ tựGiới tính, Nhóm máu, Mã sản phẩmMode, frequency
Ordinal (Thứ bậc)Có thứ tự, khoảng cách không đềuMức hài lòng (1-5 sao), Trình độ học vấnMode, median
Interval (Khoảng)Có thứ tự, khoảng cách đều, không có "zero" tuyệt đốiNhiệt độ (°C), Năm sinhMean, standard deviation
Ratio (Tỷ lệ)Có thứ tự, khoảng cách đều, có "zero" tuyệt đốiDoanh thu, Chiều cao, TuổiTất cả phép tính thống kê

💡 Mẹo nhớ

N-O-I-R (Nominal → Ordinal → Interval → Ratio): mức đo tăng dần → phép tính cho phép nhiều hơn. Dữ liệu Ratio là "mạnh" nhất — bạn có thể áp dụng mọi phép tính thống kê.

Tại sao quan trọng cho Data Analyst?

Việc xác định đúng loại dữ liệu quyết định toàn bộ hướng phân tích của bạn:

  • Chọn sai biểu đồ: dùng pie chart cho continuous data → vô nghĩa
  • Chọn sai thống kê: tính mean cho ordinal data (rating 1-5) → kết quả gây hiểu lầm
  • Chọn sai model: dùng linear regression cho categorical outcome → cần logistic regression

Trong quy trình Data Analytics (nhớ lại Buổi 1 — bước ProcessAnalyze), việc phân loại dữ liệu là bước đầu tiên bạn làm sau khi collect data.

Áp dụng thực tế

Bảng hướng dẫn: Loại dữ liệu → Biểu đồ → Phương pháp thống kê

Loại dữ liệuVí dụ cột trong datasetBiểu đồ phù hợpThống kê phù hợp
NominalThành phố, Loại sản phẩmBar chart, Pie chartMode, frequency, chi-square
OrdinalRating (1-5), Mức thu nhập (thấp/TB/cao)Bar chart, Stacked barMedian, mode, percentile
IntervalNhiệt độ, Điểm IQHistogram, Box plotMean, standard deviation
RatioDoanh thu, Số lượng đơn, TuổiHistogram, Scatter plot, Box plotMean, median, mode, SD, correlation
DiscreteSố con, Số đơn hàngBar chartMode, median
ContinuousChiều cao, Thời gian xử lýHistogram, Line chartMean, SD, percentile

📌 Phần 3: Thống kê mô tả (Descriptive Statistics)

Khái niệm

Thống kê mô tả (descriptive statistics) giúp bạn tóm tắt và mô tả đặc điểm chính của một tập dữ liệu. Đây là bước đầu tiên và quan trọng nhất trong mọi phân tích — trước khi chạy model phức tạp, bạn phải hiểu dữ liệu đang nói gì.

Measures of Central Tendency (Độ đo xu hướng trung tâm)

1. Mean (Trung bình cộng)

x¯=i=1nxin
  • Tính bằng tổng tất cả giá trị chia cho số phần tử
  • Ưu điểm: sử dụng mọi giá trị trong dataset
  • Nhược điểm: bị ảnh hưởng mạnh bởi outlier
  • Ví dụ: Lương 5 nhân viên: 8, 9, 10, 11, 62 (triệu) → Mean = (8+9+10+11+62)/5 = 20 triệu — liệu con số này có đại diện?

2. Median (Trung vị)

  • Giá trị ở vị trí chính giữa khi sắp xếp dữ liệu từ nhỏ đến lớn
  • Nếu n lẻ: median là giá trị thứ n+12
  • Nếu n chẵn: median là trung bình 2 giá trị giữa
  • Ưu điểm: không bị ảnh hưởng bởi outlier
  • Ví dụ: Lương: 8, 9, 10, 11, 62 → Median = 10 triệu — đại diện tốt hơn!

3. Mode (Yếu vị)

  • Giá trị xuất hiện nhiều nhất trong dataset
  • Có thể có 0, 1, hoặc nhiều mode
  • Phù hợp nhất cho dữ liệu nominal/categorical
  • Ví dụ: Size áo bán chạy: S, M, M, L, M, XL → Mode = M

So sánh Mean vs Median vs Mode

Tiêu chíMeanMedianMode
Bị ảnh hưởng bởi outlier✅ Rất nhiều❌ Không❌ Không
Dùng cho loại dữ liệuInterval, RatioOrdinal, Interval, RatioTất cả
Khi nào nên dùng?Dữ liệu phân phối đều, không outlierDữ liệu bị lệch (skewed), có outlierDữ liệu phân loại
Ví dụ ứng dụngGDP bình quânThu nhập hộ gia đìnhSản phẩm bán chạy nhất

Measures of Spread (Độ đo phân tán)

Range (Khoảng biến thiên)

Range=xmaxxmin
  • Đơn giản nhất, nhưng chỉ dùng 2 giá trị → dễ bị outlier ảnh hưởng
  • Ví dụ: Lương: 8, 9, 10, 11, 62 → Range = 62 - 8 = 54 triệu

Variance (Phương sai)

σ2=i=1n(xix¯)2n(tổng thể)s2=i=1n(xix¯)2n1(mẫu)
  • Đo mức phân tán trung bình của dữ liệu so với mean
  • Đơn vị là bình phương của đơn vị gốc → khó diễn giải trực tiếp

Standard Deviation (Độ lệch chuẩn)

σ=σ2s=s2
  • Căn bậc hai của variance → cùng đơn vị với dữ liệu gốc, dễ diễn giải
  • SD nhỏ → dữ liệu tập trung quanh mean; SD lớn → dữ liệu phân tán rộng
  • Quy tắc 68-95-99.7 (cho phân phối chuẩn):
    • 68% dữ liệu nằm trong x¯±1σ
    • 95% dữ liệu nằm trong x¯±2σ
    • 99.7% dữ liệu nằm trong x¯±3σ

Percentile, Quartile, IQR

Percentile (Phân vị): giá trị mà dưới nó có p% số quan sát.

  • Percentile thứ 90 (P90) = 90% dữ liệu có giá trị nhỏ hơn hoặc bằng

Quartile (Tứ phân vị): chia dữ liệu thành 4 phần bằng nhau:

  • Q1 (P25): 25% dữ liệu nằm dưới
  • Q2 (P50): = Median
  • Q3 (P75): 75% dữ liệu nằm dưới

IQR (Interquartile Range):

IQR=Q3Q1
  • Đo spread của 50% dữ liệu ở giữa → robust, không bị outlier ảnh hưởng
  • Rất hữu ích trong outlier detection (sẽ học ở Phần 4)

Khi nào dùng Mean vs Median?

Tình huốngNên dùngLý do
Dữ liệu phân phối chuẩn (symmetric)MeanMean = Median, cả hai đều đại diện tốt
Dữ liệu bị lệch phải (right-skewed)MedianMean bị kéo lên bởi giá trị lớn
Dữ liệu có outlierMedianMean bị ảnh hưởng, median ổn định
Dữ liệu lương, thu nhập, giá nhàMedianThường bị lệch phải do một số giá trị rất cao
Dữ liệu đều, ít outlier (điểm thi)MeanPhản ánh tốt xu hướng trung tâm

Tại sao quan trọng cho Data Analyst?

Descriptive statistics là ngôn ngữ chung giữa Data Analyst và stakeholder. Khi bạn báo cáo "doanh thu trung bình mỗi đơn là 450K, median là 320K, standard deviation là 280K" — stakeholder hiểu ngay rằng:

  • Đơn hàng trung bình khoảng 320K-450K
  • Có sự chênh lệch lớn giữa các đơn (SD cao)
  • Có một số đơn giá trị rất cao kéo mean lên (mean > median)

Đây chính là bước Analyze trong Google Data Analytics Framework — bạn dùng thống kê mô tả để tìm pattern trước khi đưa ra insight.

Áp dụng thực tế

Ví dụ: Phân tích lương nhân viên một công ty

Giả sử lương (triệu VND/tháng) của 10 nhân viên:

8, 9, 10, 10, 11, 12, 12, 13, 15, 80

Thống kêGiá trịNhận xét
Mean18 triệuBị kéo lên bởi lương 80 triệu (CEO?)
Median11.5 triệuĐại diện tốt hơn cho "lương điển hình"
Mode10, 12 triệu (bimodal)Hai mức lương phổ biến nhất
Range72 triệuKhoảng cách rất lớn
Standard Deviation~21.3 triệuPhân tán rất rộng
Q110 triệu25% nhân viên lương ≤ 10tr
Q313 triệu75% nhân viên lương ≤ 13tr
IQR3 triệu50% nhân viên lương trong khoảng 10-13tr

Insight: Nếu báo cáo "lương trung bình công ty là 18 triệu" → gây hiểu lầm nghiêm trọng. Thực tế 9/10 nhân viên lương dưới 15 triệu. → Nên dùng median (11.5 triệu) khi báo cáo lương.


📌 Phần 4: Phân phối dữ liệu & Outlier

Khái niệm

Normal Distribution (Phân phối chuẩn)

Phân phối chuẩn (hay bell curve) là phân phối mà:

  • Dạng hình chuông, đối xứng quanh mean
  • Mean = Median = Mode
  • Tuân theo quy tắc 68-95-99.7
        ┌──────┐
       ╱        ╲
      ╱          ╲
     ╱    68%     ╲
    ╱   ┌──────┐   ╲
   ╱    │      │    ╲
  ╱  95%│      │     ╲
 ╱──────┤      ├──────╲
╱ 99.7% │      │       ╲
─────────┴──────┴─────────
  -3σ  -2σ  -1σ  μ  +1σ  +2σ  +3σ

Nhiều dữ liệu tự nhiên tuân theo phân phối chuẩn: chiều cao, điểm thi, nhiệt độ. Tuy nhiên, dữ liệu kinh doanh (doanh thu, lương, giá sản phẩm) thường không phân phối chuẩn — chúng thường bị lệch (skewed).

Skewness (Độ lệch)

LoạiĐặc điểmMean vs MedianVí dụ
Symmetric (Đối xứng)Hình chuông cân đốiMean ≈ MedianĐiểm thi IELTS
Right-skewed (Lệch phải)Đuôi kéo dài về phảiMean > MedianThu nhập, giá nhà, doanh thu đơn hàng
Left-skewed (Lệch trái)Đuôi kéo dài về tráiMean < MedianTuổi nghỉ hưu, điểm bài thi dễ

Khi dữ liệu bị skewed, mean không còn đại diện tốt → dùng median thay thế.

Kurtosis (Độ nhọn)

  • Leptokurtic (kurtosis > 3): đỉnh nhọn hơn normal, đuôi dày → nhiều outlier hơn
  • Mesokurtic (kurtosis ≈ 3): giống normal distribution
  • Platykurtic (kurtosis < 3): đỉnh phẳng hơn, đuôi mỏng → ít outlier hơn

Outlier Detection (Phát hiện giá trị ngoại lai)

Outlier là điểm dữ liệu khác biệt bất thường so với phần còn lại. Hai phương pháp phổ biến:

Phương pháp 1: IQR Method

Outlier nếu: x<Q11.5×IQRhoặcx>Q3+1.5×IQR

Ví dụ với dataset lương ở Phần 3 (Q1=10, Q3=13, IQR=3):

  • Lower bound = 10 - 1.5 × 3 = 5.5
  • Upper bound = 13 + 1.5 × 3 = 17.5
  • Giá trị 80 > 17.5 → Outlier!
  • Giá trị 8, 9 > 5.5 → Không phải outlier

Phương pháp 2: Z-score

Z=xx¯σ
  • Z-score cho biết giá trị cách mean bao nhiêu standard deviation
  • Thường coi là outlier nếu |Z|>3 (hoặc |Z|>2 tuỳ ngành)
  • Ưu điểm: trực quan, dễ hiểu
  • Nhược điểm: bản thân mean và SD đã bị outlier ảnh hưởng → IQR method thường robust hơn

Tại sao quan trọng cho Data Analyst?

Outlier có thể là noise (lỗi dữ liệu, giá trị nhập sai) hoặc signal (thông tin quan trọng cần chú ý). Data Analyst cần biết:

  1. Phát hiện outlier → dùng IQR method hoặc Z-score
  2. Điều tra outlier → tìm hiểu nguyên nhân (lỗi nhập liệu? gian lận? trường hợp đặc biệt?)
  3. Quyết định xử lý → giữ, loại bỏ, hoặc xử lý riêng

Không bao giờ loại bỏ outlier mà không điều tra! Một đơn hàng 500 triệu có thể là lỗi nhập liệu, nhưng cũng có thể là đơn B2B hợp lệ.

Áp dụng thực tế

E-commerce: Phát hiện đơn hàng bất thường

Một sàn e-commerce tại Việt Nam phát hiện outlier trong dữ liệu đơn hàng tháng 12/2025:

MetricGiá trị thông thườngOutlier phát hiệnKết luận
Giá trị đơn hàng100K - 2 triệuNhiều đơn đúng 1 triệu, cùng địa chỉĐơn giả để "farm" voucher
Thời gian đặt hàng7h-23h200 đơn lúc 3h-4h sáng, cùng payment methodBot tự động đặt hàng
Tần suất mua1-3 đơn/tháng1 account đặt 50 đơn/ngàyAccount fake, cần block

Nhờ outlier detection bằng IQR method trên order_value và Z-score trên order_frequency, team DA đã:

  • Phát hiện ~2,000 đơn hàng giả (tiết kiệm ~800 triệu voucher)
  • Block 150 tài khoản bot
  • Đề xuất thêm rule: giới hạn số đơn/ngày/account

📌 Phần 5: Hypothesis & Sampling cơ bản

Khái niệm

Null Hypothesis vs Alternative Hypothesis

Khi muốn kiểm chứng một giả thuyết kinh doanh bằng dữ liệu, bạn cần đặt 2 giả thuyết:

LoạiKý hiệuMô tảVí dụ
Null Hypothesis (Giả thuyết không)H0"Không có gì thay đổi", "Không có sự khác biệt""Banner mới không làm tăng click rate"
Alternative Hypothesis (Giả thuyết đối)H1 hoặc Ha"Có sự thay đổi", "Có sự khác biệt""Banner mới làm tăng click rate"

ℹ️ Nguyên tắc

Bạn không chứng minh H0 đúng — bạn chỉ có thể bác bỏ hoặc không đủ bằng chứng để bác bỏ H0. Giống như trong tòa án: bị cáo được coi là vô tội cho đến khi có đủ bằng chứng kết tội.

Population vs Sample

Khái niệmMô tảVí dụ
Population (Tổng thể)Toàn bộ đối tượng bạn muốn nghiên cứuTất cả 5 triệu khách hàng của Shopee
Sample (Mẫu)Tập con đại diện được chọn ra để nghiên cứu2,000 khách hàng được chọn ngẫu nhiên

Tại sao cần sample? Vì bạn không thể (hoặc quá tốn kém) thu thập dữ liệu từ toàn bộ population. Mẫu tốt phải đại diện (representative) cho tổng thể.

Sampling Methods (Phương pháp lấy mẫu)

Phương phápCách làmƯu điểmNhược điểmKhi nào dùng
Random SamplingChọn ngẫu nhiên từ populationĐơn giản, ít biasCần list đầy đủ populationKhi population đồng nhất
Stratified SamplingChia population thành nhóm (strata), chọn ngẫu nhiên từ mỗi nhómĐảm bảo đại diện mọi nhómPhức tạp hơn, cần biết cấu trúc populationKhi population có nhiều nhóm (VD: theo tuổi, vùng miền)
Systematic SamplingChọn mỗi phần tử thứ k (VD: mỗi khách hàng thứ 10)Dễ thực hiệnCó thể bị bias nếu dữ liệu có patternKhi có danh sách sắp xếp sẵn
Convenience SamplingChọn đối tượng dễ tiếp cận nhấtNhanh, rẻBias cao, không đại diệnNghiên cứu sơ bộ, pilot test

Bias và cách tránh

Loại BiasMô tảVí dụCách tránh
Selection BiasMẫu không đại diện cho populationKhảo sát online → bỏ sót người không dùng internetKết hợp nhiều kênh khảo sát
Survivorship BiasChỉ nhìn "người sống sót", bỏ qua "người thất bại"Phân tích chỉ khách hàng active → kết luận sai về churnBao gồm cả churned customers
Confirmation BiasChỉ tìm data ủng hộ giả thuyết sẵn cóTin rằng banner mới tốt hơn → chỉ nhìn metric tăng, bỏ qua metric giảmĐặt H0 và test khách quan, nhìn mọi metric
Sampling BiasPhương pháp lấy mẫu tạo ra sự thiên lệchPhỏng vấn tại trung tâm thương mại → thiên về người thu nhập caoDùng random hoặc stratified sampling

Tại sao quan trọng cho Data Analyst?

Hypothesis testing là cầu nối giữa câu hỏi kinh doanh và bằng chứng dữ liệu. Không có hypothesis, bạn chỉ đang "lướt data" mà không biết tìm gì. Không hiểu sampling, bạn có thể rút ra kết luận sai từ một mẫu thiên lệch.

Trong thực tế, A/B testing — một trong những ứng dụng phổ biến nhất của DA — chính là hypothesis testing. Bạn sẽ gặp nó liên tục khi làm việc với product team, marketing team.

Áp dụng thực tế

Ví dụ: Kiểm chứng hiệu quả chiến dịch email marketing

Bối cảnh: Team marketing muốn biết email subject line mới có tăng open rate không.

BướcHành độngChi tiết
1. Đặt giả thuyếtH0: Open rate mới = Open rate cũ (25%); H1: Open rate mới > 25%
2. Chọn mẫuStratified sampling theo nhóm tuổi5,000 khách hàng (từ tổng thể 200,000)
3. Chia nhómControl (subject cũ): 2,500; Treatment (subject mới): 2,500Random assignment
4. Thu thập dataChạy A/B test trong 7 ngàyĐo open rate
5. Phân tíchControl: 25.2%; Treatment: 28.7%Chênh lệch: +3.5%
6. Kết luậnp-value = 0.003 < 0.05 → Bác bỏ H0Subject mới tăng open rate

Action: Triển khai subject line mới cho toàn bộ 200,000 khách hàng.


📊 Framework / Mô hình chính

5 Whys — Root Cause Analysis

Kỹ thuật đặt câu hỏi "Tại sao?" liên tục (thường 5 lần) để đi từ triệu chứng đến nguyên nhân gốc rễ. Framework này được Toyota phát triển và áp dụng rộng rãi trong quản lý chất lượng, giờ đây Data Analyst cũng dùng nó để phân tích root cause từ data.

Ví dụ: Tỷ lệ hoàn hàng tăng đột biến

LầnWhy?Trả lờiData point
1Tại sao return rate tăng 40%?Khách phàn nàn sản phẩm không đúng mô tả65% return reason = "không đúng mô tả"
2Tại sao không đúng mô tả?Hình ảnh sản phẩm khác thực tếSo sánh ảnh vs thực tế: 80% khác biệt đáng kể
3Tại sao ảnh khác thực tế?Team content dùng ảnh stock thay vì chụp thựcKiểm tra: 70% sản phẩm mới dùng ảnh stock
4Tại sao dùng ảnh stock?Không có photographer in-house, outsource quá chậmLead time chụp ảnh: 2 tuần/batch
5Tại sao outsource chậm?Chỉ có 1 vendor, không có backupHợp đồng chỉ với 1 studio

Root cause: Chỉ có 1 vendor chụp ảnh sản phẩm, không có backup. → Solution: Ký thêm 2 vendor backup + tuyển 1 photographer in-house.

Box Plot — Phát hiện Outlier

Box plot (biểu đồ hộp) là công cụ trực quan mạnh nhất để nhìn nhanh phân phối dữ liệu và phát hiện outlier.

Cách đọc Box Plot:

  Outlier                               Outlier
    o                                     o
    |                                     |
    |     ┌─────────┬──────────┐          |
    |     │         │          │          |
    ├─────┤   Q1    │ Median   │   Q3     ├─────
    |     │         │          │          |
    |     └─────────┴──────────┘          |
    |                                     |
  Lower                               Upper
  Fence                                Fence
(Q1-1.5×IQR)                      (Q3+1.5×IQR)
Thành phầnÝ nghĩa
Hộp (Box)Chứa 50% dữ liệu ở giữa (Q1 đến Q3)
Đường trong hộpMedian (Q2)
Râu (Whisker)Kéo dài đến giá trị min/max trong phạm vi fence
Lower FenceQ11.5×IQR
Upper FenceQ3+1.5×IQR
Điểm tròn (o)Outlier — nằm ngoài fence

Cách diễn giải nhanh:

  • Hộp rộng → dữ liệu phân tán nhiều
  • Median lệch về 1 phía trong hộp → dữ liệu skewed
  • Nhiều điểm ngoài fence → cần điều tra outlier

🛠️ Demo / Code mẫu

Excel Formulas cho Descriptive Statistics

Giả sử dữ liệu lương nằm trong cột A2:A11:

Mục đíchExcel FormulaKết quả ví dụ
Trung bình (Mean)=AVERAGE(A2:A11)18.0
Trung vị (Median)=MEDIAN(A2:A11)11.5
Yếu vị (Mode)=MODE(A2:A11) hoặc =MODE.MULT(A2:A11)10
Giá trị lớn nhất=MAX(A2:A11)80
Giá trị nhỏ nhất=MIN(A2:A11)8
Khoảng biến thiên (Range)=MAX(A2:A11)-MIN(A2:A11)72
Phương sai mẫu (Variance)=VAR(A2:A11) hoặc =VAR.S(A2:A11)~453.8
Phương sai tổng thể=VAR.P(A2:A11)~408.4
Độ lệch chuẩn mẫu (SD)=STDEV(A2:A11) hoặc =STDEV.S(A2:A11)~21.3
Độ lệch chuẩn tổng thể=STDEV.P(A2:A11)~20.2
Percentile thứ 90=PERCENTILE(A2:A11, 0.9) hoặc =PERCENTILE.INC(A2:A11, 0.9)38.3
Q1 (Quartile 1)=QUARTILE(A2:A11, 1) hoặc =QUARTILE.INC(A2:A11, 1)9.25
Q2 (Median)=QUARTILE(A2:A11, 2)11.5
Q3 (Quartile 3)=QUARTILE(A2:A11, 3)13.5
Đếm số phần tử=COUNT(A2:A11)10
Skewness=SKEW(A2:A11)>0 (right-skewed)
Kurtosis=KURT(A2:A11)

Outlier Detection bằng IQR trong Excel

Bước 1: Tính Q1 và Q3
  Q1 = =QUARTILE(A2:A11, 1)     → Ô B1
  Q3 = =QUARTILE(A2:A11, 3)     → Ô B2

Bước 2: Tính IQR
  IQR = =B2 - B1                → Ô B3

Bước 3: Tính Lower & Upper Fence
  Lower Fence = =B1 - 1.5*B3   → Ô B4
  Upper Fence = =B2 + 1.5*B3   → Ô B5

Bước 4: Đánh dấu Outlier (cho mỗi giá trị trong cột A)
  =IF(OR(A2<$B$4, A2>$B$5), "Outlier", "Normal")

Tạo Box Plot trong Excel

  1. Chọn dữ liệu (VD: A1:A11 bao gồm header)
  2. Vào InsertChart → chọn Box and Whisker (có từ Excel 2016+)
  3. Click chuột phải vào chart → Format Data Series:
    • Chọn Exclusive Quartile hoặc Inclusive Quartile tuỳ mục đích
    • Check Show outlier points để hiển thị outlier
  4. Thêm title, label cho dễ đọc

💡 Mẹo Excel

Nếu dùng Excel cũ (trước 2016) chưa có Box Plot, bạn có thể tạo thủ công bằng Stacked Bar Chart + error bars. Hoặc dùng Google Sheets cũng hỗ trợ Box Plot.


🏪 Ví dụ thực tế

🌍 Quốc tế: Netflix — A/B Testing Thumbnail bằng Statistics

Netflix là một trong những công ty ứng dụng statistics mạnh nhất thế giới. Họ sử dụng A/B testing (dựa trên hypothesis testing) để quyết định hầu như mọi thứ — từ thuật toán gợi ý đến hình thumbnail của mỗi bộ phim.

Bài toán: Nên dùng thumbnail nào cho phim "Stranger Things" để tối đa hoá click rate?

Cách làm:

  1. Hypothesis: H0: Không có sự khác biệt click rate giữa các thumbnail; H1: Có ít nhất 1 thumbnail có click rate cao hơn
  2. Sampling: Chọn ngẫu nhiên (random sampling) hàng triệu user, chia thành các nhóm tương đương
  3. Experiment: Hiển thị thumbnail A, B, C cho các nhóm khác nhau
  4. Statistics: Tính mean click rate, confidence interval, p-value cho từng nhóm
  5. Decision: Thumbnail nào có click rate cao nhất VÀ p-value < 0.05 → triển khai

Kết quả: Netflix phát hiện rằng thay đổi thumbnail có thể tăng click rate lên 20-30%, tương đương hàng triệu USD doanh thu từ việc giữ chân subscriber. Đáng chú ý, thumbnail tốt nhất thay đổi theo nhóm user khác nhau — nên Netflix cá nhân hoá thumbnail cho từng người!

Bài học cho DA: Ngay cả quyết định "nhỏ" như chọn hình ảnh cũng cần được kiểm chứng bằng data và statistics, không phải bằng ý kiến chủ quan.

🇻🇳 Việt Nam: Shopee — Phát hiện đơn hàng giả qua Outlier Analysis

Shopee Việt Nam đối mặt với vấn đề đơn hàng giả (fake orders) — người bán tự đặt hàng để tăng lượt bán, đánh giá, hoặc farm voucher. Đây là bài toán mà outlier detection giải quyết rất hiệu quả.

Cách tiếp cận:

  1. Descriptive Statistics: Tính mean, median, SD của order_value, order_frequency, time_between_orders cho từng seller
  2. Outlier Detection - IQR Method: Xác định seller có tần suất đơn hàng nằm ngoài Q3+1.5×IQR → nghi ngờ
  3. Outlier Detection - Z-score: Tính Z-score cho same_address_order_count — nếu |Z|>3, rất có thể là đơn giả
  4. Pattern Recognition: Kết hợp nhiều chỉ số bất thường:
    • Nhiều đơn cùng địa chỉ nhận
    • Đặt hàng lúc 2h-5h sáng
    • Giá trị đơn luôn = giá trị tối thiểu để nhận voucher
    • Payment method giống nhau

Business Impact:

  • Phát hiện và xử lý hàng ngàn tài khoản gian lận mỗi tháng
  • Tiết kiệm hàng tỷ VND chi phí voucher/khuyến mãi
  • Bảo vệ trải nghiệm người mua (review thật, xếp hạng chính xác)

Bài học cho DA: Outlier không phải lúc nào cũng là "lỗi cần loại bỏ" — đôi khi outlier chính là insight quan trọng nhất (fraud detection, anomaly monitoring).


✅ Checklist buổi học

Sau buổi học này, bạn nên tự tin trả lời "Có" cho tất cả các câu hỏi dưới đây:

  • [ ] Tôi có thể giải thích 5 kỹ năng analytical thinking và áp dụng SMART questions
  • [ ] Tôi biết cách dùng 5 Whys để tìm root cause từ một vấn đề kinh doanh
  • [ ] Tôi phân biệt được structured vs unstructured, quantitative vs qualitative, discrete vs continuous
  • [ ] Tôi hiểu 4 mức đo lường: nominal, ordinal, interval, ratio và biết dùng biểu đồ/thống kê phù hợp
  • [ ] Tôi tính được mean, median, mode và biết khi nào dùng mean vs median
  • [ ] Tôi hiểu range, variance, standard deviation và ý nghĩa của chúng
  • [ ] Tôi biết cách tính percentile, quartile, IQR
  • [ ] Tôi hiểu normal distribution, skewness, và biết đọc box plot
  • [ ] Tôi phát hiện được outlier bằng IQR method và Z-score
  • [ ] Tôi phân biệt được null hypothesis vs alternative hypothesis
  • [ ] Tôi hiểu population vs sample và các phương pháp sampling
  • [ ] Tôi nhận biết các loại bias và cách tránh
  • [ ] Tôi sử dụng được các hàm Excel cơ bản cho descriptive statistics

🔑 Từ khóa quan trọng

Tiếng ViệtEnglishGiải thích
Tư duy phân tíchAnalytical ThinkingKhả năng suy nghĩ có hệ thống để giải quyết vấn đề bằng dữ liệu
Trung bình cộngMean (Average)Tổng giá trị / số phần tử: x¯=xin
Trung vịMedianGiá trị ở vị trí giữa khi sắp xếp dữ liệu
Yếu vịModeGiá trị xuất hiện nhiều nhất trong dataset
Khoảng biến thiênRangeHiệu giữa giá trị lớn nhất và nhỏ nhất
Phương saiVarianceĐo mức phân tán trung bình bình phương so với mean
Độ lệch chuẩnStandard Deviation (SD)Căn bậc hai của variance — cùng đơn vị với dữ liệu gốc
Tứ phân vịQuartile (Q1, Q2, Q3)Chia dữ liệu thành 4 phần bằng nhau
Khoảng tứ phân vịIQR (Interquartile Range)Q3 − Q1, đo spread của 50% dữ liệu ở giữa
Giá trị ngoại laiOutlierĐiểm dữ liệu "khác biệt bất thường" so với phần còn lại
Phân phối chuẩnNormal DistributionPhân phối hình chuông, đối xứng quanh mean
Độ lệchSkewnessĐo mức bất đối xứng của phân phối
Độ nhọnKurtosisĐo mức nhọn/phẳng của đỉnh phân phối
Giả thuyết khôngNull Hypothesis (H0)Giả thuyết "không có sự khác biệt", cần data để bác bỏ
Giả thuyết đốiAlternative Hypothesis (H1)Giả thuyết "có sự khác biệt", điều bạn muốn chứng minh
Tổng thểPopulationToàn bộ đối tượng nghiên cứu
MẫuSampleTập con đại diện được chọn từ population
Lấy mẫu phân tầngStratified SamplingChia population thành nhóm, chọn mẫu từ mỗi nhóm
Thiên lệchBiasSai lệch có hệ thống trong thu thập hoặc phân tích dữ liệu
Phân tích nguyên nhân gốcRoot Cause AnalysisKỹ thuật đào sâu tìm nguyên nhân thực sự của vấn đề

🔗 Xem thêm Buổi 2

📝 Blog🧠 Case Study🏆 Tiêu chuẩn🛠 Workshop🎮 Mini Game