Appearance
📘 Buổi 2: Tư duy phân tích & Thống kê cơ bản
Biết đặt câu hỏi đúng và dùng thống kê để trả lời — kỹ năng #1 của Data Analyst.
🎯 Mục tiêu buổi học
- Phân biệt các loại dữ liệu: quantitative vs qualitative, discrete vs continuous
- Tính và diễn giải thống kê mô tả: mean, median, mode, standard deviation
- Hiểu phân phối dữ liệu, outlier, và tại sao chúng quan trọng
- Đặt giả thuyết kinh doanh (hypothesis) và biết cách kiểm chứng cơ bản
📋 Tổng quan
Ở Buổi 1, chúng ta đã tìm hiểu tổng quan về Data Analytics qua Google Data Analytics Framework và 4 loại phân tích (Descriptive, Diagnostic, Predictive, Prescriptive). Bạn đã biết rằng Data Analyst là người biến dữ liệu thành insight để hỗ trợ ra quyết định. Nhưng để làm được điều đó, bạn cần hai nền tảng quan trọng: tư duy phân tích (analytical thinking) và thống kê cơ bản (basic statistics). Đây chính là nội dung cốt lõi của Buổi 2.
Tư duy phân tích giúp bạn đặt đúng câu hỏi — biết hỏi "tại sao doanh thu giảm?" thay vì chỉ nhìn con số và hoang mang. Thống kê cơ bản giúp bạn trả lời câu hỏi đó bằng dữ liệu — mean, median cho bạn biết xu hướng trung tâm, standard deviation cho bạn biết dữ liệu phân tán ra sao, và outlier detection giúp bạn phát hiện những điểm "bất thường" cần chú ý. Hai kỹ năng này bổ trợ cho nhau và là nền tảng bắt buộc trước khi bạn học bất kỳ tool nào (Excel, SQL, Python hay Power BI).
Trong buổi học này, bạn sẽ đi từ tư duy (cách suy nghĩ có hệ thống) → dữ liệu (hiểu các loại dữ liệu) → thống kê (đo lường và mô tả dữ liệu) → phân phối & outlier (nhận diện pattern và bất thường) → hypothesis & sampling (kiểm chứng giả thuyết). Đây là hành trình logic mà mọi Data Analyst đều phải đi qua, dù bạn đang làm trong lĩnh vực tài chính, e-commerce, hay marketing.
📌 Phần 1: Tư duy phân tích (Analytical Thinking)
Khái niệm
Analytical thinking (tư duy phân tích) là khả năng xác định và định nghĩa vấn đề, sau đó giải quyết nó bằng dữ liệu một cách có hệ thống. Google Data Analytics Certificate xác định 5 kỹ năng cốt lõi của tư duy phân tích:
| # | Kỹ năng | Mô tả | Ví dụ thực tế |
|---|---|---|---|
| 1 | Visualization (Trực quan hoá) | Khả năng hình dung dữ liệu dưới dạng biểu đồ, đồ thị để phát hiện pattern | Nhìn biểu đồ doanh thu 12 tháng → thấy ngay tháng nào sụt giảm |
| 2 | Strategy (Chiến lược) | Biết lên kế hoạch, xác định mục tiêu và các bước cần làm | Xây dựng dashboard theo thứ tự: thu thập → làm sạch → phân tích → trình bày |
| 3 | Problem-solving (Giải quyết vấn đề) | Tìm giải pháp dựa trên dữ liệu thay vì cảm tính | Doanh thu giảm → phân tích theo kênh → phát hiện kênh online giảm 40% → điều chỉnh ngân sách quảng cáo |
| 4 | Pattern recognition (Nhận diện mẫu) | Phát hiện xu hướng, sự lặp lại, hoặc điểm bất thường trong dữ liệu | Nhận ra đơn hàng luôn tăng vào thứ 6 cuối tháng → lên kế hoạch nhân sự kho hàng |
| 5 | Big-picture thinking (Tư duy tổng thể) | Nhìn vấn đề trong bối cảnh rộng hơn, không bị mắc kẹt vào chi tiết | Conversion rate giảm → không chỉ nhìn landing page, mà xét cả giá cả, đối thủ, mùa vụ |
Tại sao quan trọng cho Data Analyst?
Một Data Analyst giỏi không chỉ biết dùng tool — mà phải biết nghĩ đúng. Trong thực tế, hơn 70% thời gian làm việc của DA là hiểu vấn đề và đặt câu hỏi, chứ không phải viết SQL hay tạo biểu đồ.
Nếu bạn hỏi sai câu hỏi, dù phân tích kỹ đến đâu, kết quả cũng vô nghĩa. Ví dụ: stakeholder nói "doanh thu tháng này thấp quá" — nếu bạn chỉ báo cáo "doanh thu giảm 15%" thì chưa đủ. Analytical thinking giúp bạn đào sâu: giảm ở kênh nào? sản phẩm nào? khu vực nào? so với cùng kỳ năm trước thì sao?
Nhớ lại Buổi 1: trong bước Ask của Google Data Analytics Framework, bạn cần đặt đúng câu hỏi trước khi bắt tay vào phân tích. Tư duy phân tích chính là kỹ năng giúp bạn thực hiện bước đó hiệu quả.
Áp dụng thực tế
SMART Questions Framework
Khi đặt câu hỏi cho stakeholder hoặc cho chính mình, hãy đảm bảo câu hỏi đó là SMART:
| Tiêu chí | Ý nghĩa | ❌ Câu hỏi kém | ✅ Câu hỏi SMART |
|---|---|---|---|
| Specific | Cụ thể, rõ ràng | "Bán hàng thế nào?" | "Doanh thu Q4/2025 so với Q4/2024 thay đổi bao nhiêu %?" |
| Measurable | Đo lường được | "Khách hàng có hài lòng không?" | "NPS score tháng 1/2026 là bao nhiêu?" |
| Action-oriented | Hướng đến hành động | "Website có vấn đề gì?" | "Trang nào có bounce rate > 70% cần tối ưu?" |
| Relevant | Liên quan đến mục tiêu | "Có bao nhiêu user?" | "Bao nhiêu user đã mua hàng trong 30 ngày qua?" |
| Time-bound | Có mốc thời gian | "Doanh thu tăng chưa?" | "Doanh thu tháng 1/2026 có đạt target 5 tỷ không?" |
5 Whys — Root Cause Analysis
Kỹ thuật 5 Whys (5 lần hỏi "Tại sao?") giúp bạn đào sâu từ triệu chứng bề mặt đến nguyên nhân gốc rễ:
Ví dụ: Doanh thu tháng 1/2026 giảm 20%
| Lần hỏi | Câu hỏi | Trả lời |
|---|---|---|
| Why #1 | Tại sao doanh thu giảm 20%? | Số đơn hàng giảm mạnh |
| Why #2 | Tại sao số đơn hàng giảm? | Traffic website giảm 35% |
| Why #3 | Tại sao traffic giảm? | Chiến dịch Google Ads bị tạm dừng |
| Why #4 | Tại sao Ads bị tạm dừng? | Ngân sách quảng cáo bị cắt vì hết budget quý |
| Why #5 | Tại sao hết budget sớm? | Không có kế hoạch phân bổ ngân sách theo tháng |
→ Root cause: Thiếu kế hoạch phân bổ ngân sách quảng cáo theo tháng. → Action: Xây dựng monthly budget allocation plan cho Q2/2026.
Nếu chỉ dừng ở Why #1, bạn sẽ chỉ kết luận "đơn hàng giảm" — một insight vô ích. Hỏi đến tận gốc mới tìm ra giải pháp thực sự.
📌 Phần 2: Các loại dữ liệu
Khái niệm
Trước khi phân tích dữ liệu, bạn phải hiểu mình đang làm việc với loại dữ liệu nào, vì mỗi loại dữ liệu yêu cầu phương pháp phân tích và biểu đồ khác nhau.
Structured vs Unstructured Data
| Tiêu chí | Structured Data | Unstructured Data |
|---|---|---|
| Định nghĩa | Dữ liệu có cấu trúc rõ ràng, tổ chức theo hàng và cột | Dữ liệu không có cấu trúc cố định |
| Ví dụ | Bảng Excel, database SQL, file CSV | Email, hình ảnh, video, review text, social media post |
| Lưu trữ | Database quan hệ (MySQL, PostgreSQL) | Data lake, NoSQL (MongoDB) |
| Phân tích | SQL, Excel, thống kê truyền thống | NLP, computer vision, AI/ML |
| Tỷ lệ | ~20% dữ liệu doanh nghiệp | ~80% dữ liệu doanh nghiệp |
Quantitative vs Qualitative Data
| Tiêu chí | Quantitative (Định lượng) | Qualitative (Định tính) |
|---|---|---|
| Bản chất | Số — đo lường, đếm được | Mô tả — đặc tính, thuộc tính |
| Ví dụ | Doanh thu: 500 triệu, Tuổi: 28, Số đơn: 1.250 | Giới tính: Nam/Nữ, Màu sắc: Đỏ/Xanh, Feedback: "Tốt" |
| Phân tích | Mean, median, standard deviation, regression | Frequency count, mode, chi-square test |
Discrete vs Continuous Data
| Tiêu chí | Discrete (Rời rạc) | Continuous (Liên tục) |
|---|---|---|
| Bản chất | Giá trị đếm được, nguyên | Giá trị đo được, có thể chia nhỏ vô hạn |
| Ví dụ | Số đơn hàng: 5, 10, 15 | Chiều cao: 1.72m, Nhiệt độ: 36.5°C |
| Biểu đồ | Bar chart, pie chart | Histogram, line chart |
Các mức đo lường (Levels of Measurement)
| Mức đo | Đặc điểm | Ví dụ | Phép tính cho phép |
|---|---|---|---|
| Nominal (Danh nghĩa) | Phân loại, không có thứ tự | Giới tính, Nhóm máu, Mã sản phẩm | Mode, frequency |
| Ordinal (Thứ bậc) | Có thứ tự, khoảng cách không đều | Mức hài lòng (1-5 sao), Trình độ học vấn | Mode, median |
| Interval (Khoảng) | Có thứ tự, khoảng cách đều, không có "zero" tuyệt đối | Nhiệt độ (°C), Năm sinh | Mean, standard deviation |
| Ratio (Tỷ lệ) | Có thứ tự, khoảng cách đều, có "zero" tuyệt đối | Doanh thu, Chiều cao, Tuổi | Tất cả phép tính thống kê |
💡 Mẹo nhớ
N-O-I-R (Nominal → Ordinal → Interval → Ratio): mức đo tăng dần → phép tính cho phép nhiều hơn. Dữ liệu Ratio là "mạnh" nhất — bạn có thể áp dụng mọi phép tính thống kê.
Tại sao quan trọng cho Data Analyst?
Việc xác định đúng loại dữ liệu quyết định toàn bộ hướng phân tích của bạn:
- Chọn sai biểu đồ: dùng pie chart cho continuous data → vô nghĩa
- Chọn sai thống kê: tính mean cho ordinal data (rating 1-5) → kết quả gây hiểu lầm
- Chọn sai model: dùng linear regression cho categorical outcome → cần logistic regression
Trong quy trình Data Analytics (nhớ lại Buổi 1 — bước Process và Analyze), việc phân loại dữ liệu là bước đầu tiên bạn làm sau khi collect data.
Áp dụng thực tế
Bảng hướng dẫn: Loại dữ liệu → Biểu đồ → Phương pháp thống kê
| Loại dữ liệu | Ví dụ cột trong dataset | Biểu đồ phù hợp | Thống kê phù hợp |
|---|---|---|---|
| Nominal | Thành phố, Loại sản phẩm | Bar chart, Pie chart | Mode, frequency, chi-square |
| Ordinal | Rating (1-5), Mức thu nhập (thấp/TB/cao) | Bar chart, Stacked bar | Median, mode, percentile |
| Interval | Nhiệt độ, Điểm IQ | Histogram, Box plot | Mean, standard deviation |
| Ratio | Doanh thu, Số lượng đơn, Tuổi | Histogram, Scatter plot, Box plot | Mean, median, mode, SD, correlation |
| Discrete | Số con, Số đơn hàng | Bar chart | Mode, median |
| Continuous | Chiều cao, Thời gian xử lý | Histogram, Line chart | Mean, SD, percentile |
📌 Phần 3: Thống kê mô tả (Descriptive Statistics)
Khái niệm
Thống kê mô tả (descriptive statistics) giúp bạn tóm tắt và mô tả đặc điểm chính của một tập dữ liệu. Đây là bước đầu tiên và quan trọng nhất trong mọi phân tích — trước khi chạy model phức tạp, bạn phải hiểu dữ liệu đang nói gì.
Measures of Central Tendency (Độ đo xu hướng trung tâm)
1. Mean (Trung bình cộng)
- Tính bằng tổng tất cả giá trị chia cho số phần tử
- Ưu điểm: sử dụng mọi giá trị trong dataset
- Nhược điểm: bị ảnh hưởng mạnh bởi outlier
- Ví dụ: Lương 5 nhân viên: 8, 9, 10, 11, 62 (triệu) → Mean = (8+9+10+11+62)/5 = 20 triệu — liệu con số này có đại diện?
2. Median (Trung vị)
- Giá trị ở vị trí chính giữa khi sắp xếp dữ liệu từ nhỏ đến lớn
- Nếu
lẻ: median là giá trị thứ - Nếu
chẵn: median là trung bình 2 giá trị giữa - Ưu điểm: không bị ảnh hưởng bởi outlier
- Ví dụ: Lương: 8, 9, 10, 11, 62 → Median = 10 triệu — đại diện tốt hơn!
3. Mode (Yếu vị)
- Giá trị xuất hiện nhiều nhất trong dataset
- Có thể có 0, 1, hoặc nhiều mode
- Phù hợp nhất cho dữ liệu nominal/categorical
- Ví dụ: Size áo bán chạy: S, M, M, L, M, XL → Mode = M
So sánh Mean vs Median vs Mode
| Tiêu chí | Mean | Median | Mode |
|---|---|---|---|
| Bị ảnh hưởng bởi outlier | ✅ Rất nhiều | ❌ Không | ❌ Không |
| Dùng cho loại dữ liệu | Interval, Ratio | Ordinal, Interval, Ratio | Tất cả |
| Khi nào nên dùng? | Dữ liệu phân phối đều, không outlier | Dữ liệu bị lệch (skewed), có outlier | Dữ liệu phân loại |
| Ví dụ ứng dụng | GDP bình quân | Thu nhập hộ gia đình | Sản phẩm bán chạy nhất |
Measures of Spread (Độ đo phân tán)
Range (Khoảng biến thiên)
- Đơn giản nhất, nhưng chỉ dùng 2 giá trị → dễ bị outlier ảnh hưởng
- Ví dụ: Lương: 8, 9, 10, 11, 62 → Range = 62 - 8 = 54 triệu
Variance (Phương sai)
- Đo mức phân tán trung bình của dữ liệu so với mean
- Đơn vị là bình phương của đơn vị gốc → khó diễn giải trực tiếp
Standard Deviation (Độ lệch chuẩn)
- Căn bậc hai của variance → cùng đơn vị với dữ liệu gốc, dễ diễn giải
- SD nhỏ → dữ liệu tập trung quanh mean; SD lớn → dữ liệu phân tán rộng
- Quy tắc 68-95-99.7 (cho phân phối chuẩn):
- 68% dữ liệu nằm trong
- 95% dữ liệu nằm trong
- 99.7% dữ liệu nằm trong
- 68% dữ liệu nằm trong
Percentile, Quartile, IQR
Percentile (Phân vị): giá trị mà dưới nó có
- Percentile thứ 90 (P90) = 90% dữ liệu có giá trị nhỏ hơn hoặc bằng
Quartile (Tứ phân vị): chia dữ liệu thành 4 phần bằng nhau:
- Q1 (P25): 25% dữ liệu nằm dưới
- Q2 (P50): = Median
- Q3 (P75): 75% dữ liệu nằm dưới
IQR (Interquartile Range):
- Đo spread của 50% dữ liệu ở giữa → robust, không bị outlier ảnh hưởng
- Rất hữu ích trong outlier detection (sẽ học ở Phần 4)
Khi nào dùng Mean vs Median?
| Tình huống | Nên dùng | Lý do |
|---|---|---|
| Dữ liệu phân phối chuẩn (symmetric) | Mean | Mean = Median, cả hai đều đại diện tốt |
| Dữ liệu bị lệch phải (right-skewed) | Median | Mean bị kéo lên bởi giá trị lớn |
| Dữ liệu có outlier | Median | Mean bị ảnh hưởng, median ổn định |
| Dữ liệu lương, thu nhập, giá nhà | Median | Thường bị lệch phải do một số giá trị rất cao |
| Dữ liệu đều, ít outlier (điểm thi) | Mean | Phản ánh tốt xu hướng trung tâm |
Tại sao quan trọng cho Data Analyst?
Descriptive statistics là ngôn ngữ chung giữa Data Analyst và stakeholder. Khi bạn báo cáo "doanh thu trung bình mỗi đơn là 450K, median là 320K, standard deviation là 280K" — stakeholder hiểu ngay rằng:
- Đơn hàng trung bình khoảng 320K-450K
- Có sự chênh lệch lớn giữa các đơn (SD cao)
- Có một số đơn giá trị rất cao kéo mean lên (mean > median)
Đây chính là bước Analyze trong Google Data Analytics Framework — bạn dùng thống kê mô tả để tìm pattern trước khi đưa ra insight.
Áp dụng thực tế
Ví dụ: Phân tích lương nhân viên một công ty
Giả sử lương (triệu VND/tháng) của 10 nhân viên:
8, 9, 10, 10, 11, 12, 12, 13, 15, 80
| Thống kê | Giá trị | Nhận xét |
|---|---|---|
| Mean | 18 triệu | Bị kéo lên bởi lương 80 triệu (CEO?) |
| Median | 11.5 triệu | Đại diện tốt hơn cho "lương điển hình" |
| Mode | 10, 12 triệu (bimodal) | Hai mức lương phổ biến nhất |
| Range | 72 triệu | Khoảng cách rất lớn |
| Standard Deviation | ~21.3 triệu | Phân tán rất rộng |
| Q1 | 10 triệu | 25% nhân viên lương ≤ 10tr |
| Q3 | 13 triệu | 75% nhân viên lương ≤ 13tr |
| IQR | 3 triệu | 50% nhân viên lương trong khoảng 10-13tr |
Insight: Nếu báo cáo "lương trung bình công ty là 18 triệu" → gây hiểu lầm nghiêm trọng. Thực tế 9/10 nhân viên lương dưới 15 triệu. → Nên dùng median (11.5 triệu) khi báo cáo lương.
📌 Phần 4: Phân phối dữ liệu & Outlier
Khái niệm
Normal Distribution (Phân phối chuẩn)
Phân phối chuẩn (hay bell curve) là phân phối mà:
- Dạng hình chuông, đối xứng quanh mean
- Mean = Median = Mode
- Tuân theo quy tắc 68-95-99.7
┌──────┐
╱ ╲
╱ ╲
╱ 68% ╲
╱ ┌──────┐ ╲
╱ │ │ ╲
╱ 95%│ │ ╲
╱──────┤ ├──────╲
╱ 99.7% │ │ ╲
─────────┴──────┴─────────
-3σ -2σ -1σ μ +1σ +2σ +3σNhiều dữ liệu tự nhiên tuân theo phân phối chuẩn: chiều cao, điểm thi, nhiệt độ. Tuy nhiên, dữ liệu kinh doanh (doanh thu, lương, giá sản phẩm) thường không phân phối chuẩn — chúng thường bị lệch (skewed).
Skewness (Độ lệch)
| Loại | Đặc điểm | Mean vs Median | Ví dụ |
|---|---|---|---|
| Symmetric (Đối xứng) | Hình chuông cân đối | Mean ≈ Median | Điểm thi IELTS |
| Right-skewed (Lệch phải) | Đuôi kéo dài về phải | Mean > Median | Thu nhập, giá nhà, doanh thu đơn hàng |
| Left-skewed (Lệch trái) | Đuôi kéo dài về trái | Mean < Median | Tuổi nghỉ hưu, điểm bài thi dễ |
Khi dữ liệu bị skewed, mean không còn đại diện tốt → dùng median thay thế.
Kurtosis (Độ nhọn)
- Leptokurtic (kurtosis > 3): đỉnh nhọn hơn normal, đuôi dày → nhiều outlier hơn
- Mesokurtic (kurtosis ≈ 3): giống normal distribution
- Platykurtic (kurtosis < 3): đỉnh phẳng hơn, đuôi mỏng → ít outlier hơn
Outlier Detection (Phát hiện giá trị ngoại lai)
Outlier là điểm dữ liệu khác biệt bất thường so với phần còn lại. Hai phương pháp phổ biến:
Phương pháp 1: IQR Method
Ví dụ với dataset lương ở Phần 3 (Q1=10, Q3=13, IQR=3):
- Lower bound = 10 - 1.5 × 3 = 5.5
- Upper bound = 13 + 1.5 × 3 = 17.5
- Giá trị 80 > 17.5 → Outlier! ✅
- Giá trị 8, 9 > 5.5 → Không phải outlier
Phương pháp 2: Z-score
- Z-score cho biết giá trị cách mean bao nhiêu standard deviation
- Thường coi là outlier nếu
(hoặc tuỳ ngành) - Ưu điểm: trực quan, dễ hiểu
- Nhược điểm: bản thân mean và SD đã bị outlier ảnh hưởng → IQR method thường robust hơn
Tại sao quan trọng cho Data Analyst?
Outlier có thể là noise (lỗi dữ liệu, giá trị nhập sai) hoặc signal (thông tin quan trọng cần chú ý). Data Analyst cần biết:
- Phát hiện outlier → dùng IQR method hoặc Z-score
- Điều tra outlier → tìm hiểu nguyên nhân (lỗi nhập liệu? gian lận? trường hợp đặc biệt?)
- Quyết định xử lý → giữ, loại bỏ, hoặc xử lý riêng
Không bao giờ loại bỏ outlier mà không điều tra! Một đơn hàng 500 triệu có thể là lỗi nhập liệu, nhưng cũng có thể là đơn B2B hợp lệ.
Áp dụng thực tế
E-commerce: Phát hiện đơn hàng bất thường
Một sàn e-commerce tại Việt Nam phát hiện outlier trong dữ liệu đơn hàng tháng 12/2025:
| Metric | Giá trị thông thường | Outlier phát hiện | Kết luận |
|---|---|---|---|
| Giá trị đơn hàng | 100K - 2 triệu | Nhiều đơn đúng 1 triệu, cùng địa chỉ | Đơn giả để "farm" voucher |
| Thời gian đặt hàng | 7h-23h | 200 đơn lúc 3h-4h sáng, cùng payment method | Bot tự động đặt hàng |
| Tần suất mua | 1-3 đơn/tháng | 1 account đặt 50 đơn/ngày | Account fake, cần block |
Nhờ outlier detection bằng IQR method trên order_value và Z-score trên order_frequency, team DA đã:
- Phát hiện ~2,000 đơn hàng giả (tiết kiệm ~800 triệu voucher)
- Block 150 tài khoản bot
- Đề xuất thêm rule: giới hạn số đơn/ngày/account
📌 Phần 5: Hypothesis & Sampling cơ bản
Khái niệm
Null Hypothesis vs Alternative Hypothesis
Khi muốn kiểm chứng một giả thuyết kinh doanh bằng dữ liệu, bạn cần đặt 2 giả thuyết:
| Loại | Ký hiệu | Mô tả | Ví dụ |
|---|---|---|---|
| Null Hypothesis (Giả thuyết không) | "Không có gì thay đổi", "Không có sự khác biệt" | "Banner mới không làm tăng click rate" | |
| Alternative Hypothesis (Giả thuyết đối) | "Có sự thay đổi", "Có sự khác biệt" | "Banner mới có làm tăng click rate" |
ℹ️ Nguyên tắc
Bạn không chứng minh
Population vs Sample
| Khái niệm | Mô tả | Ví dụ |
|---|---|---|
| Population (Tổng thể) | Toàn bộ đối tượng bạn muốn nghiên cứu | Tất cả 5 triệu khách hàng của Shopee |
| Sample (Mẫu) | Tập con đại diện được chọn ra để nghiên cứu | 2,000 khách hàng được chọn ngẫu nhiên |
Tại sao cần sample? Vì bạn không thể (hoặc quá tốn kém) thu thập dữ liệu từ toàn bộ population. Mẫu tốt phải đại diện (representative) cho tổng thể.
Sampling Methods (Phương pháp lấy mẫu)
| Phương pháp | Cách làm | Ưu điểm | Nhược điểm | Khi nào dùng |
|---|---|---|---|---|
| Random Sampling | Chọn ngẫu nhiên từ population | Đơn giản, ít bias | Cần list đầy đủ population | Khi population đồng nhất |
| Stratified Sampling | Chia population thành nhóm (strata), chọn ngẫu nhiên từ mỗi nhóm | Đảm bảo đại diện mọi nhóm | Phức tạp hơn, cần biết cấu trúc population | Khi population có nhiều nhóm (VD: theo tuổi, vùng miền) |
| Systematic Sampling | Chọn mỗi phần tử thứ | Dễ thực hiện | Có thể bị bias nếu dữ liệu có pattern | Khi có danh sách sắp xếp sẵn |
| Convenience Sampling | Chọn đối tượng dễ tiếp cận nhất | Nhanh, rẻ | Bias cao, không đại diện | Nghiên cứu sơ bộ, pilot test |
Bias và cách tránh
| Loại Bias | Mô tả | Ví dụ | Cách tránh |
|---|---|---|---|
| Selection Bias | Mẫu không đại diện cho population | Khảo sát online → bỏ sót người không dùng internet | Kết hợp nhiều kênh khảo sát |
| Survivorship Bias | Chỉ nhìn "người sống sót", bỏ qua "người thất bại" | Phân tích chỉ khách hàng active → kết luận sai về churn | Bao gồm cả churned customers |
| Confirmation Bias | Chỉ tìm data ủng hộ giả thuyết sẵn có | Tin rằng banner mới tốt hơn → chỉ nhìn metric tăng, bỏ qua metric giảm | Đặt |
| Sampling Bias | Phương pháp lấy mẫu tạo ra sự thiên lệch | Phỏng vấn tại trung tâm thương mại → thiên về người thu nhập cao | Dùng random hoặc stratified sampling |
Tại sao quan trọng cho Data Analyst?
Hypothesis testing là cầu nối giữa câu hỏi kinh doanh và bằng chứng dữ liệu. Không có hypothesis, bạn chỉ đang "lướt data" mà không biết tìm gì. Không hiểu sampling, bạn có thể rút ra kết luận sai từ một mẫu thiên lệch.
Trong thực tế, A/B testing — một trong những ứng dụng phổ biến nhất của DA — chính là hypothesis testing. Bạn sẽ gặp nó liên tục khi làm việc với product team, marketing team.
Áp dụng thực tế
Ví dụ: Kiểm chứng hiệu quả chiến dịch email marketing
Bối cảnh: Team marketing muốn biết email subject line mới có tăng open rate không.
| Bước | Hành động | Chi tiết |
|---|---|---|
| 1. Đặt giả thuyết | ||
| 2. Chọn mẫu | Stratified sampling theo nhóm tuổi | 5,000 khách hàng (từ tổng thể 200,000) |
| 3. Chia nhóm | Control (subject cũ): 2,500; Treatment (subject mới): 2,500 | Random assignment |
| 4. Thu thập data | Chạy A/B test trong 7 ngày | Đo open rate |
| 5. Phân tích | Control: 25.2%; Treatment: 28.7% | Chênh lệch: +3.5% |
| 6. Kết luận | p-value = 0.003 < 0.05 → Bác bỏ | Subject mới có tăng open rate |
→ Action: Triển khai subject line mới cho toàn bộ 200,000 khách hàng.
📊 Framework / Mô hình chính
5 Whys — Root Cause Analysis
Kỹ thuật đặt câu hỏi "Tại sao?" liên tục (thường 5 lần) để đi từ triệu chứng đến nguyên nhân gốc rễ. Framework này được Toyota phát triển và áp dụng rộng rãi trong quản lý chất lượng, giờ đây Data Analyst cũng dùng nó để phân tích root cause từ data.
Ví dụ: Tỷ lệ hoàn hàng tăng đột biến
| Lần | Why? | Trả lời | Data point |
|---|---|---|---|
| 1 | Tại sao return rate tăng 40%? | Khách phàn nàn sản phẩm không đúng mô tả | 65% return reason = "không đúng mô tả" |
| 2 | Tại sao không đúng mô tả? | Hình ảnh sản phẩm khác thực tế | So sánh ảnh vs thực tế: 80% khác biệt đáng kể |
| 3 | Tại sao ảnh khác thực tế? | Team content dùng ảnh stock thay vì chụp thực | Kiểm tra: 70% sản phẩm mới dùng ảnh stock |
| 4 | Tại sao dùng ảnh stock? | Không có photographer in-house, outsource quá chậm | Lead time chụp ảnh: 2 tuần/batch |
| 5 | Tại sao outsource chậm? | Chỉ có 1 vendor, không có backup | Hợp đồng chỉ với 1 studio |
→ Root cause: Chỉ có 1 vendor chụp ảnh sản phẩm, không có backup. → Solution: Ký thêm 2 vendor backup + tuyển 1 photographer in-house.
Box Plot — Phát hiện Outlier
Box plot (biểu đồ hộp) là công cụ trực quan mạnh nhất để nhìn nhanh phân phối dữ liệu và phát hiện outlier.
Cách đọc Box Plot:
Outlier Outlier
o o
| |
| ┌─────────┬──────────┐ |
| │ │ │ |
├─────┤ Q1 │ Median │ Q3 ├─────
| │ │ │ |
| └─────────┴──────────┘ |
| |
Lower Upper
Fence Fence
(Q1-1.5×IQR) (Q3+1.5×IQR)| Thành phần | Ý nghĩa |
|---|---|
| Hộp (Box) | Chứa 50% dữ liệu ở giữa (Q1 đến Q3) |
| Đường trong hộp | Median (Q2) |
| Râu (Whisker) | Kéo dài đến giá trị min/max trong phạm vi fence |
| Lower Fence | |
| Upper Fence | |
| Điểm tròn (o) | Outlier — nằm ngoài fence |
Cách diễn giải nhanh:
- Hộp rộng → dữ liệu phân tán nhiều
- Median lệch về 1 phía trong hộp → dữ liệu skewed
- Nhiều điểm ngoài fence → cần điều tra outlier
🛠️ Demo / Code mẫu
Excel Formulas cho Descriptive Statistics
Giả sử dữ liệu lương nằm trong cột A2:A11:
| Mục đích | Excel Formula | Kết quả ví dụ |
|---|---|---|
| Trung bình (Mean) | =AVERAGE(A2:A11) | 18.0 |
| Trung vị (Median) | =MEDIAN(A2:A11) | 11.5 |
| Yếu vị (Mode) | =MODE(A2:A11) hoặc =MODE.MULT(A2:A11) | 10 |
| Giá trị lớn nhất | =MAX(A2:A11) | 80 |
| Giá trị nhỏ nhất | =MIN(A2:A11) | 8 |
| Khoảng biến thiên (Range) | =MAX(A2:A11)-MIN(A2:A11) | 72 |
| Phương sai mẫu (Variance) | =VAR(A2:A11) hoặc =VAR.S(A2:A11) | ~453.8 |
| Phương sai tổng thể | =VAR.P(A2:A11) | ~408.4 |
| Độ lệch chuẩn mẫu (SD) | =STDEV(A2:A11) hoặc =STDEV.S(A2:A11) | ~21.3 |
| Độ lệch chuẩn tổng thể | =STDEV.P(A2:A11) | ~20.2 |
| Percentile thứ 90 | =PERCENTILE(A2:A11, 0.9) hoặc =PERCENTILE.INC(A2:A11, 0.9) | 38.3 |
| Q1 (Quartile 1) | =QUARTILE(A2:A11, 1) hoặc =QUARTILE.INC(A2:A11, 1) | 9.25 |
| Q2 (Median) | =QUARTILE(A2:A11, 2) | 11.5 |
| Q3 (Quartile 3) | =QUARTILE(A2:A11, 3) | 13.5 |
| Đếm số phần tử | =COUNT(A2:A11) | 10 |
| Skewness | =SKEW(A2:A11) | >0 (right-skewed) |
| Kurtosis | =KURT(A2:A11) |
Outlier Detection bằng IQR trong Excel
Bước 1: Tính Q1 và Q3
Q1 = =QUARTILE(A2:A11, 1) → Ô B1
Q3 = =QUARTILE(A2:A11, 3) → Ô B2
Bước 2: Tính IQR
IQR = =B2 - B1 → Ô B3
Bước 3: Tính Lower & Upper Fence
Lower Fence = =B1 - 1.5*B3 → Ô B4
Upper Fence = =B2 + 1.5*B3 → Ô B5
Bước 4: Đánh dấu Outlier (cho mỗi giá trị trong cột A)
=IF(OR(A2<$B$4, A2>$B$5), "Outlier", "Normal")Tạo Box Plot trong Excel
- Chọn dữ liệu (VD:
A1:A11bao gồm header) - Vào Insert → Chart → chọn Box and Whisker (có từ Excel 2016+)
- Click chuột phải vào chart → Format Data Series:
- Chọn Exclusive Quartile hoặc Inclusive Quartile tuỳ mục đích
- Check Show outlier points để hiển thị outlier
- Thêm title, label cho dễ đọc
💡 Mẹo Excel
Nếu dùng Excel cũ (trước 2016) chưa có Box Plot, bạn có thể tạo thủ công bằng Stacked Bar Chart + error bars. Hoặc dùng Google Sheets cũng hỗ trợ Box Plot.
🏪 Ví dụ thực tế
🌍 Quốc tế: Netflix — A/B Testing Thumbnail bằng Statistics
Netflix là một trong những công ty ứng dụng statistics mạnh nhất thế giới. Họ sử dụng A/B testing (dựa trên hypothesis testing) để quyết định hầu như mọi thứ — từ thuật toán gợi ý đến hình thumbnail của mỗi bộ phim.
Bài toán: Nên dùng thumbnail nào cho phim "Stranger Things" để tối đa hoá click rate?
Cách làm:
- Hypothesis:
: Không có sự khác biệt click rate giữa các thumbnail; : Có ít nhất 1 thumbnail có click rate cao hơn - Sampling: Chọn ngẫu nhiên (random sampling) hàng triệu user, chia thành các nhóm tương đương
- Experiment: Hiển thị thumbnail A, B, C cho các nhóm khác nhau
- Statistics: Tính mean click rate, confidence interval, p-value cho từng nhóm
- Decision: Thumbnail nào có click rate cao nhất VÀ p-value < 0.05 → triển khai
Kết quả: Netflix phát hiện rằng thay đổi thumbnail có thể tăng click rate lên 20-30%, tương đương hàng triệu USD doanh thu từ việc giữ chân subscriber. Đáng chú ý, thumbnail tốt nhất thay đổi theo nhóm user khác nhau — nên Netflix cá nhân hoá thumbnail cho từng người!
Bài học cho DA: Ngay cả quyết định "nhỏ" như chọn hình ảnh cũng cần được kiểm chứng bằng data và statistics, không phải bằng ý kiến chủ quan.
🇻🇳 Việt Nam: Shopee — Phát hiện đơn hàng giả qua Outlier Analysis
Shopee Việt Nam đối mặt với vấn đề đơn hàng giả (fake orders) — người bán tự đặt hàng để tăng lượt bán, đánh giá, hoặc farm voucher. Đây là bài toán mà outlier detection giải quyết rất hiệu quả.
Cách tiếp cận:
- Descriptive Statistics: Tính mean, median, SD của
order_value,order_frequency,time_between_orderscho từng seller - Outlier Detection - IQR Method: Xác định seller có tần suất đơn hàng nằm ngoài
→ nghi ngờ - Outlier Detection - Z-score: Tính Z-score cho
same_address_order_count— nếu, rất có thể là đơn giả - Pattern Recognition: Kết hợp nhiều chỉ số bất thường:
- Nhiều đơn cùng địa chỉ nhận
- Đặt hàng lúc 2h-5h sáng
- Giá trị đơn luôn = giá trị tối thiểu để nhận voucher
- Payment method giống nhau
Business Impact:
- Phát hiện và xử lý hàng ngàn tài khoản gian lận mỗi tháng
- Tiết kiệm hàng tỷ VND chi phí voucher/khuyến mãi
- Bảo vệ trải nghiệm người mua (review thật, xếp hạng chính xác)
Bài học cho DA: Outlier không phải lúc nào cũng là "lỗi cần loại bỏ" — đôi khi outlier chính là insight quan trọng nhất (fraud detection, anomaly monitoring).
✅ Checklist buổi học
Sau buổi học này, bạn nên tự tin trả lời "Có" cho tất cả các câu hỏi dưới đây:
- [ ] Tôi có thể giải thích 5 kỹ năng analytical thinking và áp dụng SMART questions
- [ ] Tôi biết cách dùng 5 Whys để tìm root cause từ một vấn đề kinh doanh
- [ ] Tôi phân biệt được structured vs unstructured, quantitative vs qualitative, discrete vs continuous
- [ ] Tôi hiểu 4 mức đo lường: nominal, ordinal, interval, ratio và biết dùng biểu đồ/thống kê phù hợp
- [ ] Tôi tính được mean, median, mode và biết khi nào dùng mean vs median
- [ ] Tôi hiểu range, variance, standard deviation và ý nghĩa của chúng
- [ ] Tôi biết cách tính percentile, quartile, IQR
- [ ] Tôi hiểu normal distribution, skewness, và biết đọc box plot
- [ ] Tôi phát hiện được outlier bằng IQR method và Z-score
- [ ] Tôi phân biệt được null hypothesis vs alternative hypothesis
- [ ] Tôi hiểu population vs sample và các phương pháp sampling
- [ ] Tôi nhận biết các loại bias và cách tránh
- [ ] Tôi sử dụng được các hàm Excel cơ bản cho descriptive statistics
🔑 Từ khóa quan trọng
| Tiếng Việt | English | Giải thích |
|---|---|---|
| Tư duy phân tích | Analytical Thinking | Khả năng suy nghĩ có hệ thống để giải quyết vấn đề bằng dữ liệu |
| Trung bình cộng | Mean (Average) | Tổng giá trị / số phần tử: |
| Trung vị | Median | Giá trị ở vị trí giữa khi sắp xếp dữ liệu |
| Yếu vị | Mode | Giá trị xuất hiện nhiều nhất trong dataset |
| Khoảng biến thiên | Range | Hiệu giữa giá trị lớn nhất và nhỏ nhất |
| Phương sai | Variance | Đo mức phân tán trung bình bình phương so với mean |
| Độ lệch chuẩn | Standard Deviation (SD) | Căn bậc hai của variance — cùng đơn vị với dữ liệu gốc |
| Tứ phân vị | Quartile (Q1, Q2, Q3) | Chia dữ liệu thành 4 phần bằng nhau |
| Khoảng tứ phân vị | IQR (Interquartile Range) | Q3 − Q1, đo spread của 50% dữ liệu ở giữa |
| Giá trị ngoại lai | Outlier | Điểm dữ liệu "khác biệt bất thường" so với phần còn lại |
| Phân phối chuẩn | Normal Distribution | Phân phối hình chuông, đối xứng quanh mean |
| Độ lệch | Skewness | Đo mức bất đối xứng của phân phối |
| Độ nhọn | Kurtosis | Đo mức nhọn/phẳng của đỉnh phân phối |
| Giả thuyết không | Null Hypothesis ( | Giả thuyết "không có sự khác biệt", cần data để bác bỏ |
| Giả thuyết đối | Alternative Hypothesis ( | Giả thuyết "có sự khác biệt", điều bạn muốn chứng minh |
| Tổng thể | Population | Toàn bộ đối tượng nghiên cứu |
| Mẫu | Sample | Tập con đại diện được chọn từ population |
| Lấy mẫu phân tầng | Stratified Sampling | Chia population thành nhóm, chọn mẫu từ mỗi nhóm |
| Thiên lệch | Bias | Sai lệch có hệ thống trong thu thập hoặc phân tích dữ liệu |
| Phân tích nguyên nhân gốc | Root Cause Analysis | Kỹ thuật đào sâu tìm nguyên nhân thực sự của vấn đề |
🔗 Xem thêm Buổi 2
→ 📝 Blog → 🧠 Case Study → 🏆 Tiêu chuẩn → 🛠 Workshop → 🎮 Mini Game