📘 Buổi 2: Tư duy phân tích & Thống kê cơ bản

Biết đặt câu hỏi đúng và dùng thống kê để trả lời — kỹ năng #1 của Data Analyst.

🎯 Mục tiêu buổi học

Phân biệt các loại dữ liệu: quantitative vs qualitative, discrete vs continuous
Tính và diễn giải thống kê mô tả: mean, median, mode, standard deviation
Hiểu phân phối dữ liệu, outlier, và tại sao chúng quan trọng
Đặt giả thuyết kinh doanh (hypothesis) và biết cách kiểm chứng cơ bản

📋 Tổng quan

Ở Buổi 1, chúng ta đã tìm hiểu tổng quan về Data Analytics qua Google Data Analytics Framework và 4 loại phân tích (Descriptive, Diagnostic, Predictive, Prescriptive). Bạn đã biết rằng Data Analyst là người biến dữ liệu thành insight để hỗ trợ ra quyết định. Nhưng để làm được điều đó, bạn cần hai nền tảng quan trọng: tư duy phân tích (analytical thinking) và thống kê cơ bản (basic statistics). Đây chính là nội dung cốt lõi của Buổi 2.

Tư duy phân tích giúp bạn đặt đúng câu hỏi — biết hỏi "tại sao doanh thu giảm?" thay vì chỉ nhìn con số và hoang mang. Thống kê cơ bản giúp bạn trả lời câu hỏi đó bằng dữ liệu — mean, median cho bạn biết xu hướng trung tâm, standard deviation cho bạn biết dữ liệu phân tán ra sao, và outlier detection giúp bạn phát hiện những điểm "bất thường" cần chú ý. Hai kỹ năng này bổ trợ cho nhau và là nền tảng bắt buộc trước khi bạn học bất kỳ tool nào (Excel, SQL, Python hay Power BI).

Trong buổi học này, bạn sẽ đi từ tư duy (cách suy nghĩ có hệ thống) → dữ liệu (hiểu các loại dữ liệu) → thống kê (đo lường và mô tả dữ liệu) → phân phối & outlier (nhận diện pattern và bất thường) → hypothesis & sampling (kiểm chứng giả thuyết). Đây là hành trình logic mà mọi Data Analyst đều phải đi qua, dù bạn đang làm trong lĩnh vực tài chính, e-commerce, hay marketing.

📌 Phần 1: Tư duy phân tích (Analytical Thinking)

Khái niệm

Analytical thinking (tư duy phân tích) là khả năng xác định và định nghĩa vấn đề, sau đó giải quyết nó bằng dữ liệu một cách có hệ thống. Google Data Analytics Certificate xác định 5 kỹ năng cốt lõi của tư duy phân tích:

#	Kỹ năng	Mô tả	Ví dụ thực tế
1	Visualization (Trực quan hoá)	Khả năng hình dung dữ liệu dưới dạng biểu đồ, đồ thị để phát hiện pattern	Nhìn biểu đồ doanh thu 12 tháng → thấy ngay tháng nào sụt giảm
2	Strategy (Chiến lược)	Biết lên kế hoạch, xác định mục tiêu và các bước cần làm	Xây dựng dashboard theo thứ tự: thu thập → làm sạch → phân tích → trình bày
3	Problem-solving (Giải quyết vấn đề)	Tìm giải pháp dựa trên dữ liệu thay vì cảm tính	Doanh thu giảm → phân tích theo kênh → phát hiện kênh online giảm 40% → điều chỉnh ngân sách quảng cáo
4	Pattern recognition (Nhận diện mẫu)	Phát hiện xu hướng, sự lặp lại, hoặc điểm bất thường trong dữ liệu	Nhận ra đơn hàng luôn tăng vào thứ 6 cuối tháng → lên kế hoạch nhân sự kho hàng
5	Big-picture thinking (Tư duy tổng thể)	Nhìn vấn đề trong bối cảnh rộng hơn, không bị mắc kẹt vào chi tiết	Conversion rate giảm → không chỉ nhìn landing page, mà xét cả giá cả, đối thủ, mùa vụ

Tại sao quan trọng cho Data Analyst?

Một Data Analyst giỏi không chỉ biết dùng tool — mà phải biết nghĩ đúng. Trong thực tế, hơn 70% thời gian làm việc của DA là hiểu vấn đề và đặt câu hỏi, chứ không phải viết SQL hay tạo biểu đồ.

Nếu bạn hỏi sai câu hỏi, dù phân tích kỹ đến đâu, kết quả cũng vô nghĩa. Ví dụ: stakeholder nói "doanh thu tháng này thấp quá" — nếu bạn chỉ báo cáo "doanh thu giảm 15%" thì chưa đủ. Analytical thinking giúp bạn đào sâu: giảm ở kênh nào? sản phẩm nào? khu vực nào? so với cùng kỳ năm trước thì sao?

Nhớ lại Buổi 1: trong bước Ask của Google Data Analytics Framework, bạn cần đặt đúng câu hỏi trước khi bắt tay vào phân tích. Tư duy phân tích chính là kỹ năng giúp bạn thực hiện bước đó hiệu quả.

Áp dụng thực tế

SMART Questions Framework

Khi đặt câu hỏi cho stakeholder hoặc cho chính mình, hãy đảm bảo câu hỏi đó là SMART:

Tiêu chí	Ý nghĩa	❌ Câu hỏi kém	✅ Câu hỏi SMART
Specific	Cụ thể, rõ ràng	"Bán hàng thế nào?"	"Doanh thu Q4/2025 so với Q4/2024 thay đổi bao nhiêu %?"
Measurable	Đo lường được	"Khách hàng có hài lòng không?"	"NPS score tháng 1/2026 là bao nhiêu?"
Action-oriented	Hướng đến hành động	"Website có vấn đề gì?"	"Trang nào có bounce rate > 70% cần tối ưu?"
Relevant	Liên quan đến mục tiêu	"Có bao nhiêu user?"	"Bao nhiêu user đã mua hàng trong 30 ngày qua?"
Time-bound	Có mốc thời gian	"Doanh thu tăng chưa?"	"Doanh thu tháng 1/2026 có đạt target 5 tỷ không?"

5 Whys — Root Cause Analysis

Kỹ thuật 5 Whys (5 lần hỏi "Tại sao?") giúp bạn đào sâu từ triệu chứng bề mặt đến nguyên nhân gốc rễ:

Ví dụ: Doanh thu tháng 1/2026 giảm 20%

Lần hỏi	Câu hỏi	Trả lời
Why #1	Tại sao doanh thu giảm 20%?	Số đơn hàng giảm mạnh
Why #2	Tại sao số đơn hàng giảm?	Traffic website giảm 35%
Why #3	Tại sao traffic giảm?	Chiến dịch Google Ads bị tạm dừng
Why #4	Tại sao Ads bị tạm dừng?	Ngân sách quảng cáo bị cắt vì hết budget quý
Why #5	Tại sao hết budget sớm?	Không có kế hoạch phân bổ ngân sách theo tháng

→ Root cause: Thiếu kế hoạch phân bổ ngân sách quảng cáo theo tháng. → Action: Xây dựng monthly budget allocation plan cho Q2/2026.

Nếu chỉ dừng ở Why #1, bạn sẽ chỉ kết luận "đơn hàng giảm" — một insight vô ích. Hỏi đến tận gốc mới tìm ra giải pháp thực sự.

📌 Phần 2: Các loại dữ liệu

Khái niệm

Trước khi phân tích dữ liệu, bạn phải hiểu mình đang làm việc với loại dữ liệu nào, vì mỗi loại dữ liệu yêu cầu phương pháp phân tích và biểu đồ khác nhau.

Structured vs Unstructured Data

Tiêu chí	Structured Data	Unstructured Data
Định nghĩa	Dữ liệu có cấu trúc rõ ràng, tổ chức theo hàng và cột	Dữ liệu không có cấu trúc cố định
Ví dụ	Bảng Excel, database SQL, file CSV	Email, hình ảnh, video, review text, social media post
Lưu trữ	Database quan hệ (MySQL, PostgreSQL)	Data lake, NoSQL (MongoDB)
Phân tích	SQL, Excel, thống kê truyền thống	NLP, computer vision, AI/ML
Tỷ lệ	~20% dữ liệu doanh nghiệp	~80% dữ liệu doanh nghiệp

Quantitative vs Qualitative Data

Tiêu chí	Quantitative (Định lượng)	Qualitative (Định tính)
Bản chất	Số — đo lường, đếm được	Mô tả — đặc tính, thuộc tính
Ví dụ	Doanh thu: 500 triệu, Tuổi: 28, Số đơn: 1.250	Giới tính: Nam/Nữ, Màu sắc: Đỏ/Xanh, Feedback: "Tốt"
Phân tích	Mean, median, standard deviation, regression	Frequency count, mode, chi-square test

Discrete vs Continuous Data

Tiêu chí	Discrete (Rời rạc)	Continuous (Liên tục)
Bản chất	Giá trị đếm được, nguyên	Giá trị đo được, có thể chia nhỏ vô hạn
Ví dụ	Số đơn hàng: 5, 10, 15	Chiều cao: 1.72m, Nhiệt độ: 36.5°C
Biểu đồ	Bar chart, pie chart	Histogram, line chart

Các mức đo lường (Levels of Measurement)

Mức đo	Đặc điểm	Ví dụ	Phép tính cho phép
Nominal (Danh nghĩa)	Phân loại, không có thứ tự	Giới tính, Nhóm máu, Mã sản phẩm	Mode, frequency
Ordinal (Thứ bậc)	Có thứ tự, khoảng cách không đều	Mức hài lòng (1-5 sao), Trình độ học vấn	Mode, median
Interval (Khoảng)	Có thứ tự, khoảng cách đều, không có "zero" tuyệt đối	Nhiệt độ (°C), Năm sinh	Mean, standard deviation
Ratio (Tỷ lệ)	Có thứ tự, khoảng cách đều, có "zero" tuyệt đối	Doanh thu, Chiều cao, Tuổi	Tất cả phép tính thống kê

💡 Mẹo nhớ

N-O-I-R (Nominal → Ordinal → Interval → Ratio): mức đo tăng dần → phép tính cho phép nhiều hơn. Dữ liệu Ratio là "mạnh" nhất — bạn có thể áp dụng mọi phép tính thống kê.

Tại sao quan trọng cho Data Analyst?

Việc xác định đúng loại dữ liệu quyết định toàn bộ hướng phân tích của bạn:

Chọn sai biểu đồ: dùng pie chart cho continuous data → vô nghĩa
Chọn sai thống kê: tính mean cho ordinal data (rating 1-5) → kết quả gây hiểu lầm
Chọn sai model: dùng linear regression cho categorical outcome → cần logistic regression

Trong quy trình Data Analytics (nhớ lại Buổi 1 — bước Process và Analyze), việc phân loại dữ liệu là bước đầu tiên bạn làm sau khi collect data.

Áp dụng thực tế

Bảng hướng dẫn: Loại dữ liệu → Biểu đồ → Phương pháp thống kê

Loại dữ liệu	Ví dụ cột trong dataset	Biểu đồ phù hợp	Thống kê phù hợp
Nominal	Thành phố, Loại sản phẩm	Bar chart, Pie chart	Mode, frequency, chi-square
Ordinal	Rating (1-5), Mức thu nhập (thấp/TB/cao)	Bar chart, Stacked bar	Median, mode, percentile
Interval	Nhiệt độ, Điểm IQ	Histogram, Box plot	Mean, standard deviation
Ratio	Doanh thu, Số lượng đơn, Tuổi	Histogram, Scatter plot, Box plot	Mean, median, mode, SD, correlation
Discrete	Số con, Số đơn hàng	Bar chart	Mode, median
Continuous	Chiều cao, Thời gian xử lý	Histogram, Line chart	Mean, SD, percentile

📌 Phần 3: Thống kê mô tả (Descriptive Statistics)

Khái niệm

Thống kê mô tả (descriptive statistics) giúp bạn tóm tắt và mô tả đặc điểm chính của một tập dữ liệu. Đây là bước đầu tiên và quan trọng nhất trong mọi phân tích — trước khi chạy model phức tạp, bạn phải hiểu dữ liệu đang nói gì.

Measures of Central Tendency (Độ đo xu hướng trung tâm)

1. Mean (Trung bình cộng)

\bar{x} = \frac{\sum_{i = 1}^{n} x_{i}}{n}

Tính bằng tổng tất cả giá trị chia cho số phần tử
Ưu điểm: sử dụng mọi giá trị trong dataset
Nhược điểm: bị ảnh hưởng mạnh bởi outlier
Ví dụ: Lương 5 nhân viên: 8, 9, 10, 11, 62 (triệu) → Mean = (8+9+10+11+62)/5 = 20 triệu — liệu con số này có đại diện?

2. Median (Trung vị)

Giá trị ở vị trí chính giữa khi sắp xếp dữ liệu từ nhỏ đến lớn
Nếu $n$ lẻ: median là giá trị thứ $\frac{n + 1}{2}$
Nếu $n$ chẵn: median là trung bình 2 giá trị giữa
Ưu điểm: không bị ảnh hưởng bởi outlier
Ví dụ: Lương: 8, 9, 10, 11, 62 → Median = 10 triệu — đại diện tốt hơn!

3. Mode (Yếu vị)

Giá trị xuất hiện nhiều nhất trong dataset
Có thể có 0, 1, hoặc nhiều mode
Phù hợp nhất cho dữ liệu nominal/categorical
Ví dụ: Size áo bán chạy: S, M, M, L, M, XL → Mode = M

So sánh Mean vs Median vs Mode

Tiêu chí	Mean	Median	Mode
Bị ảnh hưởng bởi outlier	✅ Rất nhiều	❌ Không	❌ Không
Dùng cho loại dữ liệu	Interval, Ratio	Ordinal, Interval, Ratio	Tất cả
Khi nào nên dùng?	Dữ liệu phân phối đều, không outlier	Dữ liệu bị lệch (skewed), có outlier	Dữ liệu phân loại
Ví dụ ứng dụng	GDP bình quân	Thu nhập hộ gia đình	Sản phẩm bán chạy nhất

Measures of Spread (Độ đo phân tán)

Range (Khoảng biến thiên)

R a n g e = x_{m a x} - x_{m i n}

Đơn giản nhất, nhưng chỉ dùng 2 giá trị → dễ bị outlier ảnh hưởng
Ví dụ: Lương: 8, 9, 10, 11, 62 → Range = 62 - 8 = 54 triệu

Variance (Phương sai)

σ^{2} = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}{n} (tổng thể) s^{2} = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}{n - 1} (mẫu)

Đo mức phân tán trung bình của dữ liệu so với mean
Đơn vị là bình phương của đơn vị gốc → khó diễn giải trực tiếp

Standard Deviation (Độ lệch chuẩn)

σ = \sqrt{σ^{2}} s = \sqrt{s^{2}}

Căn bậc hai của variance → cùng đơn vị với dữ liệu gốc, dễ diễn giải
SD nhỏ → dữ liệu tập trung quanh mean; SD lớn → dữ liệu phân tán rộng
Quy tắc 68-95-99.7 (cho phân phối chuẩn):
- 68% dữ liệu nằm trong $\bar{x} \pm 1 σ$
- 95% dữ liệu nằm trong $\bar{x} \pm 2 σ$
- 99.7% dữ liệu nằm trong $\bar{x} \pm 3 σ$

Percentile, Quartile, IQR

Percentile (Phân vị): giá trị mà dưới nó có $p %$ số quan sát.

Percentile thứ 90 (P90) = 90% dữ liệu có giá trị nhỏ hơn hoặc bằng

Quartile (Tứ phân vị): chia dữ liệu thành 4 phần bằng nhau:

Q1 (P25): 25% dữ liệu nằm dưới
Q2 (P50): = Median
Q3 (P75): 75% dữ liệu nằm dưới

IQR (Interquartile Range):

I Q R = Q 3 - Q 1

Đo spread của 50% dữ liệu ở giữa → robust, không bị outlier ảnh hưởng
Rất hữu ích trong outlier detection (sẽ học ở Phần 4)

Khi nào dùng Mean vs Median?

Tình huống	Nên dùng	Lý do
Dữ liệu phân phối chuẩn (symmetric)	Mean	Mean = Median, cả hai đều đại diện tốt
Dữ liệu bị lệch phải (right-skewed)	Median	Mean bị kéo lên bởi giá trị lớn
Dữ liệu có outlier	Median	Mean bị ảnh hưởng, median ổn định
Dữ liệu lương, thu nhập, giá nhà	Median	Thường bị lệch phải do một số giá trị rất cao
Dữ liệu đều, ít outlier (điểm thi)	Mean	Phản ánh tốt xu hướng trung tâm

Tại sao quan trọng cho Data Analyst?

Descriptive statistics là ngôn ngữ chung giữa Data Analyst và stakeholder. Khi bạn báo cáo "doanh thu trung bình mỗi đơn là 450K, median là 320K, standard deviation là 280K" — stakeholder hiểu ngay rằng:

Đơn hàng trung bình khoảng 320K-450K
Có sự chênh lệch lớn giữa các đơn (SD cao)
Có một số đơn giá trị rất cao kéo mean lên (mean > median)

Đây chính là bước Analyze trong Google Data Analytics Framework — bạn dùng thống kê mô tả để tìm pattern trước khi đưa ra insight.

Áp dụng thực tế

Ví dụ: Phân tích lương nhân viên một công ty

Giả sử lương (triệu VND/tháng) của 10 nhân viên:

8, 9, 10, 10, 11, 12, 12, 13, 15, 80

Thống kê	Giá trị	Nhận xét
Mean	18 triệu	Bị kéo lên bởi lương 80 triệu (CEO?)
Median	11.5 triệu	Đại diện tốt hơn cho "lương điển hình"
Mode	10, 12 triệu (bimodal)	Hai mức lương phổ biến nhất
Range	72 triệu	Khoảng cách rất lớn
Standard Deviation	~21.3 triệu	Phân tán rất rộng
Q1	10 triệu	25% nhân viên lương ≤ 10tr
Q3	13 triệu	75% nhân viên lương ≤ 13tr
IQR	3 triệu	50% nhân viên lương trong khoảng 10-13tr

Insight: Nếu báo cáo "lương trung bình công ty là 18 triệu" → gây hiểu lầm nghiêm trọng. Thực tế 9/10 nhân viên lương dưới 15 triệu. → Nên dùng median (11.5 triệu) khi báo cáo lương.

📌 Phần 4: Phân phối dữ liệu & Outlier

Khái niệm

Normal Distribution (Phân phối chuẩn)

Phân phối chuẩn (hay bell curve) là phân phối mà:

Dạng hình chuông, đối xứng quanh mean
Mean = Median = Mode
Tuân theo quy tắc 68-95-99.7

        ┌──────┐
       ╱        ╲
      ╱          ╲
     ╱    68%     ╲
    ╱   ┌──────┐   ╲
   ╱    │      │    ╲
  ╱  95%│      │     ╲
 ╱──────┤      ├──────╲
╱ 99.7% │      │       ╲
─────────┴──────┴─────────
  -3σ  -2σ  -1σ  μ  +1σ  +2σ  +3σ

Nhiều dữ liệu tự nhiên tuân theo phân phối chuẩn: chiều cao, điểm thi, nhiệt độ. Tuy nhiên, dữ liệu kinh doanh (doanh thu, lương, giá sản phẩm) thường không phân phối chuẩn — chúng thường bị lệch (skewed).

Skewness (Độ lệch)

Loại	Đặc điểm	Mean vs Median	Ví dụ
Symmetric (Đối xứng)	Hình chuông cân đối	Mean ≈ Median	Điểm thi IELTS
Right-skewed (Lệch phải)	Đuôi kéo dài về phải	Mean > Median	Thu nhập, giá nhà, doanh thu đơn hàng
Left-skewed (Lệch trái)	Đuôi kéo dài về trái	Mean < Median	Tuổi nghỉ hưu, điểm bài thi dễ

Khi dữ liệu bị skewed, mean không còn đại diện tốt → dùng median thay thế.

Kurtosis (Độ nhọn)

Leptokurtic (kurtosis > 3): đỉnh nhọn hơn normal, đuôi dày → nhiều outlier hơn
Mesokurtic (kurtosis ≈ 3): giống normal distribution
Platykurtic (kurtosis < 3): đỉnh phẳng hơn, đuôi mỏng → ít outlier hơn

Outlier Detection (Phát hiện giá trị ngoại lai)

Outlier là điểm dữ liệu khác biệt bất thường so với phần còn lại. Hai phương pháp phổ biến:

Phương pháp 1: IQR Method

Outlier nếu: x < Q 1 - 1.5 \times I Q R hoặc x > Q 3 + 1.5 \times I Q R

Ví dụ với dataset lương ở Phần 3 (Q1=10, Q3=13, IQR=3):

Lower bound = 10 - 1.5 × 3 = 5.5
Upper bound = 13 + 1.5 × 3 = 17.5
Giá trị 80 > 17.5 → Outlier! ✅
Giá trị 8, 9 > 5.5 → Không phải outlier

Phương pháp 2: Z-score

Z = \frac{x - \bar{x}}{σ}

Z-score cho biết giá trị cách mean bao nhiêu standard deviation
Thường coi là outlier nếu $| Z | > 3$ (hoặc $| Z | > 2$ tuỳ ngành)
Ưu điểm: trực quan, dễ hiểu
Nhược điểm: bản thân mean và SD đã bị outlier ảnh hưởng → IQR method thường robust hơn

Tại sao quan trọng cho Data Analyst?

Outlier có thể là noise (lỗi dữ liệu, giá trị nhập sai) hoặc signal (thông tin quan trọng cần chú ý). Data Analyst cần biết:

Phát hiện outlier → dùng IQR method hoặc Z-score
Điều tra outlier → tìm hiểu nguyên nhân (lỗi nhập liệu? gian lận? trường hợp đặc biệt?)
Quyết định xử lý → giữ, loại bỏ, hoặc xử lý riêng

Không bao giờ loại bỏ outlier mà không điều tra! Một đơn hàng 500 triệu có thể là lỗi nhập liệu, nhưng cũng có thể là đơn B2B hợp lệ.

Áp dụng thực tế

E-commerce: Phát hiện đơn hàng bất thường

Một sàn e-commerce tại Việt Nam phát hiện outlier trong dữ liệu đơn hàng tháng 12/2025:

Metric	Giá trị thông thường	Outlier phát hiện	Kết luận
Giá trị đơn hàng	100K - 2 triệu	Nhiều đơn đúng 1 triệu, cùng địa chỉ	Đơn giả để "farm" voucher
Thời gian đặt hàng	7h-23h	200 đơn lúc 3h-4h sáng, cùng payment method	Bot tự động đặt hàng
Tần suất mua	1-3 đơn/tháng	1 account đặt 50 đơn/ngày	Account fake, cần block

Nhờ outlier detection bằng IQR method trên order_value và Z-score trên order_frequency, team DA đã:

Phát hiện ~2,000 đơn hàng giả (tiết kiệm ~800 triệu voucher)
Block 150 tài khoản bot
Đề xuất thêm rule: giới hạn số đơn/ngày/account

📌 Phần 5: Hypothesis & Sampling cơ bản

Khái niệm

Null Hypothesis vs Alternative Hypothesis

Khi muốn kiểm chứng một giả thuyết kinh doanh bằng dữ liệu, bạn cần đặt 2 giả thuyết:

Loại	Ký hiệu	Mô tả	Ví dụ
Null Hypothesis (Giả thuyết không)	$H_{0}$	"Không có gì thay đổi", "Không có sự khác biệt"	"Banner mới không làm tăng click rate"
Alternative Hypothesis (Giả thuyết đối)	$H_{1}$ hoặc $H_{a}$	"Có sự thay đổi", "Có sự khác biệt"	"Banner mới có làm tăng click rate"

ℹ️ Nguyên tắc

Bạn không chứng minh $H_{0}$ đúng — bạn chỉ có thể bác bỏ hoặc không đủ bằng chứng để bác bỏ $H_{0}$ . Giống như trong tòa án: bị cáo được coi là vô tội cho đến khi có đủ bằng chứng kết tội.

Population vs Sample

Khái niệm	Mô tả	Ví dụ
Population (Tổng thể)	Toàn bộ đối tượng bạn muốn nghiên cứu	Tất cả 5 triệu khách hàng của Shopee
Sample (Mẫu)	Tập con đại diện được chọn ra để nghiên cứu	2,000 khách hàng được chọn ngẫu nhiên

Tại sao cần sample? Vì bạn không thể (hoặc quá tốn kém) thu thập dữ liệu từ toàn bộ population. Mẫu tốt phải đại diện (representative) cho tổng thể.

Sampling Methods (Phương pháp lấy mẫu)

Phương pháp	Cách làm	Ưu điểm	Nhược điểm	Khi nào dùng
Random Sampling	Chọn ngẫu nhiên từ population	Đơn giản, ít bias	Cần list đầy đủ population	Khi population đồng nhất
Stratified Sampling	Chia population thành nhóm (strata), chọn ngẫu nhiên từ mỗi nhóm	Đảm bảo đại diện mọi nhóm	Phức tạp hơn, cần biết cấu trúc population	Khi population có nhiều nhóm (VD: theo tuổi, vùng miền)
Systematic Sampling	Chọn mỗi phần tử thứ $k$ (VD: mỗi khách hàng thứ 10)	Dễ thực hiện	Có thể bị bias nếu dữ liệu có pattern	Khi có danh sách sắp xếp sẵn
Convenience Sampling	Chọn đối tượng dễ tiếp cận nhất	Nhanh, rẻ	Bias cao, không đại diện	Nghiên cứu sơ bộ, pilot test

Bias và cách tránh

Loại Bias	Mô tả	Ví dụ	Cách tránh
Selection Bias	Mẫu không đại diện cho population	Khảo sát online → bỏ sót người không dùng internet	Kết hợp nhiều kênh khảo sát
Survivorship Bias	Chỉ nhìn "người sống sót", bỏ qua "người thất bại"	Phân tích chỉ khách hàng active → kết luận sai về churn	Bao gồm cả churned customers
Confirmation Bias	Chỉ tìm data ủng hộ giả thuyết sẵn có	Tin rằng banner mới tốt hơn → chỉ nhìn metric tăng, bỏ qua metric giảm	Đặt $H_{0}$ và test khách quan, nhìn mọi metric
Sampling Bias	Phương pháp lấy mẫu tạo ra sự thiên lệch	Phỏng vấn tại trung tâm thương mại → thiên về người thu nhập cao	Dùng random hoặc stratified sampling

Tại sao quan trọng cho Data Analyst?

Hypothesis testing là cầu nối giữa câu hỏi kinh doanh và bằng chứng dữ liệu. Không có hypothesis, bạn chỉ đang "lướt data" mà không biết tìm gì. Không hiểu sampling, bạn có thể rút ra kết luận sai từ một mẫu thiên lệch.

Trong thực tế, A/B testing — một trong những ứng dụng phổ biến nhất của DA — chính là hypothesis testing. Bạn sẽ gặp nó liên tục khi làm việc với product team, marketing team.

Áp dụng thực tế

Ví dụ: Kiểm chứng hiệu quả chiến dịch email marketing

Bối cảnh: Team marketing muốn biết email subject line mới có tăng open rate không.

Bước	Hành động	Chi tiết
1. Đặt giả thuyết	$H_{0}$ : Open rate mới = Open rate cũ (25%); $H_{1}$ : Open rate mới > 25%
2. Chọn mẫu	Stratified sampling theo nhóm tuổi	5,000 khách hàng (từ tổng thể 200,000)
3. Chia nhóm	Control (subject cũ): 2,500; Treatment (subject mới): 2,500	Random assignment
4. Thu thập data	Chạy A/B test trong 7 ngày	Đo open rate
5. Phân tích	Control: 25.2%; Treatment: 28.7%	Chênh lệch: +3.5%
6. Kết luận	p-value = 0.003 < 0.05 → Bác bỏ $H_{0}$	Subject mới có tăng open rate

→ Action: Triển khai subject line mới cho toàn bộ 200,000 khách hàng.

📊 Framework / Mô hình chính

5 Whys — Root Cause Analysis

Kỹ thuật đặt câu hỏi "Tại sao?" liên tục (thường 5 lần) để đi từ triệu chứng đến nguyên nhân gốc rễ. Framework này được Toyota phát triển và áp dụng rộng rãi trong quản lý chất lượng, giờ đây Data Analyst cũng dùng nó để phân tích root cause từ data.

Ví dụ: Tỷ lệ hoàn hàng tăng đột biến

Lần	Why?	Trả lời	Data point
1	Tại sao return rate tăng 40%?	Khách phàn nàn sản phẩm không đúng mô tả	65% return reason = "không đúng mô tả"
2	Tại sao không đúng mô tả?	Hình ảnh sản phẩm khác thực tế	So sánh ảnh vs thực tế: 80% khác biệt đáng kể
3	Tại sao ảnh khác thực tế?	Team content dùng ảnh stock thay vì chụp thực	Kiểm tra: 70% sản phẩm mới dùng ảnh stock
4	Tại sao dùng ảnh stock?	Không có photographer in-house, outsource quá chậm	Lead time chụp ảnh: 2 tuần/batch
5	Tại sao outsource chậm?	Chỉ có 1 vendor, không có backup	Hợp đồng chỉ với 1 studio

→ Root cause: Chỉ có 1 vendor chụp ảnh sản phẩm, không có backup. → Solution: Ký thêm 2 vendor backup + tuyển 1 photographer in-house.

Box Plot — Phát hiện Outlier

Box plot (biểu đồ hộp) là công cụ trực quan mạnh nhất để nhìn nhanh phân phối dữ liệu và phát hiện outlier.

Cách đọc Box Plot:

  Outlier                               Outlier
    o                                     o
    |                                     |
    |     ┌─────────┬──────────┐          |
    |     │         │          │          |
    ├─────┤   Q1    │ Median   │   Q3     ├─────
    |     │         │          │          |
    |     └─────────┴──────────┘          |
    |                                     |
  Lower                               Upper
  Fence                                Fence
(Q1-1.5×IQR)                      (Q3+1.5×IQR)

Thành phần	Ý nghĩa
Hộp (Box)	Chứa 50% dữ liệu ở giữa (Q1 đến Q3)
Đường trong hộp	Median (Q2)
Râu (Whisker)	Kéo dài đến giá trị min/max trong phạm vi fence
Lower Fence	$Q 1 - 1.5 \times I Q R$
Upper Fence	$Q 3 + 1.5 \times I Q R$
Điểm tròn (o)	Outlier — nằm ngoài fence

Cách diễn giải nhanh:

Hộp rộng → dữ liệu phân tán nhiều
Median lệch về 1 phía trong hộp → dữ liệu skewed
Nhiều điểm ngoài fence → cần điều tra outlier

🛠️ Demo / Code mẫu

Excel Formulas cho Descriptive Statistics

Giả sử dữ liệu lương nằm trong cột A2:A11:

Mục đích	Excel Formula	Kết quả ví dụ
Trung bình (Mean)	`=AVERAGE(A2:A11)`	18.0
Trung vị (Median)	`=MEDIAN(A2:A11)`	11.5
Yếu vị (Mode)	`=MODE(A2:A11)` hoặc `=MODE.MULT(A2:A11)`	10
Giá trị lớn nhất	`=MAX(A2:A11)`	80
Giá trị nhỏ nhất	`=MIN(A2:A11)`	8
Khoảng biến thiên (Range)	`=MAX(A2:A11)-MIN(A2:A11)`	72
Phương sai mẫu (Variance)	`=VAR(A2:A11)` hoặc `=VAR.S(A2:A11)`	~453.8
Phương sai tổng thể	`=VAR.P(A2:A11)`	~408.4
Độ lệch chuẩn mẫu (SD)	`=STDEV(A2:A11)` hoặc `=STDEV.S(A2:A11)`	~21.3
Độ lệch chuẩn tổng thể	`=STDEV.P(A2:A11)`	~20.2
Percentile thứ 90	`=PERCENTILE(A2:A11, 0.9)` hoặc `=PERCENTILE.INC(A2:A11, 0.9)`	38.3
Q1 (Quartile 1)	`=QUARTILE(A2:A11, 1)` hoặc `=QUARTILE.INC(A2:A11, 1)`	9.25
Q2 (Median)	`=QUARTILE(A2:A11, 2)`	11.5
Q3 (Quartile 3)	`=QUARTILE(A2:A11, 3)`	13.5
Đếm số phần tử	`=COUNT(A2:A11)`	10
Skewness	`=SKEW(A2:A11)`	>0 (right-skewed)
Kurtosis	`=KURT(A2:A11)`

Outlier Detection bằng IQR trong Excel

Bước 1: Tính Q1 và Q3
  Q1 = =QUARTILE(A2:A11, 1)     → Ô B1
  Q3 = =QUARTILE(A2:A11, 3)     → Ô B2

Bước 2: Tính IQR
  IQR = =B2 - B1                → Ô B3

Bước 3: Tính Lower & Upper Fence
  Lower Fence = =B1 - 1.5*B3   → Ô B4
  Upper Fence = =B2 + 1.5*B3   → Ô B5

Bước 4: Đánh dấu Outlier (cho mỗi giá trị trong cột A)
  =IF(OR(A2<$B$4, A2>$B$5), "Outlier", "Normal")

Tạo Box Plot trong Excel

Chọn dữ liệu (VD: A1:A11 bao gồm header)
Vào Insert → Chart → chọn Box and Whisker (có từ Excel 2016+)
Click chuột phải vào chart → Format Data Series:
- Chọn Exclusive Quartile hoặc Inclusive Quartile tuỳ mục đích
- Check Show outlier points để hiển thị outlier
Thêm title, label cho dễ đọc

💡 Mẹo Excel

Nếu dùng Excel cũ (trước 2016) chưa có Box Plot, bạn có thể tạo thủ công bằng Stacked Bar Chart + error bars. Hoặc dùng Google Sheets cũng hỗ trợ Box Plot.

🏪 Ví dụ thực tế

🌍 Quốc tế: Netflix — A/B Testing Thumbnail bằng Statistics

Netflix là một trong những công ty ứng dụng statistics mạnh nhất thế giới. Họ sử dụng A/B testing (dựa trên hypothesis testing) để quyết định hầu như mọi thứ — từ thuật toán gợi ý đến hình thumbnail của mỗi bộ phim.

Bài toán: Nên dùng thumbnail nào cho phim "Stranger Things" để tối đa hoá click rate?

Cách làm:

Hypothesis: $H_{0}$ : Không có sự khác biệt click rate giữa các thumbnail; $H_{1}$ : Có ít nhất 1 thumbnail có click rate cao hơn
Sampling: Chọn ngẫu nhiên (random sampling) hàng triệu user, chia thành các nhóm tương đương
Experiment: Hiển thị thumbnail A, B, C cho các nhóm khác nhau
Statistics: Tính mean click rate, confidence interval, p-value cho từng nhóm
Decision: Thumbnail nào có click rate cao nhất VÀ p-value < 0.05 → triển khai

Kết quả: Netflix phát hiện rằng thay đổi thumbnail có thể tăng click rate lên 20-30%, tương đương hàng triệu USD doanh thu từ việc giữ chân subscriber. Đáng chú ý, thumbnail tốt nhất thay đổi theo nhóm user khác nhau — nên Netflix cá nhân hoá thumbnail cho từng người!

Bài học cho DA: Ngay cả quyết định "nhỏ" như chọn hình ảnh cũng cần được kiểm chứng bằng data và statistics, không phải bằng ý kiến chủ quan.

🇻🇳 Việt Nam: Shopee — Phát hiện đơn hàng giả qua Outlier Analysis

Shopee Việt Nam đối mặt với vấn đề đơn hàng giả (fake orders) — người bán tự đặt hàng để tăng lượt bán, đánh giá, hoặc farm voucher. Đây là bài toán mà outlier detection giải quyết rất hiệu quả.

Cách tiếp cận:

Descriptive Statistics: Tính mean, median, SD của order_value, order_frequency, time_between_orders cho từng seller
Outlier Detection - IQR Method: Xác định seller có tần suất đơn hàng nằm ngoài $Q 3 + 1.5 \times I Q R$ → nghi ngờ
Outlier Detection - Z-score: Tính Z-score cho same_address_order_count — nếu $| Z | > 3$ , rất có thể là đơn giả
Pattern Recognition: Kết hợp nhiều chỉ số bất thường:
- Nhiều đơn cùng địa chỉ nhận
- Đặt hàng lúc 2h-5h sáng
- Giá trị đơn luôn = giá trị tối thiểu để nhận voucher
- Payment method giống nhau

Business Impact:

Phát hiện và xử lý hàng ngàn tài khoản gian lận mỗi tháng
Tiết kiệm hàng tỷ VND chi phí voucher/khuyến mãi
Bảo vệ trải nghiệm người mua (review thật, xếp hạng chính xác)

Bài học cho DA: Outlier không phải lúc nào cũng là "lỗi cần loại bỏ" — đôi khi outlier chính là insight quan trọng nhất (fraud detection, anomaly monitoring).

✅ Checklist buổi học

Sau buổi học này, bạn nên tự tin trả lời "Có" cho tất cả các câu hỏi dưới đây:

[ ] Tôi có thể giải thích 5 kỹ năng analytical thinking và áp dụng SMART questions
[ ] Tôi biết cách dùng 5 Whys để tìm root cause từ một vấn đề kinh doanh
[ ] Tôi phân biệt được structured vs unstructured, quantitative vs qualitative, discrete vs continuous
[ ] Tôi hiểu 4 mức đo lường: nominal, ordinal, interval, ratio và biết dùng biểu đồ/thống kê phù hợp
[ ] Tôi tính được mean, median, mode và biết khi nào dùng mean vs median
[ ] Tôi hiểu range, variance, standard deviation và ý nghĩa của chúng
[ ] Tôi biết cách tính percentile, quartile, IQR
[ ] Tôi hiểu normal distribution, skewness, và biết đọc box plot
[ ] Tôi phát hiện được outlier bằng IQR method và Z-score
[ ] Tôi phân biệt được null hypothesis vs alternative hypothesis
[ ] Tôi hiểu population vs sample và các phương pháp sampling
[ ] Tôi nhận biết các loại bias và cách tránh
[ ] Tôi sử dụng được các hàm Excel cơ bản cho descriptive statistics

🔑 Từ khóa quan trọng

Tiếng Việt	English	Giải thích
Tư duy phân tích	Analytical Thinking	Khả năng suy nghĩ có hệ thống để giải quyết vấn đề bằng dữ liệu
Trung bình cộng	Mean (Average)	Tổng giá trị / số phần tử: $\bar{x} = \frac{\sum x_{i}}{n}$
Trung vị	Median	Giá trị ở vị trí giữa khi sắp xếp dữ liệu
Yếu vị	Mode	Giá trị xuất hiện nhiều nhất trong dataset
Khoảng biến thiên	Range	Hiệu giữa giá trị lớn nhất và nhỏ nhất
Phương sai	Variance	Đo mức phân tán trung bình bình phương so với mean
Độ lệch chuẩn	Standard Deviation (SD)	Căn bậc hai của variance — cùng đơn vị với dữ liệu gốc
Tứ phân vị	Quartile (Q1, Q2, Q3)	Chia dữ liệu thành 4 phần bằng nhau
Khoảng tứ phân vị	IQR (Interquartile Range)	Q3 − Q1, đo spread của 50% dữ liệu ở giữa
Giá trị ngoại lai	Outlier	Điểm dữ liệu "khác biệt bất thường" so với phần còn lại
Phân phối chuẩn	Normal Distribution	Phân phối hình chuông, đối xứng quanh mean
Độ lệch	Skewness	Đo mức bất đối xứng của phân phối
Độ nhọn	Kurtosis	Đo mức nhọn/phẳng của đỉnh phân phối
Giả thuyết không	Null Hypothesis ( $H_{0}$ )	Giả thuyết "không có sự khác biệt", cần data để bác bỏ
Giả thuyết đối	Alternative Hypothesis ( $H_{1}$ )	Giả thuyết "có sự khác biệt", điều bạn muốn chứng minh
Tổng thể	Population	Toàn bộ đối tượng nghiên cứu
Mẫu	Sample	Tập con đại diện được chọn từ population
Lấy mẫu phân tầng	Stratified Sampling	Chia population thành nhóm, chọn mẫu từ mỗi nhóm
Thiên lệch	Bias	Sai lệch có hệ thống trong thu thập hoặc phân tích dữ liệu
Phân tích nguyên nhân gốc	Root Cause Analysis	Kỹ thuật đào sâu tìm nguyên nhân thực sự của vấn đề

🔗 Xem thêm Buổi 2

→ 📝 Blog → 🧠 Case Study → 🏆 Tiêu chuẩn → 🛠 Workshop → 🎮 Mini Game

📘 Buổi 2: Tư duy phân tích & Thống kê cơ bản ​

🎯 Mục tiêu buổi học ​

📋 Tổng quan ​

📌 Phần 1: Tư duy phân tích (Analytical Thinking) ​

Khái niệm ​

Tại sao quan trọng cho Data Analyst? ​

Áp dụng thực tế ​

SMART Questions Framework ​

5 Whys — Root Cause Analysis ​

📌 Phần 2: Các loại dữ liệu ​

Khái niệm ​

Structured vs Unstructured Data ​

Quantitative vs Qualitative Data ​

Discrete vs Continuous Data ​

Các mức đo lường (Levels of Measurement) ​

Tại sao quan trọng cho Data Analyst? ​

Áp dụng thực tế ​

📌 Phần 3: Thống kê mô tả (Descriptive Statistics) ​

Khái niệm ​

Measures of Central Tendency (Độ đo xu hướng trung tâm) ​

So sánh Mean vs Median vs Mode ​

Measures of Spread (Độ đo phân tán) ​

Percentile, Quartile, IQR ​

Khi nào dùng Mean vs Median? ​

Tại sao quan trọng cho Data Analyst? ​

Áp dụng thực tế ​

Ví dụ: Phân tích lương nhân viên một công ty ​

📌 Phần 4: Phân phối dữ liệu & Outlier ​

Khái niệm ​

Normal Distribution (Phân phối chuẩn) ​

Skewness (Độ lệch) ​

Kurtosis (Độ nhọn) ​

Outlier Detection (Phát hiện giá trị ngoại lai) ​

Tại sao quan trọng cho Data Analyst? ​

Áp dụng thực tế ​

E-commerce: Phát hiện đơn hàng bất thường ​

📌 Phần 5: Hypothesis & Sampling cơ bản ​

Khái niệm ​

Null Hypothesis vs Alternative Hypothesis ​

Population vs Sample ​

Sampling Methods (Phương pháp lấy mẫu) ​

Bias và cách tránh ​

Tại sao quan trọng cho Data Analyst? ​

Áp dụng thực tế ​

Ví dụ: Kiểm chứng hiệu quả chiến dịch email marketing ​

📊 Framework / Mô hình chính ​

5 Whys — Root Cause Analysis ​

Box Plot — Phát hiện Outlier ​

🛠️ Demo / Code mẫu ​

Excel Formulas cho Descriptive Statistics ​

Outlier Detection bằng IQR trong Excel ​

Tạo Box Plot trong Excel ​

🏪 Ví dụ thực tế ​

🌍 Quốc tế: Netflix — A/B Testing Thumbnail bằng Statistics ​

🇻🇳 Việt Nam: Shopee — Phát hiện đơn hàng giả qua Outlier Analysis ​

✅ Checklist buổi học ​

🔑 Từ khóa quan trọng ​

🔗 Xem thêm Buổi 2 ​

📘 Buổi 2: Tư duy phân tích & Thống kê cơ bản

🎯 Mục tiêu buổi học

📋 Tổng quan

📌 Phần 1: Tư duy phân tích (Analytical Thinking)

Khái niệm

Tại sao quan trọng cho Data Analyst?

Áp dụng thực tế

SMART Questions Framework

5 Whys — Root Cause Analysis

📌 Phần 2: Các loại dữ liệu

Khái niệm

Structured vs Unstructured Data

Quantitative vs Qualitative Data

Discrete vs Continuous Data

Các mức đo lường (Levels of Measurement)

Tại sao quan trọng cho Data Analyst?

Áp dụng thực tế

📌 Phần 3: Thống kê mô tả (Descriptive Statistics)

Khái niệm

Measures of Central Tendency (Độ đo xu hướng trung tâm)

So sánh Mean vs Median vs Mode

Measures of Spread (Độ đo phân tán)

Percentile, Quartile, IQR

Khi nào dùng Mean vs Median?

Tại sao quan trọng cho Data Analyst?

Áp dụng thực tế

Ví dụ: Phân tích lương nhân viên một công ty

📌 Phần 4: Phân phối dữ liệu & Outlier

Khái niệm

Normal Distribution (Phân phối chuẩn)

Skewness (Độ lệch)

Kurtosis (Độ nhọn)

Outlier Detection (Phát hiện giá trị ngoại lai)

Tại sao quan trọng cho Data Analyst?

Áp dụng thực tế

E-commerce: Phát hiện đơn hàng bất thường

📌 Phần 5: Hypothesis & Sampling cơ bản

Khái niệm

Null Hypothesis vs Alternative Hypothesis

Population vs Sample

Sampling Methods (Phương pháp lấy mẫu)

Bias và cách tránh

Tại sao quan trọng cho Data Analyst?

Áp dụng thực tế

Ví dụ: Kiểm chứng hiệu quả chiến dịch email marketing

📊 Framework / Mô hình chính

5 Whys — Root Cause Analysis

Box Plot — Phát hiện Outlier

🛠️ Demo / Code mẫu

Excel Formulas cho Descriptive Statistics

Outlier Detection bằng IQR trong Excel

Tạo Box Plot trong Excel

🏪 Ví dụ thực tế

🌍 Quốc tế: Netflix — A/B Testing Thumbnail bằng Statistics

🇻🇳 Việt Nam: Shopee — Phát hiện đơn hàng giả qua Outlier Analysis

✅ Checklist buổi học

🔑 Từ khóa quan trọng

🔗 Xem thêm Buổi 2