Skip to content

🏆 Tiêu chuẩn Buổi 2: Tư duy phân tích & Thống kê cơ bản

Các tiêu chuẩn và framework quốc tế cần nắm cho phân tích thống kê

Tổng quan

Buổi 2 tập trung vào tư duy phân tích (Analytical Thinking)thống kê cơ bản (Descriptive Statistics). Để đảm bảo chất lượng và tính khoa học trong công việc, Data Analyst cần tuân thủ các tiêu chuẩn quốc tế về kiểm định giả thuyết, đánh giá chất lượng dữ liệu và phương pháp chọn mẫu.

Các tiêu chuẩn dưới đây giúp bạn:

  • Áp dụng statistical thinking một cách có hệ thống
  • Đảm bảo data quality trước khi phân tích
  • Chọn mẫu đúng cách để kết quả có statistical significance
  • Trình bày kết quả thống kê theo chuẩn quốc tế

📋 Danh sách tiêu chuẩn liên quan

#Tiêu chuẩnTổ chứcÁp dụng Buổi 2
1Statistical Hypothesis TestingASA / ISO 3534Kiểm định giả thuyết, p-value, significance level
2Data Quality Assessment FrameworkDAMA / ISO 8000Đánh giá chất lượng dữ liệu trước phân tích
3Sampling Standards & Best PracticesISO 3951 / NISTChọn mẫu đúng cách, tính sample size
4ISO 3534 — Statistics VocabularyISOThuật ngữ thống kê chuẩn quốc tế
5ASA Ethical GuidelinesASAĐạo đức trong thực hành thống kê
6NIST/SEMATECH e-HandbookNISTPhương pháp thống kê tham chiếu

1️⃣ Statistical Hypothesis Testing Standards

Giới thiệu

Statistical Hypothesis Testing là quy trình kiểm định giả thuyết dựa trên dữ liệu mẫu, được chuẩn hóa bởi American Statistical Association (ASA)ISO 3534-1:2006. ASA đã công bố "Statement on Statistical Significance and P-Values" (2016, cập nhật 2019) nhằm hướng dẫn cộng đồng sử dụng p-value đúng cách.

Tiêu chuẩn này đặc biệt quan trọng vì sai lầm trong kiểm định giả thuyết có thể dẫn đến quyết định kinh doanh sai lầm, lãng phí tài nguyên hoặc bỏ lỡ cơ hội.

Nội dung chính

P-value và Significance Level (α)

Khái niệmĐịnh nghĩaNgưỡng thường dùng
P-valueXác suất quan sát được kết quả cực đoan như dữ liệu hiện tại (hoặc hơn), giả sử H₀ đúngKhông cố định — phụ thuộc ngữ cảnh
Significance level (α)Ngưỡng quyết định bác bỏ H₀0.05 (phổ biến), 0.01 (nghiêm ngặt), 0.10 (thăm dò)
Confidence level1 - α, mức độ tin cậy95%, 99%

⚠️ Lưu ý ASA: P-value KHÔNG phải là xác suất H₀ đúng. Không nên dùng p < 0.05 như tiêu chí duy nhất để ra quyết định.

Type I & Type II Errors

Loại lỗiTên gọiMô tảHậu quả
Type I (α)False PositiveBác bỏ H₀ khi H₀ đúngTriển khai thay đổi không cần thiết
Type II (β)False NegativeKhông bác bỏ H₀ khi H₀ saiBỏ lỡ cơ hội cải thiện

Statistical Power

Power=1β=P(Bác bỏ H0H0 sai)
  • Power tối thiểu khuyến nghị: 0.80 (80%)
  • Power phụ thuộc vào: sample size (n), effect size (d), significance level (α)
  • Nên tính power analysis trước khi thu thập dữ liệu

Áp dụng cho Data Analyst

Tình huống DACách áp dụng tiêu chuẩn
A/B TestingĐặt H₀/H₁ rõ ràng, chọn α phù hợp business context, tính sample size trước
So sánh KPIs giữa các nhómChọn đúng test (t-test, chi-square, ANOVA), report confidence interval
Phát hiện anomalyDùng Z-score hoặc IQR method, xác định ngưỡng dựa trên domain knowledge
Báo cáo kết quảReport p-value + effect size + confidence interval, không chỉ "significant/not significant"

Ví dụ thực tế

Scenario: A/B Test cho trang thanh toán e-commerce

Một Data Analyst tại Shopee muốn kiểm tra xem thiết kế trang checkout mới có tăng conversion rate không.

Bước 1: Đặt giả thuyết
  H₀: Conversion rate mới = Conversion rate cũ (μ₁ = μ₂)
  H₁: Conversion rate mới > Conversion rate cũ (μ₁ > μ₂)

Bước 2: Thiết lập thông số
  α = 0.05 (significance level)
  Power = 0.80
  Minimum detectable effect = 2% (từ 10% lên 12%)

Bước 3: Tính sample size
  → Cần ~3,900 users mỗi nhóm (dùng power analysis)

Bước 4: Thu thập & phân tích
  → p-value = 0.03, effect size = 2.5%
  → 95% CI: [0.5%, 4.5%]

Bước 5: Kết luận theo chuẩn ASA
  ✅ "Conversion rate tăng 2.5% (95% CI: 0.5%–4.5%, p = 0.03)"
  ❌ KHÔNG nói: "Kết quả significant nên chắc chắn thiết kế mới tốt hơn"

2️⃣ Data Quality Assessment Framework

Giới thiệu

Data Quality Assessment (DQA) là framework đánh giá chất lượng dữ liệu trước khi phân tích, dựa trên các tiêu chuẩn từ DAMA International (DMBOK), ISO 8000ISO 25012. Framework này đặc biệt quan trọng trong thống kê mô tả vì "Garbage In, Garbage Out" — dữ liệu kém chất lượng sẽ cho ra mean, median, standard deviation vô nghĩa.

Nội dung chính

6 chiều chất lượng dữ liệu (Data Quality Dimensions)

DimensionTiếng ViệtĐịnh nghĩaMetric đo lường
AccuracyĐộ chính xácDữ liệu phản ánh đúng thực tế% records khớp với nguồn gốc
CompletenessĐộ đầy đủKhông thiếu giá trị cần thiết% non-null values
ConsistencyTính nhất quánDữ liệu đồng nhất giữa các nguồn% records không mâu thuẫn
TimelinessTính kịp thờiDữ liệu cập nhật, không quá cũData freshness (hours/days)
ValidityTính hợp lệDữ liệu tuân thủ format/rules% records pass validation rules
UniquenessTính duy nhấtKhông có bản ghi trùng lặp% unique records

Quy trình DQA 4 bước

┌─────────────┐    ┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│  1. PROFILE  │───▶│  2. ASSESS   │───▶│  3. CLEANSE  │───▶│  4. MONITOR  │
│  Khám phá    │    │  Đánh giá    │    │  Làm sạch    │    │  Giám sát    │
│  dữ liệu    │    │  chất lượng  │    │  dữ liệu    │    │  liên tục    │
└─────────────┘    └─────────────┘    └─────────────┘    └─────────────┘
  1. Profile: Tính mean, median, mode, distribution, missing rate, outlier count
  2. Assess: So sánh với ngưỡng chất lượng (ví dụ: completeness ≥ 95%)
  3. Cleanse: Xử lý missing values, outliers, duplicates
  4. Monitor: Thiết lập alert khi quality score giảm

Ngưỡng chất lượng khuyến nghị

DimensionNgưỡng tối thiểuNgưỡng tốtNgưỡng xuất sắc
Accuracy≥ 90%≥ 95%≥ 99%
Completeness≥ 85%≥ 95%≥ 99%
Consistency≥ 90%≥ 95%≥ 99%
Timeliness< 24h< 4hReal-time
Validity≥ 90%≥ 95%≥ 99%

Áp dụng cho Data Analyst

Tình huống DACách áp dụng tiêu chuẩn
EDA (Exploratory Data Analysis)Chạy data profiling trước: null rate, distribution, outlier count
Tính descriptive statisticsKiểm tra completeness và accuracy trước khi tính mean/median/std
Kết hợp nhiều data sourcesKiểm tra consistency giữa các nguồn (ví dụ: revenue từ CRM vs. accounting)
Dashboard/ReportMonitor data quality metrics, thêm data freshness indicator
Phát hiện outlierPhân biệt outlier do lỗi dữ liệu (accuracy issue) vs. outlier thật (business insight)

Ví dụ thực tế

Scenario: Phân tích doanh thu theo khu vực cho chuỗi bán lẻ

Một Data Analyst tại Thế Giới Di Động cần phân tích doanh thu Q4/2025 theo khu vực.

Bước 1: Data Profiling
  - Dataset: 150,000 transactions
  - Missing values: revenue (2.3%), region (0.1%), date (0%)
  - Outliers: 45 transactions có revenue > 500 triệu VNĐ
  - Duplicates: 230 records trùng transaction_id

Bước 2: Data Quality Assessment
  ┌──────────────┬────────────┬────────────┐
  │ Dimension    │ Score      │ Status     │
  ├──────────────┼────────────┼────────────┤
  │ Completeness │ 97.6%      │ ✅ Đạt     │
  │ Accuracy     │ Cần verify │ ⚠️ Kiểm tra│
  │ Uniqueness   │ 99.85%     │ ✅ Đạt     │
  │ Timeliness   │ 2 hours    │ ✅ Đạt     │
  └──────────────┴────────────┴────────────┘

Bước 3: Data Cleansing
  - Xóa 230 duplicates
  - 45 outliers → Xác minh: 40 là giao dịch B2B hợp lệ, 5 là lỗi nhập liệu
  - Impute 2.3% missing revenue bằng median theo category

Bước 4: Kết quả descriptive statistics SAU cleansing
  - Mean revenue: 3.2 triệu VNĐ
  - Median revenue: 2.8 triệu VNĐ
  - Std dev: 4.1 triệu VNĐ (right-skewed distribution)

3️⃣ Sampling Standards & Best Practices

Giới thiệu

Sampling Standards quy định phương pháp chọn mẫu đại diện cho tổng thể, dựa trên ISO 3951 (Sampling procedures for inspection by variables), ISO 2859 (Sampling procedures for inspection by attributes) và hướng dẫn từ NIST/SEMATECH e-Handbook of Statistical Methods. Chọn mẫu đúng cách là nền tảng để mọi phân tích thống kê có ý nghĩa.

Nội dung chính

Phương pháp chọn mẫu (Sampling Methods)

Phương phápMô tảKhi nào dùngƯu/Nhược
Simple RandomMỗi phần tử có xác suất bằng nhauPopulation đồng nhất✅ Không bias, ❌ Cần sampling frame
StratifiedChia thành strata, random trong mỗi strataPopulation có subgroups rõ ràng✅ Đại diện từng nhóm, ❌ Cần biết strata
ClusterChọn ngẫu nhiên clusters, lấy toàn bộ clusterPopulation phân tán địa lý✅ Tiết kiệm chi phí, ❌ Higher variance
SystematicChọn mỗi k phần tửDanh sách có sẵn, không có pattern✅ Đơn giản, ❌ Bias nếu có periodicity
ConvenienceChọn mẫu dễ tiếp cậnNghiên cứu thăm dò ban đầu✅ Nhanh, ❌ Bias cao

Tính Sample Size

Công thức cho ước lượng proportion:

n=Z2p(1p)E2

Trong đó:

  • n = sample size cần thiết
  • Z = Z-score ứng với confidence level (1.96 cho 95%)
  • p = proportion ước tính (dùng 0.5 nếu không biết)
  • E = margin of error mong muốn
Confidence LevelZ-scoreSample size (E=5%, p=0.5)
90%1.645271
95%1.960385
99%2.576664

Bias trong Sampling

Loại BiasMô tảCách phòng tránh
Selection BiasMẫu không đại diện cho tổng thểDùng random sampling, kiểm tra demographics
Non-response BiasNgười không trả lời khác biệt với người trả lờiFollow-up, incentive, phân tích non-respondents
Survivorship BiasChỉ phân tích "người sống sót"Bao gồm cả churned users, failed products
Voluntary Response BiasNgười tự nguyện tham gia có đặc điểm riêngDùng random sampling thay vì self-selection

Áp dụng cho Data Analyst

Tình huống DACách áp dụng tiêu chuẩn
Survey/khảo sát khách hàngTính sample size trước, dùng stratified sampling theo segment
A/B TestingRandom assignment, kiểm tra balance giữa control/treatment
Phân tích big dataCó thể dùng sampling để EDA nhanh, rồi chạy full data cho kết quả cuối
Quality controlÁp dụng ISO 2859/3951 cho acceptance sampling
Customer segmentationĐảm bảo mỗi segment có đủ sample size để tính statistics có ý nghĩa

Ví dụ thực tế

Scenario: Khảo sát mức độ hài lòng khách hàng cho ngân hàng

Một Data Analyst tại VPBank cần khảo sát customer satisfaction (CSAT) cho 2 triệu khách hàng cá nhân.

Bước 1: Xác định thông số
  - Population: N = 2,000,000
  - Confidence level: 95% → Z = 1.96
  - Margin of error: E = 3%
  - Estimated proportion: p = 0.5 (chưa biết)

Bước 2: Tính sample size
  n = (1.96² × 0.5 × 0.5) / 0.03² = 1,068 khách hàng

Bước 3: Chọn phương pháp — Stratified Sampling
  ┌─────────────────┬────────────┬──────────────┐
  │ Segment         │ % Tổng thể │ Sample size  │
  ├─────────────────┼────────────┼──────────────┤
  │ Mass            │ 60%        │ 641          │
  │ Mass Affluent   │ 25%        │ 267          │
  │ Affluent        │ 10%        │ 107          │
  │ High Net Worth  │ 5%         │ 53           │
  └─────────────────┴────────────┴──────────────┘
  Tổng: 1,068 khách hàng

Bước 4: Kiểm tra bias
  ✅ Random selection trong mỗi segment
  ✅ Có follow-up plan cho non-respondents
  ⚠️ Lưu ý: segment HNW chỉ 53 → cân nhắc oversample lên 100

Bước 5: Kết quả
  CSAT trung bình: 7.8/10 (95% CI: 7.5–8.1)
  → Đạt ngưỡng benchmark ngành (7.5)

4️⃣ ISO 3534 — Statistics: Vocabulary and Symbols

Giới thiệu

ISO 3534 gồm 3 phần, chuẩn hóa thuật ngữ thống kê quốc tế:

  • ISO 3534-1: General statistical terms and terms used in probability
  • ISO 3534-2: Applied statistics
  • ISO 3534-3: Design of experiments

Áp dụng cho Data Analyst

Sử dụng thuật ngữ chuẩn ISO 3534 khi:

  • Viết báo cáo phân tích cho stakeholders quốc tế
  • Trao đổi với data scientists hoặc statisticians
  • Ghi chú trong code/notebook để đồng nghiệp hiểu thống nhất
Thuật ngữ ISO 3534Ký hiệuÝ nghĩa
Arithmetic meanx¯Trung bình cộng
Medianx~Giá trị giữa
Standard deviations (sample), σ (population)Độ lệch chuẩn
Variances2 (sample), σ2 (population)Phương sai
Interquartile rangeIQR=Q3Q1Khoảng tứ phân vị

5️⃣ ASA Ethical Guidelines for Statistical Practice

Giới thiệu

American Statistical Association (ASA) ban hành hướng dẫn đạo đức cho thực hành thống kê, bao gồm trách nhiệm với khoa học, khách hàng, và cộng đồng.

Nguyên tắc chính áp dụng cho DA

Nguyên tắcÁp dụng trong DA
Integrity of Data & MethodsKhông cherry-pick data hoặc p-hack
TransparencyDocument rõ methodology, assumptions, limitations
Responsibilities to StakeholdersTrình bày kết quả trung thực, bao gồm uncertainty
ReproducibilityCode, data, và analysis phải tái tạo được

🔴 Anti-pattern phổ biến: Chạy nhiều tests rồi chỉ report kết quả "significant" → vi phạm nguyên tắc integrity (còn gọi là p-hacking hoặc data dredging).


🎓 Chứng chỉ liên quan

Chứng chỉTổ chứcNội dung liên quan Buổi 2Level
Google Data Analytics CertificateGoogle / CourseraAnalytical thinking, data types, statistics basicsBeginner
IBM Data Analyst Professional CertificateIBM / CourseraDescriptive statistics, data quality, hypothesis testingBeginner
Certified Analytics Professional (CAP)INFORMSStatistical analysis, sampling, hypothesis testingAdvanced
SAS Certified Specialist: Base ProgrammingSASStatistical procedures, data qualityIntermediate
Microsoft Certified: Data Analyst Associate (PL-300)MicrosoftData preparation, statistical analysis, DAXIntermediate
ASA Graduate Statistician (GStat)ASAToàn bộ nền tảng thống kêAdvanced

Lộ trình khuyến nghị

Beginner (0-6 tháng)
  → Google Data Analytics Certificate
  → IBM Data Analyst Professional Certificate

Intermediate (6-18 tháng)
  → Microsoft PL-300
  → SAS Base Programming

Advanced (18+ tháng)
  → CAP (INFORMS)
  → ASA GStat

🔗 Ma trận tiêu chuẩn × Chủ đề buổi học

Chủ đề Buổi 2Hypothesis TestingData QualitySampling StandardsISO 3534ASA Ethics
Analytical Thinking (SMART, 5 Whys)✅ Đặt câu hỏi testable✅ Đánh giá data trước khi phân tích✅ Tư duy khách quan
Data Types (Structured/Unstructured)✅ Validity check theo data type✅ Thuật ngữ chuẩn
Quantitative/Qualitative✅ Chọn đúng test✅ Sampling khác nhau theo loại✅ Ký hiệu chuẩn
Nominal/Ordinal/Interval/Ratio✅ Test phù hợp scale✅ Validate đúng scale✅ Định nghĩa chuẩn
Descriptive Statistics✅ Data quality ảnh hưởng mean/median✅ Ký hiệu x¯, s, σ✅ Report trung thực
Distribution & Outlier✅ Kiểm định normality✅ Outlier = lỗi hay insight?✅ Không loại bỏ outlier tùy ý
Hypothesis & Sampling✅ Core standard✅ Core standard✅ Thuật ngữ chuẩn✅ Không p-hack

📝 Checklist áp dụng cho Data Analyst

Trước khi phân tích

  • [ ] Data Quality: Chạy data profiling — kiểm tra null rate, distribution, outlier count
  • [ ] Completeness: Đảm bảo completeness ≥ 95% hoặc có kế hoạch xử lý missing values
  • [ ] Accuracy: Cross-validate dữ liệu với nguồn gốc (source of truth)
  • [ ] Consistency: Kiểm tra tính nhất quán nếu merge nhiều data sources
  • [ ] ISO 3534: Sử dụng thuật ngữ và ký hiệu thống kê chuẩn

Trong quá trình phân tích

  • [ ] Descriptive Stats: Tính cả mean, median, mode — so sánh để phát hiện skewness
  • [ ] Outlier Detection: Dùng IQR method hoặc Z-score, ghi rõ phương pháp và ngưỡng
  • [ ] Sampling: Nếu lấy mẫu, ghi rõ phương pháp, sample size, và confidence level
  • [ ] Hypothesis Testing: Đặt H₀/H₁ trước khi nhìn dữ liệu, chọn α trước
  • [ ] Power Analysis: Tính statistical power, đảm bảo ≥ 80%

Khi trình bày kết quả

  • [ ] Report đầy đủ: P-value + effect size + confidence interval (không chỉ p-value)
  • [ ] ASA Guidelines: Không dùng "statistically significant" như phán quyết tuyệt đối
  • [ ] Transparency: Document rõ methodology, assumptions, limitations
  • [ ] Reproducibility: Code và data có thể tái tạo kết quả
  • [ ] Data Quality Disclaimer: Ghi rõ quality score của data đã dùng
  • [ ] Ethical Standards: Không cherry-pick, không p-hack, report tất cả tests đã chạy

📚 Tài liệu tham khảo

Tiêu chuẩn chính thức

  1. ISO 3534-1:2006 — Statistics: Vocabulary and symbols — Part 1: General statistical terms and terms used in probability
  2. ISO 3534-2:2006 — Statistics: Vocabulary and symbols — Part 2: Applied statistics
  3. ISO 8000 — Data Quality
  4. ISO 2859 — Sampling procedures for inspection by attributes
  5. ISO 3951 — Sampling procedures for inspection by variables

Hướng dẫn & Frameworks

  1. ASA Statement on P-Values (2016) — amstat.org/asa/files/pdfs/P-ValueStatement.pdf
  2. ASA Ethical Guidelines for Statistical Practice (2022) — amstat.org/ethicalguidelines
  3. NIST/SEMATECH e-Handbook of Statistical Methodsitl.nist.gov/div898/handbook
  4. DAMA-DMBOK2 — Data Management Body of Knowledge, 2nd Edition

Sách tham khảo

  1. "Naked Statistics" — Charles Wheelan (nhập môn thống kê dễ hiểu)
  2. "The Art of Statistics" — David Spiegelhalter (tư duy thống kê thực tế)
  3. "Trustworthy Online Controlled Experiments" — Kohavi, Tang, Xu (A/B Testing chuẩn)

Công cụ

  1. Python: scipy.stats, statsmodels, pandas-profiling (ydata-profiling)
  2. R: stats, pwr, DataExplorer
  3. Online calculators: sample-size.net, stat.ubc.ca/~rollin/stats/ssize

🔗 Xem thêm Buổi 2

📘 Nội dung chính📝 Blog🧠 Case Study🛠 Workshop🎮 Mini Game