Skip to content

🏆 Tiêu chuẩn Buổi 3: Excel — Data Cleaning & Pivot Table

Các tiêu chuẩn và framework quốc tế cần nắm cho Data Cleaning, Tidy Data và Pivot Table

Tổng quan

Buổi 3 tập trung vào hai kỹ năng thực hành cốt lõi của Data Analyst: làm sạch dữ liệu (Data Cleaning)tổng hợp phân tích đa chiều bằng Pivot Table. Đây chính là bước Process → Analyze trong Google Data Analytics Framework — bước chiếm 60–80% thời gian của mọi dự án phân tích.

Để thực hiện Data Cleaning và Pivot Table đúng cách, Data Analyst cần hiểu và tuân thủ các tiêu chuẩn quốc tế:

  • Nguyên tắc cấu trúc dữ liệu chuẩn: Tidy Data đảm bảo data sẵn sàng cho phân tích
  • Tiêu chuẩn chất lượng dữ liệu: ISO 8000 cung cấp framework đánh giá data quality toàn diện
  • Kỹ năng bảng tính chuẩn quốc tế: ECDL/ICDL Spreadsheet định nghĩa năng lực sử dụng Excel theo chuẩn
  • Quy trình chuẩn hóa: Mỗi bước cleaning đều có phương pháp rõ ràng, không "làm theo cảm tính"

Câu nói kinh điển: "Garbage In, Garbage Out" — dữ liệu bẩn cho ra kết quả sai, dù Pivot Table hay dashboard có đẹp đến đâu. Các tiêu chuẩn dưới đây giúp bạn biết data "sạch" nghĩa là gì, đo lường thế nào, và cấu trúc data chuẩn trông ra sao.

📋 Danh sách tiêu chuẩn liên quan

#Tiêu chuẩnTổ chức / Tác giảÁp dụng cho Buổi 3
1Tidy Data PrinciplesHadley Wickham (2014)Nguyên tắc cấu trúc data chuẩn — nền tảng cho Pivot Table & phân tích
2ISO 8000 — Data QualityISO / TC 184Tiêu chuẩn chất lượng dữ liệu — framework cho Data Cleaning
3ECDL/ICDL Spreadsheet ModuleECDL Foundation / ICDLKỹ năng bảng tính chuẩn quốc tế — chuẩn năng lực Excel
4DAMA DMBOK — Data Quality ManagementDAMA InternationalQuản lý chất lượng dữ liệu trong vòng đời data
5ISO 25012 — Data Quality ModelISO / IECMô hình chất lượng dữ liệu cho hệ thống phần mềm
6OpenRefine Best PracticesGoogle / CommunityQuy trình cleaning dữ liệu mở, tái tạo được

1️⃣ Tidy Data (Hadley Wickham, 2014)

Giới thiệu

Tidy Data là bộ nguyên tắc cấu trúc dữ liệu được Hadley Wickham — Chief Scientist tại Posit (formerly RStudio) — công bố trong bài báo "Tidy Data" trên Journal of Statistical Software năm 2014. Bài báo này đã được trích dẫn hơn 12,000 lần và trở thành nền tảng cho hệ sinh thái tidyverse trong R cũng như ảnh hưởng sâu rộng đến cách tổ chức dữ liệu trong Excel, Python (Pandas), SQL và mọi công cụ phân tích.

Ý tưởng cốt lõi: có rất nhiều cách tổ chức cùng một bộ dữ liệu, nhưng chỉ một cấu trúc giúp phân tích dễ dàng nhất — đó là Tidy Data. Nếu dữ liệu không ở dạng tidy, mọi thao tác phân tích (filtering, grouping, aggregation, Pivot Table) đều khó khăn hơn.

Nội dung chính

3 Nguyên tắc Tidy Data

#Nguyên tắcTiếng AnhMô tả chi tiết
1Mỗi biến là một cộtEach variable forms a columnRevenue, Date, Region → mỗi thứ một cột riêng
2Mỗi quan sát là một dòngEach observation forms a rowMỗi giao dịch, mỗi khách hàng = 1 dòng
3Mỗi loại đơn vị quan sát là một bảngEach type of observational unit forms a tableBảng Orders, bảng Customers, bảng Products — tách riêng

Tidy vs. Messy Data — So sánh trực quan

❌ Messy Data (Wide format — thường gặp trong báo cáo Excel):

Sản phẩmQ1_2025Q2_2025Q3_2025Q4_2025
Laptop150180200250
Phone300280320350

✅ Tidy Data (Long format — sẵn sàng cho phân tích & Pivot Table):

Sản phẩmQuýDoanh_số
LaptopQ1_2025150
LaptopQ2_2025180
LaptopQ3_2025200
LaptopQ4_2025250
PhoneQ1_2025300
PhoneQ2_2025280
PhoneQ3_2025320
PhoneQ4_2025350

💡 Nhận diện nhanh: Nếu tên cột chứa giá trị dữ liệu (Q1, Q2, 2024, 2025...), data gần như chắc chắn messy. Cột phải chứa tên biến, không chứa giá trị.

5 dạng Messy Data phổ biến

#Dạng MessyMô tảCách sửa
1Column headers are valuesTên cột là giá trị (Q1, Q2, Jan, Feb...)Unpivot / Melt → chuyển sang long format
2Multiple variables in one columnMột cột chứa nhiều biến ("Male_18-25")Tách cột bằng TEXTSPLIT, Text to Columns
3Variables in both rows and columnsBiến nằm ở cả dòng lẫn cộtRestructure toàn bộ layout
4Multiple types in one tableNhiều loại quan sát trong cùng bảngTách thành nhiều bảng liên kết
5One type in multiple tablesCùng loại data nằm rải rác nhiều sheet/fileGộp (consolidate) thành một bảng

Áp dụng cho Data Analyst

Tình huống DACách áp dụng Tidy Data
Nhận file Excel từ bộ phận khácKiểm tra 3 nguyên tắc tidy → restructure nếu cần trước khi phân tích
Tạo Pivot TableData phải ở dạng tidy (long format) thì Pivot Table mới hoạt động đúng
Import data vào SQL/PythonTidy data tương thích trực tiếp với database tables và Pandas DataFrame
Tạo dashboard Power BI/TableauCả hai đều hoạt động tốt nhất với tidy data
Kết hợp data từ nhiều nguồnTidy data giúp JOIN/MERGE dễ dàng vì mỗi bảng có primary key rõ ràng

Rule of thumb cho Excel: Trước khi tạo Pivot Table, hãy tự hỏi: "Data của mình đã tidy chưa?" — Nếu tên cột chứa giá trị, nếu một ô chứa nhiều thông tin, nếu cùng loại data nằm ở nhiều sheet → cần restructure trước.

Ví dụ thực tế

Tình huống: Data Analyst tại chuỗi cà phê nhận file báo cáo doanh thu hàng tháng từ 3 chi nhánh.

File nhận được (Messy — vi phạm cả 3 nguyên tắc):

Chi nhánhJan_RevenueJan_CupsFeb_RevenueFeb_Cups
Quận 1120,000,0004,500135,000,0005,100
Quận 795,000,0003,200100,000,0003,500
Bình Thạnh80,000,0002,80088,000,0003,000

Vấn đề:

  • ❌ Tên cột chứa giá trị (Jan, Feb) → vi phạm nguyên tắc 1
  • ❌ Mỗi tháng có 2 cột (Revenue, Cups) → khó tạo Pivot Table
  • ❌ Không thể dễ dàng filter theo tháng hoặc metric

Sau khi áp dụng Tidy Data:

Chi_nhánhThángMetricGiá_trị
Quận 1JanRevenue120,000,000
Quận 1JanCups4,500
Quận 1FebRevenue135,000,000
Quận 1FebCups5,100
Quận 7JanRevenue95,000,000
............

Hoặc (tidy — mỗi metric là một cột):

Chi_nhánhThángRevenueCups
Quận 1Jan120,000,0004,500
Quận 1Feb135,000,0005,100
Quận 7Jan95,000,0003,200
Quận 7Feb100,000,0003,500
Bình ThạnhJan80,000,0002,800
Bình ThạnhFeb88,000,0003,000

Kết quả: Data dạng tidy → tạo Pivot Table chỉ trong 30 giây (kéo Chi_nhánh vào Rows, Tháng vào Columns, SUM of Revenue vào Values).


2️⃣ ISO 8000 — Data Quality

Giới thiệu

ISO 8000 là bộ tiêu chuẩn quốc tế về chất lượng dữ liệu (Data Quality), được phát triển bởi ISO Technical Committee 184 (Industrial data). Đây là tiêu chuẩn duy nhất của ISO tập trung hoàn toàn vào data quality, cung cấp framework để đo lường, đánh giá và cải thiện chất lượng dữ liệu ở mọi giai đoạn.

ISO 8000 đặc biệt quan trọng cho Data Cleaning vì nó trả lời câu hỏi cốt lõi: "Data sạch nghĩa là gì? Đo bằng gì? Sạch đến đâu là đủ?" — thay vì chỉ cleaning theo cảm tính, Data Analyst có framework rõ ràng để đánh giá chất lượng data trước và sau khi clean.

Nội dung chính

Cấu trúc ISO 8000

ISO 8000 gồm nhiều phần (parts), các phần quan trọng nhất cho Data Analyst:

PartTênNội dung chínhÁp dụng DA
ISO 8000-1OverviewGiới thiệu tổng quan, thuật ngữHiểu bức tranh toàn
ISO 8000-2VocabularyĐịnh nghĩa thuật ngữ data qualityNgôn ngữ chung cho team
ISO 8000-8Information and data qualityConcepts & measuringĐo lường quality dimensions
ISO 8000-61Data quality management: Process reference modelQuy trình quản lý DQChuẩn hóa cleaning workflow
ISO 8000-62Data quality management: Organizational process maturity assessmentĐánh giá mức độ trưởng thànhĐánh giá team/organization

Data Quality Dimensions theo ISO 8000

DimensionTiếng ViệtĐịnh nghĩa ISOCách đo trong Excel
AccuracyĐộ chính xácMức độ data phản ánh đúng thực thể thậtCross-check với nguồn gốc, VLOOKUP đối chiếu
CompletenessĐộ đầy đủTỷ lệ giá trị có mặt so với giá trị kỳ vọng=1 - COUNTBLANK(range)/COUNTA(range)
ConsistencyTính nhất quánData không mâu thuẫn giữa các trường/nguồnConditional formatting highlight conflicts
TimelinessTính kịp thờiData được cập nhật trong khoảng thời gian chấp nhận=NOW() - MAX(date_column)
ValidityTính hợp lệData tuân thủ format, range, business rulesData Validation rules trong Excel
UniquenessTính duy nhấtKhông có bản ghi trùng lặpRemove Duplicates, COUNTIF > 1

Quy trình Data Quality Management (ISO 8000-61)

┌─────────────┐    ┌─────────────┐    ┌─────────────┐    ┌─────────────┐    ┌─────────────┐
│  1. DEFINE   │───▶│  2. MEASURE  │───▶│  3. ANALYZE  │───▶│  4. IMPROVE  │───▶│  5. CONTROL  │
│  Xác định    │    │  Đo lường    │    │  Phân tích   │    │  Cải thiện   │    │  Kiểm soát   │
│  yêu cầu DQ │    │  quality     │    │  root cause  │    │  cleaning    │    │  monitoring  │
└─────────────┘    └─────────────┘    └─────────────┘    └─────────────┘    └─────────────┘
  1. Define: Xác định data quality requirements (ví dụ: completeness ≥ 95%, no duplicates)
  2. Measure: Đo lường từng dimension bằng metrics cụ thể
  3. Analyze: Phân tích nguyên nhân gốc (root cause) của vấn đề chất lượng
  4. Improve: Thực hiện Data Cleaning — xử lý missing, duplicates, formatting
  5. Control: Thiết lập rules và monitoring để duy trì quality

Ngưỡng chất lượng theo ISO 8000

DimensionNgưỡng tối thiểuNgưỡng tốtNgưỡng xuất sắc
Accuracy≥ 90%≥ 95%≥ 99%
Completeness≥ 85%≥ 95%≥ 99%
Consistency≥ 90%≥ 95%≥ 99%
Timeliness< 24 giờ< 4 giờReal-time
Validity≥ 90%≥ 95%≥ 99%
Uniqueness≥ 98%≥ 99.5%≥ 99.9%

Áp dụng cho Data Analyst

Tình huống DACách áp dụng ISO 8000
Nhận dataset mớiChạy Data Quality Assessment theo 6 dimensions trước khi làm bất cứ gì
Data Cleaning trong ExcelDùng framework DMAic: Define yêu cầu → Measure → Analyze root cause → Improve (clean) → Control
Báo cáo cho stakeholderĐính kèm Data Quality Scorecard — stakeholder biết data đáng tin cậy đến đâu
Merge data từ nhiều nguồnKiểm tra Consistency giữa các nguồn trước khi merge
Thiết lập quy trình cho teamDùng ISO 8000-61 làm process reference model cho data quality management

Tip thực tế: Tạo một sheet riêng trong workbook Excel gọi là "DQ Scorecard" — mỗi lần nhận data mới, tính quality score theo 6 dimensions. Đây là cách chuyên nghiệp hóa công việc Data Analyst.

Ví dụ thực tế

Tình huống: Data Analyst tại công ty bán lẻ nhận file doanh thu 50,000 dòng từ hệ thống POS để phân tích bằng Pivot Table.

Bước 1: DEFINE — Yêu cầu chất lượng
  - Completeness ≥ 95% cho các cột: revenue, product_id, store_id, date
  - Uniqueness: Không trùng transaction_id
  - Validity: revenue > 0, date trong Q4/2025
  - Consistency: store_id match với danh sách 120 cửa hàng hiện tại

Bước 2: MEASURE — Đo lường trong Excel
  ┌──────────────┬────────────┬──────────┬────────────┐
  │ Dimension    │ Cột        │ Score    │ Trạng thái │
  ├──────────────┼────────────┼──────────┼────────────┤
  │ Completeness │ revenue    │ 97.2%    │ ✅ Đạt     │
  │ Completeness │ product_id │ 99.8%    │ ✅ Đạt     │
  │ Completeness │ store_id   │ 100%     │ ✅ Đạt     │
  │ Uniqueness   │ txn_id     │ 99.4%    │ ⚠️ 300 trùng│
  │ Validity     │ revenue    │ 98.1%    │ ⚠️ 950 ≤ 0 │
  │ Validity     │ date       │ 99.9%    │ ✅ Đạt     │
  │ Consistency  │ store_id   │ 98.5%    │ ⚠️ 15 mã lạ│
  └──────────────┴────────────┴──────────┴────────────┘

Bước 3: ANALYZE — Phân tích root cause
  - 300 txn trùng: Do hệ thống POS gửi lại khi mất kết nối
  - 950 revenue ≤ 0: 900 là refunds (hợp lệ), 50 là lỗi nhập liệu
  - 15 store_id lạ: 10 cửa hàng đã đóng, 5 mã nhập sai

Bước 4: IMPROVE — Data Cleaning trong Excel
  - Remove Duplicates trên cột txn_id → xóa 300 dòng
  - Filter revenue ≤ 0: giữ 900 refunds, xóa 50 lỗi nhập liệu
  - VLOOKUP store_id với master list → sửa 5 mã nhập sai, đánh dấu 10 cửa hàng đã đóng

Bước 5: CONTROL — Sau khi clean
  - Overall DQ Score: 99.1% → ✅ Sẵn sàng cho Pivot Table
  - Ghi log cleaning actions vào sheet "DQ_Log" để audit trail
  - Tạo Pivot Table phân tích doanh thu theo store × product × month

3️⃣ ECDL/ICDL Spreadsheet Module

Giới thiệu

ECDL (European Computer Driving Licence) / ICDL (International Computer Driving Licence) là chứng chỉ kỹ năng số được công nhận tại hơn 100 quốc gia, do ICDL Foundation (trụ sở Dublin, Ireland) cấp. Spreadsheet Module là một trong các module cốt lõi, chuẩn hóa kỹ năng sử dụng bảng tính (Excel, Google Sheets, LibreOffice Calc).

ICDL Spreadsheet đặc biệt quan trọng vì nó định nghĩa "thành thạo Excel nghĩa là gì" — không phải biết mọi hàm, mà là biết đúng những kỹ năng cần thiết, sử dụng đúng cách, và tạo ra sản phẩm đạt chuẩn chuyên nghiệp. Module này được nhiều doanh nghiệp và tổ chức dùng làm benchmark năng lực khi tuyển dụng.

Nội dung chính

Cấu trúc ICDL Spreadsheet Syllabus (Version 6.0)

CategoryTênSkill SetsÁp dụng Buổi 3
1Using the ApplicationTạo workbook, settings, productivity toolsCơ bản
2CellsInsert, select, edit, sort, copy/moveData preparation
3Managing WorksheetsRows, columns, freeze, hide, namingTổ chức data
4Formulas and FunctionsFormulas, functions (SUM, IF, VLOOKUP, COUNTIF...)⭐ Data Cleaning
5FormattingNumbers, text, alignment, borders, stylesTrình bày chuyên nghiệp
6ChartsCreate, edit, format chartsVisualization
7Prepare OutputsSetup, check, print, exportChia sẻ kết quả

Kỹ năng ICDL áp dụng trực tiếp cho Data Cleaning

ICDL SkillKỹ năngÁp dụng cho Data CleaningHàm/Tính năng
4.2.3Text functionsChuẩn hóa text dataTRIM, CLEAN, UPPER, LOWER, PROPER
4.2.4Logical functionsXử lý có điều kiệnIF, IFERROR, ISBLANK, ISERROR
4.2.5Lookup functionsĐối chiếu và tra cứuVLOOKUP, XLOOKUP, INDEX/MATCH
4.2.6Math/Statistical functionsTổng hợp dataSUMIF, COUNTIF, AVERAGEIF
2.2.1Sort dataSắp xếp để phát hiện lỗiSort A-Z, custom sort
2.2.2Filter dataLọc data theo điều kiệnAutoFilter, Advanced Filter
2.2.4Remove duplicatesLoại bỏ trùng lặpRemove Duplicates tool
Data ValidationNgăn ngừa lỗi nhập liệuData Validation rules

Kỹ năng ICDL áp dụng cho Pivot Table

ICDL SkillKỹ năngÁp dụng cho Pivot Table
Create Pivot TableTạo PivotTable từ data range
Modify fieldsKéo thả fields vào Rows, Columns, Values, Filters
Value field settingsThay đổi SUM → COUNT, AVERAGE, etc.
Group dataNhóm theo ngày, tháng, quý, năm
Filter & SlicerLọc nhanh trong Pivot Table
Calculated FieldsTạo trường tính toán tùy chỉnh
Pivot ChartTạo biểu đồ từ Pivot Table

📌 Lưu ý: ICDL Spreadsheet Syllabus 6.0 không có mục riêng cho Pivot Table ở Advanced level, nhưng ICDL Advanced Spreadsheet module bao gồm đầy đủ kỹ năng Pivot Table. Tuy nhiên, Pivot Table cơ bản thường nằm trong nội dung training chuẩn ICDL.

ICDL Proficiency Levels

LevelTênMô tảKỹ năng Buổi 3
BaseSpreadsheetKỹ năng nền tảng: formulas, formatting, chartsHàm cleaning cơ bản, Sort/Filter
AdvancedAdvanced SpreadsheetKỹ năng nâng cao: Pivot Tables, macros, advanced functionsPivot Table, Conditional Formatting nâng cao
ExpertMastery levelAutomation, complex data analysis

Áp dụng cho Data Analyst

Tình huống DAICDL Skill áp dụng
Nhận file data bẩnTRIM, CLEAN để loại bỏ khoảng trắng thừa, ký tự ẩn
Chuẩn hóa text (tên thành phố, sản phẩm)UPPER, LOWER, PROPER, SUBSTITUTE để đồng nhất
Xử lý lỗi trong formulasIFERROR, ISBLANK để tránh #N/A, #VALUE!
Đối chiếu data giữa 2 bảngVLOOKUP, XLOOKUP để match và validate
Tổng hợp data đa chiềuPivot Table — kéo thả nhanh thay cho SUMIF/COUNTIF
Báo cáo chuyên nghiệpFormatting, Charts theo chuẩn ICDL

Tự đánh giá: Nếu bạn chưa thành thạo các hàm TRIM, CLEAN, IFERROR, VLOOKUP và chưa tạo được Pivot Table từ data thô → bạn chưa đạt chuẩn ICDL Spreadsheet. Buổi 3 sẽ giúp bạn đạt và vượt chuẩn này.

Ví dụ thực tế

Tình huống: Data Analyst tại công ty HR nhận file danh sách 5,000 nhân viên từ nhiều phòng ban, cần cleaning và phân tích bằng Pivot Table.

File nhận được — các lỗi phổ biến:

IDTên NVPhòng banLươngNgày vào
001" nguyễn văn a "Marketing1500000015/01/2023
002TRẦN THỊ Bmarketing180000002023-02-20
003Lê Văn CIT01-Mar-2023
002TRẦN THỊ Bmarketing180000002023-02-20

Data Cleaning theo chuẩn ICDL — từng bước:

Bước 1: Loại khoảng trắng thừa (ICDL 4.2.3)
  =TRIM(CLEAN(B2))
  → "nguyễn văn a" (loại bỏ khoảng trắng đầu/cuối và ký tự ẩn)

Bước 2: Chuẩn hóa tên (ICDL 4.2.3)
  =PROPER(TRIM(CLEAN(B2)))
  → "Nguyễn Văn A"

Bước 3: Chuẩn hóa phòng ban (ICDL 4.2.3)
  =UPPER(TRIM(C2))
  → "MARKETING" (đồng nhất tất cả về uppercase)

Bước 4: Xử lý missing lương (ICDL 4.2.4)
  =IF(ISBLANK(D2), "N/A", D2)
  hoặc ghi rõ "Missing — cần HR confirm"

Bước 5: Chuẩn hóa ngày (ICDL 4.2.3)
  =DATEVALUE(TEXT(E2, "DD/MM/YYYY"))
  → Đồng nhất tất cả về format DD/MM/YYYY

Bước 6: Loại bỏ duplicates (ICDL 2.2.4)
  → Data tab → Remove Duplicates → Chọn cột ID
  → Detected: 1 duplicate (ID 002), removed

Bước 7: Tạo Pivot Table phân tích (ICDL Advanced)
  → Rows: Phòng ban
  → Values: COUNT of ID, AVERAGE of Lương
  → Filter: Năm vào công ty

  Pivot Table kết quả:
  ┌──────────────┬──────────┬──────────────────┐
  │ Phòng ban    │ Số NV    │ Lương TB         │
  ├──────────────┼──────────┼──────────────────┤
  │ IT           │ 1,200    │ 22,000,000       │
  │ MARKETING    │ 850      │ 18,500,000       │
  │ SALES        │ 1,500    │ 16,000,000       │
  │ HR           │ 450      │ 17,000,000       │
  │ FINANCE      │ 600      │ 20,500,000       │
  │ OPERATIONS   │ 400      │ 15,000,000       │
  └──────────────┴──────────┴──────────────────┘

🎓 Chứng chỉ liên quan

Chứng chỉTổ chứcNội dung liên quan Buổi 3LevelChi phí (ước tính)
ICDL SpreadsheetICDL FoundationData cleaning functions, formatting, Sort/FilterBeginner~$50–$100/module
ICDL Advanced SpreadsheetICDL FoundationPivot Tables, advanced functions, macrosIntermediate~$60–$120/module
Google Data Analytics CertificateGoogle / CourseraDirty data, cleaning process, spreadsheet skillsBeginner~$49/tháng
Microsoft Office Specialist: ExcelMicrosoft / CertiportExcel skills toàn diện, Pivot TablesIntermediate~$100 (phí thi)
Microsoft Office Specialist: Excel ExpertMicrosoft / CertiportAdvanced Excel, data analysis, Pivot nâng caoAdvanced~$100 (phí thi)
IBM Data Analyst Professional CertificateIBM / CourseraData wrangling, cleaning, qualityBeginner~$49/tháng

Lộ trình khuyến nghị

Beginner (0-3 tháng)
  → ICDL Spreadsheet (Base)
  → Google Data Analytics Certificate (Course 4: Process Data)

Intermediate (3-6 tháng)
  → ICDL Advanced Spreadsheet
  → Microsoft Office Specialist: Excel Associate

Advanced (6-12 tháng)
  → Microsoft Office Specialist: Excel Expert
  → CDMP (Certified Data Management Professional) — Data Quality domain

So sánh chi tiết

Tiêu chíICDL SpreadsheetMOS ExcelGoogle DA Cert
FocusKỹ năng bảng tính chuẩnExcel-specific skillsQuy trình DA toàn diện
Data CleaningHàm cơ bản (TRIM, IF)Đầy đủ Excel functionsTư duy + thực hành
Pivot TableCơ bản (Advanced module)Đầy đủCơ bản
Data QualityKhông focusKhông focusCó (data integrity)
Tidy DataKhông coverKhông coverCó đề cập
Công nhận100+ quốc giaMicrosoft globalGoogle / nhiều employers

🔗 Ma trận tiêu chuẩn × Chủ đề buổi học

Chủ đề Buổi 3Tidy Data (Wickham)ISO 8000 (Data Quality)ICDL Spreadsheet
Dirty Data — nhận diện dữ liệu bẩn⭐⭐ Messy data = untidy structure⭐⭐⭐ 6 dimensions đo chất lượng⭐⭐ Sort/Filter phát hiện lỗi
Data Cleaning — hàm Excel⭐⭐ Restructure data sang tidy format⭐⭐⭐ DMAIC process cho cleaning⭐⭐⭐ Core skills: TRIM, CLEAN, IF, VLOOKUP
Tidy Data — cấu trúc dữ liệu chuẩn⭐⭐⭐ Core standard — 3 nguyên tắc⭐⭐ Validity & Consistency⭐ Data organization cơ bản
Pivot Table — tổng hợp đa chiều⭐⭐⭐ Tidy data là prerequisite cho Pivot⭐⭐ Data quality ảnh hưởng Pivot output⭐⭐⭐ Pivot Table skills (Advanced module)
Data Quality Dimensions⭐⭐ Consistency, Validity qua cấu trúc⭐⭐⭐ Core standard — 6 dimensions⭐⭐ Data Validation trong Excel
Remove Duplicates⭐⭐ Uniqueness trong tidy data⭐⭐⭐ Uniqueness dimension⭐⭐⭐ Remove Duplicates tool
Missing Values⭐ Tidy data không giải quyết trực tiếp missing⭐⭐⭐ Completeness dimension⭐⭐ ISBLANK, IFERROR
Format chuẩn hóa⭐⭐ Mỗi cột cùng data type⭐⭐⭐ Validity dimension⭐⭐⭐ TEXT, DATEVALUE, formatting

Chú thích: ⭐ = Liên quan gián tiếp | ⭐⭐ = Liên quan trực tiếp | ⭐⭐⭐ = Core/trọng tâm


📝 Checklist áp dụng cho Data Analyst

Trước khi cleaning

  • [ ] Tidy Data Check: Kiểm tra data có đúng 3 nguyên tắc Tidy Data không (mỗi biến = 1 cột, mỗi quan sát = 1 dòng, mỗi bảng = 1 loại đơn vị)
  • [ ] ISO 8000 — Define: Xác định yêu cầu chất lượng cho từng cột (completeness, validity, format)
  • [ ] Data Profiling: Đếm rows, columns, null rate, duplicate count, data types
  • [ ] Backup: Tạo bản copy của file gốc trước khi cleaning (KHÔNG edit trên file gốc)

Trong quá trình cleaning

  • [ ] Duplicates: Dùng Remove Duplicates hoặc COUNTIF để phát hiện và xử lý trùng lặp
  • [ ] Missing Values: Dùng ISBLANK, Filter blanks → quyết định: xóa, impute, hoặc đánh dấu
  • [ ] Text Cleaning: Áp dụng TRIM(CLEAN(...)) cho mọi cột text
  • [ ] Chuẩn hóa: PROPER/UPPER/LOWER cho tên, SUBSTITUTE cho thay thế ký tự
  • [ ] Date Format: Đảm bảo tất cả ngày tháng cùng format — dùng DATEVALUE, TEXT
  • [ ] Data Validation: Thiết lập validation rules cho các cột quan trọng
  • [ ] Restructure: Nếu data ở dạng messy (wide format), chuyển sang tidy (long format) trước khi tạo Pivot Table

Sau khi cleaning — Tạo Pivot Table

  • [ ] Data Source: Pivot Table phải reference toàn bộ data range (dùng Table/Ctrl+T)
  • [ ] Tidy Check: Data phải ở dạng tidy trước khi tạo Pivot — không có merged cells, không có empty rows/columns
  • [ ] Field Layout: Rows, Columns, Values, Filters — đặt đúng field vào đúng area
  • [ ] Value Settings: Kiểm tra SUM vs COUNT vs AVERAGE — đúng aggregation function
  • [ ] Refresh: Nhớ Refresh Pivot Table khi data source thay đổi

Data Quality Scorecard

  • [ ] Completeness ≥ 95%: Tỷ lệ ô có dữ liệu đạt ngưỡng
  • [ ] Uniqueness ≥ 99%: Không có bản ghi trùng lặp
  • [ ] Validity ≥ 95%: Data tuân thủ format và business rules
  • [ ] Consistency ≥ 95%: Data nhất quán giữa các trường liên quan
  • [ ] DQ Log: Ghi lại mọi thao tác cleaning vào log sheet (ngày, action, ảnh hưởng bao nhiêu rows)

📚 Tài liệu tham khảo

Tiêu chuẩn chính thức

  1. ISO 8000-1:2022 — Data quality — Part 1: Overview — iso.org/standard/81745.html
  2. ISO 8000-2:2022 — Data quality — Part 2: Vocabulary
  3. ISO 8000-61:2016 — Data quality management: Process reference model
  4. ISO 25012:2008 — Software engineering — Software product Quality Requirements and Evaluation (SQuaRE) — Data quality model
  5. ICDL Spreadsheet Syllabus 6.0icdl.org

Bài báo & Papers

  1. Wickham, H. (2014)"Tidy Data", Journal of Statistical Software, Vol. 59, Issue 10 — doi.org/10.18637/jss.v059.i10
  2. Dasu, T. & Johnson, T. (2003)Exploratory Data Mining and Data Cleaning, Wiley
  3. Rahm, E. & Do, H.H. (2000)"Data Cleaning: Problems and Current Approaches", IEEE Bulletin of the Technical Committee on Data Engineering

Sách tham khảo

  1. "Data Quality: The Accuracy Dimension" — Jack Olson (2003), Morgan Kaufmann — Classic reference cho data quality
  2. "DAMA-DMBOK 2nd Edition" — DAMA International (2017) — Chapter 13: Data Quality Management
  3. "Bad Data Handbook" — Q. Ethan McCallum (2012), O'Reilly — Practical guide cho data cleaning
  4. "Excel Bible" — John Walkenbach, Wiley — Tham khảo toàn diện cho Excel

Tài liệu online

  1. Google Data Analytics Certificate — Course 4: Process Data from Dirty to CleanCoursera
  2. Microsoft Excel Trainingsupport.microsoft.com/excel
  3. Tidy Data Vignette (tidyverse)tidyr.tidyverse.org/articles/tidy-data.html
  4. OpenRefine Documentationopenrefine.org/docs

Video & Courses

  1. "Tidy Data" — Hadley Wickham talk — YouTube / RStudio Conference
  2. ExcelIsFun — YouTube channel — 3,000+ Excel tutorials
  3. ICDL Asiaicdlasia.org — Đăng ký thi ICDL tại Việt Nam

🔗 Xem thêm Buổi 3

📘 Nội dung chính📝 Blog🧠 Case Study🛠 Workshop🎮 Mini Game