Skip to content

🛠 Workshop Buổi 1: Khám phá dataset đầu tiên

Mở dataset thật, đặt câu hỏi kinh doanh, tìm insight đầu tiên — tất cả bằng Google Sheets!

🎯 Mục tiêu

Sau khi hoàn thành workshop này, bạn sẽ:

  1. Thực hiện Data Profiling — mở một dataset thật, đếm số dòng/cột, xác định kiểu dữ liệu và phát hiện vấn đề dữ liệu cơ bản
  2. Đặt được 5 câu hỏi SMART — áp dụng Google Analytics Framework (Ask) để viết câu hỏi kinh doanh rõ ràng, đo lường được
  3. Tìm được 3 insight sơ bộ — sử dụng Filter, Sort, SUM, AVERAGE, COUNTIF, SUMIF để rút ra nhận định có số liệu minh chứng
  4. Trình bày kết quả — tổng hợp thành báo cáo 1 trang với screenshot, sẵn sàng đưa vào portfolio Capstone

🧰 Công cụ & Setup

Công cụPhiên bảnGhi chú
Google SheetsWeb (02/2026)Miễn phí, cần tài khoản Google
Trình duyệtChrome / Edge mới nhấtKhuyến nghị Chrome để tương thích tốt nhất
Dataset mẫuCSVTải từ link bên dưới hoặc Kaggle

Setup trước buổi học:

  1. Đăng nhập Google Account tại sheets.google.com
  2. Tải dataset mẫu (file CSV) từ link được cung cấp
  3. Vào Google Sheets → File → Import → Upload → chọn file CSV
  4. Chọn "Replace spreadsheet"Import data

📦 Dataset

  • Name: Online Sales Dataset (Superstore-style)
  • Source: Kaggle / Dataset mẫu do giảng viên cung cấp
  • Rows: ~2.000 đơn hàng (đủ lớn để phân tích, đủ nhỏ để xử lý trên Sheets)
  • Columns: 10 cột
  • Thời gian: Dữ liệu bán hàng 12 tháng (01/2025 – 12/2025)
  • Ngữ cảnh: Một cửa hàng bán lẻ online tại Việt Nam, bán đa danh mục sản phẩm qua nhiều kênh thanh toán
CộtKiểu dữ liệuMô tảVí dụ
Order IDstringMã đơn hàng duy nhấtORD-0001
Order DatedateNgày đặt hàng (DD/MM/YYYY)15/03/2025
Customer NamestringTên khách hàngNguyễn Văn A
ProductstringTên sản phẩmTai nghe Bluetooth X1
CategorystringDanh mục sản phẩm (5 loại)Electronics, Fashion, Home, Books, Sports
QuantityintSố lượng mua2
Unit PricefloatĐơn giá (VNĐ)350000
RevenuefloatDoanh thu = Quantity × Unit Price700000
RegionstringKhu vực giao hàng (4 vùng)Bắc, Trung, Nam, Tây Nguyên
Payment MethodstringPhương thức thanh toánCOD, Momo, Bank Transfer, Credit Card

⏱️ Thời lượng

PhầnThời gianNội dung
Hướng dẫn & Setup15 phútGiới thiệu dataset, import vào Google Sheets
Bài tập 1: Data Profiling15 phútKhám phá cấu trúc dataset
Bài tập 2: Câu hỏi SMART15 phútĐặt 5 câu hỏi kinh doanh
Bài tập 3: Tìm insight15 phútFilter, Sort, công thức cơ bản
Review & Feedback15 phútTrình bày, nhận xét chéo
Tổng75 phút

Bài tập 1: Khám phá dataset — Data Profiling

Hướng dẫn

Data Profiling là bước đầu tiên khi nhận bất kỳ dataset nào. Mục tiêu: hiểu dữ liệu trước khi phân tích.

Bước 1 — Quan sát tổng quan (2 phút)

  • Mở file đã import trong Google Sheets
  • Cuộn nhanh từ trên xuống dưới để "cảm nhận" dữ liệu
  • Nhìn dòng đầu tiên (header) — đây là tên các cột

Bước 2 — Đếm kích thước dataset (3 phút)

  • Đếm tổng số dòng (rows) — mỗi dòng là một đơn hàng
  • Đếm tổng số cột (columns) — mỗi cột là một thuộc tính
  • Ghi lại vào ô trống hoặc sheet mới

Bước 3 — Xác định kiểu dữ liệu (5 phút)

  • Với mỗi cột, xác định: string (văn bản), number (số), date (ngày tháng)
  • Kiểm tra cột nào là categorical (có số lượng giá trị giới hạn, ví dụ: Category, Region)
  • Kiểm tra cột nào là numerical (giá trị liên tục, ví dụ: Revenue, Quantity)

Bước 4 — Phát hiện vấn đề dữ liệu (5 phút)

  • Có ô nào bị trống (missing value) không?
  • Có giá trị nào bất thường không? (Revenue âm, Quantity = 0, ngày không hợp lệ)
  • Dữ liệu đã được sắp xếp theo thứ tự nào chưa?

Code mẫu / Hướng dẫn thao tác

Tạo một sheet mới tên "Data Profile" và nhập các công thức sau:

📌 Đếm tổng số dòng dữ liệu (không tính header):
=ROWS(A2:A) — hoặc chính xác hơn:
=COUNTA(A2:A)

📌 Đếm tổng số cột:
=COLUMNS(A1:J1)

📌 Đếm số giá trị duy nhất (unique) của cột Category:
=COUNTA(UNIQUE(E2:E))

📌 Đếm số giá trị duy nhất của cột Region:
=COUNTA(UNIQUE(I2:I))

📌 Đếm ô trống trong cột Revenue:
=COUNTBLANK(H2:H)

📌 Tìm giá trị nhỏ nhất và lớn nhất của Revenue:
=MIN(H2:H)
=MAX(H2:H)

📌 Đếm số giá trị duy nhất của Payment Method:
=COUNTA(UNIQUE(J2:J))

Kết quả mong đợi

Bạn nên có một bảng tổng hợp Data Profile như sau:

Thông tinGiá trị
Tổng số dòng~2.000
Tổng số cột10
Số Category5
Số Region4
Số Payment Method4
Revenue nhỏ nhất~50.000 VNĐ
Revenue lớn nhất~5.000.000 VNĐ
Số ô trống (Revenue)0 (hoặc vài ô nếu dataset có lỗi)

Checkpoint: Bạn đã hiểu cấu trúc cơ bản của dataset — kích thước, kiểu dữ liệu, giá trị phân loại.


Bài tập 2: Đặt câu hỏi kinh doanh (Ask)

Hướng dẫn

Áp dụng Google Analytics Framework — giai đoạn Ask và nguyên tắc SMART Questions:

SMARTÝ nghĩaVí dụ
SpecificCụ thể, rõ ràng❌ "Bán hàng tốt không?" → ✅ "Doanh thu tháng nào cao nhất?"
MeasurableĐo lường đượcCâu hỏi phải trả lời bằng con số
Action-orientedHướng đến hành độngKết quả giúp ra quyết định
RelevantLiên quan đến mục tiêu kinh doanhGắn với tăng doanh thu, giảm chi phí, cải thiện trải nghiệm
Time-boundCó giới hạn thời gianChỉ rõ khoảng thời gian phân tích

Bước 1 — Brainstorm (5 phút)

  • Nhìn vào 10 cột dữ liệu, nghĩ xem: "Nếu là chủ cửa hàng, tôi muốn biết gì?"
  • Viết ra ít nhất 7–8 câu hỏi

Bước 2 — Chọn lọc & SMART hóa (5 phút)

  • Chọn 5 câu hỏi tốt nhất
  • Kiểm tra từng câu theo 5 tiêu chí SMART
  • Viết lại cho rõ ràng

Bước 3 — Ghi lại (5 phút)

  • Tạo sheet mới tên "Business Questions"
  • Ghi 5 câu hỏi vào bảng với cột: STT, Câu hỏi, Cột liên quan, S-M-A-R-T check

Code mẫu

Dưới đây là 5 câu hỏi SMART mẫu (bạn cần tự viết câu hỏi của riêng mình):

#Câu hỏi SMARTCột liên quan
1Tổng doanh thu (Revenue) của cửa hàng trong cả năm 2025 là bao nhiêu?Revenue, Order Date
2Danh mục sản phẩm (Category) nào đóng góp doanh thu cao nhất trong năm 2025?Category, Revenue
3Khu vực (Region) nào có số lượng đơn hàng nhiều nhất trong Q4/2025?Region, Order Date
4Phương thức thanh toán (Payment Method) nào được khách hàng sử dụng phổ biến nhất?Payment Method
5Tháng nào trong năm 2025 có doanh thu cao nhất, và cao hơn trung bình bao nhiêu %?Order Date, Revenue

Kết quả mong đợi

  • Sheet "Business Questions" với bảng 5 câu hỏi
  • Mỗi câu hỏi thỏa mãn ít nhất 4/5 tiêu chí SMART
  • Mỗi câu hỏi chỉ rõ cột dữ liệu nào cần dùng để trả lời

Checkpoint: Bạn đã biết cách chuyển từ "tò mò chung chung" sang câu hỏi phân tích cụ thể.


Bài tập 3: Tìm insight sơ bộ

Hướng dẫn

Bây giờ hãy trả lời một vài câu hỏi bằng công cụ cơ bản trong Google Sheets: Filter, Sort, và các hàm tính toán.

Insight 1 — Doanh thu theo Category (10 phút)

  1. Tạo sheet mới tên "Insights"
  2. Dùng SUMIF để tính tổng Revenue theo từng Category
  3. Dùng COUNTIF để đếm số đơn hàng theo từng Category
  4. Tính doanh thu trung bình mỗi đơn = Tổng Revenue / Số đơn
  5. Insight: Category nào bán chạy nhất? Category nào có giá trị trung bình/đơn cao nhất?

Insight 2 — Doanh thu theo Region (10 phút)

  1. Dùng SUMIF để tính tổng Revenue theo từng Region
  2. Dùng COUNTIF để đếm số đơn hàng theo Region
  3. So sánh tỷ lệ % đóng góp doanh thu mỗi vùng
  4. Insight: Vùng nào đóng góp doanh thu lớn nhất? Có sự chênh lệch đáng kể không?

Insight 3 — Top sản phẩm hoặc xu hướng thời gian (10 phút)

  1. Cách A — Top sản phẩm: Sort cột Revenue giảm dần → xem 10 đơn hàng lớn nhất
  2. Cách B — Xu hướng: Dùng Filter để lọc dữ liệu theo từng tháng, tính tổng Revenue
  3. Insight: Sản phẩm nào có đơn hàng lớn nhất? Doanh thu có xu hướng tăng hay giảm?

Code mẫu

📌 Tổng doanh thu toàn bộ:
=SUM(H2:H)

📌 Doanh thu trung bình mỗi đơn:
=AVERAGE(H2:H)

📌 Tổng doanh thu của Category "Electronics":
=SUMIF(E2:E, "Electronics", H2:H)

📌 Số đơn hàng của Category "Electronics":
=COUNTIF(E2:E, "Electronics")

📌 Tổng doanh thu Region "Nam":
=SUMIF(I2:I, "Nam", H2:H)

📌 Số đơn hàng Region "Nam":
=COUNTIF(I2:I, "Nam")

📌 Doanh thu trung bình đơn hàng Category "Fashion":
=AVERAGEIF(E2:E, "Fashion", H2:H)

📌 Đếm đơn hàng thanh toán bằng Momo:
=COUNTIF(J2:J, "Momo")

📌 Tổng doanh thu Q4/2025 (tháng 10-12):
=SUMIFS(H2:H, B2:B, ">="&DATE(2025,10,1), B2:B, "<="&DATE(2025,12,31))

📌 Doanh thu ở phân vị 75% (PERCENTILE):
=PERCENTILE(H2:H, 0.75)

📌 Độ lệch chuẩn của Revenue (STDEV):
=STDEV(H2:H)

Hướng dẫn Sort & Filter:

  1. Sort: Chọn toàn bộ dữ liệu → Data → Sort range → Advanced → Sort by Revenue → Z→A (giảm dần)
  2. Filter: Chọn dòng header → Data → Create a filter → Click mũi tên ▼ ở cột Category → chọn/bỏ chọn giá trị

Kết quả mong đợi

Bạn nên có bảng tổng hợp insight như sau:

#InsightSố liệu minh chứng
1Category "Electronics" đóng góp doanh thu cao nhấtVD: 850 triệu VNĐ, chiếm 35% tổng doanh thu
2Region "Nam" có nhiều đơn hàng nhấtVD: 720 đơn, chiếm 36% tổng số đơn
3Doanh thu có xu hướng tăng vào Q4 (mùa cuối năm)VD: Q4 đạt 1.2 tỷ, cao hơn TB quý 25%

Checkpoint: Bạn đã biết dùng Filter, Sort, và công thức cơ bản để tìm insight từ dữ liệu thật.


🏆 Bài tập Bonus (Nâng cao)

Dành cho bạn hoàn thành sớm hoặc muốn thử thách thêm.

Tạo Pivot Table trong Google Sheets

Pivot Table giúp tổng hợp dữ liệu nhanh mà không cần viết công thức.

Bước thực hiện:

  1. Chọn toàn bộ dữ liệu (A1:J cuối cùng)
  2. Vào Insert → Pivot table
  3. Chọn "New sheet"Create
  4. Trong Pivot Table Editor (bên phải):
    • Rows: Kéo Category vào
    • Values: Kéo Revenue vào → chọn SUM
    • Values: Kéo Order ID vào → chọn COUNTA (đếm số đơn)
  5. Thêm Columns: Kéo Region vào → bạn sẽ thấy bảng chéo Category × Region

Kết quả mong đợi:

Một bảng Pivot Table hiển thị tổng doanh thu và số đơn hàng theo Category, chia theo Region — tất cả chỉ bằng vài click chuột!

Thử thêm:

  • Thêm Filter trong Pivot Table: lọc theo Payment Method
  • Đổi Values thành AVERAGE để xem doanh thu trung bình/đơn
  • So sánh kết quả Pivot Table với công thức SUMIF ở Bài tập 3

📦 Deliverable

#DeliverableFormatMô tả
1Báo cáo khám phá datasetGoogle Sheets (chia sẻ link) hoặc PDFGồm 3 sheet: Data Profile, Business Questions, Insights

Yêu cầu chi tiết:

  • Sheet 1 — Data Profile: Bảng tổng hợp thông tin dataset (số dòng, cột, kiểu dữ liệu, giá trị min/max)
  • Sheet 2 — Business Questions: 5 câu hỏi SMART với giải thích cột liên quan
  • Sheet 3 — Insights: 3 insight với số liệu minh chứng + screenshot Filter/Sort hoặc công thức
  • Bonus: Sheet Pivot Table (nếu đã làm bài Bonus)

Cách nộp:

  1. Đặt tên file: Workshop01_HoTen_DataExploration
  2. Chia sẻ link Google Sheets (quyền "Anyone with the link can view")
  3. Hoặc xuất PDF: File → Download → PDF document

💼 Portfolio Capstone: Giữ lại file này — đây là bài đầu tiên trong portfolio Data Analytics của bạn. Ở các buổi sau, bạn sẽ tiếp tục phân tích sâu hơn trên cùng dataset hoặc dataset mở rộng.

📊 Tiêu chí chấm điểm

Tiêu chíTrọng sốMô tả chi tiết
Data Profiling đầy đủ25%Đếm đúng số dòng/cột, xác định kiểu dữ liệu, phát hiện ít nhất 1 vấn đề dữ liệu (nếu có). Sử dụng công thức COUNTA, ROWS, COUNTBLANK.
5 câu hỏi SMART25%Mỗi câu hỏi cụ thể, đo lường được, liên quan đến kinh doanh, có giới hạn thời gian. Chỉ rõ cột dữ liệu liên quan.
3 insight có số liệu30%Mỗi insight kèm con số cụ thể (VD: "Category X chiếm 35% doanh thu"). Sử dụng đúng công thức SUM/SUMIF/COUNTIF. Có screenshot minh chứng.
Trình bày rõ ràng20%File có cấu trúc, dễ đọc. Tên sheet rõ ràng. Có format bảng, màu sắc highlight. Đặt tên file đúng quy cách.

Thang điểm:

  • ⭐⭐⭐ Xuất sắc (90–100%): Hoàn thành tất cả + Bonus Pivot Table
  • ⭐⭐ Tốt (70–89%): Hoàn thành đủ 3 bài tập, insight có số liệu
  • ⭐ Đạt (50–69%): Hoàn thành Data Profiling + câu hỏi, insight chưa rõ số liệu

💡 Tips & Common Mistakes

  1. Import CSV đúng cách: Khi import, chọn đúng Separator type (Comma). Nếu dữ liệu bị dồn vào 1 cột, hãy thử lại với separator khác (Semicolon, Tab).

  2. Cẩn thận kiểu ngày tháng: Google Sheets có thể hiểu sai format ngày (MM/DD vs DD/MM). Kiểm tra bằng cách nhìn vào tháng — nếu tháng > 12 là đã bị đảo.

  3. SUMIF vs SUMIFS: SUMIF lọc theo 1 điều kiện, SUMIFS lọc theo nhiều điều kiện. Chú ý thứ tự tham số khác nhau:

    • SUMIF(range, criteria, sum_range)
    • SUMIFS(sum_range, criteria_range1, criteria1, ...)
  4. Đừng viết câu hỏi quá chung chung: ❌ "Bán hàng có tốt không?" → ✅ "Doanh thu tháng 12/2025 tăng bao nhiêu % so với tháng 11/2025?"

  5. Insight phải có số liệu: ❌ "Electronics bán chạy nhất" → ✅ "Electronics đạt 850 triệu VNĐ, chiếm 35% tổng doanh thu, gấp 1.8 lần Category thứ 2 (Fashion)."

  6. Freeze header row: Vào View → Freeze → 1 row để giữ dòng tiêu đề khi cuộn — giúp nhìn dữ liệu dễ hơn rất nhiều.

  7. Dùng Format Number cho cột tiền: Chọn cột Revenue → Format → Number → Custom number format → nhập #,##0 để hiển thị dấu phân cách hàng nghìn (1,500,000 thay vì 1500000).

📚 Tài liệu tham khảo

🔗 Xem thêm Buổi 1

📘 Nội dung chính📝 Blog🧠 Case Study🏆 Tiêu chuẩn🎮 Mini Game