Appearance
🛠 Workshop Buổi 1: Khám phá dataset đầu tiên
Mở dataset thật, đặt câu hỏi kinh doanh, tìm insight đầu tiên — tất cả bằng Google Sheets!
🎯 Mục tiêu
Sau khi hoàn thành workshop này, bạn sẽ:
- Thực hiện Data Profiling — mở một dataset thật, đếm số dòng/cột, xác định kiểu dữ liệu và phát hiện vấn đề dữ liệu cơ bản
- Đặt được 5 câu hỏi SMART — áp dụng Google Analytics Framework (Ask) để viết câu hỏi kinh doanh rõ ràng, đo lường được
- Tìm được 3 insight sơ bộ — sử dụng Filter, Sort, SUM, AVERAGE, COUNTIF, SUMIF để rút ra nhận định có số liệu minh chứng
- Trình bày kết quả — tổng hợp thành báo cáo 1 trang với screenshot, sẵn sàng đưa vào portfolio Capstone
🧰 Công cụ & Setup
| Công cụ | Phiên bản | Ghi chú |
|---|---|---|
| Google Sheets | Web (02/2026) | Miễn phí, cần tài khoản Google |
| Trình duyệt | Chrome / Edge mới nhất | Khuyến nghị Chrome để tương thích tốt nhất |
| Dataset mẫu | CSV | Tải từ link bên dưới hoặc Kaggle |
Setup trước buổi học:
- Đăng nhập Google Account tại sheets.google.com
- Tải dataset mẫu (file CSV) từ link được cung cấp
- Vào Google Sheets → File → Import → Upload → chọn file CSV
- Chọn "Replace spreadsheet" → Import data
📦 Dataset
- Name: Online Sales Dataset (Superstore-style)
- Source: Kaggle / Dataset mẫu do giảng viên cung cấp
- Rows: ~2.000 đơn hàng (đủ lớn để phân tích, đủ nhỏ để xử lý trên Sheets)
- Columns: 10 cột
- Thời gian: Dữ liệu bán hàng 12 tháng (01/2025 – 12/2025)
- Ngữ cảnh: Một cửa hàng bán lẻ online tại Việt Nam, bán đa danh mục sản phẩm qua nhiều kênh thanh toán
| Cột | Kiểu dữ liệu | Mô tả | Ví dụ |
|---|---|---|---|
| Order ID | string | Mã đơn hàng duy nhất | ORD-0001 |
| Order Date | date | Ngày đặt hàng (DD/MM/YYYY) | 15/03/2025 |
| Customer Name | string | Tên khách hàng | Nguyễn Văn A |
| Product | string | Tên sản phẩm | Tai nghe Bluetooth X1 |
| Category | string | Danh mục sản phẩm (5 loại) | Electronics, Fashion, Home, Books, Sports |
| Quantity | int | Số lượng mua | 2 |
| Unit Price | float | Đơn giá (VNĐ) | 350000 |
| Revenue | float | Doanh thu = Quantity × Unit Price | 700000 |
| Region | string | Khu vực giao hàng (4 vùng) | Bắc, Trung, Nam, Tây Nguyên |
| Payment Method | string | Phương thức thanh toán | COD, Momo, Bank Transfer, Credit Card |
⏱️ Thời lượng
| Phần | Thời gian | Nội dung |
|---|---|---|
| Hướng dẫn & Setup | 15 phút | Giới thiệu dataset, import vào Google Sheets |
| Bài tập 1: Data Profiling | 15 phút | Khám phá cấu trúc dataset |
| Bài tập 2: Câu hỏi SMART | 15 phút | Đặt 5 câu hỏi kinh doanh |
| Bài tập 3: Tìm insight | 15 phút | Filter, Sort, công thức cơ bản |
| Review & Feedback | 15 phút | Trình bày, nhận xét chéo |
| Tổng | 75 phút |
Bài tập 1: Khám phá dataset — Data Profiling
Hướng dẫn
Data Profiling là bước đầu tiên khi nhận bất kỳ dataset nào. Mục tiêu: hiểu dữ liệu trước khi phân tích.
Bước 1 — Quan sát tổng quan (2 phút)
- Mở file đã import trong Google Sheets
- Cuộn nhanh từ trên xuống dưới để "cảm nhận" dữ liệu
- Nhìn dòng đầu tiên (header) — đây là tên các cột
Bước 2 — Đếm kích thước dataset (3 phút)
- Đếm tổng số dòng (rows) — mỗi dòng là một đơn hàng
- Đếm tổng số cột (columns) — mỗi cột là một thuộc tính
- Ghi lại vào ô trống hoặc sheet mới
Bước 3 — Xác định kiểu dữ liệu (5 phút)
- Với mỗi cột, xác định: string (văn bản), number (số), date (ngày tháng)
- Kiểm tra cột nào là categorical (có số lượng giá trị giới hạn, ví dụ: Category, Region)
- Kiểm tra cột nào là numerical (giá trị liên tục, ví dụ: Revenue, Quantity)
Bước 4 — Phát hiện vấn đề dữ liệu (5 phút)
- Có ô nào bị trống (missing value) không?
- Có giá trị nào bất thường không? (Revenue âm, Quantity = 0, ngày không hợp lệ)
- Dữ liệu đã được sắp xếp theo thứ tự nào chưa?
Code mẫu / Hướng dẫn thao tác
Tạo một sheet mới tên "Data Profile" và nhập các công thức sau:
📌 Đếm tổng số dòng dữ liệu (không tính header):
=ROWS(A2:A) — hoặc chính xác hơn:
=COUNTA(A2:A)
📌 Đếm tổng số cột:
=COLUMNS(A1:J1)
📌 Đếm số giá trị duy nhất (unique) của cột Category:
=COUNTA(UNIQUE(E2:E))
📌 Đếm số giá trị duy nhất của cột Region:
=COUNTA(UNIQUE(I2:I))
📌 Đếm ô trống trong cột Revenue:
=COUNTBLANK(H2:H)
📌 Tìm giá trị nhỏ nhất và lớn nhất của Revenue:
=MIN(H2:H)
=MAX(H2:H)
📌 Đếm số giá trị duy nhất của Payment Method:
=COUNTA(UNIQUE(J2:J))Kết quả mong đợi
Bạn nên có một bảng tổng hợp Data Profile như sau:
| Thông tin | Giá trị |
|---|---|
| Tổng số dòng | ~2.000 |
| Tổng số cột | 10 |
| Số Category | 5 |
| Số Region | 4 |
| Số Payment Method | 4 |
| Revenue nhỏ nhất | ~50.000 VNĐ |
| Revenue lớn nhất | ~5.000.000 VNĐ |
| Số ô trống (Revenue) | 0 (hoặc vài ô nếu dataset có lỗi) |
✅ Checkpoint: Bạn đã hiểu cấu trúc cơ bản của dataset — kích thước, kiểu dữ liệu, giá trị phân loại.
Bài tập 2: Đặt câu hỏi kinh doanh (Ask)
Hướng dẫn
Áp dụng Google Analytics Framework — giai đoạn Ask và nguyên tắc SMART Questions:
| SMART | Ý nghĩa | Ví dụ |
|---|---|---|
| Specific | Cụ thể, rõ ràng | ❌ "Bán hàng tốt không?" → ✅ "Doanh thu tháng nào cao nhất?" |
| Measurable | Đo lường được | Câu hỏi phải trả lời bằng con số |
| Action-oriented | Hướng đến hành động | Kết quả giúp ra quyết định |
| Relevant | Liên quan đến mục tiêu kinh doanh | Gắn với tăng doanh thu, giảm chi phí, cải thiện trải nghiệm |
| Time-bound | Có giới hạn thời gian | Chỉ rõ khoảng thời gian phân tích |
Bước 1 — Brainstorm (5 phút)
- Nhìn vào 10 cột dữ liệu, nghĩ xem: "Nếu là chủ cửa hàng, tôi muốn biết gì?"
- Viết ra ít nhất 7–8 câu hỏi
Bước 2 — Chọn lọc & SMART hóa (5 phút)
- Chọn 5 câu hỏi tốt nhất
- Kiểm tra từng câu theo 5 tiêu chí SMART
- Viết lại cho rõ ràng
Bước 3 — Ghi lại (5 phút)
- Tạo sheet mới tên "Business Questions"
- Ghi 5 câu hỏi vào bảng với cột: STT, Câu hỏi, Cột liên quan, S-M-A-R-T check
Code mẫu
Dưới đây là 5 câu hỏi SMART mẫu (bạn cần tự viết câu hỏi của riêng mình):
| # | Câu hỏi SMART | Cột liên quan |
|---|---|---|
| 1 | Tổng doanh thu (Revenue) của cửa hàng trong cả năm 2025 là bao nhiêu? | Revenue, Order Date |
| 2 | Danh mục sản phẩm (Category) nào đóng góp doanh thu cao nhất trong năm 2025? | Category, Revenue |
| 3 | Khu vực (Region) nào có số lượng đơn hàng nhiều nhất trong Q4/2025? | Region, Order Date |
| 4 | Phương thức thanh toán (Payment Method) nào được khách hàng sử dụng phổ biến nhất? | Payment Method |
| 5 | Tháng nào trong năm 2025 có doanh thu cao nhất, và cao hơn trung bình bao nhiêu %? | Order Date, Revenue |
Kết quả mong đợi
- Sheet "Business Questions" với bảng 5 câu hỏi
- Mỗi câu hỏi thỏa mãn ít nhất 4/5 tiêu chí SMART
- Mỗi câu hỏi chỉ rõ cột dữ liệu nào cần dùng để trả lời
✅ Checkpoint: Bạn đã biết cách chuyển từ "tò mò chung chung" sang câu hỏi phân tích cụ thể.
Bài tập 3: Tìm insight sơ bộ
Hướng dẫn
Bây giờ hãy trả lời một vài câu hỏi bằng công cụ cơ bản trong Google Sheets: Filter, Sort, và các hàm tính toán.
Insight 1 — Doanh thu theo Category (10 phút)
- Tạo sheet mới tên "Insights"
- Dùng
SUMIFđể tính tổng Revenue theo từng Category - Dùng
COUNTIFđể đếm số đơn hàng theo từng Category - Tính doanh thu trung bình mỗi đơn = Tổng Revenue / Số đơn
- Insight: Category nào bán chạy nhất? Category nào có giá trị trung bình/đơn cao nhất?
Insight 2 — Doanh thu theo Region (10 phút)
- Dùng
SUMIFđể tính tổng Revenue theo từng Region - Dùng
COUNTIFđể đếm số đơn hàng theo Region - So sánh tỷ lệ % đóng góp doanh thu mỗi vùng
- Insight: Vùng nào đóng góp doanh thu lớn nhất? Có sự chênh lệch đáng kể không?
Insight 3 — Top sản phẩm hoặc xu hướng thời gian (10 phút)
- Cách A — Top sản phẩm: Sort cột Revenue giảm dần → xem 10 đơn hàng lớn nhất
- Cách B — Xu hướng: Dùng Filter để lọc dữ liệu theo từng tháng, tính tổng Revenue
- Insight: Sản phẩm nào có đơn hàng lớn nhất? Doanh thu có xu hướng tăng hay giảm?
Code mẫu
📌 Tổng doanh thu toàn bộ:
=SUM(H2:H)
📌 Doanh thu trung bình mỗi đơn:
=AVERAGE(H2:H)
📌 Tổng doanh thu của Category "Electronics":
=SUMIF(E2:E, "Electronics", H2:H)
📌 Số đơn hàng của Category "Electronics":
=COUNTIF(E2:E, "Electronics")
📌 Tổng doanh thu Region "Nam":
=SUMIF(I2:I, "Nam", H2:H)
📌 Số đơn hàng Region "Nam":
=COUNTIF(I2:I, "Nam")
📌 Doanh thu trung bình đơn hàng Category "Fashion":
=AVERAGEIF(E2:E, "Fashion", H2:H)
📌 Đếm đơn hàng thanh toán bằng Momo:
=COUNTIF(J2:J, "Momo")
📌 Tổng doanh thu Q4/2025 (tháng 10-12):
=SUMIFS(H2:H, B2:B, ">="&DATE(2025,10,1), B2:B, "<="&DATE(2025,12,31))
📌 Doanh thu ở phân vị 75% (PERCENTILE):
=PERCENTILE(H2:H, 0.75)
📌 Độ lệch chuẩn của Revenue (STDEV):
=STDEV(H2:H)Hướng dẫn Sort & Filter:
- Sort: Chọn toàn bộ dữ liệu → Data → Sort range → Advanced → Sort by Revenue → Z→A (giảm dần)
- Filter: Chọn dòng header → Data → Create a filter → Click mũi tên ▼ ở cột Category → chọn/bỏ chọn giá trị
Kết quả mong đợi
Bạn nên có bảng tổng hợp insight như sau:
| # | Insight | Số liệu minh chứng |
|---|---|---|
| 1 | Category "Electronics" đóng góp doanh thu cao nhất | VD: 850 triệu VNĐ, chiếm 35% tổng doanh thu |
| 2 | Region "Nam" có nhiều đơn hàng nhất | VD: 720 đơn, chiếm 36% tổng số đơn |
| 3 | Doanh thu có xu hướng tăng vào Q4 (mùa cuối năm) | VD: Q4 đạt 1.2 tỷ, cao hơn TB quý 25% |
✅ Checkpoint: Bạn đã biết dùng Filter, Sort, và công thức cơ bản để tìm insight từ dữ liệu thật.
🏆 Bài tập Bonus (Nâng cao)
Dành cho bạn hoàn thành sớm hoặc muốn thử thách thêm.
Tạo Pivot Table trong Google Sheets
Pivot Table giúp tổng hợp dữ liệu nhanh mà không cần viết công thức.
Bước thực hiện:
- Chọn toàn bộ dữ liệu (A1:J cuối cùng)
- Vào Insert → Pivot table
- Chọn "New sheet" → Create
- Trong Pivot Table Editor (bên phải):
- Rows: Kéo
Categoryvào - Values: Kéo
Revenuevào → chọn SUM - Values: Kéo
Order IDvào → chọn COUNTA (đếm số đơn)
- Rows: Kéo
- Thêm Columns: Kéo
Regionvào → bạn sẽ thấy bảng chéo Category × Region
Kết quả mong đợi:
Một bảng Pivot Table hiển thị tổng doanh thu và số đơn hàng theo Category, chia theo Region — tất cả chỉ bằng vài click chuột!
Thử thêm:
- Thêm Filter trong Pivot Table: lọc theo Payment Method
- Đổi Values thành AVERAGE để xem doanh thu trung bình/đơn
- So sánh kết quả Pivot Table với công thức SUMIF ở Bài tập 3
📦 Deliverable
| # | Deliverable | Format | Mô tả |
|---|---|---|---|
| 1 | Báo cáo khám phá dataset | Google Sheets (chia sẻ link) hoặc PDF | Gồm 3 sheet: Data Profile, Business Questions, Insights |
Yêu cầu chi tiết:
- Sheet 1 — Data Profile: Bảng tổng hợp thông tin dataset (số dòng, cột, kiểu dữ liệu, giá trị min/max)
- Sheet 2 — Business Questions: 5 câu hỏi SMART với giải thích cột liên quan
- Sheet 3 — Insights: 3 insight với số liệu minh chứng + screenshot Filter/Sort hoặc công thức
- Bonus: Sheet Pivot Table (nếu đã làm bài Bonus)
Cách nộp:
- Đặt tên file:
Workshop01_HoTen_DataExploration - Chia sẻ link Google Sheets (quyền "Anyone with the link can view")
- Hoặc xuất PDF: File → Download → PDF document
💼 Portfolio Capstone: Giữ lại file này — đây là bài đầu tiên trong portfolio Data Analytics của bạn. Ở các buổi sau, bạn sẽ tiếp tục phân tích sâu hơn trên cùng dataset hoặc dataset mở rộng.
📊 Tiêu chí chấm điểm
| Tiêu chí | Trọng số | Mô tả chi tiết |
|---|---|---|
| Data Profiling đầy đủ | 25% | Đếm đúng số dòng/cột, xác định kiểu dữ liệu, phát hiện ít nhất 1 vấn đề dữ liệu (nếu có). Sử dụng công thức COUNTA, ROWS, COUNTBLANK. |
| 5 câu hỏi SMART | 25% | Mỗi câu hỏi cụ thể, đo lường được, liên quan đến kinh doanh, có giới hạn thời gian. Chỉ rõ cột dữ liệu liên quan. |
| 3 insight có số liệu | 30% | Mỗi insight kèm con số cụ thể (VD: "Category X chiếm 35% doanh thu"). Sử dụng đúng công thức SUM/SUMIF/COUNTIF. Có screenshot minh chứng. |
| Trình bày rõ ràng | 20% | File có cấu trúc, dễ đọc. Tên sheet rõ ràng. Có format bảng, màu sắc highlight. Đặt tên file đúng quy cách. |
Thang điểm:
- ⭐⭐⭐ Xuất sắc (90–100%): Hoàn thành tất cả + Bonus Pivot Table
- ⭐⭐ Tốt (70–89%): Hoàn thành đủ 3 bài tập, insight có số liệu
- ⭐ Đạt (50–69%): Hoàn thành Data Profiling + câu hỏi, insight chưa rõ số liệu
💡 Tips & Common Mistakes
Import CSV đúng cách: Khi import, chọn đúng Separator type (Comma). Nếu dữ liệu bị dồn vào 1 cột, hãy thử lại với separator khác (Semicolon, Tab).
Cẩn thận kiểu ngày tháng: Google Sheets có thể hiểu sai format ngày (MM/DD vs DD/MM). Kiểm tra bằng cách nhìn vào tháng — nếu tháng > 12 là đã bị đảo.
SUMIF vs SUMIFS:
SUMIFlọc theo 1 điều kiện,SUMIFSlọc theo nhiều điều kiện. Chú ý thứ tự tham số khác nhau:SUMIF(range, criteria, sum_range)SUMIFS(sum_range, criteria_range1, criteria1, ...)
Đừng viết câu hỏi quá chung chung: ❌ "Bán hàng có tốt không?" → ✅ "Doanh thu tháng 12/2025 tăng bao nhiêu % so với tháng 11/2025?"
Insight phải có số liệu: ❌ "Electronics bán chạy nhất" → ✅ "Electronics đạt 850 triệu VNĐ, chiếm 35% tổng doanh thu, gấp 1.8 lần Category thứ 2 (Fashion)."
Freeze header row: Vào View → Freeze → 1 row để giữ dòng tiêu đề khi cuộn — giúp nhìn dữ liệu dễ hơn rất nhiều.
Dùng Format Number cho cột tiền: Chọn cột Revenue → Format → Number → Custom number format → nhập
#,##0để hiển thị dấu phân cách hàng nghìn (1,500,000 thay vì 1500000).
📚 Tài liệu tham khảo
- Google Analytics Certificate — Ask Questions (Coursera) — Khóa gốc từ Google về giai đoạn Ask
- Google Sheets Function List — Danh sách đầy đủ các hàm Google Sheets
- Kaggle — Sample Sales Datasets — Tìm kiếm "online sales" hoặc "superstore" để tải dataset tương tự
- SMART Questions for Data Analysis (Google) — Video giải thích framework SMART
🔗 Xem thêm Buổi 1
→ 📘 Nội dung chính → 📝 Blog → 🧠 Case Study → 🏆 Tiêu chuẩn → 🎮 Mini Game