Appearance
📝 Blog Buổi 2: Lương trung bình 15 triệu — nhưng bạn chỉ được 8 triệu?
Một con số trung bình có thể nói dối bạn mỗi ngày — nếu bạn không biết cách đọc nó.
🤔 Tại sao nó quan trọng?
Bạn đọc tin trên VnExpress: "Lương trung bình ngành IT tại Việt Nam đạt 15 triệu đồng/tháng."
Bạn nhìn tài khoản lương mình. 8 triệu. Tháng nào cũng 8 triệu.
Bạn tự hỏi: mình đang bị lừa, hay mình kém?
Câu trả lời: không ai lừa bạn, nhưng con số đó đang nói dối. Không phải vì nó sai — mà vì bạn đang đọc sai loại "trung bình."
Thống kê không phải chuyện của nhà khoa học hay dân IT. Nó là chuyện của bạn — mỗi ngày. Khi bạn đọc báo cáo lương trung bình, khi bạn nhìn bảng điểm trung bình lớp con, khi bạn xem biểu đồ giá nhà trung bình ở quận Bình Thạnh, khi bạn scroll qua infographic "chiều cao trung bình người Việt Nam" trên Facebook.
Mỗi lần bạn đọc chữ "trung bình" mà không hiểu nó được tính thế nào — bạn đang mù giữa thành phố đầy biển chỉ đường.
Buổi 2 này không dạy bạn trở thành nhà thống kê. Nó dạy bạn đọc đúng con số, hỏi đúng câu hỏi, và không bị lừa bởi dữ liệu trình bày sai cách. Dù bạn làm marketing, kế toán, hay bán hàng — đây là kỹ năng sống còn trong thời đại mọi thứ đều được đo bằng số.
💀 Sai lầm chết người
Tháng 6/2025, phòng HR của một startup fintech tại Quận 1 làm báo cáo lương nội bộ. Mục đích: so sánh lương team với thị trường để quyết định có tăng lương hay không.
HR intern mở file Excel. 30 nhân viên. Tính mean (trung bình cộng) lương toàn công ty: 25 triệu đồng/tháng.
"Team mình lương cao hơn thị trường rồi," HR Manager kết luận. "Không cần tăng lương năm nay."
Kết quả? 5 nhân viên nghỉ trong 3 tháng tiếp theo. Exit interview: "Lương em thấp hơn thị trường, công ty không quan tâm."
Chuyện gì đã xảy ra?
Trong 30 người, có CEO lương 200 triệu, CTO lương 150 triệu, và 2 VP lương 80 triệu mỗi người. Bốn người này kéo mean lên trời. 28 người còn lại lương từ 8 đến 18 triệu — phần lớn dưới mức thị trường.
Nếu dùng median (trung vị — con số ở giữa khi xếp từ thấp đến cao), kết quả là 12 triệu. Thấp hơn thị trường 20%.
Một con số. Hai cách tính. Hai quyết định hoàn toàn khác nhau. Một cái giữ người, một cái mất người.
Đây không phải lỗi của intern. Đây là lỗi của việc không hiểu khi nào dùng mean, khi nào dùng median. Và đây là sai lầm đang xảy ra ở hàng nghìn công ty mỗi ngày.
🧪 Ai đã làm đúng?
Netflix — ông vua của quyết định bằng dữ liệu.
Bạn có biết tại sao mỗi bộ phim trên Netflix hiển thị thumbnail khác nhau cho từng người? Vì Netflix chạy A/B testing trên hàng triệu user. Họ không đoán hình nào đẹp hơn. Họ đo.
Nhóm A thấy thumbnail diễn viên cười. Nhóm B thấy thumbnail cảnh hành động. Sau 2 tuần, Netflix so sánh click-through rate giữa hai nhóm. Nhưng họ không chỉ nhìn mean click rate — họ kiểm tra statistical significance. Nghĩa là: sự khác biệt này có thật, hay chỉ là ngẫu nhiên? Họ nhìn vào distribution của dữ liệu, kiểm tra outlier, đảm bảo kết quả không bị skew bởi một nhóm nhỏ user cuồng click.
Kết quả? Thumbnail được cá nhân hóa giúp tăng engagement lên 20–30%. Không phải nhờ trực giác designer. Nhờ thống kê.
Spotify dùng distribution data cho Spotify Wrapped — tính năng cuối năm mà ai cũng chụp màn hình share. Dữ liệu nghe nhạc của 600 triệu user không phân phối đều — một số ít nghe 10.000 bài/năm, đa số nghe 500–2.000 bài. Spotify phải hiểu skewness của dữ liệu để tạo ra những thống kê cá nhân có ý nghĩa, thay vì dùng mean và cho ra con số vô hồn.
Shopee tại Việt Nam dùng outlier detection để phát hiện fake orders. Khi một seller đột nhiên có 500 đơn hàng trong 1 giờ — trong khi trung bình chỉ 20 đơn/ngày — hệ thống flag đó là outlier. Không phải mọi outlier đều xấu, nhưng outlier trong e-commerce thường là dấu hiệu của gian lận: đơn ảo để đẩy rating, hoặc wash trading để rửa tiền. Thống kê cơ bản — chỉ cần IQR method và Z-score — đủ để bắt 80% trường hợp này.
🎯 Vậy cụ thể là làm gì?
Mean vs Median — Kẻ thù truyền kiếp
Hãy tưởng tượng bạn ngồi trong một quán cà phê với 9 người bạn. Ai cũng lương khoảng 10 triệu/tháng. Tổng lương 10 người: 100 triệu. Mean = 10 triệu. Hoàn toàn chính xác.
Bỗng Phạm Nhật Vượng bước vào quán.
Bây giờ có 11 người. Lương anh Vượng — ước tính hàng tỷ mỗi tháng. Mean lương trong quán đột nhiên nhảy lên vài trăm triệu. Nhưng lương của bạn vẫn 10 triệu. Cuộc sống bạn không thay đổi gì cả.
Đó là vấn đề của mean: nó nhạy cảm cực kỳ với outlier. Một giá trị cực lớn hoặc cực nhỏ có thể kéo mean đi xa so với thực tế.
Median thì khác. Xếp 11 người theo lương từ thấp đến cao, lấy người đứng giữa. Median vẫn là khoảng 10 triệu. Đúng hơn nhiều.
Quy tắc ngón tay cái:
- Dữ liệu phân bố đều, không có outlier → dùng mean
- Dữ liệu bị lệch (skewed), có outlier → dùng median
- Muốn biết giá trị phổ biến nhất → dùng mode
Lương? Dùng median. Giá nhà? Dùng median. Điểm thi phân bố đều? Dùng mean. Đơn giản vậy thôi, nhưng 90% báo cáo ngoài kia dùng sai.
Outlier — Kẻ phá bĩnh
Outlier là những điểm dữ liệu nằm quá xa so với phần còn lại. Giống như bạn đang đi trong đoàn 100 người leo núi, tốc độ đều nhau, bỗng có một người chạy sprint vượt lên 2km phía trước. Người đó là outlier.
Outlier không phải lúc nào cũng xấu. Nhân viên bán hàng xuất sắc nhất công ty — đó là outlier tích cực. Nhưng nếu bạn tính trung bình doanh số team mà tính cả người đó, bạn sẽ overestimate năng lực của cả team.
Hai cách phát hiện outlier phổ biến nhất:
Cách 1: IQR Method. Chia dữ liệu thành 4 phần bằng nhau (quartile). IQR = Q3 − Q1 (khoảng giữa 25% đến 75%). Bất kỳ giá trị nào nhỏ hơn Q1 − 1.5×IQR hoặc lớn hơn Q3 + 1.5×IQR → outlier. Cách này chắc chắn, không cần giả định phân phối.
Cách 2: Z-score. Tính xem mỗi điểm dữ liệu cách mean bao nhiêu standard deviation. Z-score > 3 hoặc < −3 → outlier. Cách này nhanh nhưng giả định dữ liệu gần normal distribution.
Trong kinh doanh, outlier thường là nơi câu chuyện thú vị nhất ẩn nấp. Đơn hàng bất thường → có thể là gian lận. Doanh thu đột biến → có thể là chiến dịch viral. Luôn kiểm tra outlier trước khi kết luận — đó là thói quen của DA giỏi.
Hypothesis — Đặt cược có căn cứ
Bạn có bao giờ cá cược với bạn bè chưa? "Tao cá 50k là đội Việt Nam thắng." Đó là hypothesis — nhưng không có căn cứ.
Trong data analytics, hypothesis testing giống đặt cược nhưng bạn có data để chứng minh.
Null Hypothesis (H₀): "Không có sự khác biệt." Ví dụ: "Thumbnail mới không ảnh hưởng đến click rate."
Alternative Hypothesis (H₁): "Có sự khác biệt." Ví dụ: "Thumbnail mới làm tăng click rate."
Bạn thu thập data, chạy test, rồi xem data ủng hộ H₀ hay H₁. Nếu data đủ mạnh để bác bỏ H₀ → bạn chấp nhận H₁. Netflix làm đúng chuyện này mỗi ngày cho hàng nghìn A/B test.
Nhưng data từ đâu ra? Bạn không thể khảo sát 100 triệu user. Bạn lấy sample (mẫu) từ population (tổng thể). Cách lấy sample quyết định kết quả có đáng tin hay không:
- Random sampling — chọn ngẫu nhiên, ai cũng có cơ hội bằng nhau
- Stratified sampling — chia nhóm (theo tuổi, vùng miền) rồi chọn ngẫu nhiên trong từng nhóm
- Systematic sampling — chọn theo khoảng cách đều (mỗi người thứ 5)
Lấy sample sai → kết quả sai → quyết định sai. Đó gọi là bias — con quỷ thầm lặng giết chết mọi phân tích.
Distribution — Hình dáng dữ liệu
Nếu bạn đo chiều cao của 10.000 người Việt Nam rồi vẽ biểu đồ, bạn sẽ thấy một đường cong hình chuông. Đa số người cao khoảng 160–170cm. Rất ít người dưới 140cm hay trên 190cm. Đó là normal distribution — quả chuông nhà thờ của thống kê.
Normal distribution xuất hiện khắp nơi: điểm thi, cân nặng, thời gian giao hàng, lượt xem video. Khi dữ liệu tuân theo phân phối chuẩn, mean = median = mode, và mọi thứ đều gọn gàng.
Nhưng đời không phải lúc nào cũng đẹp như chuông nhà thờ.
Skewness (độ lệch) xảy ra khi quả chuông bị méo:
- Right-skewed (lệch phải): đuôi dài bên phải. Ví dụ: phân phối lương — đa số lương thấp, ít người lương cực cao. Mean > Median.
- Left-skewed (lệch trái): đuôi dài bên trái. Ví dụ: tuổi nghỉ hưu — đa số nghỉ ở 60, ít người nghỉ sớm ở 40.
Kurtosis cho bạn biết quả chuông nhọn hay bẹt. Nhọn = dữ liệu tập trung quanh mean. Bẹt = dữ liệu trải đều. Thực tế, bạn chỉ cần nhớ: nhìn hình dáng distribution trước khi chọn metric. Nếu skewed → đừng dùng mean.
🏪 Câu chuyện thực tế
Minh, 30 tuổi, Marketing Manager tại một startup e-commerce bán mỹ phẩm ở TP.HCM.
Tháng 1/2026, sếp gọi Minh vào phòng họp. "Minh ơi, lương team marketing mình so với thị trường thế nào? HR báo lương trung bình team mình 18 triệu, cao hơn thị trường rồi. Nhưng mấy đứa cứ kêu thấp. Em kiểm tra lại xem."
Minh mở file lương team — 12 người. Hầu hết lương từ 10 đến 15 triệu. Nhưng có Minh (30 triệu) và trưởng nhóm content (25 triệu). Mean = 18 triệu. Đúng số HR báo.
Nhưng Minh nhớ lại bài học thống kê. Mình sắp xếp lương từ thấp đến cao. Median = 13 triệu. Thị trường? Khoảng 14–15 triệu cho marketing tại startup e-commerce ở TP.HCM.
"Sếp ơi, lương trung vị team mình chỉ 13 triệu — thấp hơn thị trường 10–15%. Mean bị kéo lên vì lương quản lý. Nếu không điều chỉnh, mình có risk mất người."
Sếp gật đầu. Đợt review lương quý 2 được đẩy lên sớm.
Nhưng câu chuyện chưa dừng ở đó.
Tuần sau, sếp lại gọi: "Doanh thu tháng 12 tăng 40% so với tháng 11. Team marketing làm tốt lắm!"
Minh vui. Nhưng bản năng DA bắt đầu hỏi: tăng ở đâu? Minh mở data đơn hàng chi tiết. Lọc theo seller. Và phát hiện điều kỳ lạ.
Một seller mới — đăng ký chỉ 2 tuần — có 800 đơn hàng. Trung bình mỗi seller mới chỉ có 15–30 đơn trong tháng đầu. 800 đơn nằm xa ngoài Q3 + 1.5×IQR. Z-score hơn 4.
Outlier.
Minh đào sâu hơn. 800 đơn hàng, nhưng 750 đơn bị hủy hoặc hoàn tiền trong 48 giờ. Địa chỉ giao hàng lặp lại 3 địa chỉ. Tên người nhận rất giống nhau.
Fake orders. Seller này đang tạo đơn ảo để đẩy rating và xuất hiện trên trang chủ.
Minh báo cho team operations. Seller bị khóa. Doanh thu "thật" tháng 12? Tăng 12% — vẫn tốt, nhưng không phải 40% như ban đầu.
Nếu Minh chỉ dùng mean và nhìn tổng, sếp sẽ báo cáo board "tăng trưởng 40%," rồi đặt target quý sau dựa trên con số ảo. Cả team sẽ chạy theo một mục tiêu bất khả thi.
Một buổi chiều. Một file Excel. Hai phát hiện — lương và fake orders — cứu cả team khỏi hai quyết định sai.
Không cần Python. Không cần machine learning. Chỉ cần hiểu mean vs median và biết cách spot outlier.
💡 Bài học rút ra
🔢 Mean không phải lúc nào cũng đúng — Khi dữ liệu bị skewed hoặc có outlier, median cho bạn bức tranh chính xác hơn. Đừng tin con số "trung bình" trên báo chí mà không hỏi: trung bình nào?
🕵️ Outlier là nơi câu chuyện bắt đầu — Đừng vội loại bỏ outlier. Hãy hỏi tại sao nó tồn tại. Có thể đó là gian lận, có thể là cơ hội, có thể là lỗi dữ liệu. Nhưng luôn kiểm tra.
🔔 Nhìn distribution trước khi chọn metric — Dữ liệu hình chuông nhà thờ dùng mean. Dữ liệu lệch dùng median. Quy tắc đơn giản nhưng cứu mạng.
❓ Đặt câu hỏi đúng quan trọng hơn tính toán giỏi — "Doanh thu tăng 40%" nghe hay, nhưng "tăng ở đâu, do ai, có bền không?" mới là câu hỏi tạo ra giá trị.
🧪 Hypothesis không phải đoán mò — Đặt giả thuyết, thu thập data, kiểm chứng. Giống như bác sĩ không kê thuốc trước khi xét nghiệm. Data Analyst cũng vậy.
🤓 Muốn tìm hiểu thêm?
- 📚 Khan Academy — Statistics & Probability — Miễn phí, giải thích từ zero, có bài tập thực hành.
- 🎥 StatQuest with Josh Starmer — Giải thích mean, median, standard deviation, distribution bằng hình ảnh vui nhộn.
- 📖 Naked Statistics — Charles Wheelan — Cuốn sách biến thống kê thành câu chuyện hấp dẫn, ai đọc cũng hiểu.
- 📊 Seeing Theory — Trực quan hóa các khái niệm thống kê bằng interactive visualization.
- 🇻🇳 DataỖi — Blog tiếng Việt — Cộng đồng chia sẻ kiến thức data analytics bằng tiếng Việt, nhiều ví dụ thực tế VN.
🔗 Xem thêm Buổi 2
→ 📘 Nội dung chính → 🧠 Case Study → 🏆 Tiêu chuẩn → 🛠 Workshop → 🎮 Mini Game