6 Sự Thật Gây Ngạc Nhiên Về Dữ Liệu
Thế giới tràn ngập con số, nhưng hiểu chúng không đơn giản. Những sự thật này sẽ thay đổi cách bạn nhìn nhận dữ liệu mãi mãi.
Chúng ta luôn "đoán mò"
Thống kê thực tế giống công việc của thám tử hơn là nhà toán học. Chúng ta thu thập manh mối (dữ liệu) để suy luận về một "sự thật" mà ta không bao giờ thấy trực tiếp.
Chúng ta chỉ đang có một "cái nhìn thoáng qua" (a glimpse) về sự thật, không phải là toàn bộ sự thật.
"Rác đầu vào, Rác đầu ra"
Phân tích dựa trên dữ liệu kém chất lượng chắc chắn sẽ gây hiểu lầm. Chìa khóa là mẫu đại diện.
Sai lầm
Công ty có 3 máy, chỉ kiểm tra 2 máy.
-> Kết luận sai lệch.
Đúng đắn
Luôn hỏi: "Dữ liệu này có đại diện cho tổng thể không?"
Biểu đồ có thể nói dối
Sức mạnh hình ảnh có thể bị lạm dụng. Hai cạm bẫy phổ biến nhất:
Trục bị cắt ngắn
Không bắt đầu từ 0 -> Phóng đại sự khác biệt nhỏ.
Độ rộng cột (Histogram)
Giống lấy nét máy ảnh. Quá rộng = mờ. Quá hẹp = nhiễu.
Vấn đề với "Trung bình"
Con số "Trung bình" (Mean) thường bị lạm dụng. Hãy xem xét trường hợp lương bổng.
Một siêu sao kéo giá trị trung bình lên cao vút.
Gây hiểu lầm
Đại diện tốt hơn
Đừng vội loại bỏ kẻ khác biệt
Giá trị ngoại lai (Outlier)
Đừng chỉ muốn "làm sạch" dữ liệu. Một điểm ngoại lai có thể là:
- Lỗi ghi chép (Sửa chữa)
- Khám phá quan trọng (Điều tra ngay!)
Voi và Chuột
Loài nào có cân nặng biến động nhiều hơn? Câu trả lời phụ thuộc vào cách bạn đo.
Kết luận
Hiểu dữ liệu là một cuộc đối thoại tích cực, không phải bài tập thụ động. Hãy luôn đặt câu hỏi và tìm kiếm câu chuyện ẩn sau những con số.
Lần tới khi nghe về một con số "trung bình", bạn sẽ hỏi gì đầu tiên?