Data Insights

6 Sự Thật Gây Ngạc Nhiên Về Dữ Liệu

Thế giới tràn ngập con số, nhưng hiểu chúng không đơn giản. Những sự thật này sẽ thay đổi cách bạn nhìn nhận dữ liệu mãi mãi.

1

Chúng ta luôn "đoán mò"

Thống kê thực tế giống công việc của thám tử hơn là nhà toán học. Chúng ta thu thập manh mối (dữ liệu) để suy luận về một "sự thật" mà ta không bao giờ thấy trực tiếp.

Chúng ta chỉ đang có một "cái nhìn thoáng qua" (a glimpse) về sự thật, không phải là toàn bộ sự thật.

2

"Rác đầu vào, Rác đầu ra"

Phân tích dựa trên dữ liệu kém chất lượng chắc chắn sẽ gây hiểu lầm. Chìa khóa là mẫu đại diện.

Sai lầm

Công ty có 3 máy, chỉ kiểm tra 2 máy.
-> Kết luận sai lệch.

Đúng đắn

Luôn hỏi: "Dữ liệu này có đại diện cho tổng thể không?"

3

Biểu đồ có thể nói dối

Sức mạnh hình ảnh có thể bị lạm dụng. Hai cạm bẫy phổ biến nhất:

Trục bị cắt ngắn

Không bắt đầu từ 0 -> Phóng đại sự khác biệt nhỏ.

Độ rộng cột (Histogram)

Giống lấy nét máy ảnh. Quá rộng = mờ. Quá hẹp = nhiễu.

4

Vấn đề với "Trung bình"

Con số "Trung bình" (Mean) thường bị lạm dụng. Hãy xem xét trường hợp lương bổng.

Siêu sao

Một siêu sao kéo giá trị trung bình lên cao vút.

Mean
Gây hiểu lầm
Median
Đại diện tốt hơn
5

Đừng vội loại bỏ kẻ khác biệt

Giá trị ngoại lai (Outlier)

Đừng chỉ muốn "làm sạch" dữ liệu. Một điểm ngoại lai có thể là:

  • Lỗi ghi chép (Sửa chữa)
  • Khám phá quan trọng (Điều tra ngay!)
6

Voi và Chuột

Loài nào có cân nặng biến động nhiều hơn? Câu trả lời phụ thuộc vào cách bạn đo.

Voi
Độ lệch chuẩn lớn
CV = 0.033
Chuột
Độ lệch chuẩn nhỏ
CV = 0.056
Hệ số biến thiên (CV) cho thấy chuột biến thiên nhiều hơn so với kích thước của chúng.

Kết luận

Hiểu dữ liệu là một cuộc đối thoại tích cực, không phải bài tập thụ động. Hãy luôn đặt câu hỏi và tìm kiếm câu chuyện ẩn sau những con số.

Lần tới khi nghe về một con số "trung bình", bạn sẽ hỏi gì đầu tiên?