4 Bí Mật Thống Kê
Từ cách chia cho n-1 đến lý do dữ liệu nhiều hơn không phải lúc nào cũng tốt hơn.
Thế giới thống kê ẩn chứa những sự thật đáng ngạc nhiên, đôi khi phản trực giác. Bài viết này sẽ vén màn những bí mật cốt lõi sẽ thay đổi vĩnh viễn cách bạn nhìn nhận dữ liệu.
Thông số vs Thống kê
Trong ngôn ngữ hàng ngày, chúng giống nhau. Trong dữ liệu, chúng là hai thế giới khác biệt. Mục tiêu của suy luận thống kê là dùng cái đã biết (Thống kê) để đoán cái chưa biết (Thông số).
Thông số (Parameter)
- Đặc tính của toàn bộ tổng thể.
- Thường là ẩn số (không thể đo hết mọi người).
- Ví dụ: Chiều cao TB thật sự của mọi nam giới VN (\(\mu\)).
- Ví dụ: Hương vị của cả nồi súp.
Thống kê (Statistic)
- Đặc tính của mẫu đã thu thập.
- Là con số cụ thể, đã biết.
- Ví dụ: Chiều cao TB của 100 người bạn đo (\(\bar{x}\)).
- Ví dụ: Hương vị của một muỗng súp.
Bí ẩn của n-1
Tại sao tính phương sai mẫu lại chia cho \(n-1\) thay vì \(n\)? Câu trả lời nằm ở khái niệm Ước lượng không chệch (Unbiased Estimate).
Nếu chia cho \(n\), phương sai mẫu trung bình sẽ luôn nhỏ hơn phương sai thật của tổng thể. Việc chia cho \(n-1\) "bù đắp" cho sự thiếu hụt này, biến \(S^2\) thành ước lượng không chệch cho \(\sigma^2\).
Lợi ích giảm dần của dữ liệu
Gấp đôi công sức không có nghĩa là gấp đôi độ chính xác. Sai số chuẩn giảm theo căn bậc hai của kích thước mẫu (\(\sqrt{n}\)).
Tình huống I
Mẫu nhỏTình huống II
Mẫu lớn x10Khi "Lệch" lại tốt hơn
Đôi khi, một ước lượng bị chệch (Bias) nhưng ổn định (Variance thấp) lại tốt hơn một ước lượng không chệch nhưng dao động quá lớn. Đây là khái niệm Sai số bình phương trung bình (MSE).
Chất lượng = Độ phân tán + Độ lệch
Cung thủ A
Trung bình thì trúng tâm, nhưng các mũi tên phân tán quá rộng (Phương sai lớn).
Cung thủ B
Hơi lệch tâm, nhưng các mũi tên tụ lại rất chặt (Phương sai thấp). MSE thấp hơn.
Trong Machine Learning: Đôi khi chấp nhận một mô hình hơi "chệch" để tránh Overfitting (học vẹt).
Nhìn xa hơn những con số
Hiểu rõ những khái niệm này giúp chúng ta trở thành những người tiêu thụ thông tin thông thái. Lần tới khi bạn thấy một con số thống kê, đừng chỉ nhìn kết quả, hãy hỏi về cỡ mẫu và cách tính.