STATISTICS UNLOCKED

4 Bí Mật Thống Kê

Từ cách chia cho n-1 đến lý do dữ liệu nhiều hơn không phải lúc nào cũng tốt hơn.

Thế giới thống kê ẩn chứa những sự thật đáng ngạc nhiên, đôi khi phản trực giác. Bài viết này sẽ vén màn những bí mật cốt lõi sẽ thay đổi vĩnh viễn cách bạn nhìn nhận dữ liệu.

Thông số vs Thống kê

Trong ngôn ngữ hàng ngày, chúng giống nhau. Trong dữ liệu, chúng là hai thế giới khác biệt. Mục tiêu của suy luận thống kê là dùng cái đã biết (Thống kê) để đoán cái chưa biết (Thông số).

Thông số (Parameter)

Đặc tính của toàn bộ tổng thể.
Thường là ẩn số (không thể đo hết mọi người).
Ví dụ: Chiều cao TB thật sự của mọi nam giới VN (\(\mu\)).
Ví dụ: Hương vị của cả nồi súp.

Thống kê (Statistic)

Đặc tính của mẫu đã thu thập.
Là con số cụ thể, đã biết.
Ví dụ: Chiều cao TB của 100 người bạn đo (\(\bar{x}\)).
Ví dụ: Hương vị của một muỗng súp.

"Bạn nếm một muỗng (Thống kê) để suy ra vị của cả nồi (Thông số)."

Bí ẩn của n-1

Tại sao tính phương sai mẫu lại chia cho \(n-1\) thay vì \(n\)? Câu trả lời nằm ở khái niệm Ước lượng không chệch (Unbiased Estimate).

Nếu chia cho n

Bị Chệch (Biased)

Kết quả nhỏ hơn thực tế

Sửa lỗi: \(- \sigma^2/n\)

Chia cho \(n-1\)

Kết quả

Không Chệch

\(E(\hat{\theta}) = \theta\)

Nếu chia cho \(n\), phương sai mẫu trung bình sẽ luôn nhỏ hơn phương sai thật của tổng thể. Việc chia cho \(n-1\) "bù đắp" cho sự thiếu hụt này, biến \(S^2\) thành ước lượng không chệch cho \(\sigma^2\).

Lợi ích giảm dần của dữ liệu

Gấp đôi công sức không có nghĩa là gấp đôi độ chính xác. Sai số chuẩn giảm theo căn bậc hai của kích thước mẫu (\(\sqrt{n}\)).

Tình huống I

Mẫu nhỏ

Tung xu: 100 lần

Sai số chuẩn: 0.0490

Tình huống II

Mẫu lớn x10

Tung xu: 1000 lần

Sai số chuẩn: 0.0155

Dữ liệu tăng gấp 10 lần, nhưng độ chính xác chỉ tăng ~3.16 lần (\(\sqrt{10}\)).

Quy tắc: Để giảm 1/2 sai số Cần x4 lượng dữ liệu

Khi "Lệch" lại tốt hơn

Đôi khi, một ước lượng bị chệch (Bias) nhưng ổn định (Variance thấp) lại tốt hơn một ước lượng không chệch nhưng dao động quá lớn. Đây là khái niệm Sai số bình phương trung bình (MSE).

\(MSE(\hat{\theta}) = Var(\hat{\theta}) + bias^2\)

Chất lượng = Độ phân tán + Độ lệch

Cung thủ A

Không Chệch

Trung bình thì trúng tâm, nhưng các mũi tên phân tán quá rộng (Phương sai lớn).

Tốt hơn

Cung thủ B

Bị Chệch Nhẹ

Hơi lệch tâm, nhưng các mũi tên tụ lại rất chặt (Phương sai thấp). MSE thấp hơn.

Trong Machine Learning: Đôi khi chấp nhận một mô hình hơi "chệch" để tránh Overfitting (học vẹt).

Nhìn xa hơn những con số

Hiểu rõ những khái niệm này giúp chúng ta trở thành những người tiêu thụ thông tin thông thái. Lần tới khi bạn thấy một con số thống kê, đừng chỉ nhìn kết quả, hãy hỏi về cỡ mẫu và cách tính.