Tư duy Phản biện

4 Lầm Tưởng Về Thống Kê Ngay Cả Người Thông Minh Cũng Mắc Phải

Từ một bản tin tuyên bố chế độ ăn kiêng mới giúp giảm thiểu rủi ro sức khỏe cho đến một cuộc thăm dò dự đoán kết quả bầu cử, chúng ta liên tục bị tấn công bởi những con số đòi hỏi sự tin tưởng. Nhưng điều gì sẽ xảy ra nếu ngôn ngữ mà chúng sử dụng—"có ý nghĩa thống kê", "độ tin cậy 95%"—được thiết kế để nghe có vẻ uy tín trong khi lại bị âm thầm hiểu sai?

Thực tế là, những khái niệm này thường bị hiểu sai một cách đáng ngạc nhiên, ngay cả bởi những người thông minh nhất. Thống kê thường phản trực giác. Bài viết này sẽ làm sáng tỏ bốn sự thật gây ngạc nhiên nhất về thống kê, giúp bạn trở thành một người tiêu dùng thông tin sành sỏi hơn và thay đổi cách bạn nhìn nhận dữ liệu mãi mãi.

Tin Cậy Hơn Không Có Nghĩa Là Chính Xác Hơn

Hãy tưởng tượng bạn đang cố gắng ước tính chiều cao trung bình thực sự của tất cả nam giới Việt Nam. Vì bạn không thể đo lường tất cả mọi người, bạn lấy một mẫu và tính toán một "khoảng tin cậy"—một phạm vi các giá trị "hợp lý" có khả năng chứa giá trị trung bình thực sự.

Lầm tưởng phổ biến là một khoảng tin cậy 99% (tin cậy hơn) sẽ chính xác hơn một khoảng tin cậy 95%. Nhưng sự thật lại hoàn toàn ngược lại. Việc yêu cầu mức độ tin cậy cao hơn sẽ buộc bạn phải tạo ra một khoảng rộng hơn và kém chính xác hơn.

🎣

Tin cậy 95%

Giống như dùng một tấm lưới hẹp. Bạn kém chắc chắn hơn, nhưng nếu bắt được, bạn biết vị trí của cá chính xác hơn.

🕸️

Tin cậy 99%

Giống như dùng một tấm lưới rất rộng. Bạn chắc chắn hơn sẽ bắt được cá, nhưng bạn kém chính xác hơn về vị trí của nó.

"Higher confidence levels require longer confidence intervals."
(Mức độ tin cậy cao hơn đòi hỏi khoảng tin cậy dài hơn.)

Điều này cực kỳ quan trọng khi diễn giải các cuộc thăm dò ý kiến. Một cuộc thăm dò có thể tự hào với độ tin cậy 99%, nhưng nếu biên độ sai số của nó (chính là "tấm lưới") là +/- 10%, thì kết quả đó quá thiếu chính xác để có ý nghĩa.

Để Tăng Gấp Đôi Độ Chính Xác, Bạn Cần Gấp Bốn Lần Nỗ Lực

Kích thước mẫu (số lượng người hoặc vật bạn đo lường) có ảnh hưởng rất lớn đến độ chính xác của các ước tính thống kê. Tuy nhiên, mối quan hệ này không hề tuyến tính. Một lầm tưởng phổ biến là nếu tăng gấp đôi kích thước mẫu, chúng ta sẽ có được kết quả chính xác gấp đôi.

Trong thống kê, có một quy tắc gọi là "quy luật căn bậc hai". Độ dài của khoảng tin cậy (một thước đo về độ chính xác) tỷ lệ nghịch với căn bậc hai của kích thước mẫu (\(L \propto 1/\sqrt{n}\)). Nói một cách đơn giản, để giảm một nửa độ dài khoảng tin cậy—tức là tăng gấp đôi độ chính xác của ước tính—bạn phải tăng kích thước mẫu lên bốn lần.

"Thus a fourfold increase in the sample size reduces the confidence interval length by half."
(Do đó, việc tăng kích thước mẫu lên bốn lần sẽ làm giảm một nửa độ dài của khoảng tin cậy.)

Quy luật Hiệu suất Giảm dần

Kích thước mẫu (Nỗ lực)

x 4

→

Độ chính xác (Độ dài CI)

x 2

(Độ dài giảm 1/2)

Nguyên tắc Hiệu suất Giảm dần

Nguyên tắc này có những tác động tài chính khổng lồ. Đối với một công ty dược phẩm, việc tăng gấp đôi độ chính xác của một thử nghiệm thuốc có thể đòi hỏi phải tăng gấp bốn lần số lượng người tham gia, tiêu tốn thêm hàng triệu đô la chỉ để có được một chút kiến thức tăng thêm.

Thống Kê Không Bao Giờ "Chứng Minh" Điều Gì Là Đúng

Đây là một trong những ý tưởng nền tảng và thường bị hiểu lầm nhất trong kiểm định giả thuyết. Khi các nhà khoa học kiểm tra một ý tưởng, họ bắt đầu với một "giả thuyết không" (null hypothesis), là một tuyên bố mặc định (ví dụ: "loại thuốc mới này không có tác dụng").

Mục tiêu của họ không phải là để chứng minh giả thuyết không là đúng. Điều đó là không thể. Thay vào đó, mục tiêu là xem liệu họ có thể thu thập đủ bằng chứng để tuyên bố rằng giả thuyết không là không hợp lý hay không, và do đó "bác bỏ" nó.

⚖️ Phiên tòa

Mặc định: "Vô tội"
Mục tiêu: Tìm bằng chứng để chứng minh "Có tội".
Kết luận: "Có tội" (nếu đủ bằng chứng) hoặc "Không đủ bằng chứng" (không bao giờ "chứng minh vô tội").

📊 Thống kê

Mặc định: Giả thuyết không \(H_0\) (ví dụ: thuốc không tác dụng).
Mục tiêu: Tìm bằng chứng để "Bác bỏ \(H_0\)".
Kết luận: "Bác bỏ \(H_0\)" (nếu p-value nhỏ) hoặc "Chấp nhận \(H_0\)" (không "chứng minh \(H_0\) đúng").

"A null hypothesis cannot be proven to be true; it can only be shown to be implausible."
(Một giả thuyết không không thể được chứng minh là đúng; nó chỉ có thể được chứng tỏ là không hợp lý.)

Hiểu được điều này là cực kỳ quan trọng đối với tư duy phản biện. Sự vắng mặt của bằng chứng không phải là bằng chứng của sự vắng mặt.

"P-value" Không Phải Là Thứ Bạn Nghĩ

P-value có lẽ là khái niệm bị hiểu lầm nhiều nhất. Nhiều người tin rằng p-value đại diện cho "xác suất giả thuyết không là đúng". Điều này hoàn toàn sai.

Vậy p-value thực sự là gì?

Định nghĩa P-value

Xác suất thu được tập dữ liệu này hoặc một tập dữ liệu còn cực đoan hơn, với giả định rằng giả thuyết không là đúng.

Điểm mấu chốt nằm ở phần in nghiêng. Toàn bộ phép tính được thực hiện dựa trên giả định rằng giả thuyết không (ví dụ: thuốc không có tác dụng) là sự thật. P-value trả lời câu hỏi: "Nếu thuốc thực sự không có tác dụng, thì khả năng chúng ta tình cờ thấy được kết quả ấn tượng như thế này là bao nhiêu?"

🚨

P-value Nhỏ (< 0.01)

Dữ liệu rất "đáng ngạc nhiên" nếu \(H_0\) là đúng. → Bác bỏ \(H_0\).

✅

P-value Lớn (> 0.10)

Dữ liệu không có gì đáng ngạc nhiên. Phù hợp với \(H_0\). → Không thể bác bỏ \(H_0\).

Việc hiểu đúng p-value là rất quan trọng. Nó không cho chúng ta biết xác suất một giả thuyết là đúng; nó chỉ cho chúng ta biết dữ liệu của chúng ta gây ngạc nhiên đến mức nào.

Kết luận: Hãy Đặt Câu Hỏi

Thế giới thống kê đầy rẫy những sự thật phản trực giác. Bằng cách hiểu rõ những cạm bẫy này, bạn trang bị cho mình một bộ công cụ tư duy phản biện mới. Lần tới khi bạn đọc một nghiên cứu, hãy tự hỏi:

1.
Họ đang nói về sự tin cậy hay sự chính xác? "Tấm lưới" của họ rộng đến mức nào?
2.
Kích thước mẫu của họ có đủ lớn để đạt được độ chính xác có ý nghĩa không?
3.
Họ có đang cố gắng "chứng minh" một điều gì đó là đúng không, hay họ đang tìm bằng chứng để bác bỏ một tuyên bố mặc định?
4.
Và khi họ tuyên bố một kết quả "có ý nghĩa thống kê", con số p-value đó thực sự đại diện cho điều gì?