5 Ý Tưởng Thống Kê
Trái Ngược Trực Giác
Sẽ Thay Đổi Cách Bạn Nhìn Dữ Liệu
Bên ngoài đường cong hình chuông là một thế giới lộn xộn nhưng chân thực hơn.
Điều gì sẽ xảy ra nếu thực tế lộn xộn hơn nhiều? Hóa ra, có một bộ công cụ thống kê mạnh mẽ và linh hoạt không đòi hỏi những giả định nghiêm ngặt như vậy. Chào mừng bạn đến với thế giới của thống kê phi tham số.
Bạn không cần Đường Cong Hình Chuông
Phi tham số chọn sự an toàn (ít giả định) thay vì sức mạnh tối đa.
Các phương pháp thống kê tham số (như t-test) giống như những cỗ máy đua F1: cực nhanh và mạnh, nhưng chỉ chạy tốt trên đường đua phẳng lì (phân phối chuẩn). Nếu đường gập ghềnh (dữ liệu lệch), xe sẽ hỏng.
Ngược lại, phương pháp "phi phân phối" giống như xe địa hình. Nó có thể không nhanh nhất trên đường nhựa, nhưng nó đi được mọi nơi.
"Bản Phác Thảo" Tốt Nhất về Dữ Liệu
Làm thế nào để nhìn thấy hình dạng thật của dữ liệu mà không đeo "kính lọc" của phân phối chuẩn? Câu trả lời là Hàm Phân phối Tích lũy Mẫu (ECDF).
Hãy hình dung ECDF như một hàm bậc thang đơn giản. Đối với mẫu kích thước 'n', hàm tăng lên 1/n tại mỗi điểm dữ liệu. Khi dữ liệu nhiều lên, các bậc thang nhỏ lại và tạo thành một đường cong mượt mà mô tả chính xác thực tế.
Đây là "dự đoán tốt nhất" về hình dạng thực của dữ liệu mà không cần ép nó vào bất kỳ chiếc hộp định sẵn nào.
Kiểm định Giả thuyết đơn giản như Tung Đồng xu
Phép Kiểm Dấu (Sign Test) là minh chứng cho thấy sự đơn giản có thể mang lại sức mạnh to lớn. Nó làm một việc rất cơ bản: đếm xem bao nhiêu điểm dữ liệu nằm trên hoặc dưới một giá trị.
Góc lịch sử
Phép Kiểm Dấu đã được sử dụng từ năm 1710 bởi John Arbuthnot để phân tích hồ sơ sinh ở London. Những phương pháp "cổ điển" này vẫn cực kỳ vững chắc trước dữ liệu nhiễu ngày nay.
Giả định là một Phổ, không phải Công tắc
Bạn không bắt buộc phải chọn giữa "không giả định gì cả" và "giả định mọi thứ". Có một vùng trung gian tuyệt vời.
Cực đoan 1
Phép Kiểm Dấu
Chỉ quan tâm +/-. Rất an toàn nhưng lãng phí thông tin.
Vùng Trung Gian
Wilcoxon Signed Rank
Xem xét cả dấu và độ lớn (xếp hạng). Yêu cầu giả định nhẹ: dữ liệu đối xứng.
Cực đoan 2
T-test
Dùng giá trị thực. Mạnh nhất nhưng dễ sai nếu không Chuẩn.
Dải Tin cậy cho Toàn bộ Phân phối
Chúng ta thường nghe về khoảng tin cậy cho một con số (ví dụ: trung bình). Nhưng thống kê phi tham số cho phép bạn vẽ một "Dải Tin cậy" bao quanh toàn bộ đường cong phân phối.
Điều này nâng tầm phân tích từ việc kiểm tra một tham số đơn lẻ lên thành việc đánh giá toàn bộ mô hình của thực tế.
Tuy nhiên, cái giá phải trả là dải tin cậy này có thể khá rộng với mẫu nhỏ, nhắc nhở chúng ta về sự khiêm tốn khi đưa ra các tuyên bố bao quát.
Suy nghĩ lại về các Giả định
Thống kê phi tham số giải phóng bạn khỏi những giả định cứng nhắc, cho phép bạn làm việc với dữ liệu như nó vốn có: lộn xộn, không hoàn hảo, nhưng đầy ý nghĩa.
Lần tới khi bạn gặp một con số thống kê, liệu bạn có tự hỏi nó đứng trên nền móng giả định nào không?