Tư duy Phân tích

5 Ý Tưởng Thống Kê
Trái Ngược Trực Giác
Sẽ Thay Đổi Cách Bạn Nhìn Dữ Liệu

Bên ngoài đường cong hình chuông là một thế giới lộn xộn nhưng chân thực hơn.

Khi hầu hết mọi người nghĩ về thống kê, hình ảnh đầu tiên hiện lên trong đầu thường là đường cong hình chuông quen thuộc, hay còn gọi là phân phối chuẩn. Nó là nền tảng của nhiều phương pháp phân tích kinh điển. Nhưng điều gì sẽ xảy ra nếu dữ liệu của bạn không tuân theo quy luật gọn gàng này?

Điều gì sẽ xảy ra nếu thực tế lộn xộn hơn nhiều? Hóa ra, có một bộ công cụ thống kê mạnh mẽ và linh hoạt không đòi hỏi những giả định nghiêm ngặt như vậy. Chào mừng bạn đến với thế giới của thống kê phi tham số.


01

Bạn không cần Đường Cong Hình Chuông

Sự đánh đổi
Giả định Độ chính xác

Phi tham số chọn sự an toàn (ít giả định) thay vì sức mạnh tối đa.

Các phương pháp thống kê tham số (như t-test) giống như những cỗ máy đua F1: cực nhanh và mạnh, nhưng chỉ chạy tốt trên đường đua phẳng lì (phân phối chuẩn). Nếu đường gập ghềnh (dữ liệu lệch), xe sẽ hỏng.

Ngược lại, phương pháp "phi phân phối" giống như xe địa hình. Nó có thể không nhanh nhất trên đường nhựa, nhưng nó đi được mọi nơi.

"Sự so sánh giữa các phương pháp... là một sự dung hòa giữa các giả định và độ chính xác."
02

"Bản Phác Thảo" Tốt Nhất về Dữ Liệu

Làm thế nào để nhìn thấy hình dạng thật của dữ liệu mà không đeo "kính lọc" của phân phối chuẩn? Câu trả lời là Hàm Phân phối Tích lũy Mẫu (ECDF).

Hãy hình dung ECDF như một hàm bậc thang đơn giản. Đối với mẫu kích thước 'n', hàm tăng lên 1/n tại mỗi điểm dữ liệu. Khi dữ liệu nhiều lên, các bậc thang nhỏ lại và tạo thành một đường cong mượt mà mô tả chính xác thực tế.

ECDF: Bức tranh chân thực không qua chỉnh sửa của dữ liệu.

Đây là "dự đoán tốt nhất" về hình dạng thực của dữ liệu mà không cần ép nó vào bất kỳ chiếc hộp định sẵn nào.

03

Kiểm định Giả thuyết đơn giản như Tung Đồng xu

Phép Kiểm Dấu (Sign Test) là minh chứng cho thấy sự đơn giản có thể mang lại sức mạnh to lớn. Nó làm một việc rất cơ bản: đếm xem bao nhiêu điểm dữ liệu nằm trên hoặc dưới một giá trị.

Góc lịch sử

Phép Kiểm Dấu đã được sử dụng từ năm 1710 bởi John Arbuthnot để phân tích hồ sơ sinh ở London. Những phương pháp "cổ điển" này vẫn cực kỳ vững chắc trước dữ liệu nhiễu ngày nay.

"Chìa khóa... là rút gọn các quan sát về dạng nhị phân: lớn hơn hay nhỏ hơn."
04

Giả định là một Phổ, không phải Công tắc

Bạn không bắt buộc phải chọn giữa "không giả định gì cả" và "giả định mọi thứ". Có một vùng trung gian tuyệt vời.

Cực đoan 1

Phép Kiểm Dấu

Chỉ quan tâm +/-. Rất an toàn nhưng lãng phí thông tin.

Vùng Trung Gian

Wilcoxon Signed Rank

Xem xét cả dấuđộ lớn (xếp hạng). Yêu cầu giả định nhẹ: dữ liệu đối xứng.

Cực đoan 2

T-test

Dùng giá trị thực. Mạnh nhất nhưng dễ sai nếu không Chuẩn.

05

Dải Tin cậy cho Toàn bộ Phân phối

Chúng ta thường nghe về khoảng tin cậy cho một con số (ví dụ: trung bình). Nhưng thống kê phi tham số cho phép bạn vẽ một "Dải Tin cậy" bao quanh toàn bộ đường cong phân phối.

Dải Kolmogorov: Vùng an toàn chứa đựng hàm phân phối thực sự.

Điều này nâng tầm phân tích từ việc kiểm tra một tham số đơn lẻ lên thành việc đánh giá toàn bộ mô hình của thực tế.

Tuy nhiên, cái giá phải trả là dải tin cậy này có thể khá rộng với mẫu nhỏ, nhắc nhở chúng ta về sự khiêm tốn khi đưa ra các tuyên bố bao quát.

Suy nghĩ lại về các Giả định

Thống kê phi tham số giải phóng bạn khỏi những giả định cứng nhắc, cho phép bạn làm việc với dữ liệu như nó vốn có: lộn xộn, không hoàn hảo, nhưng đầy ý nghĩa.

Lần tới khi bạn gặp một con số thống kê, liệu bạn có tự hỏi nó đứng trên nền móng giả định nào không?