Thống kê Ứng dụng

Hướng dẫn Từng bước về
Hàm Phân phối Tích lũy Thực nghiệm (ECDF)

Mục tiêu Học tập

Hiểu sự khác biệt giữa tham số và phi tham số.
Xây dựng và vẽ ECDF từ dữ liệu thô.
Ước tính xác suất và lượng tử (như trung vị).
Hiểu vai trò của kích thước mẫu.

Giới thiệu: Khám phá Dữ liệu

Làm thế nào bạn có thể hiểu câu chuyện dữ liệu kể mà không cần giả định hình dạng của nó? ECDF là câu trả lời.

ECDF là một công cụ không tham số (nonparametric). Nó cho phép dữ liệu tự nói lên câu chuyện của chính nó mà không bị ép vào một khuôn mẫu định sẵn (như đường cong hình chuông).

Phương pháp	Mô tả Cốt lõi	Khi nào dùng?
Không tham số (ECDF)	Không đưa ra giả định. Xây dựng bức tranh trực tiếp từ các quan sát.	Khám phá ban đầu, hoặc khi không biết dạng phân bố.
Tham số	Giả định dữ liệu tuân theo quy luật (ví dụ: Chuẩn) và ước tính tham số (µ, σ).	Khi có kiến thức chuyên môn chắc chắn về phân bố.

Ví dụ: Thời gian Thực thi Hệ thống

Chúng ta có n = 44 quan sát về thời gian thực thi (giây) của một hệ thống máy tính. Dữ liệu đã được sắp xếp tăng dần:

5.9, 6.0, 6.4, 6.4, 6.5, 6.5, 6.6, 6.7, 6.9, 7.0, 7.1, 7.2, 7.5, 7.5, 7.8, 7.9, 8.1, 8.1, 8.2, 8.9, 9.3, 9.3, 9.6, 10.4, 10.6, 11.8, 11.8, 12.6, 12.9, 14.3, 15.0, 16.2, 16.3, 17.0, 17.2, 22.8, 23.1, 33.0, 40.0, 42.8, 43.0, 44.8, 45.0, 45.8

Xây dựng ECDF

Công thức cốt lõi

\[ \hat{F}(x) = \frac{\text{số lượng điểm dữ liệu} \le x}{n} \]

Quy trình rất đơn giản: Sắp xếp dữ liệu, sau đó tính tỷ lệ tích lũy tại mỗi điểm.

Thời gian (x)	Số lượng ≤ x	ECDF \(\hat{F}(x)\)
5.9	1	1/44 = 0.023
6.0	2	2/44 = 0.045
6.4	4 (trùng)	4/44 = 0.091
...	...	...
7.1	11	11/44 = 0.250
...	...	...
45.8	44	44/44 = 1.000

*Lưu ý: Tại x=6.4 có 2 giá trị trùng nhau, số lượng nhảy từ 2 lên 4.

Trực quan hóa: Hàm Bậc thang

ECDF được vẽ dưới dạng một hàm bậc thang (step function):

X
Trục hoành: Giá trị dữ liệu (Thời gian thực thi).
Y
Trục tung: Xác suất tích lũy (từ 0 đến 1).
Bậc thang: Nhảy lên cao \(1/n\) tại mỗi điểm dữ liệu.

Diễn giải & Ước tính

1. Ước tính Xác suất

Hỏi: "Xác suất tác vụ xong trong ≤ 20 giây?"

Tìm x = 20 Chạm đồ thị Đọc trục Y

Kết quả: \(\approx 0.795\) (79.5%)

2. Ước tính Lượng tử (Trung vị)

Hỏi: "50% tác vụ nhanh hơn thời gian nào?"

Tìm Y = 0.5 Chạm đồ thị Đọc trục X

Kết quả: 9.45 giây

Vai trò Kích thước Mẫu

"Nhiều dữ liệu hơn = Bức tranh rõ nét hơn."

Độ chính xác

Tăng \(n\) làm giảm phương sai (sự lung lay) của ước tính.

Độ mịn

Tăng \(n\) làm bước nhảy \(1/n\) nhỏ đi, đồ thị trở nên mượt mà hơn.

Kết luận

ECDF là bước đầu tiên trung thực nhất để hiểu dữ liệu. Nó không thiên vị, dễ xây dựng và ngày càng mạnh mẽ khi dữ liệu của bạn lớn lên.

Công cụ thiết yếu cho phân tích ban đầu

Mục lục