Hướng dẫn Từng bước về
Hàm Phân phối Tích lũy Thực nghiệm (ECDF)
- Hiểu sự khác biệt giữa tham số và phi tham số.
- Xây dựng và vẽ ECDF từ dữ liệu thô.
- Ước tính xác suất và lượng tử (như trung vị).
- Hiểu vai trò của kích thước mẫu.
Giới thiệu: Khám phá Dữ liệu
Làm thế nào bạn có thể hiểu câu chuyện dữ liệu kể mà không cần giả định hình dạng của nó? ECDF là câu trả lời.
ECDF là một công cụ không tham số (nonparametric). Nó cho phép dữ liệu tự nói lên câu chuyện của chính nó mà không bị ép vào một khuôn mẫu định sẵn (như đường cong hình chuông).
| Phương pháp | Mô tả Cốt lõi | Khi nào dùng? |
|---|---|---|
| Không tham số (ECDF) | Không đưa ra giả định. Xây dựng bức tranh trực tiếp từ các quan sát. | Khám phá ban đầu, hoặc khi không biết dạng phân bố. |
| Tham số | Giả định dữ liệu tuân theo quy luật (ví dụ: Chuẩn) và ước tính tham số (µ, σ). | Khi có kiến thức chuyên môn chắc chắn về phân bố. |
Ví dụ: Thời gian Thực thi Hệ thống
Chúng ta có n = 44 quan sát về thời gian thực thi (giây) của một hệ thống máy tính. Dữ liệu đã được sắp xếp tăng dần:
Xây dựng ECDF
Công thức cốt lõi
\[ \hat{F}(x) = \frac{\text{số lượng điểm dữ liệu} \le x}{n} \]
Quy trình rất đơn giản: Sắp xếp dữ liệu, sau đó tính tỷ lệ tích lũy tại mỗi điểm.
| Thời gian (x) | Số lượng ≤ x | ECDF \(\hat{F}(x)\) |
|---|---|---|
| 5.9 | 1 | 1/44 = 0.023 |
| 6.0 | 2 | 2/44 = 0.045 |
| 6.4 | 4 (trùng) | 4/44 = 0.091 |
| ... | ... | ... |
| 7.1 | 11 | 11/44 = 0.250 |
| ... | ... | ... |
| 45.8 | 44 | 44/44 = 1.000 |
*Lưu ý: Tại x=6.4 có 2 giá trị trùng nhau, số lượng nhảy từ 2 lên 4.
Trực quan hóa: Hàm Bậc thang
ECDF được vẽ dưới dạng một hàm bậc thang (step function):
-
XTrục hoành: Giá trị dữ liệu (Thời gian thực thi).
-
YTrục tung: Xác suất tích lũy (từ 0 đến 1).
-
Bậc thang: Nhảy lên cao \(1/n\) tại mỗi điểm dữ liệu.
Diễn giải & Ước tính
1. Ước tính Xác suất
Hỏi: "Xác suất tác vụ xong trong ≤ 20 giây?"
Kết quả: \(\approx 0.795\) (79.5%)
2. Ước tính Lượng tử (Trung vị)
Hỏi: "50% tác vụ nhanh hơn thời gian nào?"
Kết quả: 9.45 giây
Vai trò Kích thước Mẫu
"Nhiều dữ liệu hơn = Bức tranh rõ nét hơn."
Tăng \(n\) làm giảm phương sai (sự lung lay) của ước tính.
Tăng \(n\) làm bước nhảy \(1/n\) nhỏ đi, đồ thị trở nên mượt mà hơn.
Kết luận
ECDF là bước đầu tiên trung thực nhất để hiểu dữ liệu. Nó không thiên vị, dễ xây dựng và ngày càng mạnh mẽ khi dữ liệu của bạn lớn lên.