Sổ tay Hồi quy Tuyến tính Bội: Từ Lý thuyết đến Diễn giải
Giải mã "hộp đen" của thống kê đa biến
1. Giải phẫu Mô hình Hồi quy Tuyến tính Bội
Mô hình là một phương trình mô tả mối quan hệ giữa nhiều đầu vào và một kết quả.
Lưu ý: \(\beta_i\) giữ các biến khác không đổi.
2. Nguyên tắc Cốt lõi: Bình phương Tối thiểu
Làm sao tìm được các hệ số \(\beta\) tốt nhất? Chúng ta tìm một "mặt phẳng" đi qua dữ liệu sao cho tổng sai số là nhỏ nhất.
Chúng ta giảm thiểu tổng bình phương khoảng cách thẳng đứng (sai số).
3. Tìm các Hệ số: Phương trình Thông thường
Dùng giải tích để tối thiểu hóa \(Q\) dẫn đến một hệ phương trình tuyến tính gọi là Normal Equations.
4. Phân tách Phương sai: Câu chuyện SST, SSR, SSE
Để đánh giá mô hình, ta chia tổng phương sai thành hai phần: phần "hiểu được" và phần "không hiểu được".
Tổng biến thiên
(Khởi đầu)
Giải thích được
(Bởi mô hình)
Không giải thích được
(Sai số)
5. Đánh giá Hiệu suất Mô hình
5.1 Phân tích Phương sai (ANOVA) & Thống kê F
Thống kê F trả lời: "Mô hình có tốt hơn là đoán mò không?"
| Nguồn | df | SS | MS (Trung bình) | F | P-value |
|---|---|---|---|---|---|
| Hồi quy | \(k\) | SSR | MSR | MSR/MSE | Quan trọng |
| Sai số | \(n-k-1\) | SSE | MSE | ||
| Tổng | \(n-1\) | SST |
5.2 Sức mạnh Giải thích: \(R^2\)
Ví dụ: \(R^2 = 0.75\) nghĩa là mô hình giải thích được 75% sự biến thiên của dữ liệu.
5.3 Đánh giá từng biến: Kiểm định t
Sau khi biết mô hình tổng thể tốt (F-test), ta dùng t-test để xem biến nào thực sự đóng góp. Nếu P-value của hệ số \(\beta_i\) nhỏ (< 0.05), biến đó quan trọng.
6. Tổng hợp và Điểm chính
- F-test: Mô hình tổng thể có dùng được không?
- \(R^2\): Mô hình giải thích được bao nhiêu %?
- t-test: Biến đầu vào cụ thể nào quan trọng?