Sổ tay Hồi quy Tuyến tính Bội: Từ Lý thuyết đến Diễn giải

Giải mã "hộp đen" của thống kê đa biến

👨‍🍳 Ẩn dụ Đầu bếp: Hồi quy đơn giản giống như nấu ăn với một nguyên liệu (chỉ độ ngọt). Hồi quy bội giống như phối hợp nhiều gia vị (ngọt, cay, mặn) để tạo ra hương vị (kết quả) chính xác nhất.

1. Giải phẫu Mô hình Hồi quy Tuyến tính Bội

Mô hình là một phương trình mô tả mối quan hệ giữa nhiều đầu vào và một kết quả.

\( y_i = \beta_0 + \beta_1x_{1i} + \dots + \beta_kx_{ki} + \varepsilon_i \)

Biến Đáp ứng (y) Kết quả cần dự báo (Biến phụ thuộc).

Các Hệ số (\(\beta\)) "Các nút xoay" điều chỉnh độ mạnh và hướng tác động.
Lưu ý: \(\beta_i\) giữ các biến khác không đổi.

Sai số (\(\varepsilon\)) Sự ngẫu nhiên, không giải thích được.

2. Nguyên tắc Cốt lõi: Bình phương Tối thiểu

Làm sao tìm được các hệ số \(\beta\) tốt nhất? Chúng ta tìm một "mặt phẳng" đi qua dữ liệu sao cho tổng sai số là nhỏ nhất.

Mục tiêu: Min(Q)

\( Q = \sum (y_i - \hat{y}_i)^2 \)

Chúng ta giảm thiểu tổng bình phương khoảng cách thẳng đứng (sai số).

3. Tìm các Hệ số: Phương trình Thông thường

Dùng giải tích để tối thiểu hóa \(Q\) dẫn đến một hệ phương trình tuyến tính gọi là Normal Equations.

Thực tế: Không ai giải tay hệ này. Máy tính dùng đại số ma trận để tìm ra \(\hat{\beta}\) nhanh chóng.

4. Phân tách Phương sai: Câu chuyện SST, SSR, SSE

Để đánh giá mô hình, ta chia tổng phương sai thành hai phần: phần "hiểu được" và phần "không hiểu được".

SST
Tổng biến thiên
(Khởi đầu)

SSR
Giải thích được
(Bởi mô hình)

SSE
Không giải thích được
(Sai số)

5. Đánh giá Hiệu suất Mô hình

5.1 Phân tích Phương sai (ANOVA) & Thống kê F

Thống kê F trả lời: "Mô hình có tốt hơn là đoán mò không?"

Nguồn	df	SS	MS (Trung bình)	F	P-value
Hồi quy	\(k\)	SSR	MSR	MSR/MSE	Quan trọng
Sai số	\(n-k-1\)	SSE	MSE
Tổng	\(n-1\)	SST

5.2 Sức mạnh Giải thích: \(R^2\)

\( R^2 = \frac{SSR}{SST} \)

Ví dụ: \(R^2 = 0.75\) nghĩa là mô hình giải thích được 75% sự biến thiên của dữ liệu.

5.3 Đánh giá từng biến: Kiểm định t

Sau khi biết mô hình tổng thể tốt (F-test), ta dùng t-test để xem biến nào thực sự đóng góp. Nếu P-value của hệ số \(\beta_i\) nhỏ (< 0.05), biến đó quan trọng.

6. Tổng hợp và Điểm chính

Mục tiêu: Tìm mặt phẳng tối thiểu hóa tổng bình phương sai số.

Đánh giá: Dựa trên việc phân tách SST thành SSR (tốt) và SSE (xấu).

Chỉ số:

F-test: Mô hình tổng thể có dùng được không?
\(R^2\): Mô hình giải thích được bao nhiêu %?
t-test: Biến đầu vào cụ thể nào quan trọng?