Báo cáo Kỹ thuật: Phương pháp luận Triển khai và Đánh giá Mô hình Hồi quy Tuyến tính Bội

Quy trình công việc từ đầu đến cuối dành cho nhà khoa học dữ liệu: từ lý thuyết đến triển khai thực tế.

1.0 Giới thiệu về Mô hình

Hồi quy tuyến tính bội mở rộng mô hình đơn giản để xử lý nhiều yếu tố tác động. Đây là công cụ chiến lược để hiểu mối quan hệ phức tạp.

\( y_i = \beta_0 + \beta_1x_{1i} + \dots + \beta_kx_{ki} + \varepsilon_i \)
\(y\): Biến phản hồi (Mục tiêu dự đoán)
\(x_k\): Biến đầu vào (Yếu tố ảnh hưởng)
\(\beta_k\): Hệ số hồi quy (Trọng số tác động)
\(\varepsilon\): Sai số ngẫu nhiên \(N(0, \sigma^2)\)

Biến thể nâng cao:

  • Đa thức: Thêm \(x^2\) để bắt đường cong.
  • Tương tác: Thêm \(x_1x_2\) để mô hình hóa sự phụ thuộc lẫn nhau.
  • Chỉ báo: Mã hóa biến phân loại (Nam/Nữ) thành 0/1.

2.0 Khớp Mô hình: Bình phương Tối thiểu

Mục tiêu: Tìm mặt phẳng siêu phẳng đi qua đám mây dữ liệu sao cho tổng bình phương khoảng cách lỗi là nhỏ nhất.

Tối thiểu hóa tổng chiều dài các đường đỏ (Sai số)

Hàm mục tiêu cần tối thiểu hóa:

\( Q = \sum (y_i - \hat{y}_i)^2 \)

3.0 Phân tích và Diễn giải

Đánh giá sức mạnh của mô hình thông qua bảng ANOVA và các hệ số.

Bảng ANOVA Tiêu Chuẩn

Nguồn df SS (Tổng BP) MS (Trung bình) F P-value
Hồi quy \(k\) SSR MSR MSR/MSE Quan trọng
Sai số \(n-k-1\) SSE MSE
Tổng \(n-1\) SST
Kiểm định F:
Đánh giá tổng thể. Nếu P < 0.05 -> Mô hình có ý nghĩa.
Hệ số \(R^2\):
% Biến thiên của y được giải thích bởi mô hình.

4.0 Quy trình Lựa chọn Biến

Loại bỏ các biến nhiễu để có mô hình tinh gọn nhất. Phương pháp phổ biến: Loại bỏ Lùi.

1
Mô hình Đầy đủ: Chạy hồi quy với tất cả biến \(k\).
2
Kiểm tra P-value: Tìm biến có P-value lớn nhất (không ý nghĩa).
3
Loại bỏ: Xóa biến đó khỏi mô hình.
4
Lặp lại: Quay lại bước 2 cho đến khi tất cả các biến đều có ý nghĩa.

5.0 Đánh giá Tính phù hợp (Chẩn đoán)

Đảm bảo các giả định không bị vi phạm.

Đa cộng tuyến

Các biến đầu vào tương quan mạnh với nhau. Gây sai lệch hệ số.

Phân tích Phần dư

Kiểm tra tính chuẩn và phương sai đồng nhất của sai số.

Điểm Ngoại lai

Phần dư chuẩn hóa > 3. Cần điều tra nguyên nhân.

Điểm Ảnh hưởng

Đòn bẩy cao (Leverage). Một điểm làm thay đổi cả đường hồi quy.

6.0 Suy luận và Dự báo

Sau khi mô hình hoàn thiện, sử dụng nó để dự báo giá trị tương lai.

⚠️ Cảnh báo Ngoại suy:
Không dùng mô hình để dự báo cho các giá trị đầu vào nằm ngoài phạm vi dữ liệu gốc. Mối quan hệ có thể thay đổi.