Kế Hoạch Phân Tích Sử Dụng Hồi Quy Tuyến Tính Đơn Giản
Khuôn khổ phương pháp luận để xây dựng mô hình dự báo từ dữ liệu thô.
1.0 Giới thiệu và Nền tảng Lý thuyết
Hồi quy tuyến tính đơn giản là kỹ thuật nền tảng để khám phá mối quan hệ giữa hai biến số: Biến độc lập (\(x\)) và Biến phụ thuộc (\(y\)). Mục tiêu là xây dựng một mô hình toán học để dự báo và ra quyết định.
1.2 Các Giả định Cốt lõi (LINE)
2.0 Quy trình Xây dựng và Ước lượng
Chúng ta không vẽ đường thẳng tùy ý. Phương pháp Bình phương Tối thiểu (Least Squares) được sử dụng để tìm đường thẳng "tốt nhất" - đường thẳng làm giảm thiểu tổng bình phương các sai số.
Công thức Ước lượng:
- Độ dốc (\(\hat{\beta}_1\)): Đo lường sự thay đổi của \(y\) khi \(x\) tăng 1 đơn vị.
- Điểm cắt (\(\hat{\beta}_0\)): Giá trị của \(y\) khi \(x=0\).
- Phương trình dự báo: \(\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1x_i\)
3.0 Đánh giá Mức độ Phù hợp
Một mô hình tốt phải giải thích được phần lớn sự biến thiên của dữ liệu. Chúng ta sử dụng Bảng ANOVA để kiểm tra điều này.
3.1 Bảng Phân tích Phương sai (ANOVA)
| Nguồn | df | SS (Tổng Bình Phương) | MS (Trung Bình) | F |
|---|---|---|---|---|
| Hồi quy | 1 | SSR (Giải thích được) | MSR | MSR/MSE |
| Sai số | n-2 | SSE (Không giải thích được) | MSE | |
| Tổng | n-1 | SST |
3.2 Hệ số Xác định (\(R^2\))
Ví dụ: \(R^2 = 0.80\) nghĩa là 80% sự thay đổi của \(y\) được giải thích bởi \(x\).
4.0 Suy diễn Thống kê
Mở rộng kết quả từ mẫu ra tổng thể.
- Kiểm định độ dốc: Kiểm tra xem \(\beta_1\) có khác 0 không (có mối quan hệ thực sự không?).
- Khoảng Tin cậy (CI): Ước lượng giá trị trung bình của \(y\) tại một điểm \(x\).
- Khoảng Dự báo (PI): Dự báo một giá trị cá biệt của \(y\). Lưu ý: PI luôn rộng hơn CI.
5.0 Chẩn đoán và Xác thực (Phần Dư)
Kiểm tra "sức khỏe" của mô hình bằng cách phân tích phần dư (\(e_i = y_i - \hat{y}_i\)).
6.0 Các Chủ đề Liên quan và Cảnh báo
⚠️ Cạm bẫy 1: Ngoại suy (Extrapolation)
Không sử dụng mô hình để dự báo cho các giá trị \(x\) nằm ngoài phạm vi dữ liệu mẫu. Mối quan hệ tuyến tính có thể không còn đúng.
⚠️ Cạm bẫy 2: Tương quan \(\neq\) Nhân quả
Chỉ vì \(x\) và \(y\) có quan hệ tuyến tính mạnh, không có nghĩa là \(x\) gây ra \(y\). Cẩn trọng với các biến ẩn.