Kế Hoạch Phân Tích Sử Dụng Hồi Quy Tuyến Tính Đơn Giản

Khuôn khổ phương pháp luận để xây dựng mô hình dự báo từ dữ liệu thô.

1.0 Giới thiệu và Nền tảng Lý thuyết

Hồi quy tuyến tính đơn giản là kỹ thuật nền tảng để khám phá mối quan hệ giữa hai biến số: Biến độc lập (\(x\)) và Biến phụ thuộc (\(y\)). Mục tiêu là xây dựng một mô hình toán học để dự báo và ra quyết định.

\( y_i = \beta_0 + \beta_1x_i + \varepsilon_i \)
Mô hình Tuyến tính Tổng thể
y
x

1.2 Các Giả định Cốt lõi (LINE)

L - Linear (Tuyến tính) Mối quan hệ giữa x và y là tuyến tính. Trung bình sai số bằng 0.
I - Independent (Độc lập) Các sai số \(\varepsilon_i\) độc lập với nhau.
N - Normal (Chuẩn) Sai số tuân theo phân phối chuẩn \(N(0, \sigma^2)\).
E - Equal Variance (Đồng nhất) Phương sai sai số là không đổi (Homoscedasticity).

2.0 Quy trình Xây dựng và Ước lượng

Chúng ta không vẽ đường thẳng tùy ý. Phương pháp Bình phương Tối thiểu (Least Squares) được sử dụng để tìm đường thẳng "tốt nhất" - đường thẳng làm giảm thiểu tổng bình phương các sai số.

Công thức Ước lượng:

  • Độ dốc (\(\hat{\beta}_1\)): Đo lường sự thay đổi của \(y\) khi \(x\) tăng 1 đơn vị.
  • Điểm cắt (\(\hat{\beta}_0\)): Giá trị của \(y\) khi \(x=0\).
  • Phương trình dự báo: \(\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1x_i\)

3.0 Đánh giá Mức độ Phù hợp

Một mô hình tốt phải giải thích được phần lớn sự biến thiên của dữ liệu. Chúng ta sử dụng Bảng ANOVA để kiểm tra điều này.

3.1 Bảng Phân tích Phương sai (ANOVA)

Nguồn df SS (Tổng Bình Phương) MS (Trung Bình) F
Hồi quy 1 SSR (Giải thích được) MSR MSR/MSE
Sai số n-2 SSE (Không giải thích được) MSE
Tổng n-1 SST

3.2 Hệ số Xác định (\(R^2\))

\( R^2 = \frac{SSR}{SST} \)

Ví dụ: \(R^2 = 0.80\) nghĩa là 80% sự thay đổi của \(y\) được giải thích bởi \(x\).

4.0 Suy diễn Thống kê

Mở rộng kết quả từ mẫu ra tổng thể.

  • Kiểm định độ dốc: Kiểm tra xem \(\beta_1\) có khác 0 không (có mối quan hệ thực sự không?).
  • Khoảng Tin cậy (CI): Ước lượng giá trị trung bình của \(y\) tại một điểm \(x\).
  • Khoảng Dự báo (PI): Dự báo một giá trị cá biệt của \(y\). Lưu ý: PI luôn rộng hơn CI.

5.0 Chẩn đoán và Xác thực (Phần Dư)

Kiểm tra "sức khỏe" của mô hình bằng cách phân tích phần dư (\(e_i = y_i - \hat{y}_i\)).

🎲
Phân tán ngẫu nhiên
Tốt
📣
Hình phễu
Vi phạm phương sai
↩️
Hình cong (Parabol)
Thiếu biến phi tuyến

6.0 Các Chủ đề Liên quan và Cảnh báo

⚠️ Cạm bẫy 1: Ngoại suy (Extrapolation)

Không sử dụng mô hình để dự báo cho các giá trị \(x\) nằm ngoài phạm vi dữ liệu mẫu. Mối quan hệ tuyến tính có thể không còn đúng.

⚠️ Cạm bẫy 2: Tương quan \(\neq\) Nhân quả

Chỉ vì \(x\) và \(y\) có quan hệ tuyến tính mạnh, không có nghĩa là \(x\) gây ra \(y\). Cẩn trọng với các biến ẩn.