Lời Mở Đầu

Bạn nghĩ dữ liệu luôn nói thật? Chưa chắc. Có những bí mật ẩn giấu bên dưới các con số mà nếu chỉ nhìn lướt qua, bạn sẽ hoàn toàn hiểu sai câu chuyện. Hãy cùng giải mã 4 ảo ảnh phổ biến nhất.

1

Đường Cong Tuyến Tính

Hiểu lầm: "Hồi quy tuyến tính chỉ vẽ được đường thẳng."
Sự thật: "Tuyến tính" nói về cách cộng gộp các khối, không phải hình dạng của chúng.

Mô Hình LEGO: Xếp Chồng
Biến Cong ($X^2$)
Biến Thẳng ($X$)

Miễn là bạn "cộng" các khối lại với nhau ($\beta_1X + \beta_2X^2$), mô hình vẫn là tuyến tính, ngay cả khi nó vẽ ra một đường cong parabol tuyệt đẹp.

2

Cạm Bẫy Tương Quan

Khi hai yếu tố cùng mạnh, một kẻ sẽ bị loại bỏ. Đây là hiện tượng Đa cộng tuyến (Multicollinearity).

Trọng Lượng r = 0.81
Bị Loại Bỏ
VS
Khối Lượng r = 0.96
Chiến Thắng

Trong ví dụ giao hàng: Khối Lượng dự báo tốt hơn nên nó "chiếm sóng". Trọng lượng tuy quan trọng nhưng không cung cấp thêm thông tin mới so với Khối lượng, nên bị coi là thừa thãi trong mô hình.

3

Phép Thuật Mã Hóa

Làm sao đưa từ ngữ (Nam/Nữ, Sáng/Tối) vào phương trình toán học?

Văn Bản Ca Đêm
Biến Chỉ Báo 1
Văn Bản Ca Ngày
Biến Chỉ Báo 0

Kỹ thuật Biến Giả (Dummy Variable) cho phép chúng ta bật/tắt các yếu tố định tính trong mô hình, mở rộng khả năng áp dụng ra mọi mặt đời sống.

4

Ảo Giác An Toàn

Bạn nghĩ mình đang ở trong vùng an toàn, nhưng thực ra bạn đang Ngoại Suy Ẩn (Hidden Extrapolation).

VÙNG DỮ LIỆU
THỰC TẾ
Điểm Mù!
(Chưa từng thử nghiệm)
Giá Bán
Quảng Cáo

Bạn đã thử Giá Thấp. Bạn đã thử Quảng Cáo Cao. Nhưng bạn chưa bao giờ thử cả hai cùng lúc. Điểm kết hợp đó nằm ngoài vùng kinh nghiệm của mô hình, khiến dự báo trở nên cực kỳ rủi ro.

Lời Kết

Thế giới hiếm khi là một đường thẳng đơn giản. Những hiểu biết sâu sắc nhất thường đến từ việc nhìn xa hơn các mối quan hệ bề mặt.

"Lần tới, khi bạn nghe ai đó khẳng định rằng 'A gây ra B', hãy tự hỏi về biến số ẩn C nào có thể đang thực sự điều khiển câu chuyện."