Bắt Đầu Với Dữ Liệu: 5 Sự Thật Gây Ngạc Nhiên Về Việc Tìm Kiếm Các Mối Quan Hệ
Ẩn sau những đường thẳng gọn gàng trên biểu đồ là các phương pháp thống kê với những phức tạp đáng ngạc nhiên. Bài viết này sẽ giúp bạn trở thành một người tiêu dùng dữ liệu thông thái hơn.
1 Mắt Của Bạn Là Công Cụ Quan Trọng Nhất
Nguyên tắc vàng: Luôn vẽ biểu đồ dữ liệu trước tiên.
Hồi quy tuyến tính chỉ tìm đường thẳng. Nếu dữ liệu của bạn hình cong (như hình trên), mô hình sẽ cho kết quả hoàn toàn sai lệch.
2 Cạm Bẫy Lớn Nhất: Đừng Bao Giờ "Ngoại Suy"
Bạn có mô hình dự báo điện năng tốt cho mức sản xuất 3-6 triệu đô. Liệu có thể dùng nó cho mức 8 triệu đô?
CẢNH BÁO NGOẠI SUY
Mối quan hệ có thể thay đổi hoàn toàn bên ngoài vùng dữ liệu quan sát.
(Giống như việc nghĩ một đứa trẻ sẽ cao mãi mãi vì năm ngoái nó cao thêm 5cm).
3 Tương Quan Không Phải Là Nhân Quả
Ví dụ kinh điển: Uống Rượu Vang làm bạn bị Ốm?
Luôn cảnh giác với "biến thứ ba" (biến gây nhiễu) đứng sau giật dây.
4 Dự Đoán "Trung Bình", Không Phải "Chính Xác"
Mô hình không phải quả cầu pha lê. Nó rất khiêm tốn.
Mô hình Chiều cao - Cân nặng
Thành phần sai số (\(\varepsilon\)) đại diện cho sự đa dạng tự nhiên mà mô hình không thể nắm bắt.
5 "Đường Thẳng Tốt Nhất" Không Phải Là Ngẫu Nhiên
Làm sao vẽ được đường thẳng chuẩn nhất? Không phải vẽ bằng mắt.
Hãy tưởng tượng mỗi điểm dữ liệu là một cái cọc trên mặt đất. Chúng ta tìm cách đặt một thanh xà (đường thẳng) sao cho tổng chiều dài các sợi dây nối thẳng đứng từ cọc lên thanh xà là ngắn nhất.
Đây là phương pháp khách quan, đảm bảo ai tính cũng ra kết quả giống nhau.
Lời Kết
Trở nên am hiểu dữ liệu là biết nghi ngờ lành mạnh.
"Lần tới khi bạn đọc một tiêu đề khẳng định mối liên hệ, câu hỏi đầu tiên bạn sẽ tự đặt ra là gì?"