Lấy mẫu và Suy luận Thống kê
Định nghĩa
Thống kê thường nghiên cứu một tổng thể (population) lớn, nhưng việc thu thập dữ liệu từ mọi cá thể là không khả thi. Thay vào đó, chúng ta chọn một tập hợp con nhỏ hơn gọi là mẫu (sample).
- Lấy mẫu (Sampling): Là quá trình chọn một mẫu đại diện từ một tổng thể lớn hơn.
- Suy luận thống kê (Statistical Inference): Là việc sử dụng thông tin từ mẫu để đưa ra kết luận, dự đoán hoặc quyết định về toàn bộ tổng thể.
Chất lượng của suy luận phụ thuộc rất nhiều vào việc mẫu có tính đại diện cho tổng thể hay không.
Ví dụ minh họa
Một công ty muốn biết tỷ lệ người dùng hài lòng với sản phẩm mới của họ trên toàn quốc (tổng thể). Thay vì hỏi hàng triệu người, họ tiến hành khảo sát 1,000 người dùng được chọn ngẫu nhiên (mẫu). Nếu trong mẫu có 800 người hài lòng (80%), công ty có thể suy luận rằng tỷ lệ hài lòng trong tổng thể cũng xấp xỉ 80%.
Sai lầm thường gặp: Mẫu thiên vị (Biased Sample)
Đây là sai lầm xảy ra khi mẫu được chọn không đại diện cho tổng thể, dẫn đến kết luận sai. Ví dụ: Để khảo sát ý kiến về việc xây công viên mới, chỉ hỏi những người sống ngay cạnh khu đất dự kiến. Mẫu này bị thiên vị vì họ có khả năng ủng hộ cao hơn so với dân cư toàn thành phố.
Bài tập cơ bản
Một trường trung học muốn ước tính chiều cao trung bình của tất cả 1,500 học sinh. Họ quyết định đo chiều cao của 50 học sinh trong đội bóng rổ của trường. Mẫu này có phải là mẫu tốt không? Tại sao?
Hiện đáp ánĐây là một mẫu không tốt (mẫu thiên vị). Các học sinh trong đội bóng rổ có xu hướng cao hơn mức trung bình của toàn bộ học sinh. Do đó, chiều cao trung bình tính từ mẫu này sẽ cao hơn chiều cao trung bình thực tế của 1,500 học sinh, dẫn đến suy luận không chính xác.
Biểu đồ Phân tán (Scatter Plots)
Định nghĩa
Biểu đồ phân tán sử dụng các điểm để biểu diễn giá trị của hai biến số, giúp quan sát mối quan hệ hoặc tương quan giữa chúng. Mỗi điểm trên biểu đồ tương ứng với một cặp giá trị (x, y).
Phân tích mối tương quan
- Tương quan dương (Positive Correlation): Khi giá trị của biến X tăng, giá trị của biến Y cũng có xu hướng tăng. Các điểm tạo thành một dải hướng lên trên.
- Tương quan âm (Negative Correlation): Khi giá trị của biến X tăng, giá trị của biến Y có xu hướng giảm. Các điểm tạo thành một dải hướng xuống dưới.
- Không tương quan (No Correlation): Các điểm phân bố ngẫu nhiên, không tạo thành một xu hướng rõ ràng.
Ví dụ minh họa
Số giờ học và điểm thi: Biểu đồ dưới đây thể hiện mối quan hệ giữa số giờ một sinh viên dành để học (trục X) và điểm thi của họ (trục Y).
Ta thấy một mối tương quan dương: nhìn chung, sinh viên học càng nhiều giờ thì điểm thi càng cao.
Đường xu hướng (Line of Best Fit)
Định nghĩa
Đường xu hướng (đường hồi quy tuyến tính) là một đường thẳng đi qua biểu đồ phân tán để mô tả tốt nhất mối quan hệ giữa các điểm dữ liệu. Nó giúp tóm tắt xu hướng chung và cho phép chúng ta đưa ra dự đoán.
Phương trình của đường thẳng này thường có dạng $y = mx + b$.
Tính chất
- Nó thể hiện xu hướng chính của dữ liệu (tăng, giảm, hay không đổi).
- Nó có thể được sử dụng để dự đoán (predict) giá trị của biến $y$ dựa trên một giá trị đã biết của biến $x$.
Ví dụ minh họa
Dựa trên biểu đồ phân tán về giờ học và điểm thi, ta có thể vẽ một đường xu hướng để làm rõ mối quan hệ.
Đường thẳng này cho thấy một xu hướng tổng thể là điểm số tăng lên cùng với số giờ học. Dựa vào đường này, ta có thể ước tính rằng một sinh viên học 7 giờ sẽ đạt khoảng 85 điểm.
Bài tập nâng cao
Một công ty phân tích dữ liệu về chi phí quảng cáo (biến X, đơn vị: triệu đồng) và doanh thu (biến Y, đơn vị: trăm triệu đồng). Họ tìm được đường xu hướng là $y = 2.1x + 5$.
a) Giải thích ý nghĩa của hệ số góc $2.1$.
b) Dự đoán doanh thu nếu công ty không chi đồng nào cho quảng cáo.
c) Việc dự đoán doanh thu cho mức chi phí quảng cáo 100 triệu đồng (rất xa các điểm dữ liệu đã có) có đáng tin cậy không? Tại sao?
a) Ý nghĩa hệ số góc: Hệ số góc $m = 2.1$ có nghĩa là với mỗi triệu đồng tăng thêm trong chi phí quảng cáo, doanh thu dự kiến sẽ tăng thêm $2.1 \times 100 = 210$ triệu đồng.
b) Dự đoán doanh thu khi không quảng cáo: Thay $x=0$ vào phương trình: $y = 2.1(0) + 5 = 5$. Doanh thu dự đoán là 5 trăm triệu đồng (tức 500 triệu đồng). Đây là ý nghĩa của hệ số chặn $b$.
c) Việc dự đoán này không đáng tin cậy. Quá trình này được gọi là ngoại suy (extrapolation). Đường xu hướng chỉ mô tả tốt mối quan hệ trong phạm vi dữ liệu đã quan sát. Mối quan hệ này có thể không còn tuyến tính khi chi phí quảng cáo rất lớn.