Các Phương Pháp Thống Kê Mô Tả Để Diễn Giải Dữ Liệu
Chuyển đổi những con số thô thành bức tranh tổng quan có ý nghĩa. Từ lý thuyết xác suất đến suy luận thực tiễn.
Giới thiệu: Từ Lý thuyết đến Thực tiễn
Thống kê mô tả là bước đầu tiên thiết yếu. Để hiểu rõ, ta cần phân biệt hai lĩnh vực cốt lõi:
Lý thuyết Xác suất
Nghiên cứu khi quy luật (hàm mật độ/khối xác suất) đã biết trước. Môi trường lý thuyết hoàn hảo.
Suy luận Thống kê
Suy luận từ dữ liệu thực tế để tìm ra quy luật chưa biết. Đây là khoa học khám phá tri thức.
Nền tảng của Suy luận
"Garbage in, garbage out" - Dữ liệu kém chất lượng dẫn đến kết luận vô giá trị.
Quần thể (Population)
Tất cả các quan sát khả dĩ từ một phân phối.
Mẫu (Sample)
Tập hợp con được dùng để nghiên cứu.
Mẫu ngẫu nhiên
Mọi phần tử đều có cơ hội được chọn như nhau -> Đảm bảo tính đại diện.
Trực quan hóa Dữ liệu
Dữ liệu Định tính
Biểu đồ Thanh & Pareto
Pareto sắp xếp theo tần suất giảm dần. Hữu ích để tìm nguyên nhân cốt lõi (80/20).
Biểu đồ Tròn
Nhấn mạnh tỷ lệ phần trăm so với tổng thể. Tốt cho việc xem thị phần.
Dữ liệu Định lượng: Histogram
Công cụ chính để xem hình dạng phân phối. Lưu ý chọn độ rộng cột (bandwidth) phù hợp.
Điểm ngoại lệ (Outliers)
Đừng vội xóa! Hãy điều tra xem đó là lỗi ghi chép hay là một sự thật hiếm gặp.
Định lượng: Thống kê Mẫu
Xu hướng trung tâm
Nhạy cảm với giá trị cực đoan.
Chia dữ liệu thành 2 phần 50/50. Tốt cho dữ liệu bị lệch (ví dụ: lương).
Loại bỏ X% nhỏ nhất/lớn nhất. Giải pháp "Robust" (mạnh mẽ).
Độ phân tán
-
\(s^2\)
Phương sai mẫu Tổng bình phương độ lệch chia cho \(n-1\).
-
\(s\)
Độ lệch chuẩn Căn bậc hai của phương sai. Cùng đơn vị với dữ liệu gốc.
-
CV
Hệ số biến thiên (\(s / \bar{x}\)) Không có đơn vị. Dùng để so sánh độ biến thiên tương đối.
Ví dụ: Voi vs Chuột
-> Trọng lượng chuột biến thiên nhiều hơn so với kích thước của chúng.
Biểu đồ Hộp (Boxplots)
Công cụ tổng hợp "5 trong 1": Xu hướng trung tâm, độ phân tán, độ lệch và ngoại lệ.
Nhìn vào vị trí của đường trung vị trong hộp và độ dài hai râu để biết dữ liệu lệch trái hay phải.
Nếu Trung bình \(\approx\) Trung vị, dữ liệu có tính đối xứng cao (như ví dụ Xi lanh).
Kết luận
Không chỉ là những con số
Thống kê mô tả là nền tảng của việc ra quyết định. Hiểu hình dạng, trung tâm và sự biến thiên của dữ liệu cho phép chúng ta đưa ra giả thuyết chính xác và hành động hiệu quả.