Báo cáo phân tích

Các Phương Pháp Thống Kê Mô Tả Để Diễn Giải Dữ Liệu

Chuyển đổi những con số thô thành bức tranh tổng quan có ý nghĩa. Từ lý thuyết xác suất đến suy luận thực tiễn.

01

Giới thiệu: Từ Lý thuyết đến Thực tiễn

Thống kê mô tả là bước đầu tiên thiết yếu. Để hiểu rõ, ta cần phân biệt hai lĩnh vực cốt lõi:

Lý thuyết Xác suất

Nghiên cứu khi quy luật (hàm mật độ/khối xác suất) đã biết trước. Môi trường lý thuyết hoàn hảo.

Suy luận Thống kê

Suy luận từ dữ liệu thực tế để tìm ra quy luật chưa biết. Đây là khoa học khám phá tri thức.

02

Nền tảng của Suy luận

"Garbage in, garbage out" - Dữ liệu kém chất lượng dẫn đến kết luận vô giá trị.

Quần thể (Population)

Tất cả các quan sát khả dĩ từ một phân phối.

Mẫu (Sample)

Tập hợp con được dùng để nghiên cứu.

Mẫu ngẫu nhiên

Mọi phần tử đều có cơ hội được chọn như nhau -> Đảm bảo tính đại diện.

Loại dữ liệu
Định tính
(Categorical)
Ví dụ: Màu sắc, Lỗi
Loại dữ liệu
Định lượng
(Numerical)
Ví dụ: Chiều cao, Giá
03

Trực quan hóa Dữ liệu

Dữ liệu Định tính

Biểu đồ Thanh & Pareto

Pareto sắp xếp theo tần suất giảm dần. Hữu ích để tìm nguyên nhân cốt lõi (80/20).

Biểu đồ Tròn

Nhấn mạnh tỷ lệ phần trăm so với tổng thể. Tốt cho việc xem thị phần.

Cảnh báo: Tránh cắt ngắn trục tung (không bắt đầu từ 0) để không gây hiểu lầm về sự khác biệt.

Dữ liệu Định lượng: Histogram

Công cụ chính để xem hình dạng phân phối. Lưu ý chọn độ rộng cột (bandwidth) phù hợp.

Đối xứng
Lệch Phải
Hai Đỉnh

Điểm ngoại lệ (Outliers)

Đừng vội xóa! Hãy điều tra xem đó là lỗi ghi chép hay là một sự thật hiếm gặp.

04

Định lượng: Thống kê Mẫu

Xu hướng trung tâm

Trung bình mẫu (\(\bar{x}\))

Nhạy cảm với giá trị cực đoan.

Trung vị mẫu

Chia dữ liệu thành 2 phần 50/50. Tốt cho dữ liệu bị lệch (ví dụ: lương).

Trung bình cắt tỉa

Loại bỏ X% nhỏ nhất/lớn nhất. Giải pháp "Robust" (mạnh mẽ).

Độ phân tán

  • \(s^2\)
    Phương sai mẫu Tổng bình phương độ lệch chia cho \(n-1\).
  • \(s\)
    Độ lệch chuẩn Căn bậc hai của phương sai. Cùng đơn vị với dữ liệu gốc.
  • CV
    Hệ số biến thiên (\(s / \bar{x}\)) Không có đơn vị. Dùng để so sánh độ biến thiên tương đối.

Ví dụ: Voi vs Chuột

Độ lệch chuẩn lớn (150kg)
CV thấp (0.033)
Độ lệch chuẩn nhỏ (1.67g)
CV cao (0.056)

-> Trọng lượng chuột biến thiên nhiều hơn so với kích thước của chúng.

05

Biểu đồ Hộp (Boxplots)

Công cụ tổng hợp "5 trong 1": Xu hướng trung tâm, độ phân tán, độ lệch và ngoại lệ.

*
Min
Max
IQR (50% dữ liệu giữa)
Ngoại lệ
Độ lệch (Skewness)

Nhìn vào vị trí của đường trung vị trong hộp và độ dài hai râu để biết dữ liệu lệch trái hay phải.

Tính đối xứng

Nếu Trung bình \(\approx\) Trung vị, dữ liệu có tính đối xứng cao (như ví dụ Xi lanh).

06

Kết luận

Không chỉ là những con số

Thống kê mô tả là nền tảng của việc ra quyết định. Hiểu hình dạng, trung tâm và sự biến thiên của dữ liệu cho phép chúng ta đưa ra giả thuyết chính xác và hành động hiệu quả.

Dữ liệu thô Thông tin giá trị