Hướng Dẫn Thực Hành

Thống Kê Mô Tả: Trình Bày & Diễn Giải Dữ Liệu Hiệu Quả

Chuyển đổi dữ liệu thô thành thông tin chi tiết hữu ích. Biến sự phức tạp thành sự rõ ràng để ra quyết định tự tin.

01

Giới thiệu: Chuyển đổi Dữ liệu

Trọng tâm của thống kê là suy luận — đi ngược từ dữ liệu quan sát được để tìm hiểu về mô hình chưa biết.

Lý thuyết Xác suất

Từ mô hình đã biết Dữ liệu.

"Tôi biết cái xúc xắc cân đối, xác suất ra mặt 6 là 1/6."

Suy luận Thống kê

Từ dữ liệu thực tế Mô hình chưa biết.

"Tôi thấy 100 lần tung có 20 lần ra mặt 6, vậy xác suất là bao nhiêu?"

Quần thể và Mẫu

Quần thể (Population)

Tất cả quan sát khả dĩ. Nhóm lớn nhất mà ta quan tâm.

Mẫu (Sample)

Tập con được đo lường. Phải có tính đại diện (tốt nhất là ngẫu nhiên).

Phân loại (Categorical)
Hỏng hóc: Cơ khí, Điện...
Số (Numerical)
Đường kính: 50.01mm...
02

Trực quan hóa Dữ liệu Phân loại

"Bảng liệt kê con số, nhưng biểu đồ kể chuyện."

Biểu đồ Thanh (Bar Charts)

So sánh độ lớn tần suất giữa các hạng mục. Dễ đọc, trực quan.

Điện
Cơ khí
Vận hành

Biểu đồ Pareto

Sắp xếp giảm dần để tìm "số ít quan trọng" (Quy tắc 80/20). Dùng trong kiểm soát chất lượng.

Giúp tập trung nguồn lực vào 20% nguyên nhân gây ra 80% vấn đề.

CẢNH BÁO: Trục bị cắt ngắn

Luôn bắt đầu trục tần số từ 0. Việc bắt đầu từ con số khác (ví dụ: 70) sẽ phóng đại sự khác biệt và gây hiểu lầm nghiêm trọng.

03

Trình bày Dữ liệu Số

Mục tiêu: Hiểu Hình dạng, TâmĐộ phân tán.

Biểu đồ tần suất (Histogram)

Trục X liên tục
Vấn đề độ rộng cột (Bin Width):
Quá lớn = Mất chi tiết
Vừa phải = Rõ cấu trúc
Quá nhỏ = Nhiễu
Đối xứng
Lệch Dương (Phải)
Hai đỉnh (Tách nhóm)

Điểm ngoại lai (Outliers)

Đừng xóa vội! Hãy điều tra. Nó có thể là lỗi, nhưng cũng có thể là một phát hiện đột phá (khách hàng VIP, lỗi hệ thống nghiêm trọng).

04

Định lượng Dữ liệu

Khuynh hướng Trung tâm

Trung bình (\(\bar{x}\))

Nhạy cảm với ngoại lai. Bị kéo về phía đuôi dài.

Trung vị (Median)

Giá trị ở giữa. Bền vững trước ngoại lai. Tốt cho dữ liệu lương bổng.

"Dữ liệu lệch phải (Lương siêu sao) -> Trung bình > Trung vị"

Độ phân tán

  • Độ lệch chuẩn (s)

    Cùng đơn vị với dữ liệu gốc. Dễ hình dung khoảng biến thiên.

  • Khoảng tứ phân vị (IQR)

    Q3 - Q1. Chứa 50% dữ liệu ở giữa. Không bị ảnh hưởng bởi ngoại lai.

Biểu đồ Hộp (Boxplot)

*
Q1 (25%) Q3 (75%) IQR (50% ở giữa) Ngoại lai
Tổng hợp "5 trong 1": Min, Q1, Median, Q3, Max (+ Ngoại lai).
05

Nguyên tắc Vàng

Checklist Trình bày Dữ liệu

  • Bối cảnh: Mẫu có đại diện cho quần thể không?
  • Công cụ đúng: Thanh/Tròn cho Phân loại. Histogram/Hộp cho Số.
  • Trung thực: Không cắt ngắn trục tần số.
  • Ngoài Trung bình: Luôn xem xét Trung vị nếu dữ liệu bị lệch.
  • Kết hợp: Hình ảnh thu hút + Con số chứng minh.