Giới Thiệu & Khái Niệm

Trọng tâm của thống kê là suy luận: đi ngược từ dữ liệu quan sát được để tìm hiểu về mô hình chưa biết.

Xác Suất

Mô hình đã biết $\rightarrow$ Dữ liệu.
"Biết xúc xắc cân đối, tỉ lệ ra mặt 6 là bao nhiêu?"

Thống Kê

Dữ liệu thực tế $\rightarrow$ Mô hình.
"Thấy 100 lần tung có 20 lần ra mặt 6, vậy xác suất là bao nhiêu?"

Quần Thể
Tất cả quan sát
Mẫu
Tập con đại diện

Dữ Liệu Phân Loại

Loại dữ liệu chia nhóm (Ví dụ: Giới tính, Loại lỗi sản phẩm).

Biểu Đồ Thanh (Bar Chart)

Điện (40)
Cơ Khí (80)
Khác (30)
CẢNH BÁO TRỤC CẮT NGẮN:
Luôn bắt đầu trục tần số từ 0. Việc bắt đầu từ con số khác (ví dụ: 50) sẽ phóng đại sự khác biệt và gây hiểu lầm nghiêm trọng cho người xem.

Biểu đồ Pareto: Là biểu đồ thanh được sắp xếp giảm dần. Giúp nhận diện "số ít quan trọng" (Quy tắc 80/20) để ưu tiên xử lý.

Dữ Liệu Số & Phân Phối

Dữ liệu đo lường được (Chiều cao, Lương, Nhiệt độ). Chúng ta quan tâm đến: Hình dạng, Tâm, và Độ phân tán.

Hình Dạng Phân Phối (Histogram)

Đối Xứng (Chuông)
Lệch Phải (Pos Skew)
Hai Đỉnh (Bimodal)

Điểm Ngoại Lai (Outliers): Đừng xóa vội! Hãy điều tra. Nó có thể là lỗi nhập liệu, nhưng cũng có thể là một phát hiện đột phá quan trọng.

Định Lượng Thống Kê

Khuynh Hướng Trung Tâm

Trung Bình ($\bar{x}$)

Tổng chia cho số lượng. Nhạy cảm với ngoại lai (bị kéo về phía đuôi dài).

Trung Vị (Median)

Giá trị ở giữa. Bền vững trước ngoại lai. Tốt cho dữ liệu thu nhập/nhà đất.

Độ Phân Tán & Biểu Đồ Hộp

Đo lường sự biến thiên của dữ liệu bằng Độ lệch chuẩn ($s$) hoặc Khoảng tứ phân vị (IQR).

*
Min Q1 Median Q3 Max

Biểu đồ hộp tóm tắt "5 con số" quan trọng nhất.

Nguyên Tắc Vàng

  • Bối cảnh: Mẫu có đại diện cho quần thể không? Dữ liệu được thu thập thế nào?
  • Công cụ đúng: Dùng Bar/Pie cho Phân loại. Histogram/Boxplot cho Số.
  • Trung thực: Không cắt ngắn trục, không bóp méo tỷ lệ.
  • Kết hợp: Hình ảnh thu hút + Con số chứng minh = Quyết định tự tin.