Giới Thiệu & Khái Niệm
Trọng tâm của thống kê là suy luận: đi ngược từ dữ liệu quan sát được để tìm hiểu về mô hình chưa biết.
Mô hình đã biết $\rightarrow$ Dữ liệu.
"Biết xúc xắc cân đối, tỉ lệ ra mặt 6 là bao nhiêu?"
Dữ liệu thực tế $\rightarrow$ Mô hình.
"Thấy 100 lần tung có 20 lần ra mặt 6, vậy xác suất là bao nhiêu?"
Tất cả quan sát
Tập con đại diện
Dữ Liệu Phân Loại
Loại dữ liệu chia nhóm (Ví dụ: Giới tính, Loại lỗi sản phẩm).
Biểu Đồ Thanh (Bar Chart)
Luôn bắt đầu trục tần số từ 0. Việc bắt đầu từ con số khác (ví dụ: 50) sẽ phóng đại sự khác biệt và gây hiểu lầm nghiêm trọng cho người xem.
Biểu đồ Pareto: Là biểu đồ thanh được sắp xếp giảm dần. Giúp nhận diện "số ít quan trọng" (Quy tắc 80/20) để ưu tiên xử lý.
Dữ Liệu Số & Phân Phối
Dữ liệu đo lường được (Chiều cao, Lương, Nhiệt độ). Chúng ta quan tâm đến: Hình dạng, Tâm, và Độ phân tán.
Hình Dạng Phân Phối (Histogram)
Điểm Ngoại Lai (Outliers): Đừng xóa vội! Hãy điều tra. Nó có thể là lỗi nhập liệu, nhưng cũng có thể là một phát hiện đột phá quan trọng.
Định Lượng Thống Kê
Khuynh Hướng Trung Tâm
Tổng chia cho số lượng. Nhạy cảm với ngoại lai (bị kéo về phía đuôi dài).
Giá trị ở giữa. Bền vững trước ngoại lai. Tốt cho dữ liệu thu nhập/nhà đất.
Độ Phân Tán & Biểu Đồ Hộp
Đo lường sự biến thiên của dữ liệu bằng Độ lệch chuẩn ($s$) hoặc Khoảng tứ phân vị (IQR).
Biểu đồ hộp tóm tắt "5 con số" quan trọng nhất.
Nguyên Tắc Vàng
- Bối cảnh: Mẫu có đại diện cho quần thể không? Dữ liệu được thu thập thế nào?
- Công cụ đúng: Dùng Bar/Pie cho Phân loại. Histogram/Boxplot cho Số.
- Trung thực: Không cắt ngắn trục, không bóp méo tỷ lệ.
- Kết hợp: Hình ảnh thu hút + Con số chứng minh = Quyết định tự tin.