📊 Thống kê Mô tả

Các phương pháp tóm tắt và trình bày dữ liệu

1. Giới thiệu

Thống kê mô tả là lĩnh vực của thống kê liên quan đến việc tóm tắt, tổ chức và trình bày dữ liệu một cách có ý nghĩa. Mục đích của nó không phải là để đưa ra kết luận về một tổng thể lớn hơn, mà là để mô tả các đặc điểm chính của mẫu dữ liệu hiện có.

Hai loại số đo chính:

  • Các số đo xu thế trung tâm (Measures of Central Tendency): Cho biết giá trị "điển hình" hoặc "trung tâm" của bộ dữ liệu.
  • Các số đo độ phân tán (Measures of Dispersion): Cho biết mức độ "trải rộng" hay "biến thiên" của các giá trị trong bộ dữ liệu.

2. Các số đo xu thế trung tâm

a. Trung bình cộng (Mean)

Là tổng tất cả các giá trị chia cho số lượng các giá trị đó. Ký hiệu là $\bar{x}$.

$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + \dots + x_n}{n} $$

b. Trung vị (Median)

Là giá trị nằm ở chính giữa của một bộ dữ liệu đã được sắp xếp theo thứ tự. Trung vị ít bị ảnh hưởng bởi các giá trị ngoại lai (outliers).

  • Nếu số lượng dữ liệu $n$ là số lẻ, trung vị là giá trị ở vị trí thứ $\frac{n+1}{2}$.
  • Nếu $n$ là số chẵn, trung vị là trung bình cộng của hai giá trị ở giữa (vị trí $\frac{n}{2}$ và $\frac{n}{2}+1$).

c. Yếu vị (Mode)

Là giá trị xuất hiện với tần suất cao nhất trong bộ dữ liệu. Một bộ dữ liệu có thể có một, nhiều, hoặc không có yếu vị nào.

3. Các số đo độ phân tán

a. Khoảng biến thiên (Range)

Là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất trong bộ dữ liệu.

$$ \text{Range} = \text{Max} - \text{Min} $$

b. Phương sai (Variance)

Đo lường mức độ các giá trị phân tán xung quanh giá trị trung bình. Phương sai mẫu, ký hiệu $s^2$, được tính bằng tổng bình phương các khoảng cách từ mỗi giá trị đến trung bình, chia cho $n-1$.

$$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$

c. Độ lệch chuẩn (Standard Deviation)

Là căn bậc hai của phương sai, ký hiệu là $s$. Nó được sử dụng phổ biến hơn phương sai vì có cùng đơn vị với dữ liệu gốc.

$$ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$

Độ lệch chuẩn nhỏ cho thấy các giá trị có xu hướng gần với trung bình, trong khi độ lệch chuẩn lớn cho thấy các giá trị trải rộng hơn.

4. Ví dụ Minh họa

Dữ liệu: Điểm 7 bài kiểm tra của một học sinh là: $\{ 7, 9, 8, 10, 8, 6, 8 \}$.

  1. Sắp xếp dữ liệu: $\{ 6, 7, 8, 8, 8, 9, 10 \}$.
  2. Tính các số đo xu thế trung tâm:
    • Trung bình cộng: $\bar{x} = \frac{6+7+8+8+8+9+10}{7} = \frac{56}{7} = 8$.
    • Trung vị: Dữ liệu có 7 giá trị (lẻ), giá trị ở giữa (vị trí thứ 4) là 8.
    • Yếu vị: Số 8 xuất hiện nhiều nhất (3 lần).
  3. Tính các số đo độ phân tán:
    • Khoảng biến thiên: $10 - 6 = 4$.
    • Phương sai:
      Tổng bình phương sai lệch: $(6-8)^2 + (7-8)^2 + (8-8)^2 + (8-8)^2 + (8-8)^2 + (9-8)^2 + (10-8)^2$
      $= (-2)^2 + (-1)^2 + 0^2 + 0^2 + 0^2 + 1^2 + 2^2 = 4+1+0+0+0+1+4 = 10$.
      $s^2 = \frac{10}{7-1} = \frac{10}{6} \approx 1.67$.
    • Độ lệch chuẩn: $s = \sqrt{\frac{10}{6}} \approx 1.29$.

5. Sai lầm thường gặp 🧐

  • Quên sắp xếp dữ liệu: Sai lầm phổ biến nhất khi tìm trung vị là quên không sắp xếp dữ liệu trước.
  • Nhầm lẫn giữa các số đo trung tâm: Sử dụng sai tên gọi cho các giá trị (ví dụ, gọi trung bình là trung vị).
  • Sử dụng sai công thức phương sai: Chia cho $n$ thay vì $n-1$ khi tính phương sai cho mẫu.
  • Diễn giải sai về độ lệch chuẩn: Không hiểu rằng độ lệch chuẩn nhỏ có nghĩa là dữ liệu tập trung, còn độ lệch chuẩn lớn có nghĩa là dữ liệu phân tán.

6. Bài tập

Bài tập cơ bản ✏️

Bài 1

Cho bộ dữ liệu về số tuổi của 5 người: $\{ 22, 25, 22, 31, 20 \}$. Hãy tính trung bình, trung vị và yếu vị của bộ dữ liệu này.

1. Sắp xếp: $\{ 20, 22, 22, 25, 31 \}$.
2. Trung bình: $\bar{x} = (20+22+22+25+31)/5 = 120/5 = 24$.
3. Trung vị: Giá trị ở giữa là 22.
4. Yếu vị: Giá trị xuất hiện nhiều nhất là 22.

Bài tập nâng cao 🚀

Bài 2

Chiều cao (cm) của 6 vận động viên được ghi lại như sau: $\{ 175, 180, 182, 178, 180, 193 \}$. Hãy tính khoảng biến thiên, phương sai và độ lệch chuẩn của bộ dữ liệu.

1. Khoảng biến thiên: $193 - 175 = 18$ cm.
2. Trung bình: $\bar{x} = (175+180+182+178+180+193)/6 = 1088/6 \approx 181.33$ cm.
3. Phương sai:
Tổng bình phương sai lệch: $(175-181.33)^2 + (180-181.33)^2 + \dots + (193-181.33)^2$
$\approx (-6.33)^2 + (-1.33)^2 + (0.67)^2 + (-3.33)^2 + (-1.33)^2 + (11.67)^2$
$\approx 40.07 + 1.77 + 0.45 + 11.09 + 1.77 + 136.19 = 191.34$.
$s^2 = \frac{191.34}{6-1} = \frac{191.34}{5} \approx 38.27$. 4. Độ lệch chuẩn: $s = \sqrt{38.27} \approx 6.19$ cm.
Bài 3 (Câu hỏi khái niệm)

Xét bộ dữ liệu ở Bài 1: $\{ 22, 25, 22, 31, 20 \}$. Nếu một người thứ sáu có số tuổi là 60 tham gia vào nhóm, số đo nào (trung bình hay trung vị) sẽ bị ảnh hưởng nhiều hơn? Tại sao?

Trung bình cộng sẽ bị ảnh hưởng nhiều hơn.

Giải thích:
  • Trung bình cộng sử dụng tất cả các giá trị trong phép tính. Một giá trị ngoại lai rất lớn như 60 sẽ kéo giá trị trung bình tăng lên đáng kể. Trung bình mới sẽ là $(120+60)/6 = 30$, tăng từ 24 lên 30.
  • Trung vị chỉ phụ thuộc vào vị trí của các giá trị. Dữ liệu mới sau khi sắp xếp là $\{20, 22, 22, 25, 31, 60\}$. Trung vị mới là trung bình của hai số ở giữa (22 và 25), tức là $(22+25)/2 = 23.5$. Nó chỉ tăng nhẹ từ 22 lên 23.5.
Do đó, trung vị là số đo "bền vững" hơn trước các giá trị ngoại lai.