Khám phá Cách Biểu diễn Dữ liệu Ghép nhóm 📊

Định nghĩa & Các loại biểu đồ

1. Dữ liệu ghép nhóm là gì?

Dữ liệu ghép nhóm là dữ liệu đã được sắp xếp vào các khoảng hoặc các lớp (gọi là các nhóm) liền kề nhau. Việc này giúp đơn giản hóa và tóm tắt các bộ dữ liệu lớn, đặc biệt là với dữ liệu liên tục (như chiều cao, cân nặng, thời gian).

  • Nhóm (Lớp): Mỗi khoảng giá trị, ví dụ $[150, 160)$. Ký hiệu $[a, b)$ nghĩa là nhóm bao gồm các giá trị từ $a$ đến nhỏ hơn $b$.
  • Tần số của nhóm: Là số lượng giá trị dữ liệu rơi vào trong nhóm đó.
  • Độ rộng nhóm: Là hiệu số giữa đầu mút trên và đầu mút dưới của một nhóm. Nên chọn độ rộng các nhóm bằng nhau để dễ so sánh.
  • Giá trị đại diện của nhóm: Là trung điểm của nhóm, thường được dùng trong các tính toán thống kê. Công thức: $(\text{Đầu mút dưới} + \text{Đầu mút trên}) / 2$.

2. Các loại biểu đồ phổ biến

Biểu đồ tần số (Histogram):

Đây là dạng biểu đồ phổ biến nhất cho dữ liệu ghép nhóm. Histogram gồm các cột hình chữ nhật liền kề nhau, được đặt trên trục hoành biểu diễn các nhóm dữ liệu. Chiều cao của mỗi cột biểu thị tần số của nhóm tương ứng. Việc các cột liền kề nhau nhấn mạnh tính liên tục của dữ liệu.

Đường gấp khúc tần số (Frequency Polygon):

Được tạo bằng cách nối các điểm có tọa độ là (giá trị đại diện của nhóm, tần số của nhóm). Biểu đồ này rất hữu ích khi muốn so sánh sự phân bố của nhiều bộ dữ liệu trên cùng một hệ trục.

3. Sơ đồ tư duy

  • Biểu diễn Dữ liệu Ghép nhóm
    • Khái niệm
      • Sắp xếp dữ liệu vào các nhóm (lớp) liên tiếp.
      • Các thuật ngữ: Tần số nhóm, Độ rộng nhóm, Giá trị đại diện.
    • Các loại biểu đồ
      • Biểu đồ tần số (Histogram): Các cột liền kề, chiều cao thể hiện tần số.
      • Đường gấp khúc tần số: Nối các điểm (giá trị đại diện, tần số).
    • Mục đích
      • Tóm tắt bộ dữ liệu lớn.
      • Phân tích sự phân bố, tìm nhóm có tần số lớn nhất (nhóm chứa mốt).

Ví dụ & Minh họa

Bài toán: Thời gian (phút) hoàn thành một bài thi của 40 học sinh được ghi lại. Hãy biểu diễn dữ liệu này.

Bước 1: Lập bảng tần số ghép nhóm

Sau khi thu thập và sắp xếp dữ liệu, ta có bảng tần số ghép nhóm sau. Độ rộng mỗi nhóm là 10 phút.

Thời gian (phút)Tần số (Số HS)Giá trị đại diện
$[40, 50)$445
$[50, 60)$955
$[60, 70)$1465
$[70, 80)$875
$[80, 90)$585
Tổng40-

Bước 2: Vẽ Biểu đồ tần số (Histogram)

Trục tung biểu thị tần số (Số học sinh), trục hoành biểu thị các nhóm thời gian (phút). Các cột chữ nhật có chiều rộng bằng nhau và liền kề nhau.

Histogram thời gian hoàn thành bài thi

4
[40,50)
9
[50,60)
14
[60,70)
8
[70,80)
5
[80,90)

Nhận xét: Từ histogram, ta thấy nhóm học sinh hoàn thành bài thi trong khoảng $[60, 70)$ phút là đông nhất (14 học sinh). Dữ liệu có xu hướng tập trung ở giữa.

Sai lầm thường gặp

1. Nhầm Histogram với Biểu đồ cột (Bar Chart)

Lỗi: Vẽ các cột của histogram tách rời nhau.

Giải thích: Biểu đồ cột thông thường dùng cho dữ liệu rời rạc hoặc danh mục (ví dụ: màu sắc, loại quả), các cột được vẽ tách rời. Histogram dùng cho dữ liệu liên tục đã được ghép nhóm, các cột phải liền kề nhau để thể hiện tính liên tục đó.

Khắc phục: Luôn vẽ các cột của histogram chạm vào nhau.

2. Ghi nhãn trục hoành không chính xác

Lỗi: Ghi các giá trị đại diện lên trục hoành thay vì các đầu mút của nhóm.

Giải thích: Trục hoành của histogram biểu diễn các khoảng (nhóm) liên tục. Do đó, các vạch chia trên trục phải là các đầu mút của nhóm (ví dụ: 40, 50, 60,...).

Khắc phục: Ghi nhãn trục hoành bằng các đầu mút của nhóm để thể hiện rõ các khoảng giá trị.

3. Sử dụng độ rộng nhóm không đều

Lỗi: Chọn các nhóm có độ rộng khác nhau nhưng vẫn vẽ các cột có chiều rộng bằng nhau. Điều này làm sai lệch sự thể hiện trực quan về mật độ dữ liệu.

Giải thích: Trong histogram, diện tích của cột (không phải chiều cao) mới thực sự tỉ lệ với tần số. Khi độ rộng nhóm bằng nhau, ta có thể dùng chiều cao để biểu thị tần số. Nhưng nếu độ rộng khác nhau, cần phải điều chỉnh chiều cao (gọi là tần suất) để đảm bảo diện tích đúng.

Khắc phục (ở mức độ cơ bản): Cố gắng chia dữ liệu thành các nhóm có độ rộng bằng nhau bất cứ khi nào có thể.

Bài tập Cơ bản

Bài 1: Cho bảng tần số ghép nhóm về cân nặng (kg) của các học sinh trong một lớp:

Cân nặng (kg)Tần số
$[40, 45)$6
$[45, 50)$12
$[50, 55)$10
$[55, 60)$7

a. Độ rộng của mỗi nhóm là bao nhiêu?

b. Giá trị đại diện của nhóm $[50, 55)$ là gì?

c. Nhóm nào chứa mốt (nhóm có tần số lớn nhất)?

Xem đáp án

a. Độ rộng mỗi nhóm là $45 - 40 = 5$ kg.

b. Giá trị đại diện của nhóm $[50, 55)$ là $(50 + 55) / 2 = 52.5$ kg.

c. Nhóm $[45, 50)$ có tần số lớn nhất (12), vậy đây là nhóm chứa mốt.

Bài 2: Dựa vào histogram ở phần Ví dụ & Minh họa, hãy cho biết có bao nhiêu học sinh hoàn thành bài thi trong ít hơn 60 phút.

Xem đáp án

Để tìm số học sinh hoàn thành trong ít hơn 60 phút, ta cộng tần số của các nhóm có thời gian nhỏ hơn 60 phút.

Các nhóm đó là: $[40, 50)$ và $[50, 60)$.

Tổng số học sinh là: $4 + 9 = 13$ học sinh.

Bài tập Nâng cao

Bài 1: Tìm tần số còn thiếu

Histogram dưới đây biểu diễn doanh thu hàng ngày (triệu đồng) của một cửa hàng trong 30 ngày. Tuy nhiên, tần số của nhóm $[20, 25)$ đã bị mờ đi.

Doanh thu (triệu đồng)Tần số (Số ngày)
$[10, 15)$4
$[15, 20)$9
$[20, 25)$?
$[25, 30)$6
Tổng30

Hãy tìm tần số của nhóm $[20, 25)$.

Xem đáp án

Tổng số ngày khảo sát là 30 ngày.

Tổng tần số của các nhóm đã biết là: $4 + 9 + 6 = 19$ ngày.

Vậy, tần số của nhóm $[20, 25)$ là: $30 - 19 = 11$ ngày.

Bài 2: So sánh hai Histogram

Nhà trường khảo sát điểm thi môn Tiếng Anh của hai lớp 10A1 và 10A2, được biểu diễn bằng hai histogram sau (với trục tung là số học sinh, trục hoành là điểm thi).

Lớp 10A1: Phân bố tập trung cao ở nhóm $[8, 10)$, số lượng học sinh ở các nhóm điểm thấp hơn thì ít.

Lớp 10A2: Phân bố trải đều hơn, có hai đỉnh ở nhóm $[6, 8)$ và $[8, 10)$.

Dựa vào mô tả trên, hãy nhận xét về kết quả học tập của hai lớp. Lớp nào có kết quả đồng đều và tốt hơn?

Xem đáp án

Nhận xét:

  • Lớp 10A1: Có kết quả học tập tốt và đồng đều hơn. Histogram của lớp này cho thấy đa số học sinh tập trung ở mức điểm cao (8-10 điểm). Phân bố này được gọi là "lệch trái" (skewed left), vì phần đuôi của đồ thị kéo dài về phía các giá trị thấp. Đây là một dấu hiệu tốt trong bối cảnh điểm thi.
  • Lớp 10A2: Kết quả học tập có sự phân hóa rõ rệt hơn. Biểu đồ có hai đỉnh (bimodal) cho thấy lớp có hai nhóm học sinh chính: một nhóm có kết quả khá (6-8 điểm) và một nhóm có kết quả giỏi (8-10 điểm). Sự phân bố này không đồng đều bằng lớp 10A1.

Kết luận: Lớp 10A1 có kết quả tổng thể tốt và đồng đều hơn.