Dữ liệu ghép nhóm là dữ liệu đã được sắp xếp vào các khoảng hoặc các lớp (gọi là các nhóm) liền kề nhau. Việc này giúp đơn giản hóa và tóm tắt các bộ dữ liệu lớn, đặc biệt là với dữ liệu liên tục (như chiều cao, cân nặng, thời gian).
Biểu đồ tần số (Histogram):
Đây là dạng biểu đồ phổ biến nhất cho dữ liệu ghép nhóm. Histogram gồm các cột hình chữ nhật liền kề nhau, được đặt trên trục hoành biểu diễn các nhóm dữ liệu. Chiều cao của mỗi cột biểu thị tần số của nhóm tương ứng. Việc các cột liền kề nhau nhấn mạnh tính liên tục của dữ liệu.
Đường gấp khúc tần số (Frequency Polygon):
Được tạo bằng cách nối các điểm có tọa độ là (giá trị đại diện của nhóm, tần số của nhóm). Biểu đồ này rất hữu ích khi muốn so sánh sự phân bố của nhiều bộ dữ liệu trên cùng một hệ trục.
Bài toán: Thời gian (phút) hoàn thành một bài thi của 40 học sinh được ghi lại. Hãy biểu diễn dữ liệu này.
Sau khi thu thập và sắp xếp dữ liệu, ta có bảng tần số ghép nhóm sau. Độ rộng mỗi nhóm là 10 phút.
| Thời gian (phút) | Tần số (Số HS) | Giá trị đại diện |
|---|---|---|
| $[40, 50)$ | 4 | 45 |
| $[50, 60)$ | 9 | 55 |
| $[60, 70)$ | 14 | 65 |
| $[70, 80)$ | 8 | 75 |
| $[80, 90)$ | 5 | 85 |
| Tổng | 40 | - |
Trục tung biểu thị tần số (Số học sinh), trục hoành biểu thị các nhóm thời gian (phút). Các cột chữ nhật có chiều rộng bằng nhau và liền kề nhau.
Nhận xét: Từ histogram, ta thấy nhóm học sinh hoàn thành bài thi trong khoảng $[60, 70)$ phút là đông nhất (14 học sinh). Dữ liệu có xu hướng tập trung ở giữa.
Lỗi: Vẽ các cột của histogram tách rời nhau.
Giải thích: Biểu đồ cột thông thường dùng cho dữ liệu rời rạc hoặc danh mục (ví dụ: màu sắc, loại quả), các cột được vẽ tách rời. Histogram dùng cho dữ liệu liên tục đã được ghép nhóm, các cột phải liền kề nhau để thể hiện tính liên tục đó.
Khắc phục: Luôn vẽ các cột của histogram chạm vào nhau.
Lỗi: Ghi các giá trị đại diện lên trục hoành thay vì các đầu mút của nhóm.
Giải thích: Trục hoành của histogram biểu diễn các khoảng (nhóm) liên tục. Do đó, các vạch chia trên trục phải là các đầu mút của nhóm (ví dụ: 40, 50, 60,...).
Khắc phục: Ghi nhãn trục hoành bằng các đầu mút của nhóm để thể hiện rõ các khoảng giá trị.
Lỗi: Chọn các nhóm có độ rộng khác nhau nhưng vẫn vẽ các cột có chiều rộng bằng nhau. Điều này làm sai lệch sự thể hiện trực quan về mật độ dữ liệu.
Giải thích: Trong histogram, diện tích của cột (không phải chiều cao) mới thực sự tỉ lệ với tần số. Khi độ rộng nhóm bằng nhau, ta có thể dùng chiều cao để biểu thị tần số. Nhưng nếu độ rộng khác nhau, cần phải điều chỉnh chiều cao (gọi là tần suất) để đảm bảo diện tích đúng.
Khắc phục (ở mức độ cơ bản): Cố gắng chia dữ liệu thành các nhóm có độ rộng bằng nhau bất cứ khi nào có thể.
Bài 1: Cho bảng tần số ghép nhóm về cân nặng (kg) của các học sinh trong một lớp:
| Cân nặng (kg) | Tần số |
|---|---|
| $[40, 45)$ | 6 |
| $[45, 50)$ | 12 |
| $[50, 55)$ | 10 |
| $[55, 60)$ | 7 |
a. Độ rộng của mỗi nhóm là bao nhiêu?
b. Giá trị đại diện của nhóm $[50, 55)$ là gì?
c. Nhóm nào chứa mốt (nhóm có tần số lớn nhất)?
a. Độ rộng mỗi nhóm là $45 - 40 = 5$ kg.
b. Giá trị đại diện của nhóm $[50, 55)$ là $(50 + 55) / 2 = 52.5$ kg.
c. Nhóm $[45, 50)$ có tần số lớn nhất (12), vậy đây là nhóm chứa mốt.
Bài 2: Dựa vào histogram ở phần Ví dụ & Minh họa, hãy cho biết có bao nhiêu học sinh hoàn thành bài thi trong ít hơn 60 phút.
Để tìm số học sinh hoàn thành trong ít hơn 60 phút, ta cộng tần số của các nhóm có thời gian nhỏ hơn 60 phút.
Các nhóm đó là: $[40, 50)$ và $[50, 60)$.
Tổng số học sinh là: $4 + 9 = 13$ học sinh.
Bài 1: Tìm tần số còn thiếu
Histogram dưới đây biểu diễn doanh thu hàng ngày (triệu đồng) của một cửa hàng trong 30 ngày. Tuy nhiên, tần số của nhóm $[20, 25)$ đã bị mờ đi.
| Doanh thu (triệu đồng) | Tần số (Số ngày) |
|---|---|
| $[10, 15)$ | 4 |
| $[15, 20)$ | 9 |
| $[20, 25)$ | ? |
| $[25, 30)$ | 6 |
| Tổng | 30 |
Hãy tìm tần số của nhóm $[20, 25)$.
Tổng số ngày khảo sát là 30 ngày.
Tổng tần số của các nhóm đã biết là: $4 + 9 + 6 = 19$ ngày.
Vậy, tần số của nhóm $[20, 25)$ là: $30 - 19 = 11$ ngày.
Bài 2: So sánh hai Histogram
Nhà trường khảo sát điểm thi môn Tiếng Anh của hai lớp 10A1 và 10A2, được biểu diễn bằng hai histogram sau (với trục tung là số học sinh, trục hoành là điểm thi).
Lớp 10A1: Phân bố tập trung cao ở nhóm $[8, 10)$, số lượng học sinh ở các nhóm điểm thấp hơn thì ít.
Lớp 10A2: Phân bố trải đều hơn, có hai đỉnh ở nhóm $[6, 8)$ và $[8, 10)$.
Dựa vào mô tả trên, hãy nhận xét về kết quả học tập của hai lớp. Lớp nào có kết quả đồng đều và tốt hơn?
Nhận xét:
Kết luận: Lớp 10A1 có kết quả tổng thể tốt và đồng đều hơn.