Giới
thiệu biểu đồ hộp
Trong phần về các biểu đồ dùng để mô tả dữ
liệu thống kê, tôi chưa nói đến biểu đồ hộp. Lý do là vì đây một biểu đồ rất
thú vị và hữ u ích trong việc mô tả một số vị trí quan trọng của phân bố nên bàn về box-plot ngay sau bài về các tham số chỉ vị trí của dữ liệu (bài 7) sẽ dễ theo dõi
hơn.
Biểu đồ hộp (Box-plot)hay còn gọi là biểu
đồ hộp-và-râu (box-and-whisker plot) là biểu đồ diễn tả 5 vị trí phân bố của dữ
liệu, đó là : giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung vị
(median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max).
Cách
vẽ biểu đồ hộp :
- Vẽ một trục ngang thể hiện giá trị của dữ liệu
- Bên trên trục giá trị, ta vẽ một hình hộp chữ nhật với cạnh trái là tứ phân vị thứ nhất (Q1) và cạnh phải là tứ phân vị thứ ba (Q3).
- Kẻ một đường thẳng đứng nối cạnh trên và cạnh dưới của hộp tại trung vị.
- Kẻ hai đường râu cho hộp. Tức là ta kẻ một đường ngang từ điểm giữa của cạnh trái hộp đến giá trị nhỏ nhất của hộp mà không phải giá trị ngoại biên (outlier). Tương tự, kẻ một đường ngang từ điểm giữa của cạnh phải hộp đến giá trị lớn nhất của hộp mà không phải giá trị ngoại biên (outlier).
Như vậy, để vẽ một biểu đồ hộp, trước tiên
ta phải tính:
- Trung vị
- Q1 & Q3
- Giá trị thấp của biến (L) và giá trị cao của biến (U)
Một
ví dụ
Ta có bảng số liệu mô tả tỉ lệ CO2
bình quân đầu người của 8 quốc gia đông dân số nhất trên thế giới như sau :
country
|
co2percap
|
china
|
4.9
|
india
|
1.4
|
us
|
18.9
|
indonesia
|
1.8
|
brazil
|
1.9
|
pakistan
|
0.9
|
russia
|
10.8
|
bangladesh
|
0.3
|
Trước khi vẽ boxplot, ta tính toán các
tham số sau :
- Min = 0.32. Q1 = 1.2753. Trung vị median= 1.854. Q3= 6.3755. Max = 18.96. IQR = Q3-Q1= 5.17. Giá trị thấp của biến L = Q1-1,5xIQR = -6.3758. Giá trị cao của biến U = Q3 + 1,5xIQR = 14.0259. Từ (7) và (8), ta suy ra us = 18.9 là một giá trị ngoại biên có thể và sẽ không được tính khi vẽ râu của boxplot.
Dùng phần mềm R, ta vẽ được biểu đồ boxplot của biến CO2 bình quân đầu người như sau:
Trên biểu đồ vẽ bằng R, ta thấy giá trị
ngoại biên được diễn tả bằng một dấu chấm tròn thay vì vẽ chung vào râu của
boxplot để tránh gây cảm nhận là biểu đồ phân bố bị nghiêng nhưng thật ra chỉ
là do ảnh hưởng mạnh của một vài giá trị ngoại biên.
Tóm
lượt những công dụng của biểu đồ hộp:
-Sử dụng cho dữ liệu có cỡ mẫu nhỏ
- Có thể mô tả hình dáng của phân bố dựa
vào độ dài tương đối của râu và hai phần của hộp: phân bố nghiêng về phía có
râu dài hơn và hộp lớn hơn. Tuy nhiên nó không mô tả được khoảng hở (gap) giữa
các phân bố dữ liệu hoặc các chóp (moulds) nếu có.
-Có thể chỉ ra các giá trị ngoại biên nghi
ngờ.
-Có thể dùng để so sánh giữa các nhóm với
nhau.
Phương pháp tìm giá trị ngoại biên dùng giả định phân phối chuẩn:
Khái niệm
z-score
Chỉ số z-score của một giá trị của biến X
là số lần độ lệch chuẩn mà giá trị đó lệch khỏi giá trị trung bình. Nếu z-score
dương thì giá trị đó lớn hơn giá trị trung bình của X, nếu z-score âm thì giá
trị đó nhỏ hơn giá trị trung bình của X. Với x là giá trị của biến X, là giá
trị trung bình và s là độ lệch chuẩn của x so với , ta có công thức tính z-score như sau:
Như ta đã biết,
nếu biến số X tuân theo luật phân phối
chuẩn thì
theo quy tắc kinh nghiệm (xem ở bài 6), 99% giá trị của X sẽ nằm trong khoảng 3 lần độ lệch chuẩn từ giá trị trung
bình, tức z-score bằng 3. Vậy
một giá trị bất kì nằm ngoài khoảng này thì ta nghi ngờ đó là giá trị ngoại
biên.
làm sao để tính q1 và q3
Trả lờiXóaQ1=(0.25*(n+1))--> vị trí-->Q1
XóaQ3=(0.75*(n+1))-->vị trí-->Q3
sao nó khác số ở trên khi tính Q1 và Q3
Xóalàm sao nhìn vào boxplot mà biết được số liệu có tuân theo phân phối chuẩn hay không?
Trả lờiXóa