Thứ Hai, 27 tháng 7, 2015

TK8- Thống kê mô tả : Biểu đồ hộp (box-plot)

Giới thiệu biểu đồ hộp
Trong phần về các biểu đồ dùng để mô tả dữ liệu thống kê, tôi chưa nói đến biểu đồ hộp. Lý do là vì đây một biểu đồ rất thú vị và hữ u ích trong việc mô tả một số vị trí quan trọng của phân bố nên bàn về box-plot ngay sau bài về các tham số chỉ vị trí của dữ liệu (bài 7) sẽ dễ theo dõi hơn.
Biểu đồ hộp (Box-plot)hay còn gọi là biểu đồ hộp-và-râu (box-and-whisker plot) là biểu đồ diễn tả 5 vị trí phân bố của dữ liệu, đó là : giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max).
Cách vẽ biểu đồ hộp :
  1. Vẽ một trục ngang thể hiện giá trị của dữ liệu
  2.  Bên trên trục giá trị, ta vẽ một hình hộp chữ nhật với cạnh trái là tứ phân vị thứ nhất (Q1) và cạnh phải là tứ phân vị thứ ba (Q3).
  3.  Kẻ một đường thẳng đứng nối cạnh trên và cạnh dưới của hộp tại trung vị.
  4.  Kẻ hai đường râu cho hộp. Tức là ta kẻ một đường ngang từ điểm giữa của cạnh trái hộp đến giá trị nhỏ nhất của hộp mà không phải giá trị ngoại biên (outlier). Tương tự, kẻ một đường ngang từ điểm giữa của cạnh phải hộp đến giá trị lớn nhất của hộp mà không phải giá trị ngoại biên (outlier).

Như vậy, để vẽ một biểu đồ hộp, trước tiên ta phải tính:
  •          Trung vị
  •           Q1 & Q3
  •         Giá trị thấp của biến (L) và giá trị cao của biến (U)

Một ví dụ
Ta có bảng số liệu mô tả tỉ lệ CO2 bình quân đầu người của 8 quốc gia đông dân số nhất trên thế giới như sau :
country
co2percap
china   
4.9
india     
1.4
us    
18.9
indonesia
1.8
brazil  
1.9
pakistan 
0.9
russia
10.8
bangladesh    
0.3

Trước khi vẽ boxplot, ta tính toán các tham số sau :

  1.        Min = 0.3
    2.       Q1 = 1.275
    3.       Trung vị median= 1.85
    4.       Q3= 6.375
    5.       Max = 18.9
    6.       IQR = Q3-Q1= 5.1
    7.       Giá trị thấp của biến L = Q1-1,5xIQR = -6.375
    8.       Giá trị cao của biến U = Q3 + 1,5xIQR = 14.025
    9.       Từ (7) và (8), ta suy ra us = 18.9 là một giá trị ngoại biên có thể và sẽ không được tính khi vẽ râu của boxplot. 

      Dùng phần mềm R, ta vẽ được biểu đồ boxplot của biến CO2 bình quân đầu người như sau:
Trên biểu đồ vẽ bằng R, ta thấy giá trị ngoại biên được diễn tả bằng một dấu chấm tròn thay vì vẽ chung vào râu của boxplot để tránh gây cảm nhận là biểu đồ phân bố bị nghiêng nhưng thật ra chỉ là do ảnh hưởng mạnh của một vài giá trị ngoại biên.  
Tóm lượt những công dụng của biểu đồ hộp:
-Sử dụng cho dữ liệu có cỡ mẫu nhỏ
- Có thể mô tả hình dáng của phân bố dựa vào độ dài tương đối của râu và hai phần của hộp: phân bố nghiêng về phía có râu dài hơn và hộp lớn hơn. Tuy nhiên nó không mô tả được khoảng hở (gap) giữa các phân bố dữ liệu hoặc các chóp (moulds) nếu có.
-Có thể chỉ ra các giá trị ngoại biên nghi ngờ.
-Có thể dùng để so sánh giữa các nhóm với nhau.

Phương pháp tìm giá trị ngoại biên dùng giả định phân phối chuẩn:
Khái niệm z-score
Chỉ số z-score của một giá trị của biến X là số lần độ lệch chuẩn mà giá trị đó lệch khỏi giá trị trung bình. Nếu z-score dương thì giá trị đó lớn hơn giá trị trung bình của X, nếu z-score âm thì giá trị đó nhỏ hơn giá trị trung bình của X. Với x là giá trị của biến X, {\overline x } là giá trị trung bình và s là độ lệch chuẩn của x so với {\overline x }, ta có công thức tính z-score như sau:
z - score = \frac{{x - \overline x }}{{{s_x}}}
Như ta đã biết, nếu biến số X tuân theo luật phân phối chuẩn thì theo quy tắc kinh nghiệm (xem ở bài 6), 99% giá trị của X sẽ nằm trong khoảng 3 lần độ lệch chuẩn từ giá trị trung bình, tức z-score bằng 3. Vậy một giá trị bất kì nằm ngoài khoảng này thì ta nghi ngờ đó là giá trị ngoại biên.  

4 nhận xét:

  1. làm sao để tính q1 và q3

    Trả lờiXóa
    Trả lời
    1. Q1=(0.25*(n+1))--> vị trí-->Q1
      Q3=(0.75*(n+1))-->vị trí-->Q3

      Xóa
    2. sao nó khác số ở trên khi tính Q1 và Q3

      Xóa
  2. làm sao nhìn vào boxplot mà biết được số liệu có tuân theo phân phối chuẩn hay không?

    Trả lờiXóa