Thứ Năm, 30 tháng 7, 2015

TK 11. Dự đoán kết quả của một biến: Giới thiệu phương trình hồi quy

Đường hồi quy (regression line) là đường thẳng mô tả mối tương quan tuyến tính giữa hai biến. Phương trình đường hồi quy (regression equation)  có thể dự đoán giá trị của biến kết quả y dựa trên một giá trị của biến giải thích x cho sẵn:
\widehat y = a + bx
Trong đó:
\widehat y(đọc là y-hat hay y mũ) là giá trị của y với x cho trước;
 a là giao điểm của đường hồi quy với trục tung (y-intercept)
b là hệ số góc, hay chính là lượng thay đổi của y khi x tăng lên một đơn vị, ta có:
b = \frac{{rise}}{{run}} = \frac{{change - in - y}}{{change - in - x}}
Giá trị tuyệt đối của b càng lớn thì đường hồi quy càng dốc.
Tương tự như hệ số tương quan, dấu của hệ số góc cũng thể hiện chiều của tương quan:
  • Nếu b >0 thì tương quan thuận
  • Nếu b < thì tương quan nghịch
  • Nếu b = 0 thì không có tương quan

Lưu ý: Trước tiên ta vẽ biểu đồ tán xạ để xem hai biến có quan hệ tuyến tính hay không, nếu có thì mới dùng các phần mềm thống kê để tính toán các chỉ số a và b để từ đó thiết lập phương trình hồi quy.
Phần dư (residuals) là khoảng khác biệt giữa giá trị của y dự đoán bởi phương trình hồi quy  so với giá trị thực tế của y. Trên biểu đồ tán xạ, phần dư được thể hiện bẳng một đường thẳng nối từ điểm ({x_0};\widehat y) trên đường hồi quy đến điểm ({x_0};{y_0}).
  • Phần dư dương nếu y thực tế ({y_0}) lớn hơn y dự đoán (\widehat y).
  • Phần dư âm nếu {y_0} nhỏ hơn\widehat y  .
  • Phần dư bằng 0 nếu {y_0} =\widehat y  .

Phần mềm thống kê có thể giúp ta tính phần dư của mỗi quan sát trong toàn bộ dữ liệu. Ta có thể dễ dàng tìm thấy những phần dư có giá trị đặc biệt lớn bằng cách vẽ biểu đồ tần số (vd như histogram).

Phương pháp bình phương nhỏ nhất (Least Squares Method) là một cách thức đơn giản mà các phần mềm thống kê dùng để tính phương trình đường hồi quy mà trong đó máy tính sẽ tìm ra trong số rất nhiều đường thẳng có thể để chọn lấy đường thẳng có tổng bình phương phần dư nhỏ nhất và có dạng  để dự đoán giá trị của y một cách gần đúng nhất.
residual.Sum.of.squares = \sum {{{(residual)}^2} = \sum {(y - } } \widehat y{)^2}
Tính chất của đường hồi quy:
  • Vì có phần dư dương lẫn âm nên tổng (và trung bình cộng) của các phần dư bằng 0.
  • Đường hồi quy đi qua điểm giữa của dữ liệu  (\overline x ;\overline y )  (với  \overline x   và  \overline y   là giá trị trung bình của x và y)

Gọi {s_x} và {s_y} là độ lệch chuẩn của x và y, ta có:
Hệ số góc :  b = r\left( {\frac{{{s_y}}}{{{s_x}}}} \right)
y-intercept : a = \overline y  - b.(\overline x )

So sánh hệ số góc và hệ số tương quan:
Giống nhau :Đều được dùng để chỉ mối tương quan tuyến tính và cùng dấu với nhau (âm, dương hoặc bằng 0)
Khác nhau :
  • Hệ số tương quan dao động từ -1 đến +1 còn hệ số góc có thể nhận giá trị bất kì.
  • Đường hồi quy dự đoán giá trị của y theo x và đường hồi quy dự đoán giá trị của x theo y sẽ có phương trình khác nhau (hệ số góc khác nhau) còn hệ số tương quan giữ nguyên  khi có sự thay đổi vai trò này giữa x và y.
  • Hệ số góc và y-intercept thay đổi theo đơn vị của x còn hệ số tương quan thì không. 

Thứ Tư, 29 tháng 7, 2015

TK10. Mối liên hệ giữa các biến định lượng

Để biểu diễn mối liên hệ giữa hai biến định lượng, người ta dùng biểu đồ tán xạ (scatterplot). Đây là biểu đồ gồm có trục hoành - biểu diễn biến giải thích x và trục tung - biểu diễn biến kết quả y. Giá trị x và y của một quan sát được thể hiện bằng một điểm tương ứng với hai trục. Biểu đồ tán xạ là tập hợp  n điểm cho n đối tượng của nghiên cứu.
  • Khi x tăng mà y có khuynh hướng tăng theo thì ta nói x và y có mối liên hệ thuận (positive association).
  • Khi y tăng mà y có khuynh hướng giảm đi thì ta nói x và y có mối liên hệ nghịch (negative association).

Một vài câu hỏi ta cần đặt ra khi đọc một biểu đồ tán xạ:
  • Liên hệ giữa x và y thuận hay nghịch?
  • Xu hướng của các điểm dữ liệu có đi theo một đường thẳng ước chừng không? Nếu có thì dữ liệu có khít nhau không hay phân tán?
  • Có điểm nào đi lệch xa ra khỏi xu hướng chung không? Liệu chúng có ý nghĩa gì không? 

Khi các điểm dữ liệu tạo thành một đường thẳng ước chừng (roughly straight-line) thì ta nói hai biến có mối quan hệ tuyến tính (linear relationship); độ mạnh yếu của mối quan hệ này thể hiện ở việc các điểm dữ liệu khít nhau hay phân tán. Ta dùng khái niệm tương quan (correlation) để mô tả độ mạnh của quan hệ tuyến tính, ký hiệu bằng chỉ số tương quan r, nhận giá trị từ -1 đến +1.
  • Nếu r dương thì hai biến có tương quan thuận (positive correlation) và nếu r âm thì hai biến có tương quan nghịch (negative correlation).
  • Giá trị tuyệt đối của r càng gần 1 thì quan hệ tuyến tính càng mạnh và giá trị tuyệt đối của r càng gần 0 thì quan hệ tuyến tính càng yếu.
  • Giá trị của r không phụ thuộc vào đơn vị tính của các biến.
  • Hai biến luôn có cùng hệ số tương quan bất kể biến nào là biến giải thích, biến nào là biến kết quả.



Một vài biểu đồ tán xạ và hệ số tương quan tương ứng

Gọi {{z_x}} và {{z_y}} lần lượt là z-score của x và y, ta có công thức tính r như sau :
r = \frac{1}{{n - 1}}\sum {{z_x}{z_y}}
Mối quan hệ giữa tích số z-score và mối tương quan:
Ta chia biểu đồ tán xạ thành 4 phần bằng các kẻ một đường thẳng đứng tại giá trị trung bình của biến X và một đường ngang tại giá trị trung bình của biến Y. Khi đó:
Các điểm dữ liệu nằm ở góc trên bên phải và ở góc dưới bên trái có tích số của hai z-score nhận giá trị dương, tạo nên tương quan thuận.
Các điểm dữ liệu nằm ở góc trên bên trái và ở góc dưới bê phải có tích số của hai z-score nhận giá trị âm, tạo nên tương quan nghịch.

Nên lưu ý rằng chúng ta nên phác thảo biểu đồ tán xạ để có cái nhìn và cảm nhận chính xác hơn về xu hướng của dữ liệu bởi vì chỉ số tương quan chỉ thể hiện mối tương quan tuyến tính. Vì vậy, nếu chỉ trông cậy vào hệ số tương quan, rất có thể ta sẽ đi đến kết luận sai lầm rằng hai biến không có quan hệ với nhau trong khi thực ra chúng có quan hệ, chỉ có điều đó không phải là quan hệ tuyến tính, chẳng hạn như trong trường hợp mối quan hệ có dạng chữ U như hình dưới đây

Thứ Ba, 28 tháng 7, 2015

TK9. Mối liên hệ giữa các biến phân loại

Trong các bài số 2 đến bài số 8, ta đã bàn về các khái niệm và phương pháp thống kê thuần mô tả. Trong loạt bài tiếp theo ta sẽ lần lượt tìm hiểu về mối quan hệ giữa hai biến (association) và các khái niệm có liên quan như tương quan (correlation) hay hồi quy (regression).
Đối với biến phân loại, người ta dùng bảng số liệu (contingency table) hay còn gọi là bảng chéo (cross table) để mô tả mối liên hệ giữa hai hay nhiều biến mà ta gọi là biến giải thích (explanatory variable) và biến kết quả (outcome variable). Các bước tạo một bảng số liệu:
-Xác định biến giải thích và biến kết quả trong câu hỏi thống kê (cũng có trường hợp cả hai đều là biến giả thích cho nhau)
-Sắp xếp các nhóm trong biến số thứ nhất vào từng dòng của bảng
-Sắp xếp các nhóm trong biến số thứ hai vào từng cột của bảng
-Mỗi ô (cell) là kết quả cross-tabulation của dữ liệu của hai (hay nhiều) biến phân loại.
Ngoài việc dùng bảng số liệu, ta còn có thể vẽ biểu đồ thanh (side-by-side bar graph) để so sánh hai tỉ lệ điều kiện (conditional proportions) của biến kết quả tại những giá trị khác nhau của biến giải thích.
Ví dụ:

Mức độ hạnh phúc
Tổng cộng
Cỡ mẫu n
Thu nhập
Không hạnh phúc lắm
Khá hạnh phúc
Rất hạnh phúc
Trên TB
0,06
0,55
0,39
           1,00  
423
TB
0,13
0,54
0,33
           1,00  
883
Dưới TB
0,25
0,56
0,19
           1,00  
687

Từ bảng chéo tỉ lệ điều kiện của mức độ hạnh phúc dựa trên mức thu nhập trên, ta có thể nhận xét rằng:
- Phân nửa số người tham gia khảo sát, bất kể mức thu nhập, đều cho rằng mình khá hạnh phúc.
-Những người có thu nhập cao hơn trung bình có xu hướng cảm thấy mình hạnh phúc hơn trong khi những người có thu nhập thấp hơn trung bình có xu hướng thấy mình không mấy hạnh phúc.  

Ngoài ra, trong trường hợp ta cần tìm mối quan hệ giữa một biến phân loại và một biến định tính, ví dụ như giữa thu nhập và giới tính, ta tính khuynh hướng tập trung và tính biến thiên của biến số định lượng (như là giá trị trung bình, độ lệch chuẩn…) rồi sau đó dùng bảng số liệu hoặc biểu đồ hộp song song (side-by-side box plot) để so sánh. Trong bài sau, ta sẽ bàn về mối quan hệ giữa hai hay nhiều biến định lượng. 

Thứ Hai, 27 tháng 7, 2015

TK8- Thống kê mô tả : Biểu đồ hộp (box-plot)

Giới thiệu biểu đồ hộp
Trong phần về các biểu đồ dùng để mô tả dữ liệu thống kê, tôi chưa nói đến biểu đồ hộp. Lý do là vì đây một biểu đồ rất thú vị và hữ u ích trong việc mô tả một số vị trí quan trọng của phân bố nên bàn về box-plot ngay sau bài về các tham số chỉ vị trí của dữ liệu (bài 7) sẽ dễ theo dõi hơn.
Biểu đồ hộp (Box-plot)hay còn gọi là biểu đồ hộp-và-râu (box-and-whisker plot) là biểu đồ diễn tả 5 vị trí phân bố của dữ liệu, đó là : giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max).
Cách vẽ biểu đồ hộp :
  1. Vẽ một trục ngang thể hiện giá trị của dữ liệu
  2.  Bên trên trục giá trị, ta vẽ một hình hộp chữ nhật với cạnh trái là tứ phân vị thứ nhất (Q1) và cạnh phải là tứ phân vị thứ ba (Q3).
  3.  Kẻ một đường thẳng đứng nối cạnh trên và cạnh dưới của hộp tại trung vị.
  4.  Kẻ hai đường râu cho hộp. Tức là ta kẻ một đường ngang từ điểm giữa của cạnh trái hộp đến giá trị nhỏ nhất của hộp mà không phải giá trị ngoại biên (outlier). Tương tự, kẻ một đường ngang từ điểm giữa của cạnh phải hộp đến giá trị lớn nhất của hộp mà không phải giá trị ngoại biên (outlier).

Như vậy, để vẽ một biểu đồ hộp, trước tiên ta phải tính:
  •          Trung vị
  •           Q1 & Q3
  •         Giá trị thấp của biến (L) và giá trị cao của biến (U)

Một ví dụ
Ta có bảng số liệu mô tả tỉ lệ CO2 bình quân đầu người của 8 quốc gia đông dân số nhất trên thế giới như sau :
country
co2percap
china   
4.9
india     
1.4
us    
18.9
indonesia
1.8
brazil  
1.9
pakistan 
0.9
russia
10.8
bangladesh    
0.3

Trước khi vẽ boxplot, ta tính toán các tham số sau :

  1.        Min = 0.3
    2.       Q1 = 1.275
    3.       Trung vị median= 1.85
    4.       Q3= 6.375
    5.       Max = 18.9
    6.       IQR = Q3-Q1= 5.1
    7.       Giá trị thấp của biến L = Q1-1,5xIQR = -6.375
    8.       Giá trị cao của biến U = Q3 + 1,5xIQR = 14.025
    9.       Từ (7) và (8), ta suy ra us = 18.9 là một giá trị ngoại biên có thể và sẽ không được tính khi vẽ râu của boxplot. 

      Dùng phần mềm R, ta vẽ được biểu đồ boxplot của biến CO2 bình quân đầu người như sau:
Trên biểu đồ vẽ bằng R, ta thấy giá trị ngoại biên được diễn tả bằng một dấu chấm tròn thay vì vẽ chung vào râu của boxplot để tránh gây cảm nhận là biểu đồ phân bố bị nghiêng nhưng thật ra chỉ là do ảnh hưởng mạnh của một vài giá trị ngoại biên.  
Tóm lượt những công dụng của biểu đồ hộp:
-Sử dụng cho dữ liệu có cỡ mẫu nhỏ
- Có thể mô tả hình dáng của phân bố dựa vào độ dài tương đối của râu và hai phần của hộp: phân bố nghiêng về phía có râu dài hơn và hộp lớn hơn. Tuy nhiên nó không mô tả được khoảng hở (gap) giữa các phân bố dữ liệu hoặc các chóp (moulds) nếu có.
-Có thể chỉ ra các giá trị ngoại biên nghi ngờ.
-Có thể dùng để so sánh giữa các nhóm với nhau.

Phương pháp tìm giá trị ngoại biên dùng giả định phân phối chuẩn:
Khái niệm z-score
Chỉ số z-score của một giá trị của biến X là số lần độ lệch chuẩn mà giá trị đó lệch khỏi giá trị trung bình. Nếu z-score dương thì giá trị đó lớn hơn giá trị trung bình của X, nếu z-score âm thì giá trị đó nhỏ hơn giá trị trung bình của X. Với x là giá trị của biến X, {\overline x } là giá trị trung bình và s là độ lệch chuẩn của x so với {\overline x }, ta có công thức tính z-score như sau:
z - score = \frac{{x - \overline x }}{{{s_x}}}
Như ta đã biết, nếu biến số X tuân theo luật phân phối chuẩn thì theo quy tắc kinh nghiệm (xem ở bài 6), 99% giá trị của X sẽ nằm trong khoảng 3 lần độ lệch chuẩn từ giá trị trung bình, tức z-score bằng 3. Vậy một giá trị bất kì nằm ngoài khoảng này thì ta nghi ngờ đó là giá trị ngoại biên.  

Thứ Năm, 23 tháng 7, 2015

TK7. Thống kê mô tả: Đo lường Tính biến thiên của dữ liệu (tt)

Ngoài các tham số như giá trị trung bình và trung vị để đo lường khuynh hướng trung tâm hay độ lệch chuẩn để đo lường tính biến thiên, người ta còn dùng các tham số chỉ vị trí của phân bố. Một vài ví dụ về tham số chỉ vị trí như trung vị (median)- điểm giữa của phân bố; min-max, giá trị nhỏ và lớn nhất của phân bố hoặc z-score- đại lượng cho biết một quan sát lệch khỏi giá trị trung bình bao nhiêu lần độ lệch chuẩn.
Trung vị thực chất là trường hợp đặc biệt của tham số chỉ vị trí có tên gọi là bách phân vị (percentiles). Bách phân vị thứ p (pth percentile) là vị trí có p phần trăm trên tổng số quan sát nhận giá trị nhỏ hơn hoặc bằng giá trị tại điểm đó ( với điều kiện dữ liệu đã được sắp xếp theo thứ tự từ nhỏ đến lớn). Trung vị là giá trị giữa của quan sát, vì vậy ta còn gọi trung vị là bách phân vị thứ 50 (50th percentile), nghĩa là có 50% tổng số quan sát nhận giá trị nhỏ hơn hoặc bằng giá trị tại điểm bách phân vị thứ 50.

Một dạng đặc biệt của bách phân vị đó là tứ phân vị (quartiles). Có 3 tứ phân vị:
  • Tứ phân vị thứ nhất (first quartile, Q1) tương ứng với bách phân vị thứ 25 (25th percentile).
  • Tứ phân vị thứ hai (second quartile, Q2, hay median) tương ứng với bách phân vị thứ 50 (50th percentile).
  • Tứ phân vị thứ ba (third quartile, Q3) tương ứng với bách phân vị thứ 75 (75th percentile).
Tứ phân vị được xác định như sau:
  •          Sắp xếp dữ liệu theo thứ tự tăng dần
  •          Tìm trung vị, đây là Q2
  •          Tìm trung vị của dãy số ở dưới Q2 (lưu ý nếu tổng số quan sát là số lẻ thì không tính trung vị trong khoảng này), đây là Q1
  •          Tìm trung vị của dãy số ở trên Q2 (lưu ý nếu tổng số quan sát là số lẻ thì không tính trung vị trong khoảng này), đây là Q3
Khoảng tứ phân vị (interquartile range, IQR) là khoảng cách giữa Q1 và Q3.
Công thức tính: IQR= Q3-Q1
Một phương pháp xác định giá trị ngoại biên (potential outlier):
 Ta gọi:
  • L (tức lower) là giá trị thấp của biến, L = Q1 – 1,5xIQR
  • U (tức upper) là giá trị cao của biến, U = Q3 + 1,5xIQR
  • Kết luận: Nếu trong dãy số có số nào thấp hơn L hay cao hơn U thì có thể xem đó là outlier.
Phương pháp kiểm định outlier trên còn gọi là phương pháp phi tham số, ngoài ra còn có phương pháp dựa vào giả định phân phối chuẩn và phương pháp dựa vào số trung vị. Tuy nhiên phương pháp phi tham số là phương pháp phổ biến và cũng dễ ứng dụng nhất, đặc biệt là trong trường hợp dữ liệu không tuân theo luật phân phối chuẩn. 

Thứ Ba, 21 tháng 7, 2015

TK6. Thống kê mô tả: Đo lường Tính biến thiên của dữ liệu

Để mô tả tính biến thiên (variability) của dữ liệu người ta tính toán các tham số là: quãng (range), phương sai (variance) và độ lệch chuẩn (standard deviation).
Quãng (range) là khoảng khác biệt giữa quan sát có giá trị lớn nhất và quan sát có giá trị nhỏ nhất.
Range = Max – Min
Trong thực tế, ta ít khi dùng range để mô tả tính biến thiên bởi vì nó chỉ thể hiện thông tin của hai giá trị lớn và nhỏ nhất. Vì thế người ta dùng độ lệch (deviation) để mô tả khoảng lệch của từng quan sát so với giá trị trung bình.
Độ lệch của một quan sát so với giá trị trung bình là : 
Mỗi quan sát đều có một deviation, nhận giá trị dương hoặc âm tùy theo vị trí của nó nhỏ hơn hay lớn hơn giá trị trung bình. Tổng các độ lệch này luôn bằng 0. Vì vậy, người ta phải tính tổng bình phương của chúng (sum of squares), ký hiệu là:

Phương sai (variance), ký hiệu là s2, là trung bình của tổng bình phương các độ lệch :

Độ lệch chuẩn (standard deviation) là căn bậc hai của phương sai :

Độ lệch chuẩn thể hiện khoảng lệch tiêu biểu hay là khoảng lệch trung bình của một quan sát so với giá trị trung bình. Độ lệch chuẩn càng lớn thì dữ liệu càng biến thiên mạnh.  Ngoài ra, độ lệch chuẩn vì được tính dựa theo giá trị trung bình cho nên cũng phản ứng nhạy với giá trị ngoại vi.  

Khái niệm bậc tự do (degrees of freedom)
Giá trị (n-1) như ta thấy ở  công thức  tính phương sai gọi là bậc tự do của mẫu. Bạn có thể sẽ thắc mắc vì sao ta lại chia tổng bình phương độ lệch cho cỡ mẫu trừ đi 1 chứ không phải là cho cỡ mẫu n. Lấy ví dụ rằng khi ta biết giá trị trung bình của một mẫu là 5, mẫu có 4 quan sát. Khi đó tổng giá trị của mẫu sẽ là 20. Nếu biết 3 quan sát của mẫu có giá trị lần lượt là 5, 8, 4 thì giá trị còn lại phải là 3. Nó đã được ấn định ngay khi có ba trong số bốn giá trị của mẫu cho trước. Khi đó, ta nói mẫu có 3 bậc tự do. Khái niệm này khá khó hiểu, tuy nhiên,  chúng ta chỉ cần nhớ là nó có liên quan tới tất cả các con số thống kê của mẫu mà ta dùng để suy luận về thông số của quần thể và bậc tự do luôn bằng cỡ mẫu trừ đi 1.

Một cách diễn giải độ lệch chuẩn s: Quy Tắc Kinh Nghiệm (The Empirical Rule)
Nếu một phân phối dữ liệu có một chóp đỉnh và có dạng đối xứng với hình chuông (bell-shaped) thì ta có thể diễn giải s một cách chính xác hơn như sau:
68% các quan sát nằm trong khoảng 1 độ lệch chuẩn so với giá trị trung bình, nghĩa là trong khoảng 
         
95% các quan sát nằm trong khoảng 2 độ lệch chuẩn so với giá trị trung bình, nghĩa là trong khoảng 

97% các quan sát nằm trong khoảng 3 độ lệch chuẩn so với giá trị trung bình, nghĩa là trong khoảng 
Đồ thị mô tả quy tắc kinh nghiệm  



Thứ Hai, 20 tháng 7, 2015

TK5. Thống kê mô tả: Đo lường khuynh hướng tập trung của dữ liệu

Trong các bài trước, ta đã biết cách phân loại dữ liệu và các loại biểu đồ tương ứng với từng loại biến để thể hiện dữ liệu một cách trực quan.  Bây giờ ta sẽ tiếp tục mô tả dữ liệu bằng cách tìm hiểu khuynh hướng tập trung (central tendency) và tính biến thiên (variability) của chúng. Điều này có nghĩa là ta tìm cách trả lời các câu hỏi như ‘Một quan sát tiêu biểu của dữ liệu có giá trị bao nhiêu?’, ‘Dữ liệu có giá trị nào tương đồng nhau không, nếu khác nhau thì mức độ biến thiên cao hay thấp?’ Để trả lời cho câu hỏi thứ nhất, trong bài này chúng ta sẽ tìm hiểu về khuynh hướng tập trung.

Khuynh hướng tập trung thể hiện qua 3 tham số: trung bình số học (mean), trung vị (median) và số mode.
Số trung bình(mean) được tính bằng cách lấy tổng của tất cả giá trị của các quan sát chia cho tổng số quan sát. Với x là biến số, n là cỡ mẫu, ta có công thức tính số trung bình:

Nếu dữ liệu phân bố lệch thì số trung bình sẽ chuyển động lệch về phía đuôi dài hơn một cách tương đối so với trung vị. Số trung bình bị tác động mạnh bởi các giá trị ngoại vi (outliers). Giá trị ngoại vi là quan sát nằm ở vị trí khá xa so với khuynh hướng chung của toàn bộ dữ liệu.

Trung vị(median) là giá trị chính giữa của dãy giá trị của quan sát sau khi được sắp xếp theo thứ tự từ nhỏ nhất đến lớn nhất. Nếu tổng số quan sát là số lẻ thì trung vị là giá trị ở giữa của dãy số. Nếu tổng số quan sát là số chẵn thì trung vị là trung bình cộng của hai giá trị nằm chính giữa dãy số.

So với số trung bình, trung vị ít bị ảnh hưởng bởi giá trị ngoại vi. Vì vậy trong trường hợp dữ liệu phân bố lệch (highly skewed) thì trung vị sẽ cho thông tin chính xác hơn. Tuy nhiên, trường hợp cỡ mẫu nhỏ và biến rời rạc, tính kém nhạy của trung vị lại là một bất lợi cho việc mô tả dữ liệu, khi đó ta nên sử dụng số trung bình để có thể phản ánh được tất cả các giá trị của quan sát. Đôi khi nếu biến rất rời rạc và có nhiều hơn 2 nhóm thì cách hữu ích nhất là tính tỉ lệ phần trăm (tần suất) của các giá trị thay vì tính mean hay median. Trong thực tế thì thường cả mean và median đều có ích và đều được tính toán bởi các hàm có sẵn trong các phần mềm thống kê.

So sánh số trung bình và trung vị dựa theo hình dạng của phân bố:
  •          Nếu phân bố đối xứng hoàn toàn(perfectly symmetric) thì số trung bình bằng trung vị.
  •          Nếu phân bố lệch trái (left-skewed) thì số trung bình nhỏ hơn trung vị.
  •          Nếu phân bố lệch phải (right-skewed) thì số trung bình lớn hơn trung vị.

Mode (hay modal frequency) là giá trị lặp lại nhiều lần nhất trong mẫu, thường được dùng để mô tả một nhóm hoặc giá trị có tần số cao nhất của biến phân loại hoặc biến rời rạc.