Thứ Hai, 20 tháng 7, 2015

TK5. Thống kê mô tả: Đo lường khuynh hướng tập trung của dữ liệu

Trong các bài trước, ta đã biết cách phân loại dữ liệu và các loại biểu đồ tương ứng với từng loại biến để thể hiện dữ liệu một cách trực quan.  Bây giờ ta sẽ tiếp tục mô tả dữ liệu bằng cách tìm hiểu khuynh hướng tập trung (central tendency) và tính biến thiên (variability) của chúng. Điều này có nghĩa là ta tìm cách trả lời các câu hỏi như ‘Một quan sát tiêu biểu của dữ liệu có giá trị bao nhiêu?’, ‘Dữ liệu có giá trị nào tương đồng nhau không, nếu khác nhau thì mức độ biến thiên cao hay thấp?’ Để trả lời cho câu hỏi thứ nhất, trong bài này chúng ta sẽ tìm hiểu về khuynh hướng tập trung.

Khuynh hướng tập trung thể hiện qua 3 tham số: trung bình số học (mean), trung vị (median) và số mode.
Số trung bình(mean) được tính bằng cách lấy tổng của tất cả giá trị của các quan sát chia cho tổng số quan sát. Với x là biến số, n là cỡ mẫu, ta có công thức tính số trung bình:

Nếu dữ liệu phân bố lệch thì số trung bình sẽ chuyển động lệch về phía đuôi dài hơn một cách tương đối so với trung vị. Số trung bình bị tác động mạnh bởi các giá trị ngoại vi (outliers). Giá trị ngoại vi là quan sát nằm ở vị trí khá xa so với khuynh hướng chung của toàn bộ dữ liệu.

Trung vị(median) là giá trị chính giữa của dãy giá trị của quan sát sau khi được sắp xếp theo thứ tự từ nhỏ nhất đến lớn nhất. Nếu tổng số quan sát là số lẻ thì trung vị là giá trị ở giữa của dãy số. Nếu tổng số quan sát là số chẵn thì trung vị là trung bình cộng của hai giá trị nằm chính giữa dãy số.

So với số trung bình, trung vị ít bị ảnh hưởng bởi giá trị ngoại vi. Vì vậy trong trường hợp dữ liệu phân bố lệch (highly skewed) thì trung vị sẽ cho thông tin chính xác hơn. Tuy nhiên, trường hợp cỡ mẫu nhỏ và biến rời rạc, tính kém nhạy của trung vị lại là một bất lợi cho việc mô tả dữ liệu, khi đó ta nên sử dụng số trung bình để có thể phản ánh được tất cả các giá trị của quan sát. Đôi khi nếu biến rất rời rạc và có nhiều hơn 2 nhóm thì cách hữu ích nhất là tính tỉ lệ phần trăm (tần suất) của các giá trị thay vì tính mean hay median. Trong thực tế thì thường cả mean và median đều có ích và đều được tính toán bởi các hàm có sẵn trong các phần mềm thống kê.

So sánh số trung bình và trung vị dựa theo hình dạng của phân bố:
  •          Nếu phân bố đối xứng hoàn toàn(perfectly symmetric) thì số trung bình bằng trung vị.
  •          Nếu phân bố lệch trái (left-skewed) thì số trung bình nhỏ hơn trung vị.
  •          Nếu phân bố lệch phải (right-skewed) thì số trung bình lớn hơn trung vị.

Mode (hay modal frequency) là giá trị lặp lại nhiều lần nhất trong mẫu, thường được dùng để mô tả một nhóm hoặc giá trị có tần số cao nhất của biến phân loại hoặc biến rời rạc. 

Không có nhận xét nào:

Đăng nhận xét