Trong các bài trước, ta đã biết cách phân loại dữ liệu và
các loại biểu đồ tương ứng với từng loại biến để thể hiện dữ liệu một cách trực
quan. Bây giờ ta sẽ tiếp tục mô tả dữ liệu
bằng cách tìm hiểu khuynh hướng tập trung (central tendency) và tính biến thiên
(variability) của chúng. Điều này có nghĩa là ta tìm cách trả lời các câu hỏi
như ‘Một quan sát tiêu biểu của dữ liệu có giá trị bao nhiêu?’, ‘Dữ liệu có giá trị nào tương đồng nhau không, nếu khác nhau thì mức độ biến thiên cao hay thấp?’ Để trả lời cho câu hỏi thứ nhất, trong
bài này chúng ta sẽ tìm hiểu về khuynh hướng tập trung.
Khuynh hướng tập trung thể hiện qua 3 tham số: trung bình số
học (mean), trung vị (median) và số mode.
Số trung bình(mean)
được tính bằng cách lấy tổng của tất cả giá trị của các quan sát chia cho tổng
số quan sát. Với x là biến số, n là cỡ mẫu, ta có công thức tính số trung bình:
Nếu dữ liệu phân bố lệch thì số trung bình sẽ chuyển động lệch
về phía đuôi dài hơn một cách tương đối so với trung vị. Số trung bình bị tác động
mạnh bởi các giá trị ngoại vi (outliers). Giá trị ngoại vi là quan sát nằm ở vị
trí khá xa so với khuynh hướng chung của toàn bộ dữ liệu.
Trung vị(median)
là giá trị chính giữa của dãy giá trị của quan sát sau khi được sắp xếp theo thứ
tự từ nhỏ nhất đến lớn nhất. Nếu tổng số quan sát là số lẻ thì trung vị là giá
trị ở giữa của dãy số. Nếu tổng số quan sát là số chẵn thì trung vị là trung
bình cộng của hai giá trị nằm chính giữa dãy số.
So với số trung bình, trung vị ít bị ảnh hưởng bởi giá trị
ngoại vi. Vì vậy trong trường hợp dữ liệu phân bố lệch (highly skewed) thì
trung vị sẽ cho thông tin chính xác hơn. Tuy nhiên, trường hợp cỡ mẫu nhỏ và biến
rời rạc, tính kém nhạy của trung vị lại là một bất lợi cho việc mô tả dữ liệu,
khi đó ta nên sử dụng số trung bình để có thể phản ánh được tất cả các giá trị
của quan sát. Đôi khi nếu biến rất rời rạc và có nhiều hơn 2 nhóm thì cách hữu
ích nhất là tính tỉ lệ phần trăm (tần suất) của các giá trị thay vì tính mean
hay median. Trong thực tế thì thường cả mean và median đều có ích và đều được
tính toán bởi các hàm có sẵn trong các phần mềm thống kê.
So sánh số trung bình và trung vị dựa theo hình dạng của
phân bố:
- Nếu phân bố đối xứng hoàn toàn(perfectly symmetric) thì số trung bình bằng trung vị.
- Nếu phân bố lệch trái (left-skewed) thì số trung bình nhỏ hơn trung vị.
- Nếu phân bố lệch phải (right-skewed) thì số trung bình lớn hơn trung vị.
Mode (hay modal
frequency) là giá trị lặp lại nhiều lần nhất trong mẫu, thường được dùng để mô
tả một nhóm hoặc giá trị có tần số cao nhất của biến phân loại hoặc biến rời rạc.
Không có nhận xét nào:
Đăng nhận xét