Trong các bài số
2 đến bài số 8, ta đã bàn về các khái niệm và phương pháp thống kê thuần mô tả.
Trong loạt bài tiếp theo ta sẽ lần lượt tìm hiểu về mối quan hệ giữa hai biến
(association) và các khái niệm có liên quan như tương quan (correlation) hay hồi
quy (regression).
Đối với biến phân loại, người ta dùng bảng số liệu (contingency
table) hay còn gọi là bảng chéo
(cross table) để mô tả mối liên hệ
giữa hai hay nhiều biến mà ta gọi là biến giải thích (explanatory variable)
và biến kết quả (outcome variable). Các bước tạo một bảng số liệu:
-Xác định biến giải thích và biến kết quả
trong câu hỏi thống kê (cũng có trường hợp cả hai đều là biến giả thích cho
nhau)
-Sắp xếp các nhóm trong biến số thứ nhất
vào từng dòng của bảng
-Sắp xếp các nhóm trong biến số thứ hai
vào từng cột của bảng
-Mỗi ô
(cell) là kết quả cross-tabulation của dữ liệu của hai (hay nhiều) biến phân loại.
Ngoài việc
dùng bảng số liệu, ta còn có thể vẽ biểu đồ thanh (side-by-side bar graph) để
so sánh hai tỉ lệ điều kiện (conditional proportions) của biến kết
quả tại những giá trị khác nhau của biến giải thích.
Ví dụ:
Mức
độ hạnh phúc
|
Tổng
cộng
|
Cỡ
mẫu n
|
|||
Thu nhập
|
Không
hạnh phúc lắm
|
Khá
hạnh phúc
|
Rất
hạnh phúc
|
||
Trên TB
|
0,06
|
0,55
|
0,39
|
1,00
|
423
|
TB
|
0,13
|
0,54
|
0,33
|
1,00
|
883
|
Dưới TB
|
0,25
|
0,56
|
0,19
|
1,00
|
687
|
Từ bảng chéo
tỉ lệ điều kiện của mức độ hạnh phúc dựa trên mức thu nhập trên, ta có thể nhận
xét rằng:
- Phân nửa số
người tham gia khảo sát, bất kể mức thu nhập, đều cho rằng mình khá hạnh phúc.
-Những
người có thu nhập cao hơn trung bình có xu hướng cảm thấy mình hạnh phúc hơn
trong khi những người có thu nhập thấp hơn trung bình có xu hướng thấy mình không
mấy hạnh phúc.
Ngoài ra,
trong trường hợp ta cần tìm mối quan hệ giữa một biến phân loại và một biến định
tính, ví dụ như giữa thu nhập và giới tính, ta tính khuynh hướng tập trung và
tính biến thiên của biến số định lượng (như là giá trị trung bình, độ lệch chuẩn…)
rồi sau đó dùng bảng số liệu hoặc biểu đồ hộp song song (side-by-side box plot)
để so sánh. Trong bài sau, ta sẽ bàn về mối quan hệ giữa hai hay nhiều biến định
lượng.
Không có nhận xét nào:
Đăng nhận xét