Thứ Ba, 28 tháng 7, 2015

TK9. Mối liên hệ giữa các biến phân loại

Trong các bài số 2 đến bài số 8, ta đã bàn về các khái niệm và phương pháp thống kê thuần mô tả. Trong loạt bài tiếp theo ta sẽ lần lượt tìm hiểu về mối quan hệ giữa hai biến (association) và các khái niệm có liên quan như tương quan (correlation) hay hồi quy (regression).
Đối với biến phân loại, người ta dùng bảng số liệu (contingency table) hay còn gọi là bảng chéo (cross table) để mô tả mối liên hệ giữa hai hay nhiều biến mà ta gọi là biến giải thích (explanatory variable) và biến kết quả (outcome variable). Các bước tạo một bảng số liệu:
-Xác định biến giải thích và biến kết quả trong câu hỏi thống kê (cũng có trường hợp cả hai đều là biến giả thích cho nhau)
-Sắp xếp các nhóm trong biến số thứ nhất vào từng dòng của bảng
-Sắp xếp các nhóm trong biến số thứ hai vào từng cột của bảng
-Mỗi ô (cell) là kết quả cross-tabulation của dữ liệu của hai (hay nhiều) biến phân loại.
Ngoài việc dùng bảng số liệu, ta còn có thể vẽ biểu đồ thanh (side-by-side bar graph) để so sánh hai tỉ lệ điều kiện (conditional proportions) của biến kết quả tại những giá trị khác nhau của biến giải thích.
Ví dụ:

Mức độ hạnh phúc
Tổng cộng
Cỡ mẫu n
Thu nhập
Không hạnh phúc lắm
Khá hạnh phúc
Rất hạnh phúc
Trên TB
0,06
0,55
0,39
           1,00  
423
TB
0,13
0,54
0,33
           1,00  
883
Dưới TB
0,25
0,56
0,19
           1,00  
687

Từ bảng chéo tỉ lệ điều kiện của mức độ hạnh phúc dựa trên mức thu nhập trên, ta có thể nhận xét rằng:
- Phân nửa số người tham gia khảo sát, bất kể mức thu nhập, đều cho rằng mình khá hạnh phúc.
-Những người có thu nhập cao hơn trung bình có xu hướng cảm thấy mình hạnh phúc hơn trong khi những người có thu nhập thấp hơn trung bình có xu hướng thấy mình không mấy hạnh phúc.  

Ngoài ra, trong trường hợp ta cần tìm mối quan hệ giữa một biến phân loại và một biến định tính, ví dụ như giữa thu nhập và giới tính, ta tính khuynh hướng tập trung và tính biến thiên của biến số định lượng (như là giá trị trung bình, độ lệch chuẩn…) rồi sau đó dùng bảng số liệu hoặc biểu đồ hộp song song (side-by-side box plot) để so sánh. Trong bài sau, ta sẽ bàn về mối quan hệ giữa hai hay nhiều biến định lượng. 

Không có nhận xét nào:

Đăng nhận xét