Thứ Tư, 29 tháng 7, 2015

TK10. Mối liên hệ giữa các biến định lượng

Để biểu diễn mối liên hệ giữa hai biến định lượng, người ta dùng biểu đồ tán xạ (scatterplot). Đây là biểu đồ gồm có trục hoành - biểu diễn biến giải thích x và trục tung - biểu diễn biến kết quả y. Giá trị x và y của một quan sát được thể hiện bằng một điểm tương ứng với hai trục. Biểu đồ tán xạ là tập hợp  n điểm cho n đối tượng của nghiên cứu.
  • Khi x tăng mà y có khuynh hướng tăng theo thì ta nói x và y có mối liên hệ thuận (positive association).
  • Khi y tăng mà y có khuynh hướng giảm đi thì ta nói x và y có mối liên hệ nghịch (negative association).

Một vài câu hỏi ta cần đặt ra khi đọc một biểu đồ tán xạ:
  • Liên hệ giữa x và y thuận hay nghịch?
  • Xu hướng của các điểm dữ liệu có đi theo một đường thẳng ước chừng không? Nếu có thì dữ liệu có khít nhau không hay phân tán?
  • Có điểm nào đi lệch xa ra khỏi xu hướng chung không? Liệu chúng có ý nghĩa gì không? 

Khi các điểm dữ liệu tạo thành một đường thẳng ước chừng (roughly straight-line) thì ta nói hai biến có mối quan hệ tuyến tính (linear relationship); độ mạnh yếu của mối quan hệ này thể hiện ở việc các điểm dữ liệu khít nhau hay phân tán. Ta dùng khái niệm tương quan (correlation) để mô tả độ mạnh của quan hệ tuyến tính, ký hiệu bằng chỉ số tương quan r, nhận giá trị từ -1 đến +1.
  • Nếu r dương thì hai biến có tương quan thuận (positive correlation) và nếu r âm thì hai biến có tương quan nghịch (negative correlation).
  • Giá trị tuyệt đối của r càng gần 1 thì quan hệ tuyến tính càng mạnh và giá trị tuyệt đối của r càng gần 0 thì quan hệ tuyến tính càng yếu.
  • Giá trị của r không phụ thuộc vào đơn vị tính của các biến.
  • Hai biến luôn có cùng hệ số tương quan bất kể biến nào là biến giải thích, biến nào là biến kết quả.



Một vài biểu đồ tán xạ và hệ số tương quan tương ứng

Gọi {{z_x}} và {{z_y}} lần lượt là z-score của x và y, ta có công thức tính r như sau :
r = \frac{1}{{n - 1}}\sum {{z_x}{z_y}}
Mối quan hệ giữa tích số z-score và mối tương quan:
Ta chia biểu đồ tán xạ thành 4 phần bằng các kẻ một đường thẳng đứng tại giá trị trung bình của biến X và một đường ngang tại giá trị trung bình của biến Y. Khi đó:
Các điểm dữ liệu nằm ở góc trên bên phải và ở góc dưới bên trái có tích số của hai z-score nhận giá trị dương, tạo nên tương quan thuận.
Các điểm dữ liệu nằm ở góc trên bên trái và ở góc dưới bê phải có tích số của hai z-score nhận giá trị âm, tạo nên tương quan nghịch.

Nên lưu ý rằng chúng ta nên phác thảo biểu đồ tán xạ để có cái nhìn và cảm nhận chính xác hơn về xu hướng của dữ liệu bởi vì chỉ số tương quan chỉ thể hiện mối tương quan tuyến tính. Vì vậy, nếu chỉ trông cậy vào hệ số tương quan, rất có thể ta sẽ đi đến kết luận sai lầm rằng hai biến không có quan hệ với nhau trong khi thực ra chúng có quan hệ, chỉ có điều đó không phải là quan hệ tuyến tính, chẳng hạn như trong trường hợp mối quan hệ có dạng chữ U như hình dưới đây

Không có nhận xét nào:

Đăng nhận xét