Thứ Ba, 4 tháng 8, 2015

TK 12. Thận trọng trong phân tích mối liên hệ của dữ liệu



1. Cẩn thận với dự báo xu hướng bằng phương trình hồi quy
Loại suy (extrapolation) nghĩa là dự đoán giá trị của biến y với x cho trước bằng cách dựa vào phương trình đường hồi quy. Tuy nhiên, đây là một việc làm nguy hiểm bởi vì đường hồi quy sẽ không còn tính chính xác nếu vượt ra ngoài phạm vi dữ liệu được quan sát.  Chẳng hạn như khi dự báo (forecast) về xu hướng của một biến bằng đường hồi quy bắt buộc ta phải giả định rằng xu hướng trong quá khứ sẽ tiếp tục tương tự trong tương lai. Tuy rằng đường hồi quy có thể giúp ta dự báo xu hướng trong tương lai gần nhưng sẽ thật rủi ro nếu ta muốn dùng nó để dự báo tương lai xa hơn.

2. Nghịch lí Simpson và nguy cơ đến từ biến giấu
Một trong những lý do để  vẽ biểu đồ tán xạ trước khi bắt đầu phân tích tương quan hay hồi quy đó là để kiểm tra các giá trị ngoại biên bất thường. Một quan sát có tầm ảnh hưởng mạnh (influential observation)  lên kết quả của phương trình đường hồi quy (thể hiện thông qua hệ số góc) là giá trị thỏa mãn 2 đặc điểm sau :
  • Giá trị của x cao hơn hoặc thấp hơn một khoảng khá lớn so với phần còn lại của dữ liệu.
  • Quan sát đó là một giá trị ngoại biên hồi quy (regression outlier), nghĩa là nó rơi khá xa so với xu hướng chung của toàn bộ dữ liệu.
Như vậy, nếu có nhiều hơn 1 quan sát ngoại biên, ta có thể đánh giá độ ảnh hưởng của chúng lên phương trình hồi quy bằng cách so sánh giá trị x của chúng và quan sát vị trí của chúng trên biểu đồ tán xạ. Ngoài ra, ta có thể kiểm tra lại bằng cách lần lượt loại các giá trị này ra khỏi dữ liệu của mẫu trong khi tính phương trình hồi quy để tìm ra mối liên hệ thực sự của dữ liệu nếu không bị tác động bởi quan sát ngoại biên. Khi phát hiện quan sát ngoại biên này, ta cần tìm hiểu xem liệu có phải quan sát này đã bị sai trong quá trình thu thập dữ liệu, hoặc đơn giản là nó khác so với phần còn lại của dữ liệu ?

Khi phân tích tương quan, cần lưu ý rằng tương quan không có nghĩa là có mối quan hệ nhân-quả. Biến y tương quan thuận với x không có nghĩa là vì x tăng mà y tăng. Rất có thể đã có một biến giấu (lurking variable) mà ta không biết đã tác động lên mối liên hệ giữa x và y.  Biến này có thể là nguyên nhân gây ra y hoặc cũng có thể là nguyên nhân chung của cả x và y.  Khi chiều của tương quan thay đổi sau khi ta tìm ra một biến thứ ba (biến giấu) và nhóm dữ liệu lại theo các giá trị của biến này, ta gọi đây là nghịch lí Simpson.

3. Cẩn thận với những xu hướng giống nhau
Khi phân tích xu hướng của x và y theo thời gian có thể xảy ra trường hợp x và y mặc dù độc lập (không có tương quan) lại có cùng xu hướng tăng hoặc giảm theo thời gian khiến ta tưởng rằng chúng thực sự tương quan nhau. Chẳng hạn như tỉ lệ ly hôn và tỉ lệ tội phạm cùng tăng theo thời gian khiến ta lầm tưởng chúng có mối tương quan với nhau.

4. Confounding      
Khi hai biến giải thích cùng có mối quan hệ với y và cũng có mối quan hệ với nhau thì ta gọi đó là confounding. Rất khó nhận ra thực sự biến nào là nguyên nhân thực sự của y bởi vì ảnh hưởng của một biến lên y phần nào có thể là nhờ vào mối quan hệ với biến còn lại. Biến giấu khi bị phát hiện có thể có khả năng trở thành một biến confounding nếu nó có quan hệ với cả x và y.
Thoạt nhìn, vấn đề với confounding có vẻ như rối rắm nhưng khi đã nhận ra và điều chỉnh chúng, ta vẫn có thể dùng các phương pháp thống kê để phân tích. Điều đáng ngại là sẽ luôn luôn tồn tại một khả năng rằng chúng ta đã bỏ sót một biến thực sự quan trọng trong quá trình nghiên cứu và phân tích. 

Không có nhận xét nào:

Đăng nhận xét