1. Cẩn thận với dự báo xu hướng bằng phương trình hồi quy
Loại suy (extrapolation) nghĩa là dự đoán giá trị của biến y với x cho trước bằng cách dựa vào
phương trình đường hồi quy. Tuy nhiên, đây là một việc làm nguy hiểm bởi vì đường
hồi quy sẽ không còn tính chính xác nếu vượt ra ngoài phạm vi dữ liệu được quan
sát. Chẳng hạn như khi dự báo (forecast)
về xu hướng của một biến bằng đường hồi quy bắt buộc ta phải giả định rằng xu
hướng trong quá khứ sẽ tiếp tục tương tự trong tương lai. Tuy rằng đường hồi
quy có thể giúp ta dự báo xu hướng trong tương lai gần nhưng sẽ thật rủi ro nếu
ta muốn dùng nó để dự báo tương lai xa hơn.
2. Nghịch lí Simpson và nguy cơ đến từ biến giấu
Một trong những lý do để vẽ biểu đồ tán xạ trước khi bắt đầu phân tích
tương quan hay hồi quy đó là để kiểm tra các giá trị ngoại biên bất thường. Một
quan sát có tầm ảnh hưởng mạnh (influential
observation) lên kết quả của phương
trình đường hồi quy (thể hiện thông qua hệ số góc) là giá trị thỏa mãn 2 đặc điểm
sau :
- Giá trị của x cao hơn hoặc thấp hơn một khoảng khá lớn so với phần còn lại của dữ liệu.
- Quan sát đó là một giá trị ngoại biên hồi quy (regression outlier), nghĩa là nó rơi khá xa so với xu hướng chung của toàn bộ dữ liệu.
Như vậy, nếu có nhiều hơn 1 quan sát ngoại
biên, ta có thể đánh giá độ ảnh hưởng của chúng lên phương trình hồi quy bằng
cách so sánh giá trị x của chúng và quan sát vị trí của chúng trên biểu đồ tán
xạ. Ngoài ra, ta có thể kiểm tra lại bằng cách lần lượt loại các giá trị này ra
khỏi dữ liệu của mẫu trong khi tính phương trình hồi quy để tìm ra mối liên hệ
thực sự của dữ liệu nếu không bị tác động bởi quan sát ngoại biên. Khi phát hiện
quan sát ngoại biên này, ta cần tìm hiểu xem liệu có phải quan sát này đã bị
sai trong quá trình thu thập dữ liệu, hoặc đơn giản là nó khác so với phần còn
lại của dữ liệu ?
Khi phân tích tương quan, cần lưu ý rằng
tương quan không có nghĩa là có mối quan hệ nhân-quả. Biến y tương quan thuận với
x không có nghĩa là vì x tăng mà y tăng. Rất có thể đã có một biến giấu (lurking variable) mà ta không biết đã tác động lên mối
liên hệ giữa x và y. Biến này có thể là
nguyên nhân gây ra y hoặc cũng có thể là nguyên nhân chung của cả x và y. Khi chiều của tương quan thay đổi sau khi ta
tìm ra một biến thứ ba (biến giấu) và nhóm dữ liệu lại theo các giá trị của biến
này, ta gọi đây là nghịch lí Simpson.
3. Cẩn thận với những xu hướng giống nhau
Khi phân tích xu hướng của x và y theo thời gian có thể xảy ra trường hợp x và y
mặc dù độc lập (không có tương quan) lại có cùng xu hướng tăng hoặc giảm theo
thời gian khiến ta tưởng rằng chúng thực sự tương quan nhau. Chẳng hạn như tỉ lệ
ly hôn và tỉ lệ tội phạm cùng tăng theo thời gian khiến ta lầm tưởng chúng có mối
tương quan với nhau.
4. Confounding
Khi hai biến giải thích cùng có mối quan hệ
với y và cũng có mối quan hệ với nhau thì ta gọi đó là confounding. Rất khó nhận ra thực sự biến nào là nguyên nhân
thực sự của y bởi vì ảnh hưởng của một biến lên y phần nào có thể là nhờ vào mối
quan hệ với biến còn lại. Biến giấu khi bị phát hiện có thể có khả năng trở
thành một biến confounding nếu nó có quan hệ với cả x và y.
Thoạt nhìn, vấn đề với confounding có vẻ
như rối rắm nhưng khi đã nhận ra và điều chỉnh chúng, ta vẫn có thể dùng các
phương pháp thống kê để phân tích. Điều đáng ngại là sẽ luôn luôn tồn tại một
khả năng rằng chúng ta đã bỏ sót một biến thực sự quan trọng trong quá trình
nghiên cứu và phân tích.
Không có nhận xét nào:
Đăng nhận xét