Thứ Năm, 30 tháng 7, 2015

TK 11. Dự đoán kết quả của một biến: Giới thiệu phương trình hồi quy

Đường hồi quy (regression line) là đường thẳng mô tả mối tương quan tuyến tính giữa hai biến. Phương trình đường hồi quy (regression equation)  có thể dự đoán giá trị của biến kết quả y dựa trên một giá trị của biến giải thích x cho sẵn:
\widehat y = a + bx
Trong đó:
\widehat y(đọc là y-hat hay y mũ) là giá trị của y với x cho trước;
 a là giao điểm của đường hồi quy với trục tung (y-intercept)
b là hệ số góc, hay chính là lượng thay đổi của y khi x tăng lên một đơn vị, ta có:
b = \frac{{rise}}{{run}} = \frac{{change - in - y}}{{change - in - x}}
Giá trị tuyệt đối của b càng lớn thì đường hồi quy càng dốc.
Tương tự như hệ số tương quan, dấu của hệ số góc cũng thể hiện chiều của tương quan:
  • Nếu b >0 thì tương quan thuận
  • Nếu b < thì tương quan nghịch
  • Nếu b = 0 thì không có tương quan

Lưu ý: Trước tiên ta vẽ biểu đồ tán xạ để xem hai biến có quan hệ tuyến tính hay không, nếu có thì mới dùng các phần mềm thống kê để tính toán các chỉ số a và b để từ đó thiết lập phương trình hồi quy.
Phần dư (residuals) là khoảng khác biệt giữa giá trị của y dự đoán bởi phương trình hồi quy  so với giá trị thực tế của y. Trên biểu đồ tán xạ, phần dư được thể hiện bẳng một đường thẳng nối từ điểm ({x_0};\widehat y) trên đường hồi quy đến điểm ({x_0};{y_0}).
  • Phần dư dương nếu y thực tế ({y_0}) lớn hơn y dự đoán (\widehat y).
  • Phần dư âm nếu {y_0} nhỏ hơn\widehat y  .
  • Phần dư bằng 0 nếu {y_0} =\widehat y  .

Phần mềm thống kê có thể giúp ta tính phần dư của mỗi quan sát trong toàn bộ dữ liệu. Ta có thể dễ dàng tìm thấy những phần dư có giá trị đặc biệt lớn bằng cách vẽ biểu đồ tần số (vd như histogram).

Phương pháp bình phương nhỏ nhất (Least Squares Method) là một cách thức đơn giản mà các phần mềm thống kê dùng để tính phương trình đường hồi quy mà trong đó máy tính sẽ tìm ra trong số rất nhiều đường thẳng có thể để chọn lấy đường thẳng có tổng bình phương phần dư nhỏ nhất và có dạng  để dự đoán giá trị của y một cách gần đúng nhất.
residual.Sum.of.squares = \sum {{{(residual)}^2} = \sum {(y - } } \widehat y{)^2}
Tính chất của đường hồi quy:
  • Vì có phần dư dương lẫn âm nên tổng (và trung bình cộng) của các phần dư bằng 0.
  • Đường hồi quy đi qua điểm giữa của dữ liệu  (\overline x ;\overline y )  (với  \overline x   và  \overline y   là giá trị trung bình của x và y)

Gọi {s_x} và {s_y} là độ lệch chuẩn của x và y, ta có:
Hệ số góc :  b = r\left( {\frac{{{s_y}}}{{{s_x}}}} \right)
y-intercept : a = \overline y  - b.(\overline x )

So sánh hệ số góc và hệ số tương quan:
Giống nhau :Đều được dùng để chỉ mối tương quan tuyến tính và cùng dấu với nhau (âm, dương hoặc bằng 0)
Khác nhau :
  • Hệ số tương quan dao động từ -1 đến +1 còn hệ số góc có thể nhận giá trị bất kì.
  • Đường hồi quy dự đoán giá trị của y theo x và đường hồi quy dự đoán giá trị của x theo y sẽ có phương trình khác nhau (hệ số góc khác nhau) còn hệ số tương quan giữ nguyên  khi có sự thay đổi vai trò này giữa x và y.
  • Hệ số góc và y-intercept thay đổi theo đơn vị của x còn hệ số tương quan thì không. 

Không có nhận xét nào:

Đăng nhận xét