Thứ Ba, 4 tháng 8, 2015

TK 12. Thận trọng trong phân tích mối liên hệ của dữ liệu



1. Cẩn thận với dự báo xu hướng bằng phương trình hồi quy
Loại suy (extrapolation) nghĩa là dự đoán giá trị của biến y với x cho trước bằng cách dựa vào phương trình đường hồi quy. Tuy nhiên, đây là một việc làm nguy hiểm bởi vì đường hồi quy sẽ không còn tính chính xác nếu vượt ra ngoài phạm vi dữ liệu được quan sát.  Chẳng hạn như khi dự báo (forecast) về xu hướng của một biến bằng đường hồi quy bắt buộc ta phải giả định rằng xu hướng trong quá khứ sẽ tiếp tục tương tự trong tương lai. Tuy rằng đường hồi quy có thể giúp ta dự báo xu hướng trong tương lai gần nhưng sẽ thật rủi ro nếu ta muốn dùng nó để dự báo tương lai xa hơn.

2. Nghịch lí Simpson và nguy cơ đến từ biến giấu
Một trong những lý do để  vẽ biểu đồ tán xạ trước khi bắt đầu phân tích tương quan hay hồi quy đó là để kiểm tra các giá trị ngoại biên bất thường. Một quan sát có tầm ảnh hưởng mạnh (influential observation)  lên kết quả của phương trình đường hồi quy (thể hiện thông qua hệ số góc) là giá trị thỏa mãn 2 đặc điểm sau :
  • Giá trị của x cao hơn hoặc thấp hơn một khoảng khá lớn so với phần còn lại của dữ liệu.
  • Quan sát đó là một giá trị ngoại biên hồi quy (regression outlier), nghĩa là nó rơi khá xa so với xu hướng chung của toàn bộ dữ liệu.
Như vậy, nếu có nhiều hơn 1 quan sát ngoại biên, ta có thể đánh giá độ ảnh hưởng của chúng lên phương trình hồi quy bằng cách so sánh giá trị x của chúng và quan sát vị trí của chúng trên biểu đồ tán xạ. Ngoài ra, ta có thể kiểm tra lại bằng cách lần lượt loại các giá trị này ra khỏi dữ liệu của mẫu trong khi tính phương trình hồi quy để tìm ra mối liên hệ thực sự của dữ liệu nếu không bị tác động bởi quan sát ngoại biên. Khi phát hiện quan sát ngoại biên này, ta cần tìm hiểu xem liệu có phải quan sát này đã bị sai trong quá trình thu thập dữ liệu, hoặc đơn giản là nó khác so với phần còn lại của dữ liệu ?

Khi phân tích tương quan, cần lưu ý rằng tương quan không có nghĩa là có mối quan hệ nhân-quả. Biến y tương quan thuận với x không có nghĩa là vì x tăng mà y tăng. Rất có thể đã có một biến giấu (lurking variable) mà ta không biết đã tác động lên mối liên hệ giữa x và y.  Biến này có thể là nguyên nhân gây ra y hoặc cũng có thể là nguyên nhân chung của cả x và y.  Khi chiều của tương quan thay đổi sau khi ta tìm ra một biến thứ ba (biến giấu) và nhóm dữ liệu lại theo các giá trị của biến này, ta gọi đây là nghịch lí Simpson.

3. Cẩn thận với những xu hướng giống nhau
Khi phân tích xu hướng của x và y theo thời gian có thể xảy ra trường hợp x và y mặc dù độc lập (không có tương quan) lại có cùng xu hướng tăng hoặc giảm theo thời gian khiến ta tưởng rằng chúng thực sự tương quan nhau. Chẳng hạn như tỉ lệ ly hôn và tỉ lệ tội phạm cùng tăng theo thời gian khiến ta lầm tưởng chúng có mối tương quan với nhau.

4. Confounding      
Khi hai biến giải thích cùng có mối quan hệ với y và cũng có mối quan hệ với nhau thì ta gọi đó là confounding. Rất khó nhận ra thực sự biến nào là nguyên nhân thực sự của y bởi vì ảnh hưởng của một biến lên y phần nào có thể là nhờ vào mối quan hệ với biến còn lại. Biến giấu khi bị phát hiện có thể có khả năng trở thành một biến confounding nếu nó có quan hệ với cả x và y.
Thoạt nhìn, vấn đề với confounding có vẻ như rối rắm nhưng khi đã nhận ra và điều chỉnh chúng, ta vẫn có thể dùng các phương pháp thống kê để phân tích. Điều đáng ngại là sẽ luôn luôn tồn tại một khả năng rằng chúng ta đã bỏ sót một biến thực sự quan trọng trong quá trình nghiên cứu và phân tích. 

Thứ Năm, 30 tháng 7, 2015

TK 11. Dự đoán kết quả của một biến: Giới thiệu phương trình hồi quy

Đường hồi quy (regression line) là đường thẳng mô tả mối tương quan tuyến tính giữa hai biến. Phương trình đường hồi quy (regression equation)  có thể dự đoán giá trị của biến kết quả y dựa trên một giá trị của biến giải thích x cho sẵn:
\widehat y = a + bx
Trong đó:
\widehat y(đọc là y-hat hay y mũ) là giá trị của y với x cho trước;
 a là giao điểm của đường hồi quy với trục tung (y-intercept)
b là hệ số góc, hay chính là lượng thay đổi của y khi x tăng lên một đơn vị, ta có:
b = \frac{{rise}}{{run}} = \frac{{change - in - y}}{{change - in - x}}
Giá trị tuyệt đối của b càng lớn thì đường hồi quy càng dốc.
Tương tự như hệ số tương quan, dấu của hệ số góc cũng thể hiện chiều của tương quan:
  • Nếu b >0 thì tương quan thuận
  • Nếu b < thì tương quan nghịch
  • Nếu b = 0 thì không có tương quan

Lưu ý: Trước tiên ta vẽ biểu đồ tán xạ để xem hai biến có quan hệ tuyến tính hay không, nếu có thì mới dùng các phần mềm thống kê để tính toán các chỉ số a và b để từ đó thiết lập phương trình hồi quy.
Phần dư (residuals) là khoảng khác biệt giữa giá trị của y dự đoán bởi phương trình hồi quy  so với giá trị thực tế của y. Trên biểu đồ tán xạ, phần dư được thể hiện bẳng một đường thẳng nối từ điểm ({x_0};\widehat y) trên đường hồi quy đến điểm ({x_0};{y_0}).
  • Phần dư dương nếu y thực tế ({y_0}) lớn hơn y dự đoán (\widehat y).
  • Phần dư âm nếu {y_0} nhỏ hơn\widehat y  .
  • Phần dư bằng 0 nếu {y_0} =\widehat y  .

Phần mềm thống kê có thể giúp ta tính phần dư của mỗi quan sát trong toàn bộ dữ liệu. Ta có thể dễ dàng tìm thấy những phần dư có giá trị đặc biệt lớn bằng cách vẽ biểu đồ tần số (vd như histogram).

Phương pháp bình phương nhỏ nhất (Least Squares Method) là một cách thức đơn giản mà các phần mềm thống kê dùng để tính phương trình đường hồi quy mà trong đó máy tính sẽ tìm ra trong số rất nhiều đường thẳng có thể để chọn lấy đường thẳng có tổng bình phương phần dư nhỏ nhất và có dạng  để dự đoán giá trị của y một cách gần đúng nhất.
residual.Sum.of.squares = \sum {{{(residual)}^2} = \sum {(y - } } \widehat y{)^2}
Tính chất của đường hồi quy:
  • Vì có phần dư dương lẫn âm nên tổng (và trung bình cộng) của các phần dư bằng 0.
  • Đường hồi quy đi qua điểm giữa của dữ liệu  (\overline x ;\overline y )  (với  \overline x   và  \overline y   là giá trị trung bình của x và y)

Gọi {s_x} và {s_y} là độ lệch chuẩn của x và y, ta có:
Hệ số góc :  b = r\left( {\frac{{{s_y}}}{{{s_x}}}} \right)
y-intercept : a = \overline y  - b.(\overline x )

So sánh hệ số góc và hệ số tương quan:
Giống nhau :Đều được dùng để chỉ mối tương quan tuyến tính và cùng dấu với nhau (âm, dương hoặc bằng 0)
Khác nhau :
  • Hệ số tương quan dao động từ -1 đến +1 còn hệ số góc có thể nhận giá trị bất kì.
  • Đường hồi quy dự đoán giá trị của y theo x và đường hồi quy dự đoán giá trị của x theo y sẽ có phương trình khác nhau (hệ số góc khác nhau) còn hệ số tương quan giữ nguyên  khi có sự thay đổi vai trò này giữa x và y.
  • Hệ số góc và y-intercept thay đổi theo đơn vị của x còn hệ số tương quan thì không. 

Thứ Tư, 29 tháng 7, 2015

TK10. Mối liên hệ giữa các biến định lượng

Để biểu diễn mối liên hệ giữa hai biến định lượng, người ta dùng biểu đồ tán xạ (scatterplot). Đây là biểu đồ gồm có trục hoành - biểu diễn biến giải thích x và trục tung - biểu diễn biến kết quả y. Giá trị x và y của một quan sát được thể hiện bằng một điểm tương ứng với hai trục. Biểu đồ tán xạ là tập hợp  n điểm cho n đối tượng của nghiên cứu.
  • Khi x tăng mà y có khuynh hướng tăng theo thì ta nói x và y có mối liên hệ thuận (positive association).
  • Khi y tăng mà y có khuynh hướng giảm đi thì ta nói x và y có mối liên hệ nghịch (negative association).

Một vài câu hỏi ta cần đặt ra khi đọc một biểu đồ tán xạ:
  • Liên hệ giữa x và y thuận hay nghịch?
  • Xu hướng của các điểm dữ liệu có đi theo một đường thẳng ước chừng không? Nếu có thì dữ liệu có khít nhau không hay phân tán?
  • Có điểm nào đi lệch xa ra khỏi xu hướng chung không? Liệu chúng có ý nghĩa gì không? 

Khi các điểm dữ liệu tạo thành một đường thẳng ước chừng (roughly straight-line) thì ta nói hai biến có mối quan hệ tuyến tính (linear relationship); độ mạnh yếu của mối quan hệ này thể hiện ở việc các điểm dữ liệu khít nhau hay phân tán. Ta dùng khái niệm tương quan (correlation) để mô tả độ mạnh của quan hệ tuyến tính, ký hiệu bằng chỉ số tương quan r, nhận giá trị từ -1 đến +1.
  • Nếu r dương thì hai biến có tương quan thuận (positive correlation) và nếu r âm thì hai biến có tương quan nghịch (negative correlation).
  • Giá trị tuyệt đối của r càng gần 1 thì quan hệ tuyến tính càng mạnh và giá trị tuyệt đối của r càng gần 0 thì quan hệ tuyến tính càng yếu.
  • Giá trị của r không phụ thuộc vào đơn vị tính của các biến.
  • Hai biến luôn có cùng hệ số tương quan bất kể biến nào là biến giải thích, biến nào là biến kết quả.



Một vài biểu đồ tán xạ và hệ số tương quan tương ứng

Gọi {{z_x}} và {{z_y}} lần lượt là z-score của x và y, ta có công thức tính r như sau :
r = \frac{1}{{n - 1}}\sum {{z_x}{z_y}}
Mối quan hệ giữa tích số z-score và mối tương quan:
Ta chia biểu đồ tán xạ thành 4 phần bằng các kẻ một đường thẳng đứng tại giá trị trung bình của biến X và một đường ngang tại giá trị trung bình của biến Y. Khi đó:
Các điểm dữ liệu nằm ở góc trên bên phải và ở góc dưới bên trái có tích số của hai z-score nhận giá trị dương, tạo nên tương quan thuận.
Các điểm dữ liệu nằm ở góc trên bên trái và ở góc dưới bê phải có tích số của hai z-score nhận giá trị âm, tạo nên tương quan nghịch.

Nên lưu ý rằng chúng ta nên phác thảo biểu đồ tán xạ để có cái nhìn và cảm nhận chính xác hơn về xu hướng của dữ liệu bởi vì chỉ số tương quan chỉ thể hiện mối tương quan tuyến tính. Vì vậy, nếu chỉ trông cậy vào hệ số tương quan, rất có thể ta sẽ đi đến kết luận sai lầm rằng hai biến không có quan hệ với nhau trong khi thực ra chúng có quan hệ, chỉ có điều đó không phải là quan hệ tuyến tính, chẳng hạn như trong trường hợp mối quan hệ có dạng chữ U như hình dưới đây

Thứ Ba, 28 tháng 7, 2015

TK9. Mối liên hệ giữa các biến phân loại

Trong các bài số 2 đến bài số 8, ta đã bàn về các khái niệm và phương pháp thống kê thuần mô tả. Trong loạt bài tiếp theo ta sẽ lần lượt tìm hiểu về mối quan hệ giữa hai biến (association) và các khái niệm có liên quan như tương quan (correlation) hay hồi quy (regression).
Đối với biến phân loại, người ta dùng bảng số liệu (contingency table) hay còn gọi là bảng chéo (cross table) để mô tả mối liên hệ giữa hai hay nhiều biến mà ta gọi là biến giải thích (explanatory variable) và biến kết quả (outcome variable). Các bước tạo một bảng số liệu:
-Xác định biến giải thích và biến kết quả trong câu hỏi thống kê (cũng có trường hợp cả hai đều là biến giả thích cho nhau)
-Sắp xếp các nhóm trong biến số thứ nhất vào từng dòng của bảng
-Sắp xếp các nhóm trong biến số thứ hai vào từng cột của bảng
-Mỗi ô (cell) là kết quả cross-tabulation của dữ liệu của hai (hay nhiều) biến phân loại.
Ngoài việc dùng bảng số liệu, ta còn có thể vẽ biểu đồ thanh (side-by-side bar graph) để so sánh hai tỉ lệ điều kiện (conditional proportions) của biến kết quả tại những giá trị khác nhau của biến giải thích.
Ví dụ:

Mức độ hạnh phúc
Tổng cộng
Cỡ mẫu n
Thu nhập
Không hạnh phúc lắm
Khá hạnh phúc
Rất hạnh phúc
Trên TB
0,06
0,55
0,39
           1,00  
423
TB
0,13
0,54
0,33
           1,00  
883
Dưới TB
0,25
0,56
0,19
           1,00  
687

Từ bảng chéo tỉ lệ điều kiện của mức độ hạnh phúc dựa trên mức thu nhập trên, ta có thể nhận xét rằng:
- Phân nửa số người tham gia khảo sát, bất kể mức thu nhập, đều cho rằng mình khá hạnh phúc.
-Những người có thu nhập cao hơn trung bình có xu hướng cảm thấy mình hạnh phúc hơn trong khi những người có thu nhập thấp hơn trung bình có xu hướng thấy mình không mấy hạnh phúc.  

Ngoài ra, trong trường hợp ta cần tìm mối quan hệ giữa một biến phân loại và một biến định tính, ví dụ như giữa thu nhập và giới tính, ta tính khuynh hướng tập trung và tính biến thiên của biến số định lượng (như là giá trị trung bình, độ lệch chuẩn…) rồi sau đó dùng bảng số liệu hoặc biểu đồ hộp song song (side-by-side box plot) để so sánh. Trong bài sau, ta sẽ bàn về mối quan hệ giữa hai hay nhiều biến định lượng. 

Thứ Hai, 27 tháng 7, 2015

TK8- Thống kê mô tả : Biểu đồ hộp (box-plot)

Giới thiệu biểu đồ hộp
Trong phần về các biểu đồ dùng để mô tả dữ liệu thống kê, tôi chưa nói đến biểu đồ hộp. Lý do là vì đây một biểu đồ rất thú vị và hữ u ích trong việc mô tả một số vị trí quan trọng của phân bố nên bàn về box-plot ngay sau bài về các tham số chỉ vị trí của dữ liệu (bài 7) sẽ dễ theo dõi hơn.
Biểu đồ hộp (Box-plot)hay còn gọi là biểu đồ hộp-và-râu (box-and-whisker plot) là biểu đồ diễn tả 5 vị trí phân bố của dữ liệu, đó là : giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max).
Cách vẽ biểu đồ hộp :
  1. Vẽ một trục ngang thể hiện giá trị của dữ liệu
  2.  Bên trên trục giá trị, ta vẽ một hình hộp chữ nhật với cạnh trái là tứ phân vị thứ nhất (Q1) và cạnh phải là tứ phân vị thứ ba (Q3).
  3.  Kẻ một đường thẳng đứng nối cạnh trên và cạnh dưới của hộp tại trung vị.
  4.  Kẻ hai đường râu cho hộp. Tức là ta kẻ một đường ngang từ điểm giữa của cạnh trái hộp đến giá trị nhỏ nhất của hộp mà không phải giá trị ngoại biên (outlier). Tương tự, kẻ một đường ngang từ điểm giữa của cạnh phải hộp đến giá trị lớn nhất của hộp mà không phải giá trị ngoại biên (outlier).

Như vậy, để vẽ một biểu đồ hộp, trước tiên ta phải tính:
  •          Trung vị
  •           Q1 & Q3
  •         Giá trị thấp của biến (L) và giá trị cao của biến (U)

Một ví dụ
Ta có bảng số liệu mô tả tỉ lệ CO2 bình quân đầu người của 8 quốc gia đông dân số nhất trên thế giới như sau :
country
co2percap
china   
4.9
india     
1.4
us    
18.9
indonesia
1.8
brazil  
1.9
pakistan 
0.9
russia
10.8
bangladesh    
0.3

Trước khi vẽ boxplot, ta tính toán các tham số sau :

  1.        Min = 0.3
    2.       Q1 = 1.275
    3.       Trung vị median= 1.85
    4.       Q3= 6.375
    5.       Max = 18.9
    6.       IQR = Q3-Q1= 5.1
    7.       Giá trị thấp của biến L = Q1-1,5xIQR = -6.375
    8.       Giá trị cao của biến U = Q3 + 1,5xIQR = 14.025
    9.       Từ (7) và (8), ta suy ra us = 18.9 là một giá trị ngoại biên có thể và sẽ không được tính khi vẽ râu của boxplot. 

      Dùng phần mềm R, ta vẽ được biểu đồ boxplot của biến CO2 bình quân đầu người như sau:
Trên biểu đồ vẽ bằng R, ta thấy giá trị ngoại biên được diễn tả bằng một dấu chấm tròn thay vì vẽ chung vào râu của boxplot để tránh gây cảm nhận là biểu đồ phân bố bị nghiêng nhưng thật ra chỉ là do ảnh hưởng mạnh của một vài giá trị ngoại biên.  
Tóm lượt những công dụng của biểu đồ hộp:
-Sử dụng cho dữ liệu có cỡ mẫu nhỏ
- Có thể mô tả hình dáng của phân bố dựa vào độ dài tương đối của râu và hai phần của hộp: phân bố nghiêng về phía có râu dài hơn và hộp lớn hơn. Tuy nhiên nó không mô tả được khoảng hở (gap) giữa các phân bố dữ liệu hoặc các chóp (moulds) nếu có.
-Có thể chỉ ra các giá trị ngoại biên nghi ngờ.
-Có thể dùng để so sánh giữa các nhóm với nhau.

Phương pháp tìm giá trị ngoại biên dùng giả định phân phối chuẩn:
Khái niệm z-score
Chỉ số z-score của một giá trị của biến X là số lần độ lệch chuẩn mà giá trị đó lệch khỏi giá trị trung bình. Nếu z-score dương thì giá trị đó lớn hơn giá trị trung bình của X, nếu z-score âm thì giá trị đó nhỏ hơn giá trị trung bình của X. Với x là giá trị của biến X, {\overline x } là giá trị trung bình và s là độ lệch chuẩn của x so với {\overline x }, ta có công thức tính z-score như sau:
z - score = \frac{{x - \overline x }}{{{s_x}}}
Như ta đã biết, nếu biến số X tuân theo luật phân phối chuẩn thì theo quy tắc kinh nghiệm (xem ở bài 6), 99% giá trị của X sẽ nằm trong khoảng 3 lần độ lệch chuẩn từ giá trị trung bình, tức z-score bằng 3. Vậy một giá trị bất kì nằm ngoài khoảng này thì ta nghi ngờ đó là giá trị ngoại biên.