Thứ Sáu, 21 tháng 8, 2015

TK14. Thu thập thông tin : Thế nào là một thiết kế nghiên cứu thí nghiệm tốt ?

Để thiết kế một thí nghiệm tốt NNC cần lưu ý đến các điểm chính sau :
  1. Nhóm chứng (control comparison group)
  2. Ngẫu nhiên hoá (randomization)
  3. Phương pháp ‘mù đôi’ (double blind)
  4. Cỡ mẫu đủ lớn (large sample size)
  5. Lặp lại thí nghiệm (replication)
1. Nhóm chứng  thường là nhóm nhận giả dược hoặc nhận loại điều trị hiện tại. Giả dược (placebo) là một loại thuốc giả mà các nhà nghiên cứu bào chế sao cho nó hoàn toàn không có một tác dụng sinh lí gì lên đối tượng nghiên cứu, nhưng đồng thời cũng không làm hại đến sức khỏe của họ.  Placebo được bào chế có hình dạng và mùi vị giống y như thuốc thật, với ý định không cho người dùng phân biệt được thuốc thật hay giả. Giả dược được đưa vào nhóm chứng để triệt tiêu placebo effect- một hiện tượng tâm lý mà người dùng thuốc phản ứng tốt hơn bởi vì họ tin rằng họ đang được chữa trị bằng thuốc trong khi thực tế họ chỉ nhận được giả dược. 
2. Ngẫu nhiên hoá nghĩa là chọn những đối tượng thí nghiệm một cách ngẫu nhiên (mà NNC không được biết họ). Điều này giúp ta cân bằng nhóm đối tượng nghiên cứu và tránh các biến giấu cũng như loại bỏ các thiên kiến từ NNC.
3. Phương pháp ‘mù đôi’:  Để bảo đảm tính khách quan trong khi thẩm định kết quả thí nghiệm, các nhà nghiên cứu trực tiếp làm việc với đối tượng thí nghiệm không biết người nào đang nhận thuốc thật hay giả.  Đối tượng tham gia cũng không biết mình dùng thuốc thật hay giả.  Đây là cách nghiên cứu “double-blind”, tức cả hai thành phần trong  cuộc thử nghiệm đều “mù”.  Trong nhóm nghiên cứu, chỉ có một nhà nghiên cứu độc lập có danh sách bệnh nhân nhận thuốc nào, và chính nhà nghiên cứu này phân tích dữ kiện và căn cứu vào các dữ kiện này để đánh giá sự hữu hiệu của thuốc.
4. Cỡ mẫu càng lớn thì càng tốt. Khi cỡ mẫu tăng, sai số biên giảm.
Khi ta lặp lại nhiều lần thí nghiệm và thu được kết quả khác nhau ở hai nhóm với mức độ chênh lệch cao (ví dụ như kết quả thí nghiệm cho thấy tỉ lệ khỏi bệnh khi dùng thuốc thật và giả dược lần lượt là 55% và 44%) thì ta có thể dự đoán rằng sự khác biệt giữa hai nhóm có ý nghĩa thống kê (statistically significant). Tuy nhiên, cần xét 2 trường hợp nhóm điều trị có n=215 quan sát và n=1000 quan sát để xem liệu sự khác biệt này có phải đơn thuần do tính dao động (variability) ngẫu nhiên không hay thực sự đúng là do hiệu quả của thuốc.
  • Với n=215, sai số biên là 7%, nghĩa là nếu tỉ lệ khỏi bệnh của quần thể là 50% thì tỉ lệ khỏi bệnh của mẫu dao động trong khoảng 7% của 50%, tức là từ 43% đến 57%. Như vậy tỉ lệ khác biệt 55% và 44% giữa hai nhóm có thể là kết quả của sự dao động ngẫu nhiên bình thường. Thật khó để tin tưởng rằng kết quả tìm được trong thí nghiệm là có ý nghĩa thống kê với mức dao động cao như vậy.
  • Với n=1000, sai số biên là 3%, nghĩa là nếu tỉ lệ khỏi bệnh của quần thể là 50% thì tỉ lệ khỏi bệnh của mẫu dao động trong khoảng 3% của 50%, tức là từ 47% đến 53%. Như vậy tỉ lệ khác biệt 55% và 44% giữa hai nhóm ko thể chỉ là kết quả của sự dao động ngẫu nhiên bình thường mà phải do tác động thực sự của thuốc. Khi đó, ta nói rằng khác biệt giữa hai nhóm thí nghiệm là có ý nghĩa thống kê và thuốc thật có tác dụng hơn so với giả dược.
5. Lặp lại thí nghiệm (replication)

Dù cỡ mẫu lớn, vẫn có thể tồn tại khả năng rằng do may mắn đơn thuần mà những đối tượng NNC chọn vô tình có những ưu thế hoặc khác biệt so với phần còn lại của quần thể, làm cho kết quả thí nghiệm không chính xác và không có tính phổ quát. Để thực sự chắc chắn rằng kết quả thí nghiệm có thể phổ quát hoá cho một quần thể lớn hơn thì một thí nghiệm cần phải bảo toàn kết quả của nó qua nhiều lần thí nghiệm riêng lẻ được thiết kế tương tự bởi nhiều nhà khoa học khác và trên những mẫu khác nhau.

Thứ Năm, 20 tháng 8, 2015

TK13. Thu thập thông tin : Thế nào là một thiết kế nghiên cứu quan sát tốt ?

Hai phương pháp nghiên cứu : Quan sát và Thí nghiệm.
Phương pháp quan sát (observational study) nghĩa là nhà nghiên cứu chỉ quan sát những giá trị của biến giải thích và biến kết quả ở những đối tượng trong mẫu mà không có bất kỳ tác động nào lên các đối tượng này. Trong khi đó, ở phương pháp thí nghiệm (experimental study), nhà nghiên cứu tiến hành một số thay đổi trên mẫu và sau đó quan sát kết quả xảy ra ở biến số mà họ quan tâm.
Phương pháp thí nghiệm có ưu điểm hơn so với phương pháp quan sát vì nó giúp ta tìm ra mối quan hệ giữa biến giải thích và biến kết quả một cách chính xác hơn nhờ khả năng loại bỏ các biến giấu (lurking variables) bằng kỹ thuật ngẫu nhiên hoá (randomization). Tuy nhiên trên thực tế có nhiều nguyên nhân (đạo đức nghề nghiệp, thời gian, chi phí…) mà không phải lúc nào ta cũng có thể làm thí nghiệm. Hơn nữa, nếu mục đích không phải là đi tìm mối quan hệ nhân-quả thì nghiên cứu quan sát vẫn tỏ ra rất hữu dụng. Vì vậy, ta sẽ xem xét những cách thức để thiết kế một nghiên cứu quan sát có hiệu quả.

Thiết kết một nghiên cứu quan sát tốt
Dữ liệu có sẵn
Để thu thập dữ liệu cho nghiên cứu, nhà nghiên cứu tuyệt đối không dùng các thông tin mang tính điển tích-giai thoại, nếu muốn dùng dữ liệu có sẵn thì chỉ nên dùng những dữ liệu có sẵn từ những nguồn đáng tin cậy từ các tập san khoa học uy tín hoặc trang web thống kê của chính phủ.
Hầu hết các quốc gia đều tổ chức điều tra dân số (census) định kì trong đó họ thu thập thông tin về dân số quốc gia và dân số từng vùng. Tuy nhiên, khi điều tra dân số khó tiến hành vì tốn nhiều thời gian và có khi dữ liệu không đầy đủ thì điều tra chọn mẫu (sample survey) trở thành một giải pháp thực tế hơn nhiều bởi vì nó  cho phép chọn ra và thu thập thông tin từ một nhóm nhỏ (mẫu) trong quần thể.
Tự tìm dữ liệu
Ngoài dữ liệu sẵn có, nhà nghiên cứu (NNC) dĩ nhiên có lúc phải tự thu thập dữ liệu cho riêng nghiên cứu của mình. Đó là khi họ tiến hành điều tra chọn mẫu, nghĩa là chọn đối tượng nghiên cứu và thu thập thông tin từ những đối tượng này. Đầu tiên NNC xác định quần thể mình quan tâm và thiết lập khung mẫu (sampling frame)- một danh sách những đối tượng trong quần thể mà từ đó ta muốn lấy mẫu. Ví dụ quần thể mà ta quan tâm là tất cả sinh viên trong trường. Vậy thì khung mẫu là kỷ yếu sinh viên (hoặc danh sách các sinh viên đã đăng ký).
Thiết kế mẫu (sampling design) là phương pháp dùng để chọn đối tượng từ khung mẫu. Nguyên tắc cốt lõi của thiết kế mẫu là tính ngẫu nhiên. Đây cũng là nguyên tắc cơ bản của môn khoa học thống kê. Phương pháp lấy mẫu ngẫu nhiên đơn giản (simple random sampling) là phương pháp lấy mẫu trong đó lấy ra n đối tượng từ một quần thể và đảm bảo chắc chắn rằng mỗi đối tượng lấy ra đó có cùng một cơ hội được chọn.
Làm thế nào để chọn mẫu ngẫu nhiên ?  
Có 3 bước như sau :
  1. Đánh số các đối tượng trong khung mẫu bằng những số có độ dài (số chữ số) tương đương nhau.
  2. Chọn những số có cùng độ dài từ phần mềm tạo số ngẫu nhiên (thường được tích hợp sẵn trong phần mềm thống kê hoặc máy tính điện tử)
  3. Chọn những đối tượng có số trùng với con số ngẫu nhiên được tạo ở bước 2.
Thu thập thông tin
Những cách thức phổ biến dùng để thu thập thông tin trong điều tra chọn mẫu như phỏng vấn qua điện thoại, phỏng vấn trực tiếp, bảng câu hỏi (tự điền).
Công cụ đo lường tính chính xác của kết quả thu được từ điều tra chọn mẫu ngẫu nhiên (survey with random sampling) là sai số biên (margin of error). Với mẫu ngẫu nhiên đơn giản có n đối tượng, công thức ước tính sai số biên xấp xỉ :
\frac{1}{{\sqrt n }}.100\%
Một số thiên kiến tiềm tàng (potential bias) trong điều tra chọn mẫu 
Thiên kiến- bias xảy ra khi một vài bộ phận của quần thể được ưu ái hơn khi chọn mẫu và khiến cho kết quả thu được không đại điện đầy đủ cho quần thể. Chia bias theo nguyên nhân, ta có các loại bias:
  1. Sampling bias- thiên kiến chọn mẫu : chọn mẫu không ngẫu nhiên, không bao quát hết quần thể. Hai cách chọn mẫu khá phổ biến nhưng có khả năng gây thiên kiến cao đó là chọn mẫu thuận tiện (convenience samples) và chọn mẫu tình nguyện (volunteer samples).
  2. Non-response bias- thiên kiến không phản hồi : dữ liệu khuyết quá lớn
  3. Response bias –thiên kiến phản hồi : trả lời dối, sai sự thật, câu hỏi đánh lạc hướng hoặc dễ gây hiểu lầm…
Để kiểm tra những thiên kiến tiềm tàng thì việc làm đầu tiên là phải xem thiết kế chọn mẫu có tốt không, cỡ mẫu là bao nhiêu ? trong đó tỉ lệ không phản hồi (missing data) là bao nhiêu ? từ ngữ dùng trong câu hỏi khảo sát ra sao ? (có mang tính dẫn dắt hoặc gây nhầm lẫn không ?) ai tài trợ nghiên cứu này ? Nếu bạn biết rất ít về những thông tin này thì bạn càng không nên tin vội những kết quả mang lại.

Tóm lại, những điểm chính trong một cuộc điều tra chọn mẫu mà ta cần lưu ý đó là :
  1. Xác định quần thể mình cần tìm hiểu
  2. Thiết lập khung mẫu
  3. Chọn mẫu bằng phương pháp lấy mẫu ngẫu nhiên đơn giản để lấy ra n đối tượng thuộc khung mẫu.
  4. Chọn cách thức thu thập dữ liệu
  5. Và cuối cùng là, luôn coi chừng các thiên kiến tiềm tàng !

Thứ Ba, 4 tháng 8, 2015

TK 12. Thận trọng trong phân tích mối liên hệ của dữ liệu



1. Cẩn thận với dự báo xu hướng bằng phương trình hồi quy
Loại suy (extrapolation) nghĩa là dự đoán giá trị của biến y với x cho trước bằng cách dựa vào phương trình đường hồi quy. Tuy nhiên, đây là một việc làm nguy hiểm bởi vì đường hồi quy sẽ không còn tính chính xác nếu vượt ra ngoài phạm vi dữ liệu được quan sát.  Chẳng hạn như khi dự báo (forecast) về xu hướng của một biến bằng đường hồi quy bắt buộc ta phải giả định rằng xu hướng trong quá khứ sẽ tiếp tục tương tự trong tương lai. Tuy rằng đường hồi quy có thể giúp ta dự báo xu hướng trong tương lai gần nhưng sẽ thật rủi ro nếu ta muốn dùng nó để dự báo tương lai xa hơn.

2. Nghịch lí Simpson và nguy cơ đến từ biến giấu
Một trong những lý do để  vẽ biểu đồ tán xạ trước khi bắt đầu phân tích tương quan hay hồi quy đó là để kiểm tra các giá trị ngoại biên bất thường. Một quan sát có tầm ảnh hưởng mạnh (influential observation)  lên kết quả của phương trình đường hồi quy (thể hiện thông qua hệ số góc) là giá trị thỏa mãn 2 đặc điểm sau :
  • Giá trị của x cao hơn hoặc thấp hơn một khoảng khá lớn so với phần còn lại của dữ liệu.
  • Quan sát đó là một giá trị ngoại biên hồi quy (regression outlier), nghĩa là nó rơi khá xa so với xu hướng chung của toàn bộ dữ liệu.
Như vậy, nếu có nhiều hơn 1 quan sát ngoại biên, ta có thể đánh giá độ ảnh hưởng của chúng lên phương trình hồi quy bằng cách so sánh giá trị x của chúng và quan sát vị trí của chúng trên biểu đồ tán xạ. Ngoài ra, ta có thể kiểm tra lại bằng cách lần lượt loại các giá trị này ra khỏi dữ liệu của mẫu trong khi tính phương trình hồi quy để tìm ra mối liên hệ thực sự của dữ liệu nếu không bị tác động bởi quan sát ngoại biên. Khi phát hiện quan sát ngoại biên này, ta cần tìm hiểu xem liệu có phải quan sát này đã bị sai trong quá trình thu thập dữ liệu, hoặc đơn giản là nó khác so với phần còn lại của dữ liệu ?

Khi phân tích tương quan, cần lưu ý rằng tương quan không có nghĩa là có mối quan hệ nhân-quả. Biến y tương quan thuận với x không có nghĩa là vì x tăng mà y tăng. Rất có thể đã có một biến giấu (lurking variable) mà ta không biết đã tác động lên mối liên hệ giữa x và y.  Biến này có thể là nguyên nhân gây ra y hoặc cũng có thể là nguyên nhân chung của cả x và y.  Khi chiều của tương quan thay đổi sau khi ta tìm ra một biến thứ ba (biến giấu) và nhóm dữ liệu lại theo các giá trị của biến này, ta gọi đây là nghịch lí Simpson.

3. Cẩn thận với những xu hướng giống nhau
Khi phân tích xu hướng của x và y theo thời gian có thể xảy ra trường hợp x và y mặc dù độc lập (không có tương quan) lại có cùng xu hướng tăng hoặc giảm theo thời gian khiến ta tưởng rằng chúng thực sự tương quan nhau. Chẳng hạn như tỉ lệ ly hôn và tỉ lệ tội phạm cùng tăng theo thời gian khiến ta lầm tưởng chúng có mối tương quan với nhau.

4. Confounding      
Khi hai biến giải thích cùng có mối quan hệ với y và cũng có mối quan hệ với nhau thì ta gọi đó là confounding. Rất khó nhận ra thực sự biến nào là nguyên nhân thực sự của y bởi vì ảnh hưởng của một biến lên y phần nào có thể là nhờ vào mối quan hệ với biến còn lại. Biến giấu khi bị phát hiện có thể có khả năng trở thành một biến confounding nếu nó có quan hệ với cả x và y.
Thoạt nhìn, vấn đề với confounding có vẻ như rối rắm nhưng khi đã nhận ra và điều chỉnh chúng, ta vẫn có thể dùng các phương pháp thống kê để phân tích. Điều đáng ngại là sẽ luôn luôn tồn tại một khả năng rằng chúng ta đã bỏ sót một biến thực sự quan trọng trong quá trình nghiên cứu và phân tích.