Thứ Bảy, 5 tháng 9, 2015

TK16. Tổng quan về các phương án thiết kế nghiên cứu

Để mô tả các phương án thiết kế một nghiên cứu trong khoa học, người ta dùng rất nhiều thuật ngữ và có thể gây khó khăn với người mới bắt đầu. Về cơ bản, ta có thể phân loại theo hai tiêu chí là đặc tính và thời gian.

Phân biệt theo thời gian, có thể chia thành 3 nhóm :
  • Nghiên cứu cắt ngang (cross-sectional study) : là nghiên cứu thu thập dữ liệu về một số đối tượng thuộc quần thể tại một thời điểm.
  • Tiến cứu (prospective study) : là nghiên cứu thu thập thông tin về đối tượng nhiều lần (thời điểm hiện tại và tương lai). Vì vậy còn được gọi là nghiên cứu theo thời gian (longitudinal study). Longitudinal study lại phân làm hai loại là thuần tập (cohort) và không thuần tập (panel). 
          Cohort là từ dùng để chỉ một nhóm người có cùng một đặc điểm chung nào đó hoặc sống trong cùng một khoảng thời gian. Ví dụ như nhóm những người cùng sinh năm 1960, những người sống sót sau tai nạn, những người làm chung một công xưởng,…
          Nghiên cứu thuần tập (cohort study) là nghiên cứu trong đó chọn ra một nhóm đối tượng có cùng một đặc tính nào đó và quan sát họ (thường là) theo thời gian. 
  • Hồi cứu (retrospective study) : là nghiên cứu mà nhà nghiên cứu đã có thông tin về tình trạng hiện tại của đối tượng và bắt đầu tìm hiểu về các yếu tố trong quá khứ của họ. Vì nghiên cứu thường so sánh giữa một nhóm chứng và một nhóm có biến kết quả mà ta quan tâm nên còn gọi là nghiên cứu đối chứng (case-control study).

Phân biệt theo đặc tính, có thể chia thành hai nhóm :
  • Nghiên cứu thực nghiệm (experimental study) : là nghiên cứu trong đó nhà nghiên cứu gây một tác động (treatment) nào đó lên đối tượng.  
  • Nghiên cứu quan sát (observational study) : Ngược lại, tất cả các nghiên cứu không có tác động lên đối tượng đều được xếp chung trong nhóm nghiên cứu quan sát.

*Những loại thiết kế trong nghiên cứu thực nghiệm
Nghiên cứu thực nghiệm có thể được tiến hành theo cách 1) hoàn toàn ngẫu nhiên hoá (completely randomized design), trong đó các đối tượng nhận được kiểu tác động một cách ngẫu nhiên (treatment hoặc placebo) hoặc 2) thiết kế bắt cặp (crossover design hay matched-pair design) trong đó mỗi đối tượng lần lượt nhận từng loại tác động (tác động 1, tác động 2,… và placebo).
Crossover design giúp tránh một số thiên kiến tiềm ẩn (potential) và tránh biến giấu (lurking) vì mỗi đối tượng là như nhau, chỉ có tác động là khác. Như vậy, mối liên hệ giữa yếu tố tác động và kết quả mà NNC quan tâm có thể dễ nhận ra một cách chính xác hơn.

Ngoài ra, trong một nghiên cứu thực nghiệm có thể có một yếu tố tác động (one factor) hoặc nhiều yếu tố tác động (multi-factors). Nghiên cứu có nhiều yếu tố mang lại nhiều thông tin hơn nghiên cứu cho từng yếu tố riêng lẻ, chẳng hạn như ta có thể so sánh tác động của từng yếu tố lên biến kết quả so với tác động tổng hợp của tất cả yếu tố này lên biến kết quả.

Thứ Sáu, 4 tháng 9, 2015

TK15. Những cách chọn mẫu ngẫu nhiên khác trong nghiên cứu quan sát

Ngoài phương pháp chọn mẫu ngẫu nhiên đơn giản (bài TK13), trong thực tế người ta thường sử dụng hai phương pháp chọn mẫu ngẫu nhiên phức tạp nhưng lại dễ thực hiện hơn, đó là chọn mẫu ngẫu nhiên chùm (cluster random sampling)chọn mẫu ngẫu nhiên phân tầng (stratified random sampling).

Bảng tóm tắt các phương pháp lấy mẫu
Phương pháp
Mô tả
Ưu điểm
Nhược điểm
Chọn mẫu ngẫu nhiên đơn giản
Mỗi phần tử của quần thể có cùng xác suất được chọn.
Mẫu phản ánh trung thực về quần thể.
-Cần xác định được khung mẫu.
- Tốn kém chi phí
Chọn mẫu ngẫu nhiên chùm
Chia quần thể thành nhiều chùm đó, sau đó tiến hành chọn mẫu ngẫu nhiên trong từng chùm đó.
-Không cần khung mẫu
-Thích hợp trong những trường hợp mà nếu sử dụng cách lấy mẫu đơn giản sẽ khá tốn kém.
Với cùng một sai số biên nhất định thì phương pháp này cần cỡ mẫu lớn hơn so với chọn mẫu ngẫu nhiên đơn giản.
Chọn mẫu ngẫu nhiên phân tầng 
Chia quần thể thành nhóm, sau đó tiến hành chọn mẫu ngẫu nhiên trong từng nhóm đó.
Mẫu sẽ có đủ các đối tượng thuộc mỗi nhóm mà bạn muốn so sánh.
-Cần xác định được khung mẫu
-Có đủ thông tin rằng đối tượng nào của quần thể thuộc về nhóm nào.

* Sự khác nhau giữa chọn mẫu chùm và mẫu phân tầng 
Chọn mẫu phân tầng là khi ta sử dụng tất cả các nhóm của quần thể. Trong khi đó, chọn mẫu chùm chỉ sử dụng một mẫu nhất định các chùm trong quần thể. Hình ảnh bên dưới mô tả rõ sự khác biệt này.

* Những cách chọn mẫu khác

Ngoài ba cách chọn mẫu trên còn có vài cách khác nữa như chọn mẫu ngẫu nhiên hệ thống, chọn mẫu tỉ lệ với cỡ dân số. Đa số các phương pháp thống kê đều giả định rằng nghiên cứu sử dụng cách chọn mẫu ngẫu nhiên đơn giản.

Thứ Sáu, 21 tháng 8, 2015

TK14. Thu thập thông tin : Thế nào là một thiết kế nghiên cứu thí nghiệm tốt ?

Để thiết kế một thí nghiệm tốt NNC cần lưu ý đến các điểm chính sau :
  1. Nhóm chứng (control comparison group)
  2. Ngẫu nhiên hoá (randomization)
  3. Phương pháp ‘mù đôi’ (double blind)
  4. Cỡ mẫu đủ lớn (large sample size)
  5. Lặp lại thí nghiệm (replication)
1. Nhóm chứng  thường là nhóm nhận giả dược hoặc nhận loại điều trị hiện tại. Giả dược (placebo) là một loại thuốc giả mà các nhà nghiên cứu bào chế sao cho nó hoàn toàn không có một tác dụng sinh lí gì lên đối tượng nghiên cứu, nhưng đồng thời cũng không làm hại đến sức khỏe của họ.  Placebo được bào chế có hình dạng và mùi vị giống y như thuốc thật, với ý định không cho người dùng phân biệt được thuốc thật hay giả. Giả dược được đưa vào nhóm chứng để triệt tiêu placebo effect- một hiện tượng tâm lý mà người dùng thuốc phản ứng tốt hơn bởi vì họ tin rằng họ đang được chữa trị bằng thuốc trong khi thực tế họ chỉ nhận được giả dược. 
2. Ngẫu nhiên hoá nghĩa là chọn những đối tượng thí nghiệm một cách ngẫu nhiên (mà NNC không được biết họ). Điều này giúp ta cân bằng nhóm đối tượng nghiên cứu và tránh các biến giấu cũng như loại bỏ các thiên kiến từ NNC.
3. Phương pháp ‘mù đôi’:  Để bảo đảm tính khách quan trong khi thẩm định kết quả thí nghiệm, các nhà nghiên cứu trực tiếp làm việc với đối tượng thí nghiệm không biết người nào đang nhận thuốc thật hay giả.  Đối tượng tham gia cũng không biết mình dùng thuốc thật hay giả.  Đây là cách nghiên cứu “double-blind”, tức cả hai thành phần trong  cuộc thử nghiệm đều “mù”.  Trong nhóm nghiên cứu, chỉ có một nhà nghiên cứu độc lập có danh sách bệnh nhân nhận thuốc nào, và chính nhà nghiên cứu này phân tích dữ kiện và căn cứu vào các dữ kiện này để đánh giá sự hữu hiệu của thuốc.
4. Cỡ mẫu càng lớn thì càng tốt. Khi cỡ mẫu tăng, sai số biên giảm.
Khi ta lặp lại nhiều lần thí nghiệm và thu được kết quả khác nhau ở hai nhóm với mức độ chênh lệch cao (ví dụ như kết quả thí nghiệm cho thấy tỉ lệ khỏi bệnh khi dùng thuốc thật và giả dược lần lượt là 55% và 44%) thì ta có thể dự đoán rằng sự khác biệt giữa hai nhóm có ý nghĩa thống kê (statistically significant). Tuy nhiên, cần xét 2 trường hợp nhóm điều trị có n=215 quan sát và n=1000 quan sát để xem liệu sự khác biệt này có phải đơn thuần do tính dao động (variability) ngẫu nhiên không hay thực sự đúng là do hiệu quả của thuốc.
  • Với n=215, sai số biên là 7%, nghĩa là nếu tỉ lệ khỏi bệnh của quần thể là 50% thì tỉ lệ khỏi bệnh của mẫu dao động trong khoảng 7% của 50%, tức là từ 43% đến 57%. Như vậy tỉ lệ khác biệt 55% và 44% giữa hai nhóm có thể là kết quả của sự dao động ngẫu nhiên bình thường. Thật khó để tin tưởng rằng kết quả tìm được trong thí nghiệm là có ý nghĩa thống kê với mức dao động cao như vậy.
  • Với n=1000, sai số biên là 3%, nghĩa là nếu tỉ lệ khỏi bệnh của quần thể là 50% thì tỉ lệ khỏi bệnh của mẫu dao động trong khoảng 3% của 50%, tức là từ 47% đến 53%. Như vậy tỉ lệ khác biệt 55% và 44% giữa hai nhóm ko thể chỉ là kết quả của sự dao động ngẫu nhiên bình thường mà phải do tác động thực sự của thuốc. Khi đó, ta nói rằng khác biệt giữa hai nhóm thí nghiệm là có ý nghĩa thống kê và thuốc thật có tác dụng hơn so với giả dược.
5. Lặp lại thí nghiệm (replication)

Dù cỡ mẫu lớn, vẫn có thể tồn tại khả năng rằng do may mắn đơn thuần mà những đối tượng NNC chọn vô tình có những ưu thế hoặc khác biệt so với phần còn lại của quần thể, làm cho kết quả thí nghiệm không chính xác và không có tính phổ quát. Để thực sự chắc chắn rằng kết quả thí nghiệm có thể phổ quát hoá cho một quần thể lớn hơn thì một thí nghiệm cần phải bảo toàn kết quả của nó qua nhiều lần thí nghiệm riêng lẻ được thiết kế tương tự bởi nhiều nhà khoa học khác và trên những mẫu khác nhau.

Thứ Năm, 20 tháng 8, 2015

TK13. Thu thập thông tin : Thế nào là một thiết kế nghiên cứu quan sát tốt ?

Hai phương pháp nghiên cứu : Quan sát và Thí nghiệm.
Phương pháp quan sát (observational study) nghĩa là nhà nghiên cứu chỉ quan sát những giá trị của biến giải thích và biến kết quả ở những đối tượng trong mẫu mà không có bất kỳ tác động nào lên các đối tượng này. Trong khi đó, ở phương pháp thí nghiệm (experimental study), nhà nghiên cứu tiến hành một số thay đổi trên mẫu và sau đó quan sát kết quả xảy ra ở biến số mà họ quan tâm.
Phương pháp thí nghiệm có ưu điểm hơn so với phương pháp quan sát vì nó giúp ta tìm ra mối quan hệ giữa biến giải thích và biến kết quả một cách chính xác hơn nhờ khả năng loại bỏ các biến giấu (lurking variables) bằng kỹ thuật ngẫu nhiên hoá (randomization). Tuy nhiên trên thực tế có nhiều nguyên nhân (đạo đức nghề nghiệp, thời gian, chi phí…) mà không phải lúc nào ta cũng có thể làm thí nghiệm. Hơn nữa, nếu mục đích không phải là đi tìm mối quan hệ nhân-quả thì nghiên cứu quan sát vẫn tỏ ra rất hữu dụng. Vì vậy, ta sẽ xem xét những cách thức để thiết kế một nghiên cứu quan sát có hiệu quả.

Thiết kết một nghiên cứu quan sát tốt
Dữ liệu có sẵn
Để thu thập dữ liệu cho nghiên cứu, nhà nghiên cứu tuyệt đối không dùng các thông tin mang tính điển tích-giai thoại, nếu muốn dùng dữ liệu có sẵn thì chỉ nên dùng những dữ liệu có sẵn từ những nguồn đáng tin cậy từ các tập san khoa học uy tín hoặc trang web thống kê của chính phủ.
Hầu hết các quốc gia đều tổ chức điều tra dân số (census) định kì trong đó họ thu thập thông tin về dân số quốc gia và dân số từng vùng. Tuy nhiên, khi điều tra dân số khó tiến hành vì tốn nhiều thời gian và có khi dữ liệu không đầy đủ thì điều tra chọn mẫu (sample survey) trở thành một giải pháp thực tế hơn nhiều bởi vì nó  cho phép chọn ra và thu thập thông tin từ một nhóm nhỏ (mẫu) trong quần thể.
Tự tìm dữ liệu
Ngoài dữ liệu sẵn có, nhà nghiên cứu (NNC) dĩ nhiên có lúc phải tự thu thập dữ liệu cho riêng nghiên cứu của mình. Đó là khi họ tiến hành điều tra chọn mẫu, nghĩa là chọn đối tượng nghiên cứu và thu thập thông tin từ những đối tượng này. Đầu tiên NNC xác định quần thể mình quan tâm và thiết lập khung mẫu (sampling frame)- một danh sách những đối tượng trong quần thể mà từ đó ta muốn lấy mẫu. Ví dụ quần thể mà ta quan tâm là tất cả sinh viên trong trường. Vậy thì khung mẫu là kỷ yếu sinh viên (hoặc danh sách các sinh viên đã đăng ký).
Thiết kế mẫu (sampling design) là phương pháp dùng để chọn đối tượng từ khung mẫu. Nguyên tắc cốt lõi của thiết kế mẫu là tính ngẫu nhiên. Đây cũng là nguyên tắc cơ bản của môn khoa học thống kê. Phương pháp lấy mẫu ngẫu nhiên đơn giản (simple random sampling) là phương pháp lấy mẫu trong đó lấy ra n đối tượng từ một quần thể và đảm bảo chắc chắn rằng mỗi đối tượng lấy ra đó có cùng một cơ hội được chọn.
Làm thế nào để chọn mẫu ngẫu nhiên ?  
Có 3 bước như sau :
  1. Đánh số các đối tượng trong khung mẫu bằng những số có độ dài (số chữ số) tương đương nhau.
  2. Chọn những số có cùng độ dài từ phần mềm tạo số ngẫu nhiên (thường được tích hợp sẵn trong phần mềm thống kê hoặc máy tính điện tử)
  3. Chọn những đối tượng có số trùng với con số ngẫu nhiên được tạo ở bước 2.
Thu thập thông tin
Những cách thức phổ biến dùng để thu thập thông tin trong điều tra chọn mẫu như phỏng vấn qua điện thoại, phỏng vấn trực tiếp, bảng câu hỏi (tự điền).
Công cụ đo lường tính chính xác của kết quả thu được từ điều tra chọn mẫu ngẫu nhiên (survey with random sampling) là sai số biên (margin of error). Với mẫu ngẫu nhiên đơn giản có n đối tượng, công thức ước tính sai số biên xấp xỉ :
\frac{1}{{\sqrt n }}.100\%
Một số thiên kiến tiềm tàng (potential bias) trong điều tra chọn mẫu 
Thiên kiến- bias xảy ra khi một vài bộ phận của quần thể được ưu ái hơn khi chọn mẫu và khiến cho kết quả thu được không đại điện đầy đủ cho quần thể. Chia bias theo nguyên nhân, ta có các loại bias:
  1. Sampling bias- thiên kiến chọn mẫu : chọn mẫu không ngẫu nhiên, không bao quát hết quần thể. Hai cách chọn mẫu khá phổ biến nhưng có khả năng gây thiên kiến cao đó là chọn mẫu thuận tiện (convenience samples) và chọn mẫu tình nguyện (volunteer samples).
  2. Non-response bias- thiên kiến không phản hồi : dữ liệu khuyết quá lớn
  3. Response bias –thiên kiến phản hồi : trả lời dối, sai sự thật, câu hỏi đánh lạc hướng hoặc dễ gây hiểu lầm…
Để kiểm tra những thiên kiến tiềm tàng thì việc làm đầu tiên là phải xem thiết kế chọn mẫu có tốt không, cỡ mẫu là bao nhiêu ? trong đó tỉ lệ không phản hồi (missing data) là bao nhiêu ? từ ngữ dùng trong câu hỏi khảo sát ra sao ? (có mang tính dẫn dắt hoặc gây nhầm lẫn không ?) ai tài trợ nghiên cứu này ? Nếu bạn biết rất ít về những thông tin này thì bạn càng không nên tin vội những kết quả mang lại.

Tóm lại, những điểm chính trong một cuộc điều tra chọn mẫu mà ta cần lưu ý đó là :
  1. Xác định quần thể mình cần tìm hiểu
  2. Thiết lập khung mẫu
  3. Chọn mẫu bằng phương pháp lấy mẫu ngẫu nhiên đơn giản để lấy ra n đối tượng thuộc khung mẫu.
  4. Chọn cách thức thu thập dữ liệu
  5. Và cuối cùng là, luôn coi chừng các thiên kiến tiềm tàng !