Thứ Ba, 14 tháng 7, 2015

TK2. Thống kê mô tả: Phân loại dữ liệu

Trong thống kê, người ta nói nhiều về tính biến thiên bởi vì đây là một yếu tố cốt lõi của môn khoa học này. Để biểu thị tính đa dạng của dữ liệu (data), ta dùng các biến số (variables). Biến số là bất kỳ đặc tính nào mà ta quan sát thấy được trong một nghiên cứu và biến số có thể nhận nhiều giá trị khác nhau. Thuật ngữ variable tự nó cũng cho thấy tính chất biến thiên của dữ liệu. Ví dụ, GPA, lượng mưa trung bình, GDP đầu người là các biến số bởi vì chúng thay đổi tùy từng đối tượng như là sinh viên, thành phố, quốc gia. Có hai loại biến là: biến phân loại và biến định lượng.

Biến phân loại (categorical) là biến có giá trị thuộc vào một nhóm nào đó và nó không có giá trị định lượng. Ví dụ tình trạng hôn nhân, nơi sinh, ngành học là các biến phân loại. Để mô tả biến phân loại, người ta tính tần số hay phần trăm của từng nhóm và của nhóm cao nhất (modal category). Ví dụ như, có bao nhiêu phần trăm sinh viên tốt nghiệp ngành tâm lý mỗi năm? 

Biến định lượng (quantitative) là biến diễn tả các mức độ cao, thấp của dữ liệu. Ví dụ GPA, thu nhập, số con trong gia đình là các biến định lượng. Để mô tả biến phân loại, người ta tìm hiểu tính trung bình (center) và tính biến thiên (varibility) của chúng. Ví dụ như, GPA trung bình của sinh viên năm cuối là bao nhiêu? Có sự dao động lớn giữa từng năm học không?
Biến định lượng có thế là biến liên tục (continuous) nếu nó có các giá trị số liên tiếp nhau kéo dài vô hạn và tạo thành một khoảng hoặc biến rời rạc (discrete) nếu các giá trị của nó là những con số rời nhau và có hạn. 
Phương pháp phân tích dữ liệu sẽ phụ thuộc vào loại dữ liệu mà ta cần nghiên cứu. Vì vậy, ta cần hiểu rõ cách phân loại biến.

Bảng tần số (frequency table)
Tần số là số lần biến nhận một giá trị nào đó. Tỉ lệ (proportion) là tần số được diễn tả một cách tương đối, được tính bằng cách lấy tần số chia cho tổng số quan sát. Tỉ lệ phần trăm (percentage) là tỉ lệ được nhân lên cho 100. Tỉ lệ và tỉ lệ phần trăm được gọi là tần số tương đối (relative frequencies) và được dùng để mô tả các nhóm của một biến phân loại.

Bảng tần số là bảng liệt kê các giá trị của một biến và tần số của chúng. Nhóm có tần số cao nhất của một biến phân loại gọi là model category, còn giá trị cao nhất của một biến định lượng gọi là mode. 

Không có nhận xét nào:

Đăng nhận xét