Trong thống kê, người ta nói nhiều về tính biến thiên bởi vì
đây là một yếu tố cốt lõi của môn khoa học này. Để biểu thị tính đa dạng của dữ
liệu (data), ta dùng các biến số (variables). Biến số là bất kỳ đặc tính nào mà
ta quan sát thấy được trong một nghiên cứu và biến số có thể nhận nhiều giá trị
khác nhau. Thuật ngữ variable tự nó cũng cho thấy tính chất biến thiên của dữ
liệu. Ví dụ, GPA, lượng mưa trung bình, GDP đầu người là các biến số bởi vì
chúng thay đổi tùy từng đối tượng như là sinh viên, thành phố, quốc gia. Có hai
loại biến là: biến phân loại và biến định lượng.
Biến phân loại (categorical) là biến có giá trị thuộc vào một
nhóm nào đó và nó không có giá trị định lượng. Ví dụ tình trạng hôn nhân, nơi
sinh, ngành học là các biến phân loại. Để mô tả biến phân loại, người ta tính tần
số hay phần trăm của từng nhóm và của nhóm cao nhất (modal category). Ví dụ
như, có bao nhiêu phần trăm sinh viên tốt nghiệp ngành tâm lý mỗi năm?
Biến định lượng (quantitative) là biến diễn tả các mức độ
cao, thấp của dữ liệu. Ví dụ GPA, thu nhập, số con trong gia đình là các biến định
lượng. Để mô tả biến phân loại, người ta tìm hiểu tính trung bình (center) và
tính biến thiên (varibility) của chúng. Ví dụ như, GPA trung bình của sinh viên
năm cuối là bao nhiêu? Có sự dao động lớn giữa từng năm học không?
Biến định lượng có thế là biến liên tục (continuous) nếu nó
có các giá trị số liên tiếp nhau kéo dài vô hạn và tạo thành một khoảng hoặc biến
rời rạc (discrete) nếu các giá trị của nó là những con số rời nhau và có hạn.
Phương pháp phân tích dữ liệu sẽ phụ thuộc vào loại dữ liệu
mà ta cần nghiên cứu. Vì vậy, ta cần hiểu rõ cách phân loại biến.
Bảng tần số (frequency table)
Tần số là số lần biến nhận một giá trị nào đó. Tỉ lệ
(proportion) là tần số được diễn tả một cách tương đối, được tính bằng cách lấy
tần số chia cho tổng số quan sát. Tỉ lệ phần trăm (percentage) là tỉ lệ được
nhân lên cho 100. Tỉ lệ và tỉ lệ phần trăm được gọi là tần số tương đối
(relative frequencies) và được dùng để mô tả các nhóm của một biến phân loại.
Bảng tần số là bảng liệt kê các giá trị của một biến và tần
số của chúng. Nhóm có tần số cao nhất của một biến phân loại gọi là model
category, còn giá trị cao nhất của một biến định lượng gọi là mode.
Không có nhận xét nào:
Đăng nhận xét