编制分配数列是统计分析中的重要步骤,主要用于展示数据分布特征。以下是具体步骤及注意事项:
一、确定统计分组标志
选择能反映总体本质特征的标志作为分组依据,例如:
品质标志:如性别、职业等分类数据(属性安排数列)
数量标志:如年龄、成绩等连续或离散数据(变量安排数列)
二、确定分组体系
全距 = 最大值 - 最小值
例如:学生成绩最大值95,最小值60,则全距=95-60=35
组距通常取5或10的整数倍(如5、10、15等)
组数公式:$组数 = 1 + frac{ln N}{ln 2}$(适用于大数据集)
注意:组距与组数需保证数据覆盖所有值,避免遗漏
确定组限
闭口式组限: 适用于数据无极端值的情况(如成绩60-70、80-90)
开口式组限:适用于数据存在极端值的情况(如成绩0以下、100以上)
离散型变量采用不重叠组限,连续型变量采用重叠组限(如50-60、60-70,组中值=(上限+下限)/2)
三、计算频数和频率
统计各组包含的单位数
频数与总单位数的比值(%)
四、编制分配数列
将原始数据按数值大小排序
将数据按组距和组限分配到各组
制作统计表,列出各组频数和频率
五、注意事项
处理缺失值和异常值,确保数据完整性
组距不宜过小(如1),否则组数过多;组距过大会导致信息丢失
原则遵循
离散型变量组限明确,连续型变量遵循“上组限不在内”原则
可使用Excel等工具辅助排序和计算
示例(学生成绩分布)
| 组限 | 频数 | 频率 |
|------------|------|------|
| 50-60 | 10 | 20% |
| 60-70 | 15 | 30% |
| 70-80 | 8| 16% |
| 80-90 | 5| 10% |
| 90-100 | 2| 4% |
通过以上步骤,可清晰展示数据分布特征,为进一步分析提供基础。