属性数据分析一、列联表分析—得到概括性信息二、属性变量的无关联性检验 三、有序变量的关联性分析
四、FREQ过程
案例5.1 性别与主修专业是否相关— P116 案例5.2 是否判死刑与种族是否相关— —P119 案例5.3 工艺与产品质量是否有关系— —P125 案例5.4 患病程度和牛群大小是否相 关——P1302
变量的类型:1. 名义变量 2. 有序变量(两个值的差没有意义) 3. 区间变量(间隔变量,比如温度) 4. 比率变量(比例变量)
名 义 变 量 属性变量 (定 性 变 量 、 离 散 变 量 ) 有 序 变 量
区 间 变 量 定量变量 (连 续 变 量 ) 比 率 变 量
属性数据 由属性变量得到的数据都是属性数据. 当我们研究的指标是一个属性变量, 并希望用其他变量来说明或预测这个属性 变量的取值时,不管用以说明的变量是属 性的或连续的,使用的统计方法统称为属 性数据分析.
对属性数据进行分析的目的:1. 2. 3. 4. 产生汇总分类数据----列联表; 检验属性变量间的独立性(无关联性); 计算度量属性变量间的关联性统计量; 对高维数据进行分层分析和建模.
注:(1)本章仅研究1-3. (2)使用SAS中FREQ过程
一、 列联表分析几个概念: 1. 交叉表(两个或两个以上变量的列联表)
2. 双向表(两个变量的列联表)3. 单元
4. 单元频数
两个属性变量的列联表1 1 2n11n 21
2n12n 22
… … …
cn1c n2c
sumn1 j n1 jn2 j n2 j
r
nr 1
nr 2 n 2
… …
nrc
nr j nrj
sum n 1
n c
n
由原始数据生成列联表1. 使用FREQ过程来生成列联表;
2. 使用SAS菜单系统“分析员应用”生成 列联表(table analysis).
案例5.1 性别与主修专业是否相关. 书P116—原始数据表:属性变量:性别、
主修专业(统计专业和非统计专业).
程序:见属性数据分析中案例5.1
student 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
sex m m f m f f m m m f m f m m m f m m f m
major yes no yes no yes yes no no yes yes no yes yes yes no yes yes no no yes
输出结果sex major
统计课程中学生的专业和性别
Frequency|Percent Row Pct Col Pct | | |no |yes | Total
---------|--------|--------| f | | | | 1 | 5.00 | 14.29 | 12.50 | 6 | 30.00 | 85.71 | 50.00 | 7 35.00
---------|--------|--------| m | | | 7 | 35.00 | 53.85 | 6 | 30.00 | 46.15 | 13 65.00
|
87.50 |
50.00 |
---------|--------|--------| Total 8 40.00 12 60.00 20 100.00
由现成的汇总表生成列联表 1. 使用FREQ过程来生成列联表; 注意:在FREQ过程中必须使用 WEIGHT语句. 2. 使用SAS菜单系统“分析员应用”生成 列联表. 注意:要给出频数变量cell Counts.
案例5.2 是否判死刑与种族是否相关 看书P119. 数据如下表:种族
是否 判死刑
白人19 141
黑人17 149
是 否
程序:见属性数据分析中案例5.2
生成多个变量的交叉表使用FREQ过程来生成列联表;
proc freq data=welfare page;tables city*employ*politic*opinion; …… run;
二、属性变量的无关联性检验 1、属性变量无关联性的卡方检验 假设:H 0 : 行变量与列变量独立, H1 : 它们不独立
统计量:
2 i 1 j 1
r
c
( n ij m ij ) m ij
2
其中:
nij 表示观测频数 mij 表示期望频数 mij ni n j n
两个属性变量的列联表1 1 2n11n 21
2n12n 22
…… …… ……
cn1c n2c
sumn1 j n1 jn2 j n2 j
r sum
nr 1 n 1
nr 2 n 2
…… ……
nrc
nr j nrj
n c
n
(1)在H 0 成立时,当观测数据较大时, 2 统计 量 的分布近似服从自由度为(r 1) (c 1)的
…… 此处隐藏0字 ……
2分布.( a)没有空单元(所有单元频数都不为0) (b)所有单元的期望频数均大于等于5 (2)在H 0 成立时,观测频数nij与期望频数mij 应该 比较接近,所以,当 2 统计量的值太大时拒绝H 0 .
案例5.2 看书P123. 数据如下表:种族 是否 判死刑
白人
黑人
是 否
19 141
17 149