6上机课第5讲 属性数据分析

时间:2022-11-24 10:55:39 作者:壹号 字数:3894字

属性数据分析一、列联表分析—得到概括性信息二、属性变量的无关联性检验 三、有序变量的关联性分析

四、FREQ过程

案例5.1 性别与主修专业是否相关— P116 案例5.2 是否判死刑与种族是否相关— —P119 案例5.3 工艺与产品质量是否有关系— —P125 案例5.4 患病程度和牛群大小是否相 关——P1302

变量的类型:1. 名义变量 2. 有序变量(两个值的差没有意义) 3. 区间变量(间隔变量,比如温度) 4. 比率变量(比例变量)

名 义 变 量 属性变量 (定 性 变 量 、 离 散 变 量 ) 有 序 变 量

区 间 变 量 定量变量 (连 续 变 量 ) 比 率 变 量

属性数据 由属性变量得到的数据都是属性数据. 当我们研究的指标是一个属性变量, 并希望用其他变量来说明或预测这个属性 变量的取值时,不管用以说明的变量是属 性的或连续的,使用的统计方法统称为属 性数据分析.

对属性数据进行分析的目的:1. 2. 3. 4. 产生汇总分类数据----列联表; 检验属性变量间的独立性(无关联性); 计算度量属性变量间的关联性统计量; 对高维数据进行分层分析和建模.

注:(1)本章仅研究1-3. (2)使用SAS中FREQ过程

一、 列联表分析几个概念: 1. 交叉表(两个或两个以上变量的列联表)

2. 双向表(两个变量的列联表)3. 单元

4. 单元频数

两个属性变量的列联表1 1 2n11n 21

2n12n 22

… … …

cn1c n2c

sumn1 j n1 jn2 j n2 j

r

nr 1

nr 2 n 2

… …

nrc

nr j nrj

sum n 1

n c

n

由原始数据生成列联表1. 使用FREQ过程来生成列联表;

2. 使用SAS菜单系统“分析员应用”生成 列联表(table analysis).

案例5.1 性别与主修专业是否相关. 书P116—原始数据表:属性变量:性别、

主修专业(统计专业和非统计专业).

程序:见属性数据分析中案例5.1

student 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

sex m m f m f f m m m f m f m m m f m m f m

major yes no yes no yes yes no no yes yes no yes yes yes no yes yes no no yes

输出结果sex major

统计课程中学生的专业和性别

Frequency|Percent Row Pct Col Pct | | |no |yes | Total

---------|--------|--------| f | | | | 1 | 5.00 | 14.29 | 12.50 | 6 | 30.00 | 85.71 | 50.00 | 7 35.00

---------|--------|--------| m | | | 7 | 35.00 | 53.85 | 6 | 30.00 | 46.15 | 13 65.00

|

87.50 |

50.00 |

---------|--------|--------| Total 8 40.00 12 60.00 20 100.00

由现成的汇总表生成列联表 1. 使用FREQ过程来生成列联表; 注意:在FREQ过程中必须使用 WEIGHT语句. 2. 使用SAS菜单系统“分析员应用”生成 列联表. 注意:要给出频数变量cell Counts.

案例5.2 是否判死刑与种族是否相关 看书P119. 数据如下表:种族

是否 判死刑

白人19 141

黑人17 149

是 否

程序:见属性数据分析中案例5.2

生成多个变量的交叉表使用FREQ过程来生成列联表;

proc freq data=welfare page;tables city*employ*politic*opinion; …… run;

二、属性变量的无关联性检验 1、属性变量无关联性的卡方检验 假设:H 0 : 行变量与列变量独立, H1 : 它们不独立

统计量:

2 i 1 j 1

r

c

( n ij m ij ) m ij

2

其中:

nij 表示观测频数 mij 表示期望频数 mij ni n j n

两个属性变量的列联表1 1 2n11n 21

2n12n 22

…… …… ……

cn1c n2c

sumn1 j n1 jn2 j n2 j

r sum

nr 1 n 1

nr 2 n 2

…… ……

nrc

nr j nrj

n c

n

(1)在H 0 成立时,当观测数据较大时, 2 统计 量 的分布近似服从自由度为(r 1) (c 1)的

…… 此处隐藏0字 ……

2分布.( a)没有空单元(所有单元频数都不为0) (b)所有单元的期望频数均大于等于5 (2)在H 0 成立时,观测频数nij与期望频数mij 应该 比较接近,所以,当 2 统计量的值太大时拒绝H 0 .

案例5.2 看书P123. 数据如下表:种族 是否 判死刑

白人

黑人

是 否

19 141

17 149