多元统计分析:聚类分析

简介 步骤

1. 选择距离公式

1
dist(X, method = "euclidean", p = 2)
method 有 euclidean, maximum, manhattan, canberra, (binary 或 minkowski) p 为 Minkowski 距离的幂次,默认为 p = 2(欧氏距离)
    明氏距离(Minkowski)
明氏距离 分为: 当 q = 1 时 ---> 绝对值距离(Manhattan) 当 q = 2 时 ----> 欧氏距离(Euclidean) 当 \(q = ∞\) 时 -----> 切比雪夫距离(Maximum)
    马氏距离(Manhattan) 兰氏距离(Canberra)
PS:TODO:突然发现 马氏距离和绝对值距离的英文怎么一样

2. 选择系统聚类方法

系统聚类法(Hierachical Clustering Method)
1
hclust(D, method = "complete", ...)
method 有 single, complete, average, mcquitty, median, centroid, ward.D, ward.D2 D 为 相似矩阵,通常为 距离矩阵

1. 最短距离法(single)

2. 最长距离法(complete)

3. 中间距离法(median)

4. 类平均法(average)

5. 重心法(centroid)

6. 离差平方和法(Ward)

3. 聚类图

1
plot(hc)

4. 分类框

1
2
# 注意;分类框一定要与plot一起执行,因为是要 加在聚类图上
plot(hc);rect.hclust(hc, 4) # 分4类 加4分类框

5. 分类结果

1
cutree(hc, 4) # 分4类 显示分类结果
Q&A 补充 参考 《多元统计分析与R语言建模》(第五版)王斌会