多元统计分析:典型相关分析

简介 典型相关分析(Canonical Correlation Analysis, CCA) 探讨一组变量 与 另一组变量间的 相互关系 即是 典型相关分析,它是 简单相关 和 多元相关分析 的 延伸 ​ --- 《多元统计分析及R语言建模》(第五版)王斌会 目的:化简 复杂相关关系 利用 PCA思想 讨论 两组随机变量的相关性 将 两组变量间相关性研究 化为 少数几对变量间相关性研究, 且 此少数几对变量间 不相关 原理 典型相关分析 :研究两组变量间 相关关系 的一种多变量统计分析方法, 它 可以真正反映 两组变量间 相互依赖 的线性关系 两组变量: 第一组: \(x_1, \ x_2, \ ... \ , x_p\) 第二组: \(\ y_1, \ y_2, \ ...\ , y_q\) 类似PCA的做法: 每组 变量 中 选择 若干代表性 综合指标(变量的线性组合),通过 研究 两组 综合指标 间关系 来反映 两组变量间 相关关系 即 线性组合 之间的相关关系 步骤:
    每组变量 中 找 变量的线性组合,使其 具有最大相关性 每组变量 中 找 第二对线性组合,使其 分别与 第一对线性组合不相关, 而 第二对 本身具有次大相关性 如此反复,直到 两组变量间 相关性 被提取完毕

典型相关系数 的 求法

    分别在每组变量中 找第一对线性组合,使其具有最大相关性
    分别在每组变量中 找第二对线性组合,使其分别与本组内的第一对线性组合不相关,且拥有次大相关性
\(u_2\)与\(u_1\)、\(v_2\)与\(v_1\)不相关,但 \(u_2\) 和 \(v_2\) 相关 如此反复,直到 r 步,两组变量相关性提取完, 可得到 r 组变量,这里 \(r<=min(p, q)\)

典型变量的性质

大多数情况下, 在进行 典型相关分析时, 可 先将 数据标准化, 样本协方差阵 = 样本相关系数阵, 此时 就不会 出现 特征根 不等于 相关系数的平方 的情况

典型相关系数的检验

典型相关系数的 显著性检验 求出 "去掉前 k 个典型相关系数的影响" 后 所剩(p - k) 个典型相关系数 是否 可达到显著 所 计算的 \(x^2\) 值 若大于 \(x^2[(p - r + 1)(q - r + 1)]\) 便 拒绝 典型相关系数为 0 的假设 步骤 案例 农村居民收入和支出典型相关分析
1
2
3
4
library(openxlsx)
Case11 = read.xlsx("../Res/mvcase5.xlsx", "Case11")

head(Case11)
1
round(cor(Case11), 3)
1
plot(Case11, gap = 0)
1
2
3
# 最好先标准化
Z = scale(Case11)
head(Z)
1
ca = cancor(Z[,1:4], Z[,5:9]);ca
看列(1列1列看): [,1] 第一对典型相关变量
u1: X1 载荷最大
v1: Y1 载荷最大
X1 载荷,Y1载荷 相同正负 -> 相同方向的影响 结论:Y1(生活消费) 主要由 X1(工资性收入) 维持 $cor 相关系数
依次为 第1对典型相关变量(u1, v1) 的相关系数
第2对典型相关变量(u2, v2) 的相关系数
... 同正负->同方向 的影响
1
2
source("../Res/msaR.r")
msa.cancor(Z[,1:4], Z[,5:9], plot = T)
看 $xcoef(x系数),​$ycoef (y系数):载荷 第一对典型变量 u1,v1: 其中 X1(工资性收入)、X4(转移性收入) 有较大载荷(看绝对值大小),且X1载荷最大,
说明 u1 主要受 工资性收入及转移性收入 影响 其中 Y1(生活消费)的载荷最大,说明 v1 主要受Y1(生活消费支出)的影响, 从而可说明 Y1(农村居民生活消费 支出) 中,较大的部分是由 X1(工资性收入) 及 X4(转移性收入) 来维持的 Q&A Q: 为什么需要 典型相关分析?或者说什么时候要用? A:TODO: 补充

方差

总体方差

样本方差

期望和方差

连续性

求正态分布的数学期望&&方差

参考 感谢帮助! 《多元统计分析及R语言建模》(第五版)王斌会 典型相关分析(Canonical correlation analysis)(一):基本思想 、复相关系数、偏相关系数