一文读懂11个常见的多变量分析方法

行吧,咱一个个捋捋这些多变量分析方法。
说实话,这玩意儿看着多,但都挺具体的。

1 . 多变量方差分析(MANOVA) 这玩意儿核心是啥?就是看1 个或多个自变量,能不能同时影响2 个以上的因变量。
比如,你想看不同教学方法(自变量,离散定类/定序的)对数学和语文成绩(因变量,定距的)有没影响。
教育领域常用,我以前看过一篇2 01 8 年发的文章,就是用MANOVA分析小学实验班和对照班在语文、数学、科学3 科上的成绩差异。

2 . 主成分分析(PCA) PCA主要是数据降维。
比如你有3 0个消费者满意度指标(定距的),觉得太乱了,想简化。
那PCA能帮你保留9 0%以上信息,把这3 0个指标缩成3 -5 个主成分。
市场调研里常用,我碰到过某个化妆品公司用PCA把5 0个问卷问题变成7 个维度,方便做用户画像。

3 . 因子分析(FA) FA和PCA有点像,但FA是挖潜在结构,PCA是找最佳线性组合。
比如心理学研究,有4 0个题测人格,FA能帮你找出几个潜在特质(比如外向、神经质这些),看看这些题怎么分组。
我看过一篇2 02 0年的心理学论文,用FA从5 0个量表题里识别出5 个人格因子。

4 . 典型相关分析(CCA) CCA是分析两组变量间的最大相关性。
比如你想看家庭环境(一组变量)和学业表现(另一组变量)啥关系。
这比单纯回归强,回归一个因变量,CCA能同时看多对变量。
教育研究里有人用CCA分析父母教育方式(一组)和子女成绩(一组)的联系。

5 . 聚类分析(CA) 聚类就是根据相似性把观测值分堆。
比如你有1 000个消费者(定距变量),想按购买行为分几类。
电商公司常用,我看过某平台用聚类把用户分成“高频低价”“品质追求”“冲动消费”几类,然后搞精准推荐。

6 . 判别分析(DA) DA是反过来,已知类别差异,去预测新样本属于哪个类。
比如医疗诊断,你有3 0个生理指标(定距),知道哪些指标能区分几种病(离散变量),然后用DA预测一个没诊断的人得啥病。
我看过一篇2 01 9 年神经科的研究,用DA根据脑电信号预测癫痫发作类型。

7 . 多维量表分析(MDS) MDS是把相似性转化成空间距离。
比如你有2 0种产品,想知道消费者怎么在脑子里排序。
市场研究里常用,我碰到过一个做快消品的,用MDS把1 00个竞品在消费者评价里画成2 D地图,看品牌聚在哪块。

8 . 线性结构方程(LISREL) LISREL是整合了回归和因子分析,专门验证变量间的关系路径。
比如你想验证“家庭环境→人格特质→学业表现”这条路径对不对。
心理学和教育学常用,我看过一篇2 02 1 年的论文用LISREL分析社交媒体使用习惯(自变量)通过“自我评价”这个潜变量(中介变量)影响学业成绩(因变量)。

9 . 逻辑斯蒂回归分析 这跟普通回归不一样,因变量是二分或分类的。
比如你想预测客户买不买产品(买/不买,定类)。
电商、广告行业常用,我看过某公司用逻辑回归分析哪些因素(年龄、性别、浏览记录)能显著提高转化率。

1 0. 对数线性模型 这主要是分析3 个以上定类变量怎么交互。
比如你想看性别、年龄、收入怎么影响买哪个品牌(都是分类变量)。
这比卡方强,能看具体哪个变量影响大。
我看过一篇分析啤酒消费的文章,用对数线性模型发现“年轻人+高收入+周末”这组人最爱喝精酿。

1 1 . Logit对数线性模型 这跟对数线性模型区别是,Logit明确自变量和因变量,用最大似然估计。
比如分析教育程度(自变量)和政治倾向(因变量)关系。
社会学常用,我看过某个研究用Logit模型分析职业(自变量)和投票行为(因变量)的关联。

怎么选?
变量是定类的,优先考虑对数线性模型。

变量是定距的,PCA、FA、CCA、MDS都能用。

想看因果关系,MANOVA、LISREL、Logit模型。

想简化数据,PCA、FA。

想分类预测,DA、CA。

实际操作里经常混着用,比如PCA降维后,再用MANOVA看结果,最后用DA验证分类效果。
反正就是看你想干啥,数据啥样,选合适的就行。

如何函数中的自变量的取值范围

直接说,确定函数自变量取值范围就这么几步:
1 . 整式函数,自变量随便取,比如$y=2 x^2 +3 x-1 $,$x$可以是任意数。

2 . 分式函数,分母不能为零,比如$y=\frac{1 }{x}$,$x$就不能是2
3 . 根式函数,被开方数要非负,比如$y=\sqrt{x}$,$x$得大于等于0。

4 . 复合函数,各部分条件都要满足,比如$y=\frac{1 }{x}+\sqrt{x-1 }$,$x$得大于等于1
5 . 实际问题,得符合实际意义,比如长方形面积,长宽得是正数。

6 . 分段函数或多个组合,找交集,比如$y=\sqrt{x}+\frac{1 }{x-2 }$,$x$得大于等于0且不等于2
记住,关键是要保证函数解析式有意义。

什么是?函数中自变量X取值范围,取值范围怎么求

定义域就是x让函数有意义的范围。

整式:x任意实数。

分式:分母不为0。

偶次根式:被开方数>=0。

复合函数:各部分都满足条件。
比如y=1 /x+√(3 x-1 ),x>=1 /3
实际意义:看具体情况。

区间:
开区间(a,b):a
闭区间[a,b]:a<=x<=b。

半开半闭(a,b):a
(a,b):a<=x
长度是b-a。

线段表示有限区间。