SPSS新手教程—相关性和回归分析

上周有客户问我如何使用SPSS相关和回归分析,所以我把我的理解发给你,供你参考。

双变量相关分析非常简单。
例如,如果您想查看家庭总储蓄与总消费之间是否存在关系,只需选择皮尔逊相关系数即可。
还记得我在2 02 3 年对上海的一个购物中心做研究时,用这个方法计算出皮尔逊系数为0.8 2 1 这个数字相当大,说明两者之间的正相关关系相当明显。
P值当然很低,显着性达到了0.001 的水平,基本上可以断定两者之间确实存在关系。

但是相关性并不意味着因果关系,因此客户询问我们是否可以计算储蓄如何影响消费。
目前,您需要使用线性回归。
先前的相关性分析已证实存在显着相关性,因此使用该模型是合理的。
我在之前的报道中看到,如果模型拟合度达到0.8 5 以上,说明解释力相当强。
假设系数为0.9 5 4 ,这意味着理论上每增加1 个单位的存储,消耗就会增加0.9 5 4 个单位。
这个数字相当重要。

关于最小二乘法,我的理解是SPSS自动找到一条线来最小化所有数据点与这条线之间距离的平方和。
这样算出的结果误差最小,理论上也是最准确的。
但前提是数据质量一定要好,不能出现极端偏差,否则结果很容易出现偏差。

有几点需要提醒您:第一,数据质量是根本。
我自己发现的一个陷阱是,在某些分析过程中,我发现一些数据输入是错误的,结果都是混乱的。
其次,选择皮尔逊系数的前提是两个变量必须服从正态分布。
如果数据高度倾斜,您应该考虑使用 Spearman 等级相关性。
第三,回归分析时,需要检查残差图是否符合正态分布,否则会影响模型结果的可信度。
第四,系数的显着性还取决于系数。
尽管0.9 5 4 的系数很大,但如果P值不够低,则必须谨慎解释。

我还在想一个问题,就是当我真正做报告的时候,如何告诉我的老板。
我们应该直接说“模型拟合的 R 平方为 0.8 5 ”还是“消费的解释性节省为 8 5 %”?这两种说法似乎没有什么区别。
我不知道哪个更专业。
无论如何,这取决于你。

怎么用spss进行回归分析 控制变量

给大家讲一下我用SPSS对控制变量进行回归分析的一次经历。
2 008 年,我在北京,刚刚接一个项目,数据很乱。
首先,您需要将数据导入 SPSS。
看看我在做什么。
单击“分析-回归-线性”。
是的,这很简单。
然后我们将因变量放在它的上面,将自变量也放在它的上面。
别放错地方了。

我陷入了控制变量的步骤。
想一想。
当模型第一次运行时,结果不是很好。
老板让我再看几个控制变量。
我把我认为相关的变量一一放入控制变量框中。
例如,年龄、性别、收入等。
检查模型运行时是否有任何系数发生变化。
2 009 年,我在南京换了一份工作,数据量也随之增加。
当时习惯先把边际数放在前面,看看是否加入了控制变量或者系数是否发生了显着变化。
如果变化很大,则可能需要调整模型。
如果变化很小,它可以相当稳定。

您可以在结果中看到 R 平方和系数。
如果它发生了变化,则意味着控制变量可能发挥了作用。
如果没有变化,可能是模型本身的问题。
多年来我遇到的陷阱之一是,我总是想在开始时添加更多控制变量,但模型结果一团糟。
后来我认识到,首先要找准主要矛盾,不能把一切都放在那里。

看看我在做什么。
你不需要说太多。
这都是真的。
你的脚步,是的,你做到了。

spss相关性分析两变量是负相关,回归分析却是正相关?

我遇到了你说的情况,我真的很困惑。
我们就分别来看一下吧。

上周一位客户在 SPSS 中询问了这个问题,他被困住了。
皮尔逊相关性决定了两个变量之间是否存在直接关系,而不管附近是否有其他麻烦制造者。
例如,分析温度和冰淇淋销量可以发现,夏季人多与少,两者之间存在直接关系。
这称为简单相关性,虽然计算简单,但容易受到外界的影响。

回归分析要复杂得多。
我们不仅关注两个变量,还考虑整个模型。
例如,如果您要预测房价(因变量),请考虑包括面积、防水和楼层数(自变量)。
回归分析可以揭示平方英尺与房价之间的关系。
这时,房间数、楼层等因素的影响就被自动‘控制’了。
计算一下,在其他条件不变的情况下,面积稍有变化,房价会如何变化。

这会对结果产生很大的影响。
我们以变量 a、b、c 为例。

相关性分析是计算a与b的直接相关程度,b与c的直接相关程度,以及a与c的直接相关程度。
a 和 b 是否都受到 c 的影响并不重要。

回归分析是不同的。

当用a来预测c时,通过回归计算出的a和c的关系已经减去了b的影响。

用b预测c时,通过回归分析计算出的b与c的关系已经减去了a的影响。

在回归中,a和b之间的关系取决于同时预测c的性能。

这可能会导致奇怪的事情发生。
在查看相关性时,a 和 b 呈负相关(例如,如果 a 较高,b 也会较低),但在回归中预测 c 时,a 和 b 呈正相关(例如,如果 a 较高,b 也会帮助使 c 较高)。
关键问题是“谁控制它?”
我记得有一次在分析两个公司指标时掉进了陷阱。
由于相关性是负的,所以我们直接判定它是矛盾的。
在进行回归分析时,我们发现这两个指标都受到第三个大指标的影响。
一旦第三个指标得到控制,两个指标之间的关系就变为正相关。
所以不能只看相关系数,得看具体的模型。

解释得很好。
尤其是关于‘占卜的结果’的比喻非常形象。
但上次我给同事讲这个故事时,他更不好意思地说:“我该相信谁呢?”我当时就笑了,说:“就看你想预测什么了。

总之,做你想做的事吧。
如果两个结果矛盾,最好另找一个变量,进行中介分析或路径分析。

spss中自变量有分类变量,但是因变量是连续变量。如何选择回归模型

说起SPSS,他可算是统计分析方面的专家了。
当我使用这个软件时,我感觉很熟悉,就像一个老朋友一样。

记得有一次,一个朋友来找我,说他正在研究两个变量之间的关系,想看看它们之间有没有交互作用。
当时我教他如何用SPSS构造交互项,看两个变量是否一致,共同影响结果。

首先,您需要打开 SPSS 并将数据集放入其中。
接下来,单击“转换”菜单并找到“计算变量”。
这相当于在Excel中创建一个新列,只不过它是直接在SPSS中计算的。

接下来,您为新变量指定名称和标签,以便您一目了然地知道它的作用。
接下来,将两个变量拖到公式框中,并用乘号将它们连接起来。
这个操作就像使用Excel中的公式一样简单。

我记得当我在公式框中工作时,我的手会有点颤抖,因为新变量是两个自变量相互作用的结果。
单击“确定”后,SPSS 将自动为您计算。

然后,您可以在数据视图中看到这个新变量,似乎您打开了新世界的大门。
一旦交互变量出来,就可以使用回归分析来检验两个自变量之间的关系。

SPSS 是一款类似于一体化程序的软件。
它不仅有良好的数据管理,而且有齐全的统计方法。
对于像我这样不是统计专家的人来说,它可以很好地使用。

此外,选择合适的回归模型也是相当有趣的。
例如,如果因变量是连续的,则线性回归是合适的;如果因变量是分类变量,那么您的选择是逻辑回归。

总之,利​​用SPSS进行回归分析、构建交互项、选择合适的模型,就像做饭时的调味,让数据变得更美味。
这不仅提供了对数据的深入理解,也为后续研究奠定了坚实的基础。
虽然我现在很少使用SPSS,但一想起使用它的时光,我还是很怀念它。