如何用spss进行两两相关性分析

导入SPSS数据时;首先看变量类型。
使用 Pearson 和 Spearman 进行连续分类。

分类变量是否有序?均值分组或非参数方法。

肯德尔或卡方取决于变量的类型。

将变量拖入框中并相应地放置 Pearson 和 Spearman。

检查显着性并查看 P 值是否小于 0.05
输出矩阵的含义是,见强相关性的绝对值。

不必担心结果的解释,因为较小的 P 值意味着很多。

根据正负号查看方向;根据小样本得出结论时要小心。

数据分布正常,异常值应尽早解决。

因果关系不相关;样本量至少为3 0。

自己权衡一下。

SPSS相关分析(Pearson、Spearman、卡方检验)

哎呀,你要做统计吗?以前用SPSS做过一些工作,但是操作起来确实很复杂。
让我告诉你我个人遇到的陷阱。

我记得有一次,我在做一项研究,得到了一堆连续变量,我想用皮尔逊相关系数来看看它们之间是否存在线性相关。
当时我就直接进SPSS,选择“分析”-“相关性”-“双变量”,然后选择变量,查了Pearson。
结果出来时,相关系数为0.9 ,相当高。
但后来我发现这些数据有巨大的价值。
那东西一出来,相关系数就增加了。
后来我用了剔除极值的方法,结果稳定了很多。
这告诉我们在数据分析时需要谨慎。
我们不能只看结果,更要分析原因。

我再次使用了斯皮尔曼等级相关系数。
由于数据分布不符合正态分布,因此无法使用皮尔逊相关系数。
我在SPSS中的操作与使用Pearson相同,只是我将“相关系数”选项中的复选标记从“Pearson”更改为“Spearman”。
从结果来看,相关系数为-0.8 ,这表明两个变量呈负相关。
这让我明白了,斯皮尔曼等级相关系数虽然对数据分布要求不高,但对极值仍然敏感,所以需要注意。

卡方为了测试,我正在分析两个分类变量之间是否存在关系。
我在SPSS中选择“分析”-“描述性统计”-“Crostab”,然后将变量放在行和列中。
单击“统计”按钮,选中“卡方”,然后“继续”并单击“确定”。
从结果来看,卡方值为 2 0,自由度为 1 ,p 值为 0.000,表明两个变量强相关。
不过,这件事也让我认识到卡方检验需要非常大的样本量。
如果样本量较小,结果可能不稳定。

总的来说,SPSS操作要谨慎。
您必须根据数据的特点选择合适的方法。
不能只看教程,要结合实际。
正如我之前研究的那样,结果出来后,我必须回去检查数据,看看是否有问题。
这件事让我明白了数据分析需要耐心和细心。

分类变量资料能不能进行相关分析?

说白了,转换动态类型就像切蛋糕一样。
如何划分取决于需要,但每个部分都有自己的游戏。
我们先来说说最重要的事情。
将数值变量转换为分类变量是很常见的。
例如血红蛋白的量直接从g/l分为正常/低。
去年我们在项目中对3 000级的数据就是这样做的。
结果是直接应用高效的二项式分布模型。
另一点是分类变量也可以倒置。
例如,对恶心的反应从0-3 进行评分,从而使数值变量的分析更加准确。
然而,价值差距不平等的问题值得关注。
用行话来说,这称为雪崩效应。
事实上,前面的一点点延迟就会把整个事情拉回来。
还有另一个关键细节。
例如,即使将学历(本科到研究生)分门别类,按组顺序分析时,也不能直接计算均值,必须采用中位数。
很多人不注意这一点。

一开始我以为二分类和类分类没有什么区别,后来发现错了。
类分类中类之间存在强关系或弱关系。
例如,重度贫血比中度贫血更严重。
等等,还有一件事。
将数值变量转换为水平变量时,最合理的档位数是多少?例如,最佳血红蛋白水平是多少?这实际上取决于信息的分布。
我认为值得一试。

两个数据做相关性分析,如果不是正态分布是不是应该用斯皮尔曼分析

说白了:做相关性分析时,数据不正态但要看具体数据时选择Spearman。

首先我们来说说最重要的一点:如果连续数据明显失真,就需要改变。
皮尔逊不靠谱。
我们去年跑的项目中,用户活动和消费数据存在严重的长尾现象。
使用 Pearson 的结果要低 3 0%,但改用 Spearman 后结果立即正确。
另一点需要注意的是,当偏度轻微偏斜时,仍然可以使用 Pearson,例如例如。
1 %到5 %,但如果超过1 0%,不要盲目尝试——很多人不注意这一点,直接套用公式是相当陷阱的。
还有一个细节也很关键。
例如,数据中存在极值。
斯皮尔曼受到的影响较小,但皮尔逊可能会立即崩溃。
用技术术语来说,这称为雪崩效应。
事实上,前面的一点延迟就会让一切都停止。

我一开始以为只要数据不明确就可以使用Spearman,但后来发现这是错误的。
对于优秀、平均、差等分类数据,你必须使用 Spearman,而 Pearson 根本无法计算这些。
等等,还有别的事。
当等距或几何数据不正常时,也可以使用 Spearman,因为正常与否并不重要,只取决于你的两个变量是否像狗一样稳定,增加和减少还是减少和增加。

提醒:不要把Spearman当成万能药。
只能测量单调关系。
如果变量来回波动,比如今天高温,明天低温,后天高温,斯皮尔曼就帮不了你了。

建议多跑一些实际数据,看看Pearson能处理到什么程度。