spss逻辑回归中哑变量的设置和分析方法

在SPSS逻辑回归中,设置虚拟变量很简单:
1 打开 SPSS 并导入数据。
2 . 选择逻辑回归分析,并将分类变量和因变量插入到正确的位置。
3 . 单击分类按钮,选择参考分类并设置值。
4 .分析结果并观察系数和含义。

关键是比较系数,看看不同分类对因变量的影响,注意显着性。

SPSS教程:手把手教你设置哑变量及解读结果!

昨天,我在整理客户资料时,发现一个“客户等级”字段,分为A、B、C三个等级,数字1 、2 、3 是随机填写的。
我想如果直接用数字来分析的话,A的水平就是1 ,B的水平就是2 我看模型,B的影响力比A的影响力大,C的影响力更大。
但现实中,A可能是入门级,B是黄金级。
分析将按数字顺序被篡改。

要在 SPSS 中执行此操作,您必须首先选择一个变量。
例如,选择“购买频率”作为因变量,选择客户级别作为自变量。
单击“转换”菜单并搜索“重新编码为不同的变量”。
在弹出窗口中,将客户级别拖至“新建变量”框中,选择“外部变量”,然后单击“确定”。
出现一个小窗口询问如何转换,选择“所有值1 ”,然后“如果满足条件则转换值”。
在此处填写条件“客户级别 = 1 ”,然后单击“继续”。
同理,客户等级=2 转换为新变量“金牌客户”,客户等级=3 转换为“VIP客户”。

此时数据中又多了两列,0和1 0表示不是这个级别,1 表示是这个级别。
例如,老王的原始数据为1 级,现在“输入客户”栏为1 ,其他均为0。

运行回归分析时,选择“购买频率”作为因变量,然后将“输入客户”和“黄金客户”放入自变量中。
注意“黄金客户端”参数。
默认情况下,它与“入门客户”进行比较。
例如,系数为0.5 ,这意味着优质客户的平均购买次数比新手客户多0.5 VIP 客户的系数取决于与谁进行比较。
P值小于0.05 表明该水平对重复购买有显着影响。

等等,还有别的事。
如果客户 A 的得分优于 B,B 优于 C,但在数据中 A 为 1 ,B 为 2 ,C 为 3 ,使用默认的“指标变量”表示法,得分可能会说 B 优于 A,C 优于 B,但实际上 C 可能更好。
这时候就必须改变编码方式。
点击“统计”->“分类变量”->“比较”,选择“参考类别”,然后在“参考类别”中选择“最后一个”。
这样比较的结果就是A、C、B、C,得出VIP客户最好的结果。

数据中具体有多少客户?昨天的数据是2 4 00个,其中新手客户1 2 00个,黄金客户8 00个,VIP客户4 00个。
我们必须等待因此运行模型以确定参数。
我突然想到,如果还有D级特工的话,现在只剩下三个了,我怎么调动他们呢?我们需要添加一个新变量“其他客户”吗?

关于回归分析中哑变量赋值的问题(二)

数据分析中的哑变量问题如何处理?

您好,您是在问我有关虚拟变量的问题吗?上周一位客户问我这个问题,这让我有点困惑。
我们直接来说吧。

如果你问我具体怎么做,我就告诉你去年我在上海做项目时发生的一件事。
当时有一个数据集,里面有一个“地区”变量,分为华东、华南、华北。
当我直接把它扔到模型里的时候,它就爆炸了——SPSS直接给我的信息是“变量之间完全共线性”。
我想起了我正在走进的陷阱。
当时我创建了三个虚拟变量,华东=1 ,华南=1 ,华北=1 猜猜发生了什么?模型直接卡住了,根本无法运行。
后来我赶紧去询问带我去的师兄。
他拍着大腿说道:“你傻啊!你要做两个,剩下的一个就当参考组了!”这是典型的多类别变量设置错误。
还记得类别数减一的原则吗?
解释系数也很有趣。
我在帮一个做电商数据分析的同学调试模型时,他创建了一个“会员等级”的虚拟变量,分为普通、银牌、金牌、钻石。
他直接以钻石卡牌系数为最高标准,却发现普通卡牌系数为负数,他急了:“为什么普通卡牌还落后?”我当时一高兴,就跟他解释说:“你用钻石卡作为参照组,把系数和钻石卡进行比较,普通卡的系数为负,说明它对销量的影响比钻石卡低。
”他听后恍然大悟。
所以你看,选择哪个参考组与系数的解释直接相关,但无论选择谁,相对差异都会反映在模型中。

工具的话,用SPSSAU就很方便了。
点击【调查问卷研究】→【虚拟变量】即可自动生成。
上次我帮助客户处理了数百个样本的问卷数据,几分钟就完成了。
不过手动编码也很容易,尤其是用Python的话,只出来一行代码 pandas.get_dummies(df['professional']) ,但是记得删除一列,避免共线性。

我有一个朋友特别喜欢用R,他总是说R在底层处理这种事情,在使用model.matrix()生成设计矩阵时可以自动处理。
但说实话,对于初学者来说,工具越智能,就越能避免犯错误。

最后,我想提醒大家,在序数变量中使用虚拟变量时一定要特别小心。
比如你问我“学历”,高中=1 ,学士学位=2 ,硕士学位=3 ,直接改虚拟变量?我真的不推荐它。
上次我进行研究时,我把“满意度”分为三类:非常不满意、一般、满意。
我只是输入了三个虚拟变量。
我的老师让我把它们改回来,说这实际上是一个有序变量,我们应该使用有序 logit 模型。
这个事情要分情况而定,不能一概而论。

无论如何,你可以做任何你想做的事。
记住要点:将分类变量转换为虚拟变量,将类别数量减少 1 ,选择参考组,然后查看系数的相对差异。
使用什么工具取决于你自己的习惯。
我仍在研究如何以最明智的方式处理有序变量......