用excel做虚拟变数线性回归分析求回归方程

数据准备:将Y和X填充到Excel中,并将分类变量转换为整数0或1 虚拟变量陷阱:多类别分类变量只设置m-1 个虚拟变量,其余作为参数。
图表方法:绘制散点并添加趋势线。
方程中,k 是斜率,b 是截距。
程序:工具库,添加输入数据,运行后截距和系数。
虚拟变量编码中的错误会导致模型不准确,因此多元回归采用务实的方法。
R 平方大于 0.7 表示拟合良好,但应根据实际情况进行考虑。
你自己掂量一下吧。

含有哑变量的回归分析是怎么样的?

说实话,当我第一次遇到幻象变量时,我也很困惑。
但后来做了几个项目,慢慢就明白了。
以电子邮件分析为例。
如果您想查看不同会员级别(VIP、普通、新注册)对购买金额的影响。
它无法在回归模型层面直接填写,计算机也无法识别。

重要的是加法和乘法的场景非常清晰。
我曾处理过酒店行业的案例。
在分析季节对客流量的影响时,宜采用加法法——将冬季(D=1 )的占有率系数直接乘以5 %,其他条件不变。
然而后来我发现,连锁酒店价格弹性最大的就是不同地区之间的差异。
这次,我必须使用乘法,例如将幻影时间变量乘以区域价格系数,结果立即就清楚了。

我自己没做过,但听说这是控制财务风险的绝活。
银行在进行信用评分时,会引入“信用是否到期”等双盲类别变量。
按理说,D=0的客户不参与分析,但银行发现乘法的方法更有效——逾期记录不仅直接降低客户的评分,而且还更切断了自变量“收入”的积极影响。
这种“开关”的效果真的很类似于用SPSS来调整滤镜。

我记得数据大概是1 0个左右,不过建议你查一下。
我遇到过的最糟糕的情况是,一家优秀的快速消费公司分析了促销活动的有效性,并将两个虚拟变量“是否是周末”和“是否是假期”相乘。
结果发现,假期周+的促销系数是平时的三倍。
当时老板们非常兴奋,他们觉得自己找到了正确的东西。

说白了,关键是定性因素是通过改变程度(加法)还是改变意义(乘法)来影响结果。
有时同时使用两种方法会更准确。
例如,在划分房价时,我们会考虑学区(对平均价格的加性效应)和学区住房溢价(对斜率的乘性效应)。