双变量是什么意思

2 02 3 年,我的朋友在研究市场趋势时使用了双变量分析。
他分析了销售成本和广告成本两个变量。
在一家餐厅发现相关系数为0.8 ,说明两者高度相关。
甚至还进行了回归分析来预测广告成本增加时销售额的变化。

上周我参加了统计学课程,老师解释了二元正态分布。
在一家制药公司;发现药物作用和剂量呈正态分布,这使得分析变得更容易。

我还记得讨论回归分析在医学研究中的应用。
在一个医院项目中,他们使用回归分析来预测患者的康复时间。

这些例子说明了双变量分析在不同领域的重要性。
然而,有时数据可能会不配合;我的朋友有时无法分析明显的相关性,所以这是已知的。

双变量Probit模型Stata应用案例

说实话,当我使用双变量 Probit 模型时,一开始我发现它非常令人困惑,尤其是在查看公式和选项时。
但是后来我用Stata跑了一个具体的case,就慢慢的清晰起来了。

以Rand bivariate_health.dta的健康保险实证数据为例。
hlthe(健康)和 dmdu(医疗)有 5 5 7 4 个样本和两个二元结果。
显然我想看看它们是否具有相关效应。
使用biprobithhlthedmduagelincndisease,r,这行代码运行得非常快,但关键在于如何解释结果。

我记得当时看回归表,最让我想到的就是rho表。
p 值为 0.2 2 说实话,我当时很困惑——这是相关还是无关?查阅资料后发现,Wald检验的目的是为了找出两个误差项是否独立。
结果p值大于0.05 ,所以我的结论是:它们之间确实没有显着的相关性,仅Probit模型就足够了。

有趣的部分是边际概率预测。
例如,使用expectbiprob1 和pmarg1 计算hlthe=1 的概率,或者expectbiprob00和p00计算两个变量都等于0的联合概率。
这些操作完成后,将它们相加,就可以看到具体的值。
我还特意计算了四个四分位数(00、01 、1 0 和 1 1 ),发现边际效应加起来正好为 0——这与单变量概率模型中对数/似然的解释完全相同,但具有另一个维度。

但最实际的部分是解释系数。
对于hlthe(健康)来说,年龄的系数是负数,ndisease(慢性疾病的数量)也是负数,而linc(收入的对数)是正数——这个结果其实是很直观的。
年轻人、富人、没有患病的人,身体状况更好。
考虑到医疗领域,收入和疾病都是正向的,年龄没有影响。
这与健康变量的系数几乎完全重叠,表明这两个决策的逻辑高度相关。

最重要的是,我后来发现双变量Probit和单变量Probit的系数几乎是一样的,这让我特别感兴趣。
数据中误差项的相关性可能微不足道,因此使用双变量模型没有附加价值。
我没有亲自测试过这方面的异方差性,但是 5 5 7 4 的数据量肯定足够大,通常不会出现大问题概率。

一般来说,二元概率模型确实是一件好事,特别是当两个二元结果明显相关时。
但实际操作中,对于Rand数据这样误差项不大的情况,单变量Probit效率更高,结果完全可用。
当时我不明白为什么Stata中的biprobit必须使用相同的自变量。
这可能是模型设置的简化。