双变量是什么

日期：2026-05-30 17:25:46 作者：创始人浏览：0

双变量是什么意思

2 02 3 年，我的朋友在研究市场趋势时使用了双变量分析。
他分析了销售成本和广告成本两个变量。
在一家餐厅发现相关系数为0.8 ，说明两者高度相关。
甚至还进行了回归分析来预测广告成本增加时销售额的变化。

上周我参加了统计学课程，老师解释了二元正态分布。
在一家制药公司；发现药物作用和剂量呈正态分布，这使得分析变得更容易。

我还记得讨论回归分析在医学研究中的应用。
在一个医院项目中，他们使用回归分析来预测患者的康复时间。

这些例子说明了双变量分析在不同领域的重要性。
然而，有时数据可能会不配合；我的朋友有时无法分析明显的相关性，所以这是已知的。

双变量Probit模型Stata应用案例

说实话，当我使用双变量 Probit 模型时，一开始我发现它非常令人困惑，尤其是在查看公式和选项时。
但是后来我用Stata跑了一个具体的case，就慢慢的清晰起来了。

以Rand bivariate_health.dta的健康保险实证数据为例。
hlthe（健康）和 dmdu（医疗）有 5 5 7 4 个样本和两个二元结果。
显然我想看看它们是否具有相关效应。
使用biprobithhlthedmduagelincndisease,r，这行代码运行得非常快，但关键在于如何解释结果。

我记得当时看回归表，最让我想到的就是rho表。
p 值为 0.2 2 说实话，我当时很困惑——这是相关还是无关？查阅资料后发现，Wald检验的目的是为了找出两个误差项是否独立。
结果p值大于0.05 ，所以我的结论是：它们之间确实没有显着的相关性，仅Probit模型就足够了。

有趣的部分是边际概率预测。
例如，使用expectbiprob1 和pmarg1 计算hlthe=1 的概率，或者expectbiprob00和p00计算两个变量都等于0的联合概率。
这些操作完成后，将它们相加，就可以看到具体的值。
我还特意计算了四个四分位数（00、01 、1 0 和 1 1 ），发现边际效应加起来正好为 0——这与单变量概率模型中对数/似然的解释完全相同，但具有另一个维度。

但最实际的部分是解释系数。
对于hlthe（健康）来说，年龄的系数是负数，ndisease（慢性疾病的数量）也是负数，而linc（收入的对数）是正数——这个结果其实是很直观的。
年轻人、富人、没有患病的人，身体状况更好。
考虑到医疗领域，收入和疾病都是正向的，年龄没有影响。
这与健康变量的系数几乎完全重叠，表明这两个决策的逻辑高度相关。

最重要的是，我后来发现双变量Probit和单变量Probit的系数几乎是一样的，这让我特别感兴趣。
数据中误差项的相关性可能微不足道，因此使用双变量模型没有附加价值。
我没有亲自测试过这方面的异方差性，但是 5 5 7 4 的数据量肯定足够大，通常不会出现大问题概率。

一般来说，二元概率模型确实是一件好事，特别是当两个二元结果明显相关时。
但实际操作中，对于Rand数据这样误差项不大的情况，单变量Probit效率更高，结果完全可用。
当时我不明白为什么Stata中的biprobit必须使用相同的自变量。
这可能是模型设置的简化。

标签：双变量分析双变量Probit模型