二分变量与二分称名变量有什么差别

说实话,当我第一次接触双列关联这个东西时,我很困惑。
你是对的,这意味着将连续变量与二分变量配对,例如身高(连续)和性别(男/女),或考试成绩(连续)以及您是否是尖子生(是/否)。

有趣的是,虽然二元变量只有两个值,但它们并不容易处理。
例如,如果您在班级平均身高(连续)和性别(男/女)之间进行一些双变量相关性,您实际上想知道:男孩的平均身高和女孩的平均身高有什么区别?这种差异具有统计学意义吗?
当时我正在做一个真实的案例:一所学校想要研究体育课成绩(连续)与学生是否具有体育天赋的学生(是/否,二分法)之间的关系。
研究结果发现,体育专业学生的平均成绩确实高于普通学生,但点二列相关系数(通常用Phi系数或Spearman-Brown公式调整)仅为0.3 左右。
这个数字看起来并不低,但考虑到样本量是5 00人,说实话,这种相关性在统计上并不是很强。

显然,双列相关给出的不是因果关系,而是相关程度。
比如我的一个有特殊运动技能的学生,可能还有其他因素,比如家庭情况、训练时间等,但至少可以告诉你:在控制其他变量的情况下,学生是否有运动天赋,对他们在体育课上的表现是有影响的。

我记得的数据是,如果Phi系数超过0.3 ,通常认为是中等相关,但具体阈值取决于样本量。
我记得在那次分析中,p 值小于 0.01 ,所以结论很重要。
不过,我个人并没有运行这方面最新的统计软件,所以我建议你检查一下当前的标准。

真正二分变量和人为二分变量的区别

是的,仅此而已。
有两种类型的数据:自然数据和人工数据。

自然划分类似于将苹果分为红色和绿色。
它们显然是不同的并且很容易理解。

手动排序,例如按大小对苹果进行排序,是不自然且难以解释的。

自然分类的结果很简单,但人工分类的结果复杂且难以解释。
你自己看看吧。