收入为什么属于数值型变量

什么是数值变量?举例说明。

说白了,变量就是可以精确测量的数字,比如身高、体重、血压等。
这是非常直观的。
我们去年进行的项目中,3 000级别的数据可以直接在图表上清晰的看到。
但需要注意的是,当数据强度特别大时,比如几万甚至几十万,直接画图可能会比较模糊。
此时必须使用对数坐标或分组处理,否则分布模式将不可见。
说实话,这很令人困惑。
很多人不重视这一点。

起初我以为变量的处理方式是一样的,但后来我发现这是错误的。
统计方法在不同情况下有很大差异。
例如,正态分布和非正态分布的检验假设是完全不同的。
等等,还有别的事。
变量不能直接与文本描述进行比较。
例如,你不能说“身高高于血压”。
它们必须被量化。
我认为尝试结合使用箱线图和密度图是个好主意。
这两个图表可以相互补充,以显示数据的分布特征和异常值。

变量类型到底有多少种?

上周,一位客户问我变量有多少种类型,我向他解释了这一点。
事实上,变量主要有两种类型:数值变量和分类变量。
数字变量就像您的身高和体重。
它们是可用于计算的具体数字。
对于类别变量,例如性别和颜色,它们不能直接进行算术运算。

数值变量有两种类型。
一是连续变量。
例如,您的身高是1 .7 5 米。
它可以是 1 .7 5 米或 1 .7 5 1 米。
没有固定的间隔。
另一个是离散变量。
例如,你的考试成绩可能只有6 0或7 0分,而不是6 0.5
然后有几种类型的分类变量。
第一个是分类变量,没有顺序,例如性别。
男人和女人都不比对方年长。
第二种是虚拟变量,它实际上是分类变量的变体,比如你是否吸烟,用0和1 表示。
第三种是序数变量,比如教育程度、小学、初中、高中、大学,按顺序排列。

很多人可能认为变量有很多种类型,但实际上核心类别是数值和类别。
通过查看变量值是否为数字以及是否按顺序可以判断它是什么类型。
这种分类对于统计分析非常重要。
例如,是否使用 t 检验或卡方检验取决于变量的类型。

顺便说一句,还有一个常见的误解,那就是多个变量名意味着多种类型。
事实上,“命名变量”、“名义变量”和“分类变量”都是指分类变量,只是名称不同。
此外,虽然固定距离和固定比率听起来不同,但它们在统计分析中通常被视为数值变量。

所以,总结一下,变量类型主要有两大类:数值和类别,其他都是这两种类型的细分或者特例。
请记住,确定变量类型的关键是变量值是否具有数学意义以及是否是顺序的。
无论如何,你必须找出答案。
如果使用正确的方法,统计分析会更加准确。
我还在思考这件事,也许将来会有更多细节可以分享。