统计相关的性质

变量之间的相关程度可以用统计法予以测量,下面给出用相关系数测量相关程度的简单方法:

$$ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} $$

示例:假设我们有以下数据集:

x 2 4 6 8 10
y 1 3 5 7 9

计算得到r ≈ 1,表示完全正相关。

image.png

可以计算

$$ Q=\frac{ad-bc}{ad+bc} $$

其中,$|Q|$越接近$1$,相关性越强。

交互分类与百分表

像下图一样,综合两个变项共同分布的统计表,称为列联表。

image.png

将每一个变项除以总数,可以得到百分表:

image.png

简化相关与消减误差

在统计学中有一组相关测量法,其统计值具有消减误差比例( proportionate reduction in error)的意义,称为PRE测量法。

假定不知道X的值,我们在预测Y值时所产生的全部误差是E(见图3-3)。如果知道X的值,我们可以根据X的每个值来预测Y值;假定误差的总数是E2(见图3-4),则以X值来预测Y值时所减少的误差就是:E¡-E2(见图3-4的斜线部分)。这个数值(E-E2)与原来的全部误差(E)相比,就是消减误差比例。可用下面的公式表示: