非众值的比例越小,众值的代表性越好,信息量越大。反之,非众值所占的相对频次越大,众值的代表性越差,所提供的信息量也就越小。异众比率$γ$是非众值在总数$N$中所占的比例。即
$$ \gamma = \frac{N-f_{m_0}}{N} $$
其中$f_{m_0}$是众值的频次。
抽样误差可以理解为总体参数和抽样值的差。均值抽样误差可以由下面公式求出:
$$ \sigma_{\bar X}=\frac{\sigma}{\sqrt n} $$
其中, $\sigma_{\bar X}$是均值抽样误差, $\sigma$是抽样数据的标准差,$n$是抽样的样本容量。
对于百分比抽样来说,有
$$ \sigma_P=\sqrt{\frac{P(1-P)}{n}} $$

根据正态分布的性质,可以通过置信度/允许误差范围反推样本的大小。也就是:
$$ \Delta _{\bar X}=\pm t\frac{\sigma}{\sqrt n} $$
其中: