分位数是统计学中常用的一个概念,用于描述数据集的分布情况。它将数据集按大小排序并将其分为几个等份,从而能够更加深入地了解数据集的中心趋势和离散程度。在统计学和数据分析领域,分位数是一个常用的工具。
定义
把顺序排列的一组数据分割为若干相等部分的分割点的数值即为相应的分位数(quantile)。
常见的分位数有:
- 二分位数:分位数中最简单的一种,它将数据等分成两份。
- 四分位数(Quartile):将数据按照大小顺序排序后,把数据分割成四等分的三个分割点上的数值。对原始数据,四分位数的位置一般为(n+1)/4,2(n+1)/4,3(n+1)/4。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。
- 十分位数(Deciles):将数据按照大小顺序排序后,把数据分割成十等分的九个分割点上的数值。
- 百分位数(Percentile):将数据按照大小顺序排序后,把数据分割成一百等分的九十九个分割点上的数值。常见的有 1% 分位数、5% 分位数、25% 分位数、50% 分位数(中位数)、75% 分位数、95% 分位数、99% 分位数等。
应用
分位数直观地反映了样本分布,通过分位数可以大致判断出样本的中心位置、散布范围和偏态形状,是理解和分析数据分布的有效工具。其在实际中的应用非常广泛,常用于:
- 判断样本分布的中心位置和散布范围
通过分位数可以判断出样本分布的中间值、上下四分位数间距来大致判断样本的中心位置和散布范围。 - 理解网站访问量分布
可以计算网站访问量的分位数,来判断用户访问高峰和低谷。 - 设置产品的质量阈值
如设置制造产品某指标的 1% 分位数为质量标准值,作为产品质量的下限要求。