统计学

黄晗
Spring, 2019

第四章 数据的概括性度量

  • 集中趋势的度量

  • 离散程度的度量

  • 偏态与峰态的度量

学习目标

  • 集中趋势各测度值的计算方法
  • 集中趋势各测度值的特点及应用场合
  • 离散程度各测度值的计算方法
  • 离散程度各测度值的特点及应用场合
  • 偏态与峰态的测度方法
  • 用Excel计算描述统计量并进行分析

4.1 集中趋势的度量

  • 分类数据:众数
  • 顺序数据:中位数和分位数
  • 数值型数据:平均数
  • 众数、中位数和平均数的比较

4.1 集中趋势的度量

  • 一组数据向其中心值靠拢的倾向和程度
  • 测度集中趋势就是寻找数据水平的代表值或中心值
  • 不同类型的数据用不同的集中趋势测度值
  • 低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据

4.1 集中趋势的度量

4.1.1 分类数据:众数(Mode)

  • 一组数据中出现次数最多的变量值
  • 适合于数据量较多时使用
  • 不受极端值的影响
  • 一组数据可能没有众数或有几个众数
  • 主要用于分类数据,也可用于顺序数据和数值型数据

4.1 集中趋势的度量

4.1.1 分类数据:众数

  • 无众数

10, 5, 9, 12, 6, 8

  • 一个众数

6, 5, 9, 8, 5, 5

  • 多于一个众数

25, 28, 28, 36, 42, 42

4.1 集中趋势的度量

4.1.1 分类数据:众数

「例4.1」根据第3章表3-4中的数据,计算“饮料类型”的众数。

饮料品牌 频数 比例 百分比(%)
果汁 6 0.12 12
矿泉水 10 0.2 20
绿茶 11 0.22 22
其他 8 0.16 16
碳酸饮料 15 0.3 30
合计 50 1 100

4.1 集中趋势的度量

4.1.1 分类数据:众数

解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值。所调查的50人中,购买碳酸饮料的人数最多,为15人,占总被调查人数的30%,因此众数“可口可乐”这一品牌,即 \[ M_o = 碳酸饮料 \]

4.1 集中趋势的度量

4.1.1 分类数据:众数

「例4.2」根据第3章表3-10和表3-11中的数据,计算甲乙两个城市家庭对住房状况满意程度评价的众数。

回答类别 户数 (户) 百分比 (%)
非常不满意 24 8
不满意 108 36
一般 93 31
满意 45 15
非常满意 30 10
合计 300 100

4.1 集中趋势的度量

4.1.1 分类数据:众数

解:这里的数据为顺序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 \[ M_o = 不满意 \]

4.1 集中趋势的度量

4.1.2 顺序数据:中位数和分位数

中位数的概念(Median)

  • 排序后处于中间位置上的值

  • 不受极端值的影响

  • 主要用于顺序数据,也可用数值型数据,但不能用于分类数据

  • 各变量值与中位数的离差绝对值之和最小,即\( \sum _ { i = 1 } ^ { n } \left| x _ { i } - M _ { e } \right| = \min \)

4.1 集中趋势的度量

4.1.2 顺序数据:中位数和分位数

中位数的计算

  • 位置确定:\( 中位数位置 = \frac{n+1}{2} \)
  • 数值确定:\( M _ { e } = \left\{ \begin{array} { l } { x _ { ( n + 1 ) } } \quad n为奇数 \\ { \frac { 1 } { 2 } \left\{ x _ { \left( \frac { n } { 2 } \right) } + x _ { \left( \frac { n } { 2 } + 1 \right) } \right\} } \quad n为偶数 \end{array} \right. \)

4.1 集中趋势的度量

4.1.2 顺序数据:中位数和分位数

中位数的计算

「例4.4」根据第3章表3-10和表3-11中的数据,计算甲乙两个城市家庭对住房状况满意程度评价的中位数。

回答类别 户数 (户) 累计频数
非常不满意 24 24
不满意 108 132
一般 93 225
满意 45 270
非常满意 30 300
合计 300

4.1 集中趋势的度量

4.1.2 顺序数据:中位数和分位数

中位数的计算

解:中位数的位置:\( \frac{300+1}{2}=150.5 \)。从累计频数看,中位数在“一般”这一组别中中位数为\( M_e=一般 \)。

4.1 集中趋势的度量

4.1.2 顺序数据:中位数和分位数

「例4.5」在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下。要求计算人均月收入的中位数。

1500, 750, 780, 1080, 850, 960, 2000, 1250, 1630

解:先将上面的数据排序,结果如下:

750, 780, 50, 960, 1080, 1250, 1500, 1630, 2000

\[ 中位数位置=\frac{9+1}{2}=5 \]

所以中位数为1080。

4.1 集中趋势的度量

4.1.2 顺序数据:中位数和分位数

如果原始数据个数为偶数,假设每个家庭人均月收入排序后如下:

660, 750, 780, 850, 960, 1080, 1250, 1500, 1630, 2000

\( 中位数位置=\frac{10+1}{2}=5.5 \)

中位数为:\( M_e=\frac{960+1080}{2}=1020 \)

4.1 集中趋势的度量

4.1.2 顺序数据:中位数和分位数

四分位数

  • 排序后处于25%和75%位置上的值

  • 不受极端值的影响

  • 下四分位数、上四分位数的计算:\( Q_L 位置=\frac n 4 \)和\( Q_U 位置=\frac{3n}{4} \)

4.1 集中趋势的度量

4.1.2 顺序数据:中位数和分位数

「例4.6」根据对9个家庭的收入调查数据,计算人均月收入的四分位数。

1500, 750, 780, 1080, 850, 960, 2000, 1250, 1630

解:先将上面的数据排序,结果如下:

750, 780, 50, 960, 1080, 1250, 1500, 1630, 2000

\( Q_L 位置=\frac 9 4=2.25 \),\( Q_U 位置=\frac{3 \times 9}{4}=6.75 \)

\( \begin{aligned} Q _ { \mathrm { L } } & = 780 + ( 850 - 780 ) \times 0.25 = 797.5 \end{aligned} \)

\( \begin{aligned} Q _ { \mathrm { U } } & = 1250 + ( 1500 - 1250 ) \times 0.75 = 1437.5 \end{aligned} \)

4.1 集中趋势的度量

4.1.3 数值型数据:平均数

  • 平均数也称为均值
  • 集中趋势的最常用测度值
  • 一组数据的均衡点所在
  • 体现了数据的必然性特征
  • 易受极端值的影响
  • 有简单平均数和加权平均数之分
  • 根据总体数据计算的,称为平均数,记为\( \mu \);根据样本数据计算的,称为样本平均数,记为\( \bar x \)

4.1 集中趋势的度量

4.1.3 数值型数据:平均数

简单平均数

设一组数据为:\( x _ { 1 } , x _ { 2 } , \ldots , x _ { n } \),样本量为\( n \),那么样本平均数为:

\[ \bar { x } = \frac { x _ { 1 } + x _ { 2 } + \dots + x _ { n } } { n } = \frac { \sum _ { i = 1 } ^ { n } x _ { i } } { n } \]

加权平均数

根据分组数据计算的平均数就是加权平均数。设原始数据被分为\( k \)组,各组的组中值分别用\( M _ { 1 } , M _ { 2 } , \ldots M _ { { k } } \)表示,各组变量值出现的频数分别用\( f _ { 1 } , f _ { 2 } , \ldots , f _ { k } \)表示,则样本加权平均数为:

\[ \bar { x } = \frac { M _ { 1 } f _ { 1 } + M _ { 2 } f _ { 2 } + \dots + M _ { k } f _ { k } } { f _ { 1 } + f _ { 2 } + \dots + f _ { k } } = \frac { \sum _ { i = 1 } ^ { k } M _ { i } f _ { i } } { n } \]

4.1 集中趋势的度量

4.1.3 数值型数据:平均数

「例4.7」根据第3章表3-13中的数据,计算电脑销售量的平均数。

按销售量分组 组中值 频数 \( M_i \times f_i \)
140~150 145 4 580
150~160 155 9 1395
160~170 165 16 2640
170~180 175 27 4725
180~190 185 20 3700
190~200 195 17 3315
200~210 205 10 2050
210~220 215 8 1720
220~230 225 4 900
230~240 235 5 1175
合计 120 22200

4.1 集中趋势的度量

4.1.3 数值型数据:平均数

解:\( \bar { x } = \frac { \sum _ { i = 1 } ^ { k } M _ { i } f _ { i } } { n }=\frac{22200}{120}=185 \)

4.1 集中趋势的度量

4.1.3 数值型数据:平均数

几何平均数

  • n个变量值乘积的n次方根
  • 适用于对比率数据的平均
  • 主要用于计算平均增长率
  • 计算公式为\( G _ { m } = \sqrt [ n ] { x _ { 1 } \times x _ { 2 } \times \dots \times x _ { n } } = \sqrt [ n ] { \prod _ { i = 1 } ^ { n } x _ { i } } \)
  • 可以看作是平均数的一种变形\( \lg G _ { m } = \frac { 1 } { n } \left( \lg x _ { 1 } + \lg x _ { 2 } + \dots + \lg x _ { n } \right) = \frac { \sum _ { i = 1 } ^ { n } \lg x _ { i } } { n } \)

4.1 集中趋势的度量

4.1.3 数值型数据:平均数

「例4.8」一位投资者购持有一种股票,连续4年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。

解:计算几何平均数:\( \begin{aligned} \overline { G } & = \sqrt [ 4 ] { 104.5 \% \times 102.1 \% \times 125.5 \% \times 101.9 \% } - 1 \\ & = 8.0787 \% \end{aligned} \)

如果按照算数平均数计算,该投资者平均收益率则为:\( \overline { G } = ( 4.5 \% + 2.1 \% + 25.5 \% + 1.9 \% ) \div 4 = 8.5 \% \)

4.1 集中趋势的度量

4.1.4 众数、中位数和平均数的比较

众数、中位数和平均数的关系

kRTmWt.md.png

4.1 集中趋势的度量

4.1.4 众数、中位数和平均数的比较

众数、中位数、平均数的特点和应用

  • 众数
    • 不受极端值影响
    • 具有不惟一性
    • 数据分布偏斜程度较大且有明显峰值时应用
  • 中位数
    • 不受极端值影响
    • 数据分布偏斜程度较大时应用
  • 平均数
    • 易受极端值影响
    • 数学性质优良
    • 数据对称分布或接近对称分布时应用

4.2 离散程度的度量

  • 分类数据:异众比率
  • 顺序数据:四分位差
  • 数值型数据:方差和标准差
  • 相对离散程度:离散系数

4.2 离散程度的度量

离散程度

  • 数据分布的另一个重要特征
  • 反映各变量值远离其中心值的程度(离散程度)
  • 从另一个侧面说明了集中趋势测度值的代表程度
  • 不同类型的数据有不同的离散程度测度值

4.2 离散程度的度量

4.2.1 分类数据:异众比率

  • 对分类数据离散程度的测度
  • 非众数组的频数占总频数的比例
  • 计算公式为\( v _ { r } = \frac { \sum f _ { i } - f _ { m } } { \sum f _ { i } } = 1 - \frac { f _ { m } } { \sum f _ { i } } \)
  • 用于衡量众数的代表性

4.2 离散程度的度量

4.2.1 分类数据:异众比率

「例4.9」根据第3章表3-4中的数据,计算异众比率。

饮料品牌 频数 比例 百分比(%)
果汁 6 0.12 12
矿泉水 10 0.2 20
绿茶 11 0.22 22
其他 8 0.16 16
碳酸饮料 15 0.3 30
合计 50 1 100

解:\( \begin{aligned} v _ { r } = \frac { 50 - 15 } { 50 } = 1 - \frac { 15 } { 50 } = 0.7 = 70 \% \end{aligned} \)

4.2 离散程度的度量

4.2.2 顺序数据:四分位差

  • 对顺序数据离散程度的测度
  • 也称为内距或四分间距
  • 上四分位数与下四分位数之差:\( Q _ { \mathrm { d } } = Q _ { \mathrm { U } } - Q _ { \mathrm { L } } \)
  • 反映了中间50%数据的离散程度
  • 不受极端值的影响
  • 用于衡量中位数的代表性

4.2 离散程度的度量

4.2.2 顺序数据:四分位差

「例4.10」根据例4.6的计算结果,计算家庭人均月收入的四分位差。

解:根据例4.6的结果可知,\( Q_L = 797.5 \),\( Q_U = 1437.5 \)。四分位差为:\( Q_d = 1437.5-797.5=640 \)。

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

极差

  • 一组数据的最大值与最小值之差
  • 离散程度的最简单测度值
  • 易受极端值影响
  • 未考虑数据的分布
  • 计算公式为\( R = \max \left( x _ { i } \right) - \min \left( x _ { i } \right) \)

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

平均差

  • 各变量值与其平均数离差绝对值的平均数
  • 能全面反映一组数据的离散程度
  • 数学性质较差,实际中应用较少
  • 计算公式为:
    • 未分组数据:\( M _ { \mathrm { d } } = \frac { \sum _ { i = 1 } ^ { n } \left| x _ { i } - \overline { x } \right| } { n } \)
    • 分组数据:\( M _ { d } = \frac { \sum _ { i = 1 } ^ { k } \left| M _ { i } - \overline { x } \right| f _ { i } } { n } \)

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

「例4.11」根据第3章的数据,计算电脑销售量的平均差。

按销售量分组 组中值 频数 \( |M_i - \bar x| \) \( |M_i - \bar x| f_i \)
140~150 145 4 40 160
150 ~ 160 155 9 30 270
160 ~ 170 165 16 20 320
170 ~ 180 175 27 10 270
180 ~ 190 185 20 0 0
190 ~ 200 195 17 10 170
200 ~ 210 205 10 20 200
210 ~ 220 215 8 30 240
220 ~ 230 225 4 40 160
230 ~ 240 235 5 50 250
合计 120 2040

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

解:已知\( \bar x = 185 \), 因此\( M _ { d } = \frac { \sum _ { i = 1 } ^ { k } \left| M _ { i } - \overline { x } \right| f _ { i } } { n } = \frac { 2040 } { 120 } = 17 \)台

即:每一天的销售量平均数相比,平均相差17台。

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

方差和标准差

  • 数据离散程度的最常用测度值
  • 反映了各变量值与均值的平均差异
  • 根据总体数据计算的,称为总体方差(标准差),记为\( \sigma^2(\sigma) \);根据样本数据计算的,称为样本方差(标准差),记为\( s^2(s) \)

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

  • 方差的计算公式

    • 未分组数据:\[ s ^ { 2 } = \frac { \sum _ { i = 1 } ^ { n } \left( x _ { i } - \overline { x } \right) ^ { 2 } } { n - 1 } \]
    • 分组数据:\[ s ^ { 2 } = \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 2 } f _ { i } } { n - 1 } \]

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

  • 标准差的计算公式

    • 未分组数据:\[ s = \sqrt { \frac { \sum _ { i = 1 } ^ { n } \left( x _ { i } - \overline { x } \right) ^ { 2 } } { n - 1 } } \]
    • 分组数据:\[ s = \sqrt { \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 2 } f _ { i } } { n - 1 } } \]

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

自由度的概念

  • 自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差
  • 从字面涵义来看,自由度是指一组数据中可以自由取值的个数
  • 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值
  • 按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

对自由度的进一步理解

  • 样本有3个数值,即\( x_1=2 \),\( x_2=4 \),\( x_3=9 \),则\( \bar x = 5 \)。当\( \bar x = 5 \)确定后,\( x_1 \),\( x_2 \)和\( x_3 \)有两个数据可以自由取值,另一个则不能自由取值,比如\( x_1=6 \),\( x_2=7 \),那么\( x_3 \)则必然取2,而不能取其他值
  • 为什么样本方差的自由度为什么是\( n-1 \)呢?因为在计算离差平方和时,必须先求出样本均值\( \bar x \),而\( \bar x \)则是附件给离差平方和的一个约束,因此,计算离差平方和时只有\( n-1 \)个独立的观测值,而不是\( n \)个样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差\( s^2 \)去估计总体方差\( \sigma^2 \)时,它是\( \sigma^2 \)的无偏估计量

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

「例4.12」计算电脑销售量的标准差。

解:\[ \begin{aligned} s = \sqrt { \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 2 } f _ { i } } { n - 1 } } = \sqrt { \frac { 55400 } { 120 - 1 } } = 21.58\end{aligned} \]台

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

相对位置的度量:标准分数

  • 也称标准化值
  • 对某一个值在一组数据中相对位置的度量
  • 可用于判断一组数据是否有离群点(outlier)
  • 用于对变量的标准化处理
  • 计算公式为:\( z _ { i } = \frac { x _ { i } - \overline { x } } { s } \)

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1

kRvQOI.md.png

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

「例4.13」计算每个家庭人均月收入的标准分数。

家庭编号 人均月收入(元) 标准化值 z
1 1500 0.7
2 750 -1.04
3 780 -0.97
4 1080 -0.28
5 850 -0.81
6 960 -0.56
7 2000 1.85
8 1250 0.12
9 1630 1

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

经验法则

经验法则表明:当一组数据对称分布时

  • 约有68%的数据在平均数加减1个标准差的范围之内
  • 约有95%的数据在平均数加减2个标准差的范围之内
  • 约有99%的数据在平均数加减3个标准差的范围之内

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

切比雪夫不等式

  • 如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用
  • 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”
  • 对于任意分布形态的数据,根据切比雪夫不等式,至少有\( 1-\frac{1}{k^2} \)的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数

4.2 离散程度的度量

4.2.3 数值型数据:方差和标准差

切比雪夫不等式

对于\( k=2,3,4 \),该不等式的含义是

  • 至少有75%的数据落在平均数加减2个标准差的范围之内
  • 至少有89%的数据落在平均数加减3个标准差的范围之内
  • 至少有94%的数据落在平均数加减4个标准差的范围之内

4.2 离散程度的度量

4.2.4 相对离散程度:离散系数

离散系数

  • 标准差与其相应的均值之比
  • 对数据相对离散程度的测度
  • 消除了数据水平高低和计量单位的影响
  • 用于对不同组别数据离散程度的比较
  • 计算公式为:\( v _ { s } = \frac { s } { \overline { x } } \)

4.2 离散程度的度量

4.2.4 相对离散程度:离散系数

「例4.14」在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10枪共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩以确定最后的名次。在2008年8月10日举行第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如表所示。评价哪名运动员的发挥更稳定。

4.2 离散程度的度量

4.2.4 相对离散程度:离散系数

解:如果个运动员决赛10枪的平均成绩差异不大,可以直接比较标准差的大小,否则需要计算离散系数。

姓名 国家 平均环数 标准差 离散系数
纳塔利娅·帕杰林娜 俄罗斯 9.81 0.6154 0.0627
郭文珺 中国 10.23 0.4373 0.0427
卓格巴德拉赫·蒙赫珠勒 蒙古 9.26 0.7074 0.0764
妮诺·萨卢克瓦泽 格鲁吉亚 10.14 0.5461 0.0539
维多利亚·柴卡 白俄罗斯 9.80 0.6498 0.0663
莱万多夫斯卡·萨贡 波兰 9.73 0.7334 0.0754
亚斯娜·舍卡里奇 塞尔维亚 9.69 0.3573 0.0369
米拉·内万苏 芬兰 9.65 0.4625 0.0479

从离散系数可以看出,在最后10枪的决赛中,发挥比较稳定的运动员是亚斯娜·舍卡里奇和郭文珺,发挥不稳定的运动员是卓格巴德拉赫·蒙赫珠勒和莱万多夫斯卡·萨贡。

4.3 偏态与峰态的度量

  • 偏态及其测度
  • 峰态及其测度

4.3 偏态与峰态的度量

4.3.1 偏态及其测度

  • 统计学家Pearson于1895年首次提出
  • 数据分布偏斜程度的测度
  • 偏态系数=0为对称分布
  • 偏态系数> 0为右偏分布
  • 偏态系数< 0为左偏分布
  • 偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低

4.3 偏态与峰态的度量

4.3.1 偏态及其测度

偏态系数的计算

  • 原始数据:\( S K = \frac { n \sum \left( x _ { i } - \overline { x } \right) ^ { 3 } } { ( n - 1 ) ( n - 2 ) s ^ { 3 } } \)
  • 分组数据:\( S K = \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 3 } f _ { i } } { n s ^ { 3 } } \)

4.3 偏态与峰态的度量

4.3.1 偏态及其测度

「例4.15」计算电脑销售量的偏态系数。 \[ \begin{aligned} S K & = \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 3 } f _ { i } } { n s ^ { 3 } } = \frac { \sum _ { i = 1 } ^ { 10 } \left( M _ { i } - 185 \right) ^ { 3 } f _ { i } } { 120 \times ( 21.58 ) ^ { 3 } } \\ & = \frac { 540000 } { 120 \times ( 21.58 ) ^ { 3 } } = 0.448 \end{aligned} \] 结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数

4.3 偏态与峰态的度量

4.3.1 峰态及其测度

峰态

  • 统计学家Pearson于1905年首次提出
  • 数据分布扁平程度的测度
  • 峰态系数=0扁平峰度适中
  • 峰态系数<0为扁平分布
  • 峰态系数>0为尖峰分布

4.3 偏态与峰态的度量

4.3.1 峰态及其测度

峰态系数的计算

  • 原始数据:\( K = \frac { n ( n + 1 ) \sum \left( x _ { i } - \overline { x } \right) ^ { 4 } - 3 \left[ \sum \left( x _ { i } - \overline { x } \right) ^ { 2 } \right] ^ { 2 } ( n - 1 ) } { ( n - 1 ) ( n - 2 ) ( n - 3 ) s ^ { 4 } } \)
  • 分组数据:\( K = \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 4 } f _ { i } } { n s ^ { 4 } } - 3 \)

4.3 偏态与峰态的度量

4.3.1 峰态及其测度

「例4.16」计算电脑销售量的峰态系数。

\[ \begin{aligned} K & = \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 4 } f _ { i } } { n s ^ { 4 } } - 3 = \frac { 70100000 } { 120 \times ( 21.58 ) ^ { 4 } } - 3 \\ & = 2.694 - 3 = - 0.306 \end{aligned} \]

由于\( K=-0.306<0 \),说明电脑销售量的分布与正态分布相比略有一些扁平。

用Excel计算描述统计量

将电脑销售量的数据输入到Excel工作表中,然后按下列步骤操作

  • 第1步:选择【工具】下拉菜单
  • 第2步:选择【数据分析】选项
  • 第3步:在分析工具中选择【描述统计】,然后选择【确定】
  • 第4步:当对话框出现时,在【输入区域】方框内键入数据区域,在【输出选项】中选择输出区域,选择【汇总统计】,选择【确定】。

本章完