黄晗
Spring, 2019
集中趋势的度量
离散程度的度量
偏态与峰态的度量
10, 5, 9, 12, 6, 8
6, 5, 9, 8, 5, 5
25, 28, 28, 36, 42, 42
「例4.1」根据第3章表3-4中的数据,计算“饮料类型”的众数。
| 饮料品牌 | 频数 | 比例 | 百分比(%) |
|---|---|---|---|
| 果汁 | 6 | 0.12 | 12 |
| 矿泉水 | 10 | 0.2 | 20 |
| 绿茶 | 11 | 0.22 | 22 |
| 其他 | 8 | 0.16 | 16 |
| 碳酸饮料 | 15 | 0.3 | 30 |
| 合计 | 50 | 1 | 100 |
解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值。所调查的50人中,购买碳酸饮料的人数最多,为15人,占总被调查人数的30%,因此众数“可口可乐”这一品牌,即 \[ M_o = 碳酸饮料 \]
「例4.2」根据第3章表3-10和表3-11中的数据,计算甲乙两个城市家庭对住房状况满意程度评价的众数。
| 回答类别 | 户数 (户) | 百分比 (%) |
|---|---|---|
| 非常不满意 | 24 | 8 |
| 不满意 | 108 | 36 |
| 一般 | 93 | 31 |
| 满意 | 45 | 15 |
| 非常满意 | 30 | 10 |
| 合计 | 300 | 100 |
解:这里的数据为顺序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 \[ M_o = 不满意 \]
排序后处于中间位置上的值
不受极端值的影响
主要用于顺序数据,也可用数值型数据,但不能用于分类数据
各变量值与中位数的离差绝对值之和最小,即\( \sum _ { i = 1 } ^ { n } \left| x _ { i } - M _ { e } \right| = \min \)
「例4.4」根据第3章表3-10和表3-11中的数据,计算甲乙两个城市家庭对住房状况满意程度评价的中位数。
| 回答类别 | 户数 (户) | 累计频数 |
|---|---|---|
| 非常不满意 | 24 | 24 |
| 不满意 | 108 | 132 |
| 一般 | 93 | 225 |
| 满意 | 45 | 270 |
| 非常满意 | 30 | 300 |
| 合计 | 300 | — |
解:中位数的位置:\( \frac{300+1}{2}=150.5 \)。从累计频数看,中位数在“一般”这一组别中中位数为\( M_e=一般 \)。
「例4.5」在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下。要求计算人均月收入的中位数。
1500, 750, 780, 1080, 850, 960, 2000, 1250, 1630
解:先将上面的数据排序,结果如下:
750, 780, 50, 960, 1080, 1250, 1500, 1630, 2000
\[ 中位数位置=\frac{9+1}{2}=5 \]
所以中位数为1080。
如果原始数据个数为偶数,假设每个家庭人均月收入排序后如下:
660, 750, 780, 850, 960, 1080, 1250, 1500, 1630, 2000
\( 中位数位置=\frac{10+1}{2}=5.5 \)
中位数为:\( M_e=\frac{960+1080}{2}=1020 \)
排序后处于25%和75%位置上的值
不受极端值的影响
下四分位数、上四分位数的计算:\( Q_L 位置=\frac n 4 \)和\( Q_U 位置=\frac{3n}{4} \)
「例4.6」根据对9个家庭的收入调查数据,计算人均月收入的四分位数。
1500, 750, 780, 1080, 850, 960, 2000, 1250, 1630
解:先将上面的数据排序,结果如下:
750, 780, 50, 960, 1080, 1250, 1500, 1630, 2000
\( Q_L 位置=\frac 9 4=2.25 \),\( Q_U 位置=\frac{3 \times 9}{4}=6.75 \)
\( \begin{aligned} Q _ { \mathrm { L } } & = 780 + ( 850 - 780 ) \times 0.25 = 797.5 \end{aligned} \)
\( \begin{aligned} Q _ { \mathrm { U } } & = 1250 + ( 1500 - 1250 ) \times 0.75 = 1437.5 \end{aligned} \)
设一组数据为:\( x _ { 1 } , x _ { 2 } , \ldots , x _ { n } \),样本量为\( n \),那么样本平均数为:
\[ \bar { x } = \frac { x _ { 1 } + x _ { 2 } + \dots + x _ { n } } { n } = \frac { \sum _ { i = 1 } ^ { n } x _ { i } } { n } \]
根据分组数据计算的平均数就是加权平均数。设原始数据被分为\( k \)组,各组的组中值分别用\( M _ { 1 } , M _ { 2 } , \ldots M _ { { k } } \)表示,各组变量值出现的频数分别用\( f _ { 1 } , f _ { 2 } , \ldots , f _ { k } \)表示,则样本加权平均数为:
\[ \bar { x } = \frac { M _ { 1 } f _ { 1 } + M _ { 2 } f _ { 2 } + \dots + M _ { k } f _ { k } } { f _ { 1 } + f _ { 2 } + \dots + f _ { k } } = \frac { \sum _ { i = 1 } ^ { k } M _ { i } f _ { i } } { n } \]
「例4.7」根据第3章表3-13中的数据,计算电脑销售量的平均数。
| 按销售量分组 | 组中值 | 频数 | \( M_i \times f_i \) |
|---|---|---|---|
| 140~150 | 145 | 4 | 580 |
| 150~160 | 155 | 9 | 1395 |
| 160~170 | 165 | 16 | 2640 |
| 170~180 | 175 | 27 | 4725 |
| 180~190 | 185 | 20 | 3700 |
| 190~200 | 195 | 17 | 3315 |
| 200~210 | 205 | 10 | 2050 |
| 210~220 | 215 | 8 | 1720 |
| 220~230 | 225 | 4 | 900 |
| 230~240 | 235 | 5 | 1175 |
| 合计 | — | 120 | 22200 |
解:\( \bar { x } = \frac { \sum _ { i = 1 } ^ { k } M _ { i } f _ { i } } { n }=\frac{22200}{120}=185 \)
「例4.8」一位投资者购持有一种股票,连续4年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。
解:计算几何平均数:\( \begin{aligned} \overline { G } & = \sqrt [ 4 ] { 104.5 \% \times 102.1 \% \times 125.5 \% \times 101.9 \% } - 1 \\ & = 8.0787 \% \end{aligned} \)
如果按照算数平均数计算,该投资者平均收益率则为:\( \overline { G } = ( 4.5 \% + 2.1 \% + 25.5 \% + 1.9 \% ) \div 4 = 8.5 \% \)
「例4.9」根据第3章表3-4中的数据,计算异众比率。
| 饮料品牌 | 频数 | 比例 | 百分比(%) |
|---|---|---|---|
| 果汁 | 6 | 0.12 | 12 |
| 矿泉水 | 10 | 0.2 | 20 |
| 绿茶 | 11 | 0.22 | 22 |
| 其他 | 8 | 0.16 | 16 |
| 碳酸饮料 | 15 | 0.3 | 30 |
| 合计 | 50 | 1 | 100 |
解:\( \begin{aligned} v _ { r } = \frac { 50 - 15 } { 50 } = 1 - \frac { 15 } { 50 } = 0.7 = 70 \% \end{aligned} \)
「例4.10」根据例4.6的计算结果,计算家庭人均月收入的四分位差。
解:根据例4.6的结果可知,\( Q_L = 797.5 \),\( Q_U = 1437.5 \)。四分位差为:\( Q_d = 1437.5-797.5=640 \)。
「例4.11」根据第3章的数据,计算电脑销售量的平均差。
| 按销售量分组 | 组中值 | 频数 | \( |M_i - \bar x| \) | \( |M_i - \bar x| f_i \) |
|---|---|---|---|---|
| 140~150 | 145 | 4 | 40 | 160 |
| 150 ~ 160 | 155 | 9 | 30 | 270 |
| 160 ~ 170 | 165 | 16 | 20 | 320 |
| 170 ~ 180 | 175 | 27 | 10 | 270 |
| 180 ~ 190 | 185 | 20 | 0 | 0 |
| 190 ~ 200 | 195 | 17 | 10 | 170 |
| 200 ~ 210 | 205 | 10 | 20 | 200 |
| 210 ~ 220 | 215 | 8 | 30 | 240 |
| 220 ~ 230 | 225 | 4 | 40 | 160 |
| 230 ~ 240 | 235 | 5 | 50 | 250 |
| 合计 | — | 120 | — | 2040 |
解:已知\( \bar x = 185 \), 因此\( M _ { d } = \frac { \sum _ { i = 1 } ^ { k } \left| M _ { i } - \overline { x } \right| f _ { i } } { n } = \frac { 2040 } { 120 } = 17 \)台
即:每一天的销售量平均数相比,平均相差17台。
方差的计算公式
标准差的计算公式
「例4.12」计算电脑销售量的标准差。
解:\[ \begin{aligned} s = \sqrt { \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 2 } f _ { i } } { n - 1 } } = \sqrt { \frac { 55400 } { 120 - 1 } } = 21.58\end{aligned} \]台
「例4.13」计算每个家庭人均月收入的标准分数。
| 家庭编号 | 人均月收入(元) | 标准化值 z |
|---|---|---|
| 1 | 1500 | 0.7 |
| 2 | 750 | -1.04 |
| 3 | 780 | -0.97 |
| 4 | 1080 | -0.28 |
| 5 | 850 | -0.81 |
| 6 | 960 | -0.56 |
| 7 | 2000 | 1.85 |
| 8 | 1250 | 0.12 |
| 9 | 1630 | 1 |
经验法则表明:当一组数据对称分布时
对于\( k=2,3,4 \),该不等式的含义是
「例4.14」在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10枪共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩以确定最后的名次。在2008年8月10日举行第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如表所示。评价哪名运动员的发挥更稳定。
解:如果个运动员决赛10枪的平均成绩差异不大,可以直接比较标准差的大小,否则需要计算离散系数。
| 姓名 | 国家 | 平均环数 | 标准差 | 离散系数 |
|---|---|---|---|---|
| 纳塔利娅·帕杰林娜 | 俄罗斯 | 9.81 | 0.6154 | 0.0627 |
| 郭文珺 | 中国 | 10.23 | 0.4373 | 0.0427 |
| 卓格巴德拉赫·蒙赫珠勒 | 蒙古 | 9.26 | 0.7074 | 0.0764 |
| 妮诺·萨卢克瓦泽 | 格鲁吉亚 | 10.14 | 0.5461 | 0.0539 |
| 维多利亚·柴卡 | 白俄罗斯 | 9.80 | 0.6498 | 0.0663 |
| 莱万多夫斯卡·萨贡 | 波兰 | 9.73 | 0.7334 | 0.0754 |
| 亚斯娜·舍卡里奇 | 塞尔维亚 | 9.69 | 0.3573 | 0.0369 |
| 米拉·内万苏 | 芬兰 | 9.65 | 0.4625 | 0.0479 |
从离散系数可以看出,在最后10枪的决赛中,发挥比较稳定的运动员是亚斯娜·舍卡里奇和郭文珺,发挥不稳定的运动员是卓格巴德拉赫·蒙赫珠勒和莱万多夫斯卡·萨贡。
「例4.15」计算电脑销售量的偏态系数。 \[ \begin{aligned} S K & = \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 3 } f _ { i } } { n s ^ { 3 } } = \frac { \sum _ { i = 1 } ^ { 10 } \left( M _ { i } - 185 \right) ^ { 3 } f _ { i } } { 120 \times ( 21.58 ) ^ { 3 } } \\ & = \frac { 540000 } { 120 \times ( 21.58 ) ^ { 3 } } = 0.448 \end{aligned} \] 结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数
「例4.16」计算电脑销售量的峰态系数。
\[ \begin{aligned} K & = \frac { \sum _ { i = 1 } ^ { k } \left( M _ { i } - \overline { x } \right) ^ { 4 } f _ { i } } { n s ^ { 4 } } - 3 = \frac { 70100000 } { 120 \times ( 21.58 ) ^ { 4 } } - 3 \\ & = 2.694 - 3 = - 0.306 \end{aligned} \]
由于\( K=-0.306<0 \),说明电脑销售量的分布与正态分布相比略有一些扁平。
将电脑销售量的数据输入到Excel工作表中,然后按下列步骤操作