library(haven)
library(ggplot2)
library(dplyr)
library(scales)

person <- read_dta("D:\\BaiduNetdiskWorkspace\\PracticalDatum\\cfps_FamilyData\\cfps2020person_202306.dta")

person_data <- person

目录

  1. 样本分布
  2. 教育水平与工资性收入
  3. 行业、教育水平与工资性收入
  4. 教育水平与抑郁水平
  5. 教育水平与婚恋情况

样本分布

中国家庭追踪调查(China Family Panel Studies: CFPS)是一项由北京大学中国社会科学调查中心实施,在全国范围内的社会跟踪调查项目,对确定的基线调查对象展开永久追踪调查。CFPS文件调查包括社区问卷、家庭问卷、成人问卷、少儿问卷。这里使用的是成人问卷。

样本的学历分布如下表所示,占比最大的是初中、文盲/半文盲和小学

## # A tibble: 9 × 2
##   cfps2020edu             n
##   <fct>               <int>
## 1 文盲/半文盲          6311
## 2 小学                 5581
## 3 初中                 7991
## 4 高中/中专/技校/职高  4577
## 5 大专                 2012
## 6 大学本科             1730
## 7 硕士                  160
## 8 博士                   15
## 9 <NA>                  153

教育水平与工资收入

其中,qg12是指个人年度工资收入,w01最高学历

图中删除了年工资收入大于40万的极值案例

博士收入中位数比硕士高一些,收入上限也更高,但收入上下限的波动也更大。博士样本也较少。

行业、教育水平与年度工资收入

以下编码都是问卷中问题的编码

QGA4行业编码是实习行业编码

KGD3源于问卷,是大类行业编码,通过工作单位的内容来判断受访者所属行业

QG302源于问卷,通过工作者个人的工作内容判断所属行业

QGA401是细分行编码

## <labelled<double>[25]>: QG302行业编码
##  [1]  8  6 16  3  7  5 -8 10 17 NA 11 13 18 14  9 15 12 19 99  2  1  4 21 -1 -2
## 
## Labels:
##  value                          label
##    -10                       无法判断
##     -9                           缺失
##     -8                         不适用
##     -7             描述不清,无法分类
##     -2                       拒绝回答
##     -1                         不知道
##      1               农、林、牧、渔业
##      2                         采矿业
##      3                         制造业
##      4   电力、燃气及水的生产和供应业
##      5                         建筑业
##      6         交通运输、仓储和邮政业
##      7   信息传播、计算机服务和软件业
##      8                   批发和零售业
##      9                   住宿和餐饮业
##     10                         金融业
##     11                       房地产业
##     12               租赁和商务服务业
##     13 科学研究、技术服务和地质勘查业
##     14     水利、环境和公共设施管理业
##     15           居民服务和其他服务业
##     16                           教育
##     17     卫生、社会保障和社会福利业
##     18             文化、体育和娱乐业
##     19             公共管理和社会组织
##     20                       国际组织
##     21                       其他行业
##     99                       无法编码

由第一张图可知,从行业视角看,五年之前,计算机、金融业、科学研究与技术服务这几个行业中人们的收入普遍较高,且波动幅度比较大,工资收入区间较宽(高工资和低工资的人差距较大),但这些行业中的低工资也基本能赶上其他行业的工资中位数。房地产业的收入并不突出。

由第二张图可知,本科生进入体制内工作在很久之前就已经是潮流,本科学历去向最多的是三个行业是教育、公共管理和制造业。由于硕士和博士的样本较少,因此在这张图中不明显,后续应该给硕士单独作图。

由第三张图可知,五年前,硕士的收入普遍高于本科,在房地产、计算机、交通运输、制造业、采矿业等行业的收入均比本科有显著提升。这些行业普遍具有较高的技术门槛。

2020年之前,硕士都在哪个行业,在哪个行业的工资回报相对较高呢。

由图可见,颜色红蓝代表从业人数多少,越红从业人数越多。柱状图表示收入。5年前在房地产行业的硕士生收入较高,但该行业从业人数较少。

约四分之一的硕士生在教育行业中工作,其次为制造业和公共管理相关行业,这些行业大多与政府联系紧密,可见多年前硕士生大多偏向于体制内或泛体制行业。

同时,由硕士生年龄分布图可见,调查中的持有硕士学历的从业人员基本在30~35岁之间,因此在一定程度上代表了持有硕士学历的人员在毕业后5-10年的收入情况。

教育水平与抑郁水平

qn406,407, 411, 412, 414, 416, 418, 420是抑郁测试量表,

共用选项1,乎没有,2有些时候,3经常有,4大多数时候有

##

教育水平与婚姻情况

代码 被访者问卷指标 代码 伴侣相关指标
gender 性别(0为女,1为男) qea202 配偶学历
age 年龄 qea201y 配偶出生年份
qa001y 出生年份 qea206 是否婚前同居(0为否,1为是)
qea204 与配偶如何认识 qea207 婚前同居月数
qea205y 结婚年份 eeb202_1 婚姻是否持续到当前(0为否,1为是)
cyear 被访者的受访年份 Spouse_edu 配偶学历整理(因子层级与cfps2020edu相同)
cfps2020edu 被访者学历
qm801 对婚姻满意度(1-5)
qm802 对伴侣经济贡献满意度(1-5)
qm803 对伴侣家务贡献满意度(1-5)
satisfaction 婚姻总体满意度qm801~803之和

1. 结婚年龄

通过两千多个样本的调查发现,女性的配偶平均比女性大1.89岁;男性的配偶平均比男性小1.65岁。女性结婚年龄平均为23.6岁,男性结婚年龄平均为25岁。硕士女生平均结婚年龄为27.5,硕士男生的平均结婚年龄为26.6.

随着学历的升高,男女性结婚年龄的差距逐渐缩小。在低学历时,男性结婚年龄普遍大于女性,但随着年龄差距逐渐缩小,到达硕士阶段,女性的平均结婚年龄首次大于男性。

## # A tibble: 2 × 3
##   性别  平均年龄差 样本数
##   <fct>      <dbl>  <int>
## 1 女          1.89   1257
## 2 男         -1.66   1310
## # A tibble: 2 × 3
##   性别  平均结婚年龄 样本数
##   <fct>        <dbl>  <int>
## 1 女            23.5   1309
## 2 男            25.0   1376
## # A tibble: 16 × 4
## # Groups:   教育水平 [8]
##    教育水平            性别  平均结婚年龄 样本数
##    <fct>               <fct>        <dbl>  <int>
##  1 文盲/半文盲         女            22.2    250
##  2 文盲/半文盲         男            24.6    123
##  3 小学                女            22.1    187
##  4 小学                男            24.1    263
##  5 初中                女            23.3    436
##  6 初中                男            24.6    483
##  7 高中/中专/技校/职高 女            24.4    210
##  8 高中/中专/技校/职高 男            25.2    267
##  9 大专                女            25.4    116
## 10 大专                男            26.3    113
## 11 大学本科            女            26.2    103
## 12 大学本科            男            26.8    115
## 13 硕士                女            27.5      6
## 14 硕士                男            26.6     11
## 15 博士                女            33        1
## 16 博士                男            24        1

进一步的,为更好反映80、90后的结婚情况,剔除40岁以上的人口后再进行分析。

40岁以下女性的配偶平均比女性大1.92岁;男性的配偶平均比男性小1.24岁。女性结婚年龄平均为23.6岁,男性结婚年龄平均为25岁。女性与配偶的年龄差距拉大了,男性与配偶的年龄差距缩小了。

40岁以下女性平均结婚年龄为23.6岁,男性平均结婚年龄为24.6岁,相较全样本变化不大。40岁以下持有硕士学历的女性与男性的结婚年龄,与之前相差不大。

## # A tibble: 2 × 3
##   gender mean_gap sample_number
##   <fct>     <dbl>         <int>
## 1 女         1.94           636
## 2 男        -1.24           594
## # A tibble: 2 × 3
##   gender mean_marriage_age sample_number
##   <fct>              <dbl>         <int>
## 1 女                  23.6           660
## 2 男                  24.6           619
## # A tibble: 15 × 4
## # Groups:   cfps2020edu [8]
##    cfps2020edu         gender 平均结婚年龄 样本量
##    <fct>               <fct>         <dbl>  <int>
##  1 文盲/半文盲         女             22       31
##  2 文盲/半文盲         男             22.2     16
##  3 小学                女             22.0     50
##  4 小学                男             22.7     65
##  5 初中                女             22.6    260
##  6 初中                男             23.9    225
##  7 高中/中专/技校/职高 女             23.8    129
##  8 高中/中专/技校/职高 男             24.7    139
##  9 大专                女             24.9     91
## 10 大专                男             25.9     77
## 11 大学本科            女             26.0     92
## 12 大学本科            男             26.8     88
## 13 硕士                女             27.5      6
## 14 硕士                男             26.4      9
## 15 博士                女             33        1

2. 结婚对象

选取被访者及其配偶的学历作为变量,分析二者之间是否存在明显的学历差距,若差距存在,其是否随着被访者学历的上升而扩大。

2.1 数据处理与计算

由于再婚的情况较少,且再婚时无论男女,在婚恋市场中的竞争力都会下降,考虑到分析面对的人群主要是年轻学生,因此仅选取所有样本的第一次婚恋经历作为分析对象。

为保证因子的层级相同,便于比较,将问卷中配偶学历的文盲/半文盲(0)、托儿所(1)、幼儿园(2)、没有上过学(10)合并为文盲/半文盲(1)。

最终的分级赋值如下表所示

## # A tibble: 8 × 2
##   教育水平             赋值
##   <chr>               <int>
## 1 文盲/半文盲             1
## 2 小学                    2
## 3 初中                    3
## 4 高中/中专/技校/职高     4
## 5 大专                    5
## 6 大学本科                6
## 7 硕士                    7
## 8 博士                    8

对学历层级赋值后,用被访者的学历赋值减去伴侣的学历赋值,即可得到二者间的学历差异。学历差异大于0说明被访者学历高于其伴侣,反之则说明被访者学历小于其伴侣。差值越大说明学历相差层级越多。

如被访者最高学历为本科(6),伴侣最高学历为大专(5),二者间学历差距为1,说明被访者学历高于其伴侣一个层级。

2.2 婚恋对象整体情况

随着学历的上升,不论男性或女性,被访者与其伴侣的学历差距逐渐拉大。

最高学历在本科及之前时,被访者与其伴侣的学历差距均小于1,且中位数大多为0,说明此时双方倾向于在学历水平上的齐平,从宏观来看,在学历上的”向下兼容”并不明显。但同时,男性被访者与伴侣的学历差异也明显大于女性被访者与伴侣的学历差异。因此分性别来看,男性相对更能接受伴侣比自己的学历低。但当被访者学历达到本科时,女性与伴侣的学历差异出现上升,对伴侣学历低于自己的接受能力有一定增强;而男性对伴侣学历低于自己的接受程度减弱。与伴侣的学历差异下降。

最高学历在本科及以后时,被访者与伴侣的学历差异迅速上升,以男性被访者最为显著。在取得硕士学位男性中,与伴侣的学历差异大于1,出现了学历上明显的”向下兼容”;女性则更倾向于寻找与自己学历相仿的伴侣,虽然学历差异有所上升但幅度较小。

博士时期,由于只有一个样本,所以误差较大,不能代表普遍情况,仅供参考。

## # A tibble: 16 × 6
## # Groups:   性别 [2]
##    性别  教育水平            平均教育水平差异 标准差 中位数 样本量
##    <fct> <fct>                          <dbl>  <dbl>  <dbl>  <int>
##  1 女    文盲/半文盲                   -1.01   0.992   -1      250
##  2 女    小学                          -0.636  0.859   -1      187
##  3 女    初中                          -0.106  0.810    0      436
##  4 女    高中/中专/技校/职高            0.219  0.983    0      210
##  5 女    大专                           0.224  0.961    0      116
##  6 女    大学本科                       0.709  1.19     0      103
##  7 女    硕士                           0.833  1.17     0.5      6
##  8 女    博士                           2     NA        2        1
##  9 男    文盲/半文盲                   -0.512  0.881    0      123
## 10 男    小学                          -0.118  0.898    0      263
## 11 男    初中                           0.186  0.926    0      483
## 12 男    高中/中专/技校/职高            0.558  1.13     1      267
## 13 男    大专                           0.655  1.11     0      113
## 14 男    大学本科                       0.617  0.970    0      115
## 15 男    硕士                           1.27   1.35     1       11
## 16 男    博士                           3     NA        3        1

2.3 婚恋对象情况(40岁以下)

在40岁及以下群体中,高中及以上教育水平的群体对伴侣学历的要求并未大幅提高,基本趋势较为一致。但男性和女性在学历上的”向下兼容”情况更加相似,男性对伴侣的学历要求有所提升。

但在最高学历在高中以下的群体中出现了不同,持有小学和初中学历的被访者,其伴侣学历平均更高。且一个受过小学教育的男性,相对有更大的可能找到更高学历的伴侣;接受过初中教育的男性和女性,找到学历水平相似的伴侣的可能性大幅提升。

## # A tibble: 15 × 6
## # Groups:   性别 [2]
##    性别  被访者教育水平      平均教育水平差异 标准差 中位数 样本量
##    <fct> <fct>                          <dbl>  <dbl>  <dbl>  <int>
##  1 女    文盲/半文盲                  -0.806   0.946   -1       31
##  2 女    小学                         -0.74    0.828   -1       50
##  3 女    初中                         -0.104   0.772    0      260
##  4 女    高中/中专/技校/职高           0.209   0.933    0      129
##  5 女    大专                          0.264   0.929    0       91
##  6 女    大学本科                      0.663   1.11     0       92
##  7 女    硕士                          0.833   1.17     0.5      6
##  8 女    博士                          2      NA        2        1
##  9 男    文盲/半文盲                  -0.375   0.806    0       16
## 10 男    小学                         -0.508   0.886   -1       65
## 11 男    初中                         -0.0533  0.789    0      225
## 12 男    高中/中专/技校/职高           0.266   0.997    0      139
## 13 男    大专                          0.416   1.02     0       77
## 14 男    大学本科                      0.443   0.800    0       88
## 15 男    硕士                          1.22    1.48     1        9

3. 婚前同居

3.1 婚前同居比例

选取被访者学历与是否婚前同居两个变量进行分析,结果表明,随着最高学历上升,婚前同居情况越发普遍。

根据一些调查结果,随着学历和年龄的增加,学生们在寻找伴侣时普遍越发注重两人是否契合、相处是否愉快、情绪是否稳定等性格因素,对家庭条件等因素关注相对较少。并且,随着学历上升,学生更加注重婚姻质量,不愿为了结婚而结婚,而婚前同居可以让彼此更加了解对方,了解对方的生活习惯、性格和价值观等,有助于判断双方是否契合。这是婚前同居比例随着学历、年龄上升而上升的一个可能因素。

## # A tibble: 14 × 5
## # Groups:   性别, 教育水平 [14]
##    性别  教育水平            婚前同居比例 同居人数 总样本数
##    <fct> <fct>               <chr>           <int>    <int>
##  1 女    文盲/半文盲         10%                 3       31
##  2 女    小学                28%                14       50
##  3 女    初中                33%                87      260
##  4 女    高中/中专/技校/职高 33%                42      129
##  5 女    大专                34%                31       91
##  6 女    大学本科            28%                26       92
##  7 女    硕士                33%                 2        6
##  8 男    文盲/半文盲         19%                 3       16
##  9 男    小学                29%                19       65
## 10 男    初中                32%                71      225
## 11 男    高中/中专/技校/职高 46%                64      138
## 12 男    大专                45%                35       77
## 13 男    大学本科            44%                39       88
## 14 男    硕士                11%                 1        9

3.2 婚前同居时长

考虑到一些地区内普遍的未领证结婚,剔除同居时间在60个月以上的样本;为保证分析更贴近实际情况,剔除年龄在40岁以上的样本。

为保证结论稳健性,选取5个样本以上的组合。

由图可知,总体来看不同教育水平组合的伴侣,婚前同居时长一般在5~12个月。

不同教育水平下,同居的时长也有所不同。当双方的教育水平都处于初中及以下时,双方同居可能性更小,即便同居,时间也很短。这可能是传统文化的要求所致。当双方的教育水平高于高中时,不但婚前同居的可能性迅速增加,同居时长也随着受教育水平的提升而逐渐增加。原因之一是,随着学历的提高,学生更加注重精神和性格上的的契合,对待结婚更慎重,更愿意在婚前通过一定时间的同居来更深入地了解对方。

在图中,沿着双方学历对等的方块,从左下角至右上角形成一条对角线,在这条对角线上的婚姻满意度较为稳定。而在对角线两侧,婚姻满意度波动较大,双方教育水平组合离对角线越远,婚姻满意度较低的可能性就越大。但总体来看,婚姻满意度差距不大。

对角线上满意度较为稳定这一情况可能由多方面原因组成,第一,更高的学历通常带来更高的收入,这使双方能更少地担心经济问题,提高了家庭生活的轻松程度。第二,相似的学历有助于二人世界观、人生观和价值观上的交流与契合,提高家庭交流满意度。第三,相似的学历带来的”门当户对”,有助于提升双方原生家庭对新家庭的支持度和满意度,进而促进新家庭发展,提高双方满意度。

同时,这张图也展示了教育对个人巨大的提升作用。在未受过基本教育时,其择偶范围局限于未受过基本教育的群体;一旦接受了小学程度的教育,择偶范围便可扩展至受过小学和初中教育的群体;接受初中教育后,择偶范围就扩展至接受了高中教育的群体;接受高中教育,择偶范围涵盖了小学至大专的群体。此后教育水平的提高,则进一步提升了择偶范围的下限和上限。

此外,婚前同居对婚姻存续没有显著影响,无论同居时长多久,在无论是否经过同居,其离婚率均相对较低,均在10%以内。此外,相关性分析显示,同居与婚姻存续的关系不显著。

因此,总体来看,婚前同居对婚姻存续的影响较小。

##       [,1]  [,2]
## [1,]  1.00 -0.03
## [2,] -0.03  1.00
## 
## n= 2487 
## 
## 
## P
##      [,1]   [,2]  
## [1,]        0.1064
## [2,] 0.1064