Profile Setup

knitr::opts_chunk$set(echo = TRUE)

Input Data / Basic Variable

library(readstata13)
dat <- read.dta13("firm-level panel.dta")
names(dat)
##  [1] "法人代码"               "year"                   "ind"                   
##  [4] "省地县码"               "行业类别"               "工业总产值不变价新规定"
##  [7] "工业总产值现价新规定"   "工业销售产值现价新规定" "出口交货值"            
## [10] "工业增加值"             "流动资产合计"           "存货"                  
## [13] "产成品"                 "流动资产年平均余额"     "长期投资"              
## [16] "固定资产合计"           "固定资产原价合计"       "累计折旧"              
## [19] "本年折旧"               "固定资产净值年平均余额" "无形及递延资产合计"    
## [22] "无形资产"               "资产总计"               "流动负债合计"          
## [25] "长期负债合计"           "负债合计"               "所有者权益合计"        
## [28] "产品销售收入"           "产品销售成本"           "产品销售费用"          
## [31] "产品销售利润"           "管理费用"               "财务费用"              
## [34] "营业利润"               "补贴收入"               "营业外收入"            
## [37] "营业外支出"             "利润总额"               "亏损总额"              
## [40] "本年应付工资总额"       "主营业务应付工资总额"   "从业人数"

Varaible Explanation

工业总产值不变价新规定 工业总产值现价新规定 : 两种计算工业总产值的方式。工业生产总值=当月产品产量×产品销售单价=当月主营业务收入+库存商品期末余额—库存商品期初余额,反映一定时间内工业生产的总规模和总水平。包括:在本企业内不再进行加工,经检验、包装入库(规定不需包装的产品除外)的成品价值,对外加工费收入,自制半成品、在制产品期末期初差额价值。

工业销售产值现价新规定:工业销售产值是以货币形式表现的,工业企业在一定时期内销售的本企业生产的工业产品或提供工业性劳务活动的价值总量。包括销售成品价值对外加工费收入。工业销售产值计算的基础是工业产品销售总量。只要是本期生产的不论是已经销售的还是尚未销售的都要计算工业总产值,所以工业总产值是以产品的生产为计算原则。工业销售产值不含半成品在制品期末期初差额价值。而工业总产值包括。

出口交货值:工业出口交货值是指工业企业交给外贸部门或(委托)出口、自营出口,以及用外汇价格结算的,在国内批量销售或在边境批量出口的产品价值之和。出口交货值具体包括的范围:收购交货值和自营出口额。

工业增加值:工业增加值是工业企业在报告期内以货币表现的工业生产活动的最终成果。工业增加值=工业总产出—工业中间投入+应缴增值税 = 固定资产折旧+劳动者报酬+生产税净额+营业盈余。

流动资产合计:流动资产合计是指企业可以在一年内或者超过一年的一个营业周期内变现或者耗用的资产,主要包括:现金及各种存款、短期投资、应收票据、应收帐款、预付账款、其他应收款、存货、待摊费用、待处理流动资产净损失、一年内到期的长期债权投资、其他流动资产等项。该指标根据本年度会计报表“资产负债表”中“流动资产合计”项的年末数填列。

存货:企业在日常活动中持有的以备出售的产成品或商品、处在生产过程中的在产品、在生产过程或提供劳务过程中耗用的材料和物料等。

产成品:产成品是指企业已经完成全部征税过程并已验收入库合乎标准规格和技术条件,可以按照合同规定的条件送交订货单位,或者可以作为商品对外销售的产品。

流动资产年平均余额:年平均余额=(1-12月各月流动资产平均余额之和(流动资产合计))÷12

长期投资:长期投资是指不满足短期投资条件的投资,即不准备在一年或长于一年的经营周期之内转变为现金的投资。企业管理层取得长期投资的目的在于持有而不在于出售.

固定资产合计:企业为生产商品、提供劳务、出租或经营管理而持有的、使用寿命超过一个会计年度的有形资产总合计。

固定资产原价合计:固定资产原价指企业在建造、改置、安装、改建、扩建、技术改造固定资产时实际支出的全部货币总额。

累计折旧 :固定资产的价值在使用的过程中,会因为种种因素(磨损、陈旧)不断地减少,我们称之为折旧。累计折旧实际上就是固定资产更新准备金的合计数。每一个会计期间都应计算这一期应计提的折旧金额。

本年折旧 :本年折旧是固定资产本年计提的折旧金额。

固定资产净值年平均余额:固定资产净值也称为折余价值,是指固定资产原始价值或重置完全价值减去已提折旧后的净额。它可以反映企业实际占用固定资产的金额和固定资产的新旧程度。这种计价方法主要用于计算盘盈、盘亏、毁损固定资产的损益等。固定资产净值=固定资产原值-累计折旧。

无形及递延资产合计 :无形资产是指企业拥有或者控制的没有实物形态的可辨认非货币性资产,主要包括专利权、非专利技术、商标权、著作权、土地使用权、特许权等。递延资产是指不能全部计入当年损益,应在以后年度内较长时期摊销的除固定资产和无形资产以外的其他费用支出,包括开办费、租入固定资产改良支出,以及摊销期在一年以上的长期待摊费用等。

无形资产 :无形资产是指企业拥有或者控制的没有实物形态的可辨认非货币性资产,主要包括专利权、非专利技术、商标权、著作权、土地使用权、特许权等

资产总计:资产总计是指企业拥有或可控制的能以货币计量的经济资源,包括各种财产、债权和其他权利。企业的资产按其流动性划分为:流动资产、长期投资、固定资产、无形资产及递延资产、其他资产等,即为企业资产负债表的资产总计项。

流动负债合计 :流动负债是指在一份资产负债表中,一年内或者超过一年的一个营业周期内需要偿还的债务合计。

长期负债合计 : 长期负债是会计分录的内容,是指期限超过1年的债务,1年内到期的长期负债在资产负债表中列入短期负债。

负债合计 :流动负债合计+长期负债合计。

所有者权益合计:所有者权益是指资产扣除负债后由所有者应享的剩余权益,即一个会计主体在一定时期所拥有或可控制的具有未来经济利益资源的净额。会计方程式“资产-负债=所有者权益”

产品销售收入:产品收入

产品销售成本产品销售费用: 产品成本/费用

产品销售利润 :收入 - 成本/费用

管理费用 :其他费用

财务费用 :其他费用

营业利润 :销售营业利润=营业收入-营业成本-营业税金及附加-营业费用-管理费用-财务费用-资产减值损失+公允价值变动收益(或减变动损失)+投资收益(或减投资损失)

补贴收入:补贴收入是指国有企业得到的各级财政部门给予的专项补贴收入。

营业外收入: 营业外收入是指企业发生的与其生产经营无直接关系的各项收入,包括固定资产盘盈、处置固定资产净收益、非货币性交易收益、出售无形资产收益、罚款净收入等。

营业外支出:营业外支出,是指企业发生的与其生产经营无直接关系的各项支出,如固定资产盘亏、处置固定资产净损失、出售无形资产损失、债务重组损失、计提的固定资产减值准备、计提的无形资产减值准备、计提的在建工程减值准备、罚款支出、捐赠支出、非常损失等。

利润总额: 利润总额是指税前利润,也就是企业在所得税前一定时期内经营活动的总成果。利润总额=营业利润+营业外收入-营业外支出

亏损总额:0 - 利润总额

本年应付工资总额:应付工资是指企业因使用在职职工的知识、技能、时间和精力而应给予职工的劳动报酬。这种劳动报酬表现为工资总额。

主营业务应付工资总额:主营业务工资总额

从业人数:劳动者提供人数。


Data Missing

Missing completely at random

Missing completely at random (MCAR)

  • Data are missing is not related to either the specific value which is supposed to be obtained or the set of observed responses.

  • MCAR is an ideal but unreasonable assumption for many studies performed.

  • An equipment failure or because the samples are lost in transit or technically unsatisfactory, such data are regarded as being MCAR.

  • The statistical advantage of data that are MCAR is that the analysis remains unbiased. Power may be lost in the design, but the estimated parameters are not biased by the absence of the data.

Missing at random

Missing at random (MAR)

  • A more realistic assumption for the studies performed.

  • Data are regarded to be MAR when the probability that the responses are missing depends on the set of observed responses, but is not related to the specific missing values which is expected to be obtained.

  • As we tend to consider randomness as not producing bias, we may think that MAR does not present a problem. However, MAR does not mean that the missing data can be ignored.

  • If a dropout variable is MAR, we may expect that the probability of a dropout of the variable in each case is conditionally independent of the variable.

Missing not at random

Missing not at random (MNAR)

  • it means there is a relationship between the propensity of a value to be missing and its values.

  • The cases of MNAR data are problematic. The only way to obtain an unbiased estimate of the parameters in such a case is to model the missing data.

First let us find the number of missing value of each varaible:

miss_value_num = colSums(is.na(dat))
miss_value_num = data.frame(miss_value_num)
names(miss_value_num)[1] = "Number_of_missing"
miss_value_num$percent_of_all_data = round(miss_value_num$Number_of_missing/3849950,2)
miss_value_num = miss_value_num[order(-miss_value_num$percent_of_all_data),]
miss_value_num
##                        Number_of_missing percent_of_all_data
## 无形及递延资产合计               3082037                0.80
## 工业总产值不变价新规定           2900958                0.75
## 产品销售利润                     2900958                0.75
## 营业外支出                       2642166                0.69
## 亏损总额                         2491862                0.65
## 工业增加值                       1890976                0.49
## 主营业务应付工资总额             1797758                0.47
## 营业外收入                       1521078                0.40
## 长期投资                         1476154                0.38
## 无形资产                         1476261                0.38
## 流动资产年平均余额               1414950                0.37
## 固定资产净值年平均余额           1415059                0.37
## 本年折旧                          974210                0.25
## 补贴收入                          980653                0.25
## 出口交货值                        668670                0.17
## 长期负债合计                      548906                0.14
## 本年应付工资总额                  544767                0.14
## 产成品                            300937                0.08
## 工业总产值现价新规定              263733                0.07
## 工业销售产值现价新规定            263850                0.07
## 流动负债合计                      265474                0.07
## 产品销售费用                      262274                0.07
## 存货                              240009                0.06
## 固定资产原价合计                  239085                0.06
## 累计折旧                          244343                0.06
## 负债合计                          224047                0.06
## 营业利润                          224520                0.06
## 财务费用                           23171                0.01
## 利润总额                           27719                0.01
## 从业人数                           51291                0.01
## 法人代码                               0                0.00
## year                                   0                0.00
## ind                                    0                0.00
## 省地县码                               0                0.00
## 行业类别                               0                0.00
## 流动资产合计                        1553                0.00
## 固定资产合计                       14974                0.00
## 资产总计                           16295                0.00
## 所有者权益合计                      5400                0.00
## 产品销售收入                         449                0.00
## 产品销售成本                        1552                0.00
## 管理费用                            2650                0.00
n = row.names(miss_value_num)[1:17]

We can see that 17 variables: 无形及递延资产合计, 工业总产值不变价新规定, 产品销售利润, 营业外支出, 亏损总额, 工业增加值, 主营业务应付工资总额, 营业外收入, 长期投资, 无形资产, 流动资产年平均余额, 固定资产净值年平均余额, 本年折旧, 补贴收入, 出口交货值, 长期负债合计, 本年应付工资总额, have a missing value over 10%.

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
dat %>%
        group_by(year) %>%
        summarise(missing = sum(is.na(工业增加值)), proportion = missing / n() ) %>%
        arrange(desc(missing))
## # A tibble: 16 x 3
##     year missing proportion
##    <int>   <int>      <dbl>
##  1  2008  384152 1         
##  2  2013  323032 1         
##  3  2012  289878 1         
##  4  2004  259412 1         
##  5  2011  259008 1         
##  6  2009  220082 1         
##  7  2001  155410 1         
##  8  2005       2 0.00000795
##  9  1998       0 0         
## 10  1999       0 0         
## 11  2000       0 0         
## 12  2002       0 0         
## 13  2003       0 0         
## 14  2006       0 0         
## 15  2007       0 0         
## 16  2010       0 0
  • Listwise or case deletion (MCAR)

  • Pairwise deletion (MCAR or MAR)

  • Mean substitution (If mean is a reasonable estimate for a randomly selected observation from a normal distribution)

  • Regression imputation / Maximum Likelihood imputation (In regression / Maximum likelihood imputation, the existing variables are used to make a prediction, and then the predicted value is substituted as if an actual obtained value. )

  • Multiply Imputation


Data Summary

str(dat)
## 'data.frame':    3849950 obs. of  42 variables:
##  $ 法人代码              : chr  "000000001" "000000002" "000000004" "000000043" ...
##  $ year                  : int  1998 1998 1999 2000 1999 2000 2001 1999 2000 2001 ...
##  $ ind                   : num  14 20 1 19 3 3 3 5 5 5 ...
##  $ 省地县码              : chr  "452701" "452701" "452701" "120113" ...
##  $ 行业类别              : chr  "2672" "3317" "1314" "3210" ...
##  $ 工业总产值不变价新规定: num  10620 512 5376 17648 0 ...
##  $ 工业总产值现价新规定  : num  12500 682 6720 20450 0 ...
##  $ 工业销售产值现价新规定: num  12000 630 6600 18700 0 ...
##  $ 出口交货值            : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ 工业增加值            : int  2287 454 1836 3200 0 818 NA 1778 3242 NA ...
##  $ 流动资产合计          : num  5000 250 815 5500 0 ...
##  $ 存货                  : num  900 110 120 2050 0 ...
##  $ 产成品                : num  0 30 120 0 0 ...
##  $ 流动资产年平均余额    : int  5000 2125 750 2750 0 2180 0 0 16729 15731 ...
##  $ 长期投资              : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 固定资产合计          : num  7440 3800 725 4500 0 1850 1800 0 851 942 ...
##  $ 固定资产原价合计      : num  8730 4700 725 4740 0 1850 0 0 1140 0 ...
##  $ 累计折旧              : num  1290 900 65 240 0 0 0 0 289 256 ...
##  $ 本年折旧              : num  400 300 65 240 0 0 0 0 289 0 ...
##  $ 固定资产净值年平均余额: int  7440 3800 650 2250 0 1850 1020 0 886 914 ...
##  $ 无形及递延资产合计    : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 无形资产              : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 资产总计              : num  12440 4050 1540 10000 0 ...
##  $ 流动负债合计          : num  2600 0 0 6600 0 ...
##  $ 长期负债合计          : num  500 0 0 0 0 ...
##  $ 负债合计              : num  3100 2270 0 6600 0 ...
##  $ 所有者权益合计        : num  9340 1780 1540 3400 0 1150 1090 0 230 23 ...
##  $ 产品销售收入          : num  12000 6300 6600 15000 0 6260 5810 0 8500 8750 ...
##  $ 产品销售成本          : num  11357 6073 5560 13000 0 ...
##  $ 产品销售费用          : num  0 50 22 220 0 185 410 0 458 620 ...
##  $ 产品销售利润          : int  80 175 67 1780 0 2295 460 0 402 2 ...
##  $ 管理费用              : num  15 50 5 0 0 185 580 0 309 312 ...
##  $ 财务费用              : num  300 110 10 0 0 280 215 0 -243 113 ...
##  $ 营业利润              : num  80 15 52 1420 0 1830 -335 0 336 -423 ...
##  $ 补贴收入              : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ 营业外收入            : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ 营业外支出            : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ 利润总额              : num  80 15 50 1800 0 200 440 0 60 2 ...
##  $ 亏损总额              : int  0 0 0 0 0 0 NA 0 0 NA ...
##  $ 本年应付工资总额      : num  0 580 120 960 0 345 181 0 263 262 ...
##  $ 主营业务应付工资总额  : int  0 0 120 960 0 345 181 0 0 0 ...
##  $ 从业人数              : num  106 80 40 108 1 85 82 1 65 92 ...
##  - attr(*, "datalabel")= chr ""
##  - attr(*, "time.stamp")= chr "14 Jun 2020 22:07"
##  - attr(*, "formats")= chr  "%19s" "%10.0g" "%9.0g" "%19s" ...
##  - attr(*, "types")= int  19 65529 65527 19 12 65526 65526 65526 65526 65528 ...
##  - attr(*, "val.labels")= Named chr  "" "" "" "" ...
##   ..- attr(*, "names")= chr  "" "" "" "" ...
##  - attr(*, "var.labels")= chr  "法人代码" "year" "" "省地县码" ...
##  - attr(*, "version")= int 118
##  - attr(*, "label.table")= list()
##  - attr(*, "expansion.fields")=List of 6
##   ..$ : chr  "year" "destring" "Characters removed were:"
##   ..$ : chr  "year" "destring_cmd" "destring year 行业类别, replace force"
##   ..$ : chr  "行业类别" "destring" "Characters removed were:"
##   ..$ : chr  "行业类别" "destring_cmd" "destring year 行业类别, replace force"
##   ..$ : chr  "行业类别" "tostring" "converted to string"
##   ..$ : chr  "省地县码" "tostring" "converted to string"
##  - attr(*, "byteorder")= chr "LSF"
##  - attr(*, "orig.dim")= int  3849950 42
summary(dat)
##    法人代码              year           ind          省地县码        
##  Length:3849950     Min.   :1998   Min.   : 1.00   Length:3849950    
##  Class :character   1st Qu.:2004   1st Qu.: 7.00   Class :character  
##  Mode  :character   Median :2007   Median :17.00   Mode  :character  
##                     Mean   :2007   Mean   :15.37                     
##                     3rd Qu.:2010   3rd Qu.:22.00                     
##                     Max.   :2013   Max.   :30.00                     
##                                                                      
##    行业类别         工业总产值不变价新规定 工业总产值现价新规定
##  Length:3849950     Min.   :        0      Min.   :        0   
##  Class :character   1st Qu.:     5695      1st Qu.:    12070   
##  Mode  :character   Median :    12341      Median :    30904   
##                     Mean   :    51458      Mean   :   144669   
##                     3rd Qu.:    30540      3rd Qu.:    84400   
##                     Max.   :118000000      Max.   :417953265   
##                     NA's   :2900958        NA's   :263733      
##  工业销售产值现价新规定   出口交货值          工业增加值      
##  Min.   :0.000e+00      Min.   :    -8260   Min.   :-4935930  
##  1st Qu.:1.080e+04      1st Qu.:        0   1st Qu.:    1892  
##  Median :2.822e+04      Median :        0   Median :    4506  
##  Mean   :1.327e+05      Mean   :    23335   Mean   :   21047  
##  3rd Qu.:7.726e+04      3rd Qu.:     1331   3rd Qu.:   12069  
##  Max.   :4.565e+09      Max.   :215496487   Max.   :38538697  
##  NA's   :263850         NA's   :668670      NA's   :1890976   
##   流动资产合计            存货              产成品         流动资产年平均余额
##  Min.   :  -661566   Min.   :-1242695   Min.   :  -46925   Min.   :  -90548  
##  1st Qu.:     2550   1st Qu.:     633   1st Qu.:      62   1st Qu.:    2818  
##  Median :     7722   Median :    2318   Median :     651   Median :    6769  
##  Mean   :    50350   Mean   :   16386   Mean   :    5631   Mean   :   35201  
##  3rd Qu.:    23535   3rd Qu.:    7751   3rd Qu.:    2811   3rd Qu.:   18138  
##  Max.   :388909870   Max.   :37895135   Max.   :15593240   Max.   :92146258  
##  NA's   :1553        NA's   :240009     NA's   :300937     NA's   :1414950   
##     长期投资         固定资产合计       固定资产原价合计       累计折旧        
##  Min.   : -370366   Min.   :   -46500   Min.   :    -5659   Min.   :  -193108  
##  1st Qu.:       0   1st Qu.:     1617   1st Qu.:     2500   1st Qu.:      430  
##  Median :       0   Median :     4980   Median :     7320   Median :     1649  
##  Mean   :    2292   Mean   :    36030   Mean   :    56219   Mean   :    19876  
##  3rd Qu.:       0   3rd Qu.:    15931   3rd Qu.:    23432   3rd Qu.:     6243  
##  Max.   :45212651   Max.   :180480348   Max.   :275707161   Max.   :169387232  
##  NA's   :1476154    NA's   :14974       NA's   :239085      NA's   :244343     
##     本年折旧        固定资产净值年平均余额 无形及递延资产合计    无形资产      
##  Min.   : -560666   Min.   :  -21942       Min.   : -68650    Min.   :-175000  
##  1st Qu.:      99   1st Qu.:    1229       1st Qu.:      0    1st Qu.:      0  
##  Median :     365   Median :    3560       Median :      0    Median :      0  
##  Mean   :    3800   Mean   :   22932       Mean   :   2493    Mean   :   1292  
##  3rd Qu.:    1325   3rd Qu.:   10709       3rd Qu.:    352    3rd Qu.:      0  
##  Max.   :11335402   Max.   :83561142       Max.   :5519207    Max.   :8515730  
##  NA's   :974210     NA's   :1415059        NA's   :3082037    NA's   :1476261  
##     资产总计          流动负债合计        长期负债合计         负债合计        
##  Min.   :   -24924   Min.   : -2195280   Min.   : -676967   Min.   : -2007780  
##  1st Qu.:     6928   1st Qu.:     2647   1st Qu.:       0   1st Qu.:     3175  
##  Median :    17265   Median :     8040   Median :       0   Median :     9066  
##  Mean   :   100412   Mean   :    55708   Mean   :    9929   Mean   :    63668  
##  3rd Qu.:    48667   3rd Qu.:    25035   3rd Qu.:     475   3rd Qu.:    27924  
##  Max.   :569390218   Max.   :563038446   Max.   :42173888   Max.   :563038446  
##  NA's   :16295       NA's   :265474      NA's   :548906     NA's   :224047     
##  所有者权益合计       产品销售收入        产品销售成本       
##  Min.   : -8650971   Min.   :  -101643   Min.   :    -51754  
##  1st Qu.:     2004   1st Qu.:    10904   1st Qu.:      8880  
##  Median :     6420   Median :    28027   Median :     23153  
##  Mean   :    43837   Mean   :   133443   Mean   :    112213  
##  3rd Qu.:    20659   3rd Qu.:    76355   3rd Qu.:     63558  
##  Max.   :152845050   Max.   :477366827   Max.   :2400618552  
##  NA's   :5400        NA's   :449         NA's   :1552        
##   产品销售费用       产品销售利润         管理费用           财务费用        
##  Min.   : -324629   Min.   :-1155031   Min.   : -316612   Min.   :-19324885  
##  1st Qu.:      80   1st Qu.:       2   1st Qu.:     330   1st Qu.:        5  
##  Median :     412   Median :     638   Median :     958   Median :      125  
##  Mean   :    3744   Mean   :    4217   Mean   :    5025   Mean   :     1307  
##  3rd Qu.:    1550   3rd Qu.:    2143   3rd Qu.:    2807   3rd Qu.:      589  
##  Max.   :26030515   Max.   : 8800777   Max.   :38729042   Max.   :  7032912  
##  NA's   :262274     NA's   :2900958    NA's   :2650       NA's   :23171      
##     营业利润            补贴收入          营业外收入         营业外支出     
##  Min.   :-16255008   Min.   :-1700000   Min.   :-4817720   Min.   :-416011  
##  1st Qu.:       39   1st Qu.:       0   1st Qu.:       0   1st Qu.:      0  
##  Median :      617   Median :       0   Median :       0   Median :      1  
##  Mean   :     7803   Mean   :     256   Mean   :     497   Mean   :   1186  
##  3rd Qu.:     3271   3rd Qu.:       0   3rd Qu.:      12   3rd Qu.:     67  
##  Max.   : 48895000   Max.   : 4811285   Max.   :12214133   Max.   :9618000  
##  NA's   :224520      NA's   :980653     NA's   :1521078    NA's   :2642166  
##     利润总额            亏损总额        本年应付工资总额   主营业务应付工资总额
##  Min.   :-19335560   Min.   :-4859210   Min.   :  -20733   Min.   : -12007     
##  1st Qu.:       52   1st Qu.:       0   1st Qu.:     643   1st Qu.:    408     
##  Median :      598   Median :       0   Median :    1550   Median :    957     
##  Mean   :     7326   Mean   :    -422   Mean   :    5952   Mean   :   3240     
##  3rd Qu.:     3087   3rd Qu.:       0   3rd Qu.:    3965   3rd Qu.:   2300     
##  Max.   : 49936696   Max.   : 4662790   Max.   :24091718   Max.   :7210385     
##  NA's   :27719       NA's   :2491862    NA's   :544767     NA's   :1797758     
##     从业人数       
##  Min.   :     0.0  
##  1st Qu.:    60.0  
##  Median :   128.0  
##  Mean   :   280.2  
##  3rd Qu.:   280.0  
##  Max.   :223215.0  
##  NA's   :51291

Relationship between the 工业增加值 and profit (Revenue - cost)

工业增加值=工业总产值-工业中间投入+本期应交增值税

工业增加值=固定资产折旧+劳动者报酬+生产税净值+营业盈余

fit = lm(dat$利润总额~dat$工业增加值)
summary(fit)
## 
## Call:
## lm(formula = dat$利润总额 ~ dat$工业增加值)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -8544389     -610      676     1227 15867153 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -1.238e+03  3.849e+01  -32.17   <2e-16 ***
## dat$工业增加值  2.681e-01  1.988e-04 1348.39   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 53220 on 1934845 degrees of freedom
##   (1915103 observations deleted due to missingness)
## Multiple R-squared:  0.4845, Adjusted R-squared:  0.4845 
## F-statistic: 1.818e+06 on 1 and 1934845 DF,  p-value: < 2.2e-16
plot(dat$工业增加值,dat$利润总额,main = "Relationship between the Profit and Industrial added value",
     xlab = "Industrial added value",ylab = "Total profit")
abline(fit)

According to the P-value of the simple linear regression model, the p-value is almost 0, as a result, we should state there is a realtionship between the Profit and Industrial added value. According to graph, the relationship is positive, almost every point is around the regression line.

However, According to the Simpson Paradax, this may not be true.


Integrate data by Year and ind

library(dplyr)
Integration_by_Year_and_Ind = dat %>%
        group_by(ind,year) %>%
        select(names(dat)[6:42])%>%
        summarise_all(sum,na.rm = TRUE)
## Adding missing grouping variables: `ind`, `year`
Integration_by_Year_and_Ind
## # A tibble: 465 x 39
## # Groups:   ind [30]
##      ind  year 工业总产值不变价新规定… 工业总产值现价新规定… 工业销售产值现价新规定… 出口交货值
##    <dbl> <int>            <dbl>            <dbl>            <dbl>      <dbl>
##  1     1  1998        248344350        351518396        335264555   34942450
##  2     1  1999        271132433        351699677        337090672   35712773
##  3     1  2000        307474445        372269567        362321873   40245638
##  4     1  2001        340171030        409787523        397551511   44999291
##  5     1  2002        399528484        477695705        466094525   52919019
##  6     1  2003        492294308        615231738        598719078   67278956
##  7     1  2004                0                0                0          0
##  8     1  2005                0       1061495255       1040556003  108090986
##  9     1  2006                0       1297349380       1272234468  135123363
## 10     1  2007                0       1749608034       1713478436  147334538
## # … with 455 more rows, and 33 more variables: 工业增加值 <int>,
## #   流动资产合计 <dbl>, 存货 <dbl>, 产成品 <dbl>, 流动资产年平均余额 <int>,
## #   长期投资 <int>, 固定资产合计 <dbl>, 固定资产原价合计 <dbl>, 累计折旧 <dbl>,
## #   本年折旧 <dbl>, 固定资产净值年平均余额 <int>, 无形及递延资产合计 <int>,
## #   无形资产 <int>, 资产总计 <dbl>, 流动负债合计 <dbl>, 长期负债合计 <dbl>,
## #   负债合计 <dbl>, 所有者权益合计 <dbl>, 产品销售收入 <dbl>,
## #   产品销售成本 <dbl>, 产品销售费用 <dbl>, 产品销售利润 <int>, 管理费用 <dbl>,
## #   财务费用 <dbl>, 营业利润 <dbl>, 补贴收入 <dbl>, 营业外收入 <dbl>,
## #   营业外支出 <dbl>, 利润总额 <dbl>, 亏损总额 <int>, 本年应付工资总额 <dbl>,
## #   主营业务应付工资总额 <int>, 从业人数 <dbl>
write.csv(x = Integration_by_Year_and_Ind,file = "Integration_by_Year_and_Ind.csv")
library(foreign)
write.dta(dataframe = Integration_by_Year_and_Ind,file = "Integration_by_Year_and_Ind.dta")
dt = Integration_by_Year_and_Ind
summary(dt)
##       ind             year      工业总产值不变价新规定 工业总产值现价新规定
##  Min.   : 1.00   Min.   :1998   Min.   :0.000e+00      Min.   :0.000e+00   
##  1st Qu.: 8.00   1st Qu.:2002   1st Qu.:0.000e+00      1st Qu.:1.828e+08   
##  Median :15.00   Median :2006   Median :0.000e+00      Median :4.588e+08   
##  Mean   :15.19   Mean   :2006   Mean   :1.050e+08      Mean   :1.116e+09   
##  3rd Qu.:22.00   3rd Qu.:2010   3rd Qu.:1.221e+08      3rd Qu.:1.328e+09   
##  Max.   :30.00   Max.   :2013   Max.   :2.238e+09      Max.   :9.734e+09   
##  工业销售产值现价新规定   出口交货值          工业增加值       
##  Min.   :0.000e+00      Min.   :0.000e+00   Min.   :        0  
##  1st Qu.:1.763e+08      1st Qu.:1.754e+07   1st Qu.:        0  
##  Median :4.368e+08      Median :5.633e+07   Median : 21435597  
##  Mean   :1.023e+09      Mean   :1.596e+08   Mean   : 88668278  
##  3rd Qu.:1.254e+09      3rd Qu.:1.544e+08   3rd Qu.:111269183  
##  Max.   :7.930e+09      Max.   :4.467e+09   Max.   :900711476  
##   流动资产合计            存货               产成品         
##  Min.   :1.067e+06   Min.   :0.000e+00   Min.   :        0  
##  1st Qu.:9.921e+07   1st Qu.:2.906e+07   1st Qu.:  9741611  
##  Median :2.191e+08   Median :7.042e+07   Median : 24970548  
##  Mean   :4.167e+08   Mean   :1.272e+08   Mean   : 42977599  
##  3rd Qu.:4.707e+08   3rd Qu.:1.556e+08   3rd Qu.: 54825101  
##  Max.   :3.356e+09   Max.   :1.042e+09   Max.   :274771487  
##  流动资产年平均余额     长期投资          固定资产合计      
##  Min.   :0.000e+00   Min.   :        0   Min.   :4.897e+04  
##  1st Qu.:0.000e+00   1st Qu.:        0   1st Qu.:7.367e+07  
##  Median :9.224e+07   Median :  2563696   Median :1.619e+08  
##  Mean   :1.843e+08   Mean   : 11700834   Mean   :2.971e+08  
##  3rd Qu.:2.552e+08   3rd Qu.: 14882870   3rd Qu.:3.785e+08  
##  Max.   :1.573e+09   Max.   :165037076   Max.   :2.483e+09  
##  固定资产原价合计       累计折旧            本年折旧        
##  Min.   :0.000e+00   Min.   :0.000e+00   Min.   :        0  
##  1st Qu.:8.446e+07   1st Qu.:2.607e+07   1st Qu.:  1822252  
##  Median :2.030e+08   Median :7.103e+07   Median :  8544010  
##  Mean   :4.366e+08   Mean   :1.541e+08   Mean   : 23502323  
##  3rd Qu.:5.171e+08   3rd Qu.:1.736e+08   3rd Qu.: 22920192  
##  Max.   :5.804e+09   Max.   :1.872e+09   Max.   :320744550  
##  固定资产净值年平均余额 无形及递延资产合计    无形资产       
##  Min.   :0.000e+00      Min.   :       0   Min.   :       0  
##  1st Qu.:0.000e+00      1st Qu.:       0   1st Qu.:       0  
##  Median :6.083e+07      Median :       0   Median :       0  
##  Mean   :1.201e+08      Mean   : 4116652   Mean   : 6593328  
##  3rd Qu.:1.580e+08      3rd Qu.: 2605766   3rd Qu.: 9232370  
##  Max.   :1.192e+09      Max.   :49609382   Max.   :65913295  
##     资产总计          流动负债合计        长期负债合计      
##  Min.   :0.000e+00   Min.   :0.000e+00   Min.   :        0  
##  1st Qu.:2.079e+08   1st Qu.:8.228e+07   1st Qu.: 10394917  
##  Median :4.559e+08   Median :1.954e+08   Median : 36180670  
##  Mean   :8.278e+08   Mean   :4.294e+08   Mean   : 70484863  
##  3rd Qu.:9.879e+08   3rd Qu.:4.856e+08   3rd Qu.: 91297638  
##  Max.   :6.437e+09   Max.   :4.921e+09   Max.   :907088000  
##     负债合计         所有者权益合计       产品销售收入      
##  Min.   :0.000e+00   Min.   :1.780e+06   Min.   :8.232e+05  
##  1st Qu.:9.816e+07   1st Qu.:9.116e+07   1st Qu.:2.059e+08  
##  Median :2.252e+08   Median :1.988e+08   Median :4.780e+08  
##  Mean   :4.965e+08   Mean   :3.624e+08   Mean   :1.105e+09  
##  3rd Qu.:5.708e+08   3rd Qu.:4.509e+08   3rd Qu.:1.307e+09  
##  Max.   :4.894e+09   Max.   :2.704e+09   Max.   :7.934e+09  
##   产品销售成本        产品销售费用        产品销售利润      
##  Min.   :5.089e+06   Min.   :        0   Min.   :        0  
##  1st Qu.:1.647e+08   1st Qu.:  4605590   1st Qu.:        0  
##  Median :3.851e+08   Median : 13583684   Median :        0  
##  Mean   :9.287e+08   Mean   : 28884991   Mean   :  8606076  
##  3rd Qu.:1.114e+09   3rd Qu.: 33316039   3rd Qu.:  8342830  
##  Max.   :6.992e+09   Max.   :235084669   Max.   :108256172  
##     管理费用            财务费用            营业利润         
##  Min.   :      338   Min.   :-12975246   Min.   :-112968577  
##  1st Qu.: 10527195   1st Qu.:  2558795   1st Qu.:   4804502  
##  Median : 23282187   Median :  6746842   Median :  19501624  
##  Mean   : 41573400   Mean   : 10757740   Mean   :  60839302  
##  3rd Qu.: 47891112   3rd Qu.: 12338794   3rd Qu.:  71172992  
##  Max.   :327685545   Max.   :100264919   Max.   : 633325897  
##     补贴收入          营业外收入         营业外支出          利润总额         
##  Min.   :  -41215   Min.   :       0   Min.   :       0   Min.   :-101634075  
##  1st Qu.:  216336   1st Qu.:       0   1st Qu.:       0   1st Qu.:   7446535  
##  Median :  759761   Median :  472312   Median :       0   Median :  24819795  
##  Mean   : 1582601   Mean   : 2491105   Mean   : 3079783   Mean   :  60217214  
##  3rd Qu.: 1824401   3rd Qu.: 2705781   3rd Qu.: 1674476   3rd Qu.:  72164217  
##  Max.   :27386500   Max.   :41214632   Max.   :55331578   Max.   : 594698174  
##     亏损总额         本年应付工资总额    主营业务应付工资总额
##  Min.   :-37567933   Min.   :   -17095   Min.   :        0   
##  1st Qu.: -1733086   1st Qu.:  7320666   1st Qu.:        0   
##  Median :        0   Median : 19528773   Median :  7094211   
##  Mean   : -1231555   Mean   : 42305098   Mean   : 14298640   
##  3rd Qu.:        0   3rd Qu.: 48371064   3rd Qu.: 20496553   
##  Max.   : 38031424   Max.   :483351146   Max.   :169924225   
##     从业人数       
##  Min.   :       0  
##  1st Qu.:  904478  
##  Median : 1660352  
##  Mean   : 2288729  
##  3rd Qu.: 3117724  
##  Max.   :16761113

Further Exploration

library(dplyr)
library(ggplot2)
ggplot(data = dt,aes(y = 利润总额, x = year,color = factor(ind)))+geom_point(shape = "o")+
        geom_line(alpha = 0.9)+
        labs(title = "Profit in Different Year",
             y ="Profit")

ggplot(data = dt,aes(y = 工业增加值, x = year,color = factor(ind)))+geom_point(shape = "o")+
        geom_line(alpha = 0.9)+
        labs(title = " Industrial added value in Different Year",
             y ="Industrial added value")

ggplot(data = dt,aes(y = 利润总额 , x = 工业增加值,color = factor(year)))+geom_point(shape = "o")+
        geom_line(alpha = 0.9)+
        labs(title = " Industrial added value and Profit",
             x ="Industrial added value",
             y = "Profit")