knitr::opts_chunk$set(echo = TRUE)
library(readstata13)
dat <- read.dta13("firm-level panel.dta")
names(dat)
## [1] "法人代码" "year" "ind"
## [4] "省地县码" "行业类别" "工业总产值不变价新规定"
## [7] "工业总产值现价新规定" "工业销售产值现价新规定" "出口交货值"
## [10] "工业增加值" "流动资产合计" "存货"
## [13] "产成品" "流动资产年平均余额" "长期投资"
## [16] "固定资产合计" "固定资产原价合计" "累计折旧"
## [19] "本年折旧" "固定资产净值年平均余额" "无形及递延资产合计"
## [22] "无形资产" "资产总计" "流动负债合计"
## [25] "长期负债合计" "负债合计" "所有者权益合计"
## [28] "产品销售收入" "产品销售成本" "产品销售费用"
## [31] "产品销售利润" "管理费用" "财务费用"
## [34] "营业利润" "补贴收入" "营业外收入"
## [37] "营业外支出" "利润总额" "亏损总额"
## [40] "本年应付工资总额" "主营业务应付工资总额" "从业人数"
工业总产值不变价新规定 工业总产值现价新规定 : 两种计算工业总产值的方式。工业生产总值=当月产品产量×产品销售单价=当月主营业务收入+库存商品期末余额—库存商品期初余额,反映一定时间内工业生产的总规模和总水平。包括:在本企业内不再进行加工,经检验、包装入库(规定不需包装的产品除外)的成品价值,对外加工费收入,自制半成品、在制产品期末期初差额价值。
工业销售产值现价新规定:工业销售产值是以货币形式表现的,工业企业在一定时期内销售的本企业生产的工业产品或提供工业性劳务活动的价值总量。包括销售成品价值和对外加工费收入。工业销售产值计算的基础是工业产品销售总量。只要是本期生产的不论是已经销售的还是尚未销售的都要计算工业总产值,所以工业总产值是以产品的生产为计算原则。工业销售产值不含半成品在制品期末期初差额价值。而工业总产值包括。
出口交货值:工业出口交货值是指工业企业交给外贸部门或(委托)出口、自营出口,以及用外汇价格结算的,在国内批量销售或在边境批量出口的产品价值之和。出口交货值具体包括的范围:收购交货值和自营出口额。
工业增加值:工业增加值是工业企业在报告期内以货币表现的工业生产活动的最终成果。工业增加值=工业总产出—工业中间投入+应缴增值税 = 固定资产折旧+劳动者报酬+生产税净额+营业盈余。
流动资产合计:流动资产合计是指企业可以在一年内或者超过一年的一个营业周期内变现或者耗用的资产,主要包括:现金及各种存款、短期投资、应收票据、应收帐款、预付账款、其他应收款、存货、待摊费用、待处理流动资产净损失、一年内到期的长期债权投资、其他流动资产等项。该指标根据本年度会计报表“资产负债表”中“流动资产合计”项的年末数填列。
存货:企业在日常活动中持有的以备出售的产成品或商品、处在生产过程中的在产品、在生产过程或提供劳务过程中耗用的材料和物料等。
产成品:产成品是指企业已经完成全部征税过程并已验收入库合乎标准规格和技术条件,可以按照合同规定的条件送交订货单位,或者可以作为商品对外销售的产品。
流动资产年平均余额:年平均余额=(1-12月各月流动资产平均余额之和(流动资产合计))÷12
长期投资:长期投资是指不满足短期投资条件的投资,即不准备在一年或长于一年的经营周期之内转变为现金的投资。企业管理层取得长期投资的目的在于持有而不在于出售.
固定资产合计:企业为生产商品、提供劳务、出租或经营管理而持有的、使用寿命超过一个会计年度的有形资产总合计。
固定资产原价合计:固定资产原价指企业在建造、改置、安装、改建、扩建、技术改造固定资产时实际支出的全部货币总额。
累计折旧 :固定资产的价值在使用的过程中,会因为种种因素(磨损、陈旧)不断地减少,我们称之为折旧。累计折旧实际上就是固定资产更新准备金的合计数。每一个会计期间都应计算这一期应计提的折旧金额。
本年折旧 :本年折旧是固定资产本年计提的折旧金额。
固定资产净值年平均余额:固定资产净值也称为折余价值,是指固定资产原始价值或重置完全价值减去已提折旧后的净额。它可以反映企业实际占用固定资产的金额和固定资产的新旧程度。这种计价方法主要用于计算盘盈、盘亏、毁损固定资产的损益等。固定资产净值=固定资产原值-累计折旧。
无形及递延资产合计 :无形资产是指企业拥有或者控制的没有实物形态的可辨认非货币性资产,主要包括专利权、非专利技术、商标权、著作权、土地使用权、特许权等。递延资产是指不能全部计入当年损益,应在以后年度内较长时期摊销的除固定资产和无形资产以外的其他费用支出,包括开办费、租入固定资产改良支出,以及摊销期在一年以上的长期待摊费用等。
无形资产 :无形资产是指企业拥有或者控制的没有实物形态的可辨认非货币性资产,主要包括专利权、非专利技术、商标权、著作权、土地使用权、特许权等
资产总计:资产总计是指企业拥有或可控制的能以货币计量的经济资源,包括各种财产、债权和其他权利。企业的资产按其流动性划分为:流动资产、长期投资、固定资产、无形资产及递延资产、其他资产等,即为企业资产负债表的资产总计项。
流动负债合计 :流动负债是指在一份资产负债表中,一年内或者超过一年的一个营业周期内需要偿还的债务合计。
长期负债合计 : 长期负债是会计分录的内容,是指期限超过1年的债务,1年内到期的长期负债在资产负债表中列入短期负债。
负债合计 :流动负债合计+长期负债合计。
所有者权益合计:所有者权益是指资产扣除负债后由所有者应享的剩余权益,即一个会计主体在一定时期所拥有或可控制的具有未来经济利益资源的净额。会计方程式“资产-负债=所有者权益”
产品销售收入:产品收入
产品销售成本,产品销售费用: 产品成本/费用
产品销售利润 :收入 - 成本/费用
管理费用 :其他费用
财务费用 :其他费用
营业利润 :销售营业利润=营业收入-营业成本-营业税金及附加-营业费用-管理费用-财务费用-资产减值损失+公允价值变动收益(或减变动损失)+投资收益(或减投资损失)
补贴收入:补贴收入是指国有企业得到的各级财政部门给予的专项补贴收入。
营业外收入: 营业外收入是指企业发生的与其生产经营无直接关系的各项收入,包括固定资产盘盈、处置固定资产净收益、非货币性交易收益、出售无形资产收益、罚款净收入等。
营业外支出:营业外支出,是指企业发生的与其生产经营无直接关系的各项支出,如固定资产盘亏、处置固定资产净损失、出售无形资产损失、债务重组损失、计提的固定资产减值准备、计提的无形资产减值准备、计提的在建工程减值准备、罚款支出、捐赠支出、非常损失等。
利润总额: 利润总额是指税前利润,也就是企业在所得税前一定时期内经营活动的总成果。利润总额=营业利润+营业外收入-营业外支出
亏损总额:0 - 利润总额
本年应付工资总额:应付工资是指企业因使用在职职工的知识、技能、时间和精力而应给予职工的劳动报酬。这种劳动报酬表现为工资总额。
主营业务应付工资总额:主营业务工资总额
从业人数:劳动者提供人数。
Missing completely at random (MCAR)
Data are missing is not related to either the specific value which is supposed to be obtained or the set of observed responses.
MCAR is an ideal but unreasonable assumption for many studies performed.
An equipment failure or because the samples are lost in transit or technically unsatisfactory, such data are regarded as being MCAR.
The statistical advantage of data that are MCAR is that the analysis remains unbiased. Power may be lost in the design, but the estimated parameters are not biased by the absence of the data.
Missing at random (MAR)
A more realistic assumption for the studies performed.
Data are regarded to be MAR when the probability that the responses are missing depends on the set of observed responses, but is not related to the specific missing values which is expected to be obtained.
As we tend to consider randomness as not producing bias, we may think that MAR does not present a problem. However, MAR does not mean that the missing data can be ignored.
If a dropout variable is MAR, we may expect that the probability of a dropout of the variable in each case is conditionally independent of the variable.
Missing not at random (MNAR)
it means there is a relationship between the propensity of a value to be missing and its values.
The cases of MNAR data are problematic. The only way to obtain an unbiased estimate of the parameters in such a case is to model the missing data.
First let us find the number of missing value of each varaible:
miss_value_num = colSums(is.na(dat))
miss_value_num = data.frame(miss_value_num)
names(miss_value_num)[1] = "Number_of_missing"
miss_value_num$percent_of_all_data = round(miss_value_num$Number_of_missing/3849950,2)
miss_value_num = miss_value_num[order(-miss_value_num$percent_of_all_data),]
miss_value_num
## Number_of_missing percent_of_all_data
## 无形及递延资产合计 3082037 0.80
## 工业总产值不变价新规定 2900958 0.75
## 产品销售利润 2900958 0.75
## 营业外支出 2642166 0.69
## 亏损总额 2491862 0.65
## 工业增加值 1890976 0.49
## 主营业务应付工资总额 1797758 0.47
## 营业外收入 1521078 0.40
## 长期投资 1476154 0.38
## 无形资产 1476261 0.38
## 流动资产年平均余额 1414950 0.37
## 固定资产净值年平均余额 1415059 0.37
## 本年折旧 974210 0.25
## 补贴收入 980653 0.25
## 出口交货值 668670 0.17
## 长期负债合计 548906 0.14
## 本年应付工资总额 544767 0.14
## 产成品 300937 0.08
## 工业总产值现价新规定 263733 0.07
## 工业销售产值现价新规定 263850 0.07
## 流动负债合计 265474 0.07
## 产品销售费用 262274 0.07
## 存货 240009 0.06
## 固定资产原价合计 239085 0.06
## 累计折旧 244343 0.06
## 负债合计 224047 0.06
## 营业利润 224520 0.06
## 财务费用 23171 0.01
## 利润总额 27719 0.01
## 从业人数 51291 0.01
## 法人代码 0 0.00
## year 0 0.00
## ind 0 0.00
## 省地县码 0 0.00
## 行业类别 0 0.00
## 流动资产合计 1553 0.00
## 固定资产合计 14974 0.00
## 资产总计 16295 0.00
## 所有者权益合计 5400 0.00
## 产品销售收入 449 0.00
## 产品销售成本 1552 0.00
## 管理费用 2650 0.00
n = row.names(miss_value_num)[1:17]
We can see that 17 variables: 无形及递延资产合计, 工业总产值不变价新规定, 产品销售利润, 营业外支出, 亏损总额, 工业增加值, 主营业务应付工资总额, 营业外收入, 长期投资, 无形资产, 流动资产年平均余额, 固定资产净值年平均余额, 本年折旧, 补贴收入, 出口交货值, 长期负债合计, 本年应付工资总额, have a missing value over 10%.
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
dat %>%
group_by(year) %>%
summarise(missing = sum(is.na(工业增加值)), proportion = missing / n() ) %>%
arrange(desc(missing))
## # A tibble: 16 x 3
## year missing proportion
## <int> <int> <dbl>
## 1 2008 384152 1
## 2 2013 323032 1
## 3 2012 289878 1
## 4 2004 259412 1
## 5 2011 259008 1
## 6 2009 220082 1
## 7 2001 155410 1
## 8 2005 2 0.00000795
## 9 1998 0 0
## 10 1999 0 0
## 11 2000 0 0
## 12 2002 0 0
## 13 2003 0 0
## 14 2006 0 0
## 15 2007 0 0
## 16 2010 0 0
Listwise or case deletion (MCAR)
Pairwise deletion (MCAR or MAR)
Mean substitution (If mean is a reasonable estimate for a randomly selected observation from a normal distribution)
Regression imputation / Maximum Likelihood imputation (In regression / Maximum likelihood imputation, the existing variables are used to make a prediction, and then the predicted value is substituted as if an actual obtained value. )
Multiply Imputation
str(dat)
## 'data.frame': 3849950 obs. of 42 variables:
## $ 法人代码 : chr "000000001" "000000002" "000000004" "000000043" ...
## $ year : int 1998 1998 1999 2000 1999 2000 2001 1999 2000 2001 ...
## $ ind : num 14 20 1 19 3 3 3 5 5 5 ...
## $ 省地县码 : chr "452701" "452701" "452701" "120113" ...
## $ 行业类别 : chr "2672" "3317" "1314" "3210" ...
## $ 工业总产值不变价新规定: num 10620 512 5376 17648 0 ...
## $ 工业总产值现价新规定 : num 12500 682 6720 20450 0 ...
## $ 工业销售产值现价新规定: num 12000 630 6600 18700 0 ...
## $ 出口交货值 : num 0 0 0 0 0 0 0 0 0 0 ...
## $ 工业增加值 : int 2287 454 1836 3200 0 818 NA 1778 3242 NA ...
## $ 流动资产合计 : num 5000 250 815 5500 0 ...
## $ 存货 : num 900 110 120 2050 0 ...
## $ 产成品 : num 0 30 120 0 0 ...
## $ 流动资产年平均余额 : int 5000 2125 750 2750 0 2180 0 0 16729 15731 ...
## $ 长期投资 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 固定资产合计 : num 7440 3800 725 4500 0 1850 1800 0 851 942 ...
## $ 固定资产原价合计 : num 8730 4700 725 4740 0 1850 0 0 1140 0 ...
## $ 累计折旧 : num 1290 900 65 240 0 0 0 0 289 256 ...
## $ 本年折旧 : num 400 300 65 240 0 0 0 0 289 0 ...
## $ 固定资产净值年平均余额: int 7440 3800 650 2250 0 1850 1020 0 886 914 ...
## $ 无形及递延资产合计 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 无形资产 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 资产总计 : num 12440 4050 1540 10000 0 ...
## $ 流动负债合计 : num 2600 0 0 6600 0 ...
## $ 长期负债合计 : num 500 0 0 0 0 ...
## $ 负债合计 : num 3100 2270 0 6600 0 ...
## $ 所有者权益合计 : num 9340 1780 1540 3400 0 1150 1090 0 230 23 ...
## $ 产品销售收入 : num 12000 6300 6600 15000 0 6260 5810 0 8500 8750 ...
## $ 产品销售成本 : num 11357 6073 5560 13000 0 ...
## $ 产品销售费用 : num 0 50 22 220 0 185 410 0 458 620 ...
## $ 产品销售利润 : int 80 175 67 1780 0 2295 460 0 402 2 ...
## $ 管理费用 : num 15 50 5 0 0 185 580 0 309 312 ...
## $ 财务费用 : num 300 110 10 0 0 280 215 0 -243 113 ...
## $ 营业利润 : num 80 15 52 1420 0 1830 -335 0 336 -423 ...
## $ 补贴收入 : num 0 0 0 0 0 0 0 0 0 0 ...
## $ 营业外收入 : num NA NA NA NA NA NA NA NA NA NA ...
## $ 营业外支出 : num NA NA NA NA NA NA NA NA NA NA ...
## $ 利润总额 : num 80 15 50 1800 0 200 440 0 60 2 ...
## $ 亏损总额 : int 0 0 0 0 0 0 NA 0 0 NA ...
## $ 本年应付工资总额 : num 0 580 120 960 0 345 181 0 263 262 ...
## $ 主营业务应付工资总额 : int 0 0 120 960 0 345 181 0 0 0 ...
## $ 从业人数 : num 106 80 40 108 1 85 82 1 65 92 ...
## - attr(*, "datalabel")= chr ""
## - attr(*, "time.stamp")= chr "14 Jun 2020 22:07"
## - attr(*, "formats")= chr "%19s" "%10.0g" "%9.0g" "%19s" ...
## - attr(*, "types")= int 19 65529 65527 19 12 65526 65526 65526 65526 65528 ...
## - attr(*, "val.labels")= Named chr "" "" "" "" ...
## ..- attr(*, "names")= chr "" "" "" "" ...
## - attr(*, "var.labels")= chr "法人代码" "year" "" "省地县码" ...
## - attr(*, "version")= int 118
## - attr(*, "label.table")= list()
## - attr(*, "expansion.fields")=List of 6
## ..$ : chr "year" "destring" "Characters removed were:"
## ..$ : chr "year" "destring_cmd" "destring year 行业类别, replace force"
## ..$ : chr "行业类别" "destring" "Characters removed were:"
## ..$ : chr "行业类别" "destring_cmd" "destring year 行业类别, replace force"
## ..$ : chr "行业类别" "tostring" "converted to string"
## ..$ : chr "省地县码" "tostring" "converted to string"
## - attr(*, "byteorder")= chr "LSF"
## - attr(*, "orig.dim")= int 3849950 42
summary(dat)
## 法人代码 year ind 省地县码
## Length:3849950 Min. :1998 Min. : 1.00 Length:3849950
## Class :character 1st Qu.:2004 1st Qu.: 7.00 Class :character
## Mode :character Median :2007 Median :17.00 Mode :character
## Mean :2007 Mean :15.37
## 3rd Qu.:2010 3rd Qu.:22.00
## Max. :2013 Max. :30.00
##
## 行业类别 工业总产值不变价新规定 工业总产值现价新规定
## Length:3849950 Min. : 0 Min. : 0
## Class :character 1st Qu.: 5695 1st Qu.: 12070
## Mode :character Median : 12341 Median : 30904
## Mean : 51458 Mean : 144669
## 3rd Qu.: 30540 3rd Qu.: 84400
## Max. :118000000 Max. :417953265
## NA's :2900958 NA's :263733
## 工业销售产值现价新规定 出口交货值 工业增加值
## Min. :0.000e+00 Min. : -8260 Min. :-4935930
## 1st Qu.:1.080e+04 1st Qu.: 0 1st Qu.: 1892
## Median :2.822e+04 Median : 0 Median : 4506
## Mean :1.327e+05 Mean : 23335 Mean : 21047
## 3rd Qu.:7.726e+04 3rd Qu.: 1331 3rd Qu.: 12069
## Max. :4.565e+09 Max. :215496487 Max. :38538697
## NA's :263850 NA's :668670 NA's :1890976
## 流动资产合计 存货 产成品 流动资产年平均余额
## Min. : -661566 Min. :-1242695 Min. : -46925 Min. : -90548
## 1st Qu.: 2550 1st Qu.: 633 1st Qu.: 62 1st Qu.: 2818
## Median : 7722 Median : 2318 Median : 651 Median : 6769
## Mean : 50350 Mean : 16386 Mean : 5631 Mean : 35201
## 3rd Qu.: 23535 3rd Qu.: 7751 3rd Qu.: 2811 3rd Qu.: 18138
## Max. :388909870 Max. :37895135 Max. :15593240 Max. :92146258
## NA's :1553 NA's :240009 NA's :300937 NA's :1414950
## 长期投资 固定资产合计 固定资产原价合计 累计折旧
## Min. : -370366 Min. : -46500 Min. : -5659 Min. : -193108
## 1st Qu.: 0 1st Qu.: 1617 1st Qu.: 2500 1st Qu.: 430
## Median : 0 Median : 4980 Median : 7320 Median : 1649
## Mean : 2292 Mean : 36030 Mean : 56219 Mean : 19876
## 3rd Qu.: 0 3rd Qu.: 15931 3rd Qu.: 23432 3rd Qu.: 6243
## Max. :45212651 Max. :180480348 Max. :275707161 Max. :169387232
## NA's :1476154 NA's :14974 NA's :239085 NA's :244343
## 本年折旧 固定资产净值年平均余额 无形及递延资产合计 无形资产
## Min. : -560666 Min. : -21942 Min. : -68650 Min. :-175000
## 1st Qu.: 99 1st Qu.: 1229 1st Qu.: 0 1st Qu.: 0
## Median : 365 Median : 3560 Median : 0 Median : 0
## Mean : 3800 Mean : 22932 Mean : 2493 Mean : 1292
## 3rd Qu.: 1325 3rd Qu.: 10709 3rd Qu.: 352 3rd Qu.: 0
## Max. :11335402 Max. :83561142 Max. :5519207 Max. :8515730
## NA's :974210 NA's :1415059 NA's :3082037 NA's :1476261
## 资产总计 流动负债合计 长期负债合计 负债合计
## Min. : -24924 Min. : -2195280 Min. : -676967 Min. : -2007780
## 1st Qu.: 6928 1st Qu.: 2647 1st Qu.: 0 1st Qu.: 3175
## Median : 17265 Median : 8040 Median : 0 Median : 9066
## Mean : 100412 Mean : 55708 Mean : 9929 Mean : 63668
## 3rd Qu.: 48667 3rd Qu.: 25035 3rd Qu.: 475 3rd Qu.: 27924
## Max. :569390218 Max. :563038446 Max. :42173888 Max. :563038446
## NA's :16295 NA's :265474 NA's :548906 NA's :224047
## 所有者权益合计 产品销售收入 产品销售成本
## Min. : -8650971 Min. : -101643 Min. : -51754
## 1st Qu.: 2004 1st Qu.: 10904 1st Qu.: 8880
## Median : 6420 Median : 28027 Median : 23153
## Mean : 43837 Mean : 133443 Mean : 112213
## 3rd Qu.: 20659 3rd Qu.: 76355 3rd Qu.: 63558
## Max. :152845050 Max. :477366827 Max. :2400618552
## NA's :5400 NA's :449 NA's :1552
## 产品销售费用 产品销售利润 管理费用 财务费用
## Min. : -324629 Min. :-1155031 Min. : -316612 Min. :-19324885
## 1st Qu.: 80 1st Qu.: 2 1st Qu.: 330 1st Qu.: 5
## Median : 412 Median : 638 Median : 958 Median : 125
## Mean : 3744 Mean : 4217 Mean : 5025 Mean : 1307
## 3rd Qu.: 1550 3rd Qu.: 2143 3rd Qu.: 2807 3rd Qu.: 589
## Max. :26030515 Max. : 8800777 Max. :38729042 Max. : 7032912
## NA's :262274 NA's :2900958 NA's :2650 NA's :23171
## 营业利润 补贴收入 营业外收入 营业外支出
## Min. :-16255008 Min. :-1700000 Min. :-4817720 Min. :-416011
## 1st Qu.: 39 1st Qu.: 0 1st Qu.: 0 1st Qu.: 0
## Median : 617 Median : 0 Median : 0 Median : 1
## Mean : 7803 Mean : 256 Mean : 497 Mean : 1186
## 3rd Qu.: 3271 3rd Qu.: 0 3rd Qu.: 12 3rd Qu.: 67
## Max. : 48895000 Max. : 4811285 Max. :12214133 Max. :9618000
## NA's :224520 NA's :980653 NA's :1521078 NA's :2642166
## 利润总额 亏损总额 本年应付工资总额 主营业务应付工资总额
## Min. :-19335560 Min. :-4859210 Min. : -20733 Min. : -12007
## 1st Qu.: 52 1st Qu.: 0 1st Qu.: 643 1st Qu.: 408
## Median : 598 Median : 0 Median : 1550 Median : 957
## Mean : 7326 Mean : -422 Mean : 5952 Mean : 3240
## 3rd Qu.: 3087 3rd Qu.: 0 3rd Qu.: 3965 3rd Qu.: 2300
## Max. : 49936696 Max. : 4662790 Max. :24091718 Max. :7210385
## NA's :27719 NA's :2491862 NA's :544767 NA's :1797758
## 从业人数
## Min. : 0.0
## 1st Qu.: 60.0
## Median : 128.0
## Mean : 280.2
## 3rd Qu.: 280.0
## Max. :223215.0
## NA's :51291
工业增加值=工业总产值-工业中间投入+本期应交增值税
工业增加值=固定资产折旧+劳动者报酬+生产税净值+营业盈余
fit = lm(dat$利润总额~dat$工业增加值)
summary(fit)
##
## Call:
## lm(formula = dat$利润总额 ~ dat$工业增加值)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8544389 -610 676 1227 15867153
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.238e+03 3.849e+01 -32.17 <2e-16 ***
## dat$工业增加值 2.681e-01 1.988e-04 1348.39 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 53220 on 1934845 degrees of freedom
## (1915103 observations deleted due to missingness)
## Multiple R-squared: 0.4845, Adjusted R-squared: 0.4845
## F-statistic: 1.818e+06 on 1 and 1934845 DF, p-value: < 2.2e-16
plot(dat$工业增加值,dat$利润总额,main = "Relationship between the Profit and Industrial added value",
xlab = "Industrial added value",ylab = "Total profit")
abline(fit)
According to the P-value of the simple linear regression model, the p-value is almost 0, as a result, we should state there is a realtionship between the Profit and Industrial added value. According to graph, the relationship is positive, almost every point is around the regression line.
However, According to the Simpson Paradax, this may not be true.
library(dplyr)
Integration_by_Year_and_Ind = dat %>%
group_by(ind,year) %>%
select(names(dat)[6:42])%>%
summarise_all(sum,na.rm = TRUE)
## Adding missing grouping variables: `ind`, `year`
Integration_by_Year_and_Ind
## # A tibble: 465 x 39
## # Groups: ind [30]
## ind year 工业总产值不变价新规定… 工业总产值现价新规定… 工业销售产值现价新规定… 出口交货值
## <dbl> <int> <dbl> <dbl> <dbl> <dbl>
## 1 1 1998 248344350 351518396 335264555 34942450
## 2 1 1999 271132433 351699677 337090672 35712773
## 3 1 2000 307474445 372269567 362321873 40245638
## 4 1 2001 340171030 409787523 397551511 44999291
## 5 1 2002 399528484 477695705 466094525 52919019
## 6 1 2003 492294308 615231738 598719078 67278956
## 7 1 2004 0 0 0 0
## 8 1 2005 0 1061495255 1040556003 108090986
## 9 1 2006 0 1297349380 1272234468 135123363
## 10 1 2007 0 1749608034 1713478436 147334538
## # … with 455 more rows, and 33 more variables: 工业增加值 <int>,
## # 流动资产合计 <dbl>, 存货 <dbl>, 产成品 <dbl>, 流动资产年平均余额 <int>,
## # 长期投资 <int>, 固定资产合计 <dbl>, 固定资产原价合计 <dbl>, 累计折旧 <dbl>,
## # 本年折旧 <dbl>, 固定资产净值年平均余额 <int>, 无形及递延资产合计 <int>,
## # 无形资产 <int>, 资产总计 <dbl>, 流动负债合计 <dbl>, 长期负债合计 <dbl>,
## # 负债合计 <dbl>, 所有者权益合计 <dbl>, 产品销售收入 <dbl>,
## # 产品销售成本 <dbl>, 产品销售费用 <dbl>, 产品销售利润 <int>, 管理费用 <dbl>,
## # 财务费用 <dbl>, 营业利润 <dbl>, 补贴收入 <dbl>, 营业外收入 <dbl>,
## # 营业外支出 <dbl>, 利润总额 <dbl>, 亏损总额 <int>, 本年应付工资总额 <dbl>,
## # 主营业务应付工资总额 <int>, 从业人数 <dbl>
write.csv(x = Integration_by_Year_and_Ind,file = "Integration_by_Year_and_Ind.csv")
library(foreign)
write.dta(dataframe = Integration_by_Year_and_Ind,file = "Integration_by_Year_and_Ind.dta")
dt = Integration_by_Year_and_Ind
summary(dt)
## ind year 工业总产值不变价新规定 工业总产值现价新规定
## Min. : 1.00 Min. :1998 Min. :0.000e+00 Min. :0.000e+00
## 1st Qu.: 8.00 1st Qu.:2002 1st Qu.:0.000e+00 1st Qu.:1.828e+08
## Median :15.00 Median :2006 Median :0.000e+00 Median :4.588e+08
## Mean :15.19 Mean :2006 Mean :1.050e+08 Mean :1.116e+09
## 3rd Qu.:22.00 3rd Qu.:2010 3rd Qu.:1.221e+08 3rd Qu.:1.328e+09
## Max. :30.00 Max. :2013 Max. :2.238e+09 Max. :9.734e+09
## 工业销售产值现价新规定 出口交货值 工业增加值
## Min. :0.000e+00 Min. :0.000e+00 Min. : 0
## 1st Qu.:1.763e+08 1st Qu.:1.754e+07 1st Qu.: 0
## Median :4.368e+08 Median :5.633e+07 Median : 21435597
## Mean :1.023e+09 Mean :1.596e+08 Mean : 88668278
## 3rd Qu.:1.254e+09 3rd Qu.:1.544e+08 3rd Qu.:111269183
## Max. :7.930e+09 Max. :4.467e+09 Max. :900711476
## 流动资产合计 存货 产成品
## Min. :1.067e+06 Min. :0.000e+00 Min. : 0
## 1st Qu.:9.921e+07 1st Qu.:2.906e+07 1st Qu.: 9741611
## Median :2.191e+08 Median :7.042e+07 Median : 24970548
## Mean :4.167e+08 Mean :1.272e+08 Mean : 42977599
## 3rd Qu.:4.707e+08 3rd Qu.:1.556e+08 3rd Qu.: 54825101
## Max. :3.356e+09 Max. :1.042e+09 Max. :274771487
## 流动资产年平均余额 长期投资 固定资产合计
## Min. :0.000e+00 Min. : 0 Min. :4.897e+04
## 1st Qu.:0.000e+00 1st Qu.: 0 1st Qu.:7.367e+07
## Median :9.224e+07 Median : 2563696 Median :1.619e+08
## Mean :1.843e+08 Mean : 11700834 Mean :2.971e+08
## 3rd Qu.:2.552e+08 3rd Qu.: 14882870 3rd Qu.:3.785e+08
## Max. :1.573e+09 Max. :165037076 Max. :2.483e+09
## 固定资产原价合计 累计折旧 本年折旧
## Min. :0.000e+00 Min. :0.000e+00 Min. : 0
## 1st Qu.:8.446e+07 1st Qu.:2.607e+07 1st Qu.: 1822252
## Median :2.030e+08 Median :7.103e+07 Median : 8544010
## Mean :4.366e+08 Mean :1.541e+08 Mean : 23502323
## 3rd Qu.:5.171e+08 3rd Qu.:1.736e+08 3rd Qu.: 22920192
## Max. :5.804e+09 Max. :1.872e+09 Max. :320744550
## 固定资产净值年平均余额 无形及递延资产合计 无形资产
## Min. :0.000e+00 Min. : 0 Min. : 0
## 1st Qu.:0.000e+00 1st Qu.: 0 1st Qu.: 0
## Median :6.083e+07 Median : 0 Median : 0
## Mean :1.201e+08 Mean : 4116652 Mean : 6593328
## 3rd Qu.:1.580e+08 3rd Qu.: 2605766 3rd Qu.: 9232370
## Max. :1.192e+09 Max. :49609382 Max. :65913295
## 资产总计 流动负债合计 长期负债合计
## Min. :0.000e+00 Min. :0.000e+00 Min. : 0
## 1st Qu.:2.079e+08 1st Qu.:8.228e+07 1st Qu.: 10394917
## Median :4.559e+08 Median :1.954e+08 Median : 36180670
## Mean :8.278e+08 Mean :4.294e+08 Mean : 70484863
## 3rd Qu.:9.879e+08 3rd Qu.:4.856e+08 3rd Qu.: 91297638
## Max. :6.437e+09 Max. :4.921e+09 Max. :907088000
## 负债合计 所有者权益合计 产品销售收入
## Min. :0.000e+00 Min. :1.780e+06 Min. :8.232e+05
## 1st Qu.:9.816e+07 1st Qu.:9.116e+07 1st Qu.:2.059e+08
## Median :2.252e+08 Median :1.988e+08 Median :4.780e+08
## Mean :4.965e+08 Mean :3.624e+08 Mean :1.105e+09
## 3rd Qu.:5.708e+08 3rd Qu.:4.509e+08 3rd Qu.:1.307e+09
## Max. :4.894e+09 Max. :2.704e+09 Max. :7.934e+09
## 产品销售成本 产品销售费用 产品销售利润
## Min. :5.089e+06 Min. : 0 Min. : 0
## 1st Qu.:1.647e+08 1st Qu.: 4605590 1st Qu.: 0
## Median :3.851e+08 Median : 13583684 Median : 0
## Mean :9.287e+08 Mean : 28884991 Mean : 8606076
## 3rd Qu.:1.114e+09 3rd Qu.: 33316039 3rd Qu.: 8342830
## Max. :6.992e+09 Max. :235084669 Max. :108256172
## 管理费用 财务费用 营业利润
## Min. : 338 Min. :-12975246 Min. :-112968577
## 1st Qu.: 10527195 1st Qu.: 2558795 1st Qu.: 4804502
## Median : 23282187 Median : 6746842 Median : 19501624
## Mean : 41573400 Mean : 10757740 Mean : 60839302
## 3rd Qu.: 47891112 3rd Qu.: 12338794 3rd Qu.: 71172992
## Max. :327685545 Max. :100264919 Max. : 633325897
## 补贴收入 营业外收入 营业外支出 利润总额
## Min. : -41215 Min. : 0 Min. : 0 Min. :-101634075
## 1st Qu.: 216336 1st Qu.: 0 1st Qu.: 0 1st Qu.: 7446535
## Median : 759761 Median : 472312 Median : 0 Median : 24819795
## Mean : 1582601 Mean : 2491105 Mean : 3079783 Mean : 60217214
## 3rd Qu.: 1824401 3rd Qu.: 2705781 3rd Qu.: 1674476 3rd Qu.: 72164217
## Max. :27386500 Max. :41214632 Max. :55331578 Max. : 594698174
## 亏损总额 本年应付工资总额 主营业务应付工资总额
## Min. :-37567933 Min. : -17095 Min. : 0
## 1st Qu.: -1733086 1st Qu.: 7320666 1st Qu.: 0
## Median : 0 Median : 19528773 Median : 7094211
## Mean : -1231555 Mean : 42305098 Mean : 14298640
## 3rd Qu.: 0 3rd Qu.: 48371064 3rd Qu.: 20496553
## Max. : 38031424 Max. :483351146 Max. :169924225
## 从业人数
## Min. : 0
## 1st Qu.: 904478
## Median : 1660352
## Mean : 2288729
## 3rd Qu.: 3117724
## Max. :16761113
library(dplyr)
library(ggplot2)
ggplot(data = dt,aes(y = 利润总额, x = year,color = factor(ind)))+geom_point(shape = "o")+
geom_line(alpha = 0.9)+
labs(title = "Profit in Different Year",
y ="Profit")
ggplot(data = dt,aes(y = 工业增加值, x = year,color = factor(ind)))+geom_point(shape = "o")+
geom_line(alpha = 0.9)+
labs(title = " Industrial added value in Different Year",
y ="Industrial added value")
ggplot(data = dt,aes(y = 利润总额 , x = 工业增加值,color = factor(year)))+geom_point(shape = "o")+
geom_line(alpha = 0.9)+
labs(title = " Industrial added value and Profit",
x ="Industrial added value",
y = "Profit")