1、 2013 年全国研究生数学建模竞赛 E 题 中等收入定位与人口度 量模型研究 居民收入分配关系到广大民众的生活水平,分配公平程度是广泛关注的话题。其中中等收入人口比重是反映收入分配格局的重要指标,这一人口比重越大,意味着收入分配结构越合理,称之为 “ 橄榄型 ” 收入分配格局。在这种收入分配格局下,收入差距不大, 社会 消费旺盛,人民生活水平高,社会稳定。一般经济发达国家都具有这种分配格局。我国处于经济转型期,收入分配格局处于重要的调整期, “ 橄榄型 ” 收入分配格局正处于 形成阶段。因此,监控收入分配格局的变化是经济社会发展的重要课 题 ,例如需要回答,与前年比较,去年的收入分配格局改善
2、了吗?改善了多少?可见实际上需要回答三个问题:什么是“ 橄榄型 ”收入分配格局?收入分配格局怎样的变化可以称之为改善?改善了多少? 直观上,中间部分人口增加,则收入分配格局向好的方向转化。于是基本问题回答什么是中间部分。 一 个 国 家 的收入分配可以用统计分布表示,图是某收入分配的密度函数)(xf ,其中 0x 表示收入 (仅考虑正的收入 ), 0x 是众数点 , m 是中位数点, 是平均收入。收入分配经验分析说明,收入分配曲线 一般 是 所谓正 偏的,即峰值点向左偏,右端拖一个长尾巴,且通常有 mx0 (1) 记对应的分布函数为 )(xF ,则 )(xFp 表示收入低于或等于 x 的人口比
3、例。 由于21)( mF , (1)式意味着收入大于或等于平均收入的人口一定不 到 半数,因此是少数。 记 收入低于或等于 x 的人口群体拥有 收入占 总收入的比例为 )(pL ,则应有 x tttfpL 0 d)(1)( , )(xFp (2) )(pL 称之为收入分配的洛伦兹曲线。显然,如果 )(1pL 与 )(2 pL 是两个不同 收入分配的洛伦兹曲线, 若 对任何 )1,0(p 都有 )()( 21 pLpL ,则 )(1 pL 对应的收入分配显然更优, 因为 在 )(1pL 中,任何低收入端人口拥有的总收入比例更大。下图中红色曲线是 某收入分配的洛伦兹曲线 。 图 其中横轴表示人口比
4、例,纵轴表示总收入比例。显然,图中 曲 线位置越高,所代表的收入分配越平等。其中 45 线可以理解为平等收入线,这时, 任何低收入端人口比例为 p 的人口拥有的总收入比例也是 p ,从而必 定 是完全平等的收入分配 。因此定义 45 线 与 )(pL 之间面积的 2 倍为基尼系数。于是基尼系数定义为 10 d)(21 ppLG (3) )(pL 与 )(xf 具有关系 xpL )(4) )(1)( pLxf (5) 其中 )(xFp 。 记 )(xF 的反函数为 )(1 pF , 则洛伦兹曲线可以表示为 p qqFpL 0 1 d)(1)( 实践中通过入户调查获得家庭收入与消费等数据, 如果可
5、以得到这类数据,则可以使用例如 Kernel 法估计收入分配的统计分布。 我国统计部门也进行这种调查,但数据不对外公开,而只是在统计年鉴上发布所谓 的 分组数据 (世界上很多国家也如此 ),这种数据的完整形式为 ii xp, , ni ,2,1 (6) ii Lp, , ni ,2,1 (7) 其中 ix 是收入区间点,满足 1210 nn xxxx ,通常 1nx 理解为充分大的正数。 n 通常不大,例如 10n 。 很多国家只提供 (7)式描述的数据。 经济学界只能利用这种稀疏的信息进行收入分配分析。 记 00p ,则 ), 1ii xx 中人口比例为1 ii pp 。 例如图 中 “+”
6、中标出的点表示了形如 (7)的数据点,其中 /10ipi ,9,2,1 i ,最后的点 是 95.010p 。 如果收入分配的 真实 洛伦兹曲线为 )(pl ,且若 )(pl 存在,则 (6)表示的是 )(pl 曲线上的坐标点,即 ii xpl )( ; (7)表示 )(pl曲线上的点,即 ii Lpl )( 。 经济学界 采 用所谓的洛伦兹曲线模型 ),( pL 拟合上述数据 (7),其中 是一组参数, 使用 非线性最小二乘法 求解 ni ii LpL1 2),(m in (8) 确定其中参数向量 的估计 值 ,然后用 )(),( pLpL 作为近似的洛伦兹曲线来进行收入分配分析,显然,这时
7、 就 能通过 (4)、 (5)式确定相应的统计密度与分布的估计 。 ),( pL 是 定义在 1,0 区间 上 、取值于 1,0 区间的 函数,满足 0),0( L , 1),1( L , 0),( pL , 0),( pL (9) 即 ),( pL 在 1,0 上是凸增函数。文献中常常略去参数 以求表述简练。 也可以使用其他方法 (例如多项式、样条函数逼近 )来确 定洛伦兹曲线,但实践证明使用洛伦兹曲线模型是比较理想的方法之一 ,有关洛伦兹曲线模型的最近文献见 参考文献 3。经济理论 中 提出的另一种方法是使用经验分布拟合分组数据而直 接形成收入分配的近似分布,有关参考文献见 1。 图 经济
8、理论界考虑取 收入落 在 中位收入 m 的一个范围内的人口为 中等收入人口, 可以视这种方法为“收入空间法”。 例如 图 2(A),取其 中收入属于 ),( hl xx 中的人口为中等收入人口,这时中等收入人口比例 M 显然 等于 )()( lh xFxF , 见图 2(B)。 显然, 这种方法 中 lx 与 hx 的取法具有任意性 ,由于经济进步,通货 膨胀等因素的影响,收入的区间是变化的,更多的情形 是所有人口的收入都提高 了 ,即全社会的收入区间右移, 可见 lx 与 hx 的任意性使 纵向比较各年的中等收入人口时出现 困难 。 另一种方法可以视为“人口空间法”,即选择 21)( mF
9、邻近的一个范围为中等收入人口 , 例如取范围 1p 20%到 2p 80%,当然,按定义 , 中等收入人口比例已经取 定 为 60%。 再用此 60%的 人口所拥有的收入占总收入的比例来描述中等收入人口的状态 ,此时中等收入人口的收入范围 , hl xx 当然容易算得 。例如当范围取为 20%到 80%时,中等收入人口的状态即 定义 为 8.0 2.0 1 d)(1)2.0()8.0( ppFLLS 注意到平均收入为 10 1 d)( ppF 即图 3 中 )(xF 左侧区域的面积,而 S 是图中淡蓝色区域的面积。 图 2讨论了两种方法的缺陷。第一种方法是前面提到的任意性, 再 考虑第二种方法
10、。 这种方法似乎有道理,例如经济发展、收入增加导致所有人口的收入都右移时,总是取中间的 60%进行纵向比较似乎总是可行的。设 收入分配是30000,10000 上的均匀分布,这时中位收入是 20000m 。此时,中间 60%人口拥有总收入的 60%,收入范围为 14000 到 26000。考虑 收入分配发生了变化, 变成 了 40000,0 上的均匀分布 ,这时收入范围拉大了,低端人口收入下降了,高端收入人口收入增加了,直观上两极分化扩大了,也即中等收入人口应该 是 下降了,但按第二种方法,中间 60%的人口拥有的总收入比例仍是 60%。这与经济直观不符。 中等收入人口的多少与两极分化 (po
11、larization)的程度有关,所谓两极分化,用密度函数表示时,例如严重右偏且厚尾,也 即 中间部分空洞化。两极分化与收入不平等 (inequality)是不同的概念,文献 2对这两个概念进行了准确阐述。 2建立了一种指数,这种指数说明两极 分化的大小或严重程度,该指数扩大意味着两极分化严重了,这时表示中等收入人口缩小了。反之若该指数缩小了,则意味着中等收入人口扩大了。但该文献并没有给出测算中等收入人口比例大小的方法。 为此,需要研究中等收入定位与人口度量问题,请你根据 表 一 中 给出 的分组数据,用数学模型研究给出的问题。 表一:收入分配分组数据 jx 1jx jf jp jL 0.00
12、 999.00 0.0780 0.0780 0.0059 1000.00 1499.00 0.0560 0.1340 0.0165 1500.00 1999.00 0.0420 0.1760 0.0276 2000.00 2499.00 0.0470 0.2230 0.0436 2500.00 2999.00 0.0420 0.2650 0.0611 3000.00 3499.00 0.0440 0.3090 0.0828 3500.00 3999.00 0.0410 0.3500 0.1061 4000.00 4999.00 0.0860 0.4360 0.1647 5000.00 5999
13、.00 0.0920 0.5280 0.2413 6000.00 6999.00 0.0880 0.6160 0.3279 7000.00 7999.00 0.0800 0.6960 0.4188 8000.00 8999.00 0.0650 0.7610 0.5024 9000.00 9999.00 0.0520 0.8130 0.5772 10000.00 11999.00 0.0780 0.8910 0.7071 12000.00 14999.00 0.0560 0.9470 0.8216 15000.00 24999.00 0.0430 0.9900 0.9453 25000.00 0
14、.0100 1.0000 1.0000 表中 , 1jj xx 是收入区间,单位为元, jf 是该区间内的人口比例, jp 是,0 1jx 中 人口比例, jL 是 ,0 1jx 中人口拥有的总收入比例,因此 ),( jj Lp 是洛伦兹曲线上的点,其中 25000 以上人口比例为 1%。 总 平均收入 6603 元。 请研究 如下问题 : 一 构造 满足 (9)式的 新 模型 ),( pL ,使得能很好的拟合上述分组数据、 反映经济规律。 例如 文献 3证明 21 )1(1)1(1)( pppL 1,0(, 21 , 0 , 0 , 1 (10) 满足条件 (9)。 该文中还提出了其他一些模
15、型,并说明利用这些模型时,产生的估计结果优于密度函数的 Kernel 估计 法。 请在现有参考文献中 (文献 4的参考文献部分列出了大部分有关的文献 )找出至少 10 种模型 , 与你们提出的模型进行比较。 通过比较, 说明你们的 模型 不差 。 提示:可以搜集到 现成的 无约束非线性最小二乘 计算 程序,利用 参数变换 对类似 (10)的条件进行变换, 将 约束非线性最小二乘问题化为无约束的。 如果),( pL 是你们找到的模型,分组数据是 niii Lp 1, , 是你们求得的 的估计,拟合精度的好坏可以采用以下三种标准进行比较 。 均方误差 (MSE, mean squared erro
16、r ): ni ii LpLn 1 2,1 平均绝对误差 (MAE, mean absolute error): ni ii LpLn 1 ,1 最大绝对误差 (MAS, maximum absolute error) iini LpL ,max1 注意, 本题中 最好能 构造新模型 , 而 不是 通过简单处理 (例如加权 )文献中 的已有 模型 而 得到的模型。 二 研究 可 否改进上述提到的 收入空间法 ,这时需要 研究确定中等收入的范围、中等收入人口的范围的科学方法 ,以克服 中等收入区间取法的 任意性 ; 研究 可 否改进上述提到的 人口空间法, 例如 研究 在各年中 1p 与 2p
17、取不同的值时 ,纵向比较各年 中等收入人口与收入的变动 的方法 。 提示:目 前经济理论界将中等收入人口定义为中位收入附近的人口,于是若中间部分比前一年隆起得更高,则认为中等收入人口扩大了;若两边人口扩大了,则中等收入人口下降了。所提出的原理与模型应与这一直观相符。其他有关价值取向方面的示例性 提示见问题 四 。 三 利用最后 表二 表五 所附 A, B 两个地区前后两个不同年份的收入分配分组数据,请研究: (1) 对各地区、各年份的 中等收入 的数量 (或范围 )、中等收入 人口 的数量或范围进行定量描述,说明中等收入人口的变化趋势; (2)比较两个地区的中等收入 人口、收入等 变化情况。
18、四 除二题中所述方法 外, 提出中等收入人口的定义、原理及经济学意义,并提出 与之相应的 中等收入人口的测算方法、模型或指数,说明其经济学意义。 提示: 所提出的方法应满足普遍的价值判断或价值取向,也应反映经济规律。 例如 Sen(见参考文献 5)在构造贫困指数 )(zp 时采用的方法, )(zp 是一数量,贫困越严重 )(zp 越大。 这一指数之所以有用,正是它反映经济规律,满足普遍的价值判断。 这种贫困指数的构造方法 与本题没有关系,但请参 考其中的思想。 设 z 是贫困线, Sen先规定 )(zp 应满足以下 两个 公理 (axiom),这两种公理实际上是 经济规律方面的要求: 单调性:
19、贫困线以下人口增加时, )(zp 增加; 转移性: 从 贫困线以下任何人 处 转移 收入给比 他 富有的人时, )(zp 增加; 记 ii yzg , iy 是第 i 个人的收入。 ig 是 所谓 的 贫困缺口,贫困线以下人口 的 缺口为正,否则为负。设整个社会的收入分配为 Y ,记 )(xS 是收入低于 x 的人口 集合 ,取贫困指数为以下加权和 )( ),(),()( xSi ii YzvgYzAxQ 其中 ),( Yzvi 是非负权数, ),( YzA 是 非负规范化因子。 )(xQ 是一种加权贫困缺口,定义 在 Z 给定下 全社会最大化贫困缺口为贫困指数,即取 )()( zQzp 为贫
20、困指数。 要求权数分配满足所谓 的 相对公平条件:记第 i 个 成员 的福利水平为 )(YWi ,则 )()( YWYW ji 时, 取 ),(),( YzvYzv ji 。 可见这是价值取向方面的条件。 另外还加上几种技术性的公理, Sen最后 推导出 一种目前广泛使用的 贫困指数 (见参考文献 5)。 表二:收入分配分组数据 (地区, 年份 之 一 ) jx 1jx jp jL 0.00 2228.28 0.10 0.0250 2228.28 3066.03 0.20 0.0673 3066.03 3790.18 0.30 0.1221 3790.18 4519.24 0.40 0.188
21、2 4519.24 5254.75 0.50 0.2663 5254.75 6166.38 0.60 0.3569 6166.38 7273.48 0.70 0.4631 7273.48 8813.52 0.80 0.5901 8813.52 11424.93 0.90 0.7485 11424.93 14171.91 0.95 0.8493 平均: 6281.34 元 表三:收入分配分组数据 (地区,年份之二 ) jx 1jx jp jL 0.00 3081.27 0.10 0.0241 3081.27 4199.72 0.20 0.0651 4199.72 5272.06 0.30 0.1
22、187 5272.06 6383.72 0.40 0.1843 6383.72 7461.83 0.50 0.2623 7461.83 8751.34 0.60 0.3532 8751.34 10294.02 0.70 0.4601 10294.02 12500.51 0.80 0.5865 12500.51 16362.67 0.90 0.7468 16362.67 20288.83 0.95 0.8488 平均: 8890.21 元 表四:收入分配分组数据 (地区,年份之一 ) jx 1jx jp jL 0.00 8465.55 0.10 0.0427 8465.55 10293.33 0
23、.20 0.0978 10293.33 11770.00 0.30 0.1630 11770.00 13173.47 0.40 0.2367 13173.47 14422.27 0.50 0.3180 14422.27 16246.88 0.60 0.4084 16246.88 18510.11 0.70 0.5108 18510.11 21794.50 0.80 0.6290 21794.50 26918.59 0.90 0.7713 26918.59 34375.61 0.95 0.8596 平均: 16938.46 元 表五:收入分配分组数据 (地区,年份之二 ) jx 1jx jp j
24、L 0.00 11062.50 0.10 0.0411 11062.50 13531.18 0.20 0.0970 13531.18 15472.69 0.30 0.1622 15472.69 17599.77 0.40 0.2369 17599.77 19814.62 0.50 0.3210 19814.62 22681.13 0.60 0.4163 22681.13 25818.75 0.70 0.5249 25818.75 29848.37 0.80 0.6499 29848.37 35288.50 0.90 0.7948 35288.50 42150.00 0.95 0.8804 平均
25、: 22228.53 元 参考文献 1 Chotikapanich, D., D. S.P. Rao, and K.K. Tang, 2007. Estimating income inequality in China using grouped data and the generalized Beta distribution. The Review of Income and Wealth 53, 127-47. 2 Foster, J.E. and M.C. Wolfson, 2009. Polarization and the decline of the middle class
26、: Canada and the U.S. Journal of Economic Inequality 8, 247-273. 3 Wang, Z.X., Y-K Ng, and R. Smyth, 2011. A general method for creating Lorenz curves. The Review of Income and Wealth 57, 561-582. 注:本文中有关定理的完整证明可通过 EcoPapers 下载 (在谷歌中键入EcoPapers 与文章名称即可搜索到 ),文章名为: general method to create Lorenz curves. 4 Wang, Z.X. and R. Smyth, 2013. A hybrid method for creating Lorenz curves with an application to measuring world income inequality. 注:本文 可以通过 EcoPapers 下载。 5 Sen, A., 1976. Poverty: An ordinal approach to measurement. Econometrica 44, 219-232.