1、1百度百科词条生产效率的评价摘要: 大众生产是一种新的知识生产方式, 百度百科是一种典型的大众生产产品。从系统的观点来看, 生产该产品的百度百科社区就是一个人类活动系统。本文利用 DEA 方法, 以“管理理论”分类为例, 对百度百科的词条生产效率进行分析, 通过分析得出了有关百度百科词条效率的有关结论以及改进的建议。 关键词: 大众生产; 百度百科; 效率; DEA; 人类活动系统 中图分类号: F061.2 文献标识码: A 文章编号: 1009-055X(2013)02-0024-05 20 世纪 80 年代以来, 以开放源代码软件、 百度百科、 维基百科等优秀知识产品的生产为代表, 出现
2、了大众生产这种崭新的生产方式。大众生产不断地冲击着现有的生产方式, 并使社会和经济发生了许多深刻的变化。 目前, 对于大众生产的研究已经成为了学术界的一个前沿。国内外对大众生产的研究主要集中在相关概念的制定及内涵1, 大众生产的组织结构2、 主体特征3、 产权制度4、 参与动机5几个定性的方面。定量研究旨在探索大众生产的规律, 比如奉献者的贡献呈现幂律分布6, 封闭环境与开放环境下大众生产系统的智能体数量变化及系统的稳定情况等7。而有关评价大众生产系统效率的研究相对较少, 利用 DEA 对百度百科的词条效率进行直接研究的论文几乎没有。 2本文探讨了评价百度百科词条效率的输入和输出指标, 收集了
3、百度百科“管理理论”分类中的 164 个词条的相关数据, 并利用 DEA 方法分析了相关词条的效率, 这也是对一个人类活动系统的绩效的评价8。 一、 DEA 效率评价方法的应用 由于 DEA 方法不需要预先估算参数, 使得该方法的实践范围极其广泛, 尤其是在数理统计方法无法适用的情况下更能显现出其显著优势。DEA 方法主要在三大领域得到广泛的应用: 生产函数与技术进步研究、 系统预测与预警研究和经济系统的效率评价研究9。 经济系统的效率研究评价。在银行效率研究方面, Aly, Grabowski, Pasurka, Ranga 首次应用 DEA 方法对美国 322 家银行进行了技术效率、 规模
4、效率和配置效率的分析10。Wang, Huang, Lai 等人以 2004 年中国的 4 家国有商业银行和 12 家私有商业银行为研究对象,选定资本金、 资产为输入指标, 净收益、 ROA、 ROE 为输出指标进行分析11。在企业效率和成本收益方面, Chandra 利用 DEA 的 CCR 模型对加拿大 29 家纺织公司进行了效率分析12; Friedman 和 Stein 应用相关性分析、 DEA 值的方差分析和交叉效率分析 3 种不同的分析方法, 对以色列 72 家工业企业的效率进行了排序, 并验证了 DEA 方法的适用性13。在工业企业的经济效益和管理效率评价方面, 1990 年魏权
5、龄等应用 DEA 方法对中国纺织工业系统内的 177 个大、 中型棉纺织企业进行了经济效益评价 14。谭志国应用 DEA 评价模型, 对我国主要制造企业的总体效率、 纯技术效率和规模效率进行了测算, 分析规模收益状况, 并对非 DEA 有效的评价单元进行投影分析及投入产出值的调整, 3进而分析了企业经营效率与资源配置效率之间的关系15。另外, DEA方法在学校、 图书馆、 医院等公共事业单位、 各种软科学、 基础设施投资、 投资绩效评价以及运营绩效分析及评价等方面都有广泛的应用。二、 DEA 效率评价模型8, 14 以下是魏权龄等介绍的 DEA 效率评价模型。 (一)规模收益不变的 CCR 模
6、型 CCR 模型是 DEA 方法最基本的模型。假设有 n 个决策单元, 每个决策单元都有 m 种类型的“输入” , 以及 s 种类型的“输出” , 分别表示该决策单元“消耗的资源”和“活动的成效” 。各决策单元的输入数据和输出数据分别由 xij 和 yij 表示。xij 为第 j 个决策单元对第 i 种类型输入的投入量; yrj 为第 j 个决策单元对第 r 种类型输出的产出量; vi为对第 i 种类型输入的度量权数; ur 为第 r 种类型输出的度量权数; 而且 xij0, yrj0; vi0, ur0; i=1, 2, , m; r=1, 2, , s; j=1, 2, , n(xij,
7、yrj 均为已知的数据, 可以根据历史资料或预测得到, vi 及 ur 为“权”变量) 。 记 Xj=(x1j, x2j, , xmj)T, Yj=(y1j, y2j, xsj)T, j=1, 2, , n, 则可用(Xj, Yj)表示第 j 个决策单元DMUj, 对应的权系数 V=(v1, v2, vm)T, U=(u1, u2, us)T, 每个决策单元都有相应的效率评价指数: hj=SX(uTYjvTXjSX), j=1, 2, , n 通过适当的选取权系数 v 和 u, 使其满足 0hj1, j=1, 2, 4, n。现在对第 j0 个决策单元进行效率评价, 记为 DMUj0。在各决策
8、单元的效率评价指标均不超过 1 的条件下, 选择权系数 u 及 v, 使 h0最大, 于是构成如下分式规划的最优化模型: (二)规模收益可变的 BCC 模型 由于 CCR 模型的前提假设是规模收益不变的, 即假设被评价单元可以通过增加投入同等比例的扩大产出(锥性条件) 。但这一假设与实际相差较大, 被评价单元不可能在所有时候都满足锥性条件。当评价单元DMU 处于规模收益递减或规模收益递增时, 效率无效除了投入产出不适以外, 还有可能是由规模因素造成的。因此, 对 CCR 模型中增加一个凸性假设: DD(nj=1DD)此时, 生产可能集 T 变为: 通过增加该凸性假设, 使得对评价单元的评价由同
9、时评价规模有效性和技术有效性转化为单纯评价技术有效性, 在生产可能集 TBCC 的 BCC模型为: 三、 百度百科词条效率的评价 (一) 百度百科概况 2006 年 4 月 20 日, 百度正式发布百度百科, 这是一个全民参与“生产”的在线百科全书。2008 年 4 月 21 日, 百度推出其正式版。百度百科的全部内容对所有互联网访问用户开放浏览。词条的创建和编辑只能由注册并登录百度网站的百度用户(生产者)参与, 生产者不可匿名编写词条。原则上, 除因严重违反百科协议而被封禁的用户外, 其他百度 用户享有平等编写词条的权利。按照百度百科的官方解释: 精神上, 百度百科主张的是 “平等、 协作、
10、 分享” ; 技术上, 百度百科与百度贴吧、 百度知道构成三位一体的知识分享系统, 并且相互结5合以补充百度搜索引擎。 截至 2012 年 2 月 15 日为止, 百度百科上共收录 4454209 个词条, 共 12 大类, 96 个小类。拥有 145 名核心生产者(编写至少 10 个高质量和 5 个优质版本)组成的百科蝌蚪团。百度百科拥有一批爱知识, 有能力, 并有志于将全球最大的中文百科全书建设得更加宏伟的优质成员。109 名分类管理员负责百度百科词条的日常管理与发展建设。 (二) 输入输出指标的选择 按路径“百度百科-经济-管理-管理理论” , 本文以“管理理论”分类中的 164 个词条
11、为决策单元(删去明显不是管理理论范畴的三个词条) ,来分析百度百科词条的生产效率。 “管理理论”分类可以看成一个人类活动系统。 参照国内外文献, 遵照指标选择的目的性、 全面性、 可行性、 精简性、 代表性原则, 以及百度百科的特点, 本文选取了词条编辑次数(次) 、 词条字数(个)作为输入指标, 词条浏览数(次) 、 “本词条对我有帮助”数(个)作为输出指标。其中, 词条的编辑次数能够反映出生产的活跃度, 是词条投入的重要衡量数据; 词条字数代表了生产者投入的精力。词条的浏览数是词条的吸引力的体现, 而“本词条对我有帮助”数则是词条有用性的体现。上述输入和输出指标, 在百度百科官方网站上都有
12、显示, 我们收集了截至 2012 年 2 月 15 日的数据作为分析数据。 (三)计算结果与结果分析 利用 DEAP2.1 软件, 分别应用 DEA 投入导向的 CCR 模型和 BCC 模型6计算出技术效率、 纯技术效率和规模效率。 164 个词条的技术效率平均值为 0.227(标准差 0.186) , 纯技术效率平均值为 0.466(标准差 0.269) , 规模效率平均值为 0.536(标准差0.265) 。表 1 是技术效率大于 50%的十个词条以及与“复杂科学”相关的四个词条的计算结果。 1. 技术效率分析 技术效率(TE)可以判断被评价单元是否存在资源浪费。若评价单元的 TE1, 则
13、说明被评价单元存在投入资源浪费, 且浪费的比例为 1-TE。 由于所有词条的技术效率平均值为 0.227, 意味着百度百科“管理理论”分类中, 所有的投入中存在 77.3%的资源浪费情况, 即 77.3%的投入不能有效地形成知识产品的产出。另外, 本文选取的 164 个词条中,达到技术有效的仅 3 个, 比例为 1.83%, 分别是词条“5W2H 分析法” 、“头脑风暴法”和“米尔格伦实验” , 其余均为技术无效。所以, 百度百科中“管理理论“分类中词条的技术效率并不高, 而且各个词条的技术效率参差不齐, 标准差为 0.186。 出现这种状况的原因在于百度百科采取大众生产的模式, 大量生产者自
14、由自主、 独立地进行词条的编辑, 而生产者的水平是参差不齐的,所以难免出现高投入、 低产出、 高消耗、 低效率以及词条编辑效率不同的问题。 2. 纯技术效率分析 纯技术效率(PTE)剥离了规模因素的影响, 反映了评价单元在不7考虑规模效益的情况下, 有多少比例的资源浪费是因为未达生产函数的前沿面造成的。 从纯技术效率水平来看, “管理理论”分类各个词条的异质性在0.148-1.000 之间浮动, 标准差为 0.269, 大于技术效率的异质性。另外所有词条的纯技术效率平均值为 0.466, 说明“管理理论”分类词条因为纯技术无效而浪费的投入资源占到 53.4%。164 个词条的纯技术效率有效(P
15、TE=1)的比例为 14.02%, 边缘无效率(0.9PTE1)的比例为1.83%, 明显无效率(PTE0.9)的比例为 84.15%。以上数据表明百度百科“管理理论”分类的各个词条的纯技术效率比总体技术效率高, 但仍然较低且异质性大。 3. 规模效率分析 规模效率用来衡量决策单元的投入规模是否合理, 是否处于最优生产规模上。164 个词条的规模效率平均值为 0.536, 与纯技术与技术效率相比, 水平较高, 但是规模有效的词条的比例仅为 1.83%, 又低于纯技术效率的比例(14.02%) 。 4. 投入冗余分析 通过投入冗余分析, 能够进一步找到 DEA 无效单元的改进方向, 进而给出各个
16、无效评价单元达到有效的调整值。表 2 是 DMU64“复杂科学管理”词条的纯技术效率的投入冗余分析。 四、 结论及建议 本文应用 DEA 方法对百度百科“管理理论”分类的词条效率进行了评价。通过选择评价指标、 效率分析、 投入冗余分析, 得出了百度百8科“管理理论”分类中的词条的技术效率、 纯技术效率以及规模效率都比较低, 投入资源过多等结论, 并认为这些特点是百度百科的大众生产特性所决定的。 为了提高百度百科词条的效率, 在产出不变的条件下, 要减少对词条的投入。即减少词条的编辑次数, 减少词条的字数, 以减少输入资源的浪费。也就是要在保证词条质量的前提下, 保证能够用最少的时间、 最精简的
17、语言描述出词条最全面的意义。而要做到这一点, 就要适当提高词条编辑的门槛, 如实行只有在达到某一等级要求后才能编辑等措施, 以减少无效的编辑次数。另外, 也可采取竞争机制进行管理员的选拔, 以选择出最负责、 最熟悉的生产者作为各类词条的管理员等。 另一方面, 提高百度百科词条的效率, 不能只“节流” , 还要“开源” 。提高词条的浏览次数, 归根结底, 是要增大百度百科对用户的吸引力; 提高“本词条对我有帮助” 数, 就是要激励用户对词条的质量进行评价。对于百度百科的吸引力, 可以通过加强宣传, 提升百度百科的知名度; 完善百度百科的功能, 提高易用性; 提升百度百科词条的数量和质量等方法,
18、吸引更多的用户参与到百度百科的浏览、编辑、 完善中。对于用户对词条的质量评价, 可以通过增加积分, 提升等级等措施来激励用户。 我们认为从“管理理论”词条的效率分析, 可以推出百度百科存在着普遍的投入资源浪费问题, 这虽是大众生产的特点, 但是也有改进的余地。不过基于一个分类词条评价结论的推测, 还需要进一步的实际验证。 9参考文献: 1Yochai Benkler. Coases penguin, or Linux and the nature of the firmJ. Yale law journal, 2002, 112(3): 369-446. 2Ori Brafman, Rod A
19、. Beckstrom. The starfish and the spider: The unstoppable power of leaderless organizationsM. New York: Portfolio, 2006. 3Chades Leadbeater, Paul Miller. The Pro-Am revolution: How enthusiasts are changing our society and economyM. London: Demos, 2004. 4Michel Bauwens. The political economy of peer
20、productionJ. Post-autistic economics review, 2006, 37: 33-44. 5常静, 杨建梅. 百度百科用户参与行为与参与动机关系的实证研究J. 科学学研究, 2009(8): 1213-1219. 6D. M. Wilkinson. Strong regularities in online peer productionC. In Proc. 9th ACM Conf. on Electronic Commerce (EC) , 2008. 7姚灿中, 杨建梅. 基于多智能体的大众生产系统稳定性研究J. 计算机工程, 2011, 37(3):
21、 13-15. 8杨建梅. 人类活动系统的复杂性与管理J. 华南理工大学学报社科版, 2011, 13(4): 109袁群. 数据包络分析法应用研究综述J. 经济研究导刊, 2009, 57(19): 201-203. 10Aly, Grabowski, Pasurka, Rangan, Technical scale and allocative efficiencies in US banking: An empirical investigationJ. Review of Economics and Statistics, 1953, (2): 211-218. 11Wang, Hua
22、ng, Lai, Measuring the relative efficiency of commercial banks: A comparative study on different ownership modes in China, Journal of American Academy of BusinessJ. 2005, 7(2): 219-223. 12Chandra, Cooper, Shangling, Rahman, Using DEA to evaluate 29 Canadian textile companies considering returns to s
23、cale, International Journal of Production EconomicsJ. 2000, 54: 129-141. 13Friedman, Stern, Combining ranking scales and selecting variables in the DEA context: The case of industrial branches, Computers Operations ResearchJ. 2001, 25(9): 781-791. 14魏权龄. 数据包络分析M. 北京: 科学出版社, 2006. 15谭国志. 基于 DEA 的汽车工业企业投资有效的分析J. 工业工程与管理, 2004, 9(6): 107-112. (责任编辑: 余树华)