1、线上商品评论有效性分类专业领域知识模型的构建研究甄化春(武汉纺织大学管理学院)摘要:线上商品评论有效性分类领域知识模型的构建是商品评论有效性分类的一个重要基础性工作,其直接影响分类器的精度与召回率。以往的研究大多集中于情感词典的构建以及领域术语抽取工作,对于一种专门针对线上商品有效性分类的领域知识库的构建研究较少。本文提出了一种基于信息增益技术进行文本有效性分类领域知识模型构建的半监督方法,同时构建了商品领域停用词表。通过对亚马逊上爬取的iPhone5s, iPhone6, iPhone6 Plus 共 1678 条产品评论利用 Python 语言进行有效性分类领域知识抽取和分类预测,实验结果
2、发现该方法显著提高了评论有效性预测精度。关键词:信息增益; 商品评论; 有效性分类; 领域知识模型0 引言在线用户评论(Online Review)对于消费者和商家都具有重要意义,其在向潜在消费者传递产品信息的同时也向商家传递了消费者的需求特性以及产品的缺陷等关键信息。因此,分析消费者的购物评论,从中发现影响消费者满意度的内容要素,并针对性的改进产品和服务对于提升商家的竞争力和经济效益具有重大的商业价值 1。然而,并非所有的在线评论都有价值,网络的匿名性以及沟通的成本低廉等特性使得评论的质量参差不齐。大数据时代,如何从海量用户评论中挑选出对潜在顾客购买起决定起辅助作用的商品,是一个值得探索的问
3、题。对于线上评论有效性的问题,现有文献主要从评论有效性影响因素分析 2-5和文本有效性分类算法改进两个方面进行研究 6,7。郝媛媛等 2通过实证验证了产品特征、评论极性对于评论有效性具有显著正面的影响,殷国鹏 3通过对已有的研究进行归纳总结发现众多的研究均证明了这一结论。结合文本有效性影响因素,吴含前等人 6提出了一种单一主题下基于逻辑回归的垃圾评论监测模型,并取得了较好的有效性预测精度但是需要大量的人工进行评论有效性标注。Zhang 等人 7提出了一种拓展的 GARC 算法对评论有效性进行分类,避免采用专家进行有效性标注的低效率和应用普适性问题,但是分类预测精度有待进一步的提高。评论有效性分
4、类问题最终归属为评论有效性的二分类问题,利用评论有效性分类领域知识对评论进行有效性标注并训练分类器,然后将分类预测标签同测试评论集真实标签进行对比从而评估领域知识分类有效性。已有的研究主要利用监督学习方法进行主题提取,并基于语言学模型进行相关主体的识别,很少有学者通过构建专业领域知识库进行评论有效性标注 6,而构建的评论有效性分类专业领域知识库可以在保证评论有效性识别精度的同时实现无监督的评论有效性自动标注。因此,构建评论集合有效性分类领域知识库对于线上商品评论有效性分类具有重要的理论研究价值和实践意义。项目来源:国家自然科学基金资助项目(71571139) “大数据情景的 outlier 分
5、析与异类知识管理模式研究” ;武汉纺织大学研究生创新基金项目(201402020):“物联网下消费者购物行为规律的数据挖掘 ”。作者简介:甄化春(1989-) ,男,主要研究方向:数据挖掘、信息管理。1 相关研究工作领域知识库是根据研究的需要而构建的机器学习语料库,根据用途的不同,其可以分为领域特征词库、领域情感词库、领域停用词库以及领域分类词库等。对于前面三种领域知识的构建已有相当多的研究成果,而从评论有效性分类角度研究其评论有效性领域知识库构建相对较少。评论有效性分类领域知识库的构建不同于通常意义上的产品特征领域词典或评论情感词典的构建 2,其综合考虑了评论语句中产品特征领域词和评论用户情
6、感极性词语 4, 5。目前比较常用的分类词典构建方法有基于统计的特征词语提取方法和基于语言学的方法以及混合式方法 8。基于统计的特征词语提取方法通常包括基于词频统计的方法、基于逆文档频率的方法和互信息的方法等 9。Nitin Jinadl 等人 10基于词频统计的思想通过对三种类型的垃圾评论进行词频统计,构建了领域垃圾词典,并采用 Logistic 回归模型对英文垃圾评论进行识别,取得了较好的效果。Popescu A M 等人11通过抽取评论中频繁出现的名词和名词短语作为候选特征词,并通过 Web PMI 来评估候选词,利用贝叶斯分类提取产品特征,从一定程度上提高了特征词典准确度但是耗时较长。
7、基于语言学的方法在特征词典的构建方面应用的也较为广泛,该方法可以有效解决商品评论中不同词语相同语意的问题,通过计算语意相似度计算来达到降低训练模型维度,从而提高分类有效性的目的。基于语言学方法的缺点是模式覆盖面有限,存在领域与语言适应性问题,术语召回率受到限制 12。考虑到基于统计方法和基于语言学方法进行特征提取各自的优缺点,在实际应用中一般将两种方式结合。Dailleli 13利用语言学方法获取候选特征词集,然后通过互信息、LogLib 统计方法获得术语。章成志 8提出基于一体化策略的术语抽取方法,并通过实验证明了利用多层术语度进行特征词库抽取的有效性。综上所述,前人对于特征领域知识库的构建
8、已取得了较多的理论成果,但是从评论有效性分类视角研究分类领域词典的构建问题的相关较少,对于评论有效性分类缺少一种文本有效性标识的领域特征词库。另外,基于统计的特征提取方法其特征提取精度还有待进一步提高,基于语言学方法的特征提取方法存在样本普适性方面的缺陷。2 基于信息增益的评论有效性分类领域知识模型的构建方法本文的工作主要集中于三个方面:第一,通过产品说明、通用领域词以及情感极性词构建种子领域词库并结合部分评论集建立初级有效性分类领域词库;第二,利用信息增益进行特征提取,通过控制过滤阈值来调节特征集合,并通过与初级领域词库对比,增加领域词典的特征数量,从而达到丰富领域词库的目的;第三,实验测试
9、逐次构建的分类知识库对测试评论进行有效性标注并同基于有效性统计的评论数据进行对比,通过分析二者拟合度来测量模型效果。图 1 是本文提出的基于信息增益的线上评论有效性分类领域知识模型构建的基本框架。2.1 初级领域词库的建立初级领域词库是基于种子领域词典结合有效评论集合进行综合抽取的反映产品特征以及评论情感极性的一类词语,这类词语从一定程度上反映了评论语句的效用。建立领域词典的第一步是构建领域种子词库,其通常由领域专家给出,也有基于产品术语词典 14、情感领域词典以及评论要素分析来进行有效性分类种子词语的提取 15。本研究将以亚马逊网站中 iPhone5s, iPhone6, iPhone6 P
10、lus 商品的产品说明结合评论要素分析来进行产品有效性分类特征初步提取并结合台湾大学发布的极性情感词库进行 iPhone 评论中情感极性词语的提取。表 1 初级评论有效性分类领域词库图 2 iPhone系列手机的树状特征结构模型李杰等人 15利用评价要素分析构建了电子商务服装产品的 3 层树状结构模型,该模型从产品和服务两个维度对线上商品特征词语进行分类。本文同样从产品和服务两个层次对手机评价要素进行划分,将特征词典 情感词典屏幕外观大小参数充电器配置容量重量行货港货包装物流网络坑可靠信赖好用信任失望泪奔失望Perfect碉堡流氓快爽性能评估评论集合Web 数据网络爬虫修正领域知识库预处理 标
11、准评论集合产品说明 领域种子词库自动标记有效评论(1)无效评论(-1)信息增益(阈值)向量空间模型特征词集测试集训练分类器并分类SVM 核函数训练图 1 基于信息增益的线上评论有效性分类领域知识模型构建的基本框架基于统计的标签数据集iPhone 系列评论产品服务质量外观大小参数商品描述服务态度配送速度退货处理iPhone 系列产品说明作为产品评价要素归纳为质量、外观、大小、价格、参数四个维度,从商品描述、服务态度、配送速度、退换货处理来分析商家服务要素特征(图 2) 。结合上述要素特征和极性词库,我们从亚马逊 iPhone 系列手机(iPhone5s、iPhone6、iPhone6 Plus)
12、共 1678 条评论中抽取了 199 条已被标记为有效的评论作为特征提取样本,最终提取了 54 个特征词语和 15 个情感极性词语,建立了容量为 69 的初始有效性分类特征领域词库(表 1) 。该词库特征提取精度较高,但是不能完全替代总体有效评论集合特征。2.2 基于信息增益的特征提取信息增益是一种基于统计思想的特征提取方法,其通过一定的函数自动计算特征词语对于评论的有效性分类的意义,该种意义通过量化的形式表现出来,通过设定有效性归类阈值() 来对领域特征词语进行筛选,阈值高低将直接影响特征词语个数,最终决定待处理向量空间模型的维度以及特征词语与初级领域词典之间的匹配度。信息增益的基本原理是通
13、过计算整个文本在包含与不包含某一特征时信息量的差值,差值越大,代表这个特征对于文本集合越重要。在计算信息增益之前需要计算“熵”,然后计算“条件熵” 。对于 N 类问题,“熵”的计算公式如(1)所示,特征 t 的“条件熵”如公式(2)所示。其中 表示 出现的概率, 和 分别表示特征 在总文本中出现的概率与不出现的概率,)(iCPi )(tPt而 和 分别表示在特征 出现以及不出现的情况下文本的熵。其计算方法如式(3) 、 (4)|tH|t所示。其中 和 分别表示在特征 存在的条件下类别 出现的概率与特征 不存在的条件下)|(tCPi )|(ti tiCt类别 出现的概率。有上述公式得到特征 的信
14、息增益公式如式(5)所示i对每个特征都可以用这个方法计算出其信息增益量,对于信息增益量小于“阈值”的特征项去掉该特征,可以根据不同的情况设定不同的阈值。2.3 评论有效性分类领域模型的构建方法信息增益不需要建立领域词典,特征提取速度快,能够从大样本数据集合中自动提取本特征集合,但是该方法特征提取精度不高,受停用词典质量影响较大。本研究使用信息增益提取有效性分类领域词,然后同初级领域词典对比将具有评论有效性识别特征但未被初级领域词典覆盖的领域词汇添加到初始领域特征词库,同时将每次将信息增益选取的特征词中不能体现评论有效性分类特征但是信息增益大于的词语加入到停用词库,利用每次新建的领域词库重新对
15、iPhone 系列手机在线评论进行有效性分类自动标注并将测试集预测结果同基于统计的有效性标签进行对比,如此反复,比较每次新建分类器的分类精度,选择分ni ii CPCH12)(log)()( (1)| tHtttT (2)|(log)|()|(12tPttHinii(3)| iii(4)|()()(THCtIG(5)类效果最好的分类有效性领域词库。的取值由实验确定,具体有效性分类特征领域知识词语提取流程如图 3 所示。3 实验设计及结果分析3.1 实验设计特征领域词语的覆盖度以及对有效评论的特征表示都直接影响模型预测分类的精度,本实验通过评论有效性分类精度来衡量领域知识库的性能。评论有效性识别
16、是文本分类问题的一种,其通常包括文本数据的获取以及预处理、样本类别标注、文本特征模型的表示、分类器的训练及结果的预测四项工作。(1 ) 数据的获取及预处理本研究的实验数据是通过网络爬虫软件 GooSeeker16在亚马逊网站上获取 iPhone5s, iPhone6,iPhone6s 的用户产品评论集共 1685 条评论,剔除空白、重复评论后得到 1678 条用户评论。文本的预处理包括分词、去停用词的工作,经预处理将产品评论以词语集合的形式表现出来,同时去掉没有实际含义的功能性词汇(如“由此可见” , “总而言之”等)以及标点符号和使用频率非常频繁的单汉字。在文本预处理的过程中,我们采用 Py
17、thon 编程语言结合“哑巴分词 ”作为分词工具,使用“四川大学机器智能实验室通用词库”来进行停用词的去除工作。(2 ) 样本类别标注评论有效性研究是一个二分类问题,在分类器训练以及信息增益特征选择以及分类结果评估中都要用到文本分类标签。在信息增益计算熵时需要知道文本正向与负向评论个数,在分类器的训练以及有效性预测结果评判时均需要文本有效性标注。对于有效的评论标记为 1,无效标记为-1。文本语料有效性标注通常在人工反复阅读理解的基础上进行的,而不同消费者对于文本有效性的判定具有趋同性的同时也具有个体差异性,文本有效性受到参与人数的影响较大,而且需要耗费大量的时间。Amazon 网站消费评论中提
18、供了针对用户的调查问项-“这条评论对您有用吗?”以及调查统计数据,如“354 人中有 323 人认为以下评论非常有用” 。通过对亚马逊 iPhone 系列手机评论词条以及其有用性统计情况进行分析发现,该网站用户评论评价阅读人数较少,在阅读人数大于 9 人且有用性比例为 0.8 时可以取得的绝对有效评论文本仅有 36 条,从该类评论中提取的词条有效性区分度较高,但对于样本总体的代表性不强。我们通过对阅读人数、评价为有用的比例以及过滤的条数研究发现在单条评论阅读人数大于等于 4 人且认为有用人数比例大于等于 0.7 时,该条评论绝对有效(图 4) 。同时,在评论阅读人数大于等于 4 人且认为有效人
19、数比例小于等于 0.2 时,该条评论绝对无效 7。对此,结合在线调查数据与文献2-4提出的评论有效性影响因素,文章提出了一种文本自动标注方法,具体如下:对于某条评论若阅读过该评论的人数大于等于 4 人且认为该条评论有用的人数占到总人数的比例70% 时,认为该评论有效。对于某条评论若阅读过该评论的人数大于等于 4 人且认为该条评论有用的人数占到总人数的比例20% 70%时,若该条评论中含有领域词则认为该条评论有效,否则无效。对于某条评论若阅读过该评论的人数大于等于 4 人且认为该条评论有用的人数占到总人数的比例20% 时,认为该条评论无效。对于某条评论若阅读过该评论的人数小于 4 人,如果其含有
20、领域词则认为该评论有效,否则认为该条评论无效。(3 ) 文本特征模型的表示在现有的研究中,文本特征通常以向量空间模型(VSM)的形式表示出来。在线用户每一评论可以映射为一个特征向量 V(d)=(t1, w1(d); t2, w2(d); . ; tn, wn(d),其中 ti(i=1,2,n)表示在信息增益 阈值下该评论中剩余互不雷同的词条项,wi(d)为 ti 在 d 中的权值,一般定义为 ti 在 d 中出现评论 tfi(d)的函数,即wi(d)=W(tfi(d)。在信息检索中,常用的词条权重计算方法有布尔函数、平方根函数、对数函数、TF 算法以及逆文档频率算法(TF-IDF )等,这里我
21、们选用 TF-IDF 作为特征词语权重计算方式。TF-IDF 由 Salton于 1973 年首次提出,其主要思想为:一个词语在特定文档中出现的频率越高,说明它在区分该文档内容属性方面能力越强,即 TF;一个词语在文档集合中出现的范围越广,说明其区分文档内容的属性越低,即 IDF14。经典的 TF-IDF 具体表现形式如公式 6 所示:其中 tfij 指特征项 tj 在文档 di 中出现的次数;idf 指出现特征项 tj 的文档倒数。N 表示文档数目 nj 表示出现特征项 tj 的文档数目。(4 ) 分类器的训练及预测文本分类常用的分类器有支持向量机(SVM) 、贝叶斯分类(Nave Baye
22、s) 、最大熵以及 n 元语言模型等,刘志明等人 18通过实验对比证明采用 TF-IDF 权重计算方法结合信息增益进行特征提取并通过 SVM 进行分类可以得到较好的分类效果。本实验拟采用台湾大学林智仁教授等开发的 LibSVM 软件包 19在 Matlab R2009b 平台下进行模型的训练和分类预测。为防止模型欠拟合或过度拟合,试验中使用 50%训练样本和50%的测试样本。3.2 结果分析对于分类结果的评测,采用信息检索领域普遍使用的精度(Precision) 、召回率(Recall) 、准确率(Accuracy)和 F1 值 20,具体如下:)/log(Wjijjijij ntfdtf (
23、6)0.7 0.7 0.7 0.7 0.7 0.7 0.75 0.75 0.75 0.75 0.75 0.75 0.8 0.8 0.8 0.8 0.8 0.84 5 6 7 8 9 4 5 6 7 8 9 4 5 6 7 8 9199 151 137 130 115 105 156 108 94 87 86 76 59 58 44 37 36 36认 为 有 用 人 数 ( 大 于 等 于 ) 阅 读 人 数 ( 大 于 等 于 ) 有 效 条 数图 4 有 效 评 论 与 评 论 阅 读 人 数 以 及 有 用 性 比 例 变 化 情 况baPrecison (7) Rl (8) dcbaA
24、cury (9) cbaleisonF2RePr)1(2 (10) 其中 a、b、c、d 分别对应是有效评论且被识别为有效评论的个数,是无效评论但被识别为有效的评论数,是有效评论但被识别为无效评论的评论个数,是无效评论且被识别为无效的个数。通过上述实验过程,我们得到表 2 中的在初级领域词典和信息增益改进后的领域词典下评论有效性的预测结果。从表中的数据可以看出,在信息增益阈值为 0.0055 至 0.0035 之间时,分类器对于样本标签的分类预测准确率得到显著提升,其中对于有效性样本的识别精度 p 总体呈上升趋势,分类精度及 F1 值随着特征数量的增加而得到显著提升;在相同的阈值下, 基于信息
25、增益改进的领域词典标注的评论文本有效性预测准确率比初级领域词典标记的文本有效性分类有效性预测的精度要高,其说明在相同阈值下通过信息增益改进的领域词典可以显著改变文本有效性预测精度。表 3 反映的是在初级领域词库和信息增益改进领域词库标注下基于有效性分类词典自动标记预测标签分别同基于 Amazon 官网实际统计的潜在消费者对于 iPhone 手机评论有效性自动标注的拟合度。表中数据表明,在阈值 为 0.0055 至 0.0035 之间时,随着 的减小初级分类标注词典和改进的分类标注词典对评论有效性预测同基于统计有效性标注的匹配度逐渐增加,同时 F1 值显著提高;在相同的阈值下基于信息增益的领域词
26、典比初级领域词典有效性标记预测的匹配度相对较高。表 2,表 3 的数据共同说明通过信息增益改进的领域词典对于分类器预测准确率以及有效性预测值同实际结果的拟合度均有显著的促进作用。表 2 基于领域知识库的评论有效性分类预测结果阈值 精度(P) 召回率(R) F1 值 准确率(A) 领域词个数0.0055 0.913 0.642 0.714 0.766 690.0050 0.888 0.673 0.766 0.768 750.0045 0.904 0.704 0.791 0.786 830.0040 0.916 0.730 0.813 0.805 89初级领域词0.0035 0.916 0.744
27、 0.821 0.801 940.0055 0.921 0.656 0.766 0.774 750.0050 0.901 0.702 0.789 0.784 830.0045 0.912 0.714 0.801 0.795 890.0040 0.926 0.742 0.824 0.805 94基于信息增益领域词典0.0035 0.930 0.765 0.839 0.814 98表 3 预测指标同基于 Amzon官网统计标签匹配情况4 结论本文设计、发展和评价了一种基于信息增益的评论有效性分类领域知识库构建方法。具体地,通过从实验样本中从统计视角抽取少量用户评价为绝对有效的评论并结合 iPhon
28、e 系列手机树状结构模型以及情感领域词库构建了评论有效性分类初级领域词库;利用初级领域词库进行评论有效性标记并结合信息增益技术通过设置信息阈值来调节领域词典个数,并逐步丰富初级领域词库;最后,运用 Amazon 官网统计的iPhone 评论有效性来对信息增益建立的有效性分类领域词典进行验证。文章从分类准确率(A) 、拟合度、精度(P) 、召回率(R )和 F1 值几个指标同初始分类有效性词典进行对比,证明了基于信息增益构建的有效性分类词典比前者具有显著的优势。本研究的理论贡献在于提出了一种基于半监督的文本有效性分类领域词库的构建方法,该方法从一定程度上解决了基于监督的高分类精度、低效率和基于统
29、计的高效率低精度问题以及样本整体代表性不足的问题。从管理实践的角度看,利用该有效性分类词典的构建方法,电商企业可以对阅读人数较少的评论以及最新的评论快速进行有效性分类排序,从而为消费者提供更具参考价值的商品及用户体验信息。本研究也存在一些局限与不足,这也是后续将要继续研究的内容。第一,研究样本相对有限,后续研究可以使用大样本数据文章提出的有效性分类领域知识模型进行验证。第二,对于不同网络平台评论有效性分类领域知识构建方法是否有效需要进一步的验证。第三,后续研究可以结合评论长度、评论者特点来研究评论有效性,从而进一步提高评论有效性预测精度。阈值 精度(P) 召回率(R) F1 值 拟合度0.00
30、55 0.909 0.624 0.744 0.7490.0050 0883 0.652 0.749 0.7480.0045 0.898 0.683 0.776 0.7660.0040 0.909 0.708 0.796 0.785初级领域词0.0035 0.909 0.725 0.806 0.7820.0055 0.915 0.636 0.750 0.7550.0050 0.896 0.681 0.774 0.7640.0045 0.905 0.692 0.784 0.7830.0040 0.919 0.723 0.809 0.787基于信息增益领域词典0.0035 0.924 0.747 0
31、.826 0.797参考文献1 Hongwei Wang, Pei Yin, et al. Sentiment classification of online reviews: using sentence-based language modelJ. Journal of Experimental & Theoretical Artificial Intelligence, 2014, 26(1): 13-31.2 郝媛媛, 叶强, 李一军. 基于影评数据的在线评论有用性影响因素研究J. 管理科学学报, 2010, 13(8): 78-88.3 Mudambi S M, Schuff D.
32、 What makes a helpful review? A study of customer reviews on Amazon. comJ. MIS quarterly, 2010, 34(1): 185-200.4 殷国鹏. 消费者认为怎样的在线评论更有用?社会性因素的影响效应 J. 管理世界, 2012, (12):115-124.5 Ngo-Ye T L, Sinha A P. The influence of reviewer engagement characteristics on online review helpfulness: A text regression m
33、odelJ. Decision Support Systems, 2014, 61: 47-58.6 吴含前,朱云杰,谢珏. 基于逻辑回归的中文在线评论有效性监测模型J. 东南大学学报( 自然科学版), 2015, 45(3): 433-437.7 Zhang Zunqiang, Ma Yue, Chen Guoqing, et al. Extending associative classifier to detect helpful online reviews with uncertain classesC. IFSA-EUSFLAT, Spain, 2015: 1134-1139.8
34、章成志. 基于多层术语度的一体化术语抽取研究J. 情报学报,2011,28(3): 275-285.9 李丽双,党延忠等. 基于条件随机场的汽车领域术语抽取J. 大连理工大学学报.2013, 53(2): 267-272.10 N. Jindal, B. Liu. Opinion spam and analysisC. Proceedings of the first ACM international conference on Web search and data mining, 2008: 219-229.11 Popescu A M, Etzioni O. Extracting pr
35、oduct features and opinions from reviewC. Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg, USA :Association for Computational Linguistics,2005:339-34612 Kit C, Liu X Y. Measuring mono-word termhood by rank dif
36、ference via corpus comparison J . Terminology, 2008,14(2): 204-229.13 Daille B. Study and implementation of combined techniques for automatic extraction of terminologyM. Klavans J L, Resnik P. The Balancing Act: Combining Symbolic and Statistical Approaches to Language. Cambridge, MA: MIT Press, 199
37、6: 49-66.14 何燕,惠志方,段慧明,等. 基于专业术语词典的自动领域本体构造J. 情报学报, 2007, 26(1): 65-70.15 李杰 , 张向前, 陈维军, 等. C2C 电子商务服装产品客户评论要素及其对满意度的影响J. 管理学报, 2014, 11(2): 261-266.16 http:/ SALTON G, ClEMENT T Y. On the construction of effective vocabularies for information retrievalC. Proceedings of the 1973 Meeting on Programmi
38、ng Languages and Information Retrieval, New York: ACM, 1973:11.18 刘志明, 刘鲁. 基于机器学习的中文微博情感分类实证研究J. 计算机工程与应用, 2012, 48(1): 1-4.19 Chang, Chih-Chung and Lin, Chih-Jen. LIBSVM : a library for support vector machinesJ. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 1-27.20 史伟, 王洪伟, 何绍义. 基于微博的产品评论挖掘:情感分析的方法J. 情报学报, 2014, 33(12): 1311-1321.