.一种对垃圾评论进行筛选的数学模型摘 要:目前商务网站或博客论坛允许用户发表针对产品或话题的一些评论看法,难免会存在一些虚假的或是与产品及话题无关的评论信息,这极大地误导了商家、读者以及观点挖掘系统,造成了资源的浪费。本文通过建立合理的数学模型,通过C+及matlab编程求解,实现对产品垃圾评论的有效识别。 针对问题一,对给定的四类不同情形,首先建立文本处理模型,通过C+进行文本统计,根据统计结果,生成产品标准关键词向量和评论向量;再次,通过垃圾评论判断进行初级判断;再通过matlab相似度计算模型,得到评论与产品关键词的相似度;最后通过与设定阈值比较判定评论是否为垃圾评论,判断正确率为100%。针对问题二,相对问题一,评论数量增加,因此充分考虑主题词、广告词、情感词、违禁词、相似度、评论重复数及特殊符号等评论特征对评论结果的影响,首先采用AdaBoost算法训练出合理的强分类器,对垃圾评论和正常评论实现有效分类;其次,通过建立准确率和召回率综合指标评价模型最筛选结果做出评价。针对问题三,对一般产品的产品评价集合,在问题(2)模型的基础上建立更一般的改进模型,通