1、Review Spam Detection via Temporal Pattern Discovery,Sihong Xie, Guan Wang, Shuyang Lin, Philip S. YuDepartment of Computer ScienceUniversity of Illinois at Chicago,什么是垃圾评论,发表于评论网站以达到为不好的产品或店面制造积极印象的目的,并最终从受到垃圾评论误导的消费者身上赚取利润。危害性:导致消费者经历较差的购物体验,并会给正规店铺带来危害应该有一种方法识别垃圾评论,但目前依靠机器识别垃圾评论有困难。,垃圾邮件语言特点,充满溢美
2、之词只字不提产品Red flag words多次提及具体的商家名称,机器处理困难:包含有自然语言处理过程,机器易识别的垃圾评论线索,在短时间内对同一件产品有相似的评论 (内容、评分),机器易识别的垃圾评论线索,一组发表垃圾评论的人:对于同样的一组产品或者店铺同时地频繁地发表相同的评论,Reviewer 1,Reviewer 2,Reviewer 3,如果相同的ID对同一件商品发表的评论过多,那么很容易被发现在发表垃圾评论在现实的世界中,许多评论者只发表一次评论。例如,Amazon中68%的评论即是如此,此篇论文所用的数据集90%的评论符合这种情况。作者将这种情况下的评论称为singleton
3、review(简称为SR),不太可能!,这些SR都是诚实可信的评论吗?,Singleton reviews,0,+,每个评论者ID对每个商店只发表一次评论,一个人可注册多个ID进行评论,Reviewer id,Store,SR,非SR,+,垃圾评论者,注册,0,普通评论者,评论者ID,商店,提出方法,SR评论产生的动机: 在短时间内提高店铺的评分并避免被发现相关现象: 在短时间内,大量评论者仅撰写一条评论,并给店铺很高的评分(例如满分),店铺评分和SR评论数是识别SR评论的关键特征,5,The algorithm,1,3,2,4,5,5,4,1,3,2,average rating: 2rev
4、iew volume: 3SR volume: 1/3,average rating: 4.6review volume: 5SR volume: 5/5,average rating: 2review volume: 3SR volume: 3/3,sorted by posting time;divided into groups,Multi-dimensional time series,the correlated burst,基于多个时间序列检测异常的方法,1.构建时间序列 该检测方法基于三种时间序列:评论数目、平均评分和SR所占比率 每个店铺s都有一个按评论发表时间升序排列的评论序
5、列,其中rns为店铺s的第n个评论,tns为第n个评论发表的时间,基于多个时间序列检测异常的方法,选定时间窗口大小,记为t研究的时间间隔记为t0,t0+T,那么要研究的时间间隔可分为N=T/t个用In表示第n个时间窗口,则,基于多个时间序列检测异常的方法,对于一个给定的时间窗口In,定义f1为平均评分,f2为评论个数,f3为SR所占比率,那么三者分别为:,基于多个时间序列检测异常的方法,对于给定的店铺s,时间间隔I=t0,t0+T,时间窗口t,可以得到一个聚合函数用以表示一个三维的时间序列,表示如下:,其中,fi(n)即为fi(In),通过前面得到的一个店铺s的三维时间序列,寻找在三个序列中同
6、时出现的异常块,也就是说这个异常块所对应的的三个时间序列应同时出现评分,评论数和SR比率的突然升高或下降。本文中仅讨论升高的情况,下降的情况相似,不再讨论。,多维时间序列中联合异常模式检测,本文使用三步法检测异常情况。在每个时间序列上,使用贝叶斯变化点检测算法作出平滑曲线在曲线上使用简单模版匹配算法检测突发现象一个滑动窗口在所有时间序列上找到同时发生突发现象的时间块,即该时间块所对应的的三个时间序列应同时出现评分,评论数和SR比率的突然升高或下降,多维时间序列中联合异常模式检测,多维时间序列中联合异常模式检测,作出曲线后,首先检测每个曲线中各自发生的曲线突然升高的现象。可以将该问题转换为模版匹配问题。具体方法如下: 我们使用一个模版来表示突然升高的现象,本文中使用,模拟突然升高的情况。如果在曲线中的某一块被发现符合v,那么就认为在该曲线中发现了异常的突然升高的现象。,单个时间序列中突发检测算法,LCS算法,多维时间序列中联合异常模式检测,具有分层机构的垃圾SR检测,实验用数据集,实验结果1,实验结果2,实验结果3,the end,The modified longest common substring(LCS),BACK,