侦查欺诈交易 郝召 马骁为什么研究欺诈交易 数据挖掘的结果有助于公司的事后检查活 动 数据挖掘过程能够提供某种欺诈概率排序 作为输出结果,可以使公司以最佳方式来 利用其事后检查资源 应用方面:信用卡交易、税务申报检验等 本章新的数据挖掘主题: 离群值活异常值检验、聚类分析、办监督预 测模型问题的描述与目标 欺诈行为通常与异常的观测值相关联,因 为这些欺诈行为是偏离常规的。在多个数 据分析领域,这些偏离常规的行为经常称 为离群值问题的描述与目标 本案例使用的数据时某公司的销售员所报告的 交易数据。这些销售员负责销售该公司的产品 并定期报告销售情况。 销售员可以按照自己的策略和市场情况来自由 设置销售价格。月末,向公司报告销售情况。 数据挖掘应用的目的是根据公司过去发现的交 易报告肿的错误和欺诈企图,帮助公司完成核 实这些销售报告的真实性的工作。提供一份欺 诈率排名报告,这个欺诈率排名将允许公司把 有限的检验资源分配给系统提示的更“可疑” 的那些报告可用的数据 数据来自一个未公开的渠道 共401146行,每一行包括来自销售员报告的信息。 包括: ID:说明销售员ID的一个因子变量 Prod