1、 1 / 16数据挖掘技术在案件串并和嫌疑人排查中的应用一、序言传统的信息管理系统(MIS), 主要针对的是日常的结构化问题,以提高组织的运营效率为目标,通过将大量的数据转换为有价值的信息来强化管理。随着社会的进步和技术的发展,人们不再仅仅满足于获取多种信息和简单的使用信息,而是想在深层次上利用这些信息为组织的决策提供帮助。因此,为了弥补 MIS 的不足,为了更好进行市场预测、资源配置、人力优化和生产管理,在管理科学、运筹学、数理统计、人工智能等新方法和新技术的推动下,人们开始重视决策支持系统(DSS)的研究和应用。“9.11”事件发生以后,西方主要发达国家都高度重视数据挖掘在刑事犯罪情报分析
2、领域的应用研究。刑事犯罪数据的分析与挖掘主要是通过对犯罪记录进行分析,从而发现犯罪行为的规律、趋势,了解不同犯罪行为之间的关联,以及何种状态会诱发何种犯罪行为,进行串并案分析,提供破案线索和情报,预测并预防犯罪。在中国,随着经济增长、社会变革深入、人员流动性增强,影响社会稳定的不安定因素增加。特别是 2008 年以后,中国大陆人均 GDP 突破 3000 美元,侵财类案件进入2 / 16高发周期,流窜作案、团伙作案等新型犯罪手段层出不穷。部分公安机关开始运用商业智能(BI)的思维,利用商业智能(BI)分析工具,结合长期积累的侦查办案经验,探索建设警务决策支持系统,研究开展基于犯罪数据的分析挖掘
3、。二、案件串并和嫌疑人排查的主要方法1、关联规则分析关联规则算法指数据中两个或多个变量取值之间暗含的某种规律性。支持度是对关联规则重要性的衡量,置信度是对关联规则准确性的衡量。以挖掘关联规则为目标的挖掘过程一般包含两个阶段,第一阶段,从资料库中找出所有的高频项目组,它们出现的频率相对于所有组而言,达到或超过所设定的最小支持度。第二阶段,从高频项目组中产生关联规则,保证应用该规则得到的结果可以达到最小的置信度。关联规则在公安情报分析中的典型应用是对犯罪行为规律的挖掘。运用关联规则可以发现犯罪分子的身份、年龄、地域等特征与其在实施犯罪行为中所使用的手段、特点、选择的地点以及侵害对象等方面的关联规律
4、性,把具有相似特征的犯罪人员从海量数据中分拣出来,形成“高危人群”数据库,利用高危人群数据库指导帮助案件侦破。3 / 162、聚类分析聚类分析方法主要是研究对象中各点之间存在的程度不同的相似性,根据对象属性找出各点间相似程度的序列,把一些相似程度较大的点聚合为一类。在公安情报分析中,聚类分析方法应用最广泛。可以对犯罪手段、特点、作案时间等关键要素进行挖掘,帮助分析人员确定具有较高相似度的案件,刻画嫌疑人特征,并把看似不相关的案件进行合并侦查。可以挖掘发现案件的高发时段、高发地区以及高发的作案手段,指导巡逻防控和情报预警。3、协同过滤协同过滤分析方法是在用户群中找到指定用户兴趣相似的用户,综合这
5、些相似用户对某一信息的评价,形成该指定用户对此信息的喜好程度的预测。一般分为基于项目的协同过滤和基于用户的协同过滤。在公安实战中,我们可以将案件(一串案件)发生轨迹视为“项目” ,将嫌疑人活动轨迹视为“对项目的偏好” ,通过计算轨迹吻合度,推荐可能的犯罪嫌疑人。4、分类与回归分类与回归分析主要用于找出描述并区分数据类的模型(或函数) ,以便能够使用模型预测未知的对象类。分类分析的目的是学会一个分类模型,该模型能把数据库中的4 / 16项映射到给一组类别中的某一个类。在公安情报分析中,可以使用分类与回归的分析方法,将特定的人员(例如:前科人员)映射到“高危人群”中,当“高危人群”出现时,出符合“
6、犯罪内容”特征的犯罪预警。三、案件串并和嫌疑人排查业务需求1、业务背景随着“金盾工程”建设的深入开展,各级公安机关已经逐步建立了各类公共基础信息资源库、人员社会行为动态信息资料库和业务信息系统,积累了大量的数据资源,这些数据资源和信息系统在辅助各级公安机关业务人员进行案件调查工作和服务群众等方面带来了很大的帮助,在一定程度上提高了案件处理的效率和水平。但是,大部分公安机关对案件进行串并、摸排嫌疑人仍停留在利用经验积累进行人工分析的初级阶段。面对信息资源不断增长的现状,公安机关迫切需要运用数据挖掘的思想和方法,对各类数据背后所蕴涵的内在的、必然的因果关系进行挖掘,提高案件串并和嫌疑人排查工作效率
7、。2、业务应用场景由于犯罪行为动力定型的稳定性和犯罪心理的思维定式,系列犯罪案件的作案人在其不断的犯罪活动中的行为和特征具有稳定性和规律性。本文所描述的分析方法适用于具有连续作案行为特征的犯罪情报分析,例如:团伙流5 / 16窜案件、涉黑涉恶案件等可防性案件,不适用于偶发的、突发的“激情”犯罪。3、建设目标使用成熟的图形化展示工具,集成串并案分析、排查嫌疑人功能,建立一个面向情报分析人员的智能分析系统。系统具备自学习功能,提供便捷、有效的串并案模型和排查模型,促进信息深度利用,提高公安机关信息化应用水平、串并案和排查嫌疑人工作效率。4、业务流程(1)建立案件特征库。分析已破案件特征,包括:案件
8、类别、作案特点、作案时机、侵害对象、作案工具等项目,分别生成串并案模型。(2)建立违法犯罪人员特征库。对已破案件以及相关的违法犯罪人员进行分析,挖掘案件特征与犯罪人员特征的潜在关联关系,构建“高危人群”数据库。(3)运用串并案模型,针对未破案件,开展案件串并,并推荐出可能作案的高危人群。(4)构建违法犯罪人员活动轨迹数据库,包括:违法犯罪人员乘坐出租车轨迹,违法犯罪人员机动车经过卡口(电子警察)轨迹,违法犯罪人员手机经过电子围栏(基站)轨迹,违法犯罪人员上网、住宿、社保卡消费、公交(公共自行车)轨迹,重点人员本地金融活动轨迹,违法6 / 16犯罪人员室外活动轨迹(基于天网工程人像比对发现) 。
9、备注:违法犯罪人员机动车包含其本人所有车辆、同住人和同户人所有车辆。(5)将已串并案件的案发轨迹与符合高危特征的犯罪人员活动轨迹叠加分析,计算时间和空间上的吻合度,并推荐出未破案件的可能嫌疑人。四、详细设计方案根据需求分析,实现业务应用功能总体设计思路为:对数据进行汇集、整合、建模,运用数据挖掘算法发现和揭示数据中隐含的关联关系,并使用图形方式展示。项目总体逻辑架构图如下:图 1:总体逻辑架构图1、数据获取:对数据挖掘的数据源进行搜集整理。根据业务需求,搜集案件、嫌疑人、嫌疑人活动轨迹信息,获取数据源连接和访问权限,对数据结构进行分析,7 / 16完成找到数据的工作。根据需求和数据源状况,确定
10、数据更新方法、更新策略,选择 ETL 工具,本项目选择 IBM Datastage。 8 / 16数据源名称 来源 ETL策略 备注刑事案件信息 本地业务系统 立案时间、每日、增量 用于挖掘案件特征刑事案件现场勘验信息 本地业务系统 勘验时间、每日、增量 用于挖掘案件特征违法犯罪人员(本地) 本地业务系统 录入时间、每日、增量 按身份证去重,用于挖掘高危人群特征违法犯罪人员(全国) 公安部下发 每月、批量 按身份证去重,用于挖掘高危人群特征户籍人口 本地业务系统 录入(修改)时间、每日、增量 用于确定违法犯罪人员同户人实有人口 本地业务系统 录入(修改)时间、每日、增量 用于确定违法犯罪人员同
11、住人出租车轨迹以及乘客照片 社会资源 乘车时间、每日、增量 照片比对确定身份,发现轨迹卡口过车信息 本地业务系统 过车时间、每日、增量 发现轨迹电子警察抓拍信息 本地业务系统 抓怕时间、每日、增量 发现轨迹电子围栏和话单 本地业务系统 经过(通话)时间、每日、增量 发现轨迹网吧上网记录 本地业务系统 下网时间、每日、增量 发现轨迹旅馆住宿记录 本地业务系统 入住时间、每日、增量 发现轨迹社保卡消费记录 社会资源 刷卡时间、每日、增量 发现轨迹公交(公共自行车)刷卡记录 社会资源 刷卡时间、每日、增量 发现轨迹重点人员本地金融活动记录 公安部下发 刷卡时间、每日、增量 发现轨迹违法犯罪人员室外活动轨迹 本地业务系统 经过时间、每日、增量 图像挖掘、图片比对确定身份,发现轨迹9 / 16表 1:数据源表10 / 162、预处理:为数据挖掘提供符合要求数据,包括数据清洗、转换(标准化) 、装载、建模。采用数据抽取工具(ETL) ,对收集的数据进行抽取、清洗、转换及装载,实现数据的整合、去重,向多维数据仓库提供高质量的数据。图 2:ETL 过程在此基础上对数据进行关联、建模,为情报分析研判提供可用的数据。根据业务特性,确定案件、犯罪人员以及犯罪人员活动轨迹三个主题,区分维度数据表和事实数据表,建立数据仓库模型。下图为案件事实表以及相关维度表数据结构示例。