1、1 关于 ATM 机异常检测的数学模型 摘要 随着现代自动化程度提高, ATM 机逐渐步入人们的生活,因此 ATM 机的正常运行就显得非常重要。由于 ATM 机是 24 小时无人监管,为了能够帮助银行更好地发现 ATM 机的异常状态,我们通过建立数学模型,设计 了 ATM 机交易异常检测方案 。 对于问题一 ,由于 题 目 中提到工作日和非工作日的交易量存在差别,因此,我们将附件中的 数据 按春节前、春节后、小长假、周六日和正常工作日分 别进行分析 。 特征参数是用于表征物质或现象特性的参数信息,是一组数 据的数理特征,有别于题中所给的交易量,成功率和响应时间三 个指标。 因此,我们选择每个时
2、刻 ATM 机交易 量、成功率和响应时间的平均值和标准差作为特征参数进行提取和分析。 然后对五种日期的特征参数进行 T 型假设检验, 得出了 以下结论 :对于交易量 , 春节前、春节、清明三天小长假与工作日存在显著性差异,而周六日与工作日不存在显著性差异 ;对于成功率,则不存在显著性差异;对于响应时间,春节前与工作日存在显著性差异,其余 时间段 则不存在。 对于问题二,我们基于问题一得出的结论, 将 方案 分为工作日和 法定节假日 ,根据其各自的特点,提出不同的异常情况检测方案。 对于工作日,我们提出了基于欧式距离和基 于偏差的异常检测方案。首先,我们先利用 SPSS 对数据进行标准化,消除数
3、量级与单位对数据的影响。 然后求解出各个时刻的交易量、成功率、响应时间三个指标与该时刻 正常水平的距离, 当其落在异常区间时就可认为是异常数据。 对于 法定节假日 ,由于数据较少且较 工作日差别较大,因此对于交易量,我们采用 基于 邻域 的异常数据检测方法。 因为交易量随时间是连续变化,因此当交易量出现骤降时,可认为该时刻出现异常。 而对于临界异常度的确定,我们通过单样本的 K-S 检验确定样本数据的正态性, 检验结果 可知 其服从正态分布,因此,其临界值可根据 3 原则确定。 对于成功率与 响应时间,采用基于偏差的异常检测方案,当其偏差落在异常域时,则该时刻出现异常。 同时 我们 通过建立时
4、间序列预测模型, 用已知数据检验,来求得虚警误报率分别为 0.011 和 0.009。以此 来检验模型的准确性 。 对于问题 三 ,我们提出了网络负载率、 响应率 、每种故障的修复时间、每笔交易金额 等指标 进行数据拓展, 对可疑数据进行 异常 性分析,可以筛选出更准确的异常数据点,以减少误报 情况,从而达到提升问题一、问题二中的目标。 关键词 : 假设检验 距离 检测 时间 序列 邻域 检测 K-S 检验 2 一 .问题重述 某商业银行的 ATM 应用系统包括前端和后端两个部分。前端是部署在银行营业部和各自助服务点的 ATM 机(系统),后端是总行数据中心的处理系统。前端 的主要功能是和客户
5、直接交互,采集客户请求信息,然后通过网络传输到后端,再进行数据和账务处理。持卡人从前端设备提交查询或转账或取现等业务请求,到后台处理完毕,并将处理结果返回到前端,通知持卡人业务处理最终状态,我们称这样完整的一个流程为一笔交易。 商业银行总行数据中心监控系统为了实时掌握全行的业务状态,每分 钟对各 分行的交易信息进行汇总统计。汇总信息包括业务量、交易成功率、交易响应时 间三个指标,各指标解释如下: 1、业务量:每分钟总共发生的交易总笔数; 2、交易成功率:每分钟交易成功笔数和业务量的比率; 3、交易响应时间:一分钟内每笔交易在后端处理的平均耗时 (单位:毫秒 )。 交易数据分布存在以下特征:工作
6、日和非工作日的交易量存在差别;一天内, 交易量也存在业务低谷时间段和正常业务时间段。当无交易发生时,交易成功率 和交易响应时间指标为空。商业银行总行数据中心监控系统通过对每家分行的汇总统计信息做数据分析,来捕 捉整个前端和后端整体应用系统运行情况以及时发现异常或故障。常见的故障场景包括但不限于如下情形: 1、分行侧网络传输节点故障,前端交易无法上送请求,导致业务量陡降; 2、分行侧参数数据变更或者配置错误,数据中心后端处理失败率增加,影响交易成功率指标; 3、数据中心后端处理系统异常(如操作系统 CPU 负荷过大)引起交易处理 缓慢,影响交易响应时间指标; 4、数据中心后端处理系统应用进程异常
7、,导致交易失败或响应缓慢。 附件是某商业银行 ATM 应用系统某分行的交易统计数据。 我们根据附件完成以下三个任务 : ( 1)选择 、提取和分析 ATM 交易状态的特征参数; ( 2)设计一套交易状态异常检测方案,在对该交易系统的应用可用性异常情况下能做到及时报警,同时尽量减少虚警误报; ( 3)设想可增加采集的数据。基于扩展数据,提升任务( 1)( 2)中达到的目标。 二 .问题分析 2.1问题一的分析 针对问题一, 题目要求 选择、提取和分析 ATM 交易状态的特征参数 。首先,我们对 ATM 交易流程进行研究,流程图如下: 3 网络传输 图一 .ATM 机交易流 程图 对于附件给出的交
8、易数据, 我们可以先对其做出散点图,可以发现 :每一天的交易量随时间变化而变化,与时间呈现出很强的相关性, 一天内,交易量也存在业务低谷时间段和正常业务时间段。 且每天的交易量大致成“ M 型” 。 特征参数是用于表征物质或现象特性的参数信息,是一组数据的数理特征,有别于题中所给的 交易量,成功率和响应时间三个指标, 因此,我们选择每个时刻 ATM机交易量、成功率和响应时间的平均值和标准差作为 特征参数进行提取和分析 ,平均值反映每个时刻 三个 指标 的 平均 水平,标准差反映某个时间段三个指标的波动水平 。又因为题目中 提到 工作日和非工作日的交易量存在差别 。因此 我们对 题目数据中出现国
9、家法定节假日、周六日与工作日分别进行假设检验, 利用两个正态总体参数的 T 假设检验对其总体期望值进行比较 , 分析工作日与非工作日中交易量、成功率、响应时间的差别。 2.2问题二的分析 针对问题二,题目要求设计一套交易状态异常检测方案,在对该交易系统的应用可用性异常情况下能做到及时报警,同时尽量减少虚警误报。首先,我们先对 ATM 机异常的情况进行研究,存在于以下几种情况: 1、 分行侧网络传输节点故障,前端交易无法上送请求,导致业务量陡降; 2、分行侧参数数据 变更或者配置错误,数据中心后端处理失败率增加,影响交易成功率指标; 3、数据中心后端处理系统异常引起交易处理缓慢,影响交易响应时间
10、指标; 4、数据中心后端处理系统应用进程异常,导致交易失败或响应缓慢等。经 过分析得:这些故障最终都是通过业务量、成功率、响应时间反应出来的。由此,我们 以问题一中提取的特征参数为依据,对这些异常进行刻画。 由问题一中的分析可得,工作日与非工作日的交易量存在显著性差异, 表现在国家法定节假日的交易量等与工作日存在显著性差别。因此,分别提出对工作日和法定节假日的异常数据检测方案。 对于工作日 ,我们运用基于距离和偏差的异常数据点检测方案。 首先,由于数据单位及数量级的影响,我们先对 数据 进行标准化。然后运用基于距离的异常数据检测方案,求取每个 时间点的 欧氏 距离。 通过单样本的 K-S 检验
11、得知欧氏距离具有正态性,因此我们可以 根据 3 原则, 即 当欧氏距离大于 3 时 ,为可疑的异常点;然后对这些时刻数据运用基于偏差的异常数据检测, 设立 交易量、成功率、响应时间的 异常区间,当这些异常点的某个指标落入异常区间时,则该时刻 交 易状态 出现了异常。 由于 法定节假日每一时刻的交易量数据较少,且与工作日存在显著的差异性。 因此,我们选择用基于 邻域的异常数据检测方案。对于法定节假日 , 其每天的交易 量 变化 看做是一条 随 时间 连续 变化 的曲线,且后一个时刻与前一个时刻之间的变化量是服从正态分布的,因此,出现突变的 可能性极小。 而对于成功率与响应时间,根据第一问可得,法
12、定节假日与工作日 不存在显著性差别。因此还是利用基于距离和偏差的异常数据检测方案。 1 持卡人 ATM 机系统 ( 前端 ) 数据 处理中心 ( 后端 ) 4 同时我们通过建立预测模型,预测每一时刻的数值并与上述异常检测方案中确定的正常区间比较,来求得虚警误报率 ,以此验证该模型的准确性,达到题目中要求的减少虚警误报的情况。 2.3问题三的分析 针对问题三 ,题目要求 我们 拓展数 据 并对第二问提出的异常数据检测方案进行改进。 ATM 机的交易系统包含有前端和后端的网络传输。假定 分行侧网络传输节点故障 ,使得 前端交易无法上送请求 ,导致整体应用系统发生故障。 为了更好的检测该故障,我们引
13、入网络负载率进行分析 拓展。 当 ATM 机的数据中心后端处理系统异常 出现故障时,会 引起交易处理缓慢, 从而导致系统崩盘。为此,我们设立了响应率来进行拓展分析。 在我们检测故障的时候,会发现在该 故障所处的一段时间内都为故障点,即该时间段 为系统的故障修复时间。所以我们需要考虑每种故障的修复时间来更加精准的检测系统故障。 增加把每笔交易金额的数量,可以很好的提高异常检测的正确率,提高交易的正常水平 ,所以通过交易金额检测系统故障 。 所以 我们 设立 了 网络负载率、响应率 、 每种故障的修复时间 及交易金额 这 四个拓展数据和交易量、成功率、响应时间同时进行考虑和分析, 来对异常数据挖掘
14、方案进行改进 。 三 .模型假设 1、响应时间仅与 ATM 交易 数据速度有关,而与持卡人的操作水平无关。 2、 假设仅考虑该银行 ATM 机前后端系统应用程序故障。 3、假设交易量差异仅与工作日(非工作日),节假日(非节假日) 有关,不存在洗钱等行为。 4、假设该银行数据中心统计数据准确,无误。 四 .符号说明 符号 说明 aix 平均值 ai 偏差 ais 标准差 jix 第 i 时刻的交易量 cix 第 i 时刻的成功率 5 xi 第 i 时刻的响应时间 K 异常度 1jix 1i 时刻交易量的变化量 五 .模型建立与求解 5.1特征参数的选择,提取和分析 5.1.1特征参数的选择 问题
15、一要求我们 选择、提取 和分析 ATM 交易状态的特征参数 。 特征参数是用于表征物质或现象特性的参数信息,是一组数据的数理特征,有别于题中所给的交易量,成功率和响应时间三个指标,因此,我们选择每个时刻 ATM 机交易量、成功率和响应时间的平均值和标准差作为特征参数进行提取和分析。 1、 特征参数 aix 为 aix 的平均值, 11 naaiiixxn ( 1) 其中 a 为 j c t、 、 ; n 表示三个指标样本数目 ; j c ti i ix x x、 、 分别表示 i 时刻交易量、成功率、响应时间; j c ti i ix x x、 、 分别表示 i 时刻的交易量、响应时间、成功率
16、的平均值。 2、 特征参数 ais 为 aix 的标准差 , 21 1n aaia iixxs n ( 2) j c ti i is s s、 、 分别表示 i 时刻的交易量、响应时间、成功率的标准差。 5.1.2 特征参数的 提取 与分析 一天当中有 1440 个时间点, 需要 对每个时间点进行特征参数的提取与分析。现 我们 提取 了每个时间点的 交易量、成功率、响应时间的特征 参数。根据题中工6 作日与非工作日的存在差别的要求,将附件中数据分为春节前、春节、清明小长假、周六日及 工作日五类进行分别提取。由于每个时间点提取分析方法一样,我们 取任意时刻( 如: 10:50) 求取特征参数 如
17、下: 表一: 时刻 10:50 特征参数表 交易量 成功率 响应时间 春节前 均值 2350.4 0.96 66.12 标准差 283.6 0.01 2.11 春节 均值 814 0.95 82.85 标准差 178.5 0.01 2.93 三天假期 均值 957.67 0.96 77.1 标准差 28.52 0.01 0.977 周六日 均值 1082 0.96 80 标准差 116.8 0.006 7.85 工作日 均值 1062.79 0.96 82.03 标准差 120.9 0.01 8.93 通过对 该 时刻特征参数 计算结果 的分析 可 知 : ( 1) 除春节外,其余各种节假日的
18、交易量均比工作日 低,而春节前的交易量则比工作日大很多。因为各种假期,随着人们放假、外出,导致业务量减少。而对于春节前,由于置办年货等,开销增大, ATM 机的业务量也随之上升。 ( 2) 对于成功率,各种节假日及工 作日的成功率都相差不大,且成功率较高,都在 0.96 附近,标准差接近 0,也较稳定。 ( 3) 对于响应时间,各种节假日及工作日的响应时间都相差不大,正常范围在 70 90 毫秒之间。 除该时刻外,我们对其余时刻特征参数进行计算分析后,得出了与上述相同的结论 5.1.3假设检验 两总体的方差未知,因此应利用 利用两个正态总体参数的 T 假设检验对两个样本总体期望比较 。 当样本
19、数量较多(一般数据量大于 40)时, T 统计量趋向于 U 统计量,故现进行 U 假设检验。 7 欲检验假设 0 1 2=H : , 1 1 2:H 将上表数据带入 221212U= XYSSnn( 3) 可得,春节前、春节、清明小长假、周六日 每个时刻 与 对应 工作日的 每个时刻 统计量 U 的观测值 。 取任意时刻( 如: 10:50) U 值观测值 : 7 表二: 10:50 统计量 U 值观测值 与工作日的 U 值 交易量 春节前 10.0702 春节 -3.3325 三天假期 -4.5564 周六日 0.272 成功率 春节前 0 春节 -0.2328 三天假期 0 周六日 0 响
20、应时间 春节前 -10.458 春节 0.4853 三天假期 -3.7351 周六日 -0.9724 在本题中 ,我们选取 =0.05 ,查正态分布分位数表可得:0.9751 2 1.96uu 当1 2uu,即观测值落在拒绝域内时,故拒绝原假设 0H ,认为两组数据存在显著性差异;当1 2uu,即观测值落在拒绝域外时,故接受原假设 0H ,认为两组数据不存在显著性差异。因此,由 该 时刻的 U 值 综合分析 可得 : ( 1) 对于交易量 春 节前 、春节、清明三天小长假与工作日存在显著性差异,而周六日与工作日不存在显著性差异。故可推知,在国家法定节假日与春节前,交易量较工作日存在差别,其他则
21、为工作日的正常交易量水平; ( 2) 对于成功率而言,春节前、春节、清明三天小长假 与工作日不存在显著性差异; ( 3) 春节前的响应时间与正常工作日存在显著性差异,而其他则与工作日不存在显著性差异。 除该时刻外,我们对其余时刻 U 值进行计算分析后,得出了 与上述 相同的结论 5.2ATM 交易异常数据检测方案 问题二要求我们设计一套交易状态异常检测方案,在对该交易系统的应用可用性异常情况下能做到及时报警,同时尽量减少虚警误报。 针对题目中提到 ATM可能存在的四种故障,我们 分析得:这些故 障最终都是通过业务量、成功率、响应时间反应出来的。由此,我们 以问题一中提取的特征参数为依据,对这些
22、异常进行刻画。 由问题一中的分析可得,工作日与非工作日的交易量存在显著性差异,表现在国家法定节假日的交易量等与工作日存在显著性差别。因此,分别提出对工作8 日和法定节假日 的异常数据检测方案。对于工作日异常数据检测,由于工作日数据较多,因此 我们运用基于距离和偏差的异常数据点检测方案。对于法定节假日的异常数据检 测,由于其某时刻的交易量数据较少,且与工作日存在显著的差异性。 因此, 我们选择用基于距离与偏差的异常数据检测方案。 5.2.1 异常数据检测模型的建立 由第一问对两个样本 的总体均值的 假设检验可知:工作日 ( 正常工作日与周六周日 ) 与法定节假日(春节、小长假、春节前夕等)存在显
23、著性 差别,因此,分别确定工作日与法定节假日的异常检测方案。 ( 1) 工作日异常点数据检测方案模型建立 对 于工作日,由于其数据量比较大,数据的普遍性较强,偶然性 较弱 。因此,我们建立了基于距离和基于偏差方法的异常检测模型。 3 首先 我们建立 基于 距离的 异常数据点检测 模型。设 jix 表示 i 时刻的交易量,cix 表示 i 时刻的成功率, tix 表示 i 时刻的响应时间。由于 ,j c xi i ix x x 之间单位及数量级之间存在较大差异,所以需要对其进行标准化: = jjj ii jixxx s ( 4) = ccc ii cixxx s ( 5) = ttt ii xi
24、xxx s ( 6) 而此时 = = =0j c tx x x ,标准差 0 1s 定义 临界 异常度常数 0 1 2 3K K K K、 、 、 ,其均表示一组数据的临界异常程度。 对于可疑度 iK ,可以用标准差来描述,即: 0 1 2 3= = = = jK K K K s , 0,1,2,3j , 为常数 其中: 21 -1n aaiijxxs n ( 7) 当 2 2 2 0j c xi i ix x x K ( 8) 9 时,可认为有可能出现异常。 其次,我们建立基于偏差的模型。 定义 j c ti i i 、 、 为交易量、成功率、响应时间与各自正常水平的偏差, 即 j j ji
25、ic c ciit t tiixxxxxx( 9) 当 123j j jiic c ciit t tiix x Kx x Kx x K ( 10) 时,可认为可能出现异常。 ( 2)法定节假日异常数据点的检测方案模型 建立 对于法定节假日 , 由上述假设检验可知交易量较工作 日有显著性差别,而成功率与响应时间较工 作日不存在显著性差别,因此可将交易量与 成功率、响应时间引起的异常分开进行检测。 对于交易量 , 由于 数值连续性强 , 因此 我们建立 基于邻域数据变化的异常点检测模型方案。而对于成功率与响应时间 ,我们依旧运用基于距离与偏差的异常检测点方案。 4 对于非工作日的由于交易量引起的异
26、常,运用基于邻域数据变化的异常点检测模型方案,其侧重于寻找局部异常点。其理论是,每天的交易量随时间变化是连续的,交易量随时间的变化应该是一条光滑连续的曲线,出现突变点 的概率几乎为 0; 因此 出现突变点,其极可能出 现异常,特别是对于出现骤降的数据。因此,我们计算后一个时刻与前一个时刻的变化量: 5 11j j ji i ix x x ( 11) 当 1jix 大于某一值时,即 1i 时刻比 i 时刻下降太多时, 1i 时刻就是异常可疑点,定义 K 为异常度,它表示某时刻的临界异常 度。 因此,当 1 Kjix ( 12) 时,可认为该点位异常点。 而对于非工作日由于成功率与响应时间引起的异
27、常,运用基于距离与偏差的异常检测点方案。 由于 ctiixx、 单位及数量级 存在较大差异,所以需要对其进行标准化: = ccc ii cixxx s( 13) = ttt ii xixxx s ( 14) 10 即当 22 0cxiix x K ( 15) 时,该点为可疑点。 对于查找出的可疑异常点,我们运用基于偏差的方法进一步检测,即当 23KKc c ciit t tiixxxx ( 16) 时,该点就可以被认 为可能是异常点。 6 ( 3)临界异常度的确定 对于在上述模型中定义的临界异常度常数 0 1 2 3K K K K K、 、 、 、,其表示每组数据的临界异常程度,为确定 异常度
28、 iK 值大小 , 我们需要将对应 每组 数据进行正态性检验 。 7 单样本的 K-S 检验可以用来检验某一样本数据分布是否与正态分布相吻合,方法简单,快速。 在这里,我们 通过 单样本的 K-S 检验 进行数据的正态性检验 。K-S 检验 过程如下 : 8 建立原 假设: 0H : 非工作日交易量变化量呈正态分布 。 1H : 非工作日交易量变化量不呈正态分布 。 我们假定非工作日交易量变化量 1jix 经验分布为正态分布 Fx, 并设Sx为该组数据的经验分布函数 , 定义为阶梯函数 : ()ii I X xXxSx nn 的 个 数 ( 17) Sx的值小于等于 x。 将 1jix 中的数据从小到大排列 , 计算经验累积分布和理论累积分布 , 记作 0m a x ( ) ( )iiD S x F x ( 18) 构造 K-S 检验统计量 Z D n , 最终求得 P 值 ,求解 过程 如下 : 将 2 2 21j j c x j c ti i i i i i ix x x x 、 、 、 、五组数据通过 Excel 计算出来 , 然后导入到 SPSS 当中 ,分开进行单样本的 K-S 检验, 求 得对应的 P 值。 2 表三 :非工作日交易量 SPSS 处理数据表
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。