基于SASForcastStudio的多产品销量数据分类方法的探析.docx

上传人:h**** 文档编号:1363686 上传时间:2019-02-12 格式:DOCX 页数:3 大小:18.24KB
下载 相关 举报
基于SASForcastStudio的多产品销量数据分类方法的探析.docx_第1页
第1页 / 共3页
基于SASForcastStudio的多产品销量数据分类方法的探析.docx_第2页
第2页 / 共3页
基于SASForcastStudio的多产品销量数据分类方法的探析.docx_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、基于 SAS Forcast Studio 的多产品销量数据分类方法的探析 摘 要:时间序列预测方法仍是数据挖掘的主要方法之一,在应用方面,软件 SAS Forcast Studio(简称 FS)能够同时对多个产品、快速进行预测,建立快速、批量、自动的时间序列预测模型群;极大地提高了数据挖掘的处理效率和预测准确率。然而单纯的原始时间序列直接投入 FS 里的效果不及对数据先处理后理想,需要对时间序列先进行数据处理,其中分类处理是其中一个必要的环节。因此,本文基于 SAS 的时间序列模块软件 FS 来探析多产品销量数据分类方法,从而提高 FS 预测模型的准确率。 下载 关键词:多产品; SAS F

2、orcast Studio;时间序列;数据分类方法 随着社会的发展和计算机技术的进步,数据挖掘技术的应用越来越广泛,已在经济、气象、地质、历史文化、军事、新闻、医药、农业等领域产生了显著的经济效益和社会效益。主要是从海量数据中挖掘潜在的知识、信息,包括聚类分析、分类预测(如决策树、神经网络、 LOGISTIC 等)、生存分析、时间序列预测、回归分析等。时间序列预测方法仍然是数据挖掘的主要方法之一,其主要思想是:找出历史数据揭示现象随时间变化的规律,将这种规律延伸到未来,从而对该现象的未来作出预 测。为了提高预测计划质量,应对公司业务的规模发展,除了借助依据业务流程形成的各类预测方法,还需要主观

3、干预较少的科学预测方法 -让数据说话的科学统计预测方法,借助 SAS数据分析软件,实现科学的预测,为公司业务整体预测计划和资源效率的提升提供坚实的基础。因此,本文基于 SAS的时间序列模块软件 FS来探析多产品销量数据分类方法,以此提高 FS预测模型的准确率。 一、 FS 在时间序列分析方法中的应用概述 SAS FS 能够同时对多个产品、快速进行预测,建立快速、批量、自动的销量预测模型群;挖掘人员可结合 各种业务场景设计多种策略实现精细化建模;开发各种接口支撑模型的可调节、可拓展性;并采用后评估方式为建模人员模型优化提供支撑,通过 BI平台实现资源共享。 FS 能够利用事件、日历、广告促销和因

4、果变量等各类销量影响因素并融合这些因素进行建模预测,而且能自动识别数据模式,生成预测结果,实现预测模型自动化。通过 FS输出的预测结果,公司和企业相关人员可根据销售目标和其他约束条件进行调整,从而制订合理的采购策略。 二、时间序列数据分类方法 由于多产品间存在相关关系,有转化性、竞争性。部分产品因某些特殊因 素导致销量波动较大,但结合相关产品整体数据来看比较稳定。因此对于多产品销量数据先进行分类是必要的。最常见大体有以下几种分类方式,以某奶粉公司产品为例:( 1)从转化性来看,按产品系列打包调节预测,如金装 1-4打包,超金 1-4 打包等;( 2)按产品品牌内替代性打包调节预测,如金装 1、

5、超金 1、超呵 1、呵护 1 打包等;( 3)按产品品牌间替代性打包调节预测,如素加与好婴儿奶粉打包等。 1.按波动性分类 由于各产品销量方差(或极差)可用来衡量其波动范围的大小,因此,可通过构建该统计量来对产品销量波动性进 行描述,然后再利用 k 倍 的原理对数据分类, k 值可以根据用户需求自己定义。其思路可以归纳如下: ( 1)针对单个产品,利用最近一年的产品实际销量值求解其方差 2 ; ( 2)针对所有产品,利用所得的方差 i2 求解 -k0 , +k0 ; ( 3)根据( 2)求得的区间将原始数据分为三类,将大于区间上限值的归为一类,将小于区间下限值的归为一类,将大于区间下限值小于区

6、间上限值的归为一类。 2.按销量大小分类 四分位数方法:四分位数是统计学中把所有数值由小到大排列并分成四等份 ,处于三个分割点位置的数值。该样本中所有数值由小到大排列后第25%的数字为 Q1,该样本中所有数值由小到大排列后第 50%的数字为 Q2,该样本中所有数值由小到大排列后第 75%的数字为 Q3。利用四位数方法将原始数据分成四类,分别为: 75%。 对于产品销量数据,各产品销量中位数可用来衡量其销量大概所处的位置,因此,通过构建该统计量来对产品销量大小进行分类。 3.按历史数据长度 根据提供的销量数据的长度,以历史数据为 2013.03 2015.06为例,按历史数据长度分别为小于 1

7、年, 1年 2 年, 2 年以上,将产品分为 3 类。 4.综合分类方法 在 FS建模时,有多种调节层级的方法,不同的层级调节可以生成不同的预测模型,为了得到最优预测模型,因此需要综合考虑波动分类、销量大小、序列长度等组合的影响因素。 三、实验过程 根据中国某信息与通信解决方案以及智能终端生产企业的各产品每天的销量数据来进行时间序列预测分析,共 1220 个产品 item,产品种类多,数据量大。将数据集分成拟合数据集、测试集两部分,选择其中一部分数据作为预测模型的输入,另一部分数据作为验证,以评估 预测模型的优劣。例如:有 24个月的历史销售数据,我们可以选择前 18个月的数据作为输入,另外

8、6个月的数据作为验证,从而评出最优模型。 对原始数据集分别采用不打包分类处理、 3 倍 原理分类、四分位数原理分类等方法进行处理。对 FS生成的结果模型利用模型评分函数 E的大小来衡量优劣。 Error=, MAPE=|真实值均值 -预测值均值 |/真实值均值 其中, MAPE1 和 MAPE2 分别表示拟合数据集与测试集的均值绝对误差百分比; N1 和 N2分别表示拟合数据集与测试集分别小于 0.2(该阈值可自定义) 和 0.4(该阈值可自定义)的点的个数。 利用 SAS的 FS处理后,根据模型结果对比表明,对数据进行分类打包后会生成更优模型,预测会更有规律和更接近真实值。文中仅列出其中一种

9、产品的结果来说明,从图一中可以看出预测值在未打包处理前不同模型生成的预测数据偏差及波动极大,而处理后预测数据较稳定,并且数据准确率更高。 四、结束语 在用 FS处理类似于销量数据的时间序列数据集时,对数据进行分类打包后会生成更优模型,实验表明分类处理比不分类处理,预测更准确,但不同的分类方法对模型的影响程度不一样 ,用户可以根据实际需要选择一种合适的分类方法。若一些序列周期长或者数据序列较短,我们还可以分别利用滚动预测和曲线拟合的方法来调和。 参考文献: 李雄飞等 .数据挖掘与知识发现 M.高等教育出版社, 2010. 王丽娜,肖冬荣 .基于 ARMA 模型的经济非平稳时间序列的预测分析 M.武汉理工大学学报(交通科学与工程版) .贾俊平 .统计学(第六版) M.中国人民大学出版社, 2015( 01) . SAS( r) Forecast Studio14.1.Users Gu 刘晓冬,景睿 等 .残差自回归模型及 SAS 程序实现 M.中国卫生统计, 2008 年 10 月第 25 卷第 5期 . 作者简介:高春姣( 1988- ),女,汉族,湖北荆州,在读硕士,广州大学经济与统计学院,研究方向:经济预测与决策

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。