1、 全全 国国 首首 届届 部部 分分 高高 校校 研研 究究 生生 数数 模模 竞竞 赛赛 题 目 C 题 售后服务数据的运用 摘 要: 邓文平 李根 唐小妹 国防科技大学 本文针对表格数据的不合理性,在同批次各月销售量相等的假设条件下,给出了修正数据的方案和算法。 部件的分批次不同使用月数的千车故障率是一个非平稳的时间序列,它由三部分组成,一部分是周期性趋势,一部分是除周期性以外其它趋势的总和,另一部分是平稳随机序列。 先通过对表内数据的 纵向最小二乘拟和与横向卡尔曼 (Kalman)滤波方法的联合预测对表格中的空表项进行预测,然后由完整的数据表得出 11-X 的同一预测模型。 对模型进行检
2、验,抽取原始数据报中已经存在的多个千车故障数,发现预测值与原值能够很好地吻合。经计算得到 , 0205 批次使用月数 18 时的千车故障数为 49.00; 0306 批次使用月数 9 时的千车故障数 7.28; 0310 批次使用月数12 时的千车故障数 3.23。 最后,根据单个部件的故障预测,进一步讨论了整机系统的可靠性预测估计。针对汽车及零部件的生产、销售以及售后服务,给出 了一些 提高 和保证汽车整车的质量的方法建议 。 参赛密码 (由组委会填写) 参赛队号 057 基于 x-11 方法的汽车故障数统计预测模型 1 问题重述 产品质量是企业的生命线,售后服务是产品质量的观测点,如何用好
3、售后服务的数据是现代企业管理的重要问题之一。 现以某轿车生产厂家为例考虑这个问题。假设该厂的保修期是三年 ,即在某轿车售出后三年中对于非人为原因损坏的轿车免费维修。在全国各地的维修站通过网络将保修记录送到统一的数据库里面,原始数据主要是这是哪个批次生产的轿车(即生产月份)、售出时间、维修时间、维修部位、损 坏原因及程度、维修费用等等。通过这样的数据可以全面了解所有部件的质量情况,若从不同的需求角度出发科学整理数据库中的数据,可得到不同用途的信息,从而实现不同的管理目的。 整车或某个部件的“千车故障数”是一个很重要的指标,常用于描述轿车的质量。首先将轿车按生产批次划分成若干个不同的集合(下面表格
4、的同一行数据就来自同一集合),再对每个集合中迄今已售出的全部轿车进行统计,由于每个集合中的轿车是陆续售出的,因此它们的统计时间的起点即售出时间是不同的。但在下面表格中,每一列数据的统计时间的长度却是相同的在相同使用时间长 度(例如下表中第 5 列都是使用 10 个月的)内的整车或某个部件的保修总次数乘以 1000 再除以迄今已售出的轿车数量,即为下面表格中的千车故障数。 数据利用的时效性是很强的,厂方希望知道近期生产中的质量情况,但刚出厂的轿车还没有全卖出去,已售出的轿车使用几个月后的保修情况可能还没有数据反馈,因此数据显得滞后很多。当一个批次生产的轿车的三年保修期都到时,我们对这批轿车的质量
5、情况有了最准确的信息,可惜时间是轿车出厂的四、五年后,这些信息已无法指导过去的生产,对现在的生产也没有什么作用。所以如何更科学地利用少量数据预测未 来情况是售后服务数据利用的重要问题。 现有 2004 年 4 月 1 日从数据库中整理出来的某个部件的千车故障数,附表一。其中的使用月数一栏是指售出轿车使用了的月份数,使用月数 0 的列中是已售出的全部轿车在用户没使用前统计的千车故障数, 1 的列中是某一批次已售出的每一辆轿车,在它被使用到第一个月结束时统计的,对于该批次售出的全部轿车累计的千车故障数(即没使用时和第一个月中千车故障数的和), 12 的列中是每辆车使用到恰好一年结束时的累计千车故障
6、数。生产月份是生产批次,如 0201表示 2002 年 1 月份生产的。随着时间的推移,轿车不 断地销售出去,已售出轿车使用一段时间后的千车故障数也能不断自动更新,再打印出的表中数据也将都有变化。 1. 该表是工厂的真实数据,没有修改,反映的情况很多,请你分析表中是否存在不合理数据,并对制表方法提出建议; 2. 利用这个表的数据预测时请注意区分水平和垂直方向。请你设计相应的模型与方法,并预测: 0205 批次使用月数 18 时的千车故障数, 0306 批次使用月数 9 时的千车故障数, 0310 批次使用月数 12 时的千车故障数; 3. 如果有所有部件的千车故障数的数据表,你可以为质量管理方
7、面提供那些决策与咨询? 2 4. 你 还有什么想法和建议。(比如配件的生产组织、运送等等) 2 假设 1. 单一性:每个出现过一次故障的部件不再出现第二次故障,即,不考虑返修的情况; 2. 无约束性:同一批次的汽车部件在考察其内数量足够,即,保证在考察期以内,任意批次的部件的数量足够满足市场需求; 3. 平均性:对于同一批次,它的各月销售量相等; 4. 汽车及部件的损坏是非人为因素造成的; 5. 每一批次的产品都是月末出厂的。 3 问题分析 产品质量是企业的生命线,售后服务是产品质量的观测点,如何用好售后服务的数据是现代企业管理的重要问题之一。 整车或某个部件的“千 车故障数”是一个很重要的指
8、标,常用于描述轿车的质量。厂方希望知道近期生产中的质量情况,但刚出厂的轿车还没有全卖出去,已售出的轿车使用几个月后的保修情况可能还没有数据反馈,因此数据显得滞后很多。所以如何更科学地利用少量数据预测未来情况是售后服务数据利用的重要问题。 由于原来的数据信息太少甚至不合理,需要在原来的数据上作一定的修正,对于已知的一些故障反馈信息,需要根据这些少量的一致数据来设计一种预测未来的产品质量的方法,这对售后服务具有指导性的意义,并且为质量管理方面提供决策与咨询,可以归结为一个统计预 测问题。 4 数据的分析与合理性检验 整车或某个部件的“千车故障数”是一个很重要的指标,常用于描述轿车的质量。在相同使用
9、时间长度内,对于整车或某个部件的千车故障数,原题中给出的定义如下: 迄今已售出的轿车总数保修总次数千车故障数 1 0 0 0 (4-1) 把它称作 原始千车故障数 。 4.1 数据信息分析 对于附表一,由于该表是工厂的真实数据,根据表中的数据,可以分析得到3 几个方面的信息: 1 从横向来看,对于表中的每一行,从左至右,可以看出该部件的千 车故障数是随使用月数递增的; 2 从纵向来看,对于不同批次,该部件的千车故障数随着生产月份的增加是先增后减的; 3 对于该部件的所有批次,考虑使用月数为 0 的情况,发现该部件在使用之前的千车故障数就已经不完全为 0 了,即,在使用之前就有故障; 4 从各批
10、次的千车故障数来看, 0209、 0210、 0302 这六个批次的千车故障数明显高于其它批次,而 0201、 0202、 0203 以及从 0306 至 0312批次的千车故障数明显偏低,说明各批次的质量差异显著; 5 从 0308 批次往后,该部件的千车故障率明显降低,质量似乎得到显著改善; 6 仅仅从表中的数据来看,而不做进一步的分析,发现同一批次的千车故障数随着使用月数的增加而保持不变,如 0201 批次,使用月数从 10 到12,千车故障率都是 4.88。 4.2 不合理性分析 很显然,故障率的市场反馈都是在 2004 年 4 月以前得到的。考虑第 0302批次,它售出的总量是 25
11、22,是从 2003 年 2 月至 2004 年 3 月一共 14 个月的月销售量总和,取使用月数为 12 的数据项,它的千车故障数是 93.143 ,根据公式(4-1),它的分母是迄今已售出的轿车总数,这里是 2522。而实际 上,到 2004 年3 月,可能仍然会有第 0302 批次的部件售出,而它的使用月数为 12 的故障信息反馈要等到 2005 年 3 月才能得到,无法全部得到它的使用月数为 12 的故障信息反馈,但这一部分部件仍然算进了迄今已售出的轿车总数。同理,对于 2003 年4 月份以后出售的该批次的部件,对于它的使用月数为 12 的故障信息在 2004 年4 月 1 日都是得
12、不到的,因为在这些时间里出售的部件,它们的使用月数都没有达到 12 个月。同样,以第 0201 批次的使用月数为 1 的数据项为例,直到 2004年 3 月,可能仍然会有第 0201 批次的部件售出,而它的使用 月数为 1 的故障信息反馈也要等到 2004 年 4 月以后才能得到,因此, 2004 年 4 月 1 日无法全部得到它的使用月数为 1 的故障信息反馈,但是 2004 年 3 月该批次的月销售量却包含在了计算该批次使用月数为 1 时的千车故障数时的轿车总数。 所以,表中计算千车故障数的方法是不合理的,除使用月数为 0 的情况外,其它的原始千车故障数都是不合理的。 4.3 数据修正 对
13、此,我们提出以下修正方法: 总数了故障信息反馈的轿车迄今已售出的并已得到 保修总次数修正千车故障数 1 0 0 0 (4-2) 对于公式 (4-2),以第 0201 批次的使用月数为 1 的数据项( 0.41) 为例,由于 2004 年 3 月销售出去的该批汽车部件,要到 2004 年 5 月 1 日才能完全得到它的故障反馈信息,而对于 2004 年 3 月之前售出的,都可以得到它的故障数,因此,它的千车故障数的计算如下: 4 批次的月销售量月对于年迄今已售出的轿车总数 保修总次数修正千车故障数 0 2 0 132 0 0 4 1 0 0 0 对于上式,各批次的月销售量附表一并未给出,根据假设
14、 3 可以得到,该批次在 26 个月的每个月销售量相等,都是 262457 ,因而可以进一步计算得到修正后的千车故障数。 下面给出千车故障数的修正算法: 算法 4.1 千车故障数的修正算法 说明 从 0201 至 0312 亿共 24 组数据,销售截至 2003 年 3 月底。表中的每 个 千 车 故 障 数 都 可 以 根 据 公 式 (4-1) 计 算 得 到 故 障 数 ( 1000迄今已售出的轿车总数千车故障数 )。 输入 制表时的各批次的总销售量 24,2,1 NNN , 批次为 i 使用月数为 j 的故障数 jiS ,其中, 241 i , 131 j 。 输出 各批次的月平均销售
15、量 24,2,1 AAA , 修正后的千车故障数 jiD ,其中, 241 i , 131 j 。 算法 4.1 千车故障数的修正算法 1 for i1 to 24 do )27/( iiNiA ; /求出各批次各自的月平均销售量(制表时销售量 /到 2004 年 3 月份的销售月份数); / 2 for i1 to 24 do for j1 to 13 do )1( iAjiN jiSjiD 。 /根据公式 (4-2)求解 / 根据算法 4.1,得到修正千车故障数,见附表二。 4.5 制表方法建议 根据假设 3,我们对月销售量作了平均假设,与实际的销售情况不一定吻合,5 而月销售量对于计算千
16、车故障率是必要的。为 了方便统计预测,我们建议制表的时候应该给出生产月份、售出时间、各个批次在各个月的销售量以及各部件各批次单月保修总次数。科学的制表方法为首先由数据库中统计出对于同一批次的轿车的各月的售出情况,建议一套指标的完整流程如下: 表 4.1 各月销售量表 各月销售量 生产月份 每月的销售量 1 . . . 当前月 . . . 再统计出某部件的故障发生数的表: 表 4.2 净故障发生数表 净故障发生数 生产月份 使用月数 1 . . . 当 前月 -出厂月 . . . (注:其中的第 i个月的故障数表示的为,使用了 i个月时发生故障的车数) 根据表 4.1 和表 4.2 的数据,可以
17、准确简单的得出我们所需要的差分千车故障数,具体的计算方法: 个月前的销售量之和 个月的净故障发生数使用了第个月的千车故障数使用了第 i ii 表 4.3 修正的每月千车故障数表 月千车故障数 生产月份 使用月数 1 . . . 当前月 -出厂月 . . . 5 时间序列分析的介绍 时间序列是指在规则的、连续的时间间隔内,对同一指标进行测量所得 到的数据序列。 时间序列的重要特点包括:趋势、转折点和指标间的一致性。趋势是指随着时间的延续序列的数值是增还是降;转折点是指序列曲线走势在该点由上升(或下降)变为下降(上升),或者上升(或下降)的速度比此前更快(或更慢)。指标间的一致性是指不同行业主要指
18、标之间的比例关系是否合理,或者同一指标月度、季度和年度数据是否协调等。 时间序列因素分解。一个时间序列通常受多种因素影响,一般地,我们可以把这些因素分解为趋势 -循环因素、季节因素、不规则因素等。趋势 -循环因素反映序列的基本水平,较平滑,包括长于一年的 变动和循环,可能含转折点。季节因素反映序列在不同年份的相同季节(同一月,同一季)所呈现出的周期性变化,它存在的主要原因是自然因素,另外还有行政或法律规定以及社会、文化、6 宗教等传统因素。不规则因素在什么时间出现、影响程度和持续时间都不可预测,存在不规则因素的原因可能是不和季节的天气、罢工、样本误差和非样本误差等。这些统计序列通常在正常年度中
19、表现出来季节规律性变化,把这种现象称为季节效应。季节效应之“季节”是一个广义概念,既可以是自然界的四季,也可以使人类社会确定的“节日”或“交易日”等“季节”。 6 表内 数据的纵向最小二乘拟和与横向卡尔曼滤波方法的联合预测 对附表三中的部分数据提取出来,很明显,从 0303 批次开始, 0303 批次的使用月数为 12 的部件到 2004 年 4 月 1 日还没有满 12 个月,因而无法得到相应的故障反馈信息,该表项数据为空。依次下推, 0311 批次的只有使用月数为 0、1、 2 的数据项非空,这些空表项形成的下三角如表 6.1: 表 6.1 使用月数 12 11 10 9 8 7 6 5
20、4 3 生产月份 制表时销售量 0303 2900 1 130.74 65.37 39.22 26.88 21.77 17.46 16.07 14.63 20.95 0304 1127 11 2 37.26 18.63 11.18 7.45 8.36 4.95 6.21 8.16 0305 818 20 12 3 26.89 13.45 8.07 7.62 3.52 2.64 5.05 0306 1199 28 21 13 4 9.73 4.87 2.92 1.95 1.39 2.09 0307 1831 29 22 14 5 20.48 10.24 6.14 4.91 6.32 0308 1
21、754 23 15 6 7.60 3.80 2.28 3.04 0309 2163 。 24 16 7 0.92 0.92 0.92 0310 2389 。 25 17 8 0.00 0.00 0311 2434 。 26 18 9 0.00 0312 1171 27 19 10 前面我们对数据进行了比较详细的分析。 根据原始数据表,从纵向来看,不同批次使用月数相同的部件千车故障率呈先增后减的趋势,但是,我们并不能确定各批次之间的数据存在关联,对此,我们可以根据纵向的大体走势,采用最小二乘法拟和得到表中的空项。对于 (0303,12)这个表项,我们可以根据 (0201, 12), (0202,
22、 12), , (0302, 12)表项中的数据进行最小二乘拟和得到。 从横向来看,因为同一行的数据是同一批次的,它们之间必然存在关联,而Kalman 滤波能够降低数据噪声,使数据变得更为平滑合理。前面通过纵向最小二乘拟和得到的表项只是一个粗略的值,我们可以进一步该表项所在行的数据对它进行 Kalman 滤波(具体的 Kalman 滤波步骤见附录一),使数据变得更为平滑。 对空表项的下三角处理过程如下: 1 从最长的对角开始,取 k=0303, l=12。先处理 (k, l)表项,对单个表项的数据处理又分为以上的纵向拟和和横向滤波两步; 2 k 取 下一批次, l=l-1,循环处理 (k, l
23、),直至该对角的全部表项处理完; 3 取下一条对角进行 1、 2 步的处理; 7 4 当最后 k=0312, l=12 对应的数据项被处理完时,整个表的数据项就全部得到了。 (其数据处理的顺序如表 6.1 中的数字所示) 根据以上方法对数据表进行的联合预测,最后,表中的所有数据项都有了相应的预测单月千车故障数。由于纵向的数据只是给出了使用月数不超过 12 个月的情况,而对于使用月数超过 12 个月的单月千车故障数,以上的联合预测方法便不再有效。因此, 11x 方法却不受 这种情况的限制,而根据联合预测方法得到的数据刚好可以用作下一步的 11x 预测。 以下的处理都将基于以上经过差分后得到的数据
24、表格, 下一步,我们将给出基于 11x 方法的一个统一的预测模型。 7 基于 11-x 方法的统计预测模型及其求解 11x 方法在季节性 ARIMA(自回归积分移动平均 )模型的经济统计预测中应用得相当广泛,在美国联邦调查局的统计预测中也应用得相 当成功。这种方法实际上是介于直接剔除法和提取趋势向法之间的一种方法,现仍将其归类于前者。11x 方法的基本思想是采用数值滤波的方法得到非平稳时间序列中的趋向性序列,而不是得到趋向性的数学模型。 11x 方法认为,某些非平稳时间序列 ix N) , ,2 ,1( t (特别是经济领域中的时间序列)由三部分组成,一部分是周期性序列(称为季节分量),记为
25、tS ,且规定 tS 的周期为 12(即 12 个月),一部分是除 tS 以外的所有其它趋势的综合(称为趋势分量),记为 tT ,另一部分是平稳随机序列(称为不规则分量),记为 t 。 表()中的数据是二维的,同时给定批次和使用月份数才能为以确定某一具体的千车故障数,从 0201 批次开始到 0312,一共是 24 个批次,去掉使用月数为 0 的那一列,得到了 24 组周期为 12 的数据序列,使得它们满足11x 方法的条件 。 对于每一批次的使用月数从 1 到 12 的 12 个经过差分后的千车故障数,将这 24 组数据移到同一个轴上,每一组有 12 个数据,每一组看成一个周期,最后可以看成
26、一个非平稳时间序列 tx 24)12 , ,2 ,1( t 。 总体来看,此类的方法主要分为乘法和加法两种,对于数值为正的时序通常采用乘法模型,本文的建模也是基于乘法模型的,加法因数值形式的变换可进一步细分。加法和乘法 各自的调整方法如下: 加法: tttt STx ), ,2 ,1( Nt 乘法: tttt STx 8 利用对数变化可将乘法模型变为加法模型,即对数加法: tttt STx lo glo glo glo g 如果求得 )log( tT 、 )log( tS 和关于 )log( t 的估计值,则, )l o gl o g( l o g ttt STt ex 下面我们对加法模型进行
27、详细讨论: 对于加法模型,采用特定的滤波器对 tx , tT , tS 逐次 进行滤波,最终得到的序列为 tT , tS 和 t ), ,2 ,1( Nt 。 下面叙述该法中所进行的四次滤波。 第 1 步 对趋势分量进行 粗滤波 将 Z 算子多项式 )(1ZF 作用于 tx ,得到 tT 为: 241)(N ) , , 2, ,1 )( 655611jjjjttZZZFtxZFT式中,( (7-1) 有关 )(1ZF 中各 Z 算子的幂次项的系数取值分配情况如图 7.1 所示: 图 7.1 )(1ZF 的系数分配 其中所有系数之和等于 1。公式 (7-1)和图 7.1 相当于采用滤波器对 tx
28、 进行带通滤波,故 )(1ZF 称为滤波器。由于认为序列中含有周期为 12 的季节分量,故这种滤波是在一个周期内进行的, Z 的幂次范围为 66 ,即带宽为一个周期。 tx通过滤波器 )(1ZF 后,滤波值 tT 的具体形式为: 9 N) , 2, ,1 )2(241 )2222(2416556654456txZZZxZZZZZZTtjjtt(由于带通滤波的作用,则滤波值 tT 是趋势分量 tT 的估计值,称为 tT 的一次粗估计。作 tt Tx 运算,可得到残差序列 tt Tx N) , 2, ,1( t 。显然,由于 tt Tx中剔除了 tT ,则 tt Tx 中主要含有季节分量,下面应从
29、 tt Tx 中进行季节性滤波。 第 2 步 对季节分量进行粗滤波 将 Z 算子多项式 )(2ZF 作用于 tt Tx ,得到 tS 如下: 91)(N ) , , 2, ,1 T-)( 0212111220122t2jjjjjjttZZZZFtxZFS式中,( (7-2) 显然, )(2ZF 中各算子 Z 的幂次项的系数取值情况如图 7.2 所示: 图 7.2 )(2ZF 的系数分配 所有系数之和仍等于 1。式 (7-2)和图 7.2 相当于使用滤波器 )(2ZF 对序列 tt Tx 进行带通滤波,带宽为 4 个周期。 tt Tx 通 过带通滤波器后,滤波值 tS 的具体形式为: N) , 2, ,1 )(232(91 24121224 tTxZZZZT ttt ( 由于带通滤波的作用, tS 相当于季节分量 tS 的估计值,称为 tS 一次粗估计。作