1、1基于聚类分析的集装箱码头堆场策略摘要: 为提高集装箱码头堆场的利用率,对集装箱码头出口箱堆存策略进行研究.该研究基于堆场大量的历史数据,采用数据库统计查询技术对堆场原始数据进行选择、处理、分析,得到初始数据集合;然后选取数据分析方法中的聚类分析方法并采用基于密度及密度可达的聚类算法,通过软件编写程序实现该算法.通过初始数据集在程序中的运算得到结果簇,然后对该结果簇进行分析,得到出口箱堆场堆存的基本规则.仿真验证该方法的有效性,表明该方法可为集装箱码头制定出口箱堆存策略提供帮助,从而提高集装箱码头的效益. 关键词: 集装箱; 码头; 堆场策划; 聚类分析; 密度计算 中图分类号: U656.1
2、35; U653.7; O212.4 文献标志码: A 0 引言 由于集装箱码头吞吐量的不断增加与码头规模的缓慢扩大相矛盾,制定合理的集装箱堆存规则,对提高堆场的利用率、周转率,提高码头服务效率显得尤为重要.严伟等1运用遗传算法对出口箱堆存问题建立箱区、贝位、箱位的堆放模型,并对双 40英尺箱的堆存问题进行研究.候春霞2在考虑集装箱箱区分配的主要影响因素的基础上,以最小化集2卡运输距离和最小化各箱区间工作量不平衡程度为目标函数对堆场策划问题进行建模研究.ZHANG 等34研究预到达船中的出口箱存储空间和存储位置的分配.胡碧琴等5以内集卡和场吊效率最大化为目标,根据实际集装箱码头的堆存操作,提出
3、相关限制条件.BAZZAZI 等6运用遗传算法对堆场分配问题进行求解. 近年来,数据挖掘方法被广泛应用于各个科研领域,如:王天真等7利用 kmeans聚类的孤立点分析算法,从大量航运信息中挖掘 AIS数据库中的异常信息;舒帆8提出基于空间信息和属性信息的可视化挖掘技术,并将其用在港口物流信息平台建设上;钮轶君等9研究数据挖掘在半导体制造管理中的应用;李小荣10详细介绍数据挖掘在企业历史数据中的主要应用;廉琪等11提出神经网络和粒子群优化的聚类组合算法,为制定策略提供帮助;NGAI 等12研究数据挖掘在客户管理中的应用;KKSAL 等13研究数据挖掘在质量改进中的应用.本文综合集装箱堆存模型的研
4、究,结合堆场策划涉及的大量数据,考虑数据之间存在的复杂的相关性,通过确定各对象间的相异度提高数据间的独立性,在此基础上进行聚类分析. 1 问题描述 集装箱堆存计划可以分为进口堆存计划和出口堆存计划.进口堆存计划的制订相对简单,只要实际执行情况与堆存计划相吻合,卸船效率就能得到有效保证.但出口箱堆存计划的制订要相对复杂得多,以往的基本原则是以每条航线船舶的历次出口箱量及季节性浮动为基础预测箱量,预先对堆场进行适当规划,按照分类堆存策略为每艘船舶预留出口箱位3置,集装箱实际进场时依此位置堆存.但实际作业中码头制订的堆存计划不可能准确地预测出口箱的进港顺序、箱型、重量和卸货港等信息,而且出口箱在集港
5、过程中进箱时间分散且具有不确定性,但同一艘船上的出口集装箱又必须同时进行装船作业,所以在出口集装箱集港前必须给这些集装箱一个预先箱区堆存计划.以往用优化算法制定堆存策略时,大多以装船顺序已知作为假设或以有限个不确定条件为前提,例如,有些研究中将所有集装箱假定为 20英尺箱、以最优的机械配置和船舶调度为前提、假定码头堆场资源(起吊设备等)充足等.有些集装箱并非完全严格按照堆存计划所规划的箱位进行堆存,而是按实际情况灵活调整某些箱位,从而导致某些堆存策略被忽略. 针对以上问题,本文提出基于数据挖掘的出口集装箱堆存计划,利用聚类分析方法发现隐藏于历史数据中有价值的信息,根据信息的相关性提取出口集装箱
6、堆存规则.首先对大量历史数据进行筛选和清理,然后采用基于密度的聚类算法分析数据,最终给出较合理的堆放规则.通过对该问题的研究,可以获得以往不易被发现的隐藏在数据中的出口箱堆存规则,并将其应用于实际的堆场计划制订中,提高堆场效率. 2 数据选择和处理 2.1 影响因素分析 由于出口箱分散进港、集中装船,而且集装箱的进场时间和顺序存在很大的随机性,因此影响出口箱箱位分配的因素很多.本文主要考虑集装箱本身的属性和所处的物理位置.由于特殊箱量较少并有专门的堆放箱区,故本文不考虑特殊箱的堆存问题;由于出口空箱的堆放规则简单且4对装船效率等影响不大,本文也不考虑出口空箱的堆存问题.本文主要分析出口箱较高级
7、别的策划,即计划到区,对于集装箱的贝位计划和箱位计划所需考虑的翻箱率、场桥的分配个数、场桥大车的移动距离,本文不予考虑. (1)集装箱箱型、尺寸:在制订集装箱堆存计划时,要按照不同的箱型进行总体规划,比如冷藏集装箱、框架箱、危险品集装箱等特殊箱都有专门的堆存位置,且堆放规则简单.在集装箱堆存时,经常会将集装箱的尺寸作为一个堆放条件,相同尺寸的集装箱堆放比较集中,不同尺寸的集装箱分开堆放,这样有利于提高场桥的利用率,也有利于装船作业的高效率完成. (2)集装箱箱重:按箱重选取箱位可以避免船舶左右质量分配不对称,减少船舶产生横向倾斜的可能性,避免翻船.在为集装箱策划堆场位置时,集装箱装船后也要达到
8、船身重心高度的优化. (3)船名、航次:班轮运输有固定的航线、停靠港口和船期,故这两个指标可以确定集装箱的卸货港、装卸时间和该集装箱与其他集装箱的装船先后顺序.同船的集装箱堆放相对集中;同船、同一卸货港需将先装船的集装箱堆放在较顶层且相对集中;同船、不同卸货港的集装箱需间隔堆放. 2.2 数据选择 本文研究出口集装箱堆场策划问题,通过分析出口箱堆场策划的主要影响因素,选取集装箱尺寸、箱重、船名、航次为主要分析变量,但由于本文目的是通过分析历史数据得出集装箱堆放规则,故还应该选取5集装箱所在箱区和贝位作为分析变量.用 SQL对闸口集港报告、堆场数据表和堆场信息表进行连接查询,生成的新表结构示例见
9、表 1. 2.3数据处理 为减少噪声和缺失值对聚类的影响,减少挖掘所需时间,对选择的数据进行缺失数据处理、删除噪声数据处理和数据离散化处理. (1)缺失数据处理. 本文所选取的数据表中缺失数据相对较少,为保证挖掘结果的质量,将缺失属性的个数超过 3个的数据对象删除.本文主要采用选取固定常量替换缺失值和类比填充两种方法14. (2)删除噪声数据. 出口箱信息预录的一种方式是直接用出口舱单作为预录信息,需要道口员根据装箱清单手工录入该箱的信息,在这种方式下集港的在场箱信息来自于舱单信息或道口员的手工录入.正是由于手工录入,所以可能产生人为的差错(包括孤立点值和错误的值). (3)数据离散化处理.
10、通过 SQL语句查询分析可知,该数据表中总共有 120个船名,用1120 进行编号(编号只是用于数据处理,并不代表任何特定的顺序或重要权衡).对船舶所对应的航次、集装箱所在箱区和贝位也作同样的预处理,这样此信息表将转换成一个完全由数字组成的初始数据矩阵. 通过以上处理,原来的表变成完全由数字组成的数据矩阵,为进一步分析奠定基础. 3 基于 CADD的聚类 6聚类的主要思想是:只要给定半径的邻域中的密度(对象或数据点的数目)超过某个阈值,就继续聚类.本文采用基于密度及密度可达的聚类算法(Clustering Algorithm Based on Density and Density Reach
11、able,CADD).该算法不仅具有全局性的目标函数即密度值函数,而且可以有效减少噪声和孤立点的影响,对数据集的形状没有特殊要求,能发现任意形状的簇,对于复杂的聚类问题有很好的聚类结果.该算法的主要流程见图 1. 3.1 相异度矩阵的计算 根据前面选取的聚类指标,将集装箱分割为有更多相似性的子群(或者簇) ,分割依据为集装箱之间的不同程度,即相异度.相异度用 dij表示(i 和 j表示任意两个集装箱) ,各个相异度取值在 0和 1之间,取值越大,集装箱的属性越不相似,取值越小集装箱间的相似度越大.当i=j时,dij=0.为计算各个集装箱间的相异度,选取集装箱的 6个属性作为分析变量,其中:尺寸有 20英尺、40 英尺和 45英尺 3种,为分类变量;箱重的取值是趋于连续的,从 5 000到 30 000不等,所以箱重为区间标度变量;船名、航次、所在箱区和所在贝位是分类变量,包含几种不同变量类型的集装箱间的相异度应该按照混合类型变量计算.集装箱的个数为 7 500个,所以 i和 j均从 1取值到 7 500,那么可以得出一个 7 5007 500相异度矩阵.各集装箱间的相异度计算方法为