1、计算机数据挖掘技术在现代商业中的应用摘要 数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术。随着 Internet 的普及,使 Web 成为获取市场信息的最重要的载体。本文介绍了 Web 数据挖掘过程,以及特点,最后重点研究了 Web 数据挖掘技术现代商业中的应用。 关键词 数据挖掘 人工智能 载体 一、Web 数据挖掘概述 Web 挖掘是从 Web 资源上抽取信息或知识的过程,它是将传统的数据挖掘的思想和方法应用于 Web,从 Web 文档和 Web 活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。Web 挖掘可在多方面发挥作用,如搜索引擎结构的挖掘,搜索引擎的
2、开发,改进和提高搜索引擎的质量和效率,确定权威页面。Web 挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。特别是电子商务领域,通过对用户特征的理解和分析,如对用户访问行为、频度、内容等的分析,提取出用户的特征,从而为用户定制个性化的界面,有助于开展有针对性的电子商务活动。 二、Web 挖掘流程以及特点 1.Web 挖掘的流程 Web 数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。与传统数据和数据仓库相比,Web 上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以 Web 网页上的数据进行数据挖掘,而
3、必须经过必要的数据处理。Web 挖掘的有以下几个过程: (1)资源发现。任务是从目标 Web 文档中得到数据,值得注意的是有时信息资源不仅限于在线 Web 文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过 Web 形成的交易数据库中的数据。 (2)信息选择和预处理。任务是从取得的 Web 资源中剔除无用信息和将信息进行必要的整理。例如从 Web 文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。 (3)模式发现。自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。 (4)模式分析。验证、解释上一步骤产生的模式。可
4、以是机器自动完成,也可以是与分析人员进行交互来完成。 2.Web 挖掘的特点 Web 挖掘技术具有许多优点,如不需要用户提供主观的评价信息;可以处理大规模的数据量;用户访问模式动态获取,不会过时;使用方便等。但是与传统数据库和数据仓库相比,Web 是一个巨大、分布广泛、全球性的信息服务中心,涉及经济、文化、教育、新闻、广告、消费、娱乐、金融、保险、销售、电子商务等信息,内容极其丰富,数据最大特点就是半结构化;而传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据。显然,面向 Web 的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多,会面临很多具体问题,主要有: (1)半结构化数据。W
5、eb 页面以某种格式呈现的半结构化数据,其数据结构不规则或不完整,复杂程度远远高于普通的文本文档,其数据结构隐含、模式信息量大、模式变化快。大量的文档无任何排列次序,无分类索引。 (2)Web 是一个异质、分布、动态的信息源。Web 及其数据的更新、增长速度极快,也无固定的模式。Web 上的信息几乎都是隐藏的、潜在的、未知的,从 Web 上发现这些未知的信息和有用的模式,仅用传统的基于关键字的检索方式很难实现,现在的搜索引擎尚不具备这些功能。 (3)面对一个非常广泛的形形色色的用户群体。不同的用户访问 Web的兴趣、爱好和使用目的千差万别,面对一个非常广泛的形形色色的用户群体,能否使用户根据自
6、己的爱好兴趣定制网页,甚至能否根据发现的用户。自动为用户定制网页,从而提供个性化的信息检索和查询服务。3.Web 挖掘在电子商务中的应用 目前对于,Web 挖掘的对象和使用的方法层出不穷,但随着电子商务网站的兴起,电子商务将是未来 Web 挖掘的主要发展方向之一,因此它在各种商业领域都存在广泛的使用价值。在当电子商务在企业中得到应用时,企业信息系统将产生大量数据,这些海量数据使数据挖掘有了丰富的数据基础,同时高性能计算机和高传输速率网络的使用也给数据挖掘技术提供了坚实的保障。介绍以下几个方面的应用: (1)分析查找获得潜在客户。随着以客户为中心的经营理念不断深入人心,分析客户、了解客户并引导客
7、户的需求已成为企业经营的重要课题。通过对电子商务系统收集的交易数据进行分析,可以按各种客户指标(如自然属性、收入贡献交易额、价值度等)对客户分类,然后确定不同类型客户的行为模式,以便采取相应的营销措施,促使企业利润的最大化。 比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如何,有什么爱好,是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品,以及什么样的人会购买什么型号的该种商品等等。也许很多因素表面上看起来和购买该种商品不存在任何联系,但数据挖掘的结果却证明他们之间有联系。在采用了数据挖掘后,针对目标客户发送的广告的有效性和回应率将
8、得到大幅度的提高,推销的成本将大大降低。 在对 Web 的客户访问信息的挖掘中,利用分类技术可以在 Internet上找到未来的潜在客户,获得这些潜在的客户市场。通常的策略是先对己经存在的访问者进行分类,一般分为三种:“no customer”、 “visitor once”“visitor regular”。对于一个新的访问者,通过在 Web 上的分类发现,识别出这个客户与己经分类的老客户的一些公共的描述,从而对这个新客户进行正确的分类。然后从它的分类判断这个新客户是属于有利可图的客户群,还是属于无利可图的客户群,决定是否要把这个新客户作为潜在的客户来对待。客户的类型确定后,就可以对客户动态
9、地展示 Web 页面,页面的内容取决于客户与销售商提供的产品和服务之间的关联。 (2)保留客户。数据挖掘可以把你大量的客户分成不同的类,在每个类里的客户拥有相似的属性,而不同类里的客户的属性也不同。你完全可以做到给不同类的客户提供完全不同的服务来提高客户的满意度。数据挖掘还可以发现具有哪些特征的客户有可能流失,这样挽留客户的措施将具有针对性,挽留客户的费用将下降。对客户来说,传统客户与销售商之间的空间距离在电子商务中己经不存在了。在网上,每一个销售商对于客户来说都是一样的,那么如何使客户在自己的销售站点上驻留更长的时间,对销售商来说将是一个挑战。为了达到这一目的,就应该了解客户的浏览行为,知道
10、客户的兴趣及需求所在,动态地调整 Web 页面,以满足客户的需要。通过对客户访问信息的挖掘,就能知道客户的浏览行为,从而了解客户的兴趣及需求。在网上的电子商务中的一个典型的序列,恰好就代表了一个购物者以页面形式在站点上导航的行为,所以可运用 Web 数据挖掘中的序列模式发现技术。 (3)聚类客户。在电子商务中客户聚类是一个重要的方面。通过分组具有相似浏览行为的客户,并分析组中客户的共同特征,可以帮助电子商务的组织者更好地了解自己的客户,向客户提供更适合、更面向客户的服务。例如,有一些客户都花了一段时间浏览“baby toys”“baby furniture”页面,经过分析这些客户被聚类成为一组
11、。销售商根据分析出来的聚类信息,就知道这是一组“expecting parents”客户,对他们所进行的业务活动当然也就不可能同于其他被聚类了的客“college students”、 “office ladies”。及时调整页面及页面内容,使商务活动能够在一定程度上满足客户的要求,对客户和销售商来说更有意义。 (4)交叉销售与个性服务。交叉销售的好处在于,对于原有客户,企业可以比较容易地得到关于这个客户的比较丰富的信息,大量的数据对于数据挖掘的准确性来说是有很大帮助的。在企业所掌握的客户信息,尤其是以前购买行为的信息中,可能正包含着这个客户决定他下一个购买行为的关键,甚至是决定因素。这个时候
12、数据挖掘的作用就会体现出来,它可以帮助企业寻找到这些影响他购买行为的因素。 当客户在电子商务网站注册时,客户将会看到带有客户姓名的欢迎词”根据客户的订单纪录,系统可以向客户显示那些可能引起客户特殊兴趣的新商品。当客户注意到一件特殊的商品时,系统会建议一些在购买中可以增加的其他商品。普通的产品目录手册常常简单的按类型对商品进行分组,以简化客户挑选商品的步骤。然而对于在线商店,商品分组可能是完全不同的,它常常以针对客户的商品补充条目为基础,不仅考虑客户看到的条目,而且还考虑客户购物篮中的商品,结果就会使推荐更加个性化。 三、结语 随着计算机技术的迅猛发展和 Internet 资源的快速增长,特别是电子商务的兴起,Web 挖掘成为 21 世纪的热门研究领域之一,其研究具有广阔的应用前景和巨大的现实意义。目前国内的 Web 挖掘尚处于学习、跟踪和探索阶段,Web 挖掘有许多问题有待于进一步的研究和深化。 参考文献: 1郝先臣张德干尹国成等:基于电子商务中的数据挖掘技术研究.小型微型计算机系统,2001 2韩家炜孟小峰王静等:Web 挖掘研究.计算机研究与发展,2001 3邓英李明:Web 数据挖掘技术及工具研究.计算机工程与应用,2001