1、 数据挖掘物联网数据处理主要内容主要内容 n 数据挖掘概述n 数据预处理n 数据挖掘算法分类与预测n 数据挖掘算法聚类n 数据挖掘算法关联分析n 序列模式挖掘物联网数据处理一、数据挖掘概述一、数据挖掘概述物联网数据处理数据挖掘概念数据挖掘概念n 数据挖掘 -从大量的数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。 n 数据挖掘的主要目的是提高决策能力,检测异常模式,在过去的经验基础上预言未来趋势等。n 例如,通过对大量气象资料和销售资料的处理及分析,德国的啤酒商发现,夏天气温每升高 1 ,就会增加 230万瓶的啤酒销量;而日本人则发现,夏季 30 以上的天气每增加一天
2、,空调的销量便增加 4万台。物联网数据处理5n 沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。n 发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。n 分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。n 得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。数据挖掘概念数据挖掘概念物联网数据处理6n 数据挖掘( Data Mining) :又称为数据库中的知识发现,是基于 A
3、I、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。n 模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为 预测型 模式和 描述型 模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘概念数据挖掘概念物联网数据处理数据挖掘的任务数据挖掘的任务n 分类预测( Prediction) 利用一些变量来预测未知
4、的或其他变量将来的值 .典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。近年来,发展起来的神经网络方法,如 BP模型,它实现了非线性样本的学习,能进行非线性函数的预测物联网数据处理n 典型的分类型任务如下:1、给出一个客户的购买或消费特征,判断其是否会流失;2、给出一个信用卡申请者的资料,判断其编造资料骗取信用卡的可能性3、给出一个病人的症状,判断其可能患的疾病4、给出大额资金交易的细节,判断是否有洗钱的嫌疑;5、给出很多文章,判断文章的类别(如科技、体育、经济等)数据挖掘的任务数据挖掘的任务物联网数据处理n 物联网数据处理描述型任务:找到人们可以解释的,描述数据的模式 . 描述性任务主要包括聚类、摘要、依赖分析等几种任务。聚类任务把没有预定义类别的数据划分成几个合理的类别,摘要任务形成数据高度浓缩的子集及描述,依赖分析任务发现数据项之间的关系。n 典型的描述型任务如下:1、给出一组客户的行为特征,将客户分成多个行为相似的群体;2、给出一组购买数据,分析购买某些物品和购买其他物品之间的联系3、给出一篇文档,自动形成该文档的摘要数据挖掘的任务数据挖掘的任务