大数据技术.ppt

上传人:ga****84 文档编号:313084 上传时间:2018-09-21 格式:PPT 页数:16 大小:2.21MB
下载 相关 举报
大数据技术.ppt_第1页
第1页 / 共16页
大数据技术.ppt_第2页
第2页 / 共16页
大数据技术.ppt_第3页
第3页 / 共16页
大数据技术.ppt_第4页
第4页 / 共16页
大数据技术.ppt_第5页
第5页 / 共16页
点击查看更多>>
资源描述

1、大数据技术,张瑞芝计算机科学与技术16081200210009,Deep learning,Yann LeCun, Yoshua Bengio, Geoffrey Hinton Supervised learning Backpropagation to train multilayer architectures Convolutional neural networks Image understanding with deep convolutional networks Distributed representations and language processing Recurr

2、ent neural networks The future of deep learning,Supervised learning,监督学习是利用一组已知类别的样本调整分类器的参数,并使其达到所要求性能的过程,监督学习完成了从标记的训练数据来实现分类功能的机器学习任务。传统的方法是通过手工方法来设计良好的特征提取器,这需要大量的工程技术和专业领域知识。深度学习的关键优势在于使用了通用的学习过程从数据中学到良好的特征,从而避免了传统方法中所需的人工工程。,Backpropagation to train multilayer architectures,通过反向传播算法来训练多层神经网络反向

3、传播算法(Backpropagation)是目前用来训练人工神经网络的最常用且最有效的算法。,Convolutional neural networks,卷积神经网络是一种前馈神经网络,它包括卷积层和池化层,它的人工神经元可以响应一定覆盖范围内的周围单元,对大型图像的处理表现得很出色。 在BP神经网络中,每一层都是全连接的,这使训练变得困难。而CNN的卷积层每个节点与上一层某个区域通过卷积核连接,而与这块区域以外的区域无连接。但每个节点对应不同的卷积核导致训练量依然很大。为此,CNN提出了权值共享概念,即同一个卷积层内,所有神经元的权值是相同的。池化层夹在卷积层中间,其主要作用是逐步压缩减少数

4、据和参数的数量,也在一定程度上减少过拟合现象。其功能是把上一层输入数据的某块区域压缩成一个值。,Image understanding with deep convolutional networks,左图为人工智能专家李飞飞利用大数据来训练计算机视觉,通过深度CNN来教计算机理解图片。而且李飞飞共享了ImageNet。作为和大脑神经原理类似的卷积神经网络,使用ImageNet进行训练是非常合适的选择。,Distributed representations and language processing,要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数学化,词向量就是用来将语言中

5、的词进行数学化的一种方式。Distributed Representation的基本想法是:通过训练将某种语言中的每一个词映射成一个固定长度的短向量,将所有这些向量放在一起形成一个词向量空间,而每一个向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性了。,下面的左、右两幅图中五个词在两个向量空间中的相对位置差不多,这说明两种不同语言对应向量空间的结构之间具有相似性,从而进一步说明了在词向量空间中利用距离刻画词之间相似性的合理性。,Recurrent neural networks,在RNN中,输入层和来自序列中上一元素隐藏层的信号

6、共同作用于当前的隐藏层,数据挖掘与医学数据资源开发利用,医学数据资料的状况 数据挖掘的应用 数据挖掘的方法以及具体应用 聚类分析(Clustering Analysis)关联分析(Correlation Analysis) 决策树(Decision Tree) 结论,聚类分析(Clustering Analysis),聚类分析是对输入集中的记录进行分类。根据一定的规则,合理地进行分组或聚类,并用显式或者隐式的方法描述不同的类别。聚类分析是一种探索性的统计分析方法,是在没有先验知识的情况下对数据资料进行分类,其实质就是按照资料的内在相似或相关程度将数据分为若干个类别,以使得类别内数据的“差异”尽

7、可能小,类别间“差异”尽可能大。,关联分析(Correlation Analysis),表示数据库中一组对象之间某种关联关系的规则,挖掘一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。关联规则的挖掘问题就是在给定的数据库中,找出满足最小支持度和最小置信度的关联规则。关联规则有如下优点:可以产生清晰有用的结果;支持间接数据挖掘;可以处理变长的数据;计算的消耗量可以预见。,决策树(Decision Tree),首先通过一批已知的训练数据建立一颗决策树;然后,利用建好的决策树,对数据进行预测。这是一种用树枝状展现数据受各变量影响情况的分析预测模型,根据对目标变量产生效应的不同,而制定分类规则,它是建立在信息论基础之上的对数据进行分类的一种方法。决策树的建立过程是数据规则的生成过程,因此这种方法实现了数据规则的可视化,其输出结果容易理解,精确度较好,效率较高,因而较为常用。,结论,聚类分析、关联分析以及决策树是医学数据挖掘中的主要方法,三者的结合,可以对某一类疾病进行系统的分析,从疾病证候的分类,以及疾病与药物之间的关联、证候与药物的关联,到最后通过疾病的前期症状,对其的早期预测,以及定义相关疾病的诊疗路径提供了很大的帮助。,实例,基因测序、大数据分析精准治癌正在成为现实,Thank you,

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。