ImageVerifierCode 换一换
格式:PPT , 页数:26 ,大小:2.46MB ,
资源ID:494681      下载积分:12 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-494681.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(深度学习之word2vec.ppt)为本站会员(ga****84)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

深度学习之word2vec.ppt

1、深度学习之word2vec,学习、分享与交流陈凯2015/12/17,目录,基本概念模型与方法实战与应用,词向量,自然语言中的词语在机器学习中表示符号One-hot Representation例如:“话筒”表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 .“麦克”表示为 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 .实现时就可以用0,1,2,3,.来表示词语进行计算,这样“话筒”就为3,“麦克”为8.存在两个问题当文本丰富度较大时,维度过大词汇鸿沟:任意两个词之间都是孤立的,不能体现词和词之间的关系,词向量,Distributional Repre

2、sentation词表示为:0.792, 0.177, 0.107, 0.109, 0.542, .常见维度50或者100解决“词汇鸿沟”问题可以通过计算向量之间的距离(欧式距离、余弦距离等)来体现词与词的相似性如何训练这样的词向量没有直接的模型可训练得到可通过训练语言模型的同时,得到词向量,语言模型,判断一句话是不是正常人说出来的,用数学符号描述为给定一个字符串w1,w2,.,wt,计算它是自然语言的概率 ,一个很简单的推论是例如,有个句子大家,喜欢,吃,苹果P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)简单表示为计算 问题,语言模型,现

3、有模型N-gram模型N-pos模型.Bengio的NNLMC&W 的 SENNAM&H 的 HLBLMikolov 的 RNNLMHuang 的语义强化.,相似的词语拥有相似的语境,word2vec原理,两种模型,两种方法,简单神经网络,扫雷机的神经网络,权重向量: 0.3, -0.8, -0.2, 0.6, 0.1, -0.l, 0.4, 0.5 w1x1 + w2x2 + w3x3 +.+ wnxn = t输入: 扫雷机视角向量,扫雷机与最近地雷的方向向量输出: 左轮力、 右轮力。,CBOW模型+Hierarchical Softmax方法,CBOW模型INPUT:输入层PROJECTI

4、ON:投影层OUTPUT:输出层w(t):当前词语(向量)w(t-2),w(t-1),w(t+1),w(t+2):当前词语的上下文SUM:上下文的累加和,CBOW模型+Hierarchical Softmax方法(续),哈夫曼树(霍夫曼树)又称为最优树.假设有n个权值,则构造出的哈夫曼树有n个叶子结点。 n个权值分别设为 w1、w2、wn,则哈夫曼树的构造规则为:(1) 将w1、w2、,wn看成是有n 棵树的森林(每棵树仅有一个结点);(2) 在森林中选出两个根结点的权值最小的树合并,作为一棵新树的左、右子树,且新树的根结点权值为其左、右子树根结点权值之和;(3)从森林中删除选取的两棵树,并将

5、新树加入森林;(4)重复(2)、(3)步,直到森林中只剩一棵树为止,该树即为所求得的哈夫曼树。,CBOW模型+Hierarchical Softmax方法(续),为什么建哈夫曼树?,非叶子结点为LR分类器,叶子结点对应词典中的一个词,目标:,目标:,Word2Vec设置了一个非常简单的能量函数 E(A,C)=-(AC),(内积),假如C可以分成G,H两类,又明确A属于Gp(AC)=p(A|G)p(G|C) 这样即把每次的p(AC)计算复杂度从O(N)降到O(LogN),CBOW模型+Hierarchical Softmax方法(续),句子:我,喜欢,观看,巴西,足球,世界杯w=足球,CBOW模

6、型+Hierarchical Softmax方法(续),正类概率:负类概率:足球 叶子节点经过4次二分类由Context(足球)预测足球出现的概率,对于叶节点的每一个词,有一个全局唯一的编码,形如1001。在训练阶段,当给定上下文,要预测的词是w_t的时候,我们事先可以知道它的编码是1001。我们就从二叉树的根节点开始遍历,我们希望在根节点,隐层词向量Xw和与根节点相连经过logistic计算得到bit=1的概率尽量接近0,在第二层,希望其bit=1的概率尽量接近1,这么一直下去,我们把一路上计算得到的概率相乘,即得到目标词w_t在当前网络下的概率P(w_t),那么对于当前这个sample的残

7、差就是1-P(w_t)损失函数就是要最小化 这个残差,word2vec实战(一),训练数据集:经过分词后的新闻数据,大小184MB查看中国,钓鱼岛,旅游,苹果几个词语的相似词语如下所示,word2vec实战(一),向量加减法中国+北京-日本,中国+北京-法国,家庭+孩子-学校,word2vec应用(一),机器翻译语言词语的关系集合被表征为向量集合向量空间内,不同语言享有许多共性实现一个向量空间到另一个向量空间的映射和转换图为英语和西班语的五个词在向量空间中的位置(已经过降维)对英语和西班语之间的翻译准确率高达90%,word2vec应用(三),给广告主推荐用户T媒体网站用户浏览网页的记录pag

8、eH是匹克体育用品公司在T上的官网page2,page3,page5和pageH是比较相似的页面可给匹克体育用品公司推荐经常浏览page2,3,5这个几个页面的用户进行广告投放,word2vec应用(三),相似的页面计算过程,word2vec应用(三)续,对预估模型的帮助新广告上线存在冷启动问题通过比较相似的广告的点击率来预估这个广告的点击率由上个例子可得到每个页面的向量,然后通过Kmeans进行聚类,得到比较相似页面的簇?向页面向量添加其它的特征,例如广告主所属的行业和地域等假设页面p1的向量是(0.3,-0.5,0.1),加入行业和地域信息后为(0.3,-0.5,0.1,1,0),1和0分别表示行业和地域的特征值这样得到的聚类效果相对更好,thank you !Q&A,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。