1、深度学习之word2vec,学习、分享与交流陈凯2015/12/17,目录,基本概念模型与方法实战与应用,词向量,自然语言中的词语在机器学习中表示符号One-hot Representation例如:“话筒”表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 .“麦克”表示为 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 .实现时就可以用0,1,2,3,.来表示词语进行计算,这样“话筒”就为3,“麦克”为8.存在两个问题当文本丰富度较大时,维度过大词汇鸿沟:任意两个词之间都是孤立的,不能体现词和词之间的关系,词向量,Distributional Repre
2、sentation词表示为:0.792, 0.177, 0.107, 0.109, 0.542, .常见维度50或者100解决“词汇鸿沟”问题可以通过计算向量之间的距离(欧式距离、余弦距离等)来体现词与词的相似性如何训练这样的词向量没有直接的模型可训练得到可通过训练语言模型的同时,得到词向量,语言模型,判断一句话是不是正常人说出来的,用数学符号描述为给定一个字符串w1,w2,.,wt,计算它是自然语言的概率 ,一个很简单的推论是例如,有个句子大家,喜欢,吃,苹果P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)简单表示为计算 问题,语言模型,现
3、有模型N-gram模型N-pos模型.Bengio的NNLMC&W 的 SENNAM&H 的 HLBLMikolov 的 RNNLMHuang 的语义强化.,相似的词语拥有相似的语境,word2vec原理,两种模型,两种方法,简单神经网络,扫雷机的神经网络,权重向量: 0.3, -0.8, -0.2, 0.6, 0.1, -0.l, 0.4, 0.5 w1x1 + w2x2 + w3x3 +.+ wnxn = t输入: 扫雷机视角向量,扫雷机与最近地雷的方向向量输出: 左轮力、 右轮力。,CBOW模型+Hierarchical Softmax方法,CBOW模型INPUT:输入层PROJECTI
4、ON:投影层OUTPUT:输出层w(t):当前词语(向量)w(t-2),w(t-1),w(t+1),w(t+2):当前词语的上下文SUM:上下文的累加和,CBOW模型+Hierarchical Softmax方法(续),哈夫曼树(霍夫曼树)又称为最优树.假设有n个权值,则构造出的哈夫曼树有n个叶子结点。 n个权值分别设为 w1、w2、wn,则哈夫曼树的构造规则为:(1) 将w1、w2、,wn看成是有n 棵树的森林(每棵树仅有一个结点);(2) 在森林中选出两个根结点的权值最小的树合并,作为一棵新树的左、右子树,且新树的根结点权值为其左、右子树根结点权值之和;(3)从森林中删除选取的两棵树,并将
5、新树加入森林;(4)重复(2)、(3)步,直到森林中只剩一棵树为止,该树即为所求得的哈夫曼树。,CBOW模型+Hierarchical Softmax方法(续),为什么建哈夫曼树?,非叶子结点为LR分类器,叶子结点对应词典中的一个词,目标:,目标:,Word2Vec设置了一个非常简单的能量函数 E(A,C)=-(AC),(内积),假如C可以分成G,H两类,又明确A属于Gp(AC)=p(A|G)p(G|C) 这样即把每次的p(AC)计算复杂度从O(N)降到O(LogN),CBOW模型+Hierarchical Softmax方法(续),句子:我,喜欢,观看,巴西,足球,世界杯w=足球,CBOW模
6、型+Hierarchical Softmax方法(续),正类概率:负类概率:足球 叶子节点经过4次二分类由Context(足球)预测足球出现的概率,对于叶节点的每一个词,有一个全局唯一的编码,形如1001。在训练阶段,当给定上下文,要预测的词是w_t的时候,我们事先可以知道它的编码是1001。我们就从二叉树的根节点开始遍历,我们希望在根节点,隐层词向量Xw和与根节点相连经过logistic计算得到bit=1的概率尽量接近0,在第二层,希望其bit=1的概率尽量接近1,这么一直下去,我们把一路上计算得到的概率相乘,即得到目标词w_t在当前网络下的概率P(w_t),那么对于当前这个sample的残
7、差就是1-P(w_t)损失函数就是要最小化 这个残差,word2vec实战(一),训练数据集:经过分词后的新闻数据,大小184MB查看中国,钓鱼岛,旅游,苹果几个词语的相似词语如下所示,word2vec实战(一),向量加减法中国+北京-日本,中国+北京-法国,家庭+孩子-学校,word2vec应用(一),机器翻译语言词语的关系集合被表征为向量集合向量空间内,不同语言享有许多共性实现一个向量空间到另一个向量空间的映射和转换图为英语和西班语的五个词在向量空间中的位置(已经过降维)对英语和西班语之间的翻译准确率高达90%,word2vec应用(三),给广告主推荐用户T媒体网站用户浏览网页的记录pag
8、eH是匹克体育用品公司在T上的官网page2,page3,page5和pageH是比较相似的页面可给匹克体育用品公司推荐经常浏览page2,3,5这个几个页面的用户进行广告投放,word2vec应用(三),相似的页面计算过程,word2vec应用(三)续,对预估模型的帮助新广告上线存在冷启动问题通过比较相似的广告的点击率来预估这个广告的点击率由上个例子可得到每个页面的向量,然后通过Kmeans进行聚类,得到比较相似页面的簇?向页面向量添加其它的特征,例如广告主所属的行业和地域等假设页面p1的向量是(0.3,-0.5,0.1),加入行业和地域信息后为(0.3,-0.5,0.1,1,0),1和0分别表示行业和地域的特征值这样得到的聚类效果相对更好,thank you !Q&A,