小菜菜程序媛

A blog-orientation theme for Frieda

Love coding, coding love me!.


github address

DSSM系列论文笔记

Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

DSSM:深度语义模型,主要目的是计算query和document的相似度,该模型是通过将文本数据已经用户的点击历史记录映射到一个相同维度的语义空间,计算query和doc之间的cosine相似度来返回query的召回集合。DSSM是一个监督学习的过程,假定query和点击doc是相关的,通过监督 学习的方法学习模型参数,目标函数是最大化点击的似然函数,即点击文档概率的交叉熵。

从这个图来看,DSSM将30k维度的输入经过3层DNN,将Query与Doc降低到相同的128空间,通过cosine测度度量5个doc(包含一个相关, 4个随机采样的不相关),最后统一通过softmax归一化。

论文中提出的 trick— word hashing 是针对英文预料的,该方法将一个word,前后家#,然后三个字母的切,这样两个不同的单词会产生相同的三元组,论文里面做了统计,500k个单词能够降维到30k,冲突概率仅有0.0044%。最后通过multi-hot编码的方式给对应位置上的元组置为1。这样做的好处是能够解决字典爆炸的问题,能够对unseen的单词特别鲁棒。

针对这个trick,对于中文文本如何处理呢?

对中文来说有效的操作是分词,常用的双字量级大约是百万级别,所以向量空间比较大,采用字的onehot比较合适,大概是1.5w左右。此处有人采用了偏旁和部首的方式处理。?

***该模型的优缺点分析:

优点:DSSM采用统一的有监督训练,不需要在中建过程做无监督模型的映射,因此精准度比较高。

缺点:采用的是词袋模型(Bow),因此丧失了语序信息和上下文信息。

最近的文章

无root权限安装zsh

在很多情况下,我们安装是拿不到root权限的,比如公司的开发机,或者学校服务器的某一个账号。更糟糕的是,可能这台机器还是不允许连接外网的。本文主要是记录下在zsh安装过程中踩的坑。step 1:安装依赖nurses执行以下操作就可以了# Download the ncurses gzipped tarballwget ftp://invisible-island.net/ncurses/ncurses.tar.gz# Extract gzipped tarballtar -zxvf ncu...…

note, zsh继续阅读
更早的文章

面试中的计算机基础

在找计算机相关的工作时,有一些基础是作为计算机学生必须了解的,总结如下排序算法归并排序标准归并排序的实现,可以是通过递归,平均时间复杂度是O(nlogn),空间复杂度是O(n)def mergeSort(nums, left, right): if left >= right: return nums mid = left + (right - left) /2 mergeSort(nums, left, mid) mergeSort(nums,...…

interview继续阅读