1.Introduction
- 输入:可以是dense也可以是sparse。
- combinatorial features/cross features/multi-way features很重要,但是需要人工设计。
2.Related Work
- Neocognitron network(1980s):部分连通结构保证了平移不变性。
- CNN发展很猛,超过了sift特征:深度学习可以超越专家手动设计特征。
- DSSM:学习字符串之间的语义相似性,每个字符串由一个tri-letter grams稀疏表示,最终通过余弦距离计算相似度。
- FM:dense特征表现差。
3.SPONSORED SEARCH
- 广告系统
- keyword:
- Query
- Keyword:广告主买的词,来匹配用户的query。
- Title:广告标题
- Landing page:落地页,点击广告后跳到的页面。
- Match type:精准、短语、上下文
- Campaign:广告主在一段明确的期间里(如一年),推出一系列拥有共同主题或讯息的广告,以期建立广告讯息的累积效果,塑造品牌与企业一致的形象,并给予目标受众持续而深刻的刺激与冲击。
- Impression:一个ad被展示给一个user。
- Click
- Click through rate
- Click Prediction
4.特征表示
4.1独立特征
- 离散特征可以离散为onhot后取数量最多的,去除其余的。
- count
4.2组合特征
- onehot
- count
5.模型结构
- 输入只有独立特征
- 损失函数:logloss、softmax
5.1Embedding Layer
- 当embedding维度小于特征数,embedding被用来减少输入特征的维度。本文低于256维的跳过embedding层,直接concate进embedding的输出,embedding层的输入+低维变量,合并为k维特征进入stacking层。
- embedding的维度对模型大小有很大影响。
5.2Stacking Layers
- embedding出来后加上偏置b后接ReLU激活,然后concate起来。
5.3Residual Layers
- Residual layer用来拟合残差,有numerical advantage。
5.4Early Crossing VS Late Crossing
- 在DeepCrossing中,特征是在Embedding之后就开始进行交叉,但是有一些模型如DSSM,是在各类特征单独处理完成之后再进行交叉计算
- DSSM延迟特征交互(crossing),在前向传播的后面执行特征交互。
- Deep Crossing开始就特征交互,更好。
6.实现
-
CNTK
-
4张k40
7.实验
- 神经元:256、512、512、256、128、64
7.1表现
- 一对文本输入任务(CP1):logloss DSSM VS Deep Crossing,Deep Crossing更好。
- CP2:Deep Crossing更好