1.Introduction

User response prediction问题：离散、categorical、multi-field
基于onehot编码的线性模型：易实现、训练高效、性能差（不能捕捉非独立特征之间的交互）
- LR
- 朴素贝叶斯
- FTRL
非深度学习非线性模型：性能好、不能充分使用所有不同的特征组合、泛化能力受到限制（浅层模型、复杂数据表达能力有限）。
- FM：将item和user的特征映射到低维连续空间。
- 梯度提升树
深度学习非线性模型（DNN）：探索局部相关性，建立特征空间的密集表示，使神经网络模型能够有效地直接学习高阶特征原始特征输入。

3.DNNs for CTR Estimation given Categorical Features

input层：
- 是全连接层，不区分不同field，用sigmoid函数激活。
- 用对比散度的RBM和DAE来预训练。
- 提出sample-based RBM（SNN-RBM）、sampling-based DAE（SNN-DAE）来降低pre-training时的计算复杂度。

FM中进行特征组合，使用的是隐向量点积。将FM得到的隐向量移植到DNN中接入全连接层，全连接本质是将输入向量的所有元素进行加权求和，且不会对特征Field进行区分，也就是说FNN中高阶特征组合使用的是全部隐向量元素相加的方式。说到底，在理解特征组合的层面上FNN与FM是存在Gap的，而这一点也正是PNN对其进行改进的动力。
在神经网络的调参过程中，参数学习率是很重要的。况且FNN中底层参数是通过FM预训练而来，如果在进行反向传播更新参数的时候学习率过大，很容易将FM得到的信息抹去。个人理解，FNN至少应该采用Layer-wise learning rate，底层的学习率小一点，上层可以稍微大一点，在保留FM的二阶交叉信息的同时，在DNN上层进行更高阶的组合。