0.Abstract

1.skip-gram模型

$\arg\max_\theta \prod_{(w,c)\in D}p(c|w;\theta)$

概率化：使用softmax $p(c|w;\theta) = { e^{v_c \cdot v_w} \over \sum_{c’ \in C}e^{v’_c \cdot v_w}}$
$\arg \max_\theta \sum_{(w,c)\in D}logp(c|w) = \sum_{(w,c)\in D}(loge^{v_c \cdot v_w}-log\sum_{c’}e^{v_{c’}\cdot v_w})$
这里以下式子计算量特别大，可以用层次softmax解决。 $\sum_{c’ \in C}e^{v’_c \cdot v_w}$

负采样基于skip-gram，事实上其优化了一个不同的目标函数。
目标函数： $\begin{align} &\arg\max_\theta \prod_{(w,c)\in D}p(D=1|w,c;\theta) \\ = & \arg\max_\theta log \prod_{(w,c)\in D}p(D=1|w,c;\theta)\\ = & \arg\max_\theta \sum_{(w,c)\in D}logp(D=1|w,c;\theta) \end{align}$
由sigmoid，其中： $p(D=1|w,c;\theta)={1 \over {1+e^{-v_c \cdot v_w}}}$
则： $\begin{align} \arg \max_\theta \sum_{(w,c)\in D}log{1 \over {1+e^{-v_c \cdot v_w}}} \end{align}$

这个目标函数存在一个问题，如果我们设定θ使得每一对(w,c)的p(D=1

w,c;θ)=1，那这个目标函数就无意义了。只要设置θ，使得vc=vw且vc⋅vw足够大，则上述这种情况就很容易出现（在Goldberg[1]的实验中当vc⋅vw≈40时，概率就为1了）。

因为为了避免所有向量都是相同的值，可以去掉某些(w,c)的组合，即可以随机选择(w,c)对中的一部分作为负例。
目标函数变为： $\begin{align} & \arg\max_\theta \prod_{(w,c)\in D}p(D=1|c,w;\theta) \prod_{(w,c)\in D’}p(D=0|c,w;\theta) \\ = & \arg \max_\theta \prod_{(w,c)\in D}p(D=1|c,w;\theta) \prod_{(w,c)\in D’}(1-p(D=1|c,w;\theta)) \\ = & \arg \max_\theta \sum_{(w,c)\in D}logp(D=1|c,w;\theta) + \sum_{(w,c)\in D’}log(1-p(D=1|c,w;\theta)) \\ = & \arg \max_\theta \sum_{(w,c)\in D}log{1 \over {1+e^{-v_c \cdot v_w}}}+ \sum_{(w,c)\in D’}log(1-{1 \over {1+e^{-v_c \cdot v_w}}}) \\ \\ =& \arg \max_\theta \sum_{(w,c)\in D}log\sigma(v_c \cdot v_w)+ \sum_{(w,c)\in D’}log\sigma(-v_c \cdot v_w) \end{align}$
这个目标函数表面的含义也可以理解为要尽量增大正例的(vc⋅vw)数据对，而尽量降低负例的(vc⋅vw)数据对。词与词之间，若其上下文很相近，则他们本身也很相似。
与skip-gram不同，本公式不对p（c w）建模，而是模拟与w和c的联合分布相关的数量。