分词与词性标注

发表于 2018-01-02 | 分类于 nlp

1.定义

分词：和中文相比，英语切分问题较为容易。
词性标注：确定当前上下文中每个词是名词、动词、形容词或其他词性的过程。

2.重要性

分词是汉语句子分析的基础。
中文的语义与字词的搭配相关。
词语的分析具有广泛的应用，互联网绝大多数应用都需要分词

3.应用

汉字处理：拼音输入法、手写识别、简繁转换
信息检索：Google 、 Baidu
内容分析：机器翻译、广告推荐、内容监控
语音处理：语音识别、语音合成

4.难点

汉语中，字、词、词素和词组的界限模糊
- 交集型歧义：对于汉字串ABC，AB、 BC同时成词
  - 中国人/为了/实现/自己/的梦想
  - 中国/人为/了/实现/自己/的/梦想
- 组合型歧义：对于汉字串AB，A、 B、 AB同时成词
  - 门/ 把/ 手/ 弄/ 坏/ 了/ 。
  - 门/ 把手/ 弄/ 坏/ 了/ 。
- 真歧义：歧义字段在不同的语境中确实有多种切分形式
  - 乒乓球拍/卖/完了
  - 乒乓球/拍卖/完了
未登录词识别
- 实体名词和专有名词
- 专业术语和新词语

5.评价

5.1手段

封闭测试：测试集从训练集出
开放测试：测试集不从训练集出
专项测试：特定领域/特定类型
总体测试：反映分词系统的综合效果

5.2指标

正确率
召回率
F值：正确率与召回率的综合值，通常β=1。

(β2+1)PR/β2*P+R

6.方法

6.1基于词典

6.1.1正向最大匹配法

6.1.2反向最大匹配法

6.1.3最短路径法（最少分词法）

首先，对句子进行所有可能的原子切分，然后根据大词典，构造一个有向无环图，俗称DAG(Directed Acyclic Graph)，每个可能分词对应DAG的一条边，每条边有一定的权重。因此，分词问题转化成了求DAG中起点到终点的最短路径问题。如下就是句子“商品和服务”的分词可能性。

6.1.4优缺点

优点：简单易行、开发周期短；仅需要很少的语言资源（词表），不需要任何词法、句法、语义资源
缺点：歧义消解能力差；正确率不高

6.2基于规则

6.3基于统计

6.3.1生成式

6.3.1.1HMM

见李航《统计学习方法》。
将单词作为显状态，将词性作为隐状态。

6.3.1.2PCFG

6.3.1.3优缺点

优点：语料多的情况下正确率高
缺点：训练语料的规模和覆盖领域不好把握。模型实现复杂、计算量较大。

6.3.2判别式

把分词问题转化为确定句中每个字在词中位置问题，每个字在词中可能的位置可以分为以下四种：B、M、E、S。

6.3.2.1Maxent

见李航《统计学习方法》。

用A表示条件集合，B表示结论集合。随机事件X=(α,β)∈A×B，其中α∈A，β∈B。假设已知αⁿ⁺¹，如何预测βⁿ⁺¹。只需求解一个X的概率分布，使得X的分布与已知的样本分布一致且X的熵最大即可。

特征表示：使用最大熵特征模板，对训练语料库中每个汉字生成一个实例，设当前字是当前字是C0 、标记是T0，常用特征模板如下：
- Cn T0(n =-2,-1, 0, 1, 2)：当前字符的前后两个位置的字符
- CnCn+1 T0(n =-2,-1, 0, 1)：两字组
- C-1C1 T0 ：当前字左右两个字
- D(C0)T0 ：当前字是否数字
- A(C0)T0 ：当前字是否字母
- P(C0)T0 ：当前字是否标点
参数训练：
预测：
- 对于输入串中每一个汉字以及该汉字的每一个可能的标记，生成一个实例，这样对每个汉字就生成了四个实例
- 对这每个实例，生成其所有激活的特征，计算这些特征所对应的概率
- 选取可能性最大的标记为该字的标记

搜索最优标注路径：同维特比算法

有些边是非法的，比如M→B，E→M，E→E，S→M，S→E，等等

每条路径的概率是路径上各节点标注概率P(标记

汉字)之积，边上没有转移概率

开源工具：Maximum Entropy Modeling Toolkit for Python and C++ 。

6.3.2.2SVM

6.3.2.3CRF

见李航《统计学习方法》。
开源工具：CRF++

6.3.2.4感知机

6.3.2.5优缺点

优点：精度高，新词识别率高
缺点：训练速度慢，性能与特征紧密相连，需要人工标注训练语料

6.4对比

7.常用工具

BosonNLP
IKAnalyzer
NLPIR
SCWS
结巴分词
盘古分词
庖丁解牛
搜狗分词
腾讯文智
新浪云
语言云