分词与词性标注

1.定义

  • 分词:和中文相比,英语切分问题较为容易。
  • 词性标注: 确定当前上下文中每个词是名词、动词、形容词或其他词性的过程。

2.重要性

  • 分词是汉语句子分析的基础。
  • 中文的语义与字词的搭配相关。
  • 词语的分析具有广泛的应用,互联网绝大多数应用都需要分词

3.应用

  • 汉字处理:拼音输入法、手写识别、简繁转换
  • 信息检索:Google 、 Baidu
  • 内容分析:机器翻译、广告推荐、内容监控
  • 语音处理:语音识别、语音合成

4.难点

  • 汉语中,字、词、词素和词组的界限模糊
    • 交集型歧义:对于汉字串ABC,AB、 BC同时成词
      • 中国人/为了/实现/自己/的梦想
      • 中国/人为/了/实现/自己/的/梦想
    • 组合型歧义 :对于汉字串AB,A、 B、 AB同时成词
      • 门/ 把/ 手/ 弄/ 坏/ 了/ 。
      • 门/ 把手/ 弄/ 坏/ 了/ 。
    • 真歧义:歧义字段在不同的语境中确实有多种切分形式
      • 乒乓球拍/卖/完了
      • 乒乓球/拍卖/完了
  • 未登录词识别
    • 实体名词和专有名词
    • 专业术语和新词语

5.评价

5.1手段

  • 封闭测试:测试集从训练集出
  • 开放测试:测试集不从训练集出

  • 专项测试:特定领域/特定类型
  • 总体测试:反映分词系统的综合效果

5.2指标

  • 正确率

  • 召回率

  • F值:正确率与召回率的综合值,通常β=1。

    (β2+1)PR/β2*P+R

6.方法

6.1基于词典

6.1.1正向最大匹配法

6.1.2反向最大匹配法

6.1.3最短路径法(最少分词法)

首先,对句子进行所有可能的原子切分,然后根据大词典,构造一个有向无环图,俗称DAG(Directed Acyclic Graph),每个可能分词对应DAG的一条边,每条边有一定的权重。因此,分词问题转化成了求DAG中起点到终点的最短路径问题。 如下就是句子“商品和服务”的分词可能性。

6.1.4优缺点

  • 优点:简单易行、开发周期短;仅需要很少的语言资源(词表),不需要任何词法、句法、语义资源
  • 缺点:歧义消解能力差;正确率不高

6.2基于规则

6.3基于统计

6.3.1生成式

6.3.1.1HMM

  • 见李航《统计学习方法》。
  • 将单词作为显状态,将词性作为隐状态。

6.3.1.2PCFG

6.3.1.3优缺点

  • 优点:语料多的情况下正确率高
  • 缺点:训练语料的规模和覆盖领域不好把握。模型实现复杂、计算量较大。

6.3.2判别式

把分词问题转化为确定句中每个字在词中位置问题,每个字在词中可能的位置可以分为以下四种:B、M、E、S。

6.3.2.1Maxent

  • 见李航《统计学习方法》。
  • 用A表示条件集合,B表示结论集合。 随机事件X=(α,β)∈A×B,其中α∈A,β∈B。假设已知αn+1,如何预测βn+1。只需求解一个X的概率分布,使得X的分布与已知的样本分布一致且X的熵最大即可。
    • 特征表示:使用最大熵特征模板,对训练语料库中每个汉字生成一个实例,设当前字是当前字是C0 、标记是T0,常用特征模板如下:
      • Cn T0(n =-2,-1, 0, 1, 2):当前字符的前后两个位置的字符
      • CnCn+1 T0(n =-2,-1, 0, 1):两字组
      • C-1C1 T0 :当前字左右两个字
      • D(C0)T0 :当前字是否数字
      • A(C0)T0 :当前字是否字母
      • P(C0)T0 :当前字是否标点
    • 参数训练:
    • 预测:
      • 对于输入串中每一个汉字以及该汉字的每一个可能的标记,生成一个实例,这样对每个汉字就生成了四个实例
      • 对这每个实例,生成其所有激活的特征,计算这些特征所对应的概率
      • 选取可能性最大的标记为该字的标记
    • 搜索最优标注路径 :同维特比算法
      • 有些边是非法的,比如M→B,E→M,E→E,S→M,S→E,等等
      • 每条路径的概率是路径上各节点标注概率P(标记 汉字)之积,边上没有转移概率
  • 开源工具:Maximum Entropy Modeling Toolkit for Python and C++ 。

6.3.2.2SVM

6.3.2.3CRF

  • 见李航《统计学习方法》。
  • 开源工具:CRF++
6.3.2.4感知机

6.3.2.5优缺点

  • 优点:精度高,新词识别率高
  • 缺点:训练速度慢,性能与特征紧密相连,需要人工标注训练语料

6.4对比

7.常用工具

  1. BosonNLP
  2. IKAnalyzer
  3. NLPIR
  4. SCWS
  5. 结巴分词
  6. 盘古分词
  7. 庖丁解牛
  8. 搜狗分词
  9. 腾讯文智
  10. 新浪云
  11. 语言云