1.定义
- 分词:和中文相比,英语切分问题较为容易。
- 词性标注: 确定当前上下文中每个词是名词、动词、形容词或其他词性的过程。
2.重要性
- 分词是汉语句子分析的基础。
- 中文的语义与字词的搭配相关。
- 词语的分析具有广泛的应用,互联网绝大多数应用都需要分词
3.应用
- 汉字处理:拼音输入法、手写识别、简繁转换
- 信息检索:Google 、 Baidu
- 内容分析:机器翻译、广告推荐、内容监控
- 语音处理:语音识别、语音合成
4.难点
- 汉语中,字、词、词素和词组的界限模糊
- 交集型歧义:对于汉字串ABC,AB、 BC同时成词
- 中国人/为了/实现/自己/的梦想
- 中国/人为/了/实现/自己/的/梦想
- 组合型歧义 :对于汉字串AB,A、 B、 AB同时成词
- 门/ 把/ 手/ 弄/ 坏/ 了/ 。
- 门/ 把手/ 弄/ 坏/ 了/ 。
- 真歧义:歧义字段在不同的语境中确实有多种切分形式
- 乒乓球拍/卖/完了
- 乒乓球/拍卖/完了
- 交集型歧义:对于汉字串ABC,AB、 BC同时成词
- 未登录词识别
- 实体名词和专有名词
- 专业术语和新词语
5.评价
5.1手段
- 封闭测试:测试集从训练集出
-
开放测试:测试集不从训练集出
- 专项测试:特定领域/特定类型
- 总体测试:反映分词系统的综合效果
5.2指标
-
正确率
-
召回率
-
F值:正确率与召回率的综合值,通常β=1。
(β2+1)PR/β2*P+R
6.方法
6.1基于词典
6.1.1正向最大匹配法
6.1.2反向最大匹配法
6.1.3最短路径法(最少分词法)
首先,对句子进行所有可能的原子切分,然后根据大词典,构造一个有向无环图,俗称DAG(Directed Acyclic Graph),每个可能分词对应DAG的一条边,每条边有一定的权重。因此,分词问题转化成了求DAG中起点到终点的最短路径问题。 如下就是句子“商品和服务”的分词可能性。
6.1.4优缺点
- 优点:简单易行、开发周期短;仅需要很少的语言资源(词表),不需要任何词法、句法、语义资源
- 缺点:歧义消解能力差;正确率不高
6.2基于规则
6.3基于统计
6.3.1生成式
6.3.1.1HMM
- 见李航《统计学习方法》。
- 将单词作为显状态,将词性作为隐状态。
6.3.1.2PCFG
6.3.1.3优缺点
- 优点:语料多的情况下正确率高
- 缺点:训练语料的规模和覆盖领域不好把握。模型实现复杂、计算量较大。
6.3.2判别式
把分词问题转化为确定句中每个字在词中位置问题,每个字在词中可能的位置可以分为以下四种:B、M、E、S。
6.3.2.1Maxent
- 见李航《统计学习方法》。
- 用A表示条件集合,B表示结论集合。 随机事件X=(α,β)∈A×B,其中α∈A,β∈B。假设已知αn+1,如何预测βn+1。只需求解一个X的概率分布,使得X的分布与已知的样本分布一致且X的熵最大即可。
- 特征表示:使用最大熵特征模板,对训练语料库中每个汉字生成一个实例,设当前字是当前字是C0 、标记是T0,常用特征模板如下:
- Cn T0(n =-2,-1, 0, 1, 2):当前字符的前后两个位置的字符
- CnCn+1 T0(n =-2,-1, 0, 1):两字组
- C-1C1 T0 :当前字左右两个字
- D(C0)T0 :当前字是否数字
- A(C0)T0 :当前字是否字母
- P(C0)T0 :当前字是否标点
- 参数训练:
- 预测:
- 对于输入串中每一个汉字以及该汉字的每一个可能的标记,生成一个实例,这样对每个汉字就生成了四个实例
- 对这每个实例,生成其所有激活的特征,计算这些特征所对应的概率
- 选取可能性最大的标记为该字的标记
- 搜索最优标注路径 :同维特比算法
- 有些边是非法的,比如M→B,E→M,E→E,S→M,S→E,等等
-
每条路径的概率是路径上各节点标注概率P(标记 汉字)之积,边上没有转移概率
- 特征表示:使用最大熵特征模板,对训练语料库中每个汉字生成一个实例,设当前字是当前字是C0 、标记是T0,常用特征模板如下:
- 开源工具:Maximum Entropy Modeling Toolkit for Python and C++ 。
6.3.2.2SVM
6.3.2.3CRF
- 见李航《统计学习方法》。
- 开源工具:CRF++
6.3.2.4感知机
6.3.2.5优缺点
- 优点:精度高,新词识别率高
- 缺点:训练速度慢,性能与特征紧密相连,需要人工标注训练语料
6.4对比
7.常用工具
- BosonNLP
- IKAnalyzer
- NLPIR
- SCWS
- 结巴分词
- 盘古分词
- 庖丁解牛
- 搜狗分词
- 腾讯文智
- 新浪云
- 语言云