基于python中jieba包的中文分词中详细使用


基于python中jieba包的中文分词中详细使用(一)

官方文档做一些自己的理解以及具体的介绍。本文主要内容也是从官网文档中获取。

MIT授权协议

有向无环图 (DAG)
  • 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
  • 对于未登录词,采用了基于汉字成词能力的 HMM (隐马尔科夫)模型,使用了 Viterbi 算法
  • https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small
    2.支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big
    下载你所需要的词典,然后覆盖 jieba/dict.txt 即可;或者用 jieba.set_dictionary('data/dict.txt.big')