python 包之 jieba 分词模式教程
一、安装
-
jieba是一个优秀的中文分词库
-
其分词依靠中文词库,利用词库确定汉子之间关联的概率
-
通过汉字之间的概率,形成分词结果
pip install jieba
二、精确模式
-
把词库精确区分开,不存在冗余词条
-
cut:返回一个可迭代的数据类型
-
lcut:返回一个列表类型,建议使用
import jieba
word = '伟大的中华人民共和国'
jieba.cut(word)
jieba.lcut(word)
三、全模式
-
将词库中的所有可能的词语都扫描出来,有冗余
-
cut:输出文本中所有可能的单词
-
lcut:返回一个列表类型,建议使用
import jieba
word = '伟大的中华人民共和国'
jieba.cut(word, cut_all=True)
jieba.lcut(word, cut_all=True)
四、搜索引擎模式
-
在精确模式基础上,对词进行再次切分
-
cut_for_search:适合搜索引擎建立索引的分词结果
-
lcut_for_search:返回一个列表类型,建议使用
import jieba
word = '伟大的中华人民共和国'
jieba.cut_for_search(word)
jieba.lcut_for_search(word)
五、增加新词
-
除了分词,用户可以自定义添加词组
-
向分词词典中增加新词
-
然后使用jieba分词时将带上加入的新词进行一起区分
import jieba
jieba.add_word('最好的语言')