python 包之 jieba 分词模式教程

一、安装

jieba是一个优秀的中文分词库
其分词依靠中文词库，利用词库确定汉子之间关联的概率
通过汉字之间的概率，形成分词结果

pip install jieba

二、精确模式

把词库精确区分开，不存在冗余词条
cut：返回一个可迭代的数据类型
lcut：返回一个列表类型，建议使用

import jieba

word = '伟大的中华人民共和国'

jieba.cut(word)
jieba.lcut(word)

三、全模式

将词库中的所有可能的词语都扫描出来，有冗余
cut：输出文本中所有可能的单词
lcut：返回一个列表类型，建议使用

import jieba

word = '伟大的中华人民共和国'

jieba.cut(word, cut_all=True)
jieba.lcut(word, cut_all=True)

四、搜索引擎模式

在精确模式基础上，对词进行再次切分
cut_for_search：适合搜索引擎建立索引的分词结果
lcut_for_search：返回一个列表类型，建议使用

import jieba

word = '伟大的中华人民共和国'

jieba.cut_for_search(word)
jieba.lcut_for_search(word)

五、增加新词

除了分词，用户可以自定义添加词组
向分词词典中增加新词
然后使用jieba分词时将带上加入的新词进行一起区分

import jieba

jieba.add_word('最好的语言')

极客python python包教程

相关

标签