模式
- 默认模式,试图将句子最精确地切开,适合文本分析
- 全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎
接口
- 组件只提供
jieba.cut方法用于分词
cut方法接受两个输入参数:
- 第一个参数为需要分词的字符串
cut_all参数用来控制分词模式
- 待分词的字符串可以是gbk字符串、
utf-8字符串或者unicode
jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list.
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print("Full Mode:", ' '.join(seg_list))
## Building prefix dict from the default dictionary ...
## Loading model from cache C:\Users\LIANGX~1\AppData\Local\Temp\jieba.cache
## Loading model cost 0.823 seconds.
## Prefix dict has been built succesfully.
## Full Mode: 我 来到 北京 清华 清华大学 华大 大学
import jieba
seg_list = jieba.cut("我来到北京清华大学")
print("Default Mode:", ' '.join(seg_list))
## Building prefix dict from the default dictionary ...
## Loading model from cache C:\Users\LIANGX~1\AppData\Local\Temp\jieba.cache
## Loading model cost 0.823 seconds.
## Prefix dict has been built succesfully.
## Default Mode: 我 来到 北京 清华大学