python中文分词：结巴分词

模式

默认模式，试图将句子最精确地切开，适合文本分析
全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎

接口

组件只提供jieba.cut方法用于分词
cut方法接受两个输入参数：
- 第一个参数为需要分词的字符串
- cut_all参数用来控制分词模式
待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
jieba.cut返回的结构是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list.

import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print("Full Mode:", ' '.join(seg_list))

## Building prefix dict from the default dictionary ...
## Loading model from cache C:\Users\LIANGX~1\AppData\Local\Temp\jieba.cache
## Loading model cost 0.823 seconds.
## Prefix dict has been built succesfully.
## Full Mode: 我 来到 北京 清华 清华大学 华大 大学

import jieba
seg_list = jieba.cut("我来到北京清华大学")
print("Default Mode:", ' '.join(seg_list))

## Building prefix dict from the default dictionary ...
## Loading model from cache C:\Users\LIANGX~1\AppData\Local\Temp\jieba.cache
## Loading model cost 0.823 seconds.
## Prefix dict has been built succesfully.
## Default Mode: 我 来到 北京 清华大学