1樓:無敵小綿羊啊
# -*- coding: utf-8 -*-import jieba
import jieba.posseg as psegimport jieba.analyse#jieba.
load_userdict('userdict.txt')#jieba預設有一個dict.txt詞庫,但可以根據自己需要加入自己的詞條
2樓:匿名使用者
# -*- coding: utf-8 -*-
import jieba
__author__ = 'lpe234'
seg_list = jieba.cut("我來到北京天安門", cut_all=true)
print ','.join(seg_list)
building prefix dict from the default dictionary ...
loading model from cache /var/folders/sv/cbmmknss3zx9rg7s3wsqgdsc0000gn/t/jieba.cache
我,來到,北京,天安,天安門
loading model cost 0.433 seconds.
prefix dict has been built succesfully.
process finished with exit code 0
3樓:上外培訓中心點
這個是要監控敏感詞嗎???
4樓:匿名使用者
python**
#encoding=utf-8
import jieba
seg_list = jieba.cut("我來到北京清華大學
",cut_all=true)
print "full mode:", "/ ".join(seg_list) #全模式
seg_list = jieba.cut("我來到北京清華大學",cut_all=false)
print "default mode:", "/ ".join(seg_list) #預設模式
seg_list = jieba.cut("他來到了網易杭研大廈")
print ", ".join(seg_list)
#encoding=utf-8
import jieba
seg_list = jieba.cut("我來到北京清華大學",cut_all=true)
print "full mode:", "/ ".join(seg_list) #全模式
seg_list = jieba.cut("我來到北京清華大學",cut_all=false)
print "default mode:", "/ ".join(seg_list) #預設模式
seg_list = jieba.cut("他來到了網易杭研大廈")
print ", ".join(seg_list)
輸出full mode: 我/ 來/ 來到/ 到/ 北/ 北京/ 京/ 清/ 清華/ 清華大學/ 華/ 華大/ 大/ 大學/ 學
default mode: 我/ 來到/ 北京/ 清華大學
他, 來到, 了, 網易, 杭研, 大廈 (此處,「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了)
怎麼是用python 語言 使用結巴分詞 呢
5樓:匿名使用者
基於trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(dag)
採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合
對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了viterbi演算法
功能 1):分詞
jieba.cut方法接受兩個輸入引數: 1) 第一個引數為需要分詞的字串 2)cut_all引數用來控制是否採用全模式
jieba.cut_for_search方法接受一個引數:需要分詞的字串,該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細
注意:待分詞的字串可以是gbk字串、utf-8字串或者unicode
jieba.cut以及jieba.cut_for_search返回的結構都是一個可迭代的generator,可以使用for迴圈來獲得分詞後得到的每一個詞語(unicode),也可以用list(jieba.
cut(...))轉化為list
**示例( 分詞 )
#encoding=utf-8
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all=true)
print "full mode:", "/ ".join(seg_list) # 全模式
seg_list = jieba.cut("我來到北京清華大學", cut_all=false)
print "default mode:", "/ ".join(seg_list) # 精確模式
seg_list = jieba.cut("他來到了網易杭研大廈") # 預設是精確模式
print ", ".join(seg_list)
seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜尋引擎模式
print ", ".join(seg_list)
output:
【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學
【精確模式】: 我/ 來到/ 北京/ 清華大學
【新詞識別】:他, 來到, 了, 網易, 杭研, 大廈 (此處,「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了)
【搜尋引擎模式】: 小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造
功能 2) :新增自定義詞典
開發者可以指定自己自定義的詞典,以便包含jieba詞庫裡沒有的詞。雖然jieba有新詞識別能力,但是自行新增新詞可以保證更高的正確率
用法: jieba.load_userdict(file_name) # file_name為自定義詞典的路徑
詞典格式和dict.txt一樣,一個詞佔一行;每一行分三部分,一部分為詞語,另一部分為詞頻,最後為詞性(可省略),用空格隔開
範例:之前: 李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 雲 / 計算 / 方面 / 的 / 專家 /
載入自定義詞庫後: 李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 雲端計算 / 方面 / 的 / 專家 /
自定義詞典
用法示例
"通過使用者自定義詞典來增強歧義糾錯能力
功能 4) : 詞性標註
標註句子分詞後每個詞的詞性,採用和ictclas相容的標記法
用法示例
>>> import jieba.posseg as pseg
>>> words = pseg.cut("我愛北京天安門")
>>> for w in words:
... print w.word, w.flag
...我 r
愛 v北京 ns
天安門 ns
功能 5) : 並行分詞
原理:將目標文字按行分隔後,把各行文字分配到多個python程序並行分詞,然後歸併結果,從而獲得分詞速度的可觀提升
基於python自帶的multiprocessing模組,目前暫不支援windows
用法:jieba.enable_parallel(4) # 開啟並行分詞模式,引數為並行程序數
jieba.disable_parallel() # 關閉並行分詞模式
例子
實驗結果:在4核3.4ghz linux機器上,對金庸全集進行精確分詞,獲得了1mb/s的速度,是單程序版的3.3倍。
功能 6) : tokenize:返回詞語在原文的起始位置
注意,輸入引數只接受unicode
預設模式
result = jieba.tokenize(u'永和服裝飾品****')
for tk in result:
print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])
word 永和 start: 0 end:2
word 服裝 start: 2 end:4
word 飾品 start: 4 end:6
word **** start: 6 end:10
搜尋模式
result = jieba.tokenize(u'永和服裝飾品****',mode='search')
for tk in result:
print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])
word 永和 start: 0 end:2
word 服裝 start: 2 end:4
word 飾品 start: 4 end:6
word 有限 start: 6 end:8
word 公司 start: 8 end:10
word **** start: 6 end:10
功能 7) : chineseanalyzer for whoosh搜尋引擎
引用: from jieba.analyse import chineseanalyzer
用法示例
其他詞典
佔用記憶體較小的詞典檔案
支援繁體分詞更好的詞典檔案
Android SDK環境下如何使用adb軟體
adb軟體是在後臺執行的,要想sdk中的adb.exe被eclipse發現,必須將其放在tools資料夾中,新版的sdk中的adb.exe一般放在platform中。android sdk adb怎麼安裝 您只需要找到eclipse或者androidstudio安裝目錄下的platform tool...
在Windows環境中,如何使用「畫圖」程式將桌面上「我的電
用qq截圖就行 另存為選jpg window7電腦桌面圖示格式是什麼?我如何把自己設計的 做為新建資料夾的圖示?那是因為系統文來件夾圖源標是有要求的,格式是ico,大小是64px 64px,按照下面的來做吧,第一步 找一個你喜歡的圖案儲存為bmp格式,然後更改副檔名 將後面的 bmp 改為 ico ...
macbookair在蘋果系統下怎麼使用
採用mac os x的蘋果電腦,其自帶的辦公軟體pages是可以直接開啟.doc 格式的word文件的。如果覺得效果不夠理想,可以自行搜尋或購買微軟為蘋果開發的microsoft office for mac,最新版是2011,基本完美處理所有office文件。如圖所示,為office的三個軟體,目...