導航:首頁 > 編程語言 > jieba分詞java

jieba分詞java

發布時間:2022-09-28 10:33:47

A. 用結巴分詞的java版本出現空指針異常錯誤,不知道該怎麼解決為什麼別人能運行出來呢

如果確定是dbHelper非空,目測應該是dbHelper取不到SQLiteDatabase實例,導致db.query拋空。請斷點調試檢查下。

有問題歡迎提問,有需要幫助可遠程,滿意請採納,THX。

B. jieba是個包還是庫

jieba 是一個中文分詞第三方庫,被稱為最好的 Python 中文分詞庫。

C. 誰來推薦一個JAVA的分詞工具

java讀取中文分詞工具:linger
Java開源中文分詞器
1、word分詞器
2、Ansj分詞器
3、Stanford分詞器
4、FudanNLP分詞器
5、Jieba分詞器
6、Jcseg分詞器
7、MMSeg4j分詞器
8、IKAnalyzer分詞器
9、Paoding分詞器
10、smartcn分詞器

D. 怎麼是用python 語言 使用結巴分詞 呢

Python代碼

#encoding=utf-8
importjieba

seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式

seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)

輸出:

FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學

DefaultMode:我/來到/北京/清華大學

他,來到,了,網易,杭研,大廈(此處,「杭研」並沒有在詞典中,但是也被Viterbi演算法識別出來了)

E. windows 中elasticsearch jieba 分詞安裝 插件怎麼裝

Elasticsearch是一個全文搜索引擎。安裝Elasticsearch時需要先安裝Java。要求的jdk版本1.7以上的。以下是官方文檔:.Specificallyasofthiswriting,

F. 在線等,比較急!!!我用java版的結巴分詞寫了一段代碼,怎樣將它輸出到指定的txt文件

String str = segmenter.sentenceProcess(s);
System.out.println(str);
BufferedWriter out = new BufferedWriter(new FileWriter("F:\\out.txt"));
out.append(str);

G. 技巧 - 分詞 - 中英文分詞的區別

1、根據空格拆分單詞(split)
2、刪除停止詞
3、提取詞干(最終得到特徵的一步token、 term)

例子:Machine learning is a field of computer science that uses statistical techniques to givecomputer systems the ability to learn from data.

步驟1: 英文由標點符號、空格、單片語成,所以只用根據空格和標點符號將詞語分開。

步驟2: 刪除停止詞
停止詞: stop words
在英文中 is a of that to with from

使用頻率比較高的詞語,實際上是冠詞、介詞、連詞,如果將這些詞語都放入模型當中進行訓練,那麼會大幅度影響模型的訓練效率。

(machine, learning, field, computer, science, uses, statistical, techniques, systems,ability, learn, data}

步驟3: 提取詞干

這一步主要針對的是西方語言來說的(英語、拉丁語、法語等等)。用以上例子來說,learning, learn包含了相同的詞干learn,所以在大多數提取特徵的方法中,會將learn和learning合並為- -一個term。(machine, learn, field, computer, science, use, statistical, technique, system, ability,data }

和英文不同,中文語句是由連續的字元組成序列後呈現的,沒有像英文一樣的分隔符,所以相對來說,中文分詞要稍微的困難一些。

一句沒有標點符號的句子,如果加上的標點符號不同,意思千差萬別。
例子: 無米面也可無雞鴨也可無魚肉也可無銀錢也可
無米面也可,無雞鴨也可,無魚肉也可,無銀錢也可。
無米,面也可;無雞,鴨也可;無魚,肉也可;無銀,錢也可。

對於目前的中文分詞來說,許多網路用語也比較難以分割。不明|覺|厲。

在python當中,我們使用了 jieba分詞
jieba分詞的原理
1、基於trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖DAG;
2、採用動態規劃查找最大路徑、找出基於詞頻的最大切分組合。
3、對於未登錄詞,採用了基於HMM或者最大熵模型等來實現分詞。

H. 中文分詞

中文分詞主要有三種技術,分別為:

基於統計的分詞模型其主要思想是把每個詞看作是由詞的最小單位的各個字組成的,如果相連的字在不同的文本中出現的次數越多,就證明這相連的字很可能就是一個詞。
其一般分為兩步:

語言模型中常用的為n元模型,所謂n元模型就是在估算條件概率時,忽略距離大於等於n的上文此的影響,其概率計算公式如下:

一般使用頻率計數的比例來計算n元條件概率

當n越大時,模型包含的詞序信息越豐富,同時計算量隨之增大。與此同時,長度越長的文本序列出現的次數也會減少。同時為避免出現分母為零的情況,一般在n元模型中與要配合相應得平滑演算法來解決這個問題,例如拉普拉斯平滑等

隱含馬爾可夫模型是將分詞作字在字串中得序列標注任務來實現的,其基本思路是:每個字在構造一個特定的詞語時都占據著一個確定的構詞位置。
用數學抽象表示如下: 用 代表輸入的句子,n為句子長度, 代表輸出的標簽,理想輸出為:

我么們假設每個字的輸出僅僅與當前字有關,就可以得到:

通過貝葉斯公式我們可以把最大化 轉化為最大化

針對 作馬爾可夫假設,得到:

對 有:

作齊次馬爾可夫假設的計算公式如下(這個公示表示,每個輸出僅僅與上一個輸出有關):

於是得到:

~

在HMM中,求解 的常用方法是Veterbi演算法,這個演算法的核心思想是: 如果最終的最優化路徑經過某個 ,那麼從初始節點到 點的路徑必然也是一個最優路徑。

最常用的就是先基於詞典的方式進行分詞,然後再用統計分詞方法進行輔助。

jieba分詞結合了基於規則和基於統計這兩類方法。
jieba提供了三種分詞模式:

除了可以進行分詞外,還可以進行詞性標注。

下面是各種分詞工具比較:

圖片 來自

還有 NLPIR漢語分詞系統 ,主要功能包括中文分詞;英文分詞;詞性標注;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業詞典與微博分析。NLPIR系統支持多種編碼、多種操作系統、多種開發語言與平台

I. 結巴是幾個語素

jiuba有6個語素。
jieba為自然語言語言中常用工具包,jieba具有對分詞的詞性進行標注的功能,詞性類別如下:
Ag | 形語素 | 形容詞性語素。形容詞代碼為 a,語素代碼g前面置以A。
a | 形容詞 | 取英語形容詞 adjective的第1個字母。
ad | 副形詞 | 直接作狀語的形容詞。形容詞代碼 a和副詞代碼d並在一起。
an | 名形詞 | 具有名詞功能的形容詞。形容詞代碼 a和名詞代碼n並在一起。
b | 區別詞 | 取漢字「別」的聲母。
c | 連詞 | 取英語連詞 conjunction的第1個字母。
dg | 副語素 | 副詞性語素。副詞代碼為 d,語素代碼g前面置以D。
d | 副詞 | 取 adverb的第2個字母,因其第1個字母已用於形容詞。
e | 嘆詞 | 取英語嘆詞 exclamation的第1個字母。
f | 方位詞 | 取漢字「方」
g | 語素 |絕大多數語素都能作為合成詞的「詞根」,取漢字「根」的聲母。
h | 前接成分 | 取英語 head的第1個字母。
i | 成語 | 取英語成語 idiom的第1個字母。
j | 簡稱略語 | 取漢字「簡」的聲母。
k | 後接成分
l | 慣用語 | 慣用語尚未成為成語,有點「臨時性」,取「臨」的聲母。
m | 數詞 | 取英語 numeral的第3個字母,n,u已有他用。
Ng | 名語素 | 名詞性語素。名詞代碼為 n,語素代碼g前面置以N。
n | 名詞 | 取英語名詞 noun的第1個字母。
nr | 人名 | 名詞代碼 n和「人(ren)」的聲母並在一起。
ns | 地名 | 名詞代碼 n和處所詞代碼s並在一起。
nt | 機構團體 | 「團」的聲母為 t,名詞代碼n和t並在一起。
nz | 其他專名 | 「專」的聲母的第 1個字母為z,名詞代碼n和z並在一起。
o | 擬聲詞 | 取英語擬聲詞 onomatopoeia的第1個字母。
p | 介詞 | 取英語介詞 prepositional的第1個字母。
q | 量詞 | 取英語 quantity的第1個字母。
r | 代詞 | 取英語代詞 pronoun的第2個字母,因p已用於介詞。
s | 處所詞 | 取英語 space的第1個字母。
tg | 時語素 | 時間詞性語素。時間詞代碼為 t,在語素的代碼g前面置以T。
t | 時間詞 | 取英語 time的第1個字母。
u | 助詞 | 取英語助詞 auxiliary
vg | 動語素 | 動詞性語素。動詞代碼為 v。在語素的代碼g前面置以V。
v | 動詞 | 取英語動詞 verb的第一個字母。
vd | 副動詞 | 直接作狀語的動詞。動詞和副詞的代碼並在一起。
vn | 名動詞 | 指具有名詞功能的動詞。動詞和名詞的代碼並在一起。
w | 標點符號
x | 非語素字 | 非語素字只是一個符號,字母 x通常用於代表未知數、符號。
y | 語氣詞 | 取漢字「語」的聲母。
z | 狀態詞 | 取漢字「狀」的聲母的前一個字母。
un | 未知詞 | 不可識別詞及用戶自定義片語。取英文Unkonwn首兩個字母。(非北大標准,CSW分詞中定義)

J. java jieba分詞怎麼用

網頁鏈接這個網站

成功了,可喜可賀。

閱讀全文

與jieba分詞java相關的資料

熱點內容
6Yd7XpHYN5 瀏覽:289
微盟用什麼編程 瀏覽:867
韓國電影一個保姆最後自殺 瀏覽:497
您的數據可以保存到哪些文件 瀏覽:903
快手帶貨數據用什麼軟體看 瀏覽:506
要在哪裡更新資料庫用戶和密碼 瀏覽:442
韓國電影女生打開快遞黑色狗鏈 瀏覽:234
win10郵件附件文件已損壞 瀏覽:413
邵氏老電影完整版 瀏覽:239
蘋果app怎麼設置繁體字 瀏覽:156
文件改為文件夾 瀏覽:992
gl電影床戲 瀏覽:655
linux安裝kudzu 瀏覽:577
怎麼導入bak文件 瀏覽:399
東興那裡有車載導航系統專業升級 瀏覽:156
攻是軍人 瀏覽:760
男主姓韓與老師女主 瀏覽:3
男主角姓洛的都市小說 瀏覽:800
js設置divmargin 瀏覽:1000
電影投屏免費觀看 瀏覽:134

友情鏈接