java中文分詞工具_中文分詞工具哪個好用

㈠ java編一個中文分詞的程序！

現有的分詞演算法可分為三大類：基於字元串匹配的分詞方法、基於理解的分詞方法和版基於統計的分詞方法權。

從基於字元串匹配的分詞方法,中文分詞的實現思路如下:
1 提供一個詞典
2 在字元串中正向掃描或者反向掃描匹配將字元串中多個字元取出後進行詞典匹配

這個是效率最低的方式

另外就是基於統計方式,記錄字與字一同出現的頻率,實現分詞

㈡ java編個中文分詞的程序

importjava.io.Reader;
importjava.io.StringReader;
importorg.apache.lucene.analysis.*;
importorg.apache.lucene.analysis.cjk.CJKAnalyzer;
importorg.apache.lucene.analysis.cn.ChineseAnalyzer;
importorg.apache.lucene.analysis.standard.StandardAnalyzer;
importorg.mira.lucene.analysis.MIK_CAnalyzer;

publicclassJeAnalyzer{

publicstaticvoidtestStandard(StringtestString){
try{
Analyzeranalyzer=newStandardAnalyzer();
Readerr=newStringReader(testString);
StopFiltersf=(StopFilter)analyzer.tokenStream("",r);
System.err.println("=====standardanalyzer====");
Tokent;
while((t=sf.next())!=null){
System.out.println(t.termText());
}
}catch(Exceptione){
e.printStackTrace();
}
}

publicstaticvoidtestCJK(StringtestString){
try{
Analyzeranalyzer=newCJKAnalyzer();
Readerr=newStringReader(testString);
StopFiltersf=(StopFilter)analyzer.tokenStream("",r);
System.err.println("=====cjkanalyzer====");
Tokent;
while((t=sf.next())!=null){
System.out.println(t.termText());
}
}catch(Exceptione){
e.printStackTrace();
}
}

publicstaticvoidtestChiniese(StringtestString){
try{
Analyzeranalyzer=newChineseAnalyzer();
Readerr=newStringReader(testString);
TokenFiltertf=(TokenFilter)analyzer.tokenStream("",r);
System.err.println("=====chineseanalyzer====");
Tokent;
while((t=tf.next())!=null){
System.out.println(t.termText());
}
}catch(Exceptione){
e.printStackTrace();
}
}

publicstaticStringtransJe(StringtestString,Stringc1,Stringc2){
Stringresult="";
try{
Analyzeranalyzer=newMIK_CAnalyzer();
Readerr=newStringReader(testString);
TokenStreamts=(TokenStream)analyzer.tokenStream("",r);
Tokent;
while((t=ts.next())!=null){
result+=t.termText()+",";
}
}catch(Exceptione){
e.printStackTrace();
}
returnresult;
}

publicstaticvoidmain(String[]args){
try{
StringtestString="中文分詞的方法其實不局限於中文應用，也被應用到英文處理，如手寫識別，單詞之間的空格就很清楚，中文分詞方法可以幫助判別英文單詞的邊界";
System.out.println("測試的語句"+testString);
StringsResult[]=transJe(testString,"gb2312","utf-8").split(",");
for(inti=0;i<sResult.length;i++){
System.out.println(sResult[i]);
}
}catch(Exceptione){
e.printStackTrace();
}
}
}

jar包
lucene-analyzers-2.4.1.jar
lucene-core-2.4.1.jar
IKAnalyzer2.0.2OBF.jar

㈢ java中文分片語件word怎麼使用

參考如下
1、快速體驗
運行項目根目錄下的腳本demo-word.bat可以快速體驗分詞效果
用法: command [text] [input] [output]
命令command的可選值為：demo、text、file
demo
text 楊尚川是APDPlat應用級產品開發平台的作者
file d:/text.txt d:/word.txt
exit

2、對文本進行分詞
移除停用詞：List<Word> words = WordSegmenter.seg("楊尚川是APDPlat應用級產品開發平台的作者");
保留停用詞：List<Word> words = WordSegmenter.segWithStopWords("楊尚川是APDPlat應用級產品開發平台的作者");
System.out.println(words);

輸出：
移除停用詞：[楊尚川, apdplat, 應用級, 產品, 開發平台, 作者]
保留停用詞：[楊尚川, 是, apdplat, 應用級, 產品, 開發平台, 的, 作者]

3、對文件進行分詞
String input = "d:/text.txt";
String output = "d:/word.txt";
移除停用詞：WordSegmenter.seg(new File(input), new File(output));
保留停用詞：WordSegmenter.segWithStopWords(new File(input), new File(output));

4、自定義配置文件
默認配置文件為類路徑下的word.conf，打包在word-x.x.jar中
自定義配置文件為類路徑下的word.local.conf，需要用戶自己提供
如果自定義配置和默認配置相同，自定義配置會覆蓋默認配置
配置文件編碼為UTF-8

5、自定義用戶詞庫
自定義用戶詞庫為一個或多個文件夾或文件，可以使用絕對路徑或相對路徑
用戶詞庫由多個詞典文件組成，文件編碼為UTF-8
詞典文件的格式為文本文件，一行代表一個詞
可以通過系統屬性或配置文件的方式來指定路徑，多個路徑之間用逗號分隔開
類路徑下的詞典文件，需要在相對路徑前加入前綴classpath:

指定方式有三種：
指定方式一，編程指定（高優先順序）：
WordConfTools.set("dic.path", "classpath:dic.txt，d:/custom_dic");
DictionaryFactory.reload();//更改詞典路徑之後，重新載入詞典
指定方式二，Java虛擬機啟動參數（中優先順序）：
java -Ddic.path=classpath:dic.txt，d:/custom_dic
指定方式三，配置文件指定（低優先順序）：
使用類路徑下的文件word.local.conf來指定配置信息
dic.path=classpath:dic.txt，d:/custom_dic

如未指定，則默認使用類路徑下的dic.txt詞典文件

6、自定義停用詞詞庫
使用方式和自定義用戶詞庫類似，配置項為：
stopwords.path=classpath:stopwords.txt，d:/custom_stopwords_dic

7、自動檢測詞庫變化
可以自動檢測自定義用戶詞庫和自定義停用詞詞庫的變化
包含類路徑下的文件和文件夾、非類路徑下的絕對路徑和相對路徑
如：
classpath:dic.txt，classpath:custom_dic_dir,
d:/dic_more.txt，d:/DIC_DIR，D:/DIC2_DIR，my_dic_dir，my_dic_file.txt

classpath:stopwords.txt，classpath:custom_stopwords_dic_dir，
d:/stopwords_more.txt，d:/STOPWORDS_DIR，d:/STOPWORDS2_DIR，stopwords_dir，remove.txt

8、顯式指定分詞演算法
對文本進行分詞時，可顯式指定特定的分詞演算法，如：
WordSegmenter.seg("APDPlat應用級產品開發平台", SegmentationAlgorithm.BidirectionalMaximumMatching);

SegmentationAlgorithm的可選類型為：
正向最大匹配演算法：MaximumMatching
逆向最大匹配演算法：ReverseMaximumMatching
正向最小匹配演算法：MinimumMatching
逆向最小匹配演算法：ReverseMinimumMatching
雙向最大匹配演算法：BidirectionalMaximumMatching
雙向最小匹配演算法：BidirectionalMinimumMatching
雙向最大最小匹配演算法：
全切分演算法：FullSegmentation
最少分詞演算法：MinimalWordCount
最大Ngram分值演算法：MaxNgramScore

9、分詞效果評估
運行項目根目錄下的腳本evaluation.bat可以對分詞效果進行評估
評估採用的測試文本有253 3709行，共2837 4490個字元
評估結果位於target/evaluation目錄下：
corpus-text.txt為分好詞的人工標注文本，詞之間以空格分隔
test-text.txt為測試文本，是把corpus-text.txt以標點符號分隔為多行的結果
standard-text.txt為測試文本對應的人工標注文本，作為分詞是否正確的標准
result-text-***.txt，***為各種分詞演算法名稱，這是word分詞結果
perfect-result-***.txt，***為各種分詞演算法名稱，這是分詞結果和人工標注標准完全一致的文本
wrong-result-***.txt，***為各種分詞演算法名稱，這是分詞結果和人工標注標准不一致的文本

㈣中文分詞工具哪個好用

試試這個工具
在線詞頻統計分析中文分詞內詞雲製作工具 - SEO查容
http://www.seocha.net/term_frequency/

㈤中文分詞器用的最廣泛是什麼分詞方法java的！

你是在使用全文檢索嗎？
如果是的話
分詞比較常用的是庖丁解牛

㈥ java 中文分詞為什麼用 ik

ik分詞器簡單容易控制啊，反正我個人覺得ik不錯

㈦ Java中文分詞演算法

這兩天正好在玩lucene,沒用庖丁分詞,主要是嫌它要配置環境,麻煩
下面是demo,記得要加lucene-core-2.3.2.jar和lucene-Analyzer.jar以及IKAnalyzer.jar這幾個包,有問題call我

import java.io.Reader;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.mira.lucene.analysis.IK_CAnalyzer;

public class TestJeAnalyzer {
private static String testString1 = "冗長的代碼常常是復雜性的標志，會導致代碼難以測試和維護.";
public static void testStandard(String testString) throws Exception{
Analyzer analyzer = new StandardAnalyzer();
Reader r = new StringReader(testString);
StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
System.err.println("=====standard analyzer====");
System.err.println("分析方法：默認沒有詞只有字");
Token t;
while ((t = sf.next()) != null) {
System.out.println(t.termText());
}
}
public static void testCJK(String testString) throws Exception{
Analyzer analyzer = new CJKAnalyzer();
Reader r = new StringReader(testString);
StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
System.err.println("=====cjk analyzer====");
System.err.println("分析方法:交叉雙字分割");
Token t;
while ((t = sf.next()) != null) {
System.out.println(t.termText());
}
}
public static void testChiniese(String testString) throws Exception{
Analyzer analyzer = new ChineseAnalyzer();
Reader r = new StringReader(testString);
TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);
System.err.println("=====chinese analyzer====");
System.err.println("分析方法:基本等同StandardAnalyzer");
Token t;
while ((t = tf.next()) != null) {
System.out.println(t.termText());
}
}

public static void testJe(String testString) throws Exception{
// Analyzer analyzer = new MIK_CAnalyzer();
Analyzer analyzer = new IK_CAnalyzer();
Reader r = new StringReader(testString);
TokenStream ts = (TokenStream)analyzer.tokenStream("", r);
System.err.println("=====je analyzer====");
System.err.println("分析方法:字典分詞,正反雙向搜索，具體不明");
Token t;
while ((t = ts.next()) != null) {
System.out.println(t.termText());
}
}
public static void main(String[] args) throws Exception{
// String testString = testString1;
String testString = testString1;
System.out.println(testString);

testStandard(testString);
testCJK(testString);
// testPaoding(testString);

testChiniese(testString);
testJe(testString);
}

}

㈧誰來推薦一個JAVA的分詞工具

java讀取中文分詞工具：linger
Java開源中文分詞器
1、word分詞器
2、Ansj分詞器
3、Stanford分詞器
4、FudanNLP分詞器
5、Jieba分詞器
6、Jcseg分詞器
7、MMSeg4j分詞器
8、IKAnalyzer分詞器
9、Paoding分詞器
10、smartcn分詞器

㈨中科院中文分詞器(ICTLAS)java版怎麼使用

其實就是本地方法調用，你可以在裡面找到java的例子

導航:首頁 > 編程大全 > java中文分詞工具

java中文分詞工具

與java中文分詞工具相關的資料

友情鏈接