导航:首页 > 编程语言 > jieba分词java

jieba分词java

发布时间:2022-09-28 10:33:47

A. 用结巴分词的java版本出现空指针异常错误,不知道该怎么解决为什么别人能运行出来呢

如果确定是dbHelper非空,目测应该是dbHelper取不到SQLiteDatabase实例,导致db.query抛空。请断点调试检查下。

有问题欢迎提问,有需要帮助可远程,满意请采纳,THX。

B. jieba是个包还是库

jieba 是一个中文分词第三方库,被称为最好的 Python 中文分词库。

C. 谁来推荐一个JAVA的分词工具

java读取中文分词工具:linger
Java开源中文分词器
1、word分词器
2、Ansj分词器
3、Stanford分词器
4、FudanNLP分词器
5、Jieba分词器
6、Jcseg分词器
7、MMSeg4j分词器
8、IKAnalyzer分词器
9、Paoding分词器
10、smartcn分词器

D. 怎么是用python 语言 使用结巴分词 呢

Python代码

#encoding=utf-8
importjieba

seg_list=jieba.cut("我来到北京清华大学",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我来到北京清华大学",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默认模式

seg_list=jieba.cut("他来到了网易杭研大厦")
print",".join(seg_list)

输出:

FullMode:我/来/来到/到/北/北京/京/清/清华/清华大学/华/华大/大/大学/学

DefaultMode:我/来到/北京/清华大学

他,来到,了,网易,杭研,大厦(此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

E. windows 中elasticsearch jieba 分词安装 插件怎么装

Elasticsearch是一个全文搜索引擎。安装Elasticsearch时需要先安装Java。要求的jdk版本1.7以上的。以下是官方文档:.Specificallyasofthiswriting,

F. 在线等,比较急!!!我用java版的结巴分词写了一段代码,怎样将它输出到指定的txt文件

String str = segmenter.sentenceProcess(s);
System.out.println(str);
BufferedWriter out = new BufferedWriter(new FileWriter("F:\\out.txt"));
out.append(str);

G. 技巧 - 分词 - 中英文分词的区别

1、根据空格拆分单词(split)
2、删除停止词
3、提取词干(最终得到特征的一步token、 term)

例子:Machine learning is a field of computer science that uses statistical techniques to givecomputer systems the ability to learn from data.

步骤1: 英文由标点符号、空格、单词组成,所以只用根据空格和标点符号将词语分开。

步骤2: 删除停止词
停止词: stop words
在英文中 is a of that to with from

使用频率比较高的词语,实际上是冠词、介词、连词,如果将这些词语都放入模型当中进行训练,那么会大幅度影响模型的训练效率。

(machine, learning, field, computer, science, uses, statistical, techniques, systems,ability, learn, data}

步骤3: 提取词干

这一步主要针对的是西方语言来说的(英语、拉丁语、法语等等)。用以上例子来说,learning, learn包含了相同的词干learn,所以在大多数提取特征的方法中,会将learn和learning合并为- -一个term。(machine, learn, field, computer, science, use, statistical, technique, system, ability,data }

和英文不同,中文语句是由连续的字符组成序列后呈现的,没有像英文一样的分隔符,所以相对来说,中文分词要稍微的困难一些。

一句没有标点符号的句子,如果加上的标点符号不同,意思千差万别。
例子: 无米面也可无鸡鸭也可无鱼肉也可无银钱也可
无米面也可,无鸡鸭也可,无鱼肉也可,无银钱也可。
无米,面也可;无鸡,鸭也可;无鱼,肉也可;无银,钱也可。

对于目前的中文分词来说,许多网络用语也比较难以分割。不明|觉|厉。

在python当中,我们使用了 jieba分词
jieba分词的原理
1、基于trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图DAG;
2、采用动态规划查找最大路径、找出基于词频的最大切分组合。
3、对于未登录词,采用了基于HMM或者最大熵模型等来实现分词。

H. 中文分词

中文分词主要有三种技术,分别为:

基于统计的分词模型其主要思想是把每个词看作是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。
其一般分为两步:

语言模型中常用的为n元模型,所谓n元模型就是在估算条件概率时,忽略距离大于等于n的上文此的影响,其概率计算公式如下:

一般使用频率计数的比例来计算n元条件概率

当n越大时,模型包含的词序信息越丰富,同时计算量随之增大。与此同时,长度越长的文本序列出现的次数也会减少。同时为避免出现分母为零的情况,一般在n元模型中与要配合相应得平滑算法来解决这个问题,例如拉普拉斯平滑等

隐含马尔可夫模型是将分词作字在字串中得序列标注任务来实现的,其基本思路是:每个字在构造一个特定的词语时都占据着一个确定的构词位置。
用数学抽象表示如下: 用 代表输入的句子,n为句子长度, 代表输出的标签,理想输出为:

我么们假设每个字的输出仅仅与当前字有关,就可以得到:

通过贝叶斯公式我们可以把最大化 转化为最大化

针对 作马尔可夫假设,得到:

对 有:

作齐次马尔可夫假设的计算公式如下(这个公示表示,每个输出仅仅与上一个输出有关):

于是得到:

~

在HMM中,求解 的常用方法是Veterbi算法,这个算法的核心思想是: 如果最终的最优化路径经过某个 ,那么从初始节点到 点的路径必然也是一个最优路径。

最常用的就是先基于词典的方式进行分词,然后再用统计分词方法进行辅助。

jieba分词结合了基于规则和基于统计这两类方法。
jieba提供了三种分词模式:

除了可以进行分词外,还可以进行词性标注。

下面是各种分词工具比较:

图片 来自

还有 NLPIR汉语分词系统 ,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台

I. 结巴是几个语素

jiuba有6个语素。
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:
Ag | 形语素 | 形容词性语素。形容词代码为 a,语素代码g前面置以A。
a | 形容词 | 取英语形容词 adjective的第1个字母。
ad | 副形词 | 直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an | 名形词 | 具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
b | 区别词 | 取汉字“别”的声母。
c | 连词 | 取英语连词 conjunction的第1个字母。
dg | 副语素 | 副词性语素。副词代码为 d,语素代码g前面置以D。
d | 副词 | 取 adverb的第2个字母,因其第1个字母已用于形容词。
e | 叹词 | 取英语叹词 exclamation的第1个字母。
f | 方位词 | 取汉字“方”
g | 语素 |绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
h | 前接成分 | 取英语 head的第1个字母。
i | 成语 | 取英语成语 idiom的第1个字母。
j | 简称略语 | 取汉字“简”的声母。
k | 后接成分
l | 习用语 | 习用语尚未成为成语,有点“临时性”,取“临”的声母。
m | 数词 | 取英语 numeral的第3个字母,n,u已有他用。
Ng | 名语素 | 名词性语素。名词代码为 n,语素代码g前面置以N。
n | 名词 | 取英语名词 noun的第1个字母。
nr | 人名 | 名词代码 n和“人(ren)”的声母并在一起。
ns | 地名 | 名词代码 n和处所词代码s并在一起。
nt | 机构团体 | “团”的声母为 t,名词代码n和t并在一起。
nz | 其他专名 | “专”的声母的第 1个字母为z,名词代码n和z并在一起。
o | 拟声词 | 取英语拟声词 onomatopoeia的第1个字母。
p | 介词 | 取英语介词 prepositional的第1个字母。
q | 量词 | 取英语 quantity的第1个字母。
r | 代词 | 取英语代词 pronoun的第2个字母,因p已用于介词。
s | 处所词 | 取英语 space的第1个字母。
tg | 时语素 | 时间词性语素。时间词代码为 t,在语素的代码g前面置以T。
t | 时间词 | 取英语 time的第1个字母。
u | 助词 | 取英语助词 auxiliary
vg | 动语素 | 动词性语素。动词代码为 v。在语素的代码g前面置以V。
v | 动词 | 取英语动词 verb的第一个字母。
vd | 副动词 | 直接作状语的动词。动词和副词的代码并在一起。
vn | 名动词 | 指具有名词功能的动词。动词和名词的代码并在一起。
w | 标点符号
x | 非语素字 | 非语素字只是一个符号,字母 x通常用于代表未知数、符号。
y | 语气词 | 取汉字“语”的声母。
z | 状态词 | 取汉字“状”的声母的前一个字母。
un | 未知词 | 不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)

J. java jieba分词怎么用

网页链接这个网站

成功了,可喜可贺。

阅读全文

与jieba分词java相关的资料

热点内容
ck电影网免费 浏览:432
韩国电影帮邻居搬圣诞树的片段 浏览:467
如饥似渴电影完整手机观看 浏览:171
母乳汁理沦片 浏览:796
烧烤聚会2电影中文字 浏览:185
谁有手机小电影网址 浏览:514
在线高清影视网站入口 浏览:332
日本电影女明星和女助理戴面具的 浏览:614
泰国船长罪孽在线sb影视 浏览:416
影视解析网站 浏览:750
余男《狂怒之拳》 浏览:372
韩国爱情电影中文版推荐 浏览:327
尺度大的欧美同性恋电影 浏览:751
童鞋真好妖精世界 浏览:990
秀秀鬼电影 浏览:238
台湾同人电影有哪些 浏览:780
有多条线路可以投屏的影视网站 浏览:58
关于狮子的电影 浏览:167
罗莎卡拉乔洛最后一战 浏览:81
比爱奇艺更新快的网站 浏览:405

友情链接