导航:首页 > 文件教程 > tesseractocr教程

tesseractocr教程

发布时间:2021-12-05 04:17:42

① 如何用Tesseract做日文OCR

下载chi_sim.traindata字库
下载tesseract-ocr-setup-3.02.02.exe
下载地址:http://code.google.com/p/tesseract-ocr/downloads/list
下载jTessBoxEditor用于修改box文件
下载地址:http://download.csdn.net/detail/a443475601/5896893 里面自带java运行库,安装后 然后启动命令行 java -jar jTessBoxEditor.jar即可打开

为了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言 fontname是字体
比如我们要训练自定义字库 image 字体名MyFont
那么我们把tif文件重命名 image.MyFont.exp0.tif

下面开始训练字库:
1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox
该步骤会生成一个image.MyFont.exp0.box文件
把tif文件和box文件放在同一目录,用jTessBoxEditor.jar打开tif文件,然后根据实际情况修改box文件
2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train
该步骤生成一个image.MyFont.exp0.tr文件
3、unicharset_extractor image.MyFont.exp0.box
该步骤生成一个unicharset文件
4、新建一个font_properties文件
里面内容写入MyFont 0 0 0 0 0 表示默认普通字体
5、运行命令
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
cntraining image.MyFont.exp0.tr
6、把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上image.
7、执行combine_tessdata image.
然后把image.traineddata放到tessdata目录
8、用新的字库对图片进行分析
tesseract test.tif output -l image

② 文字图像识别库 Tesseract-ocr 怎么学习

去云脉OCR SDK开发者平台注册一个账号,接入一款OCR API,看看有木有灵感

③ 我要用tesseract ocr做汉字识别,平台是windows上的vs2010,谁有好教程请告诉我吧~不胜感激

http://blog.csdn.net/zhymax/article/details/8435303

④ tesseract-ocr怎么设置只匹配数字+大写字母

C:Program Files (x86)Tesseract-OCR essdataconfigs文件夹目录下,复制digits并命名为yours,用notepad++编辑

tessedit_char_

如果你是使用的3.04,按教程直接使用

tesseractC:1.jpgC:1yours

你会很轻专松地得到想要的结果。

但是如属果你使用的是4.00,你会发现白名单毫无作用。

奇怪,难道是配置环境出错了?还是字母打错了?都不是。

tesseract提供了OCR引擎模式。

0=仅限原始Tesseract
1=只有神经网络LSTM
2=Tesseract+LSTM
3=基于可用的默认值

目前LSTM是无法支持白名单的,并且似乎tesseract的团队无意去解决这个问题。

选择原始tesseract 即 --oem 0

tesseract--oem0C:1.jpgC:1yours

这样你就能使用白名单了。但是识别正确率会比原先低。

⑤ 如何通过Tesseract开源OCR引擎创建Android OCR应用

要编译Android平台的Tesseract,需要使用Google提供的tesseract-android-tools。

代码获取方式:

git clone https://code.。google.com/p/tesseract-android-tools/
打开README,在命令行工具中执行下面的步骤:

cd <project-directory>
curl -O https://tesseract-ocr。googlecode.。com/files/tesseract-ocr-3.02.02.tar.gz
curl -O http://leptonica。googlecode。com/files/leptonica-1.69.tar.gz
tar -zxvf tesseract-ocr-3.02.02.tar.gz
tar -zxvf leptonica-1.69.tar.gz
rm -f tesseract-ocr-3.02.02.tar.gz
rm -f leptonica-1.69.tar.gz
mv tesseract-3.02.02 jni/com_googlecode_tesseract_android/src
mv leptonica-1.69 jni/com_googlecode_leptonica_android/src
ndk-build -j8
android update project --target 1 --path .
ant debug (release)
注意:如果你在使用NDK r9,编译的时候会出现错误:

format not a string literal and no format arguments [-Werror=format-security]
解决的方法就是在Application.mk中加入一行:

APP_CFLAGS += -Wno-error=format-security
编译之后会生成class.jar和一些*.so。

Android OCR Application

创建一个Android应用,把生成的jar和so导入进来。

创建TessOCR:

public class TessOCR {
private TessBaseAPI mTess;

public TessOCR() {
// TODO Auto-generated constructor stub
mTess = new TessBaseAPI();
String datapath = Environment.getExternalStorageDirectory() + "/tesseract/";
String language = "eng";
File dir = new File(datapath + "tessdata/");
if (!dir.exists())
dir.mkdirs();
mTess.init(datapath, language);
}

public String getOCRResult(Bitmap bitmap) {

mTess.setImage(bitmap);
String result = mTess.getUTF8Text();

return result;
}

public void onDestroy() {
if (mTess != null)
mTess.end();
}

}
构造函数中需要在存储卡上创建一个目录tessdata,如果不创建程序运行就会出错。因为源码中会检测这个目录,不存在就抛出异常:

public boolean init(String datapath, String language) {
if (datapath == null) {
throw new IllegalArgumentException("Data path must not be null!");
}
if (!datapath.endsWith(File.separator)) {
datapath += File.separator;
}

File tessdata = new File(datapath + "tessdata");
if (!tessdata.exists() || !tessdata.isDirectory()) {
throw new IllegalArgumentException("Data path must contain subfolder tessdata!");
}

return nativeInit(datapath, language);
}
就这么简单。现在通过三种方式获取图片做OCR:

在图库中选取一张图,选择发送或者分享,选择OCR应用

在AndroidManifest.xml中加入IntentFilter,让OCR应用出现在图库的分享列表中:

<intent-filter>
<action android:name="android.intent.action.SEND" />

<category android:name="android.intent.category.DEFAULT" />
<data android:mimeType="text/plain" />
<data android:mimeType="image/*" />
</intent-filter>
获得URI之后,对URI解码,获取bitmap:

if (Intent.ACTION_SEND.equals(intent.getAction())) {
Uri uri = (Uri) intent.getParcelableExtra(Intent.EXTRA_STREAM);
uriOCR(uri);
}
private void uriOCR(Uri uri) {
if (uri != null) {
InputStream is = null;
try {
is = getContentResolver().openInputStream(uri);
Bitmap bitmap = BitmapFactory.decodeStream(is);
mImage.setImageBitmap(bitmap);
doOCR(bitmap);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally {
if (is != null) {
try {
is.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
}
启动OCR应用,从图库中选择一张图做OCR

发送Intent调用图库,在onActivityResult中获取返回的URI做OCR:

Intent intent = new Intent(Intent.ACTION_PICK, android.provider.MediaStore.Images.Media.EXTERNAL_CONTENT_URI);
startActivityForResult(intent, REQUEST_PICK_PHOTO);
启动OCR应用,拍照之后做OCR

为了获取高质量的图片,在Intent中加入图片路径。返回之后就可以直接使用这个图片路径解码:

private void dispatchTakePictureIntent() {
Intent takePictureIntent = new Intent(MediaStore.ACTION_IMAGE_CAPTURE);
// Ensure that there's a camera activity to handle the intent
if (takePictureIntent.resolveActivity(getPackageManager()) != null) {
// Create the File where the photo should go
File photoFile = null;
try {
photoFile = createImageFile();
} catch (IOException ex) {
// Error occurred while creating the File

}
// Continue only if the File was successfully created
if (photoFile != null) {
takePictureIntent.putExtra(MediaStore.EXTRA_OUTPUT,
Uri.fromFile(photoFile));
startActivityForResult(takePictureIntent, REQUEST_TAKE_PHOTO);
}
}
}
最后不要忘记下载语言包,并push到存储卡的tessdata目录下。

⑥ tesseract-ocr怎么使用

开源的??不好用哦…识别率不太行呢!

⑦ 怎么安装tesseract ocr库

之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问题,不能使用psm参数。决定手动编译安装。下面参考别人的安装过程。
安装所需的库

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev

sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake

pytesser 调用了 tesseract,因此需要安装 tesseract,安装 tesseract 需要安装 leptonica,否则编译tesseract 的时候出现 "configure: error: leptonica not found"。

以下都是解压编译安装的老步骤:
./configure
make -j4
sudo make install

下载安装leptonica
http://www.leptonica.org/download.html 或者
http://code.google.com/p/leptonica/downloads/list

最新的是leptonica-1.69.tar.bz2

下载安装tesseract
http://code.google.com/p/tesseract-ocr/
最新的是 tesseract-ocr-3.02.02.tar.gz

⑧ tesseract-ocr源文件怎么用

如果你是终端用户请下载exe安装包,

这个是源码包是针对开次开发或DIY用户使用的

如果你想自己编程调用请直接看api目录的api.cpp文件即可

这个文件是调用入口,里面有详细的注释,只不过是英文的

⑨ tesseract-ocr-setup-3.02.02怎么安装

tesseract-ocr(开源图像识别引擎)
http://www.ddooo.com/softdown/94968.htm
1.打开下载的压缩包,找到“tesseract-ocr-setup-3.02.02.exe”,双击运行,进入下图所示安装界面,点击“next”。

2.勾选“I
accept....”,然后点击“next”。

3.选择可以使用该软件的用户,这里我们选择第一个,任何使用该电脑的人都可以使用它,然后点击"next"。

4.选择安装路径,之后点击“next”。

5.选择需要安装的组件,默认是没有勾选语言组件的,我们可以勾选自己想要识别的语言。勾选简体中文的话,那么就可以识别有简体中文的图像了,其他语言同理。

6.正在安装中,请耐心等待。

7.安装完成之后我们打开cmd,输入“tesseract”,出现下图所示表示安装成功

阅读全文

与tesseractocr教程相关的资料

热点内容
win10下能用的小q书桌 浏览:931
奸尸电影安娜 浏览:598
韩国李采谭 浏览:629
母子血亲小说 浏览:402
苓梦凡回心转意 浏览:404
斯嘉丽约翰逊漏点的电影 浏览:414
斯托米丹尼尔斯主演的作品 浏览:214
写饥荒mod需要哪些编程语言 浏览:284
都市特种兵杨洛完结版 浏览:266
qq头像女生侧身霸气 浏览:882
守望先锋声音文件 浏览:506
电影最后女人老了,和机器人 浏览:456
手机qq2016旧版本670 浏览:195
台湾的风月电影 浏览:378
韩国漂亮的护工 浏览:897
在线播放电影在线观看 浏览:606
拉拉电影大尺度 浏览:119
盘点小说主角姓苏的小说 浏览:76
什么网站看电视剧不卡还免费 浏览:644
打开的文件是放在哪里 浏览:392

友情链接