① 如何用Tesseract做日文OCR
下载chi_sim.traindata字库
下载tesseract-ocr-setup-3.02.02.exe
下载地址:http://code.google.com/p/tesseract-ocr/downloads/list
下载jTessBoxEditor用于修改box文件
下载地址:http://download.csdn.net/detail/a443475601/5896893 里面自带java运行库,安装后 然后启动命令行 java -jar jTessBoxEditor.jar即可打开
为了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言 fontname是字体
比如我们要训练自定义字库 image 字体名MyFont
那么我们把tif文件重命名 image.MyFont.exp0.tif
下面开始训练字库:
1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox
该步骤会生成一个image.MyFont.exp0.box文件
把tif文件和box文件放在同一目录,用jTessBoxEditor.jar打开tif文件,然后根据实际情况修改box文件
2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train
该步骤生成一个image.MyFont.exp0.tr文件
3、unicharset_extractor image.MyFont.exp0.box
该步骤生成一个unicharset文件
4、新建一个font_properties文件
里面内容写入MyFont 0 0 0 0 0 表示默认普通字体
5、运行命令
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
cntraining image.MyFont.exp0.tr
6、把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上image.
7、执行combine_tessdata image.
然后把image.traineddata放到tessdata目录
8、用新的字库对图片进行分析
tesseract test.tif output -l image
② 文字图像识别库 Tesseract-ocr 怎么学习
去云脉OCR SDK开发者平台注册一个账号,接入一款OCR API,看看有木有灵感
③ 我要用tesseract ocr做汉字识别,平台是windows上的vs2010,谁有好教程请告诉我吧~不胜感激
http://blog.csdn.net/zhymax/article/details/8435303
④ tesseract-ocr怎么设置只匹配数字+大写字母
C:Program Files (x86)Tesseract-OCR essdataconfigs文件夹目录下,复制digits并命名为yours,用notepad++编辑
tessedit_char_
如果你是使用的3.04,按教程直接使用
tesseractC:1.jpgC:1yours
你会很轻专松地得到想要的结果。
但是如属果你使用的是4.00,你会发现白名单毫无作用。
奇怪,难道是配置环境出错了?还是字母打错了?都不是。
tesseract提供了OCR引擎模式。
0=仅限原始Tesseract
1=只有神经网络LSTM
2=Tesseract+LSTM
3=基于可用的默认值
目前LSTM是无法支持白名单的,并且似乎tesseract的团队无意去解决这个问题。
选择原始tesseract 即 --oem 0
tesseract--oem0C:1.jpgC:1yours
这样你就能使用白名单了。但是识别正确率会比原先低。
⑤ 如何通过Tesseract开源OCR引擎创建Android OCR应用
要编译Android平台的Tesseract,需要使用Google提供的tesseract-android-tools。
代码获取方式:
git clone https://code.。google.com/p/tesseract-android-tools/
打开README,在命令行工具中执行下面的步骤:
cd <project-directory>
curl -O https://tesseract-ocr。googlecode.。com/files/tesseract-ocr-3.02.02.tar.gz
curl -O http://leptonica。googlecode。com/files/leptonica-1.69.tar.gz
tar -zxvf tesseract-ocr-3.02.02.tar.gz
tar -zxvf leptonica-1.69.tar.gz
rm -f tesseract-ocr-3.02.02.tar.gz
rm -f leptonica-1.69.tar.gz
mv tesseract-3.02.02 jni/com_googlecode_tesseract_android/src
mv leptonica-1.69 jni/com_googlecode_leptonica_android/src
ndk-build -j8
android update project --target 1 --path .
ant debug (release)
注意:如果你在使用NDK r9,编译的时候会出现错误:
format not a string literal and no format arguments [-Werror=format-security]
解决的方法就是在Application.mk中加入一行:
APP_CFLAGS += -Wno-error=format-security
编译之后会生成class.jar和一些*.so。
Android OCR Application
创建一个Android应用,把生成的jar和so导入进来。
创建TessOCR:
public class TessOCR {
private TessBaseAPI mTess;
public TessOCR() {
// TODO Auto-generated constructor stub
mTess = new TessBaseAPI();
String datapath = Environment.getExternalStorageDirectory() + "/tesseract/";
String language = "eng";
File dir = new File(datapath + "tessdata/");
if (!dir.exists())
dir.mkdirs();
mTess.init(datapath, language);
}
public String getOCRResult(Bitmap bitmap) {
mTess.setImage(bitmap);
String result = mTess.getUTF8Text();
return result;
}
public void onDestroy() {
if (mTess != null)
mTess.end();
}
}
构造函数中需要在存储卡上创建一个目录tessdata,如果不创建程序运行就会出错。因为源码中会检测这个目录,不存在就抛出异常:
public boolean init(String datapath, String language) {
if (datapath == null) {
throw new IllegalArgumentException("Data path must not be null!");
}
if (!datapath.endsWith(File.separator)) {
datapath += File.separator;
}
File tessdata = new File(datapath + "tessdata");
if (!tessdata.exists() || !tessdata.isDirectory()) {
throw new IllegalArgumentException("Data path must contain subfolder tessdata!");
}
return nativeInit(datapath, language);
}
就这么简单。现在通过三种方式获取图片做OCR:
在图库中选取一张图,选择发送或者分享,选择OCR应用
在AndroidManifest.xml中加入IntentFilter,让OCR应用出现在图库的分享列表中:
<intent-filter>
<action android:name="android.intent.action.SEND" />
<category android:name="android.intent.category.DEFAULT" />
<data android:mimeType="text/plain" />
<data android:mimeType="image/*" />
</intent-filter>
获得URI之后,对URI解码,获取bitmap:
if (Intent.ACTION_SEND.equals(intent.getAction())) {
Uri uri = (Uri) intent.getParcelableExtra(Intent.EXTRA_STREAM);
uriOCR(uri);
}
private void uriOCR(Uri uri) {
if (uri != null) {
InputStream is = null;
try {
is = getContentResolver().openInputStream(uri);
Bitmap bitmap = BitmapFactory.decodeStream(is);
mImage.setImageBitmap(bitmap);
doOCR(bitmap);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally {
if (is != null) {
try {
is.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
}
启动OCR应用,从图库中选择一张图做OCR
发送Intent调用图库,在onActivityResult中获取返回的URI做OCR:
Intent intent = new Intent(Intent.ACTION_PICK, android.provider.MediaStore.Images.Media.EXTERNAL_CONTENT_URI);
startActivityForResult(intent, REQUEST_PICK_PHOTO);
启动OCR应用,拍照之后做OCR
为了获取高质量的图片,在Intent中加入图片路径。返回之后就可以直接使用这个图片路径解码:
private void dispatchTakePictureIntent() {
Intent takePictureIntent = new Intent(MediaStore.ACTION_IMAGE_CAPTURE);
// Ensure that there's a camera activity to handle the intent
if (takePictureIntent.resolveActivity(getPackageManager()) != null) {
// Create the File where the photo should go
File photoFile = null;
try {
photoFile = createImageFile();
} catch (IOException ex) {
// Error occurred while creating the File
}
// Continue only if the File was successfully created
if (photoFile != null) {
takePictureIntent.putExtra(MediaStore.EXTRA_OUTPUT,
Uri.fromFile(photoFile));
startActivityForResult(takePictureIntent, REQUEST_TAKE_PHOTO);
}
}
}
最后不要忘记下载语言包,并push到存储卡的tessdata目录下。
⑥ tesseract-ocr怎么使用
开源的??不好用哦…识别率不太行呢!
⑦ 怎么安装tesseract ocr库
之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问题,不能使用psm参数。决定手动编译安装。下面参考别人的安装过程。
安装所需的库
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake
pytesser 调用了 tesseract,因此需要安装 tesseract,安装 tesseract 需要安装 leptonica,否则编译tesseract 的时候出现 "configure: error: leptonica not found"。
以下都是解压编译安装的老步骤:
./configure
make -j4
sudo make install
下载安装leptonica
http://www.leptonica.org/download.html 或者
http://code.google.com/p/leptonica/downloads/list
最新的是leptonica-1.69.tar.bz2
下载安装tesseract
http://code.google.com/p/tesseract-ocr/
最新的是 tesseract-ocr-3.02.02.tar.gz
⑧ tesseract-ocr源文件怎么用
如果你是终端用户请下载exe安装包,
这个是源码包是针对开次开发或DIY用户使用的
如果你想自己编程调用请直接看api目录的api.cpp文件即可
这个文件是调用入口,里面有详细的注释,只不过是英文的
⑨ tesseract-ocr-setup-3.02.02怎么安装
tesseract-ocr(开源图像识别引擎)
http://www.ddooo.com/softdown/94968.htm
1.打开下载的压缩包,找到“tesseract-ocr-setup-3.02.02.exe”,双击运行,进入下图所示安装界面,点击“next”。
2.勾选“I
accept....”,然后点击“next”。
3.选择可以使用该软件的用户,这里我们选择第一个,任何使用该电脑的人都可以使用它,然后点击"next"。
4.选择安装路径,之后点击“next”。
5.选择需要安装的组件,默认是没有勾选语言组件的,我们可以勾选自己想要识别的语言。勾选简体中文的话,那么就可以识别有简体中文的图像了,其他语言同理。
6.正在安装中,请耐心等待。
7.安装完成之后我们打开cmd,输入“tesseract”,出现下图所示表示安装成功