tesseractocr教程_tesseract-ocr怎么设置只匹配数字+大写字母

① 如何用Tesseract做日文OCR

下载chi_sim.traindata字库
下载tesseract-ocr-setup-3.02.02.exe
下载地址：http://code.google.com/p/tesseract-ocr/downloads/list
下载jTessBoxEditor用于修改box文件
下载地址：http://download.csdn.net/detail/a443475601/5896893 里面自带java运行库，安装后然后启动命令行 java -jar jTessBoxEditor.jar即可打开

为了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言 fontname是字体
比如我们要训练自定义字库 image 字体名MyFont
那么我们把tif文件重命名 image.MyFont.exp0.tif

下面开始训练字库：
1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox
该步骤会生成一个image.MyFont.exp0.box文件
把tif文件和box文件放在同一目录，用jTessBoxEditor.jar打开tif文件，然后根据实际情况修改box文件
2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train
该步骤生成一个image.MyFont.exp0.tr文件
3、unicharset_extractor image.MyFont.exp0.box
该步骤生成一个unicharset文件
4、新建一个font_properties文件
里面内容写入MyFont 0 0 0 0 0 表示默认普通字体
5、运行命令
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
cntraining image.MyFont.exp0.tr
6、把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上image.
7、执行combine_tessdata image.
然后把image.traineddata放到tessdata目录
8、用新的字库对图片进行分析
tesseract test.tif output -l image

② 文字图像识别库 Tesseract-ocr 怎么学习

去云脉OCR SDK开发者平台注册一个账号，接入一款OCR API，看看有木有灵感

③ 我要用tesseract ocr做汉字识别，平台是windows上的vs2010,谁有好教程请告诉我吧~不胜感激

http://blog.csdn.net/zhymax/article/details/8435303

④ tesseract-ocr怎么设置只匹配数字+大写字母

C:Program Files (x86)Tesseract-OCR essdataconfigs文件夹目录下，复制digits并命名为yours，用notepad++编辑

tessedit_char_

如果你是使用的3.04，按教程直接使用

tesseractC:1.jpgC:1yours

你会很轻专松地得到想要的结果。

但是如属果你使用的是4.00，你会发现白名单毫无作用。

奇怪，难道是配置环境出错了？还是字母打错了？都不是。

tesseract提供了OCR引擎模式。

0=仅限原始Tesseract
1=只有神经网络LSTM
2=Tesseract+LSTM
3=基于可用的默认值

目前LSTM是无法支持白名单的，并且似乎tesseract的团队无意去解决这个问题。

选择原始tesseract 即 --oem 0

tesseract--oem0C:1.jpgC:1yours

这样你就能使用白名单了。但是识别正确率会比原先低。

⑤ 如何通过Tesseract开源OCR引擎创建Android OCR应用

要编译Android平台的Tesseract，需要使用Google提供的tesseract-android-tools。

代码获取方式：

git clone https：//code.。google.com/p/tesseract-android-tools/
打开README，在命令行工具中执行下面的步骤：

cd <project-directory>
curl -O https：//tesseract-ocr。googlecode.。com/files/tesseract-ocr-3.02.02.tar.gz
curl -O http：//leptonica。googlecode。com/files/leptonica-1.69.tar.gz
tar -zxvf tesseract-ocr-3.02.02.tar.gz
tar -zxvf leptonica-1.69.tar.gz
rm -f tesseract-ocr-3.02.02.tar.gz
rm -f leptonica-1.69.tar.gz
mv tesseract-3.02.02 jni/com_googlecode_tesseract_android/src
mv leptonica-1.69 jni/com_googlecode_leptonica_android/src
ndk-build -j8
android update project --target 1 --path .
ant debug (release)
注意：如果你在使用NDK r9，编译的时候会出现错误：

format not a string literal and no format arguments [-Werror=format-security]
解决的方法就是在Application.mk中加入一行：

APP_CFLAGS += -Wno-error=format-security
编译之后会生成class.jar和一些*.so。

Android OCR Application

创建一个Android应用，把生成的jar和so导入进来。

创建TessOCR：

public class TessOCR {
private TessBaseAPI mTess;

public TessOCR() {
// TODO Auto-generated constructor stub
mTess = new TessBaseAPI();
String datapath = Environment.getExternalStorageDirectory() + "/tesseract/";
String language = "eng";
File dir = new File(datapath + "tessdata/");
if (!dir.exists())
dir.mkdirs();
mTess.init(datapath, language);
}

public String getOCRResult(Bitmap bitmap) {

mTess.setImage(bitmap);
String result = mTess.getUTF8Text();

return result;
}

public void onDestroy() {
if (mTess != null)
mTess.end();
}

}
构造函数中需要在存储卡上创建一个目录tessdata，如果不创建程序运行就会出错。因为源码中会检测这个目录，不存在就抛出异常：

public boolean init(String datapath, String language) {
if (datapath == null) {
throw new IllegalArgumentException("Data path must not be null!");
}
if (!datapath.endsWith(File.separator)) {
datapath += File.separator;
}

File tessdata = new File(datapath + "tessdata");
if (!tessdata.exists() || !tessdata.isDirectory()) {
throw new IllegalArgumentException("Data path must contain subfolder tessdata!");
}

return nativeInit(datapath, language);
}
就这么简单。现在通过三种方式获取图片做OCR：

在图库中选取一张图，选择发送或者分享，选择OCR应用

在AndroidManifest.xml中加入IntentFilter，让OCR应用出现在图库的分享列表中：

<intent-filter>
<action android:name="android.intent.action.SEND" />

<category android:name="android.intent.category.DEFAULT" />
<data android:mimeType="text/plain" />
<data android:mimeType="image/*" />
</intent-filter>
获得URI之后，对URI解码，获取bitmap：

if (Intent.ACTION_SEND.equals(intent.getAction())) {
Uri uri = (Uri) intent.getParcelableExtra(Intent.EXTRA_STREAM);
uriOCR(uri);
}
private void uriOCR(Uri uri) {
if (uri != null) {
InputStream is = null;
try {
is = getContentResolver().openInputStream(uri);
Bitmap bitmap = BitmapFactory.decodeStream(is);
mImage.setImageBitmap(bitmap);
doOCR(bitmap);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally {
if (is != null) {
try {
is.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
}
启动OCR应用，从图库中选择一张图做OCR

发送Intent调用图库，在onActivityResult中获取返回的URI做OCR：

Intent intent = new Intent(Intent.ACTION_PICK, android.provider.MediaStore.Images.Media.EXTERNAL_CONTENT_URI);
startActivityForResult(intent, REQUEST_PICK_PHOTO);
启动OCR应用，拍照之后做OCR

为了获取高质量的图片，在Intent中加入图片路径。返回之后就可以直接使用这个图片路径解码：

private void dispatchTakePictureIntent() {
Intent takePictureIntent = new Intent(MediaStore.ACTION_IMAGE_CAPTURE);
// Ensure that there's a camera activity to handle the intent
if (takePictureIntent.resolveActivity(getPackageManager()) != null) {
// Create the File where the photo should go
File photoFile = null;
try {
photoFile = createImageFile();
} catch (IOException ex) {
// Error occurred while creating the File

}
// Continue only if the File was successfully created
if (photoFile != null) {
takePictureIntent.putExtra(MediaStore.EXTRA_OUTPUT,
Uri.fromFile(photoFile));
startActivityForResult(takePictureIntent, REQUEST_TAKE_PHOTO);
}
}
}
最后不要忘记下载语言包，并push到存储卡的tessdata目录下。

⑥ tesseract-ocr怎么使用

开源的？？不好用哦…识别率不太行呢！

⑦ 怎么安装tesseract ocr库

之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问题，不能使用psm参数。决定手动编译安装。下面参考别人的安装过程。
安装所需的库

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev

sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake

pytesser 调用了 tesseract，因此需要安装 tesseract，安装 tesseract 需要安装 leptonica，否则编译tesseract 的时候出现 "configure: error: leptonica not found"。

以下都是解压编译安装的老步骤：
./configure
make -j4
sudo make install

下载安装leptonica
http://www.leptonica.org/download.html 或者
http://code.google.com/p/leptonica/downloads/list

最新的是leptonica-1.69.tar.bz2

下载安装tesseract
http://code.google.com/p/tesseract-ocr/
最新的是 tesseract-ocr-3.02.02.tar.gz

⑧ tesseract-ocr源文件怎么用

如果你是终端用户请下载exe安装包，

这个是源码包是针对开次开发或DIY用户使用的

如果你想自己编程调用请直接看api目录的api.cpp文件即可

这个文件是调用入口，里面有详细的注释，只不过是英文的

⑨ tesseract-ocr-setup-3.02.02怎么安装

tesseract-ocr(开源图像识别引擎)
http://www.ddooo.com/softdown/94968.htm
1.打开下载的压缩包，找到“tesseract-ocr-setup-3.02.02.exe”，双击运行，进入下图所示安装界面，点击“next”。

2.勾选“I
accept....”，然后点击“next”。

3.选择可以使用该软件的用户，这里我们选择第一个，任何使用该电脑的人都可以使用它，然后点击"next"。

4.选择安装路径，之后点击“next”。

5.选择需要安装的组件，默认是没有勾选语言组件的，我们可以勾选自己想要识别的语言。勾选简体中文的话，那么就可以识别有简体中文的图像了，其他语言同理。

6.正在安装中，请耐心等待。

7.安装完成之后我们打开cmd，输入“tesseract”，出现下图所示表示安装成功

导航:首页 > 文件教程 > tesseractocr教程

tesseractocr教程

与tesseractocr教程相关的资料

友情链接