在Ubuntu中使用C++进行OCR(光学字符识别),通常可以利用OpenCV库和Tesseract OCR引擎。下面是一个简单的示例,展示如何将cv::Mat
图像传递给Tesseract进行文本识别。
环境准备
- 安装依赖项: 首先确保你的系统上安装了OpenCV和Tesseract。如果还没有安装,可以使用以下命令:
sudo apt-get update
sudo apt-get install libopencv-dev tesseract-ocr libleptonica-dev
- 安装CMake(如果尚未安装):
sudo apt-get install cmake
示例代码
#include <iostream>
#include <opencv2/opencv.hpp>
#include <tesseract/baseapi.h>
#include <tesseract/leptonica.h>
int main() {
// 读取图像到cv::Mat
cv::Mat image = cv::imread("path/to/your/image.jpg");
if (image.empty()) {
std::cerr << "Could not open or find the image!" << std::endl;
return -1;
}
// 转换为灰度图像(可选)
cv::Mat grayImage;
cv::cvtColor(image, grayImage, cv::COLOR_BGR2GRAY);
// 创建Tesseract API实例
tesseract::TessBaseAPI *ocr = new tesseract::TessBaseAPI();
// 初始化tesseract-ocr
if (ocr->Init(NULL, "eng")) { // 使用默认路径并选择英语语言
std::cerr << "Could not initialize tesseract." << std::endl;
return -1;
}
// 将cv::Mat转换为Pix格式,以便与Tesseract一起使用
Pix *pixImage = pixCreate(grayImage.cols, grayImage.rows, 8); // 8位深度,单通道图像
for (int y = 0; y < grayImage.rows; ++y) {
for (int x = 0; x < grayImage.cols; ++x) {
int pixelValue = grayImage.at<uchar>(y, x);
pixSetPixel(pixImage, x, y, pixelValue);
}
}
ocr->SetImage(pixImage); // 设置图片用于OCR处理
char* outText = ocr->GetUTF8Text(); // 获取识别结果
std::cout << "OCR Output:\n" << outText << std::endl;
// 清理资源
delete[] outText;
pixDestroy(&pixImage);
ocr->End();
return 0;
}
编译和运行
创建一个CMakeLists.txt
文件:
cmake_minimum_required(VERSION 3.10)
project(OCRExample)
find_package(OpenCV REQUIRED)
find_package(TESSERACT REQUIRED)
include_directories(${OpenCV_INCLUDE_DIRS} ${TESSERACT_INCLUDE_DIRS})
add_executable(ocr_example main.cpp)
target_link_libraries(ocr_example ${OpenCV_LIBS} ${TESSERACT_LIBRARIES})
然后用以下命令编译并运行程序:
mkdir build && cd build
cmake ..
make
./ocr_example
请确保将代码中的 path/to/your/image.jpg
替换为你自己的图像路径。运行程序后,它会输出OCR识别的文本。
注意事项
- 确保输入的图像质量较高,以提高OCR的准确性。
- Tesseract支持多种语言,你可以下载对应语言的训练数据并在初始化时指定。
- 对于更复杂的应用场景,可以考虑对输入图像进行预处理以提高识别率,比如去噪、二值化等操作。
内容由零声教学AI助手提供,问题来源于学员提问