扫描的PDF实现文字搜索的工具：OCRmyPDF

emwin 发表于 2023-2-3 23:03:50

简介：它使用 Tesseract OCR 引擎，将 PDF 的内容识别成文本，然后给 PDF 文件增加 OCR 文本层。从而实现可搜索和复制 PDF 的内容，已支持 100 多种语言。
网站：OCRmyPDF documentation — ocrmypdf 14.0.3.dev4+g997380e5 documentation
python -m ocrmypdf -l chi_sim "GB_T11944-2012_中空玻璃.pdf" "GB_T11944-2012_中空玻璃_OCR.pdf"

尝试对转换后的PDF搜索文字：

不足：覆盖了水印的文字不能识别。

emwin 发表于 2023-5-19 23:48:28

每次都要输命令行麻烦，写了个简陋的GUI：https://github.com/Femtometer/OCRMyPDF_SimpleGUI

eric2013 发表于 2023-2-4 09:02:19

谢谢楼主分享。

bobowu 发表于 2023-2-4 09:16:37

看着感觉还不错，试试看。:lol

eric2013 发表于 2023-9-27 07:28:36

新版V15升级，不再支持32bit系统。

https://github.com/ocrmypdf/OCRmyPDF

emwin 发表于 2023-9-27 11:02:17

eric2013 发表于 2023-9-27 07:28
新版V15升级，不再支持32bit系统。

https://github.com/ocrmypdf/OCRmyPDF

还有这句“Dropped support for Python 3.8.”，Windows7算是没戏了。

页: [1]

硬汉嵌入式论坛's Archiver

扫描的PDF实现文字搜索的工具：OCRmyPDF