emwin 发表于 2023-2-3 23:03:50

扫描的PDF实现文字搜索的工具:OCRmyPDF


简介:它使用 Tesseract OCR 引擎,将 PDF 的内容识别成文本,然后给 PDF 文件增加 OCR 文本层。从而实现可搜索和复制 PDF 的内容,已支持 100 多种语言。
网站:OCRmyPDF documentation — ocrmypdf 14.0.3.dev4+g997380e5 documentation
python -m ocrmypdf -l chi_sim "GB_T11944-2012_中空玻璃.pdf" "GB_T11944-2012_中空玻璃_OCR.pdf"


尝试对转换后的PDF搜索文字:


不足:覆盖了水印的文字不能识别。

emwin 发表于 2023-5-19 23:48:28

每次都要输命令行麻烦,写了个简陋的GUI:https://github.com/Femtometer/OCRMyPDF_SimpleGUI

eric2013 发表于 2023-2-4 09:02:19

谢谢楼主分享。

bobowu 发表于 2023-2-4 09:16:37

看着感觉还不错,试试看。:lol

eric2013 发表于 2023-9-27 07:28:36

新版V15升级,不再支持32bit系统。

https://github.com/ocrmypdf/OCRmyPDF

emwin 发表于 2023-9-27 11:02:17

eric2013 发表于 2023-9-27 07:28
新版V15升级,不再支持32bit系统。

https://github.com/ocrmypdf/OCRmyPDF

还有这句“Dropped support for Python 3.8.”,Windows7算是没戏了。
页: [1]
查看完整版本: 扫描的PDF实现文字搜索的工具:OCRmyPDF