扫描的PDF实现文字搜索的工具:OCRmyPDF
简介:它使用 Tesseract OCR 引擎,将 PDF 的内容识别成文本,然后给 PDF 文件增加 OCR 文本层。从而实现可搜索和复制 PDF 的内容,已支持 100 多种语言。
网站:OCRmyPDF documentation — ocrmypdf 14.0.3.dev4+g997380e5 documentation
python -m ocrmypdf -l chi_sim "GB_T11944-2012_中空玻璃.pdf" "GB_T11944-2012_中空玻璃_OCR.pdf"
尝试对转换后的PDF搜索文字:
不足:覆盖了水印的文字不能识别。
每次都要输命令行麻烦,写了个简陋的GUI:https://github.com/Femtometer/OCRMyPDF_SimpleGUI 谢谢楼主分享。 看着感觉还不错,试试看。:lol 新版V15升级,不再支持32bit系统。
https://github.com/ocrmypdf/OCRmyPDF eric2013 发表于 2023-9-27 07:28
新版V15升级,不再支持32bit系统。
https://github.com/ocrmypdf/OCRmyPDF
还有这句“Dropped support for Python 3.8.”,Windows7算是没戏了。
页:
[1]