简介:它使用 Tesseract OCR 引擎,将 PDF 的内容识别成文本,然后给 PDF 文件增加 OCR 文本层。从而实现可搜索和复制 PDF 的内容,已支持 100 多种语言。
网站:OCRmyPDF documentation — ocrmypdf 14.0.3.dev4+g997380e5 documentation
[C] 纯文本查看 复制代码 python -m ocrmypdf -l chi_sim "GB_T11944-2012_中空玻璃.pdf" "GB_T11944-2012_中空玻璃_OCR.pdf"
尝试对转换后的PDF搜索文字:
不足:覆盖了水印的文字不能识别。
|