硬汉嵌入式论坛

 找回密码
 立即注册
查看: 1432|回复: 5
收起左侧

[辅助工具] 扫描的PDF实现文字搜索的工具:OCRmyPDF

[复制链接]

210

主题

1042

回帖

1682

积分

至尊会员

More we do, more we can do.

积分
1682
发表于 2023-2-3 23:03:50 | 显示全部楼层 |阅读模式
image.png
简介:它使用 Tesseract OCR 引擎,将 PDF 的内容识别成文本,然后给 PDF 文件增加 OCR 文本层。从而实现可搜索和复制 PDF 的内容,已支持 100 多种语言。
网站:OCRmyPDF documentation — ocrmypdf 14.0.3.dev4+g997380e5 documentation
[C] 纯文本查看 复制代码
python -m ocrmypdf -l chi_sim "GB_T11944-2012_中空玻璃.pdf" "GB_T11944-2012_中空玻璃_OCR.pdf"

image.png

尝试对转换后的PDF搜索文字:
image.png

不足:覆盖了水印的文字不能识别。

评分

参与人数 1金币 +50 收起 理由
eric2013 + 50 很给力!

查看全部评分

回复

使用道具 举报

210

主题

1042

回帖

1682

积分

至尊会员

More we do, more we can do.

积分
1682
 楼主| 发表于 2023-5-19 23:48:28 | 显示全部楼层
每次都要输命令行麻烦,写了个简陋的GUI:https://github.com/Femtometer/OCRMyPDF_SimpleGUI
回复

使用道具 举报

1万

主题

6万

回帖

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
106660
QQ
发表于 2023-2-4 09:02:19 | 显示全部楼层
谢谢楼主分享。
回复

使用道具 举报

0

主题

2

回帖

2

积分

新手上路

积分
2
发表于 2023-2-4 09:16:37 | 显示全部楼层
看着感觉还不错,试试看。
回复

使用道具 举报

1万

主题

6万

回帖

10万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
106660
QQ
发表于 2023-9-27 07:28:36 | 显示全部楼层
新版V15升级,不再支持32bit系统。

https://github.com/ocrmypdf/OCRmyPDF
回复

使用道具 举报

210

主题

1042

回帖

1682

积分

至尊会员

More we do, more we can do.

积分
1682
 楼主| 发表于 2023-9-27 11:02:17 | 显示全部楼层
eric2013 发表于 2023-9-27 07:28
新版V15升级,不再支持32bit系统。

https://github.com/ocrmypdf/OCRmyPDF

还有这句“Dropped support for Python 3.8.”,Windows7算是没戏了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|Archiver|手机版|硬汉嵌入式论坛

GMT+8, 2024-4-28 05:21 , Processed in 0.329961 second(s), 34 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表