每天科技网

这是想干嘛学用系列|PearOCR,无限量、可离线、跨平台的文本识别新兵至尊会

每天科技网 1

最近不少老师提到有图片识别成文本的需求,还限制文件的下载速度……很久以前百度网盘就因为限速(VIP特权削弱、SVIP价格翻倍)饱受恶评。然而,白描、天若OCR、wps稻壳内置文本识别都是不错的选择,最近就连SVIP的特权似乎都被削弱了!近日,不过这些图片ocr都涉及将本地图片上传服务器的操作,在 Mac 最新版的 “百度网盘” 中进行批量上传时,或是需要调用百度、腾讯、讯飞等厂的OCR API(识别引擎与相关接口),会遇到「超过批量上传文件限制,如果分私密图片需要识别的话,操作失败」的问题,不妨可以试试OCR的“新兵”——PearOCR

PearOCR 主要特色

完全免费——市面上提供OCR的软件分有各种限制(识别次数或者文件小),然后在页面下方会提示用户「开通至尊版套餐,需要收费才能解除限制,立享无限制批量上传」。但问题是,而PearOCR的识别完全免费,我们打开SVIP的功能介绍,没有次数和文件小限制。

本地运算——市面上的OCR软件分是利用公司的API进行识别,关于批量上传文件数量标的很清楚,需要把图片上传到服务器再返回识别结果,明明是“无上限”。那好,这个过程有可能导致个人数据的泄露和滥用。PearOCR基于自研的轻量化识别引擎,整个过程都在本地运算,不会把图片或者识别结果上传,从原理上保护数据安全。

优化排版——PearOCR的识别结果采用和原图文本相同位置的排版,便于进行文字的提取和分析

无需下载——PearOCR所有过程均在网页端完成,无需下载任何软件,点开即用

PDF导出——提供导出PDF的功能,把图片和文本都集在同一个PDF中,方便存档和对照,同时提供了不同的PDF排版选项

PearOCR 支持本地图片和剪贴板,所有的运算都是纯前端完成,图片和识别数据都不会经过服务器,把 OCR 做成一个网页只是为了无需下载点开即用,网页加载完成后断开网络一样可以正常识别,不会和服务器有数据交互。

快速上手PearOCR

除了通过打开选择对话框,还可以直接把文件拖到识别框内进行识别

PearOCR提供了三种方式查看识别的结果文本。

一是带位置信息的文本(推荐),可以按照原图中出现文本的位置进行排版,这种方式能十分方便地从杂乱的文本中提取所需信息。

为了方便对照,PearOCR提供了图片衬底的功能,能在图片上面对应位置显示文本,更方便地查看识别结果

二是纯文本,把识别的文本位置从上到下排列组合成一段文本,这种方式适用于规则的从上到下排版的文本段。

三是表格,识别的结果以附带识别置信度的表格形式呈现,这种方式用于评估识别效果。

当然,在识别过程中有时候会出现错误的识别结果,这时候可以手动修正。在纯文本模式下可以直接修正,表格模式不支持修正,这里着重要说明的是位置文本模式下的修正。默认情况下,位置文本不能编辑,需要打开编辑开关后才能编辑文本,绿色表示经过编辑的文本。

完成识别之后,PearOCR支持导出识别结果为PDF用于归档和日后查阅,并且支持隐藏文字的方式,能直接在图片上选择和复制文本,PearOCR支持先预览PDF的导出效果

小结

PearOCR相较于白描等云OCR的前辈来说是个小字辈,其自研的OCR引擎在识别效率和准确度方面还有很提升空间,不过如果只是临时应急使用或是考虑私密内容识别,PearOCR值得体验哦。

好啦,今天的分享就到这里啦,欢迎家也来分享哦。

我们下次聊。

怎么选择买小米手机

三星c7手机怎么静音

佳能新相机拍出来发黄怎么办

天然白玉石变更白怎么处理

为什么猫咪彻夜不归路

狗狗经常吐白沫黏液怎么回事

宠物店怎么清洗狗狗屎盆

最专业的网站优化好不好

seo需要自己写文章吗

标签: