老规矩,我先放我下载的安装程序:
Anytxt.OCR.zh: https://url55.ctfile.com/d/14928255-62330767-536f5c?p=7242
(访问密码: 7242)
软件是免费的也可以到官网上下载安装,安装完成只要右上角出现一个绿色的钩,就可以查询了:
我输入的是关键词:社会主义
默认是不对jpg等图片进行查询的,主要就是默认的word,txt,PDF等文件的查询,速度相当快,我的电脑不到1秒。
但是呢,说实话能实现这个功能的软件还是蛮多的,我的目的不止于此,我要手动:新增文件类型
添加:
这里可以点:“选择”从系统的文件类型里选,也可以点“浏览”,手动选择文件类型或是文件夹里的文件。
这里可以自己添加文件后缀如:jpg
也可以在列表里选择
我手动添加jpg ,那样列表会少一点,然后选择几个常用的.jpg 这类的后缀:
点中间的那个箭头,移到右边,作为选定的类型:
然后再输入: PNG
继续添加 PNG类型的文件(注意,我截图的时候右边没有出现JPG类型,那是因为我只是演示,如果JPG一起选择的话,右边是会出现的)
最后点:确定
出现排除的目录,一般就是系统目录,确定就可。
因为要让这软件模糊查询JPG图片里的文字,相当于软件要把系统里所有jpg图片进行OCR识别,然后生成一个数据库备查,并且以后每天增加新的jpg,都会加到这个数据库里去,所以第一次扫描时间会长一些,看你电脑里照片文件多少了。
然后会继续提示,如果完成右上角会有一个绿色的钩钩(我只是演示用,如果第一次设置,系统一般来说没这么快就完成的)
基本上就是如下图那样的右上角:说明还在扫描
然后你看,我曾经拍到过白头鹎站在一块牌子上,这牌子就写有:社会主义核心价值观,等字样。
但是我知道核心这两个字,让现在的OCR识别还是有难度的,所以我查询的时候用的关键词是:社会主义
对了,官网是:www.anytxt.net
这几天我对办公室和家里的电脑进行了全盘的索引,发现总体来说功能还是蛮强大的了!!
把电脑里角角落落的JPG,PNG等图片上的文字都识别出来,可以模糊查询了。
对于电脑或是手机截屏的效果最好!
还可以直接鼠标右键直接调用:
但是对于生僻字的识别确实还有不足,这个也只能期待今后能升级了。
如:欧亚鵟,这个鵟字,查不到任何信息。
我发现识别成:欧亚駕了,我用欧亚駕就能查到:
如: 内翈,外翈
翈这个字,直接跳过了。
但是我可以用:翼指,查到这张图片。
有一张照片让我蛮震撼的,竟然还能只别这种大字:
还有一个问题:电脑版的微信考虑到信息保护或是安全这类的,会把图片这种的保存为.dat 文件,那是没办法进行图片转文本的操作的。
不过可以用软件转:把整个微信数据文件夹转成普通的jpg,png,gif等格式,然后全盘索引完成之后Anytxt 就可以查到了。
我的微信文件夹有300G左右,但是我用软件转图片类的东西也就用了大约5小时就解决问题了,
只不过以下这个软件转换不是实时的,也就是现在有微信好友发的图片,还是做被微信默认保存为.dat 文件,
如果要转,要自己运行一下下面的这个软件,好处是这软件免费的。如果要实时转换是要花钱买别的收费的软件,我个人感觉意思不大。
微信dat图片批量解密、查看、整理工具:WxDatViewer
https://ningbocat.cn/post/1932.html
用WxDatViewer转换之后,Anytxt就索引到了,对于微信群里的一些截图,图表这种的。
其实平时也不太用得到,只是偶尔要用的时候还是有用的,如:我想查询所有关于“星途”这款车的信息
特别是我记得某个车友群里之前曾经有人发过的图片,我不记得图片上有什么文字了,但是一定会有“星途”字样的
我就可以查到:
像下面这张图是刚有群友发的,是在我上次运行WxDatViewer之后才出来的图片(当然还有工作用的图表我就不公开了), 只有我下次转换之后,才会出现在普通的JPG或png的目录里,才会被 Anytxt 索引到。
但是已经很够用了!
如果有重要的工作图表我自己另存一下也就可以立马被Anytxt索引到的(前提是全盘索引完成了)
这几天家里的电脑我一直没有关机就让它在进行第一次完整的所有硬盘的索引,由于之前系统升级一直失败,我就禁止系统升级了。
估计系统用久了有点慢,我感觉如果系统没安装好,效率还不如办公室硬件配置低的电脑。
但是没办法,要重安装系统和所有软件还是要花很多时间的,有空再说咯。
我想说的是,如果电脑里JPG,PNG这类的图片很多,多到如我那样就单单.jpg文件就有 141万6千多张,别的图片格式如:.jpeg, .png 我还没看。
当然这些数据包括了我近几年的微信数据解包之后的jpg文件。
这个情况下要让Anytxt 做完一次完整的索引就算一天24小时开机也要花几天时间。
虽然每天开机几个小时,再关机。第二天开机会继续索引数据,但是这么一来可能要10天,半个月才能完成了。
不过不用担心,一般人的电脑不可能有2TB + 1TB + 18TB + 8TB + 4TB + 2TB 这样的硬盘同时运行的,也不可能有那么多PDF,WORD,excel和图片文件的.
我发现我的一个2TB SSD硬盘在JPG文件不多的情况下,几小时就完成了:我查看Anytxt 索引管理 - >存储路径
这个目录里的文件最后修改时间就能知道,有几个小的SSD硬盘JPG照片很少几小时就解决了。
像是18TB 这种机械硬盘速度慢,文件多,肯定很慢了。有耐心就好。
另外我发现Anytxt还会自动索引:映射的硬盘,这个也蛮好的。
办公室的电脑我是自动映射了服务器上的几个目录成为我的“虚拟硬盘”的,如果也给我做索引,那真就是极好的!
只不过如果文件多,第一次做全盘索引速度会更慢些。
好处是:如果别的电脑也是映射了相同的目录,可以把这个完整索引完成的文件复制到对方的电脑上,对方只要做增量索引就可以了(Anytxt版本要一样,复制的时候索引服务要停止,复制完成之后再启动索引服务)
还有一个就是我的移动硬盘每天从家里带到办公室,再从办公室带到家,如果当天办公室增加了大量的文件,怕回家之后索引时间太长,可以把索引完成的文件复制到份到硬盘里,到家之后复制过去就可以。
以下是昨晚我用Everything 查到的.jpg文件数量:1416935
然后我打开索引规则里看了一下当前索引了多少个jpg文件:
当时索引了105513个jpg文件,也就是10万个,总共141万多的jpg文件
电脑不关机,第二天早上发现 jpg文件索引了 428369个,也就是42万多个了。
虽然离141万的总量还有近100万,不过我估计一个周末运行下来也差不多了。
随着索引文件的越来越大,我能查到的数据也更多更全,还是蛮期待的。
以后如果有新增加的文件,那就是随时会索引,估计都感觉不到了。
还没有评论,快来抢沙发!