Skip to main content

TorchV AI支持广泛的文件类型

广泛的文件类型

目前整个RAG流程中,第一步往往都是从文件解析开始的,如果文件上传,系统无法识别,那后面也就没有RAG什么事情了。企业里面的各类文件的类型很广,最常见的问题主要出现在老文件上,比如“.doc”的解析上,以及各类有数字签名、带图片的pdf解析上。我们发现市面上很多同类产品是不支持“.doc”这样的老文件的,一般都只支持到“.docx”,但是你在企业应用中会发现非常常见,而且很多toG场景也是一样的,“.doc”很多。而且大部分情况下,你要是手工转成“.docx”依然是无效的,所以要真正去做企业的大模型应用,这些都是必须具备对广泛文件支持的能力。

另外就是PDF的各种问题,包括PDF的扫描件、布局问题,还有一些数字签名怎么绕过去,都是需要解决的问题。解决方法包括OCR识别,解读PDF的文件流,从根源上去获取它的数据结构和数据内容。

关于PDF还有一个高频场景就是表格处理,TorchV AI的PDF表格解析基于Apache PDFBox进行开发,增加了多个工具类,重新实现文件流解析的实现类,对于合并单元格等问题处理效果非常好。您也可以在这里进行试用。