TorchV AI支持广泛的文件类型

广泛的文件类型

目前整个RAG流程中，第一步往往都是从文件解析开始的，如果文件上传，系统无法识别，那后面也就没有RAG什么事情了。企业里面的各类文件的类型很广，最常见的问题主要出现在老文件上，比如“.doc”的解析上，以及各类有数字签名、带图片的pdf解析上。我们发现市面上很多同类产品是不支持“.doc”这样的老文件的，一般都只支持到“.docx”，但是你在企业应用中会发现非常常见，而且很多toG场景也是一样的，“.doc”很多。而且大部分情况下，你要是手工转成“.docx”依然是无效的，所以要真正去做企业的大模型应用，这些都是必须具备对广泛文件支持的能力。

另外就是PDF的各种问题，包括PDF的扫描件、布局问题，还有一些数字签名怎么绕过去，都是需要解决的问题。解决方法包括OCR识别，解读PDF的文件流，从根源上去获取它的数据结构和数据内容。

关于PDF还有一个高频场景就是表格处理，TorchV AI的PDF表格解析基于Apache PDFBox进行开发，增加了多个工具类，重新实现文件流解析的实现类，对于合并单元格等问题处理效果非常好。您也可以在这里进行试用。