多模态文本智能技术方案助力AI系统实现智能推理 -- 上海热线

消费频道

多模态文本智能技术方案助力AI系统实现智能推理

综合 2025-10-22 20:14:22

　　近日，在第八届中国模式识别与计算机视觉学术会议（PRCV 2025）上，“多模态文本智能大模型前沿技术与应用”论坛召开，并邀请到华南理工大学、哈尔滨工业大学、南开大学、华中科技大学、小红书及合合信息等机构的专家学者齐聚一堂，探讨多模态文本智能领域的最新技术突破与应用案例。

　　论坛上，合合信息正式推出“多模态文本智能技术”方案，针对传统大模型在语义割裂、场景理解局限、决策失误等问题，提出通过文本相关空间位置理解深层语义逻辑的解决路径，实现对多模态信息的立体化综合理解，赋予AI模型真正的文本“阅读理解”能力。

　　据介绍，多模态是指综合利用文本、图像、音频、视频等多种数据进行表达、交流和理解的方式。根据Gartner发布的2025年人工智能技术成熟度曲线，多模态AI将在未来五年成为各行业提升应用功能的核心技术。论坛期间，哈尔滨工业大学计算学部长聘教授车万翔提出“多模态思维链”技术，将推理逻辑分解为一系列跨模态步骤，显著提升大模型的推理能力及准确性。南开大学教授周宇则提出OCR幻觉缓解方案，改善大模型在可视文本感知中的常见问题。

　　合合信息图像算法研发总监郭丰俊在论坛中分享了文本智能技术的创新应用，展示其在复杂场景下解决文档图像问题的能力。小红书hi lab团队算法工程师燕青介绍了一款基于单视觉语言模型的多语言文档布局解析工具“dots.ocr”，展示了多模态技术在行业实践中的广泛应用潜力。

　　此外，多模态大模型还在文化保护领域发挥了重要作用。华中科技大学教授刘禹良介绍了AlphaOracle辅助甲骨文破译框架，通过人类工作流启发的“音形义理”破译流程，在甲骨文分析中取得突破，展现了多模态技术在非商业领域的价值。

　　从文字到图像再到视频，文本信息始终是AI理解世界的核心。据悉，合合信息推出的“多模态文本智能技术”方案，通过从感知到认知再到决策的技术闭环，解决了多模态信息协同解读难题。相关负责人表示，该方案将技术处理对象从传统文档扩展至论文、财报、视频和自然场景等多种媒介，不仅实现对文本信息的深度理解，还能赋予AI系统类人推理及自主决策能力。

阅读全文

声明：本网站所提供的信息仅供参考之用，并不代表本网赞同其观点，也不代表本网对其真实性负责。您若对该稿件内容有任何疑问或质疑，请尽快与上海热线联系，本网将迅速给您回应并做相关处理。联系方式:shzixun@online.sh.cn