三大市场机构:vivo蝉联三季度中国智能手机市场榜首小米15内存标配升级,端侧AI对内存要求更高自动驾驶也要玩“元宇宙”?极佳科技用AI脑补,让4D场景重建更丝滑! HarmonySpace鸿蒙座舱大规模OTA升级 为用户带来更智慧的交互体验Cohere推出首个图文一体化搜索模型Embed3摆脱人工标注魔咒!字节跳动MaskGCT模型用10万小时数据,教会AI自己说话Meta开源长视频LLM项目LongVU:可过滤重复帧 高效精准理解长视频内容字节跳动PersonaTalk让AI精准配音,连表情细节都完美还原!敏神重磅更新Flux版ic-light模型:16通道VAE突破性能,细节保留能力惊人!智谱AI推出AutoGLM智能体:输入指令即可模拟人类操作手机Nvidia 市值飙升至 3.53 万亿美元 超越苹果乾瞻科技领跑业界 成功完成矽验证ONFI PHY IP 5500 MT/s一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源HarmonySpace鸿蒙座舱大规模OTA升级 为用户带来更智慧的交互体验苹果确认:Genmoji等功能会在未来几周内在iOS 18.2测试版中提供三星Galaxy Z Fold特别版手机采用新铰链,零件数量是Z Fold6的两倍OPPO Find X8、Reno12系列手机支持在抖音App发布LivePhoto实况照片清华大学中标国家气象中心大模型项目:预报效果超盘古大模型荣耀Magic7系列手机预热:支持AI鹰眼相机、雅顾人像拍照等功能Perplexity AI搜索引擎每周处理1亿次查询,消息称微软/X/OpenAI有意收购
  • 首页 > 企业IT频道 > 软件即服务

    合合信息发布智能文档处理“百宝箱”,助力文档应用开发

    2024年10月28日 14:54:44   来源:Citnews中文科技资讯

      文档是知识传递的载体,无论是大模型应用发展,还是与产业数字化息息相关的高质量数据库的建立,都离不开对于文档数据的处理和分析。目前,越来越多的开发者开始关注文档数据处理背后的“文档解析”技术,用以实现自动化数据提取、优化大模型训练、开发智能文档处理应用。

      近期,第五届长沙·中国1024程序员节在湖南长沙举行。大会由湖南省工业和信息化厅、湖南湘江新区管理委员会、长沙市工业和信息化局、长沙信息产业园管委会和 CSDN 联合打造。大会期间,合合信息面向广大开发者,开放智能文档处理“百宝箱”系列产品(简称“百宝箱”)免费体验。“百宝箱”覆盖文档处理流程多节点,支持批量、高效、准确解析多种版式的文档材料,解决文档解析精度低、解析效果评估难和大模型幻觉等问题,助力技术人员实现个性化、高效率的文档类应用开发工作。

      “百宝箱”为文档应用开发提供个性化工具

      文档处理包含解析界面可视化、提取关键信息、解析效果测评等多个流程,每一节点都影响着数据解析的精度。在长沙·中国1024程序员节《模型与工具》论坛上,合合信息智能创新事业部研发总监常扬介绍了智能文档处理“百宝箱”三大产品,用维护稳定、持续更新、可用性强的AI工具帮助开发者解决难题。

      图说 长沙·中国1024程序员节《模型与工具》论坛现场

      据常扬介绍,对于广大技术人员而言,一款能够“开箱即用”的工具能够让开发事半功倍。为解决个人及中小型企业技术人员在开发过程中遇到的“水土不服”问题,合合信息发布了一组文档解析界面前端可视化组件,开发者可使用相关界面对解析效果进行交互,包括提取各类解析元素,定位解析元素在文档中的位置,还原展示各级目录树等。此外,相关组件还支持对结果进行编辑修正,方便使用者实现更高精度的解析效果,进行个性化开发。

      图说 文档解析可视化前端界面

      在文档处理及大模型RAG应用时,文本向量模型对于检索质量和效率至关重要。“百宝箱”开源了合合信息自研的文本向量模型代码——acge模型,曾于2024年3月荣登C-MTEB榜单第一名,支持长文档嵌入检索,兼顾效率和性能,有效提升大模型RAG应用效果。目前在开源机器学习社区和模型库Hugging Face平台上,acge模型单月下载量达30,423,助力越来越多的开发者优化大模型性能。

      本次大会上,“百宝箱”还为文档解析工具的筛选配备了“游标卡尺”。当前市面上的文档解析产品效果缺乏统一标准,为选择一款合适的工具,开发者们要花费较长的时间进行对比测试。“百宝箱”中的“文档解析测评工具”从表格、段落、标题、阅读顺序、公式等多维度,为文档解析工具筛选提供定量测评依据及服务,并提供雷达图等可视化形式,方便开发者直观地看到文本识别、解析和翻译的结果,节省筛选时间。

      图说 表格数据解析效果测评指标

      文档智能解析为专业知识库建设“打好地基”

      技术只有和具体业务实践相结合才能创造价值,在大会上,常扬分享了“智能文档处理百宝箱”在知识库搭建、智能文档抽取、大模型预训练语料与数据治理快速入库以及文档翻译场景中的深度应用。

      以工程制造业为例,知识库的建立需要对产品设计方案、技术规格书、工艺流程图、国家标准文件等在内的多版式文档进行分析,数据处理难度高。借助“百宝箱”及合合信息智能文档处理技术,开发者可以筛选出合适的文档解析工具并实现对复杂文档信息的精准提取。面对数据来源不一致、数据更新不及时等问题,开发者还可以使用acge模型优化知识库信息构建、检索和查询效果。

      除了中文文档,包括生物医药、金融、外贸等行业在内的专项知识库还存在解析、翻译多语种文档的需求。不同语种之间不仅字体字形之间存在巨大差异,复杂语句切分也是一大难题。据悉,“百宝箱”可在保留文档原有格式的基础上做到批量、精确区分并提取多语种信息,前端组件提供审校修正功能,用户可直接在界面上对解析结果进行优化,助力提高翻译质量。未来,合合信息智能文档处理“百宝箱”将始终追求更高的效率与准确率,从文档解析到效果测评,为知识库产品开发提供有力支持。

      图说 “百宝箱”在文档翻译场景中的应用

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。