RA战队勇夺上海Major晋级资格 ROG外设助力电竞征途国家安全部:警惕深度伪造技术带来的安全风险一键生成 AI 广告短视频:Tiktok 上线 Symphony Creative Studio 平台参数量仅 0.25B,成都人形机器人创新中心全国首发 R-DDIRM 高速推理模型我国新一代地基红外天文望远镜发布首批观测图像东芝将与日本筑波大学合作,利用基因信息展开睡眠研究日企“山业”推出磁吸式网线:可减少端口损坏,传输速度 10GbpsAI投毒第一案!GPT写的代码竟有后门 程序员被骗1.8万元苹果 iPhone 16 获 DxOMark 147 分超三星 Galaxy S24 Ultra:HDR 照片明亮有活力、肤色自然准确赵明回应荣耀 GT 系列独立,或将肩负再造荣耀目标微软公布 Zero Day Quest 白帽安全竞赛:提交指定类型漏洞奖金至高可翻倍、前 45 名可受邀线下活动印度将鼓励企业本土生产手机等产品零部件:总额 40-50 亿美元我国牵头的首个工业化建造自动标识与数据采集应用国际标准发布京东 11 月 27 日起下线京享值 6000 以上“运费双免”服务,PLUS 会员“免费退换货”不受影响美团刘硕:美团无人机运营规模位列全球第一梯队谷歌“隐瞒文化”曝光:在掌握所有事实之前,不要发表评论英伟达股价大涨,黄仁勋慈善基金会今年至少要再捐 1.2 亿美元消息称莱迪思半导体正考虑收购英特尔 Altera滴滴“12 年老将”张博卸任 CTO,未来将专注自动驾驶业务毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战
  • 首页 > 数据存储频道 > 数据库频道 > 数据库

    向量数据库王冠易主!李开复的零一万物支棱起来了

    2024年03月15日 16:42:06   来源:OFweek人工智能网

      3 月 11 日,龙抬头之日,零一万物宣布成功研发其基于全导航图技术打造的新型向量数据库“笛卡尔(Descartes)”,并包揽权威榜单 ANN-Benchmarks 的 6 项数据集评测第一名。

      这标志着向量数据库排行榜的头号交椅再次易主。

      笛卡尔包揽 6 项第一

      向量数据库,又被称为 AI 时代的信息检索技术,是检索增强生成(Retrieval-Augmented Generation, RAG)内核技术之一。

      ANN-Benchmarks 是当下业界最权威的向量数据库性能测试工具,它可以展示不同算法在不同真实数据集下的表现。

      在 ANN-Benchmarks 离线测试中,零一万物笛卡尔(Descartes)向量数据库登顶 6 份数据集评测第一名,比之前榜单上同业第一名有显著性能提升,部分数据集上的性能提升甚至超过 2 倍以上。

      由图可见,零一万物向量数据库在 6 份评测数据集中都位于最高,曲线位置越偏右上角意味着算法性能越好,笛卡尔包揽 6 项第一。

      此前,榜单里六个数据集的榜首分属于两家厂商,而笛卡尔的包揽结束了这种“分庭抗礼”的局面,成为了大一统的“新王”。

      关于零一万物

      零一万物,是 2023 年初由李开复创办的 AI 公司。零一万物已经获得数轮融资,估值已超 10 亿美元,跻身 AI 2.0 独角兽行列。

      大家对李开复也并不陌生。计算机科学家出身,他的职业生涯起步于硅谷,先后任职于微软、谷歌等,后来创立了创新工场,以投资 AI 为人熟知。

      零一万物聚集的技术团队实力彪悍。团队成员涉及大模型技术、人工智能算法、自然语言处理、系统架构、算力架构、数据安全、产品研发等领域。联创团队成员包含前阿里巴巴副总裁、前滴滴/百度首席算法负责人、前谷歌中国高管、前微软/SAP/Cisco/副总裁,算法和产品团队背景均来自国内外大厂。

      2023 年 11 月,零一万物曾发布首款开源中英双语大模型“Yi”。

      背后的技术揭秘

      回归本次主题。RAG 向量检索主要解决两大问题:一,分别是通过建立某种索引结构,减少检索考察的候选集。二、降低单个向量计算的复杂度。

      对于第一个问题,零一万物团队给出量大策略:

      全导航图技术。零一万物研发的全局多层缩略图导航技术,图上坐标系导航,既能保证精度,又能裁剪大量无关向量。

      自适应邻居选择策略,填补业界空白。零一万物自研的自适应邻居选择新策略,使每个节点可以根据自身及邻居的分布特征动态地选取最佳邻居边,更快收敛接近目标向量,从而让 RAG 向量检索性能提高 15%-30%。

      对于“降低单个向量计算的复杂度”的问题,零一万物采用了两级量化方案增强 RAG。

      通过用两级量化降低计算复杂度,同时列式存储充分利用 SIMD 的并发能力,进一步发挥硬件能力,相比传统 PQ 查表,性能得到大幅提升到 2-3 倍。

      还有索引结构优化、连通性保障等全栈向量技术方案提高笛卡尔向量数据库的性能。

      解决大模型当下缺陷

      对大模型应用开发者来说,向量数据库是非常重要的基础设施,在一定程度上影响着大模型的性能表现。

      比如,向量数据库能精准解决大模型当前阶段下的重要问题:

      实时信息:大模型无法反应最新的信息。向量数据库采用轻量化更新机制,可以快速补充最新信息。

      隐私保护:用户的安全隐私数据有泄密风险。向量数据通过在推理阶段扮演信息传递的中间载体,破解了隐私保护的难关。

      幻觉矫正:大模型常推理失真或产生幻觉。向量数据库提供的丰富知识参照,有效矫正和减轻此类问题。

      推理高效:大模型推理成本高,向量数据库能够作为一种缓存机制,避免每一次查询请求都需要重新执行复杂的推理计算,节省计算资源。

      伴随 AI 热风,向量数据库创业公司也异军突起。比如,2023 年,OpenAI 的向量数据库合作方 Pinecone 完成了 B 轮 1.38 亿美元融资,国内初创企业 Fabarta ArcNeural 也完成了上亿元 Pre-A 轮融资。

      笛卡尔将在近期亮相AI产品中

      关于数据的重要性,有个十分形象的比喻:信息时代的数据,就是工业时代的石油。未来,向量数据库,将成为决定大模型天花板的关键要素。

      零一万物笛卡尔向量数据库目前聚焦于高性能向量数据库,在实际应用场景中具备超高精度、超高性能核心优势。

      超高精度:基于多层缩略图和坐标系实现层间导航和图上方位导航,以及图连通性保障,实现精度大于 99%,相同性能下,精度大幅领先业内水平。

      超高性能:高效的边选择和裁剪技术,千万数据库 ms 响应。

      具体来说,高性能向量数据库可以帮助企业客户构建私域知识库、智能客服系统;在自动驾驶领域,使用高性能向量数据库可来加速自动驾驶模型训练等。

      零一万物表示,笛卡尔向量数据库将用在近期即将正式亮相的 AI 产品中,未来也将结合工具提供给开发者。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。