余承东点赞认可!华为毕昇打印机X1成京东618开门红双面打印品类销冠端午假期最后一天迎返程高峰,全国铁路预计发送旅客 1790 万人次爱奇艺大幅下调虚拟制作系统使用价格,最低 3.5 万元 / 天特斯拉五月“逆袭”,股价一个月暴涨超 22%波音CEO凯利・奥特伯格:财务上暂无力投资开发新飞机卢伟冰:小米未来的困难 / 挑战有两点,竞争从来不是,未来也不会是关键“数字藏经洞”数据库平台发布,敦煌文物在数字世界“重聚”亚马逊《黑袍纠察队》衍生剧《V 世代》第二季首曝预告发布,9 月 17 日开播小米潘九堂:真正优秀企业都不怕甚至欢迎小米,淘汰的都是劣质企业京东外卖:日订单量已突破 2500 万单,近期将扩招至 15 万名全职骑手明悟知堂:探索国学宝藏,《北大国学课》有声书的知识盛宴京东618开门红战报出炉:高端笔记本销量同比增长超3倍天猫下架北京、江苏国补、美团以旧换新不方便?买iPhone还是选京东「月匣」UGC功能正式上线:全民戏精时代来临,你的专属AI剧本由你掌控!第十四代英特尔@酷睿™ 处理器:性能飞跃,重塑计算新体验iPhone 16 Pro Max立减500元 来京东618领3C数码消费券下单更优惠微星游戏本新品5060/5070配置上市,神影/星影系列国补爆款抢先购!职业选手同款至高省50% 京东电竞键鼠三重补贴引爆极致性价比学习机买贵双倍赔 全网不怕比 入手学习机认准京东618京东3C数码618开门红1小时呈爆发式增长 上万个趋势单品增长超10倍
  • 首页 > 云计算频道 > 大模型

    苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

    2024年04月09日 17:09:11   来源:站长之家

      苹果公司近日发布了一款名为MLLLLM Ferret-UI的新型机器学习语言模型,旨在提升对移动应用用户界面(UI)的理解。这款模型经过特别优化,能够处理移动UI屏幕上的各种任务,并具备指向、定位和推理等能力。业界普遍猜测,这一技术可能会被应用在即将发布的iOS18中,提供类似通过Siri自动操作应用界面的功能。

      Ferret-UI模型是专为提高对移动UI屏幕理解而设计的MLLM。它的一个关键特点是“任何分辨率”技术,该技术通过放大细节来解决UI屏幕中小型对象的识别问题,从而显著提高模型对UI元素的理解精度。

      UI屏幕的理解是一个复杂的问题,因为它不仅要求模型能够理解屏幕上的内容,还要能够识别和操作具体的UI元素。与传统的自然图像相比,UI屏幕通常具有更多的长宽比和更小的元素,这些元素对于模型来说是一个挑战。

      为了克服这些挑战,Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节。这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。

      在训练Ferret-UI时,收集了从基础UI任务到高级任务的广泛数据样本。这些样本被格式化为带有区域注释的指令遵循格式,以便于模型进行精确的引用和定位。此外,为了提高模型的推理能力,还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。

      Ferret-UI的架构基于已经在自然图像的引用和定位任务中表现出色的Ferret模型。为了适应UI屏幕的特点,Ferret-UI进行了架构调整,包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。此外,为了全面评估模型的能力,还建立了一个包含所有研究任务的综合测试基准。

      在高级任务中,Ferret-UI的对话能力表现突出,尤其是在详细描述和交互对话任务中。模型能够生成与视觉组件相关的详细讨论,并提出以特定目标为导向的行动计划。此外,Ferret-UI还能够通过功能推断来解释屏幕的整体目的,显示出在理解和生成自然语言指令方面的高级能力。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。