苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

2024年04月09日 17:09:11 来源：站长之家

　　苹果公司近日发布了一款名为MLLLLM Ferret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面(UI)的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。业界普遍猜测，这一技术可能会被应用在即将发布的iOS18中，提供类似通过Siri自动操作应用界面的功能。

　　Ferret-UI模型是专为提高对移动UI屏幕理解而设计的MLLM。它的一个关键特点是“任何分辨率”技术，该技术通过放大细节来解决UI屏幕中小型对象的识别问题，从而显著提高模型对UI元素的理解精度。

　　UI屏幕的理解是一个复杂的问题，因为它不仅要求模型能够理解屏幕上的内容，还要能够识别和操作具体的UI元素。与传统的自然图像相比，UI屏幕通常具有更多的长宽比和更小的元素，这些元素对于模型来说是一个挑战。

　　为了克服这些挑战，Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像，并对每个子图像进行单独编码，从而在不丢失重要视觉信号的情况下放大细节。这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。

　　在训练Ferret-UI时，收集了从基础UI任务到高级任务的广泛数据样本。这些样本被格式化为带有区域注释的指令遵循格式，以便于模型进行精确的引用和定位。此外，为了提高模型的推理能力，还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。

　　Ferret-UI的架构基于已经在自然图像的引用和定位任务中表现出色的Ferret模型。为了适应UI屏幕的特点，Ferret-UI进行了架构调整，包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。此外，为了全面评估模型的能力，还建立了一个包含所有研究任务的综合测试基准。

　　在高级任务中，Ferret-UI的对话能力表现突出，尤其是在详细描述和交互对话任务中。模型能够生成与视觉组件相关的详细讨论，并提出以特定目标为导向的行动计划。此外，Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

第十四代英特尔® 酷睿™ 处理器(代号Raptor Lake S Refresh)采用了先进的Intel 7制程工艺。

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

“强悍小透明”真我Neo7 Turbo正式发布，国补到手1699.15

苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

即时

第十四代英特尔@酷睿™ 处理器：性能飞跃，重塑计算

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

扩展阅读