本文作者:访客

Google发布Gemini 2.5计算机使用模型详解

访客 2025-10-08 14:00:26 72022 抢沙发
Google发布了Gemini 2.5计算机使用模型,该模型旨在提高计算机性能并优化用户体验,该模型采用了最新的技术和算法,以提供更加精确的性能预测和更好的性能表现,该模型还注重计算机的安全性和稳定性,以确保用户在使用过程中的顺畅和安全,Gemini 2.5计算机使用模型的发布将有助于推动计算机技术的发展,并为用户带来更好的使用体验。

在今年早些时候的 Google I/O 开发者大会上,Google宣布将为 Gemini API 引入计算机使用功能。今天,Google发布了 Gemini 2.5 计算机使用模型,这是一个全新的专用模型,旨在为能够与用户界面 (UI) 交互的代理提供支持。Google声称,该新模型在多个 Web 和移动控制基准测试中均优于其他同类模型 。

Google发布Gemini 2.5计算机使用模型详解

Gemini API computer_use 工具的工作原理如下:

  • 开发人员需要将用户请求作为输入发送给工具,其中包括环境的屏幕截图和最近操作的历史记录。

  • 除了输入之外,开发人员还可以指定是否从支持的完整 UI 操作列表中排除功能,或者是否需要包含任何其他自定义功能。

  • 该模型将分析接收到的输入并生成响应,这将是 UI 操作之一,例如单击或键入。

  • 如果模型不确定,它甚至可能会请求最终用户确认。例如,如果该操作与购买商品有关,则需要用户确认。

  • 然后,客户端代码执行接收到的操作,例如单击按钮或显示最终用户确认。

  • 一旦操作完成,当前 GUI 的新屏幕截图和当前 URL 将作为函数响应发送回计算机使用模型,重新开始循环。

  • 重复上述步骤,直至达到主要任务目标。

Google发布Gemini 2.5计算机使用模型详解

虽然 Gemini 2.5 计算机使用模型针对网页浏览器进行了优化,但 Google 声称该模型在移动 UI 控制任务中也表现出色。Google特别提到 ,该模型尚未针对桌面操作系统级别的控制进行优化。正如您在下面的基准测试中看到的,Gemini 2.5 计算机使用模型在几个关键基准测试中都取得了最佳结果。

Google发布Gemini 2.5计算机使用模型详解

Google发布Gemini 2.5计算机使用模型详解

Gemini 2.5 计算机使用模型现已公开预览,开发人员可以通过 Google AI Studio 和 Vertex AI 上的 Gemini API 访问它。

文章版权及转载声明

作者:访客本文地址:https://huii.cc/show/4570.html发布于 2025-10-08 14:00:26
文章转载或复制请以超链接形式并注明出处麻辣财经

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (暂无评论,72022人围观)参与讨论

还没有评论,来说两句吧...