
Google发布Gemini 2.5计算机使用模型详解
Google发布了Gemini 2.5计算机使用模型,该模型旨在提高计算机性能并优化用户体验,该模型采用了最新的技术和算法,以提供更加精确的性能预测和更好的性能表现,该模型还注重计算机的安全性和稳定性,以确保用户在使用过程中的顺畅和安全,Gemini 2.5计算机使用模型的发布将有助于推动计算机技术的发展,并为用户带来更好的使用体验。
在今年早些时候的 Google I/O 开发者大会上,Google宣布将为 Gemini API 引入计算机使用功能。今天,Google发布了 Gemini 2.5 计算机使用模型,这是一个全新的专用模型,旨在为能够与用户界面 (UI) 交互的代理提供支持。Google声称,该新模型在多个 Web 和移动控制基准测试中均优于其他同类模型 。
Gemini API computer_use 工具的工作原理如下:
开发人员需要将用户请求作为输入发送给工具,其中包括环境的屏幕截图和最近操作的历史记录。
除了输入之外,开发人员还可以指定是否从支持的完整 UI 操作列表中排除功能,或者是否需要包含任何其他自定义功能。
该模型将分析接收到的输入并生成响应,这将是 UI 操作之一,例如单击或键入。
如果模型不确定,它甚至可能会请求最终用户确认。例如,如果该操作与购买商品有关,则需要用户确认。
然后,客户端代码执行接收到的操作,例如单击按钮或显示最终用户确认。
一旦操作完成,当前 GUI 的新屏幕截图和当前 URL 将作为函数响应发送回计算机使用模型,重新开始循环。
重复上述步骤,直至达到主要任务目标。

虽然 Gemini 2.5 计算机使用模型针对网页浏览器进行了优化,但 Google 声称该模型在移动 UI 控制任务中也表现出色。Google特别提到 ,该模型尚未针对桌面操作系统级别的控制进行优化。正如您在下面的基准测试中看到的,Gemini 2.5 计算机使用模型在几个关键基准测试中都取得了最佳结果。
Gemini 2.5 计算机使用模型现已公开预览,开发人员可以通过 Google AI Studio 和 Vertex AI 上的 Gemini API 访问它。
作者:访客本文地址:https://huii.cc/show/4570.html发布于 2025-10-08 14:00:26
文章转载或复制请以超链接形式并注明出处麻辣财经
还没有评论,来说两句吧...