谷歌凭借 Gemini 2.5 “电脑使用”功能,向 OpenAI 发起全面战争

人工智能 (AI) 领域正在经历一场前所未有的升级,科技巨头们为争夺自动化领域的霸主地位展开了一场真正的“战争”。最近,谷歌发布了 Gemini 2.5 Computer Use,这是一款旨在像人类一样与互联网浏览器进行交互的 AI 模型,震撼了市场。这一战略举措是在 OpenAI 开发者日发布公告仅一天后发生的,巩固了竞争态势和创新的加速步伐。

×

微信分享

打开微信,扫描下方二维码。

QR Code

谷歌的策略:专注于浏览器的自动化

谷歌的 Gemini 2.5 Computer Use 代表了在 AI 自动化竞赛中一种独特的战术方法。谷歌没有像其一些竞争对手那样寻求对桌面环境的完全控制,而是选择将其新模型专门用于纯粹基于浏览器的交互。想象一下,一个 AI 能够填写复杂的表格、点击按钮、在没有特定 API 的情况下浏览网络应用程序,并执行需要人类视觉理解和推理的数字任务。这正是 Gemini 2.5 Computer Use 所承诺的。

这项技术曾通过 Project Mariner(一个能够根据食谱将物品添加到在线购物车的原型)进行秘密测试,现在已成为开发者可以商业使用的工具。目标很明确:填补传统自动化失败的空白,为需要与专为人眼和人手而非纯代码创建的界面进行交互的场景提供一个强大的解决方案。

对于那些希望深入了解 Gemini 世界的人来说,理解交互的细微差别至关重要。掌握谷歌 Gemini AI 的提示工程可能是释放其在高级视觉合成和其他应用中全部潜力的关键。

巨头之战:谷歌 vs. OpenAI vs. Anthropic

AI 代理领域的竞争比以往任何时候都更加激烈。Anthropic 是最早采取行动的公司之一,提前几个月发布了其 Claude 模型上的计算机使用功能。OpenAI 凭借其 ChatGPT Agent 和最近宣布的新开发者应用程序,巩固了其作为主导者的地位。现在,谷歌以一种虽然更具限制性,但可能成为其最大优势的提议加入了竞争。

虽然 ChatGPT Agent 和 Anthropic 的工具旨在控制完整的操作系统,但 Gemini 2.5 Computer Use 仅限于浏览器中的 13 个特定操作,例如打开标签页、输入文本和拖动元素。这种表面上的限制实际上是一种战略优势。通过专注于网络交互,谷歌可以针对最常见的自动化用例优化性能,同时避免与系统完全访问相关的安全和可靠性挑战。谷歌声称其模型“在多项网络和移动基准测试中超越了领先的替代品”,这显然是在向竞争对手传达信息。

AI 竞争的这一新阵线反映了一个不断发展的技术图景。为了更好地理解这些巨头如何塑造未来,回顾网景 vs. 微软之战如何定义 Open AI 的未来是很有趣的,这提供了一个关于改变行业的竞争的历史类比。

开发者现在可以通过 Google AI Studio 和 Vertex AI 访问 Gemini 2.5 Computer Use。此外,谷歌还在 Browserbase 上提供了一个公开演示,任何人都可以在其中看到 AI 执行诸如玩 2048 或浏览 Hacker News 等任务。

影响与 AI 自动化的未来

Gemini 2.5 Computer Use 发布的影响超越了简单的浏览器自动化。此举代表了谷歌试图吸引那些越来越多地转向 AI 代理的开发者的注意。随着企业争相自动化日常数字任务,为开发者提供便利的平台很可能会主导下一波 AI 应用浪潮。

AI 在不同领域的扩展是不可否认的。谷歌 Gemini 本身已经通过新功能革新了家居,将电视变成了指挥中心,并承诺更深入地融入我们的日常生活。

谷歌选择的时机暗示了战略上的紧迫性。该公司没有等待大型发布活动,而是在 OpenAI 发布公告后立即提前发布了这一功能,表明其严肃对待 AI 自动化领域的竞争威胁。对于开发者来说,这意味着更多的选择,但同时也意味着在选择使用哪个 AI 代理平台时面临更艰难的抉择。不久的将来将决定谷歌这种聚焦的方法是否能有效抗衡 OpenAI 更全面的愿景,但有一点是肯定的:数字化工作自动化的竞赛变得更加激烈了。

×

微信分享

打开微信,扫描下方二维码。

QR Code