Google hat OpenAI mit Gemini 2.5 gerade den totalen Krieg erklärt.

Die Landschaft der künstlichen Intelligenz (KI) erlebt eine beispiellose Eskalation, in der Technologiegiganten einen regelrechten „Krieg“ um die Vorherrschaft in der Automatisierung führen. Kürzlich sorgte Google mit der Einführung von Gemini 2.5 Computer Use für Aufsehen auf dem Markt, einem KI-Modell, das entwickelt wurde, um auf menschliche Weise mit Internetbrowsern zu interagieren. Dieser strategische Schritt erfolgt nur einen Tag nach den Ankündigungen des Dev Day von OpenAI, was die Rivalität und das beschleunigte Innovationstempo festigt.

×

微信分享

打开微信,扫描下方二维码。

QR Code

Die Google-Strategie: Auf den Browser fokussierte Automatisierung

Googles Gemini 2.5 Computer Use stellt einen ausgeprägten taktischen Ansatz im Rennen um die KI-Automatisierung dar. Anstatt die vollständige Kontrolle über Desktop-Umgebungen anzustreben, wie es einige Konkurrenten tun, hat Google sein neues Modell darauf spezialisiert, ausschließlich auf Browsern basierende Interaktionen durchzuführen. Stellen Sie sich eine KI vor, die komplexe Formulare ausfüllen, auf Schaltflächen klicken, Webanwendungen ohne spezifische APIs navigieren und digitale Aufgaben ausführen kann, die menschliches visuelles Verständnis und Denken erfordern. Genau das verspricht Gemini 2.5 Computer Use.

Diese Technologie, die diskret über Project Mariner (ein Prototyp, der basierend auf Rezepten Artikel zu Online-Einkaufswagen hinzufügen konnte) getestet wurde, ist nun ein kommerziell verfügbares Werkzeug für Entwickler. Das Ziel ist klar: die Lücke zu schließen, wo traditionelle Automatisierung versagt, indem eine robuste Lösung für Szenarien geboten wird, die Interaktion mit Schnittstellen erfordern, die für menschliche Augen und Finger konzipiert wurden, nicht für reinen Code.

Für diejenigen, die tiefer in das Gemini-Universum eintauchen möchten, ist es unerlässlich, die Nuancen der Interaktion zu verstehen. Die Beherrschung des Prompt Engineering für Googles Gemini KI kann der Schlüssel sein, um ihr volles Potenzial in der fortgeschrittenen visuellen Synthese und anderen Anwendungen freizusetzen.

Der Kampf der Giganten: Google vs. OpenAI vs. Anthropic

Der Wettbewerb im Bereich der KI-Agenten ist hitziger denn je. Anthropic war einer der ersten, der Computer-Nutzungsfunktionen mit seinem Claude-Modell Monate zuvor veröffentlichte. OpenAI hat mit seinem ChatGPT Agent und den jüngsten Ankündigungen neuer Anwendungen für Entwickler seine Position als dominierender Akteur gefestigt. Nun steigt Google mit einem Vorschlag in den Wettbewerb ein, der zwar restriktiver ist, aber sein größter Vorteil sein könnte.

Während der ChatGPT Agent und die Tools von Anthropic darauf abzielen, vollständige Betriebssysteme zu steuern, beschränkt sich Gemini 2.5 Computer Use auf 13 spezifische Aktionen im Browser, wie das Öffnen von Tabs, das Eingeben von Text und das Ziehen von Elementen. Diese scheinbare Einschränkung ist in Wirklichkeit eine strategische Stärke. Indem sich Google ausschließlich auf Web-Interaktionen konzentriert, kann es die Leistung für die gängigsten Automatisierungsanwendungsfälle optimieren und gleichzeitig die Herausforderungen hinsichtlich Sicherheit und Zuverlässigkeit vermeiden, die mit dem vollständigen Systemzugriff verbunden sind. Google behauptet, dass sein Modell „führende Alternativen in mehreren Web- und mobilen Benchmarks übertrifft“, eine klare Botschaft an seine Rivalen.

Diese neue Front im KI-Wettbewerb spiegelt eine sich ständig weiterentwickelnde technologische Landschaft wider. Um besser zu verstehen, wie diese Giganten die Zukunft gestalten, ist es interessant, sich daran zu erinnern, wie der Krieg zwischen Netscape und Microsoft die Zukunft von Open AI definierte, was eine historische Parallele zu Rivalitäten bietet, die ganze Industrien verändern.

Der Zugang zu Gemini 2.5 Computer Use ist bereits für Entwickler über Google AI Studio und Vertex AI verfügbar. Darüber hinaus hat Google eine öffentliche Demo auf Browserbase bereitgestellt, wo jeder sehen kann, wie die KI Aufgaben wie das Spielen von 2048 oder das Navigieren durch Hacker News ausführt.

Implikationen und die Zukunft der KI-Automatisierung

Die Implikationen der Einführung von Gemini 2.5 Computer Use gehen über die bloße Browser-Automatisierung hinaus. Dieser Schritt stellt Googles Versuch dar, die Entwicklergemeinschaft zu gewinnen, die sich zunehmend KI-Agenten zuwendet. Da Unternehmen darum wetteifern, routinemäßige digitale Aufgaben zu automatisieren, wird die Plattform, die dies den Entwicklern am einfachsten macht, wahrscheinlich die nächste Welle von KI-Anwendungen dominieren.

Die Expansion der KI in verschiedene Domänen ist unbestreitbar. Google Gemini selbst revolutioniert bereits das Zuhause mit neuen Funktionen, indem es Fernseher in Kommandozentralen verwandelt und eine tiefere Integration in unseren Alltag verspricht.

Der Zeitpunkt von Google deutet auf eine strategische Dringlichkeit hin. Anstatt auf ein großes Launch-Event zu warten, zog das Unternehmen diese Veröffentlichung unmittelbar nach den Ankündigungen von OpenAI vor, was die Ernsthaftigkeit signalisiert, mit der es die Wettbewerbsbedrohung in der KI-Automatisierung betrachtet. Für Entwickler bedeutet dies mehr Optionen, aber auch schwierigere Entscheidungen darüber, welche KI-Agenten-Plattform sie nutzen sollen. Die nahe Zukunft wird zeigen, ob Googles fokussierter Ansatz effektiv mit der umfassenderen Vision von OpenAI konkurrieren kann, aber eines ist sicher: Der Wettlauf um die Automatisierung digitaler Arbeit ist gerade viel kompetitiver geworden.

×

微信分享

打开微信,扫描下方二维码。

QR Code