OpenAI's Operator AI: Alles, was Sie wissen müssen.

OpenAI’s Operator AI: Alles, was Sie wissen müssen.

OpenAI hat im Januar endlich das Agent -KI -Rennen mit der Veröffentlichung seiner Betreiber -KI eingetreten. Das Agentensystem ist so konzipiert, dass er autonom im Namen seines Benutzers arbeitet, und ist darauf vorbereitet, gegen bereits etablierte Branchenkonkurrenten wie die Computer -Use -API von Claude und die Copilot -Agenten von Microsoft zu konkurrieren – zumindest, sobald es seinen Status „Forschungsvorschau“ ausgibt. Hier finden Sie alles, was Sie über Openais neuer Agent wissen müssen und wenn Sie es möglicherweise selbst ausprobieren können.

Was ist Operator?

OpenAIs Betreiber ist eine Agent -KI, was bedeutet, dass er autonome Maßnahmen basierend auf den ihm zur Verfügung stehenden Informationen ergreifen soll. Im Gegensatz zu herkömmlichen Programmen können KI-Agenten jedoch die sich ändernden Bedingungen in Echtzeit überprüfen und entsprechend reagieren, anstatt einfach vorgegebene Befehle auszuführen. KI-Agenten können daher eine Vielzahl komplexer, mehrstufiger Aufgaben ausführen, die von der Transkribierung, Zusammenfassung und Generierung von Aktionsartikeln von einem Geschäftstreffen bis zur Buchung des Fluges, Hotelunterkünfte und Mietwagens für einen bevorstehenden Urlaub basierend auf der Ihrer Familie reichen Verschiedene Zeitpläne zur autonomen Erforschung von Themen und Zusammenstellen mehrseitiger Studien zu diesen Probanden.

Empfohlene Videos

Der Bediener arbeitet etwas anders als andere Agenten, die derzeit verfügbar sind. Während Claude’s Computer -Verwendung eine API und die KI -Agenten von Microsoft in der Copilot Chat -Benutzeroberfläche selbst ist, ist der Bediener so konzipiert, dass er in einem speziellen Webbrowserfenster betrieben wird, das auf OpenAIs Servern ausgeführt wird und seine Aufgaben aus der Ferne ausführt. Ihr lokaler Webbrowser hat nichts mit dem Prozess zu tun und kann normal verwendet werden, auch wenn der Bediener ausgeführt wird.

Die Operator -App wird von einem neuen angetrieben “Computer-Us-Agent”Model (CUA), das wiederum auf GPT-4O erstellt wurde und die multimodalen Fähigkeiten der App bietet. Laut Openai wurde Cua ähnlich wie seine O1- und O3 -Argumentationsmodelle ausgebildet. Als solches wird das CUA -Modell komplexe Aufgaben in ihre Komponentenprobleme unterteilen, bevor es versucht, sie nacheinander zu lösen, und die Backtracking bei logischen Straßensperren zurückzuführen.

Einführung in Operator und Agenten

Wann wurde der Bediener freigegeben?

OpenAI wurde am 23. Januar 2025 veröffentlicht. Es ist derzeit nur für 200 US -Dollar pro Monat in den USA über die verfügbar operator.chatgpt.com Webseite. „Unser Plan ist es, auf Plus-, Team- und Enterprise -Benutzer zu expandieren und diese Funktionen in Zukunft in ChatGPT zu integrieren“ schrieb in seinem Ankündigungsbeitrag.

Verwandt :  So beheben Sie den Fehler „Kein Hypervisor gefunden“ in der Windows-Sandbox

Wie funktioniert der Bediener?

Operator demonstrieren

Benutzer können den Agenten auf dem Chatgpt -Startbildschirm aktivieren, der eine dedizierte Webbrowser -Seite in einem Seitenfenster aufgreift, damit der Bediener seine Aufgaben ausführt. Die KI bietet eine laufende Erzählung darüber, was sie derzeit tut, und der Benutzer kann den Prozess jederzeit übernehmen. Der Bediener wird in bestimmten Aufgaben um die Hilfe des Benutzers bitten, z. B. die Anmeldung auf bestimmte gesicherte Websites und die Bestätigung des Benutzers vor der Ausführung wichtiger Aufgaben abzurufen. Es kann sowohl visuell (dh durch Screenshots) und taktisch mit Websites interagieren, wenn die Tastatur des Benutzers und Mausklicks des Benutzers nachahmt.

Was kann der Bediener und wie gut es tun?

Da es sich um den Browser beschränkt, kann der Betreiber derzeit nur einfache internetbasierte Aufgaben ausführen, z. B. Konzertkarten, bestellen Doordash oder das Ausfüllen von Instacart-Bestellungen. Das Unternehmen behauptet außerdem, dass der Agent in der Lage sein wird, Aufgaben wie Buchung von Hotels und Fluggesellschaften zu automatisieren, Tische in Restaurants zu reservieren und sogar Ihre Online -Einkäufe durchzuführen.

OpenAI hat den Betreiber gegen den Computergebrauch von Anthropic sowie den Mariner -Agenten von Google Deepmind in einer Reihe von Branchenbenchmarks und Behauptungen von Google DeepMind angetan, dass der Betreiber sie auf der ganzen Linie geschlagen hat. Auf der Osworld BenchmarkDies misst, wie gut ein Agent Aufgaben erledigen kann, wie das Zusammenführen von PDF -Dateien, CuA -Out -Computer -Nutzung von 38,1% bis 22,0% – als Referenz durch den Menschen durchschnittlich 72% Erfolg bei diesen Aufgaben. Auf der WebVoyager -Benchmark CUA setzte den Mariner um 87% bis 83,5% durch. Der Computergebrauch erzielte knapp 56%.

Die ersten Benutzerreaktionen auf den AI -Agenten wurden jedoch gemischt. Zum Beispiel, New York Times Der Kolumnist Kevin Roost schrieb: „Insgesamt stellte ich fest, dass die Verwendung von Operator normalerweise mehr Ärger war als es wert war. Das meiste, was es für mich tat, hätte ich selbst schneller mit weniger Kopfschmerzen tun können. “

„Selbst als es funktioniert hat“, fuhr er fort, „forderte es nach so vielen Bestätigungen und Zusicherungen vor dem Schauspielern, dass ich mich weniger so fühlte, als hätte ich einen virtuellen Assistenten und mehr so, als würde ich den unsichersten Praktikant der Welt überwachen.“

Wie kann ich Operator für mich selbst versuchen?

Um Zugang zum OpenAI -Betreiberagent zu erhalten operator.chatgpt.com Webseite.

Moyens I/O-Personal. motivierte Sie und gab Ratschläge zu Technologie, persönlicher Entwicklung, Lebensstil und Strategien, die Ihnen helfen werden.