Google DeepMind enthüllt Gemini 2.0 KI-Modell mit nativer Bild- und Audioausgabe

Google DeepMind enthüllt Gemini 2.0 KI-Modell mit nativer Bild- und Audioausgabe

Weniger als ein Jahr nach der Einführung von Gemini 1.5 war Googles DeepMind-Abteilung am Mittwoch zurück, um das KI-Modell der nächsten Generation, Gemini 2.0, vorzustellen. Das neue Modell bietet native Bild- und Audioausgabe und „wird es uns ermöglichen, neue KI-Agenten zu entwickeln, die uns unserer Vision eines universellen Assistenten näher bringen“, schrieb das Unternehmen sein Ankündigungs-Blogbeitrag.

Ab Mittwoch ist Gemini 2.0 in allen Abonnementstufen verfügbar, auch kostenlos. Als neues Flaggschiff-KI-Modell von Google können Sie davon ausgehen, dass es in den kommenden Monaten KI-Funktionen im gesamten Ökosystem des Unternehmens bereitstellen wird. Wie beim o1-Modell von OpenAI handelt es sich bei der ersten Veröffentlichung von Gemini 2.0 nicht um die vollwertige Version des Unternehmens, sondern um eine kleinere, weniger leistungsfähige „experimentelle Vorschau“-Iteration, die in den kommenden Monaten in Google Gemini aktualisiert wird.

Empfohlene Videos

„Effektiv“, sagte Demis Hassabis, CEO von Google DeepMind Der Rand„Es ist genauso gut wie das aktuelle Pro-Modell.“ Sie können es sich also als eine ganze Stufe besser vorstellen, bei gleicher Kosteneffizienz, Leistungseffizienz und Geschwindigkeit. Damit sind wir wirklich zufrieden.“

Google veröffentlicht außerdem eine leichtgewichtige Version des Modells mit dem Namen Gemini 2.0 Flash für Entwickler.

Wir stellen Gemini 2.0 vor | Unser bisher leistungsfähigstes KI-Modell

Mit der Veröffentlichung eines leistungsfähigeren Gemini-Modells treibt Google seine KI-Agenten-Agenda voran, die vorsieht, dass kleinere, speziell entwickelte Modelle autonome Maßnahmen im Namen des Benutzers ergreifen. Es wird erwartet, dass Gemini 2.o die Bemühungen von Google zur Einführung seines Projekts Astra erheblich vorantreiben wird, das die Konversationsfähigkeiten von Gemini Live mit Echtzeit-Video- und Bildanalyse kombiniert, um Benutzern über eine Datenbrillenschnittstelle Informationen über ihre Umgebung bereitzustellen.

Google gab am Mittwoch außerdem die Veröffentlichung von bekannt Projekt Marinerdie Antwort des Unternehmens auf die Computersteuerungsfunktion von Anthropic. Diese Chrome-Erweiterung ist in der Lage, einen Desktop-Computer, einschließlich Tastenanschlägen und Mausklicks, auf die gleiche Weise zu steuern, wie es menschliche Benutzer tun. Das Unternehmen führt außerdem einen KI-Codierungsassistenten namens Jules ein, der Entwicklern helfen kann, klobigen Code zu finden und zu verbessern, sowie eine „Deep Research“-Funktion, die detaillierte Berichte zu den Themen erstellen kann, nach denen Sie im Internet suchen.

Deep Research, das offenbar die gleiche Funktion wie Perplextiy AI und ChatGPT Search erfüllt, ist derzeit für englischsprachige Gemini Advanced-Abonnenten verfügbar. Das System erstellt zunächst einen „mehrstufigen Forschungsplan“, den es dem Benutzer vor der Umsetzung zur Genehmigung vorlegt.

Verwandt :  OpenAI enthüllt atemberaubende Sora-Videos: Transformation der Kreativindustrien

Sobald Sie dem Plan zugestimmt haben, führt der Rechercheagent eine Suche zu dem angegebenen Thema durch und sucht dann alle relevanten Kaninchenlöcher auf, die er findet. Sobald die Suche abgeschlossen ist, erstellt die KI einen Bericht über das, was sie gefunden hat, einschließlich der wichtigsten Ergebnisse und Zitatlinks zu dem Ort, an dem sie ihre Informationen gefunden hat. Sie können es aus dem Dropdown-Modellauswahlmenü des Chatbots oben auf der Gemini-Startseite auswählen.

Moyens I/O-Personal. motivierte Sie und gab Ratschläge zu Technologie, persönlicher Entwicklung, Lebensstil und Strategien, die Ihnen helfen werden.