Die Gemini Sprachverbesserungen werden für Entwickler und Nutzer freigeschaltet.
Google führt diese Woche ein umfassendes Upgrade seiner sprachbasierten KI ein und verbessert die Funktionen von Gemini 2.5 Flash Native Audio in Bezug auf Gesprächsqualität, Befehlsverarbeitung und Workflow Integration. Das aktualisierte Modell ist ab sofort für Entwickler über Google AI Studio und Vertex AI verfügbar, während Nutzer die Verbesserungen über Gemini Live und Search Live erleben können.Verbesserte Gemini Audiomodelle für leistungsstarke Sprachinteraktionen,Laut Google wurde das neue Gemini 2.5 Flash Native Audio 12-25 Modell entwickelt, um natürlichere und flüssigere Sprachinteraktionen zu ermöglichen. Eine der bemerkenswertesten Verbesserungen ist die optimierte Verarbeitung von mehrstufigen Gesprächen. Bei längeren Sprachchats kann Gemini nun den Kontext aus früheren Gesprächsrunden besser erfassen und anwenden, was zu reibungsloseren und konsistenteren Gesprächen führt.
Das Upgrade stärkt außerdem die Fähigkeit von Gemini, sich in externe Workflows zu integrieren, ohne den Gesprächsfluss zu unterbrechen. Das Modell kann Audiosignale von Nutzern erkennen, um externe Tools oder Funktionen auszulösen, beispielsweise das Abrufen von Echtzeitdaten. Nach dem Abruf können diese Informationen nahtlos in die gesprochenen Antworten von Gemini integriert werden, wodurch sich Sprachinteraktionen dynamischer und reaktionsschneller anfühlen.
Google hat auch das Verständnis und die Ausführung komplexer Benutzeranweisungen durch den Gemini Live Voice Agent verbessert. Das aktualisierte Modell ist besser in der Lage, mehrstufige Anfragen selbstständig zu bearbeiten, wodurch die Notwendigkeit der Weiterleitung an einen menschlichen Mitarbeiter reduziert wird. Laut Google führen diese Verbesserungen zu einer höheren Nutzerzufriedenheit, insbesondere hinsichtlich der Vollständigkeit der Antworten und der Aufgabenerfüllung.
In puncto Zuverlässigkeit weist das neue Modell eine Übereinstimmungsrate von 90 % mit den Entwickleranweisungen auf, was eine Verbesserung um sechs Prozent gegenüber der vorherigen Version Gemini 2.5 Flash Native Audio 9-25 darstellt. Diese erhöhte Konsistenz ist besonders wichtig für Entwickler, die sprachgesteuerte Anwendungen entwickeln, die auf vorhersehbares KI Verhalten angewiesen sind.
Leistungsbenchmarks unterstreichen das Upgrade zusätzlich. Im Google ComplexFuncBench Audio Test erreichte das neueste Gemini 2.5 Flash Native Audio Modell einen Wert von 71,5 % und übertraf damit sowohl seinen direkten Vorgänger als auch das gpt realtime Modell von OpenAI.
Das aktualisierte Gemini 2.5 Flash Native Audio Modell und die Live Voice Agents sind ab sofort in Google AI Studio und Vertex AI verfügbar, eine Vorschau ist über die Gemini API verfügbar. Android Nutzer können die verbesserten Sprachfunktionen bereits über Gemini Live und Search Live erleben, ein bedeutender Schritt in Googles Bestreben, die Echtzeit Konversations KI weiterzuentwickeln.
Werbung
Werbung