xAI testete Grok 4.1 auf LMArena, einem glaubwürdigen Benchmark für große Sprachmodelle.
Elon Musks KI Startup xAI hat Grok 4.1, sein neuestes KI Modell, veröffentlicht. Musk kündigte das Update auf seiner Social MediaPlattform X an und hob die Verbesserungen in Geschwindigkeit und Zuverlässigkeit hervor. Laut xAI reduziert die neueste Version von Grok das Risiko von Halluzinationen also der Darstellung falscher Informationen als wahr drastisch. Internen Bewertungen von xAI zufolge ist Grok 4.1 „außergewöhnlich leistungsfähig in kreativen, emotionalen und kollaborativen Interaktionen“ und behält dabei die Intelligenz und Zuverlässigkeit der Vorgängermodelle bei.
Grok 4.1 wird ab sofort für alle Nutzer auf grok.com, X sowie in den mobilen Apps für iOS und Android ausgerollt.
Das Social Media Unternehmen gibt an, dass Grok 4.1 deutlich weniger anfällig für die Produktion falscher Informationen ist ein Bereich, der bei vielen Sprachmodellen kritisch beäugt wurde. Um das Problem der faktischen Halluzinationen anzugehen, konzentrierte sich xAI nach dem Training von Grok 4.1 darauf, Fehler bei Informationsanfragen zu reduzieren. Das Unternehmen evaluierte die Halluzinationsraten anhand realer Anfragen aus dem Produktivverkehr und des FactScore Benchmarks, der aus 500 biografischen Fragen besteht.
Während das Grok 4 Fast Modell eine Halluzinationsrate von 12 Prozent aufwies, lag Grok 4.1 mit 4 Prozent dreimal niedriger. Der FactScore Benchmark zeigte ein ähnliches Bild: Grok 4.1 erreichte 9,89 Prozent, Grok 4.1 hingegen nur 2,97 Prozent.
xAI testete Grok 4.1 auf LMArena, einem anerkannten Benchmark für große Sprachmodelle (LLMs). In der LMArena Text Arena erzielte Grok 4.1 (Quasarflux Modus) mit einem Elo Wert von 1483 die höchste Gesamtplatzierung und übertraf damit alle anderen Modelle um 31 Punkte. Selbst im Modus ohne logisches Denken (Tensor Modus) erreichte Grok 4.1 den zweiten Platz und erzielte eine höhere Punktzahl als andere Modelle mit vollständiger logischer Analyse.
Die Einführung von Grok 4.1 erfolgte nach einer zweiwöchigen Testphase vom 1. November 2025, in der das Modell schrittweise für mehr Nutzer auf allen Plattformen freigegeben wurde. Während dieser Phase führte xAI kontinuierliche, verblindete Paarvergleiche im Live Datenverkehr durch, um die Echtzeit Reaktionen von Grok 4.1 mit denen seines Vorgängers zu vergleichen.
Im direkten Vergleich mit dem vorherigen Produktionsmodell von xAI erzielte Grok 4.1 eine Trefferquote von 64,78 %, was eine klare Präferenz der Nutzer belegt.
Grok 4.1 wird nun für alle Nutzer auf grok.com, X sowie in den mobilen Apps für iOS und Android eingeführt. Das Modell kann über die Modusauswahl der App oder im Automatikmodus aufgerufen werden.
Werbung
Werbung