DeepSeek startet das Jahr 2026 mit einer neuen KI Architektur, die auf ein effizienteres Modelltraining abzielt

DeepSeek hat eine neue KI Architektur namens Manifold-Constrained-Hyper-Connections (mHC) eingeführt, um die Kosten für das Training von Modellen zu senken.

Written by aktualisiert: 2 Januar 2026 14:25 IST

Höhepunkte

DeepSeek veröffentlicht Studie mit Details zu einer neuen KI Architektur
mHC soll Instabilität beim Training großer KI Modelle senken
Ziel der Forschung ist die Optimierung der vorhandenen Hardware

DeepSeek, das chinesische KI Startup, das im November 2024 mit seinem KI-Modell R1 das Silicon Valley im Sturm eroberte, hat nun eine neue Architektur vorgestellt, die die Kosten und den Zeitaufwand für das Training großer Sprachmodelle (LLMs) deutlich reduzieren kann. Das Unternehmen veröffentlichte ein neues Forschungspapier, in dem eine Trainingsarchitektur namens Manifold-Constrained Hyper-Connections (mHC) beschrieben wird, die darauf abzielt, die Effizienz und Zuverlässigkeit des Trainings großer KI-Modelle zu verbessern.

DeepSeek präsentiert neue KI Trainingsarchitektur

Das Trainieren großer KI Modelle ist zu einer der anspruchsvollsten Aufgaben im Bereich des modernen Computings geworden, nicht nur aufgrund ihrer Komplexität, sondern auch wegen der hohen Kosten, des Energieverbrauchs und der damit verbundenen Ressourcenverschwendung. Eine aktuelle Studie von DeepSeek schlägt eine Strategie vor, die einige dieser Schwierigkeiten mindern könnte.

Diese Technik, genannt Variety-Constrained Hyperconnection (mHC), zielt darauf ab, das Training großer KI-Modelle zu vereinfachen und dessen Zuverlässigkeit zu verbessern. Ziel ist es, die Trainingsinstabilität zu reduzieren – ein häufiges Problem, das Unternehmen dazu zwingt, kostspielige Trainingszyklen von Grund auf neu zu starten, anstatt sich auf die Verbesserung der reinen Leistung zu konzentrieren.
Kurz gesagt: Viele hochentwickelte KI Modelle scheitern während des Trainings. Wochenlange Arbeit, erheblicher Stromverbrauch und Tausende von GPU Rechenstunden gehen dabei verloren. Die Methode von DeepSeek soll diese Ausfälle verhindern, indem sie ein vorhersehbareres Modellverhalten gewährleistet, selbst wenn die Modelle skaliert werden.

Dies ist wichtig, da das KI Training heutzutage sehr viel Strom verbraucht. Obwohl mHC den Energieverbrauch der GPUs nicht direkt reduziert, kann es die Verschwendung minimieren, indem es den Modellen hilft, ihr Training ohne Abstürze oder unerwartete Neustarts abzuschließen.
Effizienz im großen Maßstab ist ein weiterer Vorteil. Unternehmen müssen nicht mehr so stark auf „Brute-Force“Methoden, wie das Hinzufügen weiterer GPUs, mehr RAM oder die Anpassung von Trainingsplänen zurückgreifen, um Probleme durch ein konsistenteres Training zu lösen. Dies reduziert den Gesamtenergieverbrauch während einer Trainingseinheit.

Die Forschung von DeepSeek bietet keine Patentlösung für Energieprobleme oder Hardwareengpässe. Vielmehr stellt sie einen subtileren, aber bedeutenden Fortschritt dar: die Optimierung der verfügbaren Ressourcen. Dank solcher Methoden werden KI Entwickler in Zukunft in der Lage sein, leistungsstarke Modelle zu trainieren und gleichzeitig die verschwendeten Rechenstunden und den Gesamtenergieverbrauch zu reduzieren. Langfristig könnte dieser Ansatz auch die Entwicklung zukünftiger KI Modelle von Anfang an beeinflussen.

Verwandte Neuigkeiten

Google Maps erhält neue Gemini-KI: „Ask Maps“ und Immersive Navigation vorgestellt

Written by Gadgets360 Staff, 13 März 2026
Internet
Googles neuer Benchmark bewertet die besten KI-Modelle für Android-App-Entwicklung

Written by Gadgets360 Staff, 11 März 2026
Internet
FBI warnt vor steigenden Zahlen bei Geldautomaten Angriffen, bei denen es zu sogenannten „Jackpot“ Attacken kommt

Written by Gadgets360 Staff, 20 Februar 2026
Internet
Meta plant angeblich, dieses Jahr eine Smartwatch auf den Markt zu bringen

Written by Gadgets360 Staff, 19 Februar 2026
Internet
Google hat Google I/O 2026 am 19. und 20. Mai stattfinden wird

Written by Gadgets360 Staff, 18 Februar 2026
Internet

DeepSeek startet das Jahr 2026 mit einer neuen KI Architektur, die auf ein effizienteres Modelltraining abzielt

Auf Facebook teilen

Twittern Aktie Reddit E-Mail

DeepSeek startet das Jahr 2026 mit einer neuen KI Architektur, die auf ein effizienteres Modelltraining abzielt

DeepSeek präsentiert neue KI Trainingsarchitektur

Verwandte Neuigkeiten

Google Maps erhält neue Gemini-KI: „Ask Maps“ und Immersive Navigation vorgestellt

Googles neuer Benchmark bewertet die besten KI-Modelle für Android-App-Entwicklung

FBI warnt vor steigenden Zahlen bei Geldautomaten Angriffen, bei denen es zu sogenannten „Jackpot“ Attacken kommt

Meta plant angeblich, dieses Jahr eine Smartwatch auf den Markt zu bringen

Google hat Google I/O 2026 am 19. und 20. Mai stattfinden wird