DeepSeek hat eine neue KI Architektur namens Manifold-Constrained-Hyper-Connections (mHC) eingeführt, um die Kosten für das Training von Modellen zu senken.
DeepSeek, das chinesische KI Startup, das im November 2024 mit seinem KI-Modell R1 das Silicon Valley im Sturm eroberte, hat nun eine neue Architektur vorgestellt, die die Kosten und den Zeitaufwand für das Training großer Sprachmodelle (LLMs) deutlich reduzieren kann. Das Unternehmen veröffentlichte ein neues Forschungspapier, in dem eine Trainingsarchitektur namens Manifold-Constrained Hyper-Connections (mHC) beschrieben wird, die darauf abzielt, die Effizienz und Zuverlässigkeit des Trainings großer KI-Modelle zu verbessern.
Das Trainieren großer KI Modelle ist zu einer der anspruchsvollsten Aufgaben im Bereich des modernen Computings geworden, nicht nur aufgrund ihrer Komplexität, sondern auch wegen der hohen Kosten, des Energieverbrauchs und der damit verbundenen Ressourcenverschwendung. Eine aktuelle Studie von DeepSeek schlägt eine Strategie vor, die einige dieser Schwierigkeiten mindern könnte.
Diese Technik, genannt Variety-Constrained Hyperconnection (mHC), zielt darauf ab, das Training großer KI-Modelle zu vereinfachen und dessen Zuverlässigkeit zu verbessern. Ziel ist es, die Trainingsinstabilität zu reduzieren – ein häufiges Problem, das Unternehmen dazu zwingt, kostspielige Trainingszyklen von Grund auf neu zu starten, anstatt sich auf die Verbesserung der reinen Leistung zu konzentrieren.
Kurz gesagt: Viele hochentwickelte KI Modelle scheitern während des Trainings. Wochenlange Arbeit, erheblicher Stromverbrauch und Tausende von GPU Rechenstunden gehen dabei verloren. Die Methode von DeepSeek soll diese Ausfälle verhindern, indem sie ein vorhersehbareres Modellverhalten gewährleistet, selbst wenn die Modelle skaliert werden.
Dies ist wichtig, da das KI Training heutzutage sehr viel Strom verbraucht. Obwohl mHC den Energieverbrauch der GPUs nicht direkt reduziert, kann es die Verschwendung minimieren, indem es den Modellen hilft, ihr Training ohne Abstürze oder unerwartete Neustarts abzuschließen.
Effizienz im großen Maßstab ist ein weiterer Vorteil. Unternehmen müssen nicht mehr so stark auf „Brute-Force“Methoden, wie das Hinzufügen weiterer GPUs, mehr RAM oder die Anpassung von Trainingsplänen zurückgreifen, um Probleme durch ein konsistenteres Training zu lösen. Dies reduziert den Gesamtenergieverbrauch während einer Trainingseinheit.
Die Forschung von DeepSeek bietet keine Patentlösung für Energieprobleme oder Hardwareengpässe. Vielmehr stellt sie einen subtileren, aber bedeutenden Fortschritt dar: die Optimierung der verfügbaren Ressourcen. Dank solcher Methoden werden KI Entwickler in Zukunft in der Lage sein, leistungsstarke Modelle zu trainieren und gleichzeitig die verschwendeten Rechenstunden und den Gesamtenergieverbrauch zu reduzieren. Langfristig könnte dieser Ansatz auch die Entwicklung zukünftiger KI Modelle von Anfang an beeinflussen.
Werbung
Werbung
Oppo F33, Oppo F31 Pro Launch Timeline, Price Range Revealed in New Leak
Capcom Adds Original Versions of Resident Evil 1, 2 and Resident Evil 3 Nemesis to Steam