Xiaomi MiMo AI Modelle Gestartet mit Effizientes Denken, Kleine Größe .Xiaomi hat am Dienstag ein Open-Source-Modell für künstliche Intelligenz (KI) mit Schwerpunkt auf logischem Denken veröffentlicht. Dies ist erste Open-Source-Modell des Technologie und konkurriert mit chinesisch Modellen wie DeepSeek R1 und Alibabas Qwen QwQ-32B sowie globalen Modellen wie OpenAIs o1 und Googles Gemini 2.0 Flash Thinking. Die MiMo-Familie hat vier Modelle mit einzigartigen Anwendungs fällen. Xiaomis MiMo Reasoning-KI-Modell soll mit DeepSeek R1 konkurrieren.Mit der MiMo-Reihe von KI-Modellen wollten die Forscher von Xiaomi das problem lösen Sie die Berechnung von KI-Modellen. Computermodelle verfügen über etwa 24 Milliarden oder mehr Parameter.
Die große Größe wird gepflegt, um gleichmäßige und gleichzeitige Verbesserungen sowohl der Codierungs- als auch der mathematischen Fähigkeiten großer Sprachmodelle zu erreichen, was bei kleineren Modellen als schwierig ist . Im Vergleich dazu hat MiMo über sieben Milliarden Parameter, und Xiaomi behauptet, dass seine Leistung mit der von OpenAIs o1-mini mithalten und mehrere Reasoning-Modelle mit 32 Milliarden Parametern übertreffen würde. Die Forscher gaben an, dass das grundlegende KI-Modell mit 25 Billionen Token vortrainiert wurde.
Die Forscher sagt, dass die Effizienz durch die Optimierung der Daten vor verarbeitungs pipelines erreicht wurde,Verbesserung der Text extraktions Toolkits und Anwendung multi dimensionaler Daten filterung. Das Vortraining von MiMo umfasste eine dreistufige Daten mischungs strategie.Die Xiaomi-Forscher sagt, dass die MiMo-7B-Base im BIG-Bench Hard (BBH)-Benchmark für Denkfähigkeiten 75,2 Punkte erreicht. Der auf Zero-Shot-Reinforcement-Learning (RL) basierende MiMo-7B-RL-Zero soll bei Mathematik- und Codierungs aufgaben herausragend sein und erreicht im AIME-Benchmark 55,4 Punkte, welches das o1-mini um 4,7 Punkte übertrifft.
MiMo ein Open-Source-KI-Modell ist , kann es von Xiaomis GitHub- und Hugging Face-Liste heruntergeladen werden. Das technische Dokument beschreibt die Architektur des Modells und die Vor und Nach trainings prozesse. Es handelt sich um ein textbasiertes Modell ohne multimodale Funktionen. Wie bei den meisten Open-Source-Versionen sind die Details des Datensatzes des Modells unbekannt.