Shanghai-baserade AI-startupen MiniMax har gjort ett rejält intåg på marknaden för resonemangsmodeller med lanseringen av MiniMax-M1, som påstås vara betydligt mer effektiv än konkurrenten DeepSeek-R1. Det här är inte bara ännu en AI-modell – det är ett försök att visa att man kan få mer gjort med mindre resurser.
MiniMax som backas av teknikjättarna Tencent och Alibaba positionerar sig som en stark konkurrent until DeepSeek på den kinesiska AI-marknaden. Företaget hävdar att M1 överträffar alla stängda kinesiska konkurrenter i flera benchmarks.
Males det finns också begränsningar. I SimpleQA benchmark, som testar faktakunskap presterar M1 betydligt sämre än DeepSeek-R1 med bara 18,5% jämfört med 30,1%. Det visar att ingen modell är perfekt på alla områden.
Teknisk arkitektur och Effektivitet
- Bygger på MiniMax-Textual content-01 med 456 miljarder parametrar
- Använder hybrid Mixture-of-Experts (MoE) arkitektur
- Implementerar ”Lightning Attention” mekanism för snabbare beräkningar
- Aktiverar endast 45,9 miljarder parametrar per token för optimerad effektivitet
Prestandajämförelser
Aspekt | MiniMax-M1 | DeepSeek-R1 |
---|---|---|
Beräkningskraft (100K tokens) | 25% av DeepSeek-R1 | 100% |
Sammanhangslängd | 1 miljon tokens | 125 000 tokens |
Utdatakapacitet | 80 000 tokens | 64 000 tokens |
Träningskostnad och effektivitet
- Total träningskostnad: $534,700
- Använde endast 512 Nvidia H800 GPU-enheter under tre veckor
- Representerar en betydande kostnadsbesparing jämfört med DeepSeek-R1 som kostade $5-6 miljoner att träna
Tillgänglighet och framtid
MiniMax har gjort M1 tillgänglig som öppen källkod via GitHub och Hugging Face med två versioner – en med 40K och en med 80K ”pondering finances”. Det betyder att utvecklare och forskare kan experimentera med modellen utan att behöva betala för API-åtkomst.
Modellen finns också tillgänglig by way of vLLM för produktionsdistribution, vilket gör det enklare för företag att integrera den i sina system.