DeepSeek har uppgraderat sin AI-modell DeepSeek R1-0528, en mindre vidareutveckling av den ursprungliga R1-modellen.. Den här uppgraderingen fokuserar på att förbättra modellens kapabiliteter. Modellen har förbättrats när det gäller att reducera hallucinationer, vilket innebär att den nu mer effektivt kan generera korrekta och sammanhängande svar.
Som en del av uppdateringen har DeepSeek även släppt en lättare distillerad model av R1-0528 kallad DeepSeek-R1-0528-Qwen3-8B. Denna modell är utformad för att köra på mindre hårdvara samtidigt som den uppnår state-of-the-art-prestanda på vissa benchmark. Denna distillerade modell använder sig av Chain-of-Thought från DeepSeek-R1-0528 och har utvärderats som överlägsen jämfört med liknande storleksmodeller.
Lokal användning: Full modell (~720 GB) kräver enroma kraftfulla hårdvara (t.ex. 12× 80 GB GPU:er) 48. Kvantiserade versioner (t.ex. 1,78-bitars dynamisk GGUF) minskar storleken med 75%, vilket möjliggör drift på 24 GB GPU:er som RTX 4090.
Öppen & Free of charge: Utgiven beneath MIT-licensen på Hugging Face, vilket möjliggör kommersiell och forskningsanvändning.https://chat.deepseek.com
Free of charge chat by way of DeepSeeks officiella webbplats (aktivera ”DeepThink”-läge)