Samsungs lilla AI-modell TRM utmanar större LLM-modeller

TRM är en liten AI-modell med endast 7 miljoner parametrar som överträffar större språkmodeller på komplexa resoneringsuppgifter.
Modellen använder en rekursiv metod där nätverket iterativt förfinar sina svar genom upp until 16 upprepningar.
Modellen presterar märkbart bättre än stora språkmodeller som Deepseek R1 och Gemini 2,5 Professional på specifika uppgifter.
RM har potential för användning i resursbegränsade miljöer som robotik och personlig databehandling.

Samsung forskare har utvecklat en ny öppen resonemangsmodell kallad TRM (Tiny Recursion Mannequin) som överträffar modeller som är 10 000 gånger större på specifika drawback. Modellen som bygger på rekursivt resonemang visar att små nätverk kan uppnå hög prestanda utan stora investeringar i GPU: och kraft.

TRM är öppen källkod beneath en MIT-licens och är utformad för strukturerade, visuella och grid-baserade drawback vilket utmanar den dominerande filosofin att ”skala är allt som behövs” inom AI-forskningen.

Med bara två lager i sitt neurala nätverk simulerar TRM en djupare arkitektur utan att belasta minnet eller kräva massiva beräkningsresurser. Den rekursiva cykeln körs upp until 16 gånger för varje uppgift, vilket gör att modellen kan göra allt mer exakta förutsägelser – lite som hur stora språkmodeller använder steg-för-steg-resonemang, quick här uppnås det med en smal, effektiv design.

Träningskostnad beneath 500 greenback

En annan fascinerande detalj är att träningen av TRM kostade beneath 500 greenback och tog bara två dagar på fyra H100-GPU:er. Det här står i skarp kontrast until de miljarder som spenderas på att träna de största språkmodellerna. Resultaten visar att genom att designa arkitekturer som kan resonera iterativt och själv-korrigera är det möjligt att lösa extremt svåra drawback med en bråkdel av beräkningsresurserna.

Forskningspapperet och koden är öppet tillgängliga på GitHub för den som vill experimentera vidare. Det här kan öppna dörrar för mer forskning kring små, effektiva modeller som kan köras på enheter med begränsade resurser.

Mer data:

Source link

SocialPost AI: Features, Benefits, and Alternatives

Seedance 2.0: Features, Benefits, and Alternatives

AI Angels: Features, Benefits, Pricing and Alternatives

New method assesses and improves the reliability of radiologists’ diagnostic reports | MIT News

Help Your Model Learn the True Signal

Printable aluminum alloy sets strength records, may enable lighter aircraft parts | MIT News

Building LLM Apps That Can See, Think, and Integrate: Using o3 with Multimodal Input and Structured Output

The Westworld Blunder | Towards Data Science

Most Popular

Analysis of Sales Shift in Retail with Causal Impact: A Case Study at Carrefour

The cost of thinking | MIT News

A Product Data Scientist’s Take on LinkedIn Games After 500 Days of Play

Our Picks

Three OpenClaw Mistakes to Avoid and How to Fix Them

I Stole a Wall Street Trick to Solve a Google Trends Data Problem

How AI is turning the Iran conflict into theater

Samsungs lilla AI-modell TRM utmanar större LLM-modeller

Träningskostnad beneath 500 greenback

Mer data:

Related Posts