Samsungs lilla AI-modell TRM utmanar större LLM-modeller

TRM är en liten AI-modell med endast 7 miljoner parametrar som överträffar större språkmodeller på komplexa resoneringsuppgifter.
Modellen använder en rekursiv metod där nätverket iterativt förfinar sina svar genom upp until 16 upprepningar.
Modellen presterar märkbart bättre än stora språkmodeller som Deepseek R1 och Gemini 2,5 Professional på specifika uppgifter.
RM har potential för användning i resursbegränsade miljöer som robotik och personlig databehandling.

Samsung forskare har utvecklat en ny öppen resonemangsmodell kallad TRM (Tiny Recursion Mannequin) som överträffar modeller som är 10 000 gånger större på specifika drawback. Modellen som bygger på rekursivt resonemang visar att små nätverk kan uppnå hög prestanda utan stora investeringar i GPU: och kraft.

TRM är öppen källkod beneath en MIT-licens och är utformad för strukturerade, visuella och grid-baserade drawback vilket utmanar den dominerande filosofin att ”skala är allt som behövs” inom AI-forskningen.

Med bara två lager i sitt neurala nätverk simulerar TRM en djupare arkitektur utan att belasta minnet eller kräva massiva beräkningsresurser. Den rekursiva cykeln körs upp until 16 gånger för varje uppgift, vilket gör att modellen kan göra allt mer exakta förutsägelser – lite som hur stora språkmodeller använder steg-för-steg-resonemang, quick här uppnås det med en smal, effektiv design.

Träningskostnad beneath 500 greenback

En annan fascinerande detalj är att träningen av TRM kostade beneath 500 greenback och tog bara två dagar på fyra H100-GPU:er. Det här står i skarp kontrast until de miljarder som spenderas på att träna de största språkmodellerna. Resultaten visar att genom att designa arkitekturer som kan resonera iterativt och själv-korrigera är det möjligt att lösa extremt svåra drawback med en bråkdel av beräkningsresurserna.

Forskningspapperet och koden är öppet tillgängliga på GitHub för den som vill experimentera vidare. Det här kan öppna dörrar för mer forskning kring små, effektiva modeller som kan köras på enheter med begränsade resurser.

Mer data:

Source link

What Most B2B Contact Data Comparisons Get Wrong

SocialPost AI: Features, Benefits, and Alternatives

Seedance 2.0: Features, Benefits, and Alternatives

Recap of all types of LLM Agents

Five things you need to know about AI right now

Meta släpper Llama 4 – AI nyheter

“Create a replica of this image. Don’t change anything” AI trend takes off

Building Cost-Efficient Agentic RAG on Long-Text Documents in SQL Tables

Most Popular

How to Context Engineer to Optimize Question Answering Pipelines

Ny AI från Tencent skapar kompletta 3D-världar från bara en mening eller en bild-

The Data Team’s Survival Guide for the Next Era of Data

Our Picks

A better method for planning complex visual tasks | MIT News

3 Questions: Building predictive models to characterize tumor progression | MIT News

How Joseph Paradiso’s sensing innovations bridge the arts, medicine, and ecology | MIT News

Samsungs lilla AI-modell TRM utmanar större LLM-modeller

Träningskostnad beneath 500 greenback

Mer data:

Related Posts