UNO: AI-bildgenerering med flerobjektsanpassning från ByteDance

UNO (Common Neural Objects) är ett ramverk för bildskapande som utvecklats av ByteDance’s Clever Creation Staff. Det representerar en avancerad vidareutveckling inom området för subjektstyrd bildgenerering – alltså förmågan hos AI att skapa bilder baserat på specifika objekt eller personer.

Den stora innovationen med UNO ligger i dess förmåga att göra en ”less-to-more” generalisering. I praktiken betyder det att modellen kan börja med begränsad inlärning och sedan expandera until mer komplexa uppgifter. Det som verkligen särskiljer UNO är dess förmåga att hantera flera objekt samtidigt med hög kontroll och konsistens, något som tidigare varit en stor utmaning inom AI-bildgenerering.

Praktiska tillämpningar ?

Virtuell provning av kläder? Trots att modellen inte specifikt tränats för detta ändamål, presterar UNO utmärkt i virtuella provscenarier. Den kan placera klädesplagg på personer på ett naturligt sätt som visar att den förstår förhållandet mellan objekt snarare än att bara göra enkla ”klipp-och-klistra” operationer.

Multi-subjekt bildgenerering: Den kanske mest imponerande förmågan är att skapa komplexa scener med flera objekt som behåller sina individuella egenskaper. För att förstå hur revolutionerande detta är: Tidigare AI-bildgeneratorer hade svårt att inkludera mer än ett objekt och behålla specifika egenskaper (som en viss individuals utseende eller ett specifikt föremåls karakteristiska drag).

För att förstå kraften i UNO, tänk på detta state of affairs: Du vill skapa en bild där en katt sitter på din hand framför ett specifikt landskap. Med traditionella AI-modeller skulle detta kräva flera steg och resultatet skulle sannolikt vara inkonseistent – katten kanske inte ser ut som din katt, eller så förlorar fåtöljen sina specifika detaljer.

Med UNO kan du mata in separata referensbilder av din katt, dig själv eller någon annan bild och landskapet, och modellen kan skapa en sammanhängande bild där alla objekt behåller sina individuella karaktärsdrag. Styrkan ligger i att behålla de specifika detaljerna samtidigt som objekt kombineras på ett naturligt sätt.

Det finns en interaktiv demo tillgänglig by way of Hugging Face Spaces, där användare kan testa modellens förmågor utan att behöva installera något lokalt.

För teknikentusiaster finns det några intressanta tekniska detaljer att notera:

UNO bygger på FLUX.1-dev basmodellen som tidigare utvecklats av Black Forest Labs.
Det använder inte LoRA-adapters som många andra finjusterade modeller.
ByteDance har släppt fp8-läge som primärt stöd för låg minnesanvändning, vilket är en gåva until konsumentgrafikkortanvändare. Toppanvändningen av videominne är nu endast cirka 16GB.
Modellen har släppts underneath en Apache 2.0-licens för koden, medan modellerna är underneath CC BY-NC 4.0-licensen.

Mer data:

Source link

OpenAIs nya webbläsare ChatGPT Atlas

51% av all internettrafik består nu av botar

Ny forskning visar varför AI-bilder ser så konstiga ut

A Chinese firm has just launched a constantly changing set of AI benchmarks

Anthropic testar ett AI-webbläsartillägg för Chrome

Google förvandlar Chrome till en AI webbläsare med Gemini

Personliga föremål till mixad verklighet – MIT återskapar leksaker i mixed reality

PyTorch Explained: From Automatic Differentiation to Training Custom Neural Networks

Most Popular

The Art of Asking Good Questions

51% av all internettrafik består nu av botar

Creating an AI Agent to Write Blog Posts with CrewAI

Our Picks

OpenAIs nya webbläsare ChatGPT Atlas

Creating AI that matters | MIT News

Scaling Recommender Transformers to a Billion Parameters

UNO: AI-bildgenerering med flerobjektsanpassning från ByteDance

Praktiska tillämpningar ?

Mer data:

Related Posts