Ctrl-Crash är en ny teknik för att generera realistiska videor av bilolyckor med hjälp av så kallade diffusionstekniker. Det unika är att metoden är helt datadriven och låter användaren styra exakt hur olyckan ska utspela sig genom att ange olika kontrollsignaler, som avgränsningsrutor (bounding containers), olyckstyp och startbild från en verklig trafiksituation.
Det här är särskilt intressant eftersom verkliga bilolyckor är ovanliga i de flesta kördata, vilket gör det svårt att träna AI-modeller för att förstå eller förhindra olyckor. Ctrl-Crash löser det genom att kunna simulera olyckor på ett kontrollerat och realistiskt sätt, något som kan vara ovärderligt för utveckling och testning av självkörande bilar och avancerade förarassistanssystem.
Video: Se Ctrl-Crash i aktion
Se demonstration av Ctrl-Crash på projektets webbsida
Hur fungerar tekniken?
Ctrl-Crash bygger på så kallade latenta diffusionmodeller där man först tränar en bild-till-video-modell (Secure Video Diffusion) på verkliga trafik- och olycksvideor. Därefter tränas ett further lager (ControlNet) som kan ta emot och tolka kontrollsignaler som:
- Avgränsningsrutor för fordon och fotgängare, som visar deras rörelse över tid.
- Olyckstyp, until exempel om det är en singelolycka, kollision mellan två bilar eller mellan bil och fotgängare.
- En preliminary bildruta som sätter scenen för olyckan.
nom att kombinera dessa signaler kan modellen generera olika scenarier: allt från att återskapa en känd olycka, until att förutse hur en scenario kan utvecklas, eller skapa alternativa förlopp (så kallade counterfactuals) där små förändringar i indata kan ge helt olika utfall.