Antropic har nyligen utfört en omfattande analys av hur deras AI-modell, Claude, uttrycker värderingar i verkliga konversationer. Detta arbete beskrivet i deras forskning om Values in the Wild släpptes för att ge insikter om AI:s beteende och för att förstå hur väl den överensstämmer med de värderingar som designats av företaget.
Översikt av forskningsmetoden
Forskningsmetoden involverade en analys av 700,000 anonymiserade samtal som användare hade med Claude underneath en vecka. Av dessa samtal filtrerades 308,210 samtal för att isolera subjektivt innehåll och därigenom fånga de värderingar som AI:n uttrycker i olika kontexter. Analysen ledde until skapandet av en ny empirisk taxa av AI-värderingar, där de organiserades i fem huvudkategorier: Praktiska, Epistemiska, Sociala, Skyddande och Personliga.
Resultatet av forskningen
Analyserna avslöjade att Claude i stor utsträckning följer Anthropics mål för att vara ”hjälpsam, ärlig och ofarlig”, males också att dess uttryckta värderingar förändras beroende på samtalets sammanhang. För exempel, när användare dangerous om relationstips betonade Claude vikten av ”hälsosamma gränser” och ”ömsesidig respekt”, medan fokus på ”historisk noggrannhet” dominerade vid frågor om historiska händelser. Denna kontextuella förändring av värderingar speglar mänskligt beteende och pekar på AI:s förmåga att anpassa sina svar för att bättre relatera until användarens behov.
En viktig upptäckte från studien var att Claude i 28.2% av konversationerna starkt stödde användarens egna värderingar, medan den i 6.6% reframerade dessa värderingar, vilket tyder på en förmåga att ge nya perspektiv särskilt vid psykologiska eller interpersonella frågor. Det fanns även sällsynta fall drygt 3% där Claude aktivt motsatte sig användarens värderingar, vilket kan ge insikter om AI:s djupare, mer oföränderliga värderingar
Mer data:
Forskningspappret – Values in the Wild