Close Menu
    Trending
    • Gemini introducerar funktionen schemalagda åtgärder i Gemini-appen
    • AIFF 2025 Runway’s tredje årliga AI Film Festival
    • AI-agenter kan nu hjälpa läkare fatta bättre beslut inom cancervård
    • Not Everything Needs Automation: 5 Practical AI Agents That Deliver Enterprise Value
    • Prescriptive Modeling Unpacked: A Complete Guide to Intervention With Bayesian Modeling.
    • 5 Crucial Tweaks That Will Make Your Charts Accessible to People with Visual Impairments
    • Why AI Projects Fail | Towards Data Science
    • The Role of Luck in Sports: Can We Measure It?
    ProfitlyAI
    • Home
    • Latest News
    • AI Technology
    • Latest AI Innovations
    • AI Tools & Technologies
    • Artificial Intelligence
    ProfitlyAI
    Home » OpenAI släpper PaperBench som utvärderar AI:s förmåga att replikera AI-forskning
    Latest AI Innovations

    OpenAI släpper PaperBench som utvärderar AI:s förmåga att replikera AI-forskning

    ProfitlyAIBy ProfitlyAIApril 4, 2025No Comments2 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    •  PaperBench introducerar en omfattande benchmark med 20 forskningsartiklar från ICML 2024, som täcker olika områden som djup förstärkningsinlärning och robusthet.
    • • Forskarna utvecklade detaljerade bedömningsrubriker med 8,316 individuellt graderbara uppgifter, samarbetade med ursprungsförfattarna för att säkerställa noggrannhet.
    • • Claude 3.5 Sonnet presterade bäst och uppnådde ett genomsnittligt replikationsresultat på 21.0%, vilket visar både potential och nuvarande begränsningar hos AI-system.
    • En LLM-baserad domare utvecklades för att automatiskt betygsätta replikeringsförsök, med en F1-poäng på 0.83.

    PaperBench är ett nytt verktyg från OpenAI som syftar until att systematiskt utvärdera artificiella intelligensmodellers förmåga att förstå och replikera forskningsartiklar inom AI-området. Detta initiativ representerar ett viktigt steg i utvecklingen av mer sofistikerade AI-system genom att ge forskare ett strukturerat ramverk för att bedöma modellers vetenskapliga kompetens.

     Benchmarken består av 20 forskningsartiklar från ICML 2024, där AI-agenter måste förstå, implementera och köra experimenten från grunden. Genom att utveckla detaljerade bedömningsrubriker och en automatiserad bedömningsprocess skapar forskarna en rigorös metod för att mäta AI-systems autonoma forskningskapacitet.

    Hur PaperBench fungerar

    • Ger en strukturerad metod för att mäta vetenskaplig kompetens.
    • Utvärderar AI-modellers förmåga att förstå och analysera vetenskapliga artiklar.
    • Bedömer modellernas förmåga att replikera forskningsresultat.

    Syfte och struktur: PaperBench har utvecklats för att undersöka AI:s förmåga until autonom forskning, och omfattar 20 utvalda forskningsartiklar från ICML 2024. Varje artikel har en detaljerad rubrik som identifierar över 8,316 individuella uppgifter som kan bedömas(https://openai.com/index/paperbench.

    Uppgiftskrav: AI-systemen måste analysera forskningsartiklar och relaterad info för att bygga en komplett kodbas från grunden. Det innebär att de ska kunna genomföra hela reproduktionsprocessen, inklusive att skriva och köra olika skript, särskilt det kritiska ”reproduce.sh”-skriptet.

    I initiala tester visade AI-agenten Claude 3.5 Sonnet den högsta kapaciteten med en genomsnittlig reproduktionspoäng på endast 21.0%. Andra system, som GPT-4o, presterade avsevärt sämre, med poäng underneath 10%. Jämförelse med mänskliga forskare visar att de kunde uppnå en genomsnittlig poäng på upp until 41.4% efter 48 timmar av arbete.

    PaperBench erbjuder ett grundligt ramverk för att testa AI-forskningsförmåga, males det avslöjar också betydande luckor i nuvarande AI-modellers kapabiliteter att hantera komplexa och långsiktiga uppdrag. Modellerna visade styrka i preliminary kodgenerering males hade drawback med strategisk planering och långvariga uppgifter.

    Mer information:

    openai.com – paperbench

    paperbench.pdf



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleOptimizing RAG: Enhancing LLMs with Better Data and Prompts
    Next Article The Complete Guide to NetSuite SuiteScript
    ProfitlyAI
    • Website

    Related Posts

    Latest AI Innovations

    Gemini introducerar funktionen schemalagda åtgärder i Gemini-appen

    June 7, 2025
    Latest AI Innovations

    AIFF 2025 Runway’s tredje årliga AI Film Festival

    June 7, 2025
    Latest AI Innovations

    AI-agenter kan nu hjälpa läkare fatta bättre beslut inom cancervård

    June 7, 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    AI is coming for music, too

    April 16, 2025

    AI Could Wipe Out 50% of Entry-Level White Collar Jobs

    June 3, 2025

    Q&A: A roadmap for revolutionizing health care through data-driven innovation | MIT News

    May 5, 2025

    How AI SaaS is Reshaping Business Costs and Opportunities • AI Parabellum

    April 3, 2025

    MIT Department of Economics to launch James M. and Cathleen D. Stone Center on Inequality and Shaping the Future of Work | MIT News

    May 13, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    Most Popular

    The White House Just Made AI Literacy a National Priority. Now What?

    April 29, 2025

    AI is pushing the limits of the physical world

    April 21, 2025

    Maximizing Search Relevance with Data Labeling: Tips and Best Practices

    April 9, 2025
    Our Picks

    Gemini introducerar funktionen schemalagda åtgärder i Gemini-appen

    June 7, 2025

    AIFF 2025 Runway’s tredje årliga AI Film Festival

    June 7, 2025

    AI-agenter kan nu hjälpa läkare fatta bättre beslut inom cancervård

    June 7, 2025
    Categories
    • AI Technology
    • AI Tools & Technologies
    • Artificial Intelligence
    • Latest AI Innovations
    • Latest News
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 ProfitlyAI All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.