
GDPval: Nový způsob měření schopností AI na reálných úkolech
OpenAI představuje GDPval – evaluaci, která sleduje výkon AI na ekonomicky hodnotných úkolech z reálného světa napříč 44 profesemi.
GDPval: Nový způsob měření schopností AI na reálných úkolech
Proč vznikl GDPval
Dosavadní testy AI (např. MMLU nebo soutěžní programátorské úlohy) ukazují schopnosti modelů, ale málo vypovídají o tom, co zvládnou v každodenní praxi.
GDPval je nová evaluace od OpenAI, která měří výkon AI na ekonomicky hodnotných, reálných úkolech napříč profesemi.
Název vychází z konceptu hrubého domácího produktu (HDP) – úkoly byly vybrány z profesí, které nejvíce přispívají k ekonomice.
Jak GDPval funguje
- Pokrývá 9 klíčových odvětví a 44 profesí v USA.
- Obsahuje 1 320 úkolů (220 veřejně open-source).
- Každý úkol vytvořili a ověřili profesionálové s průměrně 14 lety praxe.
- Nejde jen o textové otázky – AI musí zpracovat podklady a dodat výstupy jako dokumenty, prezentace, výkresy nebo tabulky.
Příklad úkolů:
- právní rozbor,
- technická dokumentace,
- zákaznická konverzace,
- plán ošetřovatelské péče.
Jak byly vybrány profese
- Výběr vychází z dat Bureau of Labor Statistics a databáze O*NET.
- Cílem bylo pokrýt profese, kde je většina práce znalostní (alespoň 60 % úkolů nevyžaduje fyzickou práci).
- Výsledkem je 44 profesí z oblastí jako výroba, nemovitosti, vláda, zdravotnictví nebo finance.
Proč je GDPval důležitý
- Posouvá evaluace AI blíže k reálným podmínkám.
- Pomáhá sledovat, jak se modely zlepšují v úkolech, které mají přímou ekonomickou hodnotu.
- Přispívá k transparentní debatě o budoucnosti práce s AI – založené na faktech, ne spekulacích.
Omezení a budoucnost
GDPval zatím měří jen jednorázové úkoly (one-shot).
Další verze budou směřovat k evaluaci interaktivních workflow, kde AI pracuje iterativně, v kontextu a napříč delšími projekty.
Shrnutí
GDPval je důležitý krok k pochopení, jak mohou AI modely pomáhat lidem v každodenní práci.
Namísto akademických testů ukazuje, jak si AI stojí v praxi – a tím pomáhá firmám i celé společnosti lépe se připravit na ekonomický dopad AI.