GDPval: Nový způsob měření schopností AI na reálných úkolech
AI

GDPval: Nový způsob měření schopností AI na reálných úkolech

OpenAI představuje GDPval – evaluaci, která sleduje výkon AI na ekonomicky hodnotných úkolech z reálného světa napříč 44 profesemi.

EvaluaceProduktivitaByznys dopad

GDPval: Nový způsob měření schopností AI na reálných úkolech

Proč vznikl GDPval

Dosavadní testy AI (např. MMLU nebo soutěžní programátorské úlohy) ukazují schopnosti modelů, ale málo vypovídají o tom, co zvládnou v každodenní praxi.
GDPval je nová evaluace od OpenAI, která měří výkon AI na ekonomicky hodnotných, reálných úkolech napříč profesemi.

Název vychází z konceptu hrubého domácího produktu (HDP) – úkoly byly vybrány z profesí, které nejvíce přispívají k ekonomice.


Jak GDPval funguje

  • Pokrývá 9 klíčových odvětví a 44 profesí v USA.
  • Obsahuje 1 320 úkolů (220 veřejně open-source).
  • Každý úkol vytvořili a ověřili profesionálové s průměrně 14 lety praxe.
  • Nejde jen o textové otázky – AI musí zpracovat podklady a dodat výstupy jako dokumenty, prezentace, výkresy nebo tabulky.

Příklad úkolů:

  • právní rozbor,
  • technická dokumentace,
  • zákaznická konverzace,
  • plán ošetřovatelské péče.

Jak byly vybrány profese

  • Výběr vychází z dat Bureau of Labor Statistics a databáze O*NET.
  • Cílem bylo pokrýt profese, kde je většina práce znalostní (alespoň 60 % úkolů nevyžaduje fyzickou práci).
  • Výsledkem je 44 profesí z oblastí jako výroba, nemovitosti, vláda, zdravotnictví nebo finance.

Proč je GDPval důležitý

  • Posouvá evaluace AI blíže k reálným podmínkám.
  • Pomáhá sledovat, jak se modely zlepšují v úkolech, které mají přímou ekonomickou hodnotu.
  • Přispívá k transparentní debatě o budoucnosti práce s AI – založené na faktech, ne spekulacích.

Omezení a budoucnost

GDPval zatím měří jen jednorázové úkoly (one-shot).
Další verze budou směřovat k evaluaci interaktivních workflow, kde AI pracuje iterativně, v kontextu a napříč delšími projekty.


Shrnutí

GDPval je důležitý krok k pochopení, jak mohou AI modely pomáhat lidem v každodenní práci.
Namísto akademických testů ukazuje, jak si AI stojí v praxi – a tím pomáhá firmám i celé společnosti lépe se připravit na ekonomický dopad AI.

© vlastnifiremniai.cz Data zůstávají uvnitř firmy.

OMDA Global s.r.o.IČO: 17679630 Zápis v OR: C 130920, vedená u Krajského soudu v Brně