OpenAI új nyílt forráskódú modelljei: Miért fontosak?

Az OpenAI újonnan bemutatott nyílt forráskódú modellei jelentős mérföldkövet jelentenek a mesterséges intelligencia fejlődésében. Ezek a modellek, amelyek az Apache 2.0 licenc alatt érhetők el, kifejezetten arra lettek tervezve, hogy erős teljesítményt nyújtsanak a valós világban, miközben nem igényelnek drága infrastruktúrát. Az OpenAI célja, hogy a fejlesztők számára könnyen hozzáférhető és használható megoldásokat kínáljon, amelyek akár egy 16 GB-os GPU-val rendelkező laptopon is futtathatók.

Valós teljesítmény és alacsony költség

A két új modell, a gpt-oss-120b (117 milliárd paraméter) és a gpt-oss-20b (21 milliárd paraméter), kiemelkedő teljesítményt nyújtanak, és lehetővé teszik a fejlesztők számára, hogy olcsóbb hardveren futtassák őket. A nagyobbik modell, a gpt-oss-120b, a korábban bemutatott o4-mini teljesítményével vetekszik a logikai feladatokban, mindössze egy 80 GB-os GPU-ra van szüksége. A kisebbik, gpt-oss-20b modell pedig hasonlóan teljesít az o3-minihez, és hatékonyan működik az alacsonyabb teljesítményű eszközökön is.

A nyílt forráskódú modellek előnye, hogy a fejlesztők könnyen integrálhatják őket a meglévő rendszereikbe, anélkül hogy jelentős anyagi befektetésre lenne szükségük. Ez különösen fontos lehet a kis- és középvállalkozások számára, akik így versenyképesebbé válhatnak a piacon.

Fejlett érvelés és eszközhasználat

Az OpenAI által bemutatott modellek nemcsak a teljesítményük miatt figyelemre méltók, hanem a fejlett érvelési képességeik miatt is. Az OpenAI állítása szerint ezek a modellek a hasonló méretű nyílt forráskódú modellekhez képest kiemelkedőbb teljesítményt nyújtanak a logikai feladatokban és az eszközhasználat terén. A modellek tervezésekor kiemelt figyelmet fordítottak arra, hogy kompatibilisek legyenek az OpenAI válasz API-jával, és rendkívüli utasításkövetéssel és eszközhasználattal rendelkezzenek.

A modellek nemcsak a webes keresések végrehajtására képesek, hanem Python kódok futtatására is alkalmasak, ami további rugalmasságot biztosít a fejlesztők számára. A fejlesztők a modellek testreszabására is lehetőséget kapnak, így saját alkalmazásaikhoz biztonsági intézkedéseket is bevezethetnek.

A biztonságos nyílt forráskódú AI modellek

Az OpenAI a nyílt forráskódú modellek fejlesztésénél a biztonságra is kiemelt figyelmet fordított. A modellek tesztelése során kiderült, hogy még szándékosan rosszindulatú finomhangolás esetén sem értek el veszélyes szintű képességeket biológiai, kémiai vagy kibertámadások terén. Az OpenAI a Chain of Thought (CoT) megközelítést alkalmazta, amely lehetővé teszi a modellek gondolkodási folyamataik nyomon követését, így a fejlesztők jobban ellenőrizhetik a rendszer működését.

Fontos megjegyezni, hogy az OpenAI szándékosan nem alkalmazott közvetlen optimalizálási nyomást a CoT-ra, hogy megakadályozza a káros érvelés elrejtését. Ez a megközelítés ugyanakkor a hallucinációk fokozott megjelenéséhez vezethet, ami azt jelenti, hogy a modellek által generált gondolatmenetek tartalmazhatnak olyan elemeket, amelyek nem felelnek meg az OpenAI biztonsági irányelveinek.

A hallucinációk hatásai

Az OpenAI dokumentációja megállapítja, hogy a CoT nem korlátozása miatt a modellek magasabb hallucinációs pontszámokat mutatnak. A modellek méretének csökkenése miatt várható, hogy a hallucinációk előfordulása csökkenni fog, különösen a valós alkalmazásokban, ahol a modellek képesek információkat keresni a weben vagy külső adatbázisokban. A benchmarking során a nyílt forráskódú modellek alacsonyabb teljesítményt mutattak a hallucinációs teszteken, mint az OpenAI o4-mini, ami a modellek méretével is összefüggésben áll.

Összességében az OpenAI nyílt forráskódú modelljei hozzáférhető és erőteljes eszközöket biztosítanak a fejlesztők számára, lehetővé téve a sokféle innovatív alkalmazás létrehozását anélkül, hogy jelentős pénzügyi befektetésekre lenne szükség. A fejlesztőknek azonban figyelniük kell a modellek biztonsági szempontjaira és a hallucinációk kezelésére, hogy a legjobb felhasználói élményt nyújthassák.