OpenAI új nyílt forráskódú modelljei: Miért nagy dolog ez?

Az OpenAI nemrégiben bemutatta két új nyílt forráskódú nyelvi modelljét, amelyek a megengedő Apache 2.0 licenc alatt érhetők el. Ezek a modellek kifejezetten arra lettek tervezve, hogy erős teljesítményt nyújtsanak valós környezetben, miközben megfizethető, fogyasztói szintű hardveren futtathatók. Az egyik modell például egy 16 GB RAM-mal rendelkező csúcskategóriás laptopon is működtethető, ami nagy előnyt jelent a fejlesztők számára.

Az OpenAI új modellei és azok jellemzői

Az OpenAI által bemutatott két modell a gpt-oss-120b (117 milliárd paraméter) és a gpt-oss-20b (21 milliárd paraméter). Az előbbi a bemutatott teljesítményével az OpenAI o4-mini modelljét utánozza, mindössze egy 80 GB-os GPU használatával, míg a gpt-oss-20b modell az o3-minihez hasonlóan teljesít, és hatékonyan futtatható olyan eszközökön, amelyek csak 16 GB GPU-t kínálnak. Ez a megoldás lehetővé teszi a fejlesztők számára, hogy könnyebben implementálják a modelleket anélkül, hogy drága infrastruktúrára lenne szükségük.

Fejlett érvelés és rugalmasság

Az OpenAI hangsúlyozza, hogy ezek a modellek a hasonló méretű nyílt forráskódú modellekhez képest is kiemelkedő teljesítményt nyújtanak érvelési feladatokban és eszközhasználatban. Az új modellek kompatibilisek az OpenAI válasz API-jával, és kifejezetten az ügynöki munkafolyamatokban való felhasználásra lettek optimalizálva. Ez magában foglalja az utasítások pontos követését, a webes keresést és a Python kód végrehajtását, valamint a gondolkodás folyamatának nyomon követését is. Az OpenAI célja, hogy a fejlesztők számára testre szabott megoldásokat kínáljon, amelyek teljes mértékben integrálhatók különböző alkalmazásokba és platformokra.

Biztonság és átláthatóság

Az OpenAI az új nyílt forráskódú modellek fejlesztése során kiemelt figyelmet fordított a biztonságra. A tesztelés során kiderült, hogy a gpt-oss-120b modell nem érte el a veszélyes szintet biológiai, kémiai vagy kiber kockázatok terén, még akkor sem, amikor szándékosan rosszindulatú finomhangolásnak volt kitéve. Az OpenAI tudatos döntése, hogy a gondolkodás folyamatát (Chain of Thought, CoT) nem szűrik meg, lehetővé teszi a fejlesztők számára, hogy a modellek átláthatóbbak és monitorozhatóbbak legyenek, ugyanakkor ez a megközelítés fokozottan hajlamosíthat a „hallucinációkra”, azaz a helytelen információk generálására.

A hallucinációk kezelése

Az OpenAI dokumentációja szerint a CoT-ok korlátozásának hiánya magasabb hallucinációs mutatókat eredményez. A modellek tesztelése során kiderült, hogy a gpt-oss modellek nem teljesítenek olyan jól a hallucinációs mutatókban az OpenAI o4-minihez képest. Azonban a valós alkalmazásokban, ahol a modellek képesek információt keresni az interneten vagy külső adatbázisokból lekérdezni, várhatóan ritkábban fognak hallucinálni. Ez a folyamat segíthet a fejlesztőknek abban, hogy jobban szabályozzák a modellek által generált tartalom minőségét, és minimalizálják a nem kívánt eredményeket.

Összegzés és jövőbeli irányok

Az OpenAI nyílt forráskódú modelljei valóban jelentős előrelépést jelentenek a mesterséges intelligencia fejlesztésében, hiszen lehetőséget adnak a fejlesztőknek, hogy erőteljes, mégis megfizethető megoldásokat építsenek. Az új modellek nemcsak a költségek csökkentésében segítenek, hanem a fejlesztések rugalmasságát is növelik. Az OpenAI együttműködése különböző iparági partnerekkel, például az AI Sweden-nel és a Snowflake-kel, lehetőséget biztosít arra, hogy valós környezetben is teszteljék a modellek teljesítményét, és új alkalmazási területeket találjanak. A jövőben várhatóan további fejlesztések és finomhangolások révén a modellek még inkább alkalmazhatóak lesznek a különböző iparágakban, hozzájárulva a mesterséges intelligencia elterjedéséhez és fejlődéséhez.