Érdemes-e OpenAI API-kra építeni a fejlesztéseidet?
Több AI projektünk van mostanában, ahol megkerülhetetlen szereplő az OpenAI és annak kereskedelmi API-jai. Aki azonban komolyabban dolgozott ezekkel, jól tudja, aki pedig csak tervezi, az jobb, ha tudja, hogy ezek az API-k bizony nem különösebben gyorsak és hektikusan is működnek. Előfordul downtime, és a válaszidők szórása is nagy. Lehetne, hogy mi rontunk el valamit, de tele vannak a developer fórumok - Reddit, OpenAI Community, StackOverflow stb - ezzel a problémával.
Egy kereskedelmi célú, real-time alkalmazásunkban az GPT-3.5 Turbo válaszidejei relatíve alacsony tokenszám mellett 3 és 10 másodperc között vannak, de nem ritkák a 15mp feletti válaszidők sem, a GPT-4 érdemben lassabb. Erről hamarosan csinálunk egy részletesebb riportot. Sajnos a Microsofttól Azure-on keresztül igénybe vehető APIk ugyanezt a szolgáltatást nyújtják. Korábban reménykedtünk abban, hogy ugyan kiadták így, de folyamatosan egyre megbízhatóbb szolgáltatást építenek így a probléma megszűnik. Ez azonban valószínűleg nem fog megtörténni.
Miért?
Az OpenAI fő célja hangsúlyosan változott az utóbbi időben, valószínűleg ez nem független az elmúlt hét egész estés filmre kívánkozó eseményeitől sem. Ezt pl. a karrieroldalukon - https://openai.com/careers :: Core Values - jól lehet tetten érni, ahol az első számú értéke a cégnek az alábbira változott:
AGI focus
We are committed to building safe, beneficial AGI that will have a massive positive impact on humanity's future.
Anything that doesn’t help with that is out of scope.
Ha a web.archive.org-on megnézzük, ugyanez még szeptember 21-én sem így nézett ki, márpedig az ilyen eltolódások egy OpenAI szinten nem véletlenek. Itt nem arról van szó, hogy a “HR átírta hátha így többen jelentkeznek”. Az OpenAI célja nem kereskedelmi alkalmazások fejlesztése, hanem az AGI kutatás. Most a Q* pletykákról és hogy az OpenAI időközben elérte-e az AGI-t, arról nem beszélnék, hanem visszetérnék a Földre.
A lényeg tehát az, hogy véleményem szerint aki kereskedelmi célú fejlesztésben megbízható generatív nyelvi eszközt szeretne használni, az jobban jár, ha olyan eszközöket kezd keresni, amelyek deklarált célja olyan API as a Service termék létrehozása, amelyeket kereskedelmi célú alkalmazások fejlesztésére valóak. Erre vannak jó példák, amelyek kiválóan használhatóak, kissé le vannak maradva a GPT-4-től (ismerve a helyzet változékonyságát: a cikk 2023 novemberében íródik :)). Ezen a területen belül minden szereplőnek az alapvető célja, hogy elérje a GPT-4 szintjét és bár még senki nincs ott, de hamarosan oda fognak érni. Jó példa erre az Anthropic Claude 2.1-ese, amelynek képességeit a GPT3.5 és GPT-4 közé teszik.
De az is egy út, hogy egy jó open source modellt, pl. LLaMa 2 vagy annak egy tovább tanított verzióját, amelyből rengeteg létezik, ezeket a huggingface.co oldalon böngészhetjük, self hosted verzióban üzemeltetjük.
Persze ez drága, egy megfelelő GPU-s gép havi 1000 euro körül van kisebb szolgáltatóknál, 1st tier cloudban pedig ennek 2-3x-osa is lehet, de nekünk így, angol nyelven konzisztensen 40 token/mp áteresztőképességet és 1-2 másodperces válaszidőket sikerült elérnünk olyan modellel, ami az összehasonlítások szerint és a mi szubjektív tapasztalásunk szerint is hozza a GPT-3.5 Turbo szintjét. Nincs messze, hogy megjelenjenek a GPT-4 minőségét hozó open source modellek, nem is beszélve a különböző hosted verziókról. Speciális esetekben, pl. kódolási feladatokban különböző benchmarkok már nagyon közel mérik egyik-másik eszközt, pl. a DeepSeek-Coder-t a GPT-4-hez.
Izgalmasi időket élünk!