6 szempont, amiért megéri nyílt forrású AI modelleket használnod
Milyen előnyökkel járnak a saját környezetben futtatható (self hosted), nyílt forráskódú (open source) AI modellek, és mikor érdemes ezt a megoldást választani a nagy gyártók zárt forrású (closed source) modelljeivel szemben? Cikkünkben összegyűjtöttük a legfontosabb szempontokat, hogy a vállalkozásod számára a legmegfelelőbb megoldást választhasd.
Két fő módja van az AI modellek alkalmazásának
Closed source modellek elérése API-n keresztül: OpenAI, Gemini, Claude
Előfizethetünk valamely nagy szolgáltató API-jára, amelyet forgalomarányos díjazással használhatunk. Ezzel a megoldással lehet elérni a nagy gyártók zárt forrású modelljeit, mint például az OpenAI, a Google Gemini és az Anthropic Claude API-jait. Szinte minden ilyen kereskedelmi API-nak tokenalapú árazása van: a költség attól függ, mennyi adatot (szöveget, képet, stb) küldünk be és mennyit generál a modell.
A modellek árazásával egy későbbi cikkben foglalkozunk majd, elöljáróban annyit, hogy a nyelvi modellek esetén egy token egy 4 karakteres szótöredéket jelent: ilyen szótöredékekből generál szöveget az összes LLM. A fizetés általában úgy történik, hogy feltöltünk egy egyenleget, és minden API hívás ebből lecsippent egy kicsit. Úgy kell elképzelni, mintha taxival mennénk mindenhova: minden út pénzbe kerül, mégpedig pontosan annak arányában, hogy milyen messzire megyünk.
Self hosted open source modellek: LLama, Deepseek, Mistral
A nyílt forráskódú modellek bárki számára letölthetőek és saját környezetben futtathatóak - például az Ollama segítségével, ami egy modellek futtatását lehetővé tevő open source projekt. A megoldás lényege, hogy egy infrastruktúrát kell vásárolnunk vagy bérelnünk, és oda feltelepítjük azt a modellt, amit használni szeretnénk. Számos modell közül választhatunk, mint például a Llama 3.3, DeepSeek-R1, Phi-4, Mistral, Gemma 2.
Ebben az esetben az infrastruktúrát és az üzemeltetési díjat kell megfizetnünk, és ezen belül annyit használjuk, amennyit szeretnénk. Ez hasonló ahhoz, mintha bérelnénk egy autót: annyit megyünk vele minden hónapban amennyit szeretnénk, viszont a bérleti díjat akkor is meg kell fizetni, ha nem megyünk sehova (az analógia annyiban sántít, hogy az autót meg is kell tankolni, de ettől most tekintsünk el). Ez a megoldás akkor éri meg, ha nagy volumenben használjuk a nyelvi modellt.
Léteznek emellett olyan szolgáltatók – például a together.ai –, amelyek arra szakosodtak, hogy open source nyelvi modelleket futtatnak, és API alapon árazzák azt. Ez jellemzően olcsóbb, mint a closed source kereskedelmi API-k ára, és alacsony használat mellett ezt a megoldást érdemes választani.
Miért fontosak a self hosted open source AI modellek?
1. Költségkontroll
Az előfizetési API-k kiválóak, de a költségük lineárisan és folyamatosan növekszik a használat arányában. Kisebb mennyiségek mellett ez a legjobb megoldás, ám ha a használat szintje napon belül elér egy bizonyos szintet (~100$ / nap), és tudni lehet, hogy ez még tovább nőhet, akkor sokkal versenyképesebb open source modellben gondolkozni. Havi 2–2,5 ezer eurótól már lehet olyan GPU-s cloud gépeket bérelni, amelyeken egy nyelvi modellt tudunk futtatni, és elvárt minőségtől függően 10-30x annyi tokent tudunk forgalmazni. A nagyobb használat ebben az esetben is növeli a költséget, azonban ez lépcsőzetes és jóval laposabb, mint az API-k használata. Kicsit olyan ez, mintha sokat taxiznánk, akkor már megéri venni / bérelni egy autót.
2. Késleltetés (latency), performancia
Késleltetés-érzékeny alkalmazásoknál, amennyiben kiszámíthatóan és folyamatosan gyors válaszokra van szükségünk, az API-k nem nyújtanak támogatást. Egyrészt eleve nagyobb a késleltetés, semmilyen SLA nincs ennek kapcsán, és amikor sokan használják, akkor érezhetően belassul, tehát nincs garantált teljesítmény, amire biztosan számíthatunk.
Amennyiben saját magunk üzemeltetjük a modellt, akkor azt egyénileg tudjuk optimalizálni és monitorozni késleltetés szempontjából. Ez bármilyen valós idejű hang vagy videó alkalmazásnál rendkívül fontos. A Cognitive Calls projektünkhöz például mindent magunk üzemeltetünk (kivéve Eleven Labs hangszintetizáló megoldások).
3. Licenc: korlátozás nélküli felhasználás
A nyílt forráskódú modellek MIT-licenccel rendelkeznek, tehát bármit építhetünk belőlük, és kereskedelmi célokra is használhatjuk őket. A closed source API-knál, ahol akaratlanul is beleütközhetünk egy olyan korlátba, hogy a platform nem engedélyez valamilyen tevékenységet, sokkal szofisztikáltabb ez a felhasználói irányelv.
Emlékezhetünk arra, hogy a DeepSeek R1 Zero tanításához felhasználták az OpenAI által generált szintetikus adatokat. Rengeteg modell csinálta ezt a korábbiakban is, de azzal, hogy közvetlen versenytárssá lépett elő valaki, hirtelen az OpenAI érzékeny lett a szerzői jogokra.
Az alap kockázat azonban mindenkire érvényes: ha építünk egy alkalmazást, akkor sértheti-e a jövőben például az OpenAI irányelvét, ha egy általuk nyújtott szolgáltatással versenyez? Illetve van-e esélye annak, hogy korlátozzák az elérésünket?
4. Adatbiztonság
Ha magunk számára üzemeltetünk, akkor az adataink biztosan nem lesznek elérhetők harmadik fél számára. Nem érdemes elhinni azt az ígéretet, hogy adatainkat nem fogják felhasználni, például modellek tanítására. Az OpenAI-nál a Plus és Team előfizetés között kifejezetten ez az egyik különbség: "Team data excluded from training by default". Különböző megbízhatóságú szereplők ígéreteivel találkozunk, és bár a bizalom alapvető az üzletben, ebben a helyzetben különösen fontos, hogy adataink felett megfelelő kontrollt gyakorolhassunk.
5. Minőség, fejlesztés
Bár az open source fejlesztők kisebb lemaradásban vannak a legfrissebb API-khoz képest, általában 3-6 hónapon belül kihozzák a csúcsmodellekkel versenyképes új modelljeiket. Ráadásul ez a szakadék egyre szűkül. Korábban nem volt világos, hogy ez így lesz, és biztosíték nincs ugyan rá, de mivel több nagy szereplő (pl. Meta) is az open source mellett tette le a voksát, kénytelenek ezt a tempót tartaniuk, ha versenyben akarnak maradni. Így azt gondolom, hogy erre számíthatunk a jövőben is. Mindez a gyakorlatban azt jelenti: mire pár hónap alatt kitapasztalja a felhasználói közösség, hogy miben igazán jó egy új paradigmát (pl. multimodalitást, érvelést, stb.) alkalmazó modell, addigra pont kijön az open source alternatívája.
6. Megbízhatóság, kontroll
A zárt forrású modellek frissülnek, ha akarjuk, ha nem. Bizonyos modelleket pedig szó nélkül kivezethetnek, amire már többször is volt példa, illetve módosíthatják az áraikat is. Egyszóval minden, amit platform kockázatnak hívunk, a closed source megoldásoknál megjelenhet. Ez pedig problémát jelenthet, mert a változások az alkalmazásunk működésére is jelentős hatással lehetnek.