Valamivel több mint egy hónappal ezelőtt adta ki a DeepSeek kínai MI-startup nyílt forráskódú modelljének, a DeepSeeknek R1-0528 számmal jelölt verzióját. Ezt a rendszert is ingyen elérhették a fejlesztők, a MI-laboratóriumok és a vállalatok, így nem meglepő, ha újabb variánsai jelennek meg.
Ezek közül tűnik fölöttébb ígéretesnek az R1-0528 vonalon alapuló DeepSeek-TNG R1T2 Chimera (a Chimera nagy nyelvi modell (LLM) családjának legújabb modellje), egy igen hatékony, roppant intelligens és nem utolsósorban villámgyors MI-modell. Fejlesztője a TNG Technology Consulting, a vállalati mesterséges intelligencia egyik német nagyágyúja.
Különösen figyelemreméltó – jegyzi meg a VentureBeat –, hogy amellett, hogy jelentős hatékonyság- és sebességnövekedést kínál, az R1-0528 kimeneti tokenszámának kevesebb mint a 40 százalékával generál válaszokat. Ez közelebbről azt jelenti, hogy rövidebb válaszokat ad, ez pedig gyorsabb következtetést és alacsonyabb számítási költségeket jelent.
A TNG mindenesetre azt állítja, hogy „körülbelül 20 százalékkal gyorsabb, mint a hagyományos R1 (amelyet januárban adtak ki), és több mint kétszer olyan gyors, mint az R1-0528” (a DeepSeek májusi hivatalos frissítése).
Mindez a TNG Assembly-of-Experts (AoE) módszerének köszönhető. Egy olyan technikáról van szó, amelyik több előre betanított modellből épít fel LLM-eket a belső paraméterek szelektív összevonásával. Az eredeti R1T Chimera utódjaként az R1T2 egy új „Tri-Mind” konfigurációt vezet be, amely három szülőmodellt integrál: a DeepSeek-R1-0528-at, a DeepSeek-R1-et és a DeepSeek-V3-0324-et. Az eredmény egy olyan modell, amelyet úgy terveztek, hogy magas szintű következtetési képességei legyenek, mindeközben jelentősen csökkenjenek a következtetési költségek.
Az R1T2 további finomhangolás vagy átképzés nélkül készült. Örökli az R1-0528 logikai erejét, az R1 strukturált gondolkodási mintáit és a V3-0324 tömör, utasításorientált viselkedését, így egy hatékonyabb, mégis sokoldalú modell jelent meg vállalati és kutatási felhasználásra.
A Reddit LocalLLaMA közösség korai beszélgetései az R1T2 gyakorlati benyomásait emelik ki. A felhasználók dicsérik a modell válaszidejét, a token hatékonyságát, valamint a sebesség és a koherencia közötti egyensúlyt. Az egyik felhasználó megjegyezte: „Ez az első alkalom, hogy egy Chimera modell valódi előrelépésnek tűnik mind a sebesség, mind a minőség tekintetében”. Egy másik pedig kiemelte, hogy a matematikailag intenzívebb kontextusokban jobban teljesít a korábbi R1 variánsokhoz képest. Néhány Reddit-felhasználó azt is megfigyelte, hogy az R1T2 következetesebben kerüli a hallucinációkat, mint az R1 vagy V3 alapú modellek. Az ilyen tulajdonságok különösen relevánsak azoknak a fejlesztőknek, akik stabil LLM backendeket keresnek termelési környezetekhez.
Az R1T2 nyilvánosan elérhető a Hugging Face: DeepSeek-TNG R1T2 Chimera platformon, MIT licenc alatt.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.