200%-kal gyorsabb: itt az ingyenes és szupersebes DeepSeek-változat

Készen áll a vállalatok mesterséges intelligenciás rendszerének átalakítására az új DeepSeek R1-0528 modell. Éérezhetően gyorsabb, mint az elődei, ráadásul alacsonyabbak a számítási költségei

  • HVG HVG
200%-kal gyorsabb: itt az ingyenes és szupersebes DeepSeek-változat

Valamivel több mint egy hónappal ezelőtt adta ki a DeepSeek kínai MI-startup nyílt forráskódú modelljének, a DeepSeeknek R1-0528 számmal jelölt verzióját. Ezt a rendszert is ingyen elérhették a fejlesztők, a MI-laboratóriumok és a vállalatok, így nem meglepő, ha újabb variánsai jelennek meg.

Ezek közül tűnik fölöttébb ígéretesnek az R1-0528 vonalon alapuló DeepSeek-TNG R1T2 Chimera (a Chimera nagy nyelvi modell (LLM) családjának legújabb modellje), egy igen hatékony, roppant intelligens és nem utolsósorban villámgyors MI-modell. Fejlesztője a TNG Technology Consulting, a vállalati mesterséges intelligencia egyik német nagyágyúja.

Különösen figyelemreméltó – jegyzi meg a VentureBeat –, hogy amellett, hogy jelentős hatékonyság- és sebességnövekedést kínál, az R1-0528 kimeneti tokenszámának kevesebb mint a 40 százalékával generál válaszokat. Ez közelebbről azt jelenti, hogy rövidebb válaszokat ad, ez pedig gyorsabb következtetést és alacsonyabb számítási költségeket jelent.

A TNG mindenesetre azt állítja, hogy „körülbelül 20 százalékkal gyorsabb, mint a hagyományos R1 (amelyet januárban adtak ki), és több mint kétszer olyan gyors, mint az R1-0528” (a DeepSeek májusi hivatalos frissítése).

Mindez a TNG Assembly-of-Experts (AoE) módszerének köszönhető. Egy olyan technikáról van szó, amelyik több előre betanított modellből épít fel LLM-eket a belső paraméterek szelektív összevonásával. Az eredeti R1T Chimera utódjaként az R1T2 egy új „Tri-Mind” konfigurációt vezet be, amely három szülőmodellt integrál: a DeepSeek-R1-0528-at, a DeepSeek-R1-et és a DeepSeek-V3-0324-et. Az eredmény egy olyan modell, amelyet úgy terveztek, hogy magas szintű következtetési képességei legyenek, mindeközben jelentősen csökkenjenek a következtetési költségek.

Az R1T2 további finomhangolás vagy átképzés nélkül készült. Örökli az R1-0528 logikai erejét, az R1 strukturált gondolkodási mintáit és a V3-0324 tömör, utasításorientált viselkedését, így egy hatékonyabb, mégis sokoldalú modell jelent meg vállalati és kutatási felhasználásra.

A Reddit LocalLLaMA közösség korai beszélgetései az R1T2 gyakorlati benyomásait emelik ki. A felhasználók dicsérik a modell válaszidejét, a token hatékonyságát, valamint a sebesség és a koherencia közötti egyensúlyt. Az egyik felhasználó megjegyezte: „Ez az első alkalom, hogy egy Chimera modell valódi előrelépésnek tűnik mind a sebesség, mind a minőség tekintetében”. Egy másik pedig kiemelte, hogy a matematikailag intenzívebb kontextusokban jobban teljesít a korábbi R1 variánsokhoz képest. Néhány Reddit-felhasználó azt is megfigyelte, hogy az R1T2 következetesebben kerüli a hallucinációkat, mint az R1 vagy V3 alapú modellek. Az ilyen tulajdonságok különösen relevánsak azoknak a fejlesztőknek, akik stabil LLM backendeket keresnek termelési környezetekhez.

Az R1T2 nyilvánosan elérhető a Hugging Face: DeepSeek-TNG R1T2 Chimera platformon, MIT licenc alatt.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.