A KTransformers AVX2-alapú MoE-támogatást hoz a használható CPU-s teljesítményért AMX/AVX-512 nélkül

enlightened Ez az oldal a közösségért készül. heart Kövess minket máshol is:  Linux Mint Magyar Közösség a Mastodon-on  Telegram csatorna – csak hírek  Beszélgessünk a Telegram – Linux csevegő csoport  Hírek olvasása RSS segítségével  Linux Mint Hivatalos Magyar Közösség a Facebook-on      Linux Mint Baráti Kör a Facebook-on
wink Ha hasznosnak találod, és szeretnéd, hogy folytatódjon, támogasd a munkát Ko-fi vagy Paypal segítségével. laugh

kami911 képe

Nemrég megjelent a KTransformers 0.5.3. Ez a framework a nagy nyelvi modellek (LLM-ek) hatékony inferenciájára és finomhangolására készült, különös tekintettel a CPU–GPU heterogén számításra. A kiadásnak köszönhetően a KTransformers 0.5.3 már azokhoz a CPU-khoz is jobban illeszkedik, amelyekből hiányzik az Advanced Matrix Extensions (AMX) és az AVX-512, mivel mostantól néhány, csak AVX2-t igénylő kernelt is kínál.

A KTransformers 0.5.3 bevezeti a kizárólag AVX2-re épülő inferencia-támogatást a Mixture of Experts (MoE) modellekhez. Az AVX2-es inferencia elérhető BF16, FP8 és GPTQ-INT4 MoE terhelésekhez is. Ez nagy előrelépés a jelenlegi és a közelmúltbeli Intel Core (Ultra) processzoroknál, amelyekből hiányzik az AVX-512, különösen a legújabb, AMX-et és AVX-512-t kínáló Xeon szerverekhez, illetve az AVX-512-t szintén támogató AMD Zen 4/5 CPU-khoz viszonyítva. Természetesen egy AVX-512-t vagy AMX-et támogató CPU-val jóval nagyobb, CPU-alapú AI-inferencia teljesítmény érhető el.

Ez a pull request vezette be nemrég az AVX2-es inferencia támogatását a kt-kernel számára. Ez az új dokumentációösszefoglalja, hogyan futtatható a KTransformers AVX2-es processzorokon.

A KTransformers 0.5.3 emellett NUMA-tudatos telepítési fejlesztéseket is hoz: pontosabb NUMA-leképezést többfoglalatos környezetekben, kisebb üresjárati CPU-terhelést, jobb spekulatív dekódolást, valamint számos egyéb fejlesztést.

Akiket érdekel, a KTransformers 0.5.3 letöltéseit és a kiadás minden részletét itt találják: GitHub.