所以現在這將對推斷有意義,我們在 H200s 上幾乎無法適應量化的 Q8 Qwen Coder 3 和 Kimi K2 實例。Kimi K2 @ Q8 甚至沒有爲上下文留出 kv 緩存的空間。這些模型能否適應一個單獨的 8xB200 實例?可能,我們這周會嘗試。

LL0.7%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 4
  • 分享
留言
0/400
NonFungibleDegenvip
· 4小時前
这些配置真的不行 fr fr
查看原文回復0
FlippedSignalvip
· 4小時前
这 Q8 也太垃圾了吧
回復0
NotGonnaMakeItvip
· 4小時前
这优化不行啊根本带不动
回復0
钱包自毁专家vip
· 5小時前
内存爆了吧兄弟
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)