Alors maintenant, où cela aura du sens pour l'inférence, nous avons à peine pu faire tenir les instances Q8 quantifiées Qwen Coder 3 et Kimi K2 sur nos H200. Kimi K2 @ Q8 n'a laissé aucune place pour un cache kv pour le contexte. Ces modèles pourraient-ils tenir sur une seule instance 8xB200 ? Probablement, nous allons essayer cette semaine.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
16 J'aime
Récompense
16
4
Partager
Commentaire
0/400
NonFungibleDegen
· Il y a 4h
ngmi avec ces spécifications fr fr
Voir l'originalRépondre0
FlippedSignal
· Il y a 4h
Ce Q8 est vraiment nul.
Voir l'originalRépondre0
NotGonnaMakeIt
· Il y a 5h
Cette optimisation ne fonctionne pas, elle ne peut tout simplement pas suivre.
Alors maintenant, où cela aura du sens pour l'inférence, nous avons à peine pu faire tenir les instances Q8 quantifiées Qwen Coder 3 et Kimi K2 sur nos H200. Kimi K2 @ Q8 n'a laissé aucune place pour un cache kv pour le contexte. Ces modèles pourraient-ils tenir sur une seule instance 8xB200 ? Probablement, nous allons essayer cette semaine.