Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak bisa memasukkan Q8 Qwen Coder 3 yang terkuantisasi dan instansi Kimi K2 pada H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instansi 8xB200? Mungkin, kami akan mencoba minggu ini.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
16 Suka
Hadiah
16
4
Bagikan
Komentar
0/400
NonFungibleDegen
· 4jam yang lalu
ngmi dengan spesifikasi ini fr fr
Lihat AsliBalas0
FlippedSignal
· 4jam yang lalu
Q8 ini sangat buruk.
Lihat AsliBalas0
NotGonnaMakeIt
· 5jam yang lalu
Optimasi ini tidak berhasil, sama sekali tidak dapat berjalan.
Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak bisa memasukkan Q8 Qwen Coder 3 yang terkuantisasi dan instansi Kimi K2 pada H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instansi 8xB200? Mungkin, kami akan mencoba minggu ini.