#5月CPI数据将公布#
本週三,美國將公布5月CPI報告,或對市場的降息預期構成考驗。克利夫蘭聯儲預測整體CPI同比漲2.4%,高於上月的2.3%,核心CPI預計持平。
💬 如果CPI超預期,聯準會6月還會降息嗎?你的策略是觀望還是搶先布局?
#科技巨头布局稳定币#
蘋果、谷歌、愛彼迎和馬斯克旗下的X正在與加密公司洽談,計劃將穩定幣集成進支付系統,降低手續費、簡化全球支付。此前,Circle成功IPO後股價飆升,穩定幣正加速滲透傳統科技與金融體系。
💬 穩定幣會成爲全球支付的默認方式嗎?哪家科技平台最可能率先落地?這將如何改變我們使用加密貨幣的方式?
#上市公司加密财库#
上市公司設立加密貨幣財庫的趨勢正在從比特幣擴展到更多加密代幣,配置規模也在持續擴大中。VivoPower和Webus擬建1億和3億美元XRP財庫,SharpLink則宣布建立4.25億美元ETH財庫。至今已有28家上市企業建立加密財庫,其中20 家專注於 BTC,4 家專注於 SOL,2 家專注於 ETH,2 家專注於 XRP。
💬 你怎麼看?XRP、ETH、SOL是否會成爲繼BTC後的新主流?
使用以上話題發帖,發布你的觀點與交易策略,每日賺取社區成長值,解鎖評論高亮、動態裝飾、月度成長值抽獎等多重權益!月度抽獎獎品包括 iPhone 16、精美週邊、熱門代幣等超值好禮!
更多成長值任務,請在【動態
DeepSeek開源第三彈:V3/R1訓練推理關鍵祕籍
來源:量子位
開源周的第三天,DeepSeek把訓練推理V3/R1背後的“動力”給亮出來了——
DeepGEMM:一個FP8 GEMM(通用矩陣乘法)庫,支持密集(dense)和混合專家(MoE)矩陣乘法運算。
我們先來簡單瞭解一下GEMM。
GEMM,即通用矩陣乘法,是線性代數中的基本運算,是科學計算、機器學習、深度學習等領域中“常客”,也是許多高性能計算任務的核心。
但由於它的計算量往往都比較大,所以GEMM的性能優化是至關重要的一點。
而DeepSeek這次開源的DeepGEMM,依舊是保持了**“高性能+低成本”**的特性,亮點如下:
簡單來說,DeepGEMM主要用於加速深度學習中的矩陣運算,特別是在大規模模型訓練和推理中,它特別適用於需要高效計算資源的場景,能夠顯著提升計算效率。
很多網友們對這次的開源都比較“買單”,有人將DeepGEMM比作數學界的超級英雄,認為它比飛快的計算器還要快,比多項式方程還要強大。
也有人將DeepGEMM的發佈比喻為量子態穩定到一個新的現實,稱讚其即時編譯的乾淨利落。
當然……也有人開始擔心起自己手上的英偉達股票了……
深入瞭解DeepGEMM
DeepGEMM是一個專門為實現簡潔高效的FP8通用矩陣乘法(GEMMs)而打造的庫,它還具備細粒度縮放功能,這一設計源於DeepSeek V3。
它既能處理普通的通用矩陣乘法,也能支持MoE分組的通用矩陣乘法。
這個庫是用CUDA編寫的,安裝的時候不需要編譯,因為它會在運行時通過一個輕量級的即時編譯(JIT)模塊來編譯所有的內核程序。
目前,DeepGEMM只支持英偉達的Hopper張量核心。
為了解決FP8張量核心在計算累積時不夠精確的問題,它採用了CUDA核心的兩級累積(提升)方法。
雖然DeepGEMM借鑑了CUTLASS和CuTe裡的一些理念,但並沒有過度依賴它們的模板或代數運算。
相反,這個庫設計得很簡潔,只有一個核心內核函數,代碼量大概300行左右。
這使得它成為一個簡潔易懂的資源,方便大家學習Hopper架構下的FP8矩陣乘法和優化技術。
儘管其設計輕巧,但DeepGEMM的性能可以匹配或超過各種矩陣形狀的專家調優庫。
那麼具體性能如何呢?
團隊在H800上使用NVCC 12.8測試了DeepSeek-V3/R1推理中可能使用的所有形狀(包括預填充和解碼,但沒有張量並行)。
下面這張圖展示的是用於密集模型的普通DeepGEMM的性能:
從測試結果來看,DeepGEMM計算性能最高可達1358 TFLOPS,內存寬帶最高可達2668 GB/s。
加速比方面,與基於CUTLASS 3.6的優化實現相比,最高可達2.7倍。
再來看下DeepGEMM支持MoE模型的連續佈局(contiguous layout)的性能:
以及支持MoE模型掩碼佈局(masked layout)的性能是這樣的:
如何使用?
要想使用DeepGEMM,需先注意一下幾個依賴項,包括:
Development代碼如下:
安裝代碼如下:
在上述步驟之後,您的Python項目中導入deep_gemm即可。
在接口方面,對於普通的DeepGEMM,可調用deep_gemm.gemm_fp8_fp8_bf16_nt函數,支持NT格式(非轉置LHS和轉置RHS)。
對於分組的DeepGEMM,連續佈局情況下是m_grouped_gemm_fp8_fp8_bf16_nt_contiguous;掩碼佈局情況下是m_grouped_gemm_fp8_fp8_bf16_nt_masked。
DeepGEMM還提供設置最大SM數量、獲取TMA對齊大小等工具函數;支持環境變量,如DG_NVCC_COMPILER、DG_JIT_DEBUG等。
除此之外,DeepSeek團隊還提供了幾種優化的方式,包括:
感興趣的小夥伴可以戳文末GitHub鏈接查看詳情哦~
One More Thing
英偉達這幾天的股票……嗯……一直再跌:
不過在北京時間27日凌晨,英偉達2025財年第四季度業績報告也即將出爐,我們可以期待一下它的表現~