Stability AI火速發布Llama 2微調模型FreeWilly，性能媲美ChatGPT！網友驚呼遊戲規則已改變

2023-07-23 02:03:54

來源：新智元

Llama 2剛發布沒兩天，獨角獸Stability AI就已經火速微調出了FreeWilly模型，據稱性能已經可與ChatGPT媲美。

Meta的Llama 2一發布，就引爆了整個開源社區。

正如OpenAI科學家Karpathy所說，對於整個大語言模型領域來說，這是極其重要的一天。在開放權重的所有模型中，Llama 2是最強大的一個。

從此，開源大模型與閉源大模型的差距將進一步縮小，構建大模型的機會，從此對所有開發者都是平等的。

就在剛剛，Stability AI和CarperAI實驗室聯合發布了基於LLaMA 2 70B模型的微調模型——FreeWilly2。

以及，基於LLaMA 65B原始模型微調的——FreeWilly1。

值得注意的是，模型採用了基於標準Alpaca格式，並經過監督微調（SFT）的全新合成數據集來進行訓練。

在各項基準測試中，FreeWilly2都展現出了卓越的推理能力，甚至有部分任務還超過了GPT-3.5。

模型地址：

這兩款模型都是研究實驗，並在非商業許可下發布。

數據生成與收集

Stability AI表示，FreeWilly模型的訓練是受到了微軟論文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》的直接啟發。

不過，雖然數據生成過程類似，但來源卻有所不同。

論文鏈接：

FreeWilly的數據集變體包含有60萬個數據點（大約是原始Orca論文使用的數據集大小的10%），並通過使用Enrico Shippole創建的高質量指令數據集，對模型進行了引導：

通過這種方法，Stability AI使用了一個較簡單的LLM模型生成了50萬個示例，再使用一個更複雜的LLM模型生成了額外的10萬個示例。

為了進行公平比較，Stability AI精心篩選了這些數據集，並刪除了來源於評估基準的示例。

儘管訓練樣本量僅為原始Orca論文的十分之一，但由此生成的FreeWilly模型，不僅在各種基準測試中都表現出色，而且也驗證了合成生成數據集方法的可行性。

在性能評估方面，Stability AI的研究人員採用了EleutherAI的lm--harness，並加入了AGI。

從結果來看，FreeWilly在很多方面都表現出色，包括複雜的推理、理解語言的微妙之處，以及回答與專業領域相關的複雜問題（如法律和數學問題解決）。

基本上，FreeWilly 2已經實現了與ChatGPT相當的水平，甚至在有些評測上更勝一籌。

GPT4ALL基準（0-shot）：

AGI評估（0-shot）：

除此之外，來自Hugging Face的團隊也在7月21日對實驗進行了獨立復現。

可以看到，在Open LLM排行榜上，FreeWilly 2以絕對領先的優勢排在第一，平均得分比原始版的Llama 2高了4個百分點。

可以說，FreeWilly1和FreeWilly2為開源大語言模型樹立了新的標準。

這兩個模型的推出，不僅極大地推進了相關領域的研究，增強了自然語言理解能力，而且還支持複雜任務的完成。

Stability AI表示，團隊為這些模型能AI社區帶來的無限可能感到非常興奮，並期待著那些因它們而激發出全新應用。

此外，也衷心感謝充滿激情的研究人員、工程師和合作夥伴團隊，是他們的卓越努力和奉獻，使Stability AI能夠達到這一重要里程碑。

模型一經發布，網友「Phil Howes」就利用Tuhin Srivastava的Llama v2框架，在不到一分鐘時間就完成了FreeWilly 2的實現。

經過275GB的權重加載後，模型的運行速度在開箱即用的情況下達到了23 token/s。

另外，還有網友驚呼：Stability AI和CarperAI聯合推出的模型，堪稱是對遊戲規則的改變！

FreeWilly1和FreeWilly2在開源和性能方面具有極大的創新意義，AI圈正在迎來令人激動的時刻。

參考資料：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。