🎤 爲偶像應援 · Gate送你直達 Token of Love! 🎶
家人們,現在在Gate廣場爲 打 Token of Love CALL,20 張音樂節門票等你來瓜分!🔥
泫雅 / SUECO / DJ KAKA / CLICK#15 —— 你最期待誰?快來一起應援吧!
📌 參與方式(任選,參與越多中獎幾率越高!)
1️⃣ 本帖互動
點讚 & 轉發本帖 + 投票你最愛的藝人
評論區打出 “我在 Gate 廣場爲 Token of Love 打 Call !”
2️⃣ 廣場發帖爲 TA 打 Call
帶上 #歌手名字# + #TokenOfLove#
發帖內容任選:
🎵 最想現場聽到的歌 + 心情宣言
📣 應援口號(例:泫雅女王衝鴨!Gate廣場全員打 Call!)
😎 自制表情包/海報/短視頻(加分項,更容易中獎!)
3️⃣ 推特 / 小紅書發帖打 Call
同樣帶上 #歌手名字# + #TokenOfLove#
內容同上,記得回鏈到表單 👉️ https://www.gate.com/questionnaire/7008
🎟️ 獎勵安排
廣場優質發帖用戶:8張門票
廣場幸運互動用戶:2張門票
Twitter 優質發帖用戶:5張門票
小紅書優質發帖用戶:5張門票
📌 優質帖文將根據文章豐富度、熱度、創意度綜合評分,禁止小號水貼,原創發帖更易獲獎!
🕒 8
擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜
原文來源:機器之心
一眨眼,開源大模型又進步了。谷歌、OpenAI真的沒有護城河?
「我就午休了30 分鐘,我們的領域又變了?」在看到最新的開源大模型排行榜後,一位AI 領域的創業者發出了靈魂追問。
上圖紅框中的「新秀」是來自Stability AI 和CarperAI lab 的兩個大模型:FreeWilly 1 和FreeWilly 2。剛剛,它們超越了Meta 三天前發布的Llama-2-70b-hf,成功登頂HuggingFace 的Open LLM 排行榜榜首。
更引人注目的是,FreeWilly 2 在很多基准上還擊敗了ChatGPT(GPT-3.5),成為首個真正可以和GPT-3.5 相抗衡的開源大模型,這是Llama 2 都沒有做到的事情。
從Stability AI 發布的博客中,我們可以看到這兩個新模型的一些細節:
數據來源
FreeWilly 模型的訓練方法直接受到了微軟在其論文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首創的方法的啟發。雖然FreeWilly 的數據生成過程與之相似,但二者在數據來源方面存在差異。
FreeWilly 的數據集包含了60 萬個數據點(大約是原始Orca 論文使用的數據集大小的10%),它是通過以下由Enrico Shippole 創建的高質量指令數據集來啟發語言模型生成的:
採用這種方法,研究者使用了一個較簡單的LLM 模型生成了50 萬個示例,並使用一個更複雜的LLM 模型生成了額外的10 萬個示例。為了確保公平比較,他們仔細篩選了這些數據集,並刪除了來源於評估基準測試的示例。儘管訓練樣本數量僅為原始Orca 論文的1/10(相比原始論文大大降低了訓練模型的成本和碳排放),但由此產生的FreeWilly 模型在各種基準測試中表現出色,驗證了他們採用合成數據集的方法的有效性。
性能數據
為了對這些模型進行內部評估,研究者使用了EleutherAI 的lm--harness 基準,並加入了AGI。
其中,lm--harness 基準由EleutherAI 非盈利人工智能研究實驗室創建,前面提到的HuggingFace Open LLM 排行榜背後運行的就是該基準,它會在Hugging Face 計算集群的空閒週期中運行評估,並將結果存儲在數據集中,然後在在線排行榜空間上顯示。
AGI 則由微軟創建,專門用於評估基礎模型在「以人為本」(human-centric)的標準化考試中的表現,比如數學競賽、律師資格考試。
在許多方面,兩個FreeWilly 模型表現都非常出色,包括複雜的推理、理解語言的微妙之處,以及回答涉及專業領域(如法律和數學問題)的複雜問題。
兩個模型在lm--harness 基准上的評估結果如下(這些FreeWilly 測試結果是由Stability AI 研究人員來評估的):
自由威利 1:
威利2:
從各方反應來看,FreeWilly 模型的出現給大家帶來了一點小小的震撼,因為它們來得實在是太快了,畢竟Llama 2 才剛剛推出3 天,排行榜位置都沒坐熱。有位研究者表示,他最近剛做了眼科手術,一個星期沒看新聞,但感覺自己已經昏迷了一年。所以,這是一段「不能眨眼」的時期。
參考鏈接: