碾壓 LLaMA 的最強開源大模型居然來自阿聯酋,OpenAI 和 HuggingFace 為它吵了起來
這兩天 hugging face 的榜單出現了一個異數。一個名為 Falcon 40B 的模型,突然成為了 hugging face" 開源 " 大模型排行榜的第一名。
這一成績直接將一眾大咖加持的開源的模型踩在腳下,包括但不限于扎克伯格同學旗下的 LLaMA、新晉明星獨角獸 Stability AI 等公司。其中,LLaMA 的模型規模甚至更大,達到了 65B ——比 Falcon-40B 大出了 50%。
(相關資料圖)
按照 Hugging Face 方面表示,其整個榜單使用 Eleuther AI Harness 的評估框架,被分成四個標準:
25 個小樣本的推理邏輯測試(ARC:AI2 Reasoning Challenge)、10 個樣本的嘗試推理測試(HellaSwag)、5 個樣本的多任務準確性測試(MMLU)以及誠實測試(TruthfulQA)
而在全部四項打分中,如圖一所示,除了誠實測試表現相對一般外,其他三項都大幅領先對手。而在新推出的 instruct 版本中,誠實性能力也跟上來了。
Falcon 備受外界關注,原因主要有幾點。一方面,如果僅以這個榜單數據來看,Falcon 相比于友商的提升幅度很大。LLaMA-65B 之后的排序的分差往往在 0.3 分以內,但 Falcon-instruct 直接提升了 3.4 分。
另一方面,Falcon 與馬斯克的火箭重名,但其實是目前為數不多的非西方國家實驗室開發的開源大模型產品。Falcon 背后的研發方來自阿聯酋的阿布扎比技術創新研究所(TII),這也是中東首個世界頂級的大模型產品。
TII 的背后則是阿布扎比先進技術研究委員會 ( ATRC ) ,因此是阿聯酋政府官方扶持技術創新項目。
而根據阿聯酋通訊社的報道,Falcon-45B 使用了 1 萬億個 token 進行訓練,可以用更少的訓練計算能力實現更優的效果,其僅相當于 OpenAI GPT-3 訓練計算的 75%,DeepMind Chinchilla 人工智能的 40%,谷歌 PaLM-62B 訓練計算的 80%。
阿聯酋通訊社進一步表示,作為開源的大模型工具,Falcon-45B 的出現:
" 強化了阿聯酋作為全球 AI 領導者的角色 "。
目前來說,Falcon-40B 雖然是開源大模型的第一名,但是和 " 不 Open" 的 OpenAI 相比,還有相當大的差距。而在越來越公司對開源保持謹慎態度的情況下,Falcon 獲得 " 開源大模型第一 " 其實也算是 " 撿了個漏 "。不過很快有從業者發推特質疑 Hugging Face 的評價體系。有 Inflection AI 員工發推認為 Hugging Face 得出的數據與論文的評分有一定的差異。在這條質疑下面,前特斯拉 AI 負責人、OpenAI 元老級人物(founding member)Andrej Karpathy 跟進評論:
" 這就是我目前避免評論 falcon 的原因 "。
Andrej Karpathy 曾經是李飛飛的高徒、全球頂尖的 AI 科學家,對 OpenAI 的發展起到了很大的作用,也一手推動了特斯拉自動駕駛項目的發展,可以說是特斯拉 autopilot 之父。當他對 hugging face 的標準提出質疑時,這并不能被認為是一個輕飄飄的指控。
果然 hugging face 聯合創始人 Thomas Wolf 聞風而至,對同行進行了友善的科普,表示他們的使用的評價工具的準確性是可靠的。這其中詭異的點在于,hugging face 的榜單不是一天發出的,Eleuther AI Harness 也是一個主流的評價體系。但當 Falcon 沖榜后,卻出現了兩位對評價體系 " 不理解 "、" 不確定 " 的 " 外賓 "。看來硅谷還不是很適應來自中東的神秘科技力量,對這種 " 新鮮事物 " 條件反射地用審視的眼光去打量。
不過,Falcon-40B 最大的爭議或許不是來自于能力,而是來自于其對 " 開源 " 事業的 " 誠心 "。
因為 Falcon 對商業化開源留了一個 " 后手 ",雖然使用者原則上免費,但如果收入超過 100 萬美金,依然需要繳納 10% 的授權費用。
但由于 falcon 的許可證其實部分基于 Apache License Version 2.0。后者來自 Apache 基金會,對商業開源是友好的。那如果 falcon 拿著免費開源的許可協議,未來依然會收取一定的商業化費用,這似乎依然算不上真的 " 開源 "。
大模型確實很燒錢,即便貴如中東土豪,也不希望徹底的開源。
而根據 TII 方面的消息,阿聯酋方面預計將很快發布新的 Falcon-108B 的千億級大模型。
無論是開源和閉源、西方和東方、科技投資和石油資本,屆時圍繞大模型的科技競爭可能會變得更有意思。
圖片來源:網絡
責任編輯:hnmd003
相關閱讀
-
碾壓 LLaMA 的最強開源大模型居然來自阿聯酋,OpenAI 和 HuggingFace 為它吵了起來
這兩天huggingface的榜單出現了一個異數。一個名為Falcon40B的模型,突然成為了huggingface開源大模型排行
2023-06-02 -
天天熱點!Bing Chat 再次放寬限制,提高單次會話上限
品玩6月2日訊,微軟搜索和人工智能副總裁JordiRibas今天在推特上表示,BingChat再次放寬用戶的使用限制。Ri
2023-06-02 -
iPhone 15 Pro 系列設計細節曝光:1.55mm 極窄邊框 + 弧邊處理手感完美 環球報道
【Techweb】按照慣例,蘋果將繼續在今年9月舉辦一年一度的秋季新品發布會,屆時全新的iPhone15系列將正式與
2023-06-02 -
算力還是不夠!OpenAI 自曝發展受到 GPU 限制 百事通
5 29日,OpenAI的CEO-SamAltman在一次采訪中,透露了OpenAI當下遇到的問題與未來1-2年內的發展計劃。OpenAI
2023-06-02
相關閱讀
-
碾壓 LLaMA 的最強開源大模型居然來自阿聯酋,OpenAI 和 HuggingFace 為它吵了起來
這兩天huggingface的榜單出現了一個異數。一個名為Falcon40B的模型,突然成為了huggingface開源大模型排行
-
「小白」moto razr 40 Ultra 測評:這外屏是要當主力么? 微資訊
——ZAKER,個性化推薦熱門新聞,本地權威媒體資訊
-
天天熱點!Bing Chat 再次放寬限制,提高單次會話上限
品玩6月2日訊,微軟搜索和人工智能副總裁JordiRibas今天在推特上表示,BingChat再次放寬用戶的使用限制。Ri
-
聚焦:銷售火爆!價格上漲 3 倍!批發商拿不到貨,珍珠市場為何如此火爆?價格“狂飆”背后是什么原因
據央視財經6月2日消息,深圳水貝市場,是中國黃金珠寶消費的晴雨表,其中,珍珠貿易和鑲嵌加工占到國內大約
-
天天動態:武漢新房成交坐“過山車”,“降價跑量”成常態,有樓盤最高跌價達 5 成
5月舉行的第40屆武漢春季房地產交易會,無疑給武漢樓市點了一把火。就在5月31日,武漢房交會組委會宣布,為
-
天天熱門:亞馬遜員工大罷工抗議重返辦公室
亞馬遜員工大罷工抗議重返辦公室出處:北京商報作者:北京商報綜合報道網編:武杉2023-06-02當地時間周三下
-
存夠 300 萬,夠不夠你體面養老
作為獨生子女+少子化+延遲退休的一代,80后、90后正面臨高難度的退休挑戰。作者|鄭依妮題圖|《彩虹老人院》
-
買二手房,中介費“砍”一半!文件連夜被撤銷,協會致歉:有悖上級精神,造成較大負面影響 環球熱聞
福州打響調整中介費第一槍后卻又熄火了。6月1日下午,福州市房地產中介行業協會發布《關于合理調整二手房產
-
死刑如何執行?死刑立即執行能活幾天?
死刑如何執行?根據《刑事訴訟法》第二百六十三條,人民法院在交付執行死刑前,應當通知同級人民檢察院派...
-
拉薩市城關區人社局聯合西藏大學舉行校園招聘會
近日,拉薩市城關區人社局和西藏大學招生就業處聯合舉辦“校園啟航遇見‘位’來”校園招聘會,為畢業生...
-
今年高考拉薩考區將重防手機作弊
近日,記者從拉薩市召開的2023年招生考試工作聯席會上了解到,今年高考,拉薩市將把防范手機作弊作為高考安
-
天天快報!拉薩市城關區納金街道征集群眾微心愿愛心義賣暖人心
近日,拉薩市城關區納金街道第一屆“大工委愛心義賣市集,小力量凝聚大愛”活動在東郊萬達廣場開展。納...
-
地役權人是什么意思?地役權人有哪些權利和義務?
地役權人是什么意思?地役權一般涉及兩個地塊,供役地和需役地,且這兩塊土地分屬于兩個所有權人,需役地...
-
世界視訊!話劇《老西藏》將于7月與觀眾見面
近日,西藏自治區文化廳黨組書記肖傳江一行深入話劇《老西藏》排練現場,看望慰問主創團隊和全體演職人員,
-
職務犯罪包括哪些罪名?如何預防職務犯罪?
職務犯罪包括哪些罪名?職務犯罪一般包括貪污罪、受賄罪、濫用職權罪、玩忽職守罪、徇私舞弊減刑、假釋、...
-
行政法規是誰制定的?行政法規和部門規章的區別
行政法規是誰制定的?行政法規的制定主體是國務院,行政法規根據憲法和法律的授權制定。法律依據:《中華...
-
圖片版權登記應該怎么進行申請?圖片版權登記的法律依據
圖片版權登記應該怎么進行申請?版權登記的申請流程:一、提交申請版權登記的作品:向國家版權局提交自己...
-
醫患之間有什么法律關系?醫患關系如何處理?
醫患之間有什么法律關系?醫患之間的法律關系包括以下:(1) 醫患合同關系;(2)醫患無因管理關系;(3)醫患...
-
全球動態:首屆中國綠色算力大會將于7月1日在內蒙古呼和浩特舉辦
中新社北京6月1日電(記者烏婭娜)首屆中國綠色算力大會將于7月1日在內蒙古呼和浩特舉辦。 首屆中國綠色算力
-
投標保證金的收取比例是多少?投標保證金遞交時間
投標保證金的收取比例是多少?工程施工、貨物采購類:投標保證金一般不超過投標報價的2%,最高不得超過80...
-
女子出嫁被取消村民資格無權分土地怎么辦?村民資格認定由誰決定?
女子出嫁被取消村民資格無權分土地怎么辦?河南鄭州崗李村女子張亞平因為結婚,被取消村民資格,無權分得...
-
股東表決權可以約定嗎?股東表決權是以股份數還是人數?
股東表決權可以約定嗎?股東表決權可以自由約定。股東可以在公司章程中自由約定行使表決權的方式。如果公...
-
軍人出軌軍人怎么處理?軍人婚內出軌有什么處罰?
軍人出軌軍人怎么處理?軍人出軌的屬于違背社會公德,軍人配偶可以到部隊進行投訴,請求部隊幫助。根據《...
-
資本運作是傳銷嗎?資本運作與傳銷的區別
資本運作是傳銷嗎?資本運作不是傳銷,資本運作和傳銷是兩碼事。資本運作又稱資本經營、消費投資、連鎖銷...
-
關愛百萬長期醫療險怎么樣?怎么買嗎?
還是不錯的。關愛百萬長期醫療險是一款長期醫療保險產品,它可以為您提供全面的醫療保障,包括住院醫療、手
-
djpc是什么保險公司?官方電話是多少?
是指大家保險。大家保險保險公司成立于2019年,總部位于北京。在保險行業快速發展的背景下,大家保險憑借其
-
全球最大的保險公司排名前十有哪些?哪個好?-全球播資訊
根據相關數據統計,全球保險公司收入排名,排名前十的保險公司分別是:中國人壽、安盛保險、太平洋人壽、美
-
百萬醫療報銷自費藥嗎?報銷靶向藥嗎?
可以報銷。 百萬醫療的報銷是沒有醫保范圍限制的,只要是在免賠額以上的醫療費用花費,都是可以報銷掉的。
-
泰康百萬醫療報銷比例是多少?報銷流程是什么?
住院醫療費用最高報銷比例為90%,最高報銷金額為100萬元。門診醫療費用最高報銷比例為80%,最高報銷金額為1
-
中國核電擬3億元收購三一重能風電資產
6月1日晚間,中國核電發布公告,公司控股子公司中核匯能擬與三一重能(688349)簽訂股權轉讓協議,以3 19億元
精彩推薦
閱讀排行
精彩推送
- 30元包月 小冰AI“克隆人”瞄上...
- 賽力斯:5月新能源汽車銷量8562...
- 速看:今日看點 | 第七屆世界...
- 小i機器人美股漲11.76%
- OPPO人像輕旗艦開賣,10分鐘銷售...
- 符合性測試是什么意思?符合性測...
- 百度網盤下載慢怎么解決?百度網...
- 一鍵清理垃圾bat有用嗎?一鍵清...
- 觸摸IC是什么意思?手機觸摸ic壞...
- 什么是非晶磁環?非晶磁環和鐵氧...
- 充電ic壞了還能充電嗎?充電ic芯...
- 高錳酸鉀制取氧氣裝置圖示_高錳...
- 冷凝器的作用是什么?冷凝器臟了...
- “天涯社區”暫停訪問引關注 如...
- iPhone 15 Pro 系列設計細節...
- 算力還是不夠!OpenAI 自曝發展...
- GPU 短缺情況至少會持續到明年
- AITO 問界 M5 智駕版體驗,聽...
- 賽力斯張興海:走好“軟件定義汽...
- 天天熱門:全區學生資助政策來了...
- 【天天時快訊】1至4月我市社會消...
- 市場監管部門五方面精準發力賦能...
- 今年首趟“京藏號”旅游列車抵達...
- 西藏自治區各地慶“六一”活動豐...
- 拉薩機關警力下沉 支援一線路面...
- 浪涌抑制器是什么?浪涌抑制器的...
- 專業代工做膏藥的有哪些公司? ...
- 阻焊油墨是什么?阻焊油墨的化學...
- 品質因數q是什么?品質因數q值一...
- 電磁炮是什么?電磁炮按其結構的...