為了中國市場,Hugging Face 甚至玩上了小紅書
提到 AI 競賽,以往人們脫口而出的大多是 OpenAI、谷歌、微軟等一眾大廠,但隨著 Hugging Face 的出圈,人們逐漸意識到,如今的開源社區也已經成長為了一股不容忽視的力量。
作為開源界的頂流、AI 領域的 GitHub,Hugging Face 的發展模式是基于開源的協作與合作,以開放、透明的方式與全球的開發者和研究者合作,通過提供一鍵式的技術工具,極大地降低了 AI 的技術門檻。
【資料圖】
7 月 7 日上午,在世界人工智能大會 WAIC 的主會場,Hugging Face 的中國區負責人王鐵震,與未盡研究的創始人周健工,進行了一場主題為《開源力量推動生成式 AI 發展》的對話。
在王鐵震看來,開源最大的優勢就是「透明」,每個人都能打開大模型的「黑盒」看到數據是如何被應用于訓練的,每個人也都能依據自身需求場景去創造屬于自己的 AI 模型。
同時,作為一家估值至少 20 億美元的開源社區,Hugging Face 主打的就是「貼近群眾」,例如直接將活動搬到小紅書上,讓更多人能近距離接觸 AI。
王鐵震認為,未來 AI 發展的關鍵則在于:「不僅僅要讓 AI 的發展能幫助到各行各業的人,也要讓各行各業的人加入進來對 AI 的發展產生幫助。」
AI 2.0 需要新的「學習」
周健工:之前你說這半年一直在學習,你在學什么?通過你的學習,對生成人工智能這個行業的前景有什么新的感悟嗎?
王鐵震:過去五六年我在谷歌都是在做 AI,我們當時做谷歌人工智能的訓練框架,當時我們在服務器上、手機上都有做過一些工作。但是我發現當時那一波的人工智能和現在的 AI 2.0 有很大的不同,因為以前的模型其實沒有那么聰明,它的通用性也不好,每一個新場景都要重新去訓練,所以它是面向開發者的一個 AI 工具,并不是普通人也能用起來的 AI 工具。
去年大概 10 月、11 月的時候,我發現這一波 AI 浪潮非常的不一樣。像是 Stable Diffusion,玩得最火的可能不是 AI 圈的人,而是學習藝術、設計的這些人,之后的 ChatGPT 更是很多美國的普通學生在用來寫作業了,這個給我的感覺非常不一樣。
當時正好有一個契機,我就加入了 Hugging Face,加入之后一直在學習這方面比較新的技術。其實也不只是技術,我還需要向開發者去學習 To C 的東西,讓每個人都能把大模型用起來,根據自己的需求去將大模型與自己的領域相結合。
我也在學習大家是怎么使用這個技術的,它能去解決什么樣的問題,看到大家的一些創新想法會感到非常開心。所以前六個月,我基本上都在學習的過程中,每天都是非常充實,感覺 24 個小時完全不夠用。
王鐵震在 WAIC2023 大會上介紹 Hugging Face 開源社區|WAIC開源的最大優勢是「透明」
周健工:行業內現在產生的一個爭論是,閉源和開源的模型是怎么共同推動生成式人工智能往前發展的?它們各自有哪些特點和不同?
王鐵震:以大模型為例,大家最熟悉的 ChatGPT 其實就是一個閉源的模型,目前 GPT-4 是效果最好的模型,這毋庸置疑。很多企業在創業的早期也都是選擇接入 ChatGPT,直接在外面做一些 prompt engineering,做 fact database,就可以很快地把產品做成。
但是隨著規模的擴大,或者說因為不同領域的一些要求,就會發現數據安全、企業部署的場景、部署的成本以及大模型功能上的問題。大家發現 ChatGPT 并不能完整滿足他們的需求之后,企業就會想能不能擁有一個自己可控、可調、可「魔改」的模型。
Hugging Face 當時贊助了一個叫做 Big Science 的開源組織,他們做了一個 Bloom 模型,是一個千億級的模型。我們當時把這個模型訓練下來,用了 300 多塊 A100(英偉達 GPU),花了 100 多天,最后算下來成本非常高。包括訓練產生的碳排量,其實相當于排放了 50 多噸的二氧化碳才計算出來,所以從頭訓練一個大模型是非常不經濟的,尤其是對于中小型的公司來講。
但是我們把模型訓練完成后,包括很多其他做開源的大模型,會把這個模型公布出來,大家可以基于這個模型去做一些場景的調優,這樣對于企業的要求就更低。企業不再需要那么多顯卡,也不需要那么多時間,甚至稍微少一點的算力和數據都可以做到這個事情。這其實是開源社區給大家帶來的非常好的機會。
往更遠說,開源社區所有的東西都是透明的,你知道這個模型用了哪些數據,包括最近大家都在說網絡信息有被遺忘的權利,但是閉源模型的數據被吃掉后,你永遠不知道是不是有些關于你的事情會在互聯網上被公布出去,相反,開源模型所有的數據集都是公開的。
我們在做大模型的時候設計了一個特殊的機制,就是允許你 opt out(退出)。因為模型的數據集、模型訓練,以及模型的發布、優化都是在網上全部公開的,所以你隨時可以發現這個模型在做什么事情。所謂的 opt out 機制,是說如果我的數據不想被大模型吃掉,不想用于這個大模型的訓練,你隨時可以把它抹掉。
所以我認為開源相對閉源一個非常大的優勢就是——透明。開源模型可以給每個人更多的選擇,每個國家、企業都可以按照自己的需求去定制。另外,開源還是一個非常好的工具,它可以通過在線的平臺去團結全世界的開發者,只要你有想法、有自己的思路,就可以加入到開源社區,把你做的事情很快地跟全世界分享。
周健工:開幕的那天 Yann LeCun 楊立昆有一個對話,他認為解決大模型現存問題的唯一的出路就是開源,你怎么評論這句話?
王鐵震:站在 Hugging Face 的角度,我們其實是非常期望通過開源的方式把大模型普惠化,讓每一個公司、每一個人都能擁有自己的大模型去做自己的事情,去解決數據隱私、數據安全等問題。
包括最近有很多企業都明確的規定他們的員工不允許使用 ChatGPT 這種模型,甚至有一些謠言說 Google 的員工也不允許使用自己的 Bard 模型,因為擔心隱私數據的泄露。
還有一點是,為了讓模型在某一個領域去更加趨同人的行為,ChatGPT 做了很多工作,但是它只給了我們一個選擇。通過開源,我們每一個人都可以根據自己的需求去生成模型。
「社區」是 Hugging Face 非常強調的文化基因|Hugging FaceAI 玩上小紅書
周健工:Hugging Face 上有 25 萬個模型,這個數字很令人吃驚,這 25 萬個模型都是什么樣的模型?他們為什么都跑到你們的平臺?能不能簡單科普一下。
王鐵震:我們剛才聊得很多都是 NLP(自然語言處理)領域的文本大模型,其實在我們開源社區看來,這只是千千萬萬大模型種類的一種。
為什么千千萬萬的模型都選擇上傳到 Hugging Face,我想從兩點來回答,一個是說技術層面,一個是從社區層面。
技術層面
技術層面上其實我們是像 AI 界的 GitHub,比 GitHub 更適合 AI 界的一點,是我們支持大文件的上傳,我們免費提供 hosting,免費提供全球 CDN 的 deliver。這些對大家的幫助是非常大的,而且大家基于我們的平臺可以做版本控制以及開源協作,每個人都可以來貢獻一點,最終把開源模型變得更好。
在技術上我們還提供了可以一鍵部署的功能,你可以點一下鼠標就將模型快速的部署到亞馬遜云上,很快就可以將模型使用起來。
文化層面
從社區文化上來說,我們是一個非常重視開源社區的公司,我們特別希望幫助大家,希望能有更多的開發者參與到開源的事業中,所以我們特別愿意去接受大家的反饋,去跟大家做互動。
比如對于第一次來貢獻代碼的開發者,我們會對他們進行非常細致的輔導,這其實很花時間,而且投入產出比不高,但我們覺得這是一個非常有價值并且重要的事情,因為我們要慢慢把一個開源社區做起來。
我舉個例子,昨天晚上我看到微信群里有人說覺得 Hugging Face 很有意思,因為他之前就是抱怨了一下我們的系統有的變量名不是特別好,第二天就發現 Hugging Face 的員工專門開了一個 issue 來討論這個問題。
我們社區的文化實際上是非常好的,每一個人到社區里都有一種家的感覺,大家也更愿意使用我們的平臺。
周健工:你談到的社區其實有三類用戶,第一批是早期的研究者,第二批是開發者,第三批是真正的技術使用者,能不能結合你的工作來聊聊未來 Hugging Face 社區的發展方向?
王鐵震:我們想要做 AI 的普惠化,希望每一個國家和企業都能有自己的模型,并且每個人也有使用 AI 的能力。所以我們早期的工作確實是在關注研究者,在思考怎么方便他們去更快地創造一個模型,隨后我們設計了一套 API 的流程,讓大家可以用同樣的 API 去快速的調用基于 Transformer 或者 Diffusion base 的模型。
慢慢地我們擴展到了工業界,希望抹平學術界和工業界之間的差異,讓一個模型從學術界拿過來之后很快就能在工業界用起來。現在我們發現新一波的生成式人工智能對每一個非技術向的用戶都有很大的幫助,所以我們也希望進一步抹平這方面的門檻。
我們在 Hugging Face 上提供了一些非常有意思的工具。正常來說你在 GitHub 上看到一個 repo(repository,可以理解為存放項目的倉庫),要把它用起來需要自己裝環境搭配,對于很多非技術向的用戶這是一個很麻煩的事情,因為他可能看到這堆代碼之后也用不起來。
我們做了一個 spaces,可以在線免費給用戶提供一個容器環境,開發者可以把它的模型直接部署在 spaces 上,當用戶進來的時候看到就不僅僅是一堆代碼,他看到的是一個鮮活的應用,可以直接在上面點一點玩起來,直接看到效果。我覺得這個對大家幫助是特別大的。
另外我們也會在國內搞很多活動,希望幫助更多人去了解 AI 模型是怎么回事兒。
Hugging Face 在小紅書上開展的 AI 頭像活動|Hugging Face插個廣告,我們最近在小紅書上進行基于我們 Diffusion 的活動,希望大家能去生成自己的卡通風格頭像,跟其他產品不同的是我們提供了一個開發的環境,你可以在其中看到每執行一步程序,圖像產生的結果里面會有很多參數,你可以把黑盒打開,了解到這個模型里面到底在做些什么,然后進一步將更多的 AI 能力和實際需求結合起來。
我們最近也在做 AI for Gaming,希望做游戲的同學能夠了解 AI 的能力,讓做 AI 的人也了解游戲場景中他們在關注什么,把兩者結合起來,我們認為這個方向會有很多有意思的探索。
總結一下,我認為不僅僅要讓 AI 的發展能幫助到各行各業的人,其實也要讓各行各業的人加入進來對 AI 的發展產生幫助。大家可以一起探索這些前沿未來的方向,這不是 AI 圈自己就能解決的一個問題,我們要把具體的場景帶進來。
責任編輯:hnmd003
相關閱讀
相關閱讀
-
為了中國市場,Hugging Face 甚至玩上了小紅書
提到AI競賽,以往人們脫口而出的大多是OpenAI、谷歌、微軟等一眾大廠,
-
新一代拯救者 Y700 官宣 7 月 22 日發布,驍龍 8 +Gen 1 加持
今天聯想官方宣布,新一代拯救者Y700平板電腦將于7月22日發布。根據現
-
百度未如約雄起:不如拆分文心一言
圖片來源@視覺中國文|思辨財經年初ChatGPT大熱,百度第一時間發布新戰
-
2023 過半,芒果 TV 劇集繼續“掉隊”
圖片來源@視覺中國文|讀娛,作者|指月暑期檔到來,劇綜內容需求增加,
-
17歲西班牙公主首訪軍事學院,端莊大氣惹眼,身形和媽媽成反差
當地時間7月7日,西班牙的萊昂諾爾公主和父親費利佩國王以及母親萊蒂齊
-
60歲老人養老保險多少錢?劃算嗎?
對于60歲的老人來說,購買養老保險的價格是他們關注的重點之一。養老保
-
年金險怎么退?退保流程是什么?
年金險的退保方式有兩種:一種是滿期退保,即保險合同到期后,投保人可
-
70歲老人買什么保險最好?怎么買?
1 醫療保險:隨著年齡的增長,老年人的健康狀況可能會出現各種問題,因
-
老人有必要買大病保險嗎?大病保險保障什么?
有必要的。首先,大病保險可以為老人提供經濟支持,幫助應對高昂的醫療
-
招商信諾少兒教育金保險怎么樣?可靠嗎?
招商信諾少兒教育金保險具有以下幾個特點:1 教育金儲備:該保險產品提
-
不打“價格戰”承諾書簽署48小時:中汽協緊急刪除涉“價格”條款,大眾ID.家族大幅降價
距離中國汽車工業協會(下稱中汽協)組織16家車企簽署承諾書兩天,7月8
-
如何判斷孩子是否有網癮傾向?如何預防網癮?專家來支招
眼下正值暑假,醫生表示,家長可以給孩子定制一個科學的作息時間表,此
-
Threads 讓 3000 萬用戶「互聯網大遷徙」,Meta 能再一次顛覆社交媒體嗎?
圖片來源@視覺中國文|電廠2003年,在哈佛大學就讀的扎克伯格,建立了一
-
現在的年輕人怎么比老太太還愛攢錢?
出品|虎嗅青年文化組作者|黃瓜汽水編輯、制圖|渣渣郡本文首發于虎嗅年
-
華為建業界首個萬卡AI算力“工廠” 近半國產大模型“孵化”于此
華為昇騰AI成為公共算力首選作者/??IT時報記者?孫妍編輯/??孫妍
-
神韻瓷磚屬于什么檔次_神韻瓷磚
神韻瓷磚成立于2004年,總部設在廣東省佛山市陶斗,華南——。是面向年
-
養老保險投保年齡限制是多少?依據是什么?
養老保險的投保年齡限制因國家和地區而異,通常在50歲至65歲之間。具體
-
保險什么年齡買最劃算?購買保險年齡段是如何劃分的?
在選擇買保險的年齡上,一般認為越早越好。因為年輕人健康狀況較好且風
-
中國人壽大學生保險查詢方式是什么?有必要買嗎?
中國人壽提供了多種便捷的方式供大學生進行保險查詢。 首先,可以通過
-
學校給小學生買的什么保險?怎么報銷?
首先,學校會為小學生購買學生意外傷害保險。這種保險主要是為了應對小
-
中學生在學校交的保險是什么保險?怎么報銷?
中學生在學校交的保險通常是學生意外傷害保險。這種保險是為了保障學生
-
新生注意了!拿到錄取通知書,這幾件事別忘了!
在這開啟人生新篇章的重要時刻,提醒大家,以下細節事關錄取,千萬要注
-
魅族 Flyme Auto 攜手領克 08 進駐線下零售店
2023年7月8日,首款搭載FlymeAuto智能座艙操作系統的領克08車型正式進
-
魅族 20 限時降價 200 你會考慮嗎
昨日,魅族官方宣布魅族20開啟限時購機享補貼,7月16日前,購買魅族20
-
營收利潤暴降 95.7%!三星電子最新銷售額公布
三星電子預計2023年第二季度銷售額約為60萬億韓元(約合459 1億美元、3
-
iPhone15Pro 藍色打幾分?
聲音|小白iPhone15系列預計今年9月發布,屆時將帶來iPhone15、iPhone15
-
英偉達們之外,中國式半導體創新該如何發力?
百模大戰爆發中國半導體亟需的第二解作者/IT時報記者范昕茹編輯/王昕
-
學而思學習機,只是風很大?
圖片來源@視覺中國文|智商稅研究中心現代家庭中,成員的地位如何排序?
-
城市軌交半年報,重慶反超南京
圖片來源:南報融媒體根據交通運輸部7月7日消息,2023年6月,31個省(
-
恢復“單身”,斯巴魯能否從小眾走向主流?
圖片來源@視覺中國文|車圈能見度,作者|劉媛媛、張雪梅在汽車圈存在感
精彩推薦
閱讀排行
精彩推送
- 國乒又輸伊藤美誠!一到關鍵分就...
- 少兒保險是投資型保險嗎?有哪些...
- 金色朝陽少兒定期保險是什么意思...
- 計劃生育少兒保險報銷范圍是什么...
- 英才少兒保險怎么領?領取要注意...
- 少兒暖寶寶保險怎么樣?值得買嗎?
- “A+進階”升級三部曲,平安銀行...
- 螞蟻要“上岸”,阿里能有底?
- 為了中國市場,Hugging Face ...
- AI大火:讓賣課的先富起來
- 這就是,江蘇!
- 微星正在準備 RTX 4060 Ti G...
- Redmi Note 12 Pro 至高閃降...
- 我在越南直播帶貨:這里年輕人沒...
- “可以自主定價”,特斯拉繼續降本
- 領 71.23 億元罰單,螞蟻集團...
- 拆解快手明星戰略得失:請“神”...
- 萬億級風口落地,巨頭角逐酒類“...
- 騰勢 N7:比亞迪棄利潤,沖高端
- 當歸價格3個月暴漲113%
- 拆解快手明星戰略得失:請“神”...
- 加拿大留學申請方式有幾種,你知...
- 盛世中華 何以中國|7月8日—12...
- 海爾泰國工廠第 1000 萬臺空調下線
- “天問一號”有最新發現!
- 牙膏擠不動了?陷入低谷的 AMD...
- 發布 48 小時后即被刪除 中汽...
- 中天御湖尚品?臻園湖居生活接待...
- 江西養老金2023年最新消息公布了...
- 這就是,江蘇!