-
破壞字節(jié)AI訓(xùn)練的實(shí)習(xí)生斬獲NeurIPS最佳論文,含金量如何?
最后更新: 2024-12-05 15:42:582024年12月3日,在這個(gè)離年末僅有27天的日子里,一件AI界頗具戲劇性的事件發(fā)生在字節(jié)跳動(dòng)的一個(gè)前實(shí)習(xí)生身上。
北京大學(xué)研究生田柯宇憑借其在視覺(jué)生成領(lǐng)域的開創(chuàng)性工作獲得了NeurIPS大會(huì)最佳論文獎(jiǎng)。
在人工智能領(lǐng)域的學(xué)術(shù)殿堂中,NeurIPS的地位堪比文學(xué)界的諾貝爾獎(jiǎng)。它創(chuàng)立于1987年,這個(gè)大會(huì)見證并推動(dòng)了從簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)到現(xiàn)代深度學(xué)習(xí)的整個(gè)革命進(jìn)程。
但在頒獎(jiǎng)當(dāng)天,NeurIPS大概率會(huì)面對(duì)一張空椅子。因?yàn)楂@獎(jiǎng)?wù)咛锟掠钫媾R著字節(jié)跳動(dòng)八百萬(wàn)元的訴訟,原因是“涉嫌破壞其AI訓(xùn)練系統(tǒng)”。
公司的罪人和學(xué)術(shù)的天才
田柯宇的學(xué)術(shù)履歷堪稱完美:本科畢業(yè)于北京航空航天大學(xué)軟件學(xué)院,隨后進(jìn)入北京大學(xué)攻讀研究生,師從知名學(xué)者王立威教授。
他研究的重點(diǎn)是深度學(xué)習(xí)優(yōu)化與算法,在攻讀學(xué)位期間就已在多個(gè)頂級(jí)會(huì)議發(fā)表論文,包括ICLR 2023的Spotlight論文《Spark:Designing BERT for Convolutional Networks》,是其引用量最高的論文。
2021年,田柯宇開始了在字節(jié)跳動(dòng)商業(yè)化技術(shù)部門的實(shí)習(xí)。在這里,他參與了一個(gè)雄心勃勃的項(xiàng)目:開發(fā)新一代的視覺(jué)生成模型。這個(gè)后來(lái)被命名為VAR(Visual Autoregressive Modeling)的項(xiàng)目,試圖徹底改變AI生成圖像的方式。
然而就在今年10月18日,網(wǎng)上開始流傳字節(jié)實(shí)習(xí)生“投毒”大模型的聊天截圖,給公司造成了極大損失。
這起事件的細(xì)節(jié)后續(xù)得到了更多披露。矛頭很快指向了田柯宇。
一位在GitHub上發(fā)聲的知情人士描繪了這場(chǎng)持續(xù)兩個(gè)月的"數(shù)字破壞":"在這段時(shí)間里,他系統(tǒng)性地破壞集群代碼,直接導(dǎo)致近30位同事的工作成果付諸東流,整整一個(gè)季度的心血化為烏有。所有的日志記錄和系統(tǒng)審查都指向一個(gè)不容辯駁的事實(shí)。"
10月21日,界面新聞從知情人士處了解到,字節(jié)跳動(dòng)內(nèi)部已經(jīng)調(diào)查明確此事為田姓實(shí)習(xí)生所為。
事件曝光后,這位北大高材生試圖通過(guò)社交媒體自證清白,聲稱真正的破壞者另有其人。
網(wǎng)傳的田柯宇在社群中的回應(yīng)
這種"甩鍋"行為很快就被接近字節(jié)跳動(dòng)的人士予以駁斥。一位不愿透露姓名的字節(jié)內(nèi)部人士向澎湃新聞透露了公司的處理邏輯:考慮到田柯宇的在讀博士身份,公司最初選擇了相對(duì)溫和的處理方式,將其辭退并交由校方處理。這也在字節(jié)官方的回應(yīng)中有所體現(xiàn)。
然而,事態(tài)在田柯宇的一系列反應(yīng)中急轉(zhuǎn)直下。他后續(xù)不僅多次公開否認(rèn)指控,聲稱真正的攻擊者是其他實(shí)習(xí)生,甚至報(bào)警稱自己是造謠受害者。這種拒不認(rèn)錯(cuò)、反咬一口的態(tài)度,最終耗盡了字節(jié)的耐心。"他完全沒(méi)有意識(shí)到自己的錯(cuò)誤性質(zhì)和嚴(yán)重程度,"據(jù)澎湃新聞采訪到內(nèi)部人士說(shuō),"這種行為已經(jīng)觸及公司安全管理的紅線。"最終,字節(jié)跳動(dòng)決定通過(guò)法律途徑追責(zé),以儆效尤,防止類似事件重演。
據(jù)《南方都市報(bào)》11月27日?qǐng)?bào)道,字節(jié)跳動(dòng)起訴前實(shí)習(xí)生田某某篡改代碼攻擊公司內(nèi)部模型訓(xùn)練一案,獲北京市海淀區(qū)人民法院正式受理。字節(jié)跳動(dòng)請(qǐng)求法院判令田某某賠償公司侵權(quán)損失800萬(wàn)元及合理支出2萬(wàn)元,并公開賠禮道歉。
這也反證了當(dāng)年字節(jié)極力否認(rèn)的網(wǎng)傳“1000萬(wàn)”的損失。
但也正是在字節(jié)工作期間,田柯宇寫出了他的這篇含金量極高的獲獎(jiǎng)?wù)撐?。論文的五位作者中,有四位都是?lái)自于字節(jié),而田柯宇是第一作者。
含金量極高的獲獎(jiǎng)?wù)撐?/strong>
要理解NeurIPS最佳論文的分量,我們不妨回望2014年的一個(gè)歷史性時(shí)刻。那年《Sequence to Sequence Learning with Neural Networks》都未獲得最佳論文,僅僅進(jìn)入了oral(口頭演講》環(huán)節(jié)。
這篇出自Ilya Sutskever、Oriol Vinyals和Quoc V. Le之手的論文不僅是一項(xiàng)學(xué)術(shù)成就,更像是為人工智能劃出了一條全新的航道。
彼時(shí)還默默無(wú)聞的三位作者,如今已是AI領(lǐng)域的標(biāo)志性人物:Sutskever成為了OpenAI的聯(lián)合創(chuàng)始人,在GPT系列的開發(fā)中發(fā)揮核心作用;Vinyals在DeepMind主導(dǎo)了AlphaFold的突破;Le則在Google Brain推動(dòng)了大語(yǔ)言模型的革新。他們的序列到序列學(xué)習(xí)框架,為今天ChatGPT、Claude這樣的自回歸語(yǔ)言模型奠定了理論基石。
而當(dāng)年獲得了最佳論文的李平教授,在回國(guó)后曾任百度首席架構(gòu)師(T11)和百度研究院副院長(zhǎng)。
NeurIPS的錄用門檻極其嚴(yán)苛,獲得這個(gè)獎(jiǎng)的難度有多高呢?
據(jù)數(shù)據(jù)統(tǒng)計(jì)顯示,以2023年為例,大會(huì)收到12,343篇投稿,最終接受率為26.1%。而能夠入選口頭報(bào)告(Oral)的論文更是鳳毛麟角,通常不到1%。
在這樣的背景下,VAR論文不僅入選Oral,還以近乎滿分的評(píng)審分?jǐn)?shù)(7,8,8,8)摘得最佳論文桂冠,其學(xué)術(shù)分量可見一斑。田柯宇北大同一實(shí)驗(yàn)室的同學(xué)對(duì)騰訊科技表示,此論文為第一篇來(lái)自中國(guó)大陸的NIPS最佳論文。
這篇名為《視覺(jué)自回歸建模:基于下一尺度預(yù)測(cè)的可擴(kuò)展圖像生成》的論文,發(fā)布于2024年5月,它代表了AI系統(tǒng)生成圖像方式的重大突破。
傳統(tǒng)的圖像生成方法就像在一頁(yè)紙上從左到右、從上到下依次填寫文字。VAR則采用了一種更接近人類直覺(jué)的方法:先勾勒出大致輪廓,再逐步添加細(xì)節(jié)。
具體來(lái)說(shuō),VAR包含兩個(gè)訓(xùn)練階段:首先通過(guò)多尺度VQVAE將圖像編碼為不同分辨率的標(biāo)記映射,然后訓(xùn)練VAR Transformer來(lái)預(yù)測(cè)更高分辨率的細(xì)節(jié)。
這篇論文提出的視覺(jué)自回歸建模(VAR)方法首次證明了GPT式模型可以在圖像生成方面超越擴(kuò)散模型——這是許多人認(rèn)為不可能的里程碑。在ImageNet 256×256基準(zhǔn)測(cè)試中,VAR將圖像質(zhì)量評(píng)估指標(biāo)FID從18.65提升至1.73,生成速度提高了20倍。
更重要的是,VAR展現(xiàn)出此前只在大型語(yǔ)言模型中觀察到的特征:清晰的冪律縮放和零樣本泛化能力。
用更簡(jiǎn)單的話來(lái)說(shuō)就是,系統(tǒng)隨著規(guī)模增大而可預(yù)測(cè)地變得更好,并且能夠處理它沒(méi)有專門訓(xùn)練過(guò)的任務(wù)——這是更高級(jí)AI系統(tǒng)的標(biāo)志。這些特性暗示了視覺(jué)AI可能與語(yǔ)言AI走向統(tǒng)一的道路。
目前,VAR的代碼已在GitHub上開源,獲得了超過(guò)4400顆星標(biāo)。
從其技術(shù)價(jià)值和實(shí)際獲得的榮譽(yù)來(lái)看,這篇論文和田柯宇的科研含金量都極高。然而,正是因此,他讓前公司字節(jié)陷入了兩難之境。
兩難的字節(jié)
對(duì)字節(jié)跳動(dòng)而言,田柯宇大模型“投毒”事件帶來(lái)的打擊遠(yuǎn)比表面看起來(lái)要嚴(yán)重。
更具戲劇性的是,當(dāng)VAR論文在NeurIPS載譽(yù)而歸時(shí),字節(jié)跳動(dòng)卻陷入了進(jìn)退維谷的尷尬境地。
作為一家渴望在AI領(lǐng)域與谷歌、OpenAI等全球巨頭競(jìng)爭(zhēng)的中國(guó)科技公司,字節(jié)跳動(dòng)在人工智能基礎(chǔ)研究上投入了數(shù)以億計(jì)的資金。這項(xiàng)突破性研究確實(shí)誕生于字節(jié)實(shí)驗(yàn)室,但公司卻無(wú)法在學(xué)術(shù)社區(qū)大張旗鼓地宣傳這一成就——因?yàn)檎撐牡牡谝蛔髡哒还酒鹪V。
這種矛盾直指當(dāng)前公司管理的某種困境:如何對(duì)有才干的科學(xué)家分配有效的資源,給予個(gè)體更有效的表彰?在愈發(fā)龐大的字節(jié),這一命題也變得越來(lái)越難解。尤其在OpenAI、Anthropic等競(jìng)爭(zhēng)對(duì)手普遍采取更開放研究政策的背景下,大公司很可能因?yàn)榻M織結(jié)構(gòu)的問(wèn)題在吸引和保留頂尖AI人才的戰(zhàn)爭(zhēng)中落敗。
更令人深思的是,田柯宇能夠如此輕易地破壞訓(xùn)練系統(tǒng),暴露出字節(jié)在核心技術(shù)安全管控上的致命漏洞。這對(duì)于一家掌握著數(shù)億用戶數(shù)據(jù)、運(yùn)營(yíng)著多個(gè)AI大模型的科技巨頭而言,無(wú)疑是一記響亮的警鐘。
(AI未來(lái)指北特約作者 郝博陽(yáng))
- 原標(biāo)題:榮譽(yù)與背叛:字節(jié)訴訟遇到NeurIPS最佳論文
- 責(zé)任編輯: 林鈴錦 
-
蘋果引入百度文心一言,客戶隱私或成雙方合作阻礙
2024-12-05 14:15 大公司 -
中國(guó)鎵、鍺、銻等出口管制已超一年,對(duì)美打擊效果如何?
2024-12-05 10:06 中美關(guān)系 -
俄明確認(rèn)定加密貨幣為“財(cái)產(chǎn)”,普京:可作為外匯替代方案
2024-12-05 09:58 瘋狂比特幣 -
又有大突破?OpenAI宣布未來(lái)3周連續(xù)舉行12場(chǎng)直播
2024-12-05 09:57 大公司 -
-
-
-
韓國(guó)股市劇烈震蕩
2024-12-04 13:35 觀網(wǎng)財(cái)經(jīng)-海外 -
美國(guó)對(duì)華新一輪芯片禁令拆解:核心是“三板斧”
2024-12-04 13:21 中美關(guān)系 -
傳《星之破曉》項(xiàng)目解散,騰訊回應(yīng)
2024-12-04 11:45 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
韓國(guó)最大工會(huì):發(fā)起無(wú)限期罷工,直至尹錫悅辭職
2024-12-04 11:40 觀網(wǎng)財(cái)經(jīng)-海外 -
騰訊:混元大模型上線文生視頻功能
2024-12-03 21:38 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
菜鳥速遞接入東方甄選,提供次日達(dá)和送貨上門服務(wù)
2024-12-03 21:35 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
歐洲 “鋰電之星”本可以不死,生路就在中國(guó)
2024-12-03 21:31 歐洲亂局 -
-
-
全球最大鉆石生產(chǎn)商戴比爾斯大幅降價(jià),人工培育鉆石概念股大漲
2024-12-03 15:28 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
蘋果被控監(jiān)視員工個(gè)人設(shè)備,嚴(yán)禁員工討論薪酬
2024-12-03 13:56 -
拿友商大模型攢個(gè)局,周鴻祎為什么敢說(shuō)“世界第一”?
2024-12-03 13:10 -
相關(guān)推薦 -
事關(guān)中國(guó)!特朗普親自阻止馬斯克,還飆臟話? 評(píng)論 86起訴!“加州州長(zhǎng)向特朗普發(fā)起最直接的法律挑戰(zhàn)” 評(píng)論 108“白宮承認(rèn)‘中方?jīng)]打來(lái)過(guò)電話’,我早就知道…” 評(píng)論 192“如果美國(guó)不認(rèn)真對(duì)待,會(huì)被中國(guó)徹底碾壓” 評(píng)論 131中國(guó)按下“暫停鍵”,“波音重大挫折” 評(píng)論 146最新聞 Hot
-
事關(guān)中國(guó)!特朗普親自阻止馬斯克,還飆臟話?
-
“被中國(guó)震驚15年了,美國(guó)還是沒(méi)搞定...”
-
專門朝中國(guó)潑臟水的部門,魯比奧給關(guān)了
-
又急了!特朗普打算對(duì)DeepSeek下黑手
-
他放話“讓中國(guó)得不到資源”,我使館駁斥
-
中國(guó)消費(fèi)者:影響不大,沒(méi)美國(guó)貨,買國(guó)貨
-
“西方能在巴西挖,最終不還得運(yùn)到中國(guó)”
-
跨性別女性算不算法律定義上的女性?英國(guó)判了
-
“也有想把工廠遷回美國(guó)的,但零件還得從中國(guó)買”
-
“現(xiàn)在是2025年,不是1939年,誰(shuí)敢攔我?”
-
起訴!“加州州長(zhǎng)向特朗普發(fā)起最直接的法律挑戰(zhàn)”
-
葉劉淑儀:夏寶龍講話是在提醒香港企業(yè)家勿“利字當(dāng)頭”
-
三河市回應(yīng)“警徽改色”:適配墻體顏色
-
“白宮承認(rèn)‘中方?jīng)]打來(lái)過(guò)電話’,我早就知道…”
-
歐盟威脅武契奇:去了,入歐就沒(méi)戲了
-
又要跟馬斯克杠上了?OpenAI布局社交網(wǎng)絡(luò)
快訊- 中國(guó)和馬來(lái)西亞聯(lián)合聲明
- 萬(wàn)斯說(shuō)出“中國(guó)鄉(xiāng)巴佬”,美部長(zhǎng)不背鍋:讓他自己辯護(hù)吧
- 旅游博主在境外被帶到“小黑屋”,被脅迫接受間諜任務(wù)
- 美國(guó)下一代洲際導(dǎo)彈承包商導(dǎo)彈工廠發(fā)生爆炸
- 受賄數(shù)額特別巨大,唐仁健被公訴
- 阿聯(lián)酋旅游業(yè)成投資者新寵,背后藏著哪些機(jī)遇?
- “245%這個(gè)數(shù)字是怎么來(lái)的,你們應(yīng)該去問(wèn)美方”
- 電視直播曝光蘇州絲綢展虛假宣傳:節(jié)目還在播,執(zhí)法人員已到場(chǎng)查處
-