-
大模型時代“得數(shù)據(jù)者得天下”,但數(shù)據(jù)侵權如何界定?
最后更新: 2024-01-04 12:09:41(文/陳濟深 編輯/呂棟)
2023年以來,隨著生成式AI的爆火,其不僅一定程度上給用戶提供了便利,也在不斷重塑互聯(lián)網(wǎng)行業(yè)的競爭格局,中外諸多廠商均加入了大模型開發(fā)的戰(zhàn)局,也間接引發(fā)了諸多的版權糾紛。
本周,紐約時報起訴OpenAI和微軟違規(guī)收集其新聞進行訓練一事(紐約時報起訴OpenAI和微軟“不勞而獲”,要求消滅),再次將大模型開發(fā)中涉嫌違規(guī)采集數(shù)據(jù)的問題暴露在公眾視野之下。
據(jù)不完全統(tǒng)計,今年僅在美國加州,就已經(jīng)有數(shù)十起針對大模型開發(fā)商違規(guī)使用數(shù)據(jù)的訴訟。
這些訴訟頻發(fā)的背后是目前版權法案中,存在大模型對數(shù)據(jù)極度渴求和數(shù)據(jù)供應難以迅速增長的矛盾,“先授權后使用”的現(xiàn)有版權法律體系并無法匹配AI時代的數(shù)據(jù)使用方式,也引發(fā)了法律監(jiān)管的新問題。
大模型訓練階段究竟涉及哪些版權利用行為,這一過程可能存在哪些侵權風險?而全球監(jiān)管部門面對這個問題,也給出了各自的解答。
數(shù)據(jù)為王,版權訴訟戰(zhàn)頻發(fā)
在大模型爆炸性發(fā)展的2023年,紐約時報起訴OpenAI和微軟只不過是貫徹全年版權訴訟大戰(zhàn)的一個縮影。
今年1月,圖庫網(wǎng)站Getty Images對AI圖像生成器研發(fā)公司Stability AI提起法律訴訟,指其非法復制和處理版權圖像作為模型訓練數(shù)據(jù)。
4月,環(huán)球音樂集團發(fā)函要求Spotify等音樂流媒體平臺切斷AI公司的訪問權限,以阻止其版權歌曲被用于訓練模型和生成音樂。
6月,國內(nèi)的教培巨頭學而思也被爆出,未經(jīng)授權利用合作伙伴筆神作文數(shù)據(jù)進行大模型訓練導致的紛爭。
據(jù)不完全統(tǒng)計,自2022年11月至2023年10月,僅美國加州北區(qū)法院便已經(jīng)受理了10起,版權人起訴Stability AI、Open AI、Meta、Alphabet等AIGC研發(fā)企業(yè)未經(jīng)授權,利用版權作品進行模型訓練的案件。
在被告名單上,可以看到各個互聯(lián)網(wǎng)巨頭均在其中,而侵權訴訟頻發(fā)的背后則是大模型企業(yè)對于數(shù)據(jù)的極度渴求。
有業(yè)內(nèi)人士對觀察者網(wǎng)表示:“目前的大模型競爭時代下,相比算法,得數(shù)據(jù)者得天下?!?
一方面,訓練數(shù)據(jù)是大模型訓練的基石和燃料,如果沒有數(shù)據(jù),大模型的訓練就無法開展和持續(xù)。另一方面,當前技術領域的研究顯示,各家大模型在算法層區(qū)別并不大,并且具有同質(zhì)化的趨勢。在此背景下,訓練數(shù)據(jù)就成了真正區(qū)分且影響大模型性能的重要因素之一。
以OpenAI的幾代GPT模型為例,訓練數(shù)據(jù)上,GPT-1預訓練數(shù)據(jù)量僅有5GB;到了GPT-2,這個數(shù)據(jù)則增加至40GB;而在GPT3模型下,OpenAI用以訓練模型的數(shù)據(jù)集數(shù)據(jù)量達到了驚人的45TB,而相比GPT3的1750億參數(shù)規(guī)模,GPT4相傳達到了100萬億規(guī)模的參數(shù),對于數(shù)據(jù)的需求呈指數(shù)型飆升。
相比需求的爆炸性增長,對于各家大模型企業(yè)而言,自身數(shù)據(jù)和公開數(shù)據(jù)的供應顯然難以滿足這種指數(shù)型的需求,從互聯(lián)網(wǎng)和其他友商那“搭便車”成了行業(yè)內(nèi)公開的秘密,也成為了目前版權訴訟頻發(fā)的根本原因。
為了應對“偷數(shù)據(jù)”頻發(fā)的現(xiàn)象,除了通過訴訟手段外,不少互聯(lián)網(wǎng)企業(yè)也利用了技術手段開啟防御模式。
目前,有多家處在“數(shù)據(jù)提供端”的公司對數(shù)據(jù)抓取、開源等做出了反應。比如X(原名Twitter)限制了用戶每天能查看的推文數(shù)量,幾乎使數(shù)據(jù)提供服務無法使用。馬斯克對此曾表示,這是對“數(shù)據(jù)抓取”和“系統(tǒng)操縱”的必要反應。
2023年4月,Reddit官方宣布將對調(diào)用其API的公司收費,原因正是OpenAI、谷歌等公司利用該平臺上的數(shù)據(jù)訓練模型。
此外,IT技術問答網(wǎng)站Stack Overflow也計劃向AI大模型的開發(fā)者及公司收取數(shù)據(jù)訪問費用。
標簽 AI大模型- 責任編輯: 陳濟深 
-
凈利潤“腰斬式”下滑,南航物流IPO募資數(shù)十億買飛機
2024-01-04 11:51 觀網(wǎng)財經(jīng)-金融 -
時隔一年央行重啟PSL,釋放了什么政策信號?
2024-01-03 16:54 -
蘋果仍主導全球高端機市場,余承東稱華為要在中國“全面反攻”
2024-01-03 15:10 觀網(wǎng)財經(jīng)-科創(chuàng) -
外媒緊盯:特斯拉首次被比亞迪超越
2024-01-03 10:46 觀察者頭條 -
對這項重要資源,八部門聯(lián)合發(fā)布方案
2024-01-03 10:21 -
“愛潑斯坦案”數(shù)百份密封文件將公布,克林頓代號“無名氏36”
2024-01-01 14:37 -
長光衛(wèi)星闖關科創(chuàng)板,經(jīng)營活動凈現(xiàn)金流持續(xù)為負
2023-12-31 15:47 -
“大錯特錯”!阿根廷宣布不加入金磚
2023-12-30 22:49 金磚國家 -
-
-
采銷固定薪酬翻倍、業(yè)績激勵上不封頂,京東重回奔騰年代
2023-12-29 21:26 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
RTX 4090被禁售后,英偉達在中國市場推出“閹割版”
2023-12-29 18:55 觀網(wǎng)財經(jīng)-科創(chuàng) -
央行:進一步提升境外來華人士的支付便利化
2023-12-29 18:31 觀網(wǎng)財經(jīng)-金融 -
統(tǒng)計局最終核實2022年GDP,比初步核算數(shù)減少5483億元
2023-12-29 16:11 中國經(jīng)濟 -
日企控股的硅片生產(chǎn)商欲登陸A股,目標估值超200億
2023-12-29 15:11 觀網(wǎng)財經(jīng)-金融 -
招商銀行“逆向討薪”近6000萬
2023-12-29 14:59 -
外國人持證可在線開A股賬戶,頭部券商已上線相關功能
2023-12-29 14:52 股市 -
華為:預計今年收入超7000億,挑戰(zhàn)依然嚴峻
2023-12-29 11:06 觀網(wǎng)財經(jīng)-科創(chuàng) -
2023年人民幣對美元中間價全年累計下跌近1.7%
2023-12-29 11:06 -
“半年沒還月供了”,業(yè)主發(fā)帖:600萬買入現(xiàn)掛280萬沒人要
2023-12-29 09:15 觀網(wǎng)財經(jīng)-房產(chǎn)
相關推薦 -
最新聞 Hot
-
恐遭監(jiān)視,歐盟為赴美出差高官發(fā)放一次性手機
-
“美軍掙扎過,但就是繞不過中國”
-
特朗普想幾乎全砍聯(lián)合國、北約經(jīng)費,有人急了:中俄要填補
-
開幕首日就翻車:大阪世博會標志性建筑漏雨,2億日元廁所用不了
-
“你不該向一個比你強大20倍的國家開戰(zhàn),然后希望別人給你導彈”
-
哈佛“硬剛”特朗普
-
特朗普炫耀:我?guī)土藥炜?/a>
-
“特朗普考慮暫停汽車關稅”
-
美國加州突發(fā)5.2級地震
-
“人人都想制造業(yè)回流美國,但沒多少人想自己下工廠”
-
歐盟警告歐洲領導人:不準去!
-
為籌錢暗殺特朗普,美國一青少年槍殺父母,還打算逃到烏克蘭
-
諾貝爾文學獎得主略薩去世,曾表示“美國將讓位給中俄”
-
“美國,下三流做法”
-
克宮警告:此舉必然導致局勢升級
-
“不能太依賴美國,歐洲得買點俄氣”
-