-
精耕細作的數(shù)據(jù)標(biāo)注產(chǎn)業(yè),能否幫中國AI大模型構(gòu)筑獨特優(yōu)勢?
-
張廣凱13764468101
文/觀察者網(wǎng) 張廣凱
具備高度智能的ChatGPT,能否正確運用自己海量的知識,卻要取決于一群時薪不到2美元的肯尼亞勞工。
他們所做的工作——數(shù)據(jù)標(biāo)注,不僅是ChatGPT能夠領(lǐng)先競爭對手的重要原因,也有著重要的倫理意義。數(shù)據(jù)標(biāo)注師們自己的價值觀,同樣決定了人工智能的價值觀,決定了AI能否被善意地運用。
在百度智能云數(shù)據(jù)標(biāo)注基地業(yè)務(wù)產(chǎn)品負責(zé)人胡馳看來,人工標(biāo)注將是大模型訓(xùn)練中絕對無法被替代的一部分。
而對于中國大模型企業(yè)來說,這項嚴重依賴勞動力個人素質(zhì)的工作,或許也是獨特的競爭優(yōu)勢所在。
近日,百度在中文大模型的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)建設(shè)上邁出重要一步。
100%本科學(xué)歷,百度數(shù)據(jù)標(biāo)注卷到新高度
日前,位于??谑行阌^(qū)的百度智能云(??冢┤斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地正式啟動運營,這是百度智能云與海口市政府合作共建的國內(nèi)首個大模型數(shù)據(jù)標(biāo)注中心。
百度智能云海口人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地
百度智能云大模型數(shù)據(jù)標(biāo)注師董志煥介紹到:”我們的主要工作就是對大模型生成的內(nèi)容進行評價、反饋,通過這些人工標(biāo)注數(shù)據(jù),讓大模型學(xué)習(xí)人類的思維方式,從而使大模型更加聰明?!?
當(dāng)前,大模型正處在產(chǎn)業(yè)落地前期,高質(zhì)量的數(shù)據(jù),是大模型實現(xiàn)產(chǎn)業(yè)化的關(guān)鍵要素。以ChatGPT、文心一言為代表的生成式AI,不僅需要海量的數(shù)據(jù)訓(xùn)練,更需要人工標(biāo)注、指令微調(diào)、基于人類反饋的強化學(xué)習(xí)(RLHF),才能夠讓大模型與人類價值觀、思維方式不斷對齊,使大模型更加可用。
為此,百度智能云升級了大模型數(shù)據(jù)服務(wù)能力,建設(shè)了國內(nèi)首個專業(yè)大模型數(shù)據(jù)標(biāo)注基地。
截至目前,百度智能云已經(jīng)在全國與各地政府合作,共建了十多個數(shù)據(jù)標(biāo)注基地,累計為當(dāng)?shù)靥峁┏^1.1萬個穩(wěn)定就業(yè)崗位,間接帶動5萬人就業(yè)。
但是相比于傳統(tǒng)的數(shù)據(jù)標(biāo)注,語言類大模型對勞動者技能提出了更高的要求。海口數(shù)據(jù)標(biāo)注基地現(xiàn)擁有數(shù)百名專職大模型數(shù)據(jù)標(biāo)注師,標(biāo)注師的本科率達到100%。
“和傳統(tǒng)的數(shù)據(jù)標(biāo)注師要求不同,大模型標(biāo)注師都需要本科以上學(xué)歷,我覺得主要是因為大模型數(shù)據(jù)涉及的知識面很廣,評判標(biāo)準(zhǔn)復(fù)雜,非??简灅?biāo)注師的語言理解能力和邏輯推理能力。在入職的前兩個月,公司會對我們進行集體培訓(xùn)和考核,通過考核后才能正式上崗?!卑俣戎悄茉拼竽P蛿?shù)據(jù)標(biāo)注師王潔玉說。
標(biāo)注師劉小瑩畢業(yè)于一所普通本科學(xué)院的漢語國際教育專業(yè)。她對觀察者網(wǎng)表示,自己的專業(yè)原本就業(yè)方向較窄,就業(yè)壓力大,而大模型標(biāo)注產(chǎn)業(yè)卻剛剛傾向于招收漢語言、新聞傳播等專業(yè)畢業(yè)生,為自己提供了新的就業(yè)方向。
??谑行阌^(qū)委常委、常務(wù)副區(qū)長石晟屹表示:“??谌斯ぶ悄芗夹g(shù)數(shù)據(jù)產(chǎn)業(yè)基地的落成,最大的價值是在人才集約、產(chǎn)業(yè)集聚等方面有重要的引領(lǐng)作用。在不到一年的時間,基地已經(jīng)帶動近千人的大學(xué)生就業(yè),對培育本地的數(shù)字經(jīng)濟人才做出了突出貢獻。同時,引入百度這樣的科技企業(yè),將持續(xù)帶動數(shù)字產(chǎn)業(yè)化項目落地,也會為傳統(tǒng)產(chǎn)業(yè)的轉(zhuǎn)型升級帶來新的戰(zhàn)略契機和發(fā)展機會?!?
百度智能云??谌斯ぶ悄芑A(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地 作業(yè)區(qū)
不只靠堆人力,中國數(shù)據(jù)標(biāo)注如何精耕細作?
盡管數(shù)據(jù)標(biāo)注聽上去是一個依賴簡單重復(fù)勞動的工作,但是一旦深入工作細節(jié)便會發(fā)現(xiàn),它同樣需要很高的技術(shù)含量。
事實上,以Scale AI為代表,海外已經(jīng)誕生了一些數(shù)據(jù)標(biāo)注行業(yè)的獨角獸公司。2022年,Scale AI營收達到2.9億美元,毛利率更是高達70%。
Scale AI不僅僅在使用非洲等地的廉價人力資源,同樣還招聘了數(shù)十名博士,來應(yīng)對各行業(yè)的專業(yè)數(shù)據(jù)。數(shù)據(jù)標(biāo)注質(zhì)量,是Scale AI為OpenAI等大模型企業(yè)提供的最大價值。
百度也正在全面提升中文大模型的標(biāo)注質(zhì)量。
劉小瑩向觀察者網(wǎng)介紹,除了自己負責(zé)的第一道標(biāo)注工序之外,層層審核也是保證標(biāo)注質(zhì)量的重要環(huán)節(jié)。在數(shù)據(jù)標(biāo)注公司內(nèi)部,有資深標(biāo)注師對所有標(biāo)注數(shù)據(jù)進行全面復(fù)核,而百度自己也有龐大的審核團隊,最終把握數(shù)據(jù)質(zhì)量。涉及到專業(yè)領(lǐng)域知識時,也有相關(guān)行業(yè)專家提供支持。
據(jù)了解,百度智能云沉淀了多領(lǐng)域?qū)<屹Y源,針對來自不同行業(yè)的數(shù)據(jù)服務(wù)需求,百度智能云可快速搭建專家團隊,對特定領(lǐng)域的任務(wù)提供監(jiān)督微調(diào)和強化訓(xùn)練數(shù)據(jù),保證數(shù)據(jù)交付質(zhì)量,目前已覆蓋計算機、法律、醫(yī)療等領(lǐng)域。
此外,百度智能云還組建了專業(yè)的數(shù)據(jù)咨詢團隊,從前期的數(shù)據(jù)收集、數(shù)據(jù)清洗,再到數(shù)據(jù)管理、數(shù)據(jù)回流,可為企業(yè)提供全流程的咨詢服務(wù),幫助企業(yè)在智能化轉(zhuǎn)型過程中少走彎路。
百度自研的高效標(biāo)注系統(tǒng),則進一步提升了數(shù)據(jù)標(biāo)注效率。
胡馳表示,為提高數(shù)據(jù)標(biāo)注的質(zhì)量和效率,百度智能云自主研發(fā)了業(yè)內(nèi)領(lǐng)先的大模型數(shù)據(jù)標(biāo)注平臺,支持從大模型微調(diào)、強化學(xué)習(xí)到模型評估的數(shù)據(jù)生產(chǎn)閉環(huán)。在人工標(biāo)注之前,平臺會首先進行自動化的預(yù)審核,對數(shù)據(jù)的行業(yè)特征進行分類,確保數(shù)據(jù)交到更合適的審核員手上。
結(jié)合平臺獨有的人機協(xié)同標(biāo)注、多輪智能審核等智能化工具,百度可大幅提升數(shù)據(jù)標(biāo)注的產(chǎn)能和質(zhì)量,同時幫助企業(yè)實現(xiàn)降本增效。
數(shù)據(jù)安全也始終是重中之重。胡馳表示,百度智能云不僅可提供高安全性的端到端數(shù)據(jù)服務(wù),標(biāo)注平臺還支持私有部署,通過與基地資源聯(lián)動,為客戶提供多樣化的數(shù)據(jù)安全方案。
“大模型標(biāo)注基地重點要評估三大指標(biāo):高效標(biāo)注工具、高端人才梯隊、高級別數(shù)據(jù)安全,只有三管齊下,才能為大模型提供好的數(shù)據(jù)?!焙Y說。
隨著數(shù)據(jù)標(biāo)注基地等“智能新基建”的建設(shè),百度“千帆大模型平臺”將更好地向社會提供服務(wù)。
據(jù)悉,百度智能云將在9月全面升級大模型服務(wù)。8月,百度智能云宣布,千帆大模型平臺升級,接入包括文心一言、Llama 2全系列、ChatGLM2-6B等在內(nèi)的33個國內(nèi)外最主流的大模型,成為國內(nèi)擁有大模型最多的平臺。
(文中劉小瑩為化名)
標(biāo)簽 百度- 責(zé)任編輯: 張廣凱 
-
兩部門:多項個稅優(yōu)惠政策延續(xù)至2027年底
2023-08-28 16:14 -
滬指高開低走漲1.13%,市場成交額超1.1萬億元
2023-08-28 16:06 觀網(wǎng)財經(jīng)-金融 -
“四箭齊發(fā)”后,A股開盤暴漲超5%
2023-08-28 10:09 觀網(wǎng)財經(jīng)-金融 -
央媒:“組合拳”釋放“活躍資本市場”強信號
2023-08-28 07:33 觀網(wǎng)財經(jīng)-金融 -
證監(jiān)會重磅發(fā)布
2023-08-27 18:38 觀網(wǎng)財經(jīng)-金融 -
財政部、稅務(wù)總局:減半征收證券交易印花稅
2023-08-27 17:23 觀網(wǎng)財經(jīng)-金融 -
涉及超6萬億收入的增值稅法將二審,有六大變化
2023-08-27 15:04 -
中國人的消費觀變了?“報復(fù)式消費”集中在這些領(lǐng)域
2023-08-26 09:19 觀網(wǎng)財經(jīng)-消費 -
華為與愛立信續(xù)簽專利協(xié)議,包括3G/4G/5G技術(shù)
2023-08-25 17:59 觀網(wǎng)財經(jīng)-科創(chuàng) -
預(yù)計旅游人數(shù)將達13.31億人次,今年暑期游有多“熱”?
2023-08-25 17:54 觀網(wǎng)財經(jīng)-消費 -
AI加持,人人都可以做外貿(mào)了?
2023-08-25 17:48 觀網(wǎng)財經(jīng)-海外 -
平安健康:虧幅收窄47%,有望提前盈利上岸
2023-08-25 17:36 觀網(wǎng)財經(jīng)-健康 -
光伏企業(yè)集中披露業(yè)績,為何呈現(xiàn)“冰火兩重天”?
2023-08-25 16:01 觀網(wǎng)財經(jīng)-金融 -
-
三部門推動落實購首套房貸款“認房不認貸”
2023-08-25 14:12 觀網(wǎng)財經(jīng)-房產(chǎn) -
《中國好聲音》停播,背后公司股價跳水跌超13%
2023-08-25 11:39 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
“消費持續(xù)復(fù)蘇”,美團二季度營收增長33%
2023-08-24 18:52 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
途虎養(yǎng)車通過上市聆訊,今年上半年扭虧為盈
2023-08-24 17:47 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
因四項違規(guī),民生銀行遭警告
2023-08-24 17:04 觀網(wǎng)財經(jīng)-金融 -
數(shù)十家上市公司股東集中承諾不減持
2023-08-24 15:43 觀網(wǎng)財經(jīng)-金融
相關(guān)推薦 -
-
全國政協(xié)十四屆三次會議閉幕 評論 0最新聞 Hot
-
“國際刑警組織對杜特爾特發(fā)紅色通緝令”
-
特朗普被潑冷水:美國造船能力不及中國1/200
-
“五眼聯(lián)盟”要變“四眼”?
-
“難道要去白宮排隊給惡霸拍馬屁?這只會更受欺凌”
-
歐洲多國驚覺:被美國掌握一個“致命開關(guān)”
-
對歐洲“感到憤怒”,“特朗普想把駐德美軍全撤走”
-
萬斯:親烏抗議者當(dāng)街騷擾,嚇到3歲女兒
-
紐約發(fā)生多起山火,紐約州進入緊急狀態(tài)
-
特朗普威脅“不談就打”,伊朗最高領(lǐng)袖表態(tài)
-
“烏克蘭半瞎了,歐洲急了”
-
尹錫悅獲釋第二天,首爾10萬民眾集會游行
-
美媒哀嘆:所謂的“西方”,已蕩然無存
-
“1500億歐元貸款計劃,法德又吵起來了”
-
“看看中國高鐵再看美鐵,尬死了”
-
特朗普怒砍哥大4億美元:打擊“反猶”不給力啊
-
“特朗普想重新劃定美加邊界”
-