-
潘禺:理解DeepSeek的中國式創(chuàng)新,要先回顧深度學(xué)習(xí)的歷史
【文/觀察者網(wǎng)專欄作者 潘禺】
深度學(xué)習(xí),這個(gè)在科技圈的熱門詞匯,究竟為何讓人如此著迷?它就像一個(gè)數(shù)據(jù)的探險(xiǎn)家,借助深層神經(jīng)網(wǎng)絡(luò)(DNN)在信息的海洋中探尋奧秘。而這里的“深度”就意味著一個(gè)層層深入的學(xué)習(xí)過程,能從復(fù)雜的數(shù)據(jù)中自動提取有價(jià)值的特征,無需人類費(fèi)勁心力去設(shè)計(jì)。
不論是圖像識別還是自然語言處理,深度學(xué)習(xí)已經(jīng)成為它們的幕后英雄。然而,當(dāng)你聽到GPT或Transformer的名字時(shí),是不是總?cè)滩蛔∠胫浪鼈儽澈蟮拿孛埽?
近來在網(wǎng)上被熱捧的中國“AI界拼多多”DeepSeek,以模型架構(gòu)的創(chuàng)新,在性能表現(xiàn)出眾的同時(shí)節(jié)約了顯存和計(jì)算資源,證明了中國人不是只能做從1-10的應(yīng)用創(chuàng)新,也能做從0-1的技術(shù)創(chuàng)新。你也許聽說過其創(chuàng)新的架構(gòu)設(shè)計(jì),叫多頭潛在注意力(MLA)機(jī)制,想粗淺理解一下這是什么意思?
這正是本文的目的——用通俗易懂的語言,心智觀察所帶你回顧深度學(xué)習(xí)的發(fā)展史,從感知機(jī)的萌芽到GPT的輝煌,揭開那些重要的技術(shù)突破。
從感知機(jī)到深度神經(jīng)網(wǎng)絡(luò)
讓我們回到1958年,那時(shí)候,F(xiàn)rank Rosenblatt提出了感知機(jī),這可是神經(jīng)網(wǎng)絡(luò)的鼻祖。感知機(jī)就像一個(gè)簡單的開關(guān),接收信號,加權(quán)計(jì)算,然后通過一個(gè)神奇的激活函數(shù)決定是開還是關(guān)。這就像是在說:“嘿,這個(gè)圖像是貓還是狗?”如果信號足夠強(qiáng),它就會說:“是貓!”否則就是:“不是貓!”通過學(xué)習(xí),感知機(jī)能夠調(diào)整自己的權(quán)重,變得越來越聰明。
感知機(jī)的基本結(jié)構(gòu)類似于生物神經(jīng)元,它接收多個(gè)輸入信號,并通過加權(quán)計(jì)算生成一個(gè)輸出信號。每個(gè)輸入代表一個(gè)特定的特征,例如圖像中的像素值。每個(gè)輸入都有一個(gè)與之關(guān)聯(lián)的權(quán)重,感知機(jī)會將所有輸入乘以相應(yīng)的權(quán)重,并將結(jié)果求和。
求和后的結(jié)果通過一個(gè)激活函數(shù),決定輸出是0還是1。例如,如果和超過某個(gè)閾值,感知機(jī)輸出1,表示屬于某個(gè)類別;否則輸出0。通過一組已標(biāo)注的訓(xùn)練數(shù)據(jù),感知機(jī)可以調(diào)整輸入的權(quán)重,以不斷優(yōu)化其判斷的準(zhǔn)確性。
感知機(jī)特別適合用于處理線性可分的問題,比如簡單的分類任務(wù),例如判斷一封電子郵件是“垃圾郵件”還是“正常郵件”。然而,感知機(jī)也有其局限性,它只能處理線性可分的情況,也就是說,對于一些更加復(fù)雜的非線性問題(例如某些圖像識別任務(wù)),單層感知機(jī)無法得到正確的分類。
盡管感知機(jī)有其局限性,但它的提出標(biāo)志著神經(jīng)網(wǎng)絡(luò)技術(shù)的開端,隨后更復(fù)雜的多層神經(jīng)網(wǎng)絡(luò)得到了發(fā)展。
多層神經(jīng)網(wǎng)絡(luò)(也稱為深度神經(jīng)網(wǎng)絡(luò))通常由多個(gè)層次構(gòu)成,包括輸入層、隱藏層和輸出層。每一層由多個(gè)神經(jīng)元組成,神經(jīng)元之間通過權(quán)重連接,形成一個(gè)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)輸入數(shù)據(jù)通過網(wǎng)絡(luò)時(shí),逐層進(jìn)行處理和變換,從而實(shí)現(xiàn)最終的輸出。
到了1986年,三位大師Rumelhart、Hinton和Williams推出了反向傳播(Backpropagation)算法,為訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)開辟了新天地。這套算法的核心理念是:當(dāng)模型預(yù)測錯(cuò)了,就通過誤差信息“反向追蹤”,告訴每一層網(wǎng)絡(luò)的權(quán)重該如何調(diào)整。
Geoffrey Hinton
想象一下,反向傳播就像是老師在批改作業(yè),指出學(xué)生的錯(cuò)誤并給予具體的改進(jìn)建議。它通過鏈?zhǔn)椒▌t計(jì)算梯度,逐層調(diào)整權(quán)重,最終讓模型的預(yù)測誤差越來越小。
梯度計(jì)算的目的是為了找到損失函數(shù)的最小值。損失函數(shù)衡量了網(wǎng)絡(luò)預(yù)測輸出與實(shí)際輸出之間的差異,優(yōu)化的過程就是通過調(diào)整網(wǎng)絡(luò)中的權(quán)重和偏差來使得損失函數(shù)的值不斷降低,從而提高模型的預(yù)測性能。
反向傳播算法的核心在于通過鏈?zhǔn)椒▌t有效地計(jì)算每個(gè)參數(shù)(權(quán)重)的梯度,從而優(yōu)化網(wǎng)絡(luò)的性能。
整個(gè)過程中,在網(wǎng)絡(luò)中輸入數(shù)據(jù),神經(jīng)元通過激活函數(shù)計(jì)算輸出,從輸入層一路傳播到輸出層。預(yù)測輸出與實(shí)際輸出之間的誤差(損失函數(shù))被計(jì)算出來,這個(gè)誤差將用于后續(xù)的權(quán)重更新。
反向傳播從輸出層開始,首先,計(jì)算輸出層每個(gè)神經(jīng)元的誤差,通常使用均方誤差(MSE)等損失函數(shù)來衡量。然后,通過鏈?zhǔn)椒▌t將輸出層的誤差向后傳播到每一個(gè)隱藏層。對每一層神經(jīng)元的各個(gè)權(quán)重進(jìn)行求導(dǎo),計(jì)算出每個(gè)權(quán)重對應(yīng)的梯度。最后,使用計(jì)算得到的梯度信息,通過優(yōu)化算法(如梯度下降法),調(diào)整網(wǎng)絡(luò)中的權(quán)重,以減小預(yù)測誤差。這一過程會反復(fù)進(jìn)行,直至網(wǎng)絡(luò)收斂到一個(gè)較低的誤差水平。
盡管這一算法解決了訓(xùn)練深層網(wǎng)絡(luò)的技術(shù)難題,但受限于當(dāng)時(shí)的計(jì)算資源和數(shù)據(jù)量,深度學(xué)習(xí)的發(fā)展仍然步履蹣跚。
梯度消失也是一個(gè)問題,隨著網(wǎng)絡(luò)層數(shù)的增加,反向傳播過程中,誤差的梯度可能會逐漸減小至接近零,導(dǎo)致權(quán)重更新變得非常緩慢,影響模型的學(xué)習(xí)效果。
卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)
面對深度學(xué)習(xí)的瓶頸,科學(xué)家們開始研發(fā)針對不同任務(wù)的專用網(wǎng)絡(luò)模型。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)成為了兩大明星。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是為了解決傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)在處理圖像數(shù)據(jù)時(shí)的效率和精度問題而提出的。CNN通過引入卷積操作,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),有效地解決了一系列圖像處理中的挑戰(zhàn)。
想象一下,你是一位偵探,正在分析一幅復(fù)雜的地圖(例如城市的俯視圖)。這幅地圖包含許多細(xì)節(jié):道路、建筑物、河流等。為了找到重要的信息,你不會一次性看完整張地圖,而是使用一個(gè)“放大鏡”逐步掃描地圖的不同區(qū)域。
放大鏡就是卷積核,放大鏡是一個(gè)固定大小的工具(例如 3x3 的矩陣),你用它覆蓋地圖的一個(gè)小區(qū)域(感受野),捕捉局部特征(如建筑物形狀或道路交叉口)。
逐步移動放大鏡就是卷積操作,你會逐步移動放大鏡(滑動窗口),掃描整張地圖。每次移動時(shí),你記錄下當(dāng)前區(qū)域的特征。每個(gè)小區(qū)域的分析結(jié)果都會形成一張“總結(jié)表”(特征圖),告訴你哪些區(qū)域更重要。多層放大鏡就是多層卷積,你可以用不同的放大鏡(卷積核)關(guān)注不同的細(xì)節(jié),例如一個(gè)看建筑形狀,另一個(gè)看道路模式。經(jīng)過多層分析后,你能更全面地理解整張地圖。
與CNN不同,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是為了解決序列數(shù)據(jù)學(xué)習(xí)任務(wù)而提出的,它特別適合處理時(shí)間序列或序列數(shù)據(jù)(如文本、音頻等)。
想象你正在閱讀一本小說,而不是一口氣看完整本書,你會逐句閱讀,并不斷記住之前的信息,以便理解當(dāng)前的情節(jié)。
當(dāng)前句子就是當(dāng)前時(shí)間步的數(shù)據(jù),每次你只看一小段內(nèi)容(一個(gè)時(shí)間步的輸入,例如一個(gè)單詞或一句話)。你的記憶力就是隱藏狀態(tài)(Hidden State),你會用“記憶力”記住之前的內(nèi)容(例如上一章發(fā)生了什么),并結(jié)合當(dāng)前句子的內(nèi)容,理解當(dāng)前的情節(jié)。每次閱讀新的句子時(shí),你的理解依賴于之前的記憶。
例如,讀到“她突然哭了”時(shí),你需要記得前面提到她失去了最好的朋友。這種前后依賴就是循環(huán)結(jié)構(gòu)。如果你的記憶力有限(梯度消失問題),可能會忘記很久之前的細(xì)節(jié)。例如,剛讀完的句子影響最大,而幾章之前的內(nèi)容逐漸淡忘。遺忘舊信息,對應(yīng)于模型中的信息遺忘機(jī)制。
CNN就像一位用放大鏡掃描圖片的偵探,逐步提取局部信息并整合成全局理解,非常適合處理圖像數(shù)據(jù)。RNN就像一個(gè)讀者,逐步讀取和理解時(shí)間序列數(shù)據(jù)(例如文本或語音),通過記憶力捕捉前后文的關(guān)聯(lián)。
RNN在處理時(shí)間序列數(shù)據(jù)時(shí),會遇到的梯度消失和梯度爆炸問題。梯度消失是指,在反向傳播過程中,隨著時(shí)間步的增加,梯度值可能不斷減小,最終導(dǎo)致網(wǎng)絡(luò)難以更新前面時(shí)刻的權(quán)重。這使得模型無法有效學(xué)習(xí)長程依賴的信息。相反,某些情況下,梯度可能會迅速增大,導(dǎo)致數(shù)值不穩(wěn)和模型難以訓(xùn)練,這就是梯度爆炸。
另外,傳統(tǒng)RNN在處理上下文關(guān)聯(lián)時(shí),較難捕捉到長時(shí)間間隔的依賴關(guān)系。例如,在分析一段文本時(shí),可能需要理解更早時(shí)間位置的信息,而標(biāo)準(zhǔn)RNN的設(shè)計(jì)無法保證。
為了解決這些問題,Sepp Hochreiter和Jürgen Schmidhuber在1997年提出一種特殊類型的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),也就是長短時(shí)記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)。LSTM通過引入門控機(jī)制,有效解決了上述問題。
Jürgen Schmidhuber
想象你在聽一場漫長的演講。速記員需要快速記錄演講中的關(guān)鍵內(nèi)容,同時(shí)避免被冗長的信息淹沒。
速記員有一本筆記本,專門用來記錄重要的內(nèi)容(長期記憶),但他必須謹(jǐn)慎選擇哪些信息應(yīng)該保留。筆記本就是細(xì)胞狀態(tài)(Cell State),可以理解為記憶單元,能夠存儲信息,并在序列處理過程中通過門控機(jī)制進(jìn)行調(diào)整。記憶單元的狀態(tài)可以在長時(shí)間內(nèi)保持,不易受到梯度消失的影響。
速記員會根據(jù)當(dāng)前聽到的話,判斷哪些信息值得記錄。如果是重要內(nèi)容(例如演講的核心觀點(diǎn)),就寫入筆記本;如果是無關(guān)信息(例如冗長的細(xì)節(jié)),就忽略。速記員的耳朵就是輸入門(Input Gate),輸入門控制信息的流入,即決定哪些新信息需要加入到記憶單元。它通過激活函數(shù)的組合來實(shí)現(xiàn),輸出值在0到1之間,控制著輸入的程度。
為了保持筆記簡潔,速記員會定期用橡皮擦擦掉不再重要的信息。例如,早前提到的背景內(nèi)容可能在后續(xù)的演講中已經(jīng)無用。速記員的橡皮擦就是遺忘門(Forget Gate),遺忘門用于控制記憶單元中信息的丟棄程度,決定哪些信息是多余的或不需要保持的。它也是通過激活函數(shù)來實(shí)現(xiàn),輸出值越接近1,表示越應(yīng)該保留信息。
每當(dāng)有人問速記員演講的核心內(nèi)容時(shí),他會從筆記本中提取關(guān)鍵點(diǎn),用清晰的語言表達(dá)出來。速記員的總結(jié)就是輸出門(Output Gate),輸出門決定從記憶單元中輸出哪些信息,它根據(jù)當(dāng)前輸入和前一個(gè)隱狀態(tài)來設(shè)置輸出的權(quán)重。
LSTM就像一位精明的速記員,通過門控機(jī)制管理信息流動,在長時(shí)間的任務(wù)中高效記錄關(guān)鍵內(nèi)容,忽略無用的細(xì)節(jié)。LSTM的關(guān)鍵是能有效地記住長期重要的信息,同時(shí)舍棄無用的內(nèi)容,因此比普通的RNN更聰明,因?yàn)樗鉀Q了普通RNN記憶力短、容易忘記長距離依賴問題的缺點(diǎn)。其獨(dú)特的結(jié)構(gòu)和功能使其在捕捉長程依賴和順序信息上具有顯著優(yōu)勢,廣泛應(yīng)用于語音識別、自然語言處理、時(shí)間序列分析等多個(gè)領(lǐng)域。
隨著硬件(GPU)的進(jìn)步和大規(guī)模數(shù)據(jù)集(如 ImageNet)的興起,深度學(xué)習(xí)得到突破。ImageNet是一個(gè)由超過1400萬標(biāo)注圖像構(gòu)成的大型圖像數(shù)據(jù)庫,涵蓋了多種類別的物體。它為深度學(xué)習(xí)研究提供了豐富的數(shù)據(jù)支持。2012年,AlexNet利用CNN在ImageNet比賽中取得革命性成果,標(biāo)志著深度學(xué)習(xí)的全面復(fù)興。
在AlexNet之前,計(jì)算機(jī)視覺領(lǐng)域主要依賴傳統(tǒng)的特征提取技術(shù),這些技術(shù)通常需要手動設(shè)計(jì)特征提取算法。盡管一些基本的機(jī)器學(xué)習(xí)算法(如支持向量機(jī))被應(yīng)用于圖像分類,但在復(fù)雜性的處理上受到了限制。在2010年及之前,雖然已有的深度學(xué)習(xí)模型在一些任務(wù)上取得了成功,但大規(guī)模數(shù)據(jù)集的處理能力以及計(jì)算資源的短缺限制了深度學(xué)習(xí)方法的推廣與發(fā)展。
在2012年的ILSVRC比賽中,AlexNet以超過15.3%的錯(cuò)誤率取得了第一名,而第二名的錯(cuò)誤率為25.7%。AlexNet的架構(gòu)設(shè)計(jì)中包含了一些重要的創(chuàng)新點(diǎn),如更深的神經(jīng)網(wǎng)絡(luò)、訓(xùn)練過程中的數(shù)據(jù)增強(qiáng)與圖像預(yù)處理、充分利用了圖形處理單元(GPU)進(jìn)行并行計(jì)算,大幅提高了訓(xùn)練速度。這成功展示了卷積神經(jīng)網(wǎng)絡(luò)在圖像分類中的強(qiáng)大能力,也為后續(xù)深度學(xué)習(xí)研究與應(yīng)用創(chuàng)造了廣闊的前景。
標(biāo)簽 心智觀察所- 原標(biāo)題:理解DeepSeek的中國式創(chuàng)新,要先回顧深度學(xué)習(xí)的歷史 本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 李昊 
-
探索宇宙線起源之謎再添“觀天”利器
2025-01-21 20:09 天文 -
最大載重1.9噸,國產(chǎn)大型無人機(jī)首次實(shí)現(xiàn)量產(chǎn)交付
2025-01-20 22:12 中國精造 -
我國成功發(fā)射云遙一號37~40星等5顆衛(wèi)星
2025-01-20 21:59 航空航天 -
新跨越!中國“人造太陽”創(chuàng)造“億度千秒”世界紀(jì)錄
2025-01-20 21:26 能源戰(zhàn)略 -
“畫地為牢,作繭自縛”,這八個(gè)字將在美國身上應(yīng)驗(yàn)
2025-01-20 08:24 心智觀察所 -
英偉達(dá),只是時(shí)代的偶然?
2025-01-16 09:36 人工智能 -
全球唯一!中國率先將美國學(xué)者設(shè)想變?yōu)楝F(xiàn)實(shí)
2025-01-16 09:28 科技前沿 -
全國首例!跨市自動駕駛公交來了
2025-01-14 19:49 -
我國建立世界第一套微波亮溫度國家計(jì)量基準(zhǔn)
2025-01-13 15:38 科技前沿 -
2025開年大戲:馬斯克揚(yáng)言奮不顧身一戰(zhàn)的背后
2025-01-09 08:13 心智觀察所 -
國內(nèi)首次!這一技術(shù)應(yīng)用于管道研究,測試完成
2025-01-06 17:40 科技前沿 -
公眾對低空經(jīng)濟(jì)的認(rèn)知度仍不高,如何解決?
2025-01-06 08:42 心智觀察所 -
我國腦機(jī)接口技術(shù)實(shí)現(xiàn)漢語實(shí)時(shí)編解碼重大突破
2025-01-06 07:57 科技前沿 -
研制成功!我國這一關(guān)鍵技術(shù)實(shí)現(xiàn)重大突破
2024-12-30 14:59 中國精造 -
華為:懸賞300萬元
2024-12-30 10:08 華為 -
我國新一代智能高鐵有望2027年落地
2024-12-30 09:02 高鐵世紀(jì) -
“量子”狼不再嚇崩比特幣
2024-12-30 08:24 心智觀察所 -
又添一大國利器!“探索三號”正式入列
2024-12-29 10:44 中國精造 -
我國首次實(shí)現(xiàn)!又一重大突破
2024-12-28 21:08 航空航天 -
嫦娥五號月球樣品向公眾開放!
2024-12-28 16:12 航空航天
相關(guān)推薦 -
“如果處理不當(dāng),還有比美國衰退更可怕的事情” 評論 104美業(yè)界“喊疼”:請中方“收回成命” 評論 343朝令夕改!“沒人知道特朗普五天后的規(guī)定是啥樣” 評論 242最新聞 Hot
-
“不能太依賴美國,歐洲得買點(diǎn)俄氣”
-
“僅靠美國?休想”
-
“拋售美債是對美國經(jīng)濟(jì)政策喪失信心”
-
“如果處理不當(dāng),還有比美國衰退更可怕的事情”
-
“哈馬斯愿釋放所有以色列人質(zhì),但有個(gè)前提”
-
“印度這行業(yè)要玩完了”
-
回過味了?“不該抗中,是時(shí)候‘去美國風(fēng)險(xiǎn)’”
-
“豁免是對中國實(shí)力的認(rèn)可,不豁免更是機(jī)會”
-
“離了中國貨,清涼一夏都難…”
-
“還跟我提投資?等美國穩(wěn)定了再說吧”
-
俄副外長:中國需要多少石油,俄羅斯就準(zhǔn)備供應(yīng)多少
-
英國反華議員赴香港探親被拒入境
-
石破茂對美發(fā)出“迄今最強(qiáng)烈警告”
-
美業(yè)界“喊疼”:請中方“收回成命”
-
關(guān)稅成本暴漲40多倍,美企CEO叫苦:這是末日
-
朝令夕改!“沒人知道特朗普五天后的規(guī)定是啥樣”
-