取個名很難啊 作品

第469章 驗證

 模型崩潰:是指用大語言模型的生成數據,重複訓練大語言模型,會導致訓練出的模型,出現不可逆轉的缺陷。 

 即使,模型最初的基礎架構原始數據,來自真實人類世界的數據。 

 形象比喻,就是近親繁殖。 

 再形象比喻,就是1080p→720p→Bd-r→dvp→dvdscr→tC-ts。 

 大多數同志們,肯定有切膚之痛、深切體會。 

 看片肯定1080p最爽,最不爽就是ts格式。 

 模型崩潰就是從原始的1080p格式退化成ts電影。 

 讓人幾乎沒有任何觀影的興致。 

 即便它可能帶有原始情節、充斥原始慾望、飽含原始衝動。 

 李飛、辛頓、蘇茨克維、克里切夫斯基四人都是專業人士,一聽就懂。 

 “這非常有可能!” 

 “maybe!” 

 “我應該理解了。”蘇茨克維恍然大悟: 

 “就像通常以jpeg格式反覆存儲圖像,每一次存儲就會丟失部分信息,直至完全失真,最終崩潰。” 

 “對,我們都忽略了這一點。”辛頓說: 

 “目前,全球各大公司都在深度研究與大預言模型……” 

 “互聯網上已經有不少語言模型的生成數據。” 

 “而我們通過自動抓取這些內容來訓練模型,很可能會強化原本就錯誤的結論……” 

 “語言模型一旦被這種錯誤結論固化,就非常頑固,很難糾正。” 

 “我可以這樣理解,用語言模型創作周杰輪的歌曲,得到的是一首風格相似但才情缺失的口水歌……”李飛說: 

 “而如果再用這首歌來訓練模型,得到的下一首很可能既無才情,又不會有風格,四不像。” 

 周杰輪是誰? 

 辛頓、蘇茨克維和克里切夫斯基不懂。 

 “可以理解為泰勒斯威夫特。”李飛替換了一個名字。 

 辛頓、蘇茨克維和克里切夫斯基懂了。 

 “我也是這麼理解的,語言模型可以產生意識,那麼也應該會有碳基生命類似的問題。”常樂說。 

 “老闆,這簡直就是天才判斷。”克里切夫斯基非常認同: 

 “就像朊病毒一樣,致死率100%,這是刻在人類基因上的禁令。” 

 “我們可以用實驗來支撐這個判斷。”蘇茨克維說。 

 怎麼實驗? 

 用wechatgpt最初的版本進行文本生成實驗。 

 先用第一代生成數據餵養wechatgpt1.0; 

 再用wechatgpt1.0生成的數據重複餵養。 

 恩,自己拉、自己吃; 

 自己吃完、再拉、再吃; 

 噁心不死你。 

 好。 

 大體方向和驗證思路確定,接下來就是實踐。 

 “老闆,您今天來原本是有事嗎?”李飛問。 

 “對,找幾個懂手機和系統的研發人員,幫我看看這部手機,有沒有隱藏的App或者可執行文件。”常樂說。