第469章驗證

 

模型崩潰:是指用大語言模型的生成數據,重複訓練大語言模型，會導致訓練出的模型,出現不可逆轉的缺陷。

即使，模型最初的基礎架構原始數據,來自真實人類世界的數據。

形象比喻，就是近親繁殖。

再形象比喻，就是1080p→720p→Bd-r→dvp→dvdscr→tC-ts。

大多數同志們,肯定有切膚之痛、深切體會。

看片肯定1080p最爽，最不爽就是ts格式。

模型崩潰就是從原始的1080p格式退化成ts電影。

讓人幾乎沒有任何觀影的興致。

即便它可能帶有原始情節、充斥原始慾望、飽含原始衝動。

李飛、辛頓、蘇茨克維、克里切夫斯基四人都是專業人士，一聽就懂。

“這非常有可能！”

“maybe！”

“我應該理解了。”蘇茨克維恍然大悟：

“就像通常以jpeg格式反覆存儲圖像，每一次存儲就會丟失部分信息，直至完全失真，最終崩潰。”

“對，我們都忽略了這一點。”辛頓說：

“目前，全球各大公司都在深度研究與大預言模型……”

“互聯網上已經有不少語言模型的生成數據。”

“而我們通過自動抓取這些內容來訓練模型，很可能會強化原本就錯誤的結論……”

“語言模型一旦被這種錯誤結論固化，就非常頑固，很難糾正。”

“我可以這樣理解，用語言模型創作周杰輪的歌曲，得到的是一首風格相似但才情缺失的口水歌……”李飛說：

“而如果再用這首歌來訓練模型，得到的下一首很可能既無才情，又不會有風格，四不像。”

周杰輪是誰？

辛頓、蘇茨克維和克里切夫斯基不懂。

“可以理解為泰勒斯威夫特。”李飛替換了一個名字。

辛頓、蘇茨克維和克里切夫斯基懂了。

“我也是這麼理解的，語言模型可以產生意識，那麼也應該會有碳基生命類似的問題。”常樂說。

“老闆，這簡直就是天才判斷。”克里切夫斯基非常認同：

“就像朊病毒一樣，致死率100%，這是刻在人類基因上的禁令。”

“我們可以用實驗來支撐這個判斷。”蘇茨克維說。

怎麼實驗？

用wechatgpt最初的版本進行文本生成實驗。

先用第一代生成數據餵養wechatgpt1.0；

再用wechatgpt1.0生成的數據重複餵養。

恩，自己拉、自己吃；

自己吃完、再拉、再吃；

噁心不死你。

好。

大體方向和驗證思路確定，接下來就是實踐。

“老闆，您今天來原本是有事嗎？”李飛問。

“對，找幾個懂手機和系統的研發人員，幫我看看這部手機，有沒有隱藏的App或者可執行文件。”常樂說。

第469章 驗證