第515章 拖下水
兩家公司在不斷猜測出現邏輯錯誤的原因。
蘇茨克維予以了證實。
7月底,蘇茨克維在鵝廠官方新聞網站,從學術探討角度,對gemini和openAi當前的遭遇,提出了一個關鍵詞:“模型崩潰”。
他對模型崩潰進行了定義:
“在訓練新的神經網絡Ai時,使用大語言模型生成的內容作為訓練數據集,會導致訓練出的模型出現不可逆轉的缺陷。”
“即便模型最初的基礎架構、原始數據來自於真實人類世界的數據。”
他對模型崩潰進行了階段分析:
“模型崩潰是一個真實存在的問題。它分為早期和晚期。”
“早期,被餵養生成數據的Ai模型,會失去原始數據分佈的信息,基礎架構將不再真實。”
“晚期,Ai模型會生成完全不符合現實、邏輯完全混亂的結果。”
“處於崩潰中的模型將非常頑固,錯誤會千篇一律、難以糾正,並將錯誤結果視為正確結果。”
怎麼解決?
蘇茨克維給出了真實又令人絕望的答案:重建模型、重啟訓練、重新迭代。
“wechatgpt曾經遭遇過同樣的問題,然後我們重建了模型,並避免用生成數據來餵養模型,選用人類真實數據來訓練。”
蘇茨克維還給出了善意的建議:
“人類社會數字圖書館、新聞媒體網站的歷史數據,以及社區論壇的真實交流等等都是不錯的選擇。”
於是,蘇茨克維這篇文章被廣泛傳播,被視為人工智能模型“崩潰”問題的指導性觀點。
畢竟他是人工智能“模型崩潰”的親歷者,又重建了模型,不斷迭代,直至領導全球。
在沒有更好的選擇之前,只能將他的意見作為唯一的參考建議。
新聞集團、紐約時報、時代雜誌、福克斯、Cnn、CBs……等新聞媒體的股價暴漲。
儲存有古舊文本和圖像數據的小型個人網站,其創立者也將價格從數千美元、1萬美元提高到了數百萬美元。
紐約時報更是面向人工智能公司開出了天價數據訂閱費用:5000萬美元/年。
之前的訂閱費用為100萬美元-200萬美元。
漲價是必然,而且有理有據。
按照蘇茨克維文章分析,人類世界的真實數據是Ai模型的維生素和必需品。