青青草a国产免费观看|91麻豆精品国产福利|国产av五无码一级毛片|亚洲爆乳精品无码一区二区|久久亚洲AV成人无码国产|91无码人妻一区二区三区|色婷婷av一区二区三区性色|国产制服91一区二区三区制服,女人书籍排行榜,盗墓笔记小说txt下载,玄幻小说排行榜完本

總編輯圈點|用AI生成數(shù)據(jù)訓練AI或導致模型崩潰,原始內(nèi)容9次迭代后成了“胡言亂語”

2024-07-25 19:47:49 來源: 科技日報 點擊數(shù):

科技日報記者?張夢然

《自然》24日正式發(fā)表的一篇研究論文指出了一個人工智能(AI)嚴重問題:用AI生成的數(shù)據(jù)集訓練未來幾代機器學習模型,可能會嚴重“污染”它們的輸出,這被稱為“模型崩潰”。研究顯示,原始內(nèi)容會在9次迭代以后,變成不相關的“胡言亂語”(演示中一個建筑文本最終變成了野兔的名字),這凸顯出使用可靠數(shù)據(jù)訓練AI模型的重要性。


研究模型測試。
圖源:《自然》

生成式AI工具越來越受歡迎,如大語言模型等,這類工具主要用人類生成的輸入進行訓練。不過,隨著這些AI模型在互聯(lián)網(wǎng)不斷壯大,計算機生成內(nèi)容可能會以遞歸循環(huán)的形式被用于訓練其他AI模型或其自身。

包括英國牛津大學在內(nèi)的聯(lián)合團隊一直在進行相關研究,并在去年論文預印本中提出這一概念。在正式發(fā)表的論文中,他們用數(shù)學模型演示了AI可能會出現(xiàn)的“模型崩潰”。他們證明了一個AI會忽略訓練數(shù)據(jù)中的某些輸出(如不太常見的文本),導致其只用一部分數(shù)據(jù)集來自我訓練。

團隊分析了AI模型會如何處理主要由AI生成的數(shù)據(jù)集。他們發(fā)現(xiàn),給模型輸入AI生成的數(shù)據(jù),會減弱今后幾代模型的學習能力,最終導致了“模型崩潰”。他們測試的幾乎所有遞歸訓練語言模型,都容易出現(xiàn)問題。比如,一個用中世紀建筑文本作為原始輸入的測試,到第9代的輸出已經(jīng)是一串野兔的名字。

團隊指出,用前幾代生成的數(shù)據(jù)集去訓練AI,崩潰是一個不可避免的結局。他們認為,必須對數(shù)據(jù)進行嚴格過濾。與此同時,這也意味著依賴人類生成內(nèi)容的AI模型,或許能訓練出更高效的AI模型。

總編輯圈點:

對AI來說,“模型崩潰”就像癌癥一樣,甚至分早期與晚期。在早期時,被“喂”了生成數(shù)據(jù)的AI會開始失去一些原始正確數(shù)據(jù);但在晚期,被“喂”了生成數(shù)據(jù)的AI會“口吐狂言”——給出完全不符合現(xiàn)實,也和底層數(shù)據(jù)一點不相關的結果,就像本文中的例子一樣。更可怕的是,“模型崩潰”的AI極其固執(zhí),錯誤幾乎難以矯正。它會持續(xù)強化,最終把錯誤結果認為是正確的。這一問題值得所有關注生成式AI的人們警惕,因為它等于是在“毒化”AI對真實世界的認知。

責任編輯:常麗君

抱歉,您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式,這會影響您正常瀏覽本網(wǎng)頁

您可以進行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標升級或更換您的瀏覽器

3.暫不升級,繼續(xù)瀏覽

繼續(xù)瀏覽
钟祥市| 滦平县| 肥西县| 博白县| 扶风县| 台安县| 静安区| 宿松县| 英山县| 宁津县| 赤峰市| 黔江区| 安吉县| 台安县| 长沙县| 长沙县| 赤壁市| 吉木萨尔县| 黑龙江省| 宜良县| 溧阳市| 宕昌县| 三河市| 贡山| 宝山区| 新田县| 襄汾县| 友谊县| 庄河市| 合江县| 靖边县| 富源县| 镇安县| 汶上县| 武川县| 阿拉尔市| 镇安县| 全州县| 定兴县| 丁青县| 临沭县|