https://www.quantamagazine.org/researchers-uncover-hidden-ingredients-behind-ai-creativity-20250630/

研究者指出,現今產生圖像的 AI 系統,如 DALL·E、Imagen 與 Stable Diffusion,原本只是設計來模仿訓練資料,但卻意外展現出一種似乎具有創意的成像能力。這些基於 diffusion 模型的系統利用「去噪」過程,先將圖像轉換成雜訊,再重組成為看似全新且具語意的影像,有如將一幅畫作反覆撕碎後再重新拼湊,正因這過程中固有的技術瑕疪,結果反而催生出創意。

研究團隊由史丹佛大學研究生 Mason Kamb 與物理學家 Surya Ganguli 合作,提出一套稱為「等變局部分數 (equivariant local score, ELS) 機器」的數學模型,用以解析並預測經過去噪後影像的組成。他們發現,diffusion 模型在處理圖像時只聚焦於局部像素區塊,而對整體結構缺乏全局觀察;此外,模型對輸入微小位移所產生的影像變化保持一致性(平移等變性),這兩個因素竟然共同造就了創意的誕生。

實驗中,ELS 機器能以約 90% 的準確率重現訓練過的 diffusion 模型輸出,證明這些創意並非偶然,而是演算法固有機制自發產生的結果。這項研究不僅顛覆了先前把 AI 僅視為單純記憶與複製工具的觀念,同時也啟示我們,人類創意或許也源自於在不完整資訊中自行拼湊與修正,進而產生出既新穎又有價值的作品。

社群中有討論指出,許多網友認為所謂的「幻覺」與「創意」現象,其實只是在不同情境下對模型輸出結果的不同評價。有使用者舉例,調整生成溫度可能使影像更具連貫性,而部分評論則批評 AI 宣傳用語過度誇大,以致誤認為模型具有自主意圖。另有人提到,雖然該研究顯示 diffusion 模型的創意來源於局部處理,但其他類型的 AI 系統(如大型語言模型)展現的創意機制可能截然不同,提醒人們在討論 AI 創意時,應全面考量不同技術架構間的差異。

https://news.ycombinator.com/item?id=44431873