讓AI不學壞國科會攜手學者推AI「概念抹除」模型切斷暴力與侵權

2025年10月29日 17:06 - 優分析產業數據中心

圖片來源：由鉅亨網提供

生成式 AI 的發明，能讓 AI 自動生成文字及影片，為避免生成式 AI 帶來侵權、濫用與倫理等挑戰，在國科會補助支持下，台大電機系王鈺強教授團隊，推出面向生成式模型的「概念抹除」技術 - Receler。國科會今 (29) 日表示，Receler 可在不重新訓練 AI 生成式模型的前提下，精準切斷模型對特定高風險概念聯想，避免血腥暴力、深偽換臉等犯罪，讓 AI「不學壞」。

國科會表示，該研究成果在去 (2024) 年底發表於歐洲計算機視覺國際研討會 (ECCV)，此會議是國際計算機視覺領域三大頂尖會議之一，近一年來此成果在 Google Scholar 上引用次數快速增加，已引起國際 AI 學術界的高度關注與認可。

據了解，生成式 AI 雖方便，但 ChatGPT 可用來生成吉卜力風格繪圖，此舉恐侵犯藝術家版權; 或利用 AI「Deepfake」深偽技術，把明星、政治人物換臉，從而產生詐騙或色情影像，外界擔憂 AI 恐被濫用生成血腥暴力內容等，皆帶來種種問題。

國科會表示，當 AI 模型使用 Receler 技術時，除了避免「暴力」、「裸露」或｢特定藝術風格｣等概念，相比原始模型，更能避免生成裸露、特定藝術繪畫風格以及特定物品等，有助 AI 未來正向發展，當輸入相關的直白或隱喻指令時，模型上將不會輸出上述概念的圖片，使 AI「不學壞」，更同時不會犧牲 AI 模型的多樣性與細節品質。

國科會指出，在 Receler 協助平台下，讓教育單位、品牌與政府部門，維持 AI 應用性的同時，也建立可被信任、被審核，也可持續演進的生成式 AI 的安全創作環境。目前 AI 安全為核心課題，未來國家科研資源將持續投入，推動學研發展與模型強健，同時確保可解釋性、隱私保護，並降低潛在危害，落實以人為本的 AI 應用。

※ 本文經「鉅亨網」授權轉載，原文出處

這篇文章對你來說實用嗎？