參考消息網6月11日報道 據澳大利亞“對話”網站6月7日刊登了一篇題為《人工智能真的人工發明了自身“秘密語言”嗎?》的文章,主要內容編譯如下: 新一代人工智能模型可以在文本提示的智能造自基礎上,按照需求制作出“創造性”圖像。人工諸如Imagen、智能造自MidJourney和DALL-E 2等圖像生成系統正在開始改變創作內容對版權和知識產權的人工影響方式。 雖然這些模型的智能造自輸出往往令人震驚,但是人工現在還難以確定它們究竟是如何產生結果的。上周,智能造自美國研究人員令人饒有興趣地宣稱:DALL-E 2模型或許發明了自身的人工秘密語言。 通過提示DALL-E 2系統創作包含文本字幕的智能造自圖像,然后再將由此產生的人工字幕gibberish(令人費解的胡話)輸回系統,研究人員發現:DALL-E 2認為“Vicootes”的智能造自意思是“蔬菜”,而“Wa ch zod rea”則是人工指“鯨可能會吃的海洋動物”。 ![]() 這些說法令人著迷,智能造自如果屬實,人工可能對這種大型人工智能模型產生重要的安全與解讀能力影響。那么,真相到底如何呢? 擁有秘密語言? DALL-E 2可能并無“秘密語言”?;蛟S比較準確的說法是,它擁有自己的詞匯,但是即便如此,我們也沒把握。 首先,這個階段,很難證明有關DALL-E 2及其他大型人工智能模型的任何說法,因為只有少數研究人員和創意從業者接觸它們。 公開分享的任何圖像都應打個折扣,因為它們是由人從人工智能創作的很多圖像中“篩選出來的”。 即使是那些接觸這些系統的人,也只能有限使用這些模型。比如,DALL-E 2用戶可以制作或修改圖像,但是(迄今)不能更深入地與人工智能系統互動,比如修改幕后代碼。 這意味著不能用“可解釋的人工智能”的方法理解這些系統的工作原理,而系統性地研究其行為也非常困難。 一種可能是,“令人費解的胡話”短語與來自非英語的詞語有關。比如“Apoploe”,類似于拉丁語“Apodidae”(雨燕科)一詞,似乎以Apoploe作提示創作出來的圖像都是鳥類。 這似乎是一種合理的解釋。比如,DALL-E 2接受大量基于互聯網搜索而來的數據的訓練,包括很多非英語詞語。 類似情況以前也發生過:由于機緣巧合,大型自然語言人工智能模型在沒有接受刻意培訓的前提下學會了編寫計算機代碼。 真相撲朔迷離 支持這種理論的一個論點就是如下事實:人工智能語言模型與你我解讀文本方式并不相同。相反,它們將輸入文本打碎成“令牌”,然后再進行處理。 不同的“令牌化”方法會產生不同的結果。把每個詞當作一個令牌,似乎是一種直覺的方法,但是當相同的令牌有不同的意思時(比如“match”一詞,當打網球時以及點火時,就有不同的意思),就會引起麻煩。 另一方面,把每一個字母當作一個令牌,所產生的可能的令牌數量較少,但是每個令牌傳遞的信息含義都要小得多。 DALL-E 2(及其他模型)使用一種中間方法,稱做字節對編碼(BPE)。檢查某些令人費解的胡話的字節對編碼表征可以發現,這可能是理解這種“秘密語言”的重要因素。 這種“秘密語言”也可能只是“垃圾進,垃圾出”原則的一個例子。DALL-E 2不會說“我不知道你在說什么”,因此它總是通過給定的輸入文本,產生某種圖像。 不管怎樣,這些選項都不是完整的解釋。比如,從令人費解的胡話中去掉個別字母,似乎會以非常具體的方式破壞已產生的圖像。而且,將單個胡話詞語組合起來,并不一定產生合乎邏輯的復合圖像(如果確實存在秘密“語言”,那是可以的)。 正視現有擔憂 除了求知欲,你或許在思考這是否真的重要。 答案是,是的。DALL-E的“秘密語言”是機器學習系統“對抗攻擊”的一個例子:一種通過故意選擇人工智能無法正確處理的數據輸入,打破系統的故意行為。 對抗攻擊擔心的一個原因是:它們挑戰我們對這個模型的信心。如果人工智能以意外方式解讀胡言亂語,那么它或許也會以意外方式解讀有意義的詞。 對抗攻擊也提出了安全關切。DALL-E 2對輸入文本進行過濾,防止用戶產生有害或侵權內容,但是令人費解的胡話“秘密語言”可能會讓用戶規避這些過濾。 近期研究發現:某些語言人工智能模型的對抗“觸發短語”——簡短的廢話,可能觸發模型涌出種族主義、有害或帶有偏見的內容。這項研究也是目前正在開展的調研活動,以便理解和控制復雜的深度學習系統如何通過數據進行學習。 最后,DALL-E 2“秘密語言”這種現象引起了解讀能力擔憂。我們希望這些模型按照人類的預期那樣表現,但是看到胡言亂語的結構化輸出令我們的預期受挫。 你或許還記得2017年關于臉書網站一些“發明了自身語言的”聊天機器人的喧囂爭論?,F在局面有點類似:結果令人擔憂,但不是那種“‘天網’即將取代世界”式的擔憂。 相反,DALL-E 2的“秘密語言”突出了目前對于深度學習系統的穩健性、安全以及解讀能力的擔憂。 在這些系統較廣泛地應用之前,特別是,在來自非英語文化背景的廣泛用戶能夠應用它們之前,我們確實無法真正了解到底在發生什么。 |