
政策思考/科企有責任確保 人工智能系統數據安全\鍾麗玲
Ta Kung Pao
人工智能(AI),特別是生成式AI驅動的聊天機械人的崛起,例如OpenAI的ChatGPT、谷歌的Bard、微軟的Bing Chat、百度的文心一言和阿里巴巴的通義千問,已在不同司法管轄區和各行各業引起了震盪。
雖然很多人視這科技突破為人類的福音,但人工智能的使用所帶來的私隱及道德問題同時引起各界關注。最近,全球超過二萬人,當中包括科技專家,聯署了一封公開信,呼籲所有人工智能實驗室六個月內暫停訓練相比GPT-4更強大的生成式AI系統,並在這期間共同制定和實施一套安全守則。
何謂「生成式AI」?「生成式AI」(Generative AI)通常指可以用於創造新內容(包括語音、代碼、圖像、文字或影片)的演算法。與早期聚焦於自動化或主要透過分析大數據作出決策的人工智能不同,生成式AI的「神奇」之處在於可以秒速回應用戶的請求和問題,並根據所給予的提示,像人類般提供看來理性、完整及令人信服的回應,這使它成為人工智能發展史上的一個里程碑。
然而,有「機」亦有「危」。聊天機械人的運作建基於「深度」學習技術,當中涉及使用大量的原始資料或數據作為訓練數據,而這些資料或數據可以包括敏感的個人資料,可以是由用戶所提供的,或是由互聯網收集及複製的。
試想想,若你的朋友在你完全不知情、遑論同意的情況下,將你的姓名、職位、住址、身份證號碼,甚至信用卡號碼提供予聊天機械人作為對話的一部分,視乎有關程式的演算法,這些個人資料便可能會被儲存到機械人的資料庫中,並可能成為它回答下一個用戶的材料!
從以上的例子可以看到,由於用戶的對話可能被用作訓練人工智能模型的新訓練數據,若是用戶不經意地向人工智能系統提供了敏感的資料,那麼他們的個人資料便可能會被濫用,超出用戶提供他們個人資料的原本目的。若是如此使用個人資料的話,又是否有依從限制資料使用於原本目的的原則呢?若是相關的資料收集過程透明度不足,又是否會出現在用戶不知情及不公平的情況下收集個人資料,從而構成私隱風險呢?除卻資料的性質及收集過程外,還有其他同樣複雜的問題有待考慮及處理,包括資料擁有人可如何行使他們查閱及改正資料的權利、如何保護兒童私隱、在開發及使用生成式AI的過程中如何減少不準確的資料、具歧視性或偏見的內容,以及資料安全的風險。