在頁面輸入問題,幾秒後就獲得解答,近期在社群網路討論聲量極高的ChatGPT你也體驗過了嗎?這款由Open AI所開發的聊天機器人,不僅能夠以文字和人類對答如流,回答也相當完整,與ChatGPT充滿「人味」的對話體驗令不少使用者大感驚艷,在全球造成廣大迴響。

今(15)日OpenAI進一步推出 GPT-4 語言模型,比ChatGPT原本依據的 GPT-3.5 模型還要更聰明,不僅訓練資料更加龐大,還可以看圖回答問題和寫網頁,實用性與精準度大幅提升。

AI如何能夠「聽得懂」人話,它是怎麼被訓練的? ChatGPT 提供的答案是否一定正確?這樣的新科技又可能引發哪些爭議?跟著P#新聞實驗室一起來了解。

ChatGPT是一款由美國人工智慧研究實驗室OpenAI所開發的聊天機器人。(圖/公視新聞網)
ChatGPT是一款由美國人工智慧研究實驗室OpenAI所開發的聊天機器人。(圖/公視新聞網)

什麼是生成式AI?可以運用在哪裡?

不只是 ChatGPT ,自2022年下半年開始生成式AI蔚為風潮,一時之間AI生成的圖像、和聊天機器人對話的內容開始在社群媒體上瘋傳。

2022年8月,一款圖像生成AI軟體Midjourney曾經造成轟動,因為它所輔助生成的畫作《太空歌劇院》打敗人類畫家,在一場數位藝術競賽中奪冠。當時許多藝術家提出批評,認為AI工具所生成的圖像不能當作藝術作品來參賽,質疑這是一種作弊;作者Jason Allen則主張Midjourney只是他的創作工具之一,並且在報名時已充分揭露自己使用的工具。評審最終認定Allen的創作方式沒有問題。

事實上,AI工具在生活當中無所不在。不論是常見的語音助理Siri、停車場入口的車牌辨識,都是日常生活中會使用到的AI科技。台大資工系陳縕儂教授解釋,發展人工智慧的目的,在於訓練機器去模仿人類的感知行為,包含辨識文字與聲音等等,並且進一步生成有用的資訊。

過去發展較為成熟的是辨識型AI,例如常見的車牌辨識、人臉辨識等等;生成式AI則是相對困難的領域,因為不僅需要訓練機器辨識內容,還必須產生全新的資訊,目前常見應用在繪畫與文字內容,像是近期爆紅的ChatGPT就是一種文字生成AI。

使用AI軟體Midjourney生成的圖片。(圖/Midjourney)
使用AI軟體Midjourney生成的圖片。(圖/Midjourney)

AI可以怎麼訓練?什麼是機器學習?

陳縕儂指出,目前AI常見以機器學習(Machine Learning)的方式來進行訓練,過程中會蒐集大量資料進行人工標註,再讓機器進行辨識,藉此模擬人類的感知行為。AI透過機器學習的方式訓練成熟之後,不必藉由大量的人工標註,也能夠辨識得相當準確。

舉例而言,讓AI辨識語音生成文字的技術,就是搜集大量的聲音資料,由人工標註不同的語音對應的特定文字,再將標註過的資料提供機器進行訓練。陳縕儂進一步解釋,使用機器學習訓練的AI,訓練方式大同小異,最大的差別在於如何進行資料蒐集。

以ChatGPT為例,其訓練資料量高達45TB,這是使得ChatGPT功能強大的主因。不過OpenAI未有揭露如何蒐集資料,目前僅得知部分文本資料是透過抓取發表於社群媒體Reddit的文章,這或許是導致ChatGPT的對話方式能夠相當口語的因素之一。

ChatGPT是怎麼訓練的?

根據 OpenAI 公開的資訊,ChatGPT是基於GPT-3.5的模型再做延伸,透過人類反饋強化學習(RLHF) 來進行訓練的。

ChatGPT的全名為(Chat Generative Pre-trained Transformer),其中GPT是一種語言模型的名稱,中文全名則為「生成式預訓練變換模型」,而預訓練是指以預先抓取的大量資料來進行訓練。ChatGPT所使用的GPT-3.5模型,便是以2021年以前的文本資料來進行學習,因此針對超過時間範圍的問題,回答就不一定準確。

陳縕儂進一步解釋,強化學習是機器學習的一個分支,所謂「人類反饋強化學習」簡單理解就是人類與機器互相提問與回答,透過人類的干預,反覆訓練機器與優化回應。

OpenAI指出,GPT-3.5模型有3個訓練階段,第一步驟透過人類來針對不同問題提供回應,並將這些資料用以訓練機器;第二步驟在機器生成回應之後,透過人類標註這些回應的優劣;第三個步驟則是引入強化學習,透過前兩步驟的模型不斷反覆生成與優化回應,最終讓GPT的回答能夠越來越好,生成出更接近人類偏好的回應。

此外,陳縕儂也解釋,GPT-3.5的生成邏輯類似文字接龍,透過大量文本資料,來訓練機器理解什麼樣的文字組合是通順合理的。也因此在使用ChatGPT的過程當中,偶爾有答非所問的情形發生,「它不一定每次都能提供正確答案,有時候它覺得這樣接下去很通順,就會這樣回答你。」

ChatGPT的訓練過程。(圖/OpenAI)
ChatGPT的訓練過程。(圖/OpenAI)

ChatGPT 可能有什麼爭議?

陳縕儂指出,ChatGPT產生的內容錯誤有兩種狀況,一是超過訓練資料範圍,二是單純就語言接龍的邏輯生成答案,因此可能答非所問。

這樣的情況也揭露ChatGPT所產生的資訊可能帶來的風險,包括產生假新聞或假訊息,因此使用者仍得保有一定的媒體視讀與辨別能力,而非盡信ChatGPT的回答。

此外,AI偏誤也是過去經常討論到的議題。由於AI產生的回應來自於訓練資料,因此資料的篩選若有特定立場,或者資訊不完整,很可能會導致AI產生偏誤的訊息。也因此在ChatGPT造成轟動後,有不少國家開始著手研發自己的ChatGPT,以避免特定政治立場的生成內容。

而近來AI訓練資料的版權也成為爭議,例如AI繪圖生成軟體就被藝術家指控,擅自使用他們的智慧財產來訓練機器;並陸續有校園基於學術倫理問題,禁止學生使用ChatGPT來寫作業,以避免資料來源不明或有抄襲的疑慮。

面對AI時代來臨,有不少人感覺到威脅性,擔心特定職業遭到取代,且濫用AI工具也可能造成負面效應。不過陳縕儂直言,AI工具的研發目的就是讓人類的生活更加便利,並且提升生產效率,人類的創造性仍難以被機器取代,因此鼓勵正面看待AI科技的演進與發展。