這則影片是記者在一個部分免費的deepfake網站生成。首先,記者先上傳一段符合網站規格的自拍影片。接著,不到幾分鐘的時間,網站會生成一個虛擬人像。使用者可以選擇打字或是上傳語音的方式,請虛擬人像說出一樣的話。最後按下輸出按鈕,一段AI生成的語音就完成了。

生成出的人物動作,與說話時的臉部表情都能自然的呈現,只是腔調與部分咬字不符台灣口音。日前在網路上流傳的一段泰勒絲(Taylor Swift)講一口流利中文的影片,也是透過這個名為「heygen」網站製作而成的。

Deepfake 源自於英文「deep learning」(深度學習)和「fake」(偽造)組合。意指利用人工智慧深度學習的技術,將人或物件加疊在圖像、影片、甚至是聲音。目前比較常見的應用是將人臉替換成另一張臉,讓影片或圖片中的人物做出自己沒有說過或是做過的事。

不過 Deepfake跟以往的電腦合成又有哪些不同呢?

陽明交大資訊管理與財務金融學系副教授游家牧跟我們解釋了兩者的差異,「差別當然就是全自動化,其實完全人工也是可以做得到,但是耗費的人力其實非常的巨大。」

生成式AI是指靠著人工智慧來產出數據、圖像或是文本等等。以deepfake技術來說,它的模型屬於「對抗式網絡」,所謂對抗式網路意思是會有一個學習模型、跟一個鑑別模型。

我們可以試著把這兩者想像成選手跟裁判的關係,選手負責產出數據,再由裁判去判別真假。

但裁判要怎麼去判別真假?這就要靠研究員餵食它正確的答案,由他自己產生出對真假判定的邏輯。至於選手,也會再一次又一次提交數據的過程中,修正出更符合裁判口味的結果。

為了測試AI生成的結果,記者用生成出來的語音,成功開啟了Siri。同時,記者更近一步利用仿記者的語音,與同事通話,也成功欺瞞到同事。

實測結果發現,聲音方面,雖然可以做到極度真實,但影像上,如果要做到即時的影像,還是需要一些設備門檻。

現在中國直播主為了增加帶貨力,甚至延伸出一項新興產業,就是幫直播主做AI換臉直播的服務。這樣的即時換臉功能,甚至成為詐騙集團的詐騙手法之一。

有什麼工具可辨別真偽?

游家牧與學生共同開發偵測軟體。他解釋偵測原理,「偵測的模型對每一幀都會有信心測試,在這一秒它可能會認為是真的,下一秒可能會認為是假的。」最後,從整部影片真假所佔的比例判斷出影片的真實性。

但是AI又要怎麼判斷真假?游家牧進一步解釋,「偵測模型先被餵食,由不同方法所做出來的deepfake影片,研究員再告訴它幾個可能是假影片的特性,比方說假影片會有前後不一致的情況。就有可能被拿來訓練辨認影片是不是由AI製成的。」

除了靠AI偵測之外,一般民眾要怎麼用肉眼辨別真假?游家牧給了我們幾個辨識的方法。

以臉部面容來說,要看瞳孔是不是圓的、牙齒有沒有模糊?若身上有配戴物件的話,像是眼鏡、項鍊、耳環等等,兩邊有沒有對稱,或顏色一不一致,臉的側邊有沒有奇怪的陰影,手指有沒有少或多?

若是視訊的話,調查局在宣導影片中,也提到請對方在他的臉前面揮動一下手,如果手指會突然消失,也是目前deepfake的缺陷之一

但是,畢竟deepfake是靠著深度學習,持續改善生成結果。有些剛剛提到的瑕疵,在部分的假影片中也被克服了。

「因為Deepfake製造的方法日新月異,比如,AI偵測模型看大量的ABC三個方法的deepfake影片,但未來如果是用XYZ這三種方法,原本的AI偵測模型就可以沒有辦法做出辦認了。」游家牧說。

儘管如此,我們還有哪些方法可以辦認?台灣事實查核中心建議可以用國外開發的免費偵測軟體「DeepWare」。

為了防止有心人士的不當運用, Google日前也宣布推出新工具「SynthID 」,為圖像加上肉眼看不見,但電腦可辨識的數位浮水印。

台灣方面,數位發展部也在研擬AI認證標章,未來廠商可以把ai產品送至數發部檢驗是否有符合10項認證,確保AI生成的內容對社會無害。

以現在的deepfake技術來說,一個沒有相關技術背景的人,就可以在短短時間內,做出一個真實度相當高的影片,而且只要你願意再花一點預算,就能再提高影片的流暢度。

而聲音的部分,更難辨識真假。針對聲音,有沒有什麼破解方法?專家表示,目前除了商用鑑識軟體,民眾只能靠著對本人的認識,做出判斷。