A股港股

字節跳動推出 OmniHuman-1：僅憑一張照片即可生成逼真影片

鉅亨網新聞中心2025-02-06 19:20

字節跳動 (TikTok 的母公司) 近日推出了一款名為 OmniHuman-1 的人工智慧系統，該系統能夠僅憑一張照片生成栩栩如生的影片，影片中的人物可以說話、做手勢、唱歌、演奏樂器等等。這項技術引起了廣泛關注，並在人工智慧領域引發了關於其潛在用途和風險的討論。

據研究論文指出，OmniHuman 在生成逼真人物影片方面的表現顯著優於現有方法，尤其是在音訊輸入等「微弱訊號」的基礎上。該系統支援任何長寬比的圖像輸入，無論是肖像、半身或全身圖像，都能產生更逼真、更高品質的效果。

‌

OmniHuman-1 的專案頁面展示了該工具的各種功能，包括：從多個角度呈現的手部和身體動作、動畫角色、動物及歷史人物的重現。

根據展示，在一段黑白影片中，愛因斯坦在黑板前發表演講，用手勢和微妙的面部表情強調他的話語。這段影片讓人們彷彿回到了過去，觀看這位著名的理論物理學家進行大學講座，但影片的畫質卻如同今日拍攝。

南加州大學安納伯格傳播與新聞學院的臨床副教授 Freddy Tran Nager 在觀看了範例影片後表示：「它們非常令人印象深刻。」他認為，如果想讓 Humphrey Bogart 復活並讓他出演電影，目前可能還無法達到理想效果，但在小螢幕 (尤其是在手機上) 上觀看這些影片，效果已經非常出色。

潛在用途與風險

OmniHuman 的出現，使字節跳動在創建最逼真的人工智慧生成影片的競賽中佔據了一席之地。這些數位人物正越來越多地出現在各個領域，例如：推廣產品的虛擬網紅、協助公民使用社會服務的政府官員、娛樂和與粉絲互動的名人虛擬版本等。

Nager 認為，OmniHuman 這樣的系統可用於教育領域，無論是教師還是學生。他甚至開玩笑說：「我想讓瑪麗蓮夢露教我統計學。」

由於 OmniHuman 與 TikTok 的關聯，Nager 預測，它最終可能會被那些筋疲力盡的內容創作者使用，讓虛擬版本的自己來代替他們工作。

紐約大學斯坦哈特文化、教育與人類發展學院的兼任教授兼新興技術行銷顧問公司 PitchFWD 的創辧人 Samantha G. Wolfe 認為，OmniHuman 既有希望，也潛藏著危險。她表示：「僅僅根據一張照片就能創造出看似真實的說話和移動效果，從技術角度來看非常吸引人，但也可能產生許多潛在的負面影響。」她警告說，商業領袖或政治領袖的虛假版本可能會對企業或國家產生巨大的影響。

隨著人工智慧生成影片變得越來越複雜，風險也在增加。Wolfe 強調：「當它開始越來越像現實，越來越像真人實際行動時，人們相信它的可能性就會大大提高。」