AI繪畫還在吵架,米哈遊、網易入場的AI配音已經開始掙錢了

導語

老瓜新吃

近日,進入飛速發展階段的AI可謂是科技行業新晉“當紅炸子雞”,稍微一點風吹雨動,就能輕鬆登上熱搜榜單。但是我們今天要聊的,不是人們熱議的ChatGPT和AI繪圖,而是早已以更加成熟的姿態進入商業市場的AI配音。

儘管在短視訊平臺上,影視解說賬號開頭的吟唱魔音罐耳,深入人心,但AI能說的,早已不止“注意看,這個女孩叫小美……”

尤其是在遊戲市場,AI配音已經得到了相當不錯的玩家反饋。昨天(3月20日),網易旗下的乙女遊戲《時空中的繪旅人》就釋出微博表示,遊戲角色葉瑄採用的AI新聲音模型得到了更多玩家的好評,遊戲內問卷調查結果顯示,新配音實裝後的使用者評價均高於早期AI配音(2022年與卿書版本)。

01

聲優塌房,AI救場

聊到乙女遊戲使用AI配音,我們就不得不提前幾天剛上熱搜的配音圈大佬姜廣濤對此做出的“貢獻”。

姜廣濤這個名字你可能沒聽說過,但是他的聲音你一定不會陌生。經典影視劇《小魚兒與花無缺》裡面的花無缺、《泰坦尼克號》中的Jack、《宮鎖心玉》裡的八阿哥,用的都是他的配音。在遊戲領域,他配過的角色有《時空中的繪旅人》中的葉瑄、《未定事件簿》中的莫弈、《花亦山心之月》的玉澤、《陰陽師》帝釋天(CG)、《仙劍奇俠傳五》姜雲凡和《奇蹟暖暖》鍾離梓等等。

去年7月,網上出現爆料稱姜廣濤被警方帶走,隨即姜廣濤旗下工作室光合積木發表宣告,說是因為商業糾紛正在配合調查。線上下活動取消、配音專案停更的同時,有“知情人”出面爆料,姜被帶走的真實原因是因為以職務之便騙錢,藏賬目,藏公章,藏營業執照,涉及了刑事犯罪。不久後,網友查到反饋回覆資訊是職務侵佔2000萬元,再次證實了這一訊息。

瓜還沒吃完,網易的《時空中的繪旅人》和米哈遊《未定事件簿》就前後腳宣佈,遊戲中姜廣濤配音的角色,後續將更換為AI配音。

而這次AI的出場,也著實讓人驚豔了一把。

我們從視訊下方的評論風向也不難看出,實裝的AI配音效果超出了大多數玩家的預期。儘管AI的聲音還不“完美”,但是其表現“一點也不AI”,相對自然的聲音效果和永遠不會塌房的優勢讓不少玩家直呼“太牛了”!

當然,還是有少部分玩家不太能接受AI,認為某些語句的語調、氣息和情感仍能聽出瑕疵,也有玩家認為沒有人類聲音情感支撐的純紙片人,就等於失去了靈魂。

但整體來看,大多數玩家對於剛進入遊戲的AI配音仍抱以相對寬容的態度。

3月17日,吼浪工作室釋出通告表示,姜廣濤等人因實施重大侵害,涉嫌刑事犯罪被公安和檢察機關處理。官方發聲後,姜廣濤事件的性質終於有了最終定論,而已經上線了半年多的AI配音,也已有了顯著的進步。

3月20日,《時空中的繪旅人》官博發文,表示2023年2月遊戲內的問卷調查結果顯示,葉瑄新聲音模型實裝後的使用者評價均高於早期AI配音,未來遊戲官方計劃逐漸迭代並替換掉初代技術方案的配音內容。

至此,AI配音在遊戲市場的首輪嘗試已經取得了喜聞樂見的成果。

02

AI聲音背後的技術支援

AI配音效果迭代的背後當然是技術的發展。而站在《未定事件簿》莫弈和《時空中的繪旅人》葉瑄的AI聲帶背後,提供主要技術支援的,分別是逆熵科技和網易互娛AI Lab。

早在2019年,大偉哥就曾在上海交大的一次演講中分享過,逆熵AI的目標是通過深度學習某一個聲優的音色和情感,做到輸入文字自動得到該聲優的配音結果。以避免檔期不足等情況,還能將該聲音塑造成IP,永久保留,甚至出售聲音版權。

或是這一想法的推動,組建於2018年的逆熵研究部門,在2020年正式升級為主攻DeepLearning等AI技術的逆熵科技。

在工作室正式成立後,逆熵AI很快就開始了炫技。2021年2月,米哈遊旗下的虛擬偶像@yoyo鹿鳴_Lumi(下稱鹿鳴)釋出了一則名為“想聽我講野豬公主的故事嗎?”的視訊,簡介中明確標註聲音由逆熵AI生成。

這次成果展示驚呆了不少觀眾,原來AI的聲音已經發展到了遠超“Hi,Siri”的程度。斷句流暢自然、語氣活潑、難辨AI痕跡的聽覺效果,讓粉絲們狂喜:老婆終於有聲音了!黑科技賽高!

2022年7月,鹿鳴在B站開啟首次直播。時長半小時的直播吸引了超66萬使用者觀看,收穫了322位艦長(摺合收入約6萬多元)。在直播結束後,該直播錄屏播放量突破了200萬次,鹿鳴的B站關注人數也很快超過了150萬。而在此次直播內容中,獲得粉絲們最多討論的除了精細的動作與畫面外,還有明確標註由“逆熵AI生成”的聲音。

在直播結束的兩個月後,受姜廣濤事件影響,《未定事件簿》正式宣佈將為莫弈裝上AI聲帶,積累的數年時間的逆熵AI配音能力,終於正式進入遊戲應用階段的探索。

網易對於AI語音的技術探索也開始得很早。2017年,專攻計算機視覺、自然語言處理、語音訊號處理、遊戲AI等技術的網易AI Lab成立。

2020年,網易AI Lab在全球最大的語音會議INTERSPEECH上,拿到了與文字相關聲紋識別賽道的雙料大獎,展示了網易 AI Lab 在在聲紋識別技術探索上的領先成果。

但在早期階段,網易 AI Lab 的聲紋識別技術似乎並未進入配音場景,而是主要被應用於身份驗證、針對音色對玩家進行分類等場景。

甚至在2021年,與《羊城晚報》合作推出廣東媒體首個視訊類AI合成主播“羊小晚”和“羊小派”的時候,網易AI Lab的語音識別技術,也僅被用於與實現與語音適配的脣動效果,其中的配音部分,則採用了科大訊飛的語音合成技術。

據《羊城晚報》報道,該AI主播系統只需輸入文字或音訊,即可在幾分鐘內快速生成AI合成主播的新聞播報視訊。從最終呈現效果來看,科大訊飛的語音合成技術,在當時已基本能夠滿足吐字清晰、音色自然、蘊含感情等新聞播報等基礎需求。

2022年8月,《時空中的繪旅人》遊戲官方宣佈將與網易互娛AI Lab合作,分析提取葉瑄角色原有配音聲紋特徵,錄製新的語音,網易AI Lab終於開啟了為遊戲角色配音的新旅程。

03

悶聲發大財的AI語音

除了以上兩個AI工作室,還有更多人工智慧團隊在不斷探索AI語音的應用可能性。而且,可能出乎你預料的是,AI語音目前已經創造出了十分可觀的商業化效益。相對於高調來襲、不斷引起廣泛討論的AI繪畫,AI語音可以說是“悶聲發大財”的典型。

據Market.us統計,2022年全球Ai語音生成市場規模約達12.1億美元,預計在2032年,該資料將增長至48.89億美元,複合年增長度達15.4%。

相當能掙錢的AI語音生成技術落地到配音,主要有以下幾種應用形式。一是聲音克隆,讓AI學習已有聲紋特徵,在使用者輸入目標文字後,模仿合成相應的聲音效果。《時空中的繪旅人》葉瑄的配音就是這一類,再比如2018年,央視九套推出的全球首部AI配音紀錄片《創新中國》也屬此類。據瞭解,該紀錄片合成模仿的是“配音大師”李易的聲音。目前,該紀錄片依然在豆瓣上保持著9.0的高分。

二是聲音合成,在大量聲音資料的基礎上,根據輸入文字,直接產出AI合成音色的效果。今年年初,科大訊飛釋出的雨水節氣短片,也是由AI合成聲演繹的,該視訊呈現出的“以假亂真”的配音效果,引起了大量使用者的主動傳播。

三是音色轉換,利用聲紋技術,將輸入的音訊內容,替換成目標音色。有粉絲猜測,米哈遊鹿鳴的聲音就是這種情況。這類玩法技術相對更加成熟,門檻更低,因此被網友們普遍應用於視訊配音與整活。在視訊網站上常見的“拜登教奧巴馬玩源氏”、“美國總統給魂系遊戲排名”等整活視訊,都是通過這種方式產出的。

儘管AI配音的應用方式多樣、適用場景廣泛,且在遊戲市場上已有案例可供參考。但實際上,在目前要將該技術大規模應用於遊戲開發依然不太現實。

有嘗試過AI配音的開發者告訴茶館,AI配音和單純的電子書朗讀不同,想要AI呈現出類似聲優一樣的、貼合角色的表達效果,需要耗費大量的時間對聲音模型進行訓練,這個時間成本相較於演員配音,高達數十倍不止;而且由於對白文字承載的情感理解量過高,最終呈現出來的效果基本無法達到完美,細節處的切分和語氣轉換總會與真人有所差異,這些微小差異很有可能會對遊戲的沉浸感造成負面影響。

因此,目前真正將AI配音用進遊戲中的廠商仍是少數,畢竟不是每個遊戲廠商都有網易和米哈遊一樣的票子和技術。儘管如此,面對迎頭打來的新浪潮,茶館發現身邊有越來越多同行開始積極關注和研究AI配音。可見,積極迎接技術變化,正在成為業內常態。

最後,茶館推薦幾款AI語音生成器。

騰訊智影:https://zenvideo.qq.com/

科大訊飛:

https://www.xfyun.cn/services/online_tts

據說微軟Azure和ElevenLabs的效果也很好,大家也可以試試。

微軟Azure:

https://azure.microsoft.com/zh-cn/products/cognitive-services/text-to-speech/

ElevenLabs:

https://beta.elevenlabs.io/sign-up

隨便看看 更多