京東數科AI主播上崗,僅需幾小時就可以合成新角色智能

                  觀察君 2020-05-28 15:02
                  分享到:
                  導讀

                  大家好,我是小妮,誕生于京東數字科技集團AI實驗室。

                  “大家好,我是小妮,誕生于京東數字科技集團AI實驗室。用你們人類的話說,我是AI主播。沒錯,來自虛擬世界的我喊你上課啦!”字正腔圓、細膩逼真的AI主播近日亮相于京東數科產業AI公開課。這是京東數科自主研發的AI虛擬數字人產品首次出現在公眾面前。據介紹,京東數科融合了2D和3D技術,將傳統方法與深度學習結合,僅需使用一段幾分鐘的人物視頻數據,經過幾小時訓練就可以合成出寫實風格的AI虛擬數字人。

                  圖片 1.png

                  京東數科自主研發的AI主播

                  為了研發出寫實逼真的AI虛擬數字人,京東數科AI實驗室在文字轉語音、3D人臉建模、語音轉視頻等方面進行了一系列技術創新。

                  為了順利實現文字到語音的轉化,京東數科自研了輕量級對抗語音合成技術,通過結合深度神經網絡在多人數據上進行個性化建模,達到音色豐富、特色鮮明的語音合成效果,甚至可以模擬人的呼吸和停頓,聽感酷似真人。高效輕量的對抗神經網絡大幅提升了合成速度,合成1秒音頻只需0.07秒,合成時延僅為業界水平的1/3,充分支持多場景實時語音合成。

                  在語音生成視頻的階段,為了使AI主播形象更加逼真,京東數科AI實驗室利用對抗生成網絡來還原更真實的表情,通過3D模型運動追蹤技術來確保AI主播在說話時口型準確、表情細膩、頭部運動自然。一般來說,2D類的模型往往能生成更細膩的畫質,而3D方向的模型操控能力更佳;京東數科的技術人員打通了這種模式上的壁壘,在2D和3D模型之上各取所長,將最新的深度學習技術與傳統的優化技術和特征提取技術相結合,使語音、圖像、視頻這些模態間的語義打通成為可能。從實際效果來看,AI虛擬數字人能夠模仿不同人的說話習慣,學到如何用點頭、眨眼這些細微動作對發言中的重要內容加以強調。為了在口型匹配方面達到完美效果,京東數科AI實驗室利用大量語音數據,并特意設計了魯棒的語音特征,使其可以被不同音色、語言和語速的合成語音所驅動,且都能保持準確、連貫的口型。

                  最終,京東數科開發出了高度還原真人形象的AI虛擬數字人,在AI算法的驅動下,只需輸入文本內容,“小妮”就能根據語義實時進行主持,且表情、動作和語音表達非常自然逼真。

                  除了AI主播,AI虛擬數字人還可以在多場景中落地生根。比如,在重復性很高的智能客服場景中,人工客服具有人工成本高、質量參差不齊等缺點,用AI虛擬數字人代替人工客服,可大幅提升整體客服效率和服務體驗。再比如,在招聘場景中,對于公司介紹、薪資福利、入職流程介紹、招聘者基礎信息確認等環節信息重復度高,這時就可使用AI虛擬數字人替代HR進行交互回答,有效節省人力,提升公司的科技感。

                  京東數科AI實驗室首席科學家薄列峰表示:“AI主播小妮的推出,是京東數科在多模態AI技術領域一次成功的落地應用。除了在客服、招聘等領域的應用之外,我們還將服務內容創造者,通過AI虛擬數字人技術,把靜態圖文內容轉化為由‘真人’講解的短視頻,滿足用戶對多樣化呈現形式的需求,增強用戶黏性和社區活躍度。”

                  京東數科 AI主播
                  分享到:

                  1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
                  2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
                  3.作者投稿可能會經TMT觀察網編輯修改或補充。