亚洲人成电影在在线观看网色,精品国产一区二区三区四区不,精品视频亚洲

京東數科AI主播上崗，僅需幾小時就可以合成新角色智能

2020-05-28 15:02

分享到：

導讀

大家好，我是小妮，誕生于京東數字科技集團AI實驗室。

“大家好，我是小妮，誕生于京東數字科技集團AI實驗室。用你們人類的話說，我是AI主播。沒錯，來自虛擬世界的我喊你上課啦！”字正腔圓、細膩逼真的AI主播近日亮相于京東數科產業AI公開課。這是京東數科自主研發的AI虛擬數字人產品首次出現在公眾面前。據介紹，京東數科融合了2D和3D技術，將傳統方法與深度學習結合，僅需使用一段幾分鐘的人物視頻數據，經過幾小時訓練就可以合成出寫實風格的AI虛擬數字人。

圖片 1.png

京東數科自主研發的AI主播

為了研發出寫實逼真的AI虛擬數字人，京東數科AI實驗室在文字轉語音、3D人臉建模、語音轉視頻等方面進行了一系列技術創新。

為了順利實現文字到語音的轉化，京東數科自研了輕量級對抗語音合成技術，通過結合深度神經網絡在多人數據上進行個性化建模，達到音色豐富、特色鮮明的語音合成效果，甚至可以模擬人的呼吸和停頓，聽感酷似真人。高效輕量的對抗神經網絡大幅提升了合成速度，合成1秒音頻只需0.07秒，合成時延僅為業界水平的1/3，充分支持多場景實時語音合成。

在語音生成視頻的階段，為了使AI主播形象更加逼真，京東數科AI實驗室利用對抗生成網絡來還原更真實的表情，通過3D模型運動追蹤技術來確保AI主播在說話時口型準確、表情細膩、頭部運動自然。一般來說，2D類的模型往往能生成更細膩的畫質，而3D方向的模型操控能力更佳；京東數科的技術人員打通了這種模式上的壁壘，在2D和3D模型之上各取所長，將最新的深度學習技術與傳統的優化技術和特征提取技術相結合，使語音、圖像、視頻這些模態間的語義打通成為可能。從實際效果來看，AI虛擬數字人能夠模仿不同人的說話習慣，學到如何用點頭、眨眼這些細微動作對發言中的重要內容加以強調。為了在口型匹配方面達到完美效果，京東數科AI實驗室利用大量語音數據，并特意設計了魯棒的語音特征，使其可以被不同音色、語言和語速的合成語音所驅動，且都能保持準確、連貫的口型。

最終，京東數科開發出了高度還原真人形象的AI虛擬數字人，在AI算法的驅動下，只需輸入文本內容，“小妮”就能根據語義實時進行主持，且表情、動作和語音表達非常自然逼真。

除了AI主播，AI虛擬數字人還可以在多場景中落地生根。比如，在重復性很高的智能客服場景中，人工客服具有人工成本高、質量參差不齊等缺點，用AI虛擬數字人代替人工客服，可大幅提升整體客服效率和服務體驗。再比如，在招聘場景中，對于公司介紹、薪資福利、入職流程介紹、招聘者基礎信息確認等環節信息重復度高，這時就可使用AI虛擬數字人替代HR進行交互回答，有效節省人力，提升公司的科技感。

京東數科AI實驗室首席科學家薄列峰表示：“AI主播小妮的推出，是京東數科在多模態AI技術領域一次成功的落地應用。除了在客服、招聘等領域的應用之外，我們還將服務內容創造者，通過AI虛擬數字人技術，把靜態圖文內容轉化為由‘真人’講解的短視頻，滿足用戶對多樣化呈現形式的需求，增強用戶黏性和社區活躍度。”

京東數科 AI主播

分享到：

1.TMT觀察網遵循行業規范，任何轉載的稿件都會明確標注作者和來源；
2.TMT觀察網的原創文章，請轉載時務必注明文章作者和"來源：TMT觀察網"，不尊重原創的行為TMT觀察網或將追究責任；
3.作者投稿可能會經TMT觀察網編輯修改或補充。