大模型走向破圈,這屆春節(jié)AI味太濃了快訊

                  新眸 2025-02-01 15:22
                  分享到:
                  導(dǎo)讀

                  百度用多模態(tài)AI技術(shù)重構(gòu)了傳統(tǒng)年味兒——從數(shù)字人拜年視頻到超真實(shí)文旅地圖,春節(jié)的AI狂歡更像一場(chǎng),表面上是AI拜年視頻、魔幻賀卡、方言導(dǎo)游的熱鬧。

                  過去兩年,AI技術(shù)正以驚人的速度滲透至普通人的生活。

                  從2023年ChatGPT掀起全民對(duì)話熱潮,到2024年AI繪圖工具讓小學(xué)生也能創(chuàng)作漫畫,技術(shù)不再是極客的專屬玩具,而是如水電氣般融入日常。

                  在一些不易察覺的場(chǎng)景中,AI正推動(dòng)著社交維度的代際融合,典型的例子,不僅00后能借助AI花式拜年,使用實(shí)時(shí)AI美顏與背景替換技術(shù)生成祝福視頻,連耄耋之年的老人也能通過簡(jiǎn)化界面實(shí)現(xiàn)“數(shù)字守歲”。

                  在2025年的春節(jié),一場(chǎng)由AI掀起的“數(shù)字年俗”在全中國(guó)引發(fā)狂歡。當(dāng)“廣場(chǎng)舞大媽舞到全世界”、“兵馬俑用陜西方言送祝福”、“小學(xué)生自制AI文旅地圖成為班級(jí)明星”成為春節(jié)社交平臺(tái)的熱梗,這場(chǎng)看似魔幻的狂歡背后,藏著中國(guó)AI技術(shù)的一次全民級(jí)落地實(shí)驗(yàn)。

                  百度用多模態(tài)AI技術(shù)重構(gòu)了傳統(tǒng)年味兒——從數(shù)字人拜年視頻到超真實(shí)文旅地圖,從方言搜索到智能體導(dǎo)游,從北上廣來到縣城鄉(xiāng)村,廣場(chǎng)舞大媽、10后小學(xué)生、方言老人都能成為AI時(shí)代的頭號(hào)玩家,科技與煙火氣碰撞出前所未有的熱鬧。

                  這或許也揭示了2025年AI的關(guān)鍵命題:當(dāng)最前沿的技術(shù)能夠真正融入到最樸素的場(chǎng)景時(shí),超級(jí)應(yīng)用爆發(fā)的臨界點(diǎn)已不再遙遠(yuǎn)。在這場(chǎng)競(jìng)賽中,誰(shuí)能把技術(shù)變成人間煙火,誰(shuí)就能真正把握AI時(shí)代的游戲規(guī)則。

                  01

                  最有AI味的一年

                  有三個(gè)現(xiàn)象火了

                  現(xiàn)象一:全球廣場(chǎng)舞大媽“占領(lǐng)”地標(biāo),AI讓拜年變成魔幻狂歡

                  “姐妹們快看!我在凱旋門前跳《最炫民族風(fēng)》!”大年初一,山東濟(jì)南的王阿姨在家族群里扔出一段視頻:她身著紅襖,帶領(lǐng)一群數(shù)字分身“占領(lǐng)”法國(guó)凱旋門,背景音樂響徹戴高樂廣場(chǎng)。

                  這是百度搜索“瞬移世界拜個(gè)年”的杰作——用戶只需上傳一段視頻,選擇巴黎鐵塔、自由女神像等地標(biāo),AI就能自動(dòng)生成在全球任意地點(diǎn)的超真實(shí)視頻,連動(dòng)作幅度都精準(zhǔn)匹配廣場(chǎng)舞的神曲節(jié)奏。

                  王阿姨的操作簡(jiǎn)單到“比發(fā)朋友圈還容易”,打開百度搜索“瞬移世界拜個(gè)年”,進(jìn)入活動(dòng)會(huì)場(chǎng)、點(diǎn)擊入口打開“拜年視頻創(chuàng)建頁(yè)面”、跟著提示錄制一段拜年視頻,選擇背景音樂和拜年背景,幾十秒后視頻就能自動(dòng)生成。

                  這種零門檻造夢(mèng)的玩法迅速風(fēng)靡,甚至有年輕人戲稱,今年春節(jié),廣場(chǎng)舞大媽才是真正的“元宇宙原住民”。

                  現(xiàn)象二:AI真人賀卡刷屏,腦洞設(shè)計(jì)碾壓傳統(tǒng)祝福

                  在北京某互聯(lián)網(wǎng)公司工作的小李今年不打算回家,但怎么給親朋好友拜年成了讓他頭疼的問題。不過他很快發(fā)現(xiàn),通過百度“定制照片賀卡”功能,就能把自己P到月球表面貼春聯(lián)、在白宮門口撒紅包。

                  你只需要在百度App內(nèi)搜索“AI拜年”,進(jìn)入定制頁(yè)面,上傳自己想“玩”的照片,輸入“在火星放鞭炮”“在故宮屋頂舞龍”等指令,加上祝福語(yǔ),AI就能自動(dòng)合成場(chǎng)景生成一張獨(dú)一無二的新年賀卡,全程不到兩分鐘。

                  除此以外,如果想讓AI開口祝福,那么就打開小程序“百度智能云曦靈數(shù)字人”,上傳一張自己的清晰照片,讓AI快速克隆出一個(gè)數(shù)字分身,生成流暢的口播祝福語(yǔ)視頻,為親朋好友表達(dá)祝福。

                  更絕的是“跨界混搭”,蒙娜麗莎手持春聯(lián)、達(dá)芬奇用意大利腔中文祝福,這些歷史名人拜年團(tuán)視頻在全網(wǎng)點(diǎn)贊破百萬,評(píng)論區(qū)清一色“笑到劈叉”“AI把我缺失的幽默感補(bǔ)上了”。

                  現(xiàn)象三:方言智能體化身“賽博搭子”,10后小學(xué)生變身文旅達(dá)人

                  “跟著秦小俑,三天吃遍西安不重樣。”陜西的10后小學(xué)生樂樂,通過百度文旅智能體“秦小俑”,用陜西方言問出“哪家肉夾饃肉最多汁”,AI不僅推薦了回民街老店,還附贈(zèng)“避開游客高峰的秘籍”。

                  這個(gè)春節(jié),34省的賽博導(dǎo)游徹底火了,天津的“baibai”用相聲腔調(diào)講解古文化街、湖南的“芙小蘭”推薦辣到飆淚的臭豆腐攤、福建的“簪花花”帶你尋找土樓最佳拍照角度……用戶只需在百度搜索“AI旅游”,就能召喚本省智能體,用方言語(yǔ)音查詢路線、預(yù)訂門票甚至“一鍵打電話”給虛擬導(dǎo)游。

                  遼寧一位小學(xué)生更是借助百度文旅智能體自制“中國(guó)文旅地圖”,引發(fā)全網(wǎng)數(shù)百萬討論。而不會(huì)普通話的老人也找到救星,河南陳大爺在兒子的指導(dǎo)下,在百度APP上直接用方言喊出“咋繳燃?xì)赓M(fèi)”,手機(jī)瞬間彈出操作視頻,他感慨,“這比等兒子視頻教我省心多了!”  

                  從廣場(chǎng)舞大媽到小學(xué)生,從一線白領(lǐng)到縣城老人,百度AI用三大現(xiàn)象證明:技術(shù)可以既有“腦洞大開”的趣味,又有“接地氣”的溫度。這場(chǎng)狂歡最動(dòng)人的地方在于,科技不再高高在上,而是成了每個(gè)人觸手可及的年俗制造機(jī)。

                  02

                  三大現(xiàn)象的背后是百度AI

                  諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主西蒙?約翰遜曾在其著作《權(quán)力與進(jìn)步》里提到,任何社會(huì)、經(jīng)濟(jì)領(lǐng)域的真正進(jìn)步不是自動(dòng)實(shí)現(xiàn)的,而是在細(xì)節(jié)處行駛,其中關(guān)鍵在于,科技發(fā)展的方向要符合大多數(shù)人的利益,才可能出現(xiàn)一個(gè)全新、更具包容性的技術(shù)前景。

                  同樣的邏輯,春節(jié)期間三大腦洞大開的玩法,表面上是AI拜年視頻、魔幻賀卡、方言導(dǎo)游的熱鬧,其內(nèi)核則傳遞出百度對(duì)AI落地關(guān)鍵命題的解答:如何讓技術(shù)從少數(shù)人的玩具,變成多數(shù)人的工具?甚至是跨越地域與年齡的鴻溝實(shí)現(xiàn)技術(shù)普惠?

                  就拿“廣場(chǎng)舞大媽占領(lǐng)全球地標(biāo)”來說,涉及到數(shù)字人技術(shù)和動(dòng)作驅(qū)動(dòng)算法,用戶上傳一張照片,AI通過大模型圖像識(shí)別算法提取面部特征,結(jié)合百度海量人類動(dòng)作數(shù)據(jù)庫(kù),生成與音樂節(jié)奏匹配的舞蹈視頻。

                  百度曦靈數(shù)字人同樣采用了照片數(shù)字人視頻合成的技術(shù),無論是自拍還是歷史人物畫像,大模型算法可以從照片中提取人臉的結(jié)構(gòu)和特征,構(gòu)建初始模型。

                  而為了讓數(shù)字人更逼真,技術(shù)團(tuán)隊(duì)又做了兩件事,一是“動(dòng)作庫(kù)”,他們收集了大量頭部動(dòng)作和面部數(shù)據(jù),訓(xùn)練出一種動(dòng)作驅(qū)動(dòng)的算法模型,來學(xué)習(xí)人臉的變化規(guī)律;考慮光線、皮膚質(zhì)感等影響,還會(huì)通過算法實(shí)時(shí)進(jìn)行渲染和調(diào)整,這樣一來,人臉動(dòng)得更自然。

                  二是“唇音同步”,AI能根據(jù)語(yǔ)音內(nèi)容自動(dòng)調(diào)整數(shù)字人的口型,快速生成與音頻完全同步的唇形動(dòng)作,一改以往數(shù)字人在說話時(shí)常出現(xiàn)口型與語(yǔ)音脫節(jié)、生硬等情況,讓視頻表現(xiàn)更加真實(shí)流暢。

                  而AI真人賀卡刷屏的背后,是一場(chǎng)針對(duì)“AI幻覺”的精準(zhǔn)手術(shù)。舉個(gè)例子,當(dāng)用戶輸入“梅西在白宮撒紅包”時(shí),傳統(tǒng)文生圖模型可能混淆人物特征或建筑結(jié)構(gòu),這其實(shí)是以往RAG(檢索增強(qiáng)生成)技術(shù)的局限性:完全基于大語(yǔ)言模型的文生圖系統(tǒng),生成的圖片經(jīng)常“一眼假”,甚至不合邏輯。

                  今年年初,為了解決圖像生成的幻覺問題,百度自研了iRAG(image based RAG)技術(shù),給AI生圖裝上了防翻車指南。

                  形象地來說,iRAG的突破在于引入“事實(shí)校對(duì)”機(jī)制,比如同樣是生成“梅西在白宮撒紅包”,系統(tǒng)會(huì)先查資料再創(chuàng)作,先調(diào)用百度搜索中的億級(jí)圖片資源,定位“白宮門廊結(jié)構(gòu)”“梅西面部特征”等關(guān)鍵信息,再讓模型基于真實(shí)數(shù)據(jù)生成圖像,而非憑空想象。

                  就體驗(yàn)感而言,基于iRAG特定對(duì)象生成的圖像效果,達(dá)到無幻覺、超真實(shí)、無成本、立等可取。在CEO李彥宏看來,“AI必須學(xué)會(huì)尊重事實(shí),而不僅是模仿風(fēng)格。” 他曾現(xiàn)場(chǎng)展示過由文心大模型生成的某品牌汽車飛躍長(zhǎng)城的圖片,無論是車型、車標(biāo)還是與長(zhǎng)城背景的融合度都非常高。

                  今年春節(jié)AI的另一大看點(diǎn),體現(xiàn)在百度在語(yǔ)音技術(shù)的突破上。當(dāng)北上廣白領(lǐng)已經(jīng)用AI做PPT時(shí),縣城老人還在為“如何打字查公交”發(fā)愁。百度方言語(yǔ)音技術(shù)的破局邏輯很直接:讓AI說人話,更要聽懂“人間話”。

                  34省方言智能體的實(shí)現(xiàn),依賴兩大核心技術(shù):語(yǔ)音大數(shù)據(jù)挖掘與音色遷移。

                  技術(shù)團(tuán)隊(duì)通過抓取海量方言對(duì)話,訓(xùn)練出能識(shí)別“塑料普通話”“混雜口音”的模型,連“中不中”、“得勁兒”都能精準(zhǔn)解析;為了讓AI不僅聽得懂方言,還能說出方言,百度運(yùn)用大數(shù)據(jù)驅(qū)動(dòng),將普通話與各種方言納入統(tǒng)一建模框架之中,通過各種音色與方言的遷移學(xué)習(xí),訓(xùn)練出能夠合成多種方言的通用模型,讓東北主播的聲音也能輕松說出閩南語(yǔ)、粵語(yǔ)。

                  某種程度上,這種“技術(shù)俯身”的策略直擊下沉市場(chǎng)痛點(diǎn),正如一位用戶在社交平臺(tái)的感慨:“今年春節(jié)最讓我感動(dòng)的,不是AI多厲害,而是它終于不再裝高冷,成了咱普通人的萬能搭子。”

                  在李彥宏看來,AI普及的關(guān)鍵,是找到技術(shù)杠桿與民生痛點(diǎn)的支點(diǎn),百度春節(jié)活動(dòng)的成功,正是這一理念的具象化。技術(shù)普惠的本質(zhì)不是“讓農(nóng)民學(xué)代碼”,不追求“無所不能”,而要“無處不在”,這也是百度對(duì)AI落地的獨(dú)特理解。

                  03

                  從蛇年春節(jié)看25年AI趨勢(shì)

                  2025年蛇年春節(jié),一場(chǎng)由AI驅(qū)動(dòng)的“數(shù)字年俗革命”席卷全國(guó),當(dāng)AI環(huán)球盲盒拜年視頻讓普通人30秒變國(guó)際巨星、智能體導(dǎo)游用各地腔調(diào)講解古文化街時(shí),背后是百度多模態(tài)技術(shù)的集中釋放:從文本生成到語(yǔ)音交互,從圖像合成到視頻驅(qū)動(dòng),AI不再滿足于單一維度的表達(dá),而是將文字、圖片、聲音、動(dòng)作融合交響。

                  這種多模態(tài)能力的爆發(fā),不僅改寫內(nèi)容生產(chǎn)領(lǐng)域的游戲規(guī)則,降低了內(nèi)容創(chuàng)作的門檻與成本,行業(yè)數(shù)據(jù)顯示,2025年AI多模態(tài)模型的訓(xùn)練數(shù)據(jù)中,非文本內(nèi)容占比相比2023年明顯躍升,圖像、視頻、語(yǔ)音的“數(shù)據(jù)三角”正成為廠商爭(zhēng)奪的新戰(zhàn)場(chǎng)。

                  比技術(shù)升級(jí)更具顛覆性的是用戶群體的“下沉革命”。AI工具的使用者畫像從“高知極客”擴(kuò)展到了“小鎮(zhèn)青年”“銀發(fā)族”甚至“小學(xué)生”。百度方言語(yǔ)音搜索的日均調(diào)用量中,河南、四川等地下沉用戶占比越發(fā)凸顯,而文旅智能體在縣域景區(qū)的使用率也在上升。

                  這種從都市到鄉(xiāng)村的用戶遷徙,揭示了AI產(chǎn)業(yè)的終極悖論:“最前沿的技術(shù),往往藏在下沉市場(chǎng)最樸素的場(chǎng)景里。”百度用一場(chǎng)春節(jié)狂歡證明,AI革命的勝負(fù)手,不在實(shí)驗(yàn)室的算力競(jìng)賽,而在普通人的每一次點(diǎn)擊。

                  李彥宏在2025年全員信中表示:大模型賦能的AI原生應(yīng)用,正在各行各業(yè)各種場(chǎng)景迅速普及。雖然超級(jí)應(yīng)用尚未出現(xiàn),AI的實(shí)際滲透率已經(jīng)不低。

                  春節(jié)的AI狂歡更像一場(chǎng)“超級(jí)應(yīng)用”的預(yù)演。當(dāng)百度文心智能體讓用戶一鍵創(chuàng)建方言導(dǎo)游、iRAG技術(shù)將品牌海報(bào)成本壓至近乎為零、方言搜索日均服務(wù)不斷上升時(shí),AI已從“特定場(chǎng)景工具”進(jìn)化為“萬能搭子”。

                  伴隨AI應(yīng)用深度和場(chǎng)景的不斷拓寬,大膽推測(cè),超級(jí)應(yīng)用可能在2025年率先在C端爆發(fā),屆時(shí),這一年或許會(huì)被銘記為“AI平民化元年”,而百度已經(jīng)站在潮頭。

                  AI 百度 技術(shù) 視頻 方言
                  分享到:

                  1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來源;
                  2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
                  3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。