乱码乱a∨中文字幕,在线免费激情视频,亚洲欧美久久夜夜潮,国产在线网址

  1. <sub id="hjl7n"></sub>

    1. <sub id="hjl7n"></sub>

      <legend id="hjl7n"></legend>
      1. 創(chuàng)業(yè)頭條
      2. 前沿領(lǐng)域
      3. AI智能
      4. 正文

      數(shù)字內(nèi)容“遍地開花”,AI技術(shù)如何創(chuàng)新“造夢”?

       2024-06-24 10:37  來源:A5專欄  我來投稿 撤稿糾錯

        阿里云優(yōu)惠券 先領(lǐng)券再下單

      文 | 智能相對論

      作者 | 陳泊丞

      這是春晚舞臺西安分會場《山河詩長安》的一幕:“李白”現(xiàn)世,帶領(lǐng)觀眾齊頌《將進酒》,將中國人骨子里的豪情與浪漫演繹得淋漓盡致。

      這又是浙江義烏商品市場里的另一幕:只會說幾個英文單詞的女老板秒變外語達人,無縫切換36國語言流暢介紹自家商品,瘋狂帶貨。

      這一幕幕不可思議的畫面,成就了今天中國文化、商業(yè)的頻頻出圈。而一切的背后,都有著相同的支持:AI技術(shù)賦能數(shù)字內(nèi)容生產(chǎn)和應(yīng)用。

      近年來,隨著AI大模型技術(shù)的持續(xù)升級與賦能,數(shù)字內(nèi)容生產(chǎn)與應(yīng)用的趨勢愈發(fā)強烈,現(xiàn)實場景與數(shù)字內(nèi)容不斷融合,悄然改變著整個內(nèi)容創(chuàng)作行業(yè)的格局,甚至進一步推動了相關(guān)產(chǎn)業(yè)和商業(yè)的新變革。

      技術(shù)創(chuàng)新重塑數(shù)字內(nèi)容生產(chǎn)與應(yīng)用新范式

      數(shù)字人“李白”的精彩演繹、義烏女老板的AI帶貨——這些熱門事件的背后,是技術(shù)創(chuàng)新突破所帶來的結(jié)果。AI大模型的成熟應(yīng)用,讓越來越多不同形式的數(shù)字內(nèi)容得以爆發(fā),并廣泛進入大眾視野。

      在6月21日舉辦的華為開發(fā)者大會(HDC 2024)上,華為云盤古大模型迎來5.0版本升級,其中盤古媒體大模型在語音生成、視頻生成以及AI翻譯上的技術(shù)創(chuàng)新就重塑了數(shù)字內(nèi)容生產(chǎn)和應(yīng)用的新范式。

      對比過去的技術(shù)能力,新的技術(shù)所帶來的效果是非常顯著的。

      一、語音生成進階:只需三言兩語,沉浸式、真實感的語音易如反掌

      過去的語音生成依賴傳統(tǒng)的聲音克隆模型,由于模型比較小,精度低等原因,往往在實際操作上就要復雜得多。比如,在數(shù)據(jù)收集階段,對目標人物的語音數(shù)據(jù)就要盡可能的多樣化,包括不同的語速、語調(diào)、音量以及不同語境下的語音,需用到幾百句話的錄音。

      然后到了預(yù)處理階段,需要對收集到的語音數(shù)據(jù)進行清洗,通過人工標注等形式去除噪聲、靜音片段和其他不需要的部分。進而還要進行語音分割,將連續(xù)的語音信號切割成較小的語音片段(如音素或單詞)。最后提取音頻特征,再用于后續(xù)的聲音建模。

      以上,還只是數(shù)據(jù)收集和預(yù)處理,尚未進入真正的語音生成階段。但其中的工作量和操作復雜度就已經(jīng)很大了,對語音生成的效率和質(zhì)量都是一個非常大的影響和挑戰(zhàn)。

      時至今日,隨著技術(shù)的創(chuàng)新,基于更先進的模型,比如盤古媒體大模型的語音生成能力,這一問題得到了很好的解決。只需要幾句話、幾秒鐘的聲音,AI即可學習到個性化的音色、語調(diào)、表達韻律,從而獲得高質(zhì)量的個性化語音。同時,還支持喜怒哀樂等擬人情感語音,閑聊、新聞、直播等10多種語氣風格,讓生成的語音更真實、更有情感色彩,能沉浸式地應(yīng)用到不同場景中。

      比如,在視頻譯制中,AI將能做到配音演員的專業(yè)程度——通過盤古媒體大模型提供的視頻翻譯能力,AI可以把視頻翻譯為目標語言,并保留原始角色的音色、情感、語氣。華為云也在積極聯(lián)合伙伴邏輯智能,打造高感情語音克隆以及14國小語種配音,共同構(gòu)建高感情超擬人多模態(tài)音頻應(yīng)用能力等。同時,再結(jié)合盤古媒體大模型的口型驅(qū)動模型,還可以實現(xiàn)音唇同步,尤其是在側(cè)面、多人對話、物體遮擋以及人物移動等場景,也能做到很好的口型匹配。

      二、視頻生成跨越:只需幾十張圖,可控的、一致的視頻唾手可得

      傳統(tǒng)的視頻生成技術(shù)在資源需求、數(shù)據(jù)集、時序一致性、物理定律遵守、效率與質(zhì)量平衡、可控性、逼真度和連貫性以及應(yīng)用限制等方面都存在一定的局限性。如今,基于盤古媒體大模型,只需要訓練幾十張?zhí)囟缹W風格的圖片,如吉卜利、二次元等風格,再輸入實拍視頻即可快速生成該風格的動漫視頻。

      除了按需時長生成穩(wěn)定的動漫視頻,再通過ID一致性模型,還能對生成畫面中的關(guān)鍵角色進行一致性處理,確保視頻中角色樣貌特征在前一幀和后一幀中所呈現(xiàn)的效果始終一致,在側(cè)臉、運動軌跡下的視覺效果合理一致,由此增強AI視頻生成的可控性、一致性,讓視頻內(nèi)容更合理、真實。

      此外,業(yè)內(nèi)對視頻生成的真實度、復雜度也在聚焦增強。比如,OpenAI的Sora正在試圖模擬復雜的攝像機運鏡,同時準確地保持角色和視覺風格一致,讓AI創(chuàng)作的數(shù)字內(nèi)容更加趨于現(xiàn)實創(chuàng)作。英偉達更是發(fā)布了一系列技術(shù)套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo™以及RTX™等,去增強數(shù)字內(nèi)容的真實感,讓數(shù)字人物的互動、對話更加復雜、逼真。

      三、AI翻譯強化:準確性>93%,實時的、跨語言溝通指日可待

      過去的機器翻譯系統(tǒng)往往是基于統(tǒng)計模型或規(guī)則模型構(gòu)建的,因此翻譯結(jié)果大多無法與原文一致,顯得生硬、不自然,并不具備應(yīng)用到不同場景的條件?,F(xiàn)如今,華為云通過AI實現(xiàn)多語種實時傳譯,準確性>93%,可應(yīng)用于實時通話、云會議等需要實時翻譯場景。

      同時,基于盤古媒體大模型的語音復刻、AI文字翻譯以及TTS技術(shù),便可以實現(xiàn)語音的同聲傳譯,成功實現(xiàn)跨語言母語溝通體驗。甚至還可以結(jié)合數(shù)字人技術(shù),讓數(shù)字人來模擬用戶說話,結(jié)合口型模型技術(shù)做到口型與聲音精準匹配,讓AI翻譯、數(shù)字人與語音生成高度結(jié)合用于線上開會、跨國貿(mào)易交流等場景中。

      技術(shù)的“瓶頸”在收縮?

      技術(shù)的創(chuàng)新和突破帶來了數(shù)字內(nèi)容生產(chǎn)和應(yīng)用的爆發(fā),但另一方面隨著生產(chǎn)和應(yīng)用的進程加速,相應(yīng)的技術(shù)瓶頸也在出現(xiàn),并不斷收縮、聚焦。目前,AI大模型在數(shù)字內(nèi)容生產(chǎn)和應(yīng)用上的問題主要呈現(xiàn)在三個層面。

      其一,能源與計算效率瓶頸。 當前,大模型訓練的算力當量還在進一步增大,從GPT-3到GPT-4算力當量增長了68倍。隨著訓練的token數(shù)、模型參數(shù)增加,大模型訓練所需的計算量也需要隨之增加。

      更重要的是,其背后的成本投入是難以為繼的。根據(jù)計算,訓練一個5000億參數(shù)規(guī)模的Dense模型,基礎(chǔ)算力設(shè)施投入約10億美金,無故障運行21個月,電費約5.3億元——這遠遠超出了企業(yè)的承受范圍。

      但是,如果想要規(guī)?;厣a(chǎn)高質(zhì)量的數(shù)字內(nèi)容,大模型的精進又是必要的路徑。在這個階段,業(yè)內(nèi)開始尋求更高效、更優(yōu)的算力解決方案。像華為云昇騰AI云服務(wù)就在致力于提供方便、好用的算力服務(wù),在算力層面不斷革新計算能力和計算效率,提供從云化算力、模型開發(fā)、模型托管到生態(tài)的全棧服務(wù)。

      其二,算法架構(gòu)的優(yōu)化挑戰(zhàn)。 隨著大模型參數(shù)的增加,想要實現(xiàn)更好的計算結(jié)果和輸出更優(yōu)的答案,那么其處理的時長就會不斷延長的。但是,這在實際應(yīng)用中是一個困擾數(shù)字內(nèi)容生產(chǎn)和應(yīng)用的顯著問題,非常不利于數(shù)字內(nèi)容的規(guī)?;⑸虡I(yè)化發(fā)展。

      由此,業(yè)內(nèi)也開始在算法架構(gòu)上進行優(yōu)化,調(diào)整計算邏輯、處理方法來實現(xiàn)更優(yōu)效果。其中,以稀疏激活機制為代表的MoE模型就是目前AI行業(yè)的一個焦點,類似于“術(shù)業(yè)有專攻”的理念,稀疏激活機制通過對數(shù)據(jù)任務(wù)進行拆解,分門別類,再分配給特定的“專家”(Experts)進行處理,最終綜合加權(quán)輸出——不僅實現(xiàn)了計算效率優(yōu)化,也讓輸出結(jié)果更加全面、強大。

      其三,安全與倫理問題。 大模型內(nèi)部運行機制復雜,生產(chǎn)出來的內(nèi)容欠缺可解釋性和可控性,又易受對抗樣本攻擊,存在監(jiān)管難題和安全漏洞。對此,在數(shù)字內(nèi)容生產(chǎn)和應(yīng)用中,相關(guān)的安全和倫理問題隨著行業(yè)的廣泛發(fā)展而日趨突顯。

      因此,在數(shù)字內(nèi)容行業(yè)高速發(fā)展的階段,盡管企業(yè)能吃上數(shù)字內(nèi)容的紅利,但也需要鑒別模型的安全性、可靠性,避免因模型的安全和倫理問題而引發(fā)負面輿論影響。在這樣的挑戰(zhàn)下,華為云盤古大模型也隨即作出升級,在數(shù)據(jù)治理、安全合規(guī)等方面達到了較高標準。

      以技術(shù)“造夢”,數(shù)字內(nèi)容未來可期

      新范式的明確帶來更明確的技術(shù)方向,對于整個數(shù)字內(nèi)容行業(yè)而言,這意味著未來的發(fā)展已經(jīng)有了基礎(chǔ)的雛形,前景仍是樂觀的。但是,不可忽視的是,技術(shù)的瓶頸客觀存在,且更加突出,擺在行業(yè)面前的依舊是一條較為嚴峻的發(fā)展之路。

      盡管拋開技術(shù)瓶頸不談,在具體的實踐中,數(shù)字內(nèi)容的生產(chǎn)和應(yīng)用也不簡單,往往都需要面對很多在技術(shù)之外的具像化問題,只有基于問題去一步步解決才能最終完成落地。

      華為云團隊在進行紀錄片譯制時就發(fā)現(xiàn),項目實際開展起來會遇到各種各樣的問題,比如環(huán)境聲音太雜太亂,AI無法準確識別人聲保證音譯的完整度,或是隨著場景的切換,人物的狀態(tài)、口型都呈現(xiàn)出不同的樣子,需要AI精準地匹配等等。

      如果這些問題不一一解決,AI譯制的效果就打了個大大的折扣。對此,華為云團隊通過精準分析問題,采用不同的技術(shù)去解決各類細微問題,比如通過分離模型技術(shù)讓環(huán)境聲和人聲分開,通過口型模型技術(shù)讓聲音與口型精準匹配等。

      技術(shù)或許一直都有,但是如何用恰恰才是項目落地的關(guān)鍵。換句話說,在今天數(shù)字內(nèi)容行業(yè)高速發(fā)展、技術(shù)創(chuàng)新加速迭代的階段,只有實踐了才能真正推動行業(yè)的發(fā)展。這是一個比拼項目的階段,誰家的項目經(jīng)驗越豐富,越能知道相關(guān)的技術(shù)應(yīng)該如何應(yīng)用才能發(fā)揮出應(yīng)有的效果。

      目前,中影集團與華為云合作,將媒體大模型應(yīng)用到影視工業(yè),共同打造影視譯制大模型,通過AI將視頻譯制成不同語言,并保留原始角色的音色、情感、語氣,還能支持口型匹配,為影片譯制提供全新的AI制作方式。

      今天,數(shù)字內(nèi)容迎來迸發(fā),越來越多精彩內(nèi)容面世的另一面恰恰是廠商們不斷運用技術(shù)、驗證技術(shù)、完善技術(shù)的過程。未來的項目之路任重而道遠,同時也是行業(yè)走向成熟的必經(jīng)之路。靜待技術(shù)在創(chuàng)新中、實踐中持續(xù)升級、完善,未來便更快能看到一個數(shù)字內(nèi)容精彩紛呈,如同夢境一般的世界。

      *本文圖片均來源于網(wǎng)絡(luò)

      此內(nèi)容為【智能相對論】原創(chuàng),

      僅代表個人觀點,未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復制或建立鏡像。

      部分圖片來自網(wǎng)絡(luò),且未核實版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。

      •AI產(chǎn)業(yè)新媒體;

      •澎湃新聞科技榜單月度top5;

      •文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

      •著有《人工智能 十萬個為什么》

      •【重點關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機、無人機等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。

      申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

      相關(guān)標簽
      ai技術(shù)

      相關(guān)文章

      • AI提高效率:用智譜清言打造爆款視頻號

        關(guān)注盧松松,會經(jīng)常給你分享一些我的經(jīng)驗和觀點。(1)想做副業(yè)、短視頻的同學,看完本文一定對你有所幫助!(2)很多人說2024是視頻號紅利的一年,有分成收益,廣告主也多,流量大。(3)松松一共做了10多個視頻號,在視頻號布局3年了,幾乎啥都做過,有的收益千八百、有的收益1-2k,有的收益3-5k。(4

        標簽:
        ai技術(shù)
      • 開發(fā)者怎么擁抱智能化浪潮?昇騰AI給出了“通關(guān)指南”

        在大模型代表的新一輪技術(shù)浪潮下,智能化轉(zhuǎn)型已然是毋庸置疑的趨勢,科技大廠們紛紛給出了智能化的“道法術(shù)”,大大小小的企業(yè)也開始更新認知,想要從創(chuàng)新中挖掘出驅(qū)動增長的新質(zhì)生產(chǎn)力。但現(xiàn)實和智能化的美好愿景之間,仍然橫亙著一片鮮有人涉足的“荒?!保_下還沒有堅實的路。3月23日在天津舉辦的昇騰AI開發(fā)者創(chuàng)享

      • 8款A(yù)I視頻生成產(chǎn)品實測,誰將成為中國Sora?

        ?自象限原創(chuàng)作者丨羅輯、蘇奕編輯丨程心2024年開年,科技圈沒有什么比Sora的出現(xiàn)更讓人興奮。如同ChatGPT在2023年初帶來的LLM創(chuàng)業(yè)潮,Sora的發(fā)布也同樣將視頻生成模型推到了風口浪尖??萍季揞^猛推產(chǎn)品,創(chuàng)業(yè)公司則乘風而上。3月13日,AI視頻大模型公司愛詩科技完成億元級人民幣A1輪融資

      • AI手機需要新故事

        言必稱AI的時代,已經(jīng)來了,尤其是隨著sora等的震撼發(fā)布,以及Google、微軟和國內(nèi)大廠等在AI研發(fā)、大模型等方面的日新月異。就手機行業(yè)而言,在存量時代出貨量連年不及預(yù)期的情況下,如何刺激用戶換機,成了一道擺在所有手機廠商面前的共同命題。從三星到國內(nèi)的一些手機廠商,實際上已先行一步打出了“AI手

        標簽:
        ai技術(shù)
      • AI學習機踏進AI時代:科大訊飛、網(wǎng)易有道快馬加鞭

        最令家長們頭大的問題大概就是給孩子輔導作業(yè)了吧,而包括學習機在內(nèi)的一系列教育硬件產(chǎn)品的誕生,則很好地彌補了這一問題,成為了孩子們在家庭場景中學習的好幫手。隨著用戶需求的增長,教育智能硬件行業(yè)也實現(xiàn)了穩(wěn)定發(fā)展。而在教育硬件賽道,學習機這一品類格外受人關(guān)注。說起學習機,相信絕大多人都不會感到陌生。從最早

      • 弈動 Dynamic·數(shù)智躍遷 博弈無界|2025TechWorld智慧安全大會在京召開

        在數(shù)字化與智能化深度交織的時代浪潮中,安全的邊界不斷延展,技術(shù)的演進正引領(lǐng)產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動Dynamic·數(shù)智躍遷博弈無界”為主題的2025TechWorld智慧安全大會在北京盛大召開。來自國家部委、院士學者、高??蒲袡C構(gòu)和企業(yè)的權(quán)威專家與業(yè)界精英齊聚北京,共議AI安全、數(shù)

        標簽:
        弈動
      • 甌江論道:AI賦能綠色發(fā)展

        2025年10月25日,2025世界青年科學家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術(shù)學會、中科先進技術(shù)溫州研究院與溫州市電力工程學會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,

        標簽:
        ai技術(shù)
      • AI云“分野”:阿里云們“賣鏟”,火山引擎奇襲“MaaS”

        AI云“分野”:阿里云們“賣鏟”,火山引擎奇襲“MaaS”

        標簽:
        阿里巴巴
      • 未來5年,中國AI的“大洗牌”和“內(nèi)循環(huán)”

        我覺得我們AI的目標是:從芯片設(shè)計到軟件生態(tài),全鏈路自主開發(fā),建立可控的世界級AI體系。所以這是俺對未來5年中國AI圈的展望和判斷。(1)2026年,英偉達造車、國產(chǎn)開車26年國產(chǎn)芯片會在推理和垂直場景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會以軟件彌補硬件不足,所以訓練和推理分開,訓練就

      • H20芯片開賣即叫停,英偉達如何解圍?

        文/道哥在深陷“后門”風波、接受網(wǎng)信辦問詢之后,英偉達的“特供版”H20芯片,又有了新消息。近日,美國科技媒體《TheInformation》援引知情人士消息稱,英偉達已悄然向其關(guān)鍵供應(yīng)商——包括負責封裝的安靠科技、供應(yīng)高帶寬內(nèi)存的三星電子、以及承擔后端處理的富士康發(fā)出指令,要求暫停所有與H20AI

        標簽:
        英偉達
      • 真正的「國產(chǎn)英偉達」來了

        文/二風來源/節(jié)點財經(jīng)一場關(guān)于“中國芯”的IPO審議,正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告,上市審核委員會已定于9月26日審議摩爾線程的科創(chuàng)板首發(fā)申請。作為中國半導體自主化浪潮中最受矚目的“考生”之一,包括其創(chuàng)始人顯赫的英偉達背景、高達80億元人民幣的募資雄心,以及在國產(chǎn)GPU領(lǐng)域取

        標簽:
        英偉達

      編輯推薦