騰訊(00700.HK) -10.500 (-1.930%) 沽空 $29.29億; 比率 11.734% (TCEHY.US) 旗下騰訊混元發布圖生視頻模型並對外開源,同時上線對口型與動作驅動等玩法,並支援生成背景音效及2K高質量視頻。目前用戶通過混AI視頻官網即可體驗,企業和開發者可在騰訊雲申請使用API接口使用。
基於圖生視頻的能力,用戶只需上傳一張圖片,並簡短描述希望畫面如何運動及鏡頭如何調度等,混元即可按要求讓圖片動起來,變成5秒的短視頻,還能自動配上背景音效。此外,上傳一張人物圖片,並輸入希望「對口型」的文字或音頻,圖片中的人物即可「說話」或「唱歌」;使用「動作驅動」能力,還能一鍵生成同款跳舞視頻。
此次開源的圖生視頻模型,是混元文生視頻模型開源工作的延續,模型總參數量保持130億,模型適用於多種類型的角色和場景,包括寫實視頻製作、動漫角色甚至CGI角色製作的生成。
混元開源技術報告披露,混元視頻生成模型具備靈活的擴展性,圖生視頻和文生視頻在相同的數據集上開展預訓練工作。在保持超寫實畫質、流暢演繹大幅度動作及原生鏡頭切換等特性的基礎上,讓模型能夠捕捉到豐富的視覺和語義信息,並結合圖像、文本、音頻和姿態等多種輸入條件,實現對生成視頻的多維度控制。(ta/j)(港股報價延遲最少十五分鐘。沽空資料截至 2025-03-07 16:25。) (美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)
AASTOCKS新聞