阿里巴巴推出AtomoVideo高保真圖生視頻框架，兼容多種文生圖模型

來(lái)源：網(wǎng)絡(luò )轉載作者：IT之家時(shí)間：2024-03-08

IT之家總結 AtomoVideo 特性如下：

高保真度：生成的視頻與輸入圖像在細節與風(fēng)格上保持高度一致性

運動(dòng)一致性：視頻動(dòng)作流暢，確保時(shí)間上的一致性，不會(huì )出現突兀的跳轉

視頻幀預測：通過(guò)迭代預測后續幀的方式，支持長(cháng)視頻序列的生成

兼容性：與現有的多種文生圖（T2I）模型兼容

高語(yǔ)義可控性：能夠根據用戶(hù)的特定需求生成定制化的視頻內容

AtomoVideo 圖生視頻流程

AtomoVideo 使用預先訓練好的 T2I 模型為基礎，在每個(gè)空間卷積層和注意力層之后新添加一維時(shí)空卷積和注意力模塊，T2I 模型參數固定，只訓練添加的時(shí)空層。由于輸入的串聯(lián)圖像信息僅由 VAE 編碼，代表的是低層次信息，有助于增強視頻相對于輸入圖像的保真度。同時(shí)，團隊還以 Cross-Attention 的形式注入高級圖像語(yǔ)義，以實(shí)現更高的圖像語(yǔ)義可控性。

目前，該團隊只發(fā)布了 AtomoVideo 的論文及演示視頻，并未提供在線(xiàn)體驗地址。同時(shí)官方開(kāi)設了 GitHub 賬戶(hù)，但僅用作官方網(wǎng)站托管，并未上傳任何相關(guān)代碼

聲明：文章來(lái)源于網(wǎng)絡(luò )轉載，是作者獨立觀(guān)點(diǎn)，不代表浙北數據立場(chǎng)
如有不合適或侵權等問(wèn)題請及時(shí)聯(lián)絡(luò )我們0572-2100075，會(huì )第一時(shí)間刪除，保障作者權益

上一篇：天涯社區App重新上架應用商店：預計5月1日前恢復訪(fǎng)問(wèn)

下一篇：京東修訂《包郵規則》：除偏遠地區外，3月19日起普及“滿(mǎn) 59 元包郵”

咨詢(xún)電話(huà)（微信同號）18905829229

阿里巴巴推出AtomoVideo高保真圖生視頻框架，兼容多種文生圖模型

咨詢(xún)電話(huà)（微信同號）
18905829229

阿里巴巴推出AtomoVideo高保真圖生視頻框架，兼容多種文生圖模型