j9九游会真人游戏第一品牌有东谈主用它生成了《我的天下》格调的故事场景-中国(九游会)官方网站

发布日期:2025-03-08 10:33    点击次数:184

j9九游会真人游戏第一品牌有东谈主用它生成了《我的天下》格调的故事场景-中国(九游会)官方网站

克雷西 发自 凹非寺量子位 | 公众号 QbitAI

开源模子,如故得看杭州。

前脚发完QwQ-Max,就在夜深开源了视频生成模子Wan 2.1,14B参数平直屠榜VBench,什么Sora、Gen-3通通不是它的敌手。

从官方Demo中看,复杂通顺细节格外到位,5个东谈主沿途跳hip-hop也能作念到动作同步

而且在静态图像生成中齐如故老浩劫问题的翰墨,当今也被万相给攻克了。

虽然了,14B的参数目说大不大,但在个东谈主消费级显卡上腹地部署如故相比清贫的。

不外14B(支柱分辨率720P)以外,还有一个1.3B的小号版块(支柱分辨率480P),在一块4090上占用显存是8个多GB,花费时间4分21秒。

如斯不雅之,用12GB的4070,亦然能带动的

同期阿里还上线了两个图生视频模子,齐是14B但分为480P和720P两个版块。

四个模子完全是Apache 2.0,也即是免费商用。

而且官方也放出盘算表,AI创作家们格外可爱的ComfyUI,之后也会集成。

视频生成模子会写字了

刻下不错玩到Wan 2.1的路线有好多,最浅易的形态是通过通义万相我方的平台。

在平台里,1.3B和14B版分内别叫作念极速版和专科版,每次花费5个或3个“灵感值”(新用户默许有50个,还可通过签到等多种方式免费赢得)。

不外由于热度确凿太高,恭候的时间也会相比长,以致随契机出现“过于火爆”的情况。

起始才智稍强的话,不错凭据官方的教程通过HuggingFace、魔搭社区大略腹地等方式自行折腾,虽然还有一些第三方平台也进行了跟进。

网友们亦然玩出了多样花活,有东谈主用它生成了《我的天下》格调的故事场景。

作家:X/@TheXeophon

再望望官决策例,从效力维度上看,Wan 2.1最大的亮点,可能即是支柱在视频中生成翰墨了。

而且不是生硬地加入,会凭据翰墨所处位置的材质进行合理变化,以及随载体一同通顺。

虽然相对翰墨来说更基础的动作细节,本领也一样过关。

让两个东谈主跳一段华尔兹,屡次回身前后东谈主物形象还是保握一致,配景的动掸也很当然。

而且也更懂物理顺序,一支箭射出后,弓弦的抖动描画得格外到位。

小狗切菜的经过当中,被切的西红柿也莫得出现畸变。

还有像东谈主从水面中探露面这种场景,不仅界面处料理得很好,带起的水亦然从水流渐渐变化成水点。

另外对于图像生视频,也有网友进行了体验,没用任何提醒词就得到了这么的日漫风动画:

作家:X/@seiiiiiiiiiiru

除了效力自身,1.3B版块8个多GB的低显存占用,对个东谈主创作家来说亦然一个极好的音信。

那么,Wan 2.1是怎样达成又好又省的呢?

革命3D变分自动编码器

和主流的视频生成本走漏线一样,Wan 2.1的主体袭取了DiT(Diffusion Transformer)架构。

Wan驾驭T5编码器对输入的多谈话文本进行编码,并在每个Transformer块内加入交叉注目力机制,将文本镶嵌到模子架构中。

此外,Wan袭取线性层和SiLU层来料理输入时间镶嵌并诀别展望六个调制参数。这么的MLP在统统Transformer块之间分享,每个块齐学习一组不同的偏差。

编码上,Wan袭取了3D变分自动编码器,这是一种挑升为视频生成联想的3D因果相关体紧缚构。

在卷积模块中达成了特征缓存机制,并荟萃了多种战略来改善时空压缩,减少悲痛使用情况并确保时间因果相关。

具体来说,由于视频序列帧数投诚1+T输入形态,因此Wan将视频分红1+T/4个块,与潜在特征的数目一致。

在料理输入视频序列时,该模子袭取逐块战略,其中每个编码息争码操作仅料理与单个潜在示意相对应的视频块。

基于时间压缩比,每个料理块中的帧数最多界限为4,从而灵验防患GPU内存溢出。

实验终端标明,在单块A800上,Wan的VAE的重建速率比现存的SOTA形态快2.5倍。

为了使模子推广并进步现实效力,Wan对编码器袭取FSDP模子切分与高下文并行性(CP)相荟萃的漫步式战略;对于DiT模块则袭取DP、FSDP、RingAttention、Ulysses夹杂的并行战略。

在推理阶段,为了使用多卡减少生成单个视频的延长,还需要通过CP来进行漫步式加快。

在14B版块的Wan上,2D高下文并行和FSDP并行战略,让DiT达到了竟然线性的加快。

I2V部分,Wan引入了非凡的要求图像当作第一帧来界限视频合成,用CLIP图像编码器从要求图像中提真金不怕火特征示意。

具体而言,要求图像沿时间轴与零填充帧联贯,造成交流帧。然后,这些交流帧由3D VAE压缩为要求潜在示意。

另外由于I2V DiT模子的输入通谈比T2V模子多,因此I2V版块中还使用了非凡的投影层,并用零值起始化。

之后阿里还会放出更详确的叙述,对本领细节感兴致的读者不错握续怜惜~

https://mp.weixin.qq.com/s/SRj06E-VCSpCiQZqE0gpHAGitHub:https://github.com/Wan-Video/Wan2.1Hugging Face:https://huggingface.co/Wan-AI魔搭社区:https://www.modelscope.cn/models/Wan-AI