墨风如雪博客

  • 源码小店
  • 传家宝VPS
让AI使用变得如此简单
  1. 首页
  2. AI
  3. 正文

阿里云万相2.1:开源视频生成模型的全面解析

2025年 3月 4日 233点热度 0人点赞 0条评论

一、模型简介

阿里云万相2.1(Wan 2.1) 是通义万相系列的最新多模态视频生成大模型,于2025年1月发布,同年2月25日全面开源。该模型支持文生视频(T2V)和图生视频(I2V),并首次实现中文与英文文本效果动态融合,适用于广告、教育、影视等多领域。

iShot_2025-03-04_22.34.52

核心亮点

  1. 多模态能力:支持文本/图像输入生成480P及以上分辨率视频,且可生成动态字幕或特效。
  2. 创新架构:采用超长上下文训练和参数共享机制,降低训练成本。
  3. 开源免费:提供两种参数版本(14B、1.3B)的完整代码与权重。
  4. 高性能表现:在Vbench评测中以86.22%总分超越Sora、Luma、Pika等竞品。
  • iShot_2025-03-04_22.48.03
  • iShot_2025-03-04_22.36.48
  • iShot_2025-03-04_22.54.53

二、安装与本地部署

硬件要求

  • T2V-1.3B(1.3亿参数):普通个人电脑可运行,4分钟生成5秒480P视频。
  • T2V-14B(140亿参数):需高性能GPU(如NVIDIA A100),支持复杂场景和720P分辨率。

部署步骤

  1. 从开源平台下载模型:
    git clone https://github.com/Wan-Video/Wan2.1.git
    cd Wan2.1
  2. 安装依赖:
    # Ensure torch >= 2.4.0
    pip install -r requirements.txt

三、项目地址与在线体验

  • 开源代码仓库:
    • 阿里云Wan2.1
    • Hugging
    • 魔搭社区
  • 在线体验:目前需通过本地部署或社区提供的托管服务访问WebUI,暂未开放官方在线演示平台。

四、与竞品对比

特性 万相2.1 Sora(OpenAI) Pika / Luma
开源协议 Apache 2.0 闭源 / 付费订阅 闭源
分辨率支持 最高720P 480P(订阅版限制) 480P-1080P(部分收费)
多语言支持 中英双语动态字幕 英文为主 英文为主
生成速度 1.3B版:4分钟/5秒 约10分钟/5秒 相似或略慢
权威评测得分 Vbench总分86.22% 未公开 未公开

万相2.1在复杂运动生成(如流体模拟)、物理建模准确性以及文本-视频关联性方面展示出技术优势。

五、未来展望

  1. 文本到视频评估 通过人工评估,提示扩展后生成的结果优于闭源和开源模型的结果。
t2v_res
  1. 图像到视频评估 我们还进行了广泛的手动评估,以评估 Image-to-Video 模型的性能,结果如下表所示。结果清楚地表明,Wan2.1 的性能优于闭源和开源模型。
i2v_res
  1. 不同 GPU 上的计算效率 我们在下表中测试了不同 Wan2.1 模型在不同 GPU 上的计算效率。结果以以下格式显示:总时间 (s) / 峰值 GPU 内存 (GB)。
  • comp_effic
  • 此表中显示的测试的参数设置如下: (1) 对于使用 8 个 GPU 的 1.3B 模型,设置 和 ; (2) 对于 1 个 GPU 上的 14B 型号,请使用 ; (3) 对于单个 4090 GPU 上的 1.3B 型号,设置 ; (4) 对于所有测试,都没有应用提示扩展,这意味着没有启用。--ring_size 8--ulysses_size 1--offload_model True--offload_model True --t5_cpu--use_prompt_extend

####💡注意:T2V-14B 比 I2V-14B 慢,因为前者采样 50 步,而后者使用 40 步。


六、未来展望

阿里云计划于2025年第二季度开放训练数据集、视频编辑与转音频功能,并持续投入AI基础设施以巩固行业领先地位。对于开发者而言,其开源策略将加速AI视频生态的创新,尤其在低成本教育工具、文化遗产数字化等领域潜力显著。


  • 源码小站
  • 我的博客
  • 我的导航站
本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: 万相 视频AI 阿里云
最后更新:2025年 3月 4日

墨风如雪

一个热爱生活,热爱分享的程序员

打赏 点赞
< 上一篇
下一篇 >

文章评论

您需要 登录 之后才可以评论

墨风如雪

一个热爱生活,热爱分享的程序员

最新 热点 随机
最新 热点 随机
腾讯混元MT-7B:打破参数迷思,重塑机器翻译版图 瑞士AI宣言:Apertus如何定义开放大模型 月之暗面Kimi K2-0905:代码与创意的新篇章? 谷歌“蕉”傲登场!AI生图告别“走钟”时代 2025,AI世界模型新篇章:腾讯混元Voyager展望 单GPU秒产一分钟!MAI-Voice-1,微软语音AI的“核爆”时刻?
别再卷万亿参数了,这个4B模型正把AI工作站塞进你的手机全球最佳开放模型!OpenAI开源GPT-OSS,AI界迎来巨变!声音即影像:昆仑万维SkyReels-A3如何叩响内容创作的革命前夜9B参数硬撼72B,GLM-4.1V凭什么搅动AI江湖?2B参数掀翻巨头牌桌:昆仑万维UniPic 2.0的“四两拨千斤”天工V2发布:AI终于撕掉了“纯文本”的标签
AI“读心术”进化:昆仑万维天工奖励模型V2,参数越小,能力越“怪”! ComfyUI“打通任督二脉”:直接调用Veo2、GPT-4o等65大模型!一键串联你的AI工作流 Kimi变身学术“卷王”,你的论文和报告还好吗? Llama 4:参数屠榜还是数据注水?AI 圈的最新‘瓜’熟了没? 不同的角度看待问题 ArangoDB你会使用吗? 重磅炸弹!字节跳动开源BAGEL:70亿参数,统一多模态理解与生成,AI“全能王”诞生记!
标签聚合
教程 deepseek 算法 大模型 java AI 设计模式 spring

COPYRIGHT © 2023 墨风如雪博客. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang