墨风如雪博客

  • 源码小店
  • 传家宝VPS
让AI使用变得如此简单
  1. 首页
  2. AI
  3. 正文

阿里云万相2.1:开源视频生成模型的全面解析

2025年 3月 4日 318点热度 0人点赞 0条评论

一、模型简介

阿里云万相2.1(Wan 2.1) 是通义万相系列的最新多模态视频生成大模型,于2025年1月发布,同年2月25日全面开源。该模型支持文生视频(T2V)和图生视频(I2V),并首次实现中文与英文文本效果动态融合,适用于广告、教育、影视等多领域。

iShot_2025-03-04_22.34.52

核心亮点

  1. 多模态能力:支持文本/图像输入生成480P及以上分辨率视频,且可生成动态字幕或特效。
  2. 创新架构:采用超长上下文训练和参数共享机制,降低训练成本。
  3. 开源免费:提供两种参数版本(14B、1.3B)的完整代码与权重。
  4. 高性能表现:在Vbench评测中以86.22%总分超越Sora、Luma、Pika等竞品。
  • iShot_2025-03-04_22.48.03
  • iShot_2025-03-04_22.36.48
  • iShot_2025-03-04_22.54.53

二、安装与本地部署

硬件要求

  • T2V-1.3B(1.3亿参数):普通个人电脑可运行,4分钟生成5秒480P视频。
  • T2V-14B(140亿参数):需高性能GPU(如NVIDIA A100),支持复杂场景和720P分辨率。

部署步骤

  1. 从开源平台下载模型:
    git clone https://github.com/Wan-Video/Wan2.1.git
    cd Wan2.1
  2. 安装依赖:
    # Ensure torch >= 2.4.0
    pip install -r requirements.txt

三、项目地址与在线体验

  • 开源代码仓库:
    • 阿里云Wan2.1
    • Hugging
    • 魔搭社区
  • 在线体验:目前需通过本地部署或社区提供的托管服务访问WebUI,暂未开放官方在线演示平台。

四、与竞品对比

特性 万相2.1 Sora(OpenAI) Pika / Luma
开源协议 Apache 2.0 闭源 / 付费订阅 闭源
分辨率支持 最高720P 480P(订阅版限制) 480P-1080P(部分收费)
多语言支持 中英双语动态字幕 英文为主 英文为主
生成速度 1.3B版:4分钟/5秒 约10分钟/5秒 相似或略慢
权威评测得分 Vbench总分86.22% 未公开 未公开

万相2.1在复杂运动生成(如流体模拟)、物理建模准确性以及文本-视频关联性方面展示出技术优势。

五、未来展望

  1. 文本到视频评估 通过人工评估,提示扩展后生成的结果优于闭源和开源模型的结果。
t2v_res
  1. 图像到视频评估 我们还进行了广泛的手动评估,以评估 Image-to-Video 模型的性能,结果如下表所示。结果清楚地表明,Wan2.1 的性能优于闭源和开源模型。
i2v_res
  1. 不同 GPU 上的计算效率 我们在下表中测试了不同 Wan2.1 模型在不同 GPU 上的计算效率。结果以以下格式显示:总时间 (s) / 峰值 GPU 内存 (GB)。
  • comp_effic
  • 此表中显示的测试的参数设置如下: (1) 对于使用 8 个 GPU 的 1.3B 模型,设置 和 ; (2) 对于 1 个 GPU 上的 14B 型号,请使用 ; (3) 对于单个 4090 GPU 上的 1.3B 型号,设置 ; (4) 对于所有测试,都没有应用提示扩展,这意味着没有启用。--ring_size 8--ulysses_size 1--offload_model True--offload_model True --t5_cpu--use_prompt_extend

####💡注意:T2V-14B 比 I2V-14B 慢,因为前者采样 50 步,而后者使用 40 步。


六、未来展望

阿里云计划于2025年第二季度开放训练数据集、视频编辑与转音频功能,并持续投入AI基础设施以巩固行业领先地位。对于开发者而言,其开源策略将加速AI视频生态的创新,尤其在低成本教育工具、文化遗产数字化等领域潜力显著。


  • 源码小站
  • 我的博客
  • 我的导航站
本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: 万相 视频AI 阿里云
最后更新:2025年 3月 4日

墨风如雪

一个热爱生活,热爱分享的程序员

打赏 点赞
< 上一篇
下一篇 >

文章评论

您需要 登录 之后才可以评论

墨风如雪

一个热爱生活,热爱分享的程序员

最新 热点 随机
最新 热点 随机
DeepSeek OCR:用'眼睛'阅读长文本,AI记忆新纪元? 告别代码苦海:Manus 1.5 让你的创意以光速落地 Anthropic Haiku 4.5:这波AI性能,我愿称之为“超值”! 美团LongCat-Audio-Codec:给语音大模型装上“顺风耳”与“巧舌” 告别无声AI视频!谷歌Veo 3.1打造沉浸式视听盛宴 Karpathy的nanochat:百元就能造ChatGPT?AI圈炸锅了!
10秒100MB,ChatExcel一键PPT:它真把报告变“魔法”了?深思熟虑的“终章”:DeepSeek-V3.1-Terminus,不止于“完善”英伟达Audio2Face开源:AI给虚拟角色注入灵魂告别纸上谈兵:Meta CWM让AI代码真正活起来告别指令,迎接AI同事!Kimi“OK Computer”模式震撼登场AI视频革命奇点:Sora 2的数字幻境
别再卷万亿参数了,这个4B模型正把AI工作站塞进你的手机 java 微服务框架技术Dubbo解析 消费级显卡的 OCR 革命:256M 超轻量模型 SmolDocling 开源解析 不只靠“堆参数”:Qwen新突破ParScale,用“并行”让模型更聪明 国产AI震撼登场:Gaga,不只是一款视频生成器,它还是你的AI演员! java 消息队列框架RocketMQ的(超详细总结)
标签聚合
AI 教程 spring 算法 deepseek 大模型 java 设计模式

COPYRIGHT © 2023 墨风如雪博客. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang